Beruflich Dokumente
Kultur Dokumente
Apuntes de Clases
21 de septiembre de 2011
1 Escuela
de Negocios. Universidad Adolfo Ibanez. e-mail : jmbenavente@uai.cl. Notas
basadas en Benavente (2010). Todos los errores son responsabilidad del autor.
Captulo 1
Introduccin al Curso
1.1. Resumen
1. Conceptos y Metodologa en Econometra
2. Una Nota de Precaucin
1.1.1. Referencias
D.F. Hendry Dynamic Econometrics (1995) Captulo 1.
J. Kmenta Elements of Econometrics (1986) Parte 1.
P. Kennedy A Guide to Econometrics (1997) Captulo 1.
C. Mukherjee, H. White, M. Wuyts Econometrics and Data Analysis for
Developimng Countries (1998).
Dos artculos tiles:
C.L. Gilbert "Professor Hendrys Methodology". Oxford Bulletin of Eco-
nomics and Statistics (1986, Vol 48).
D.N. McCloskey y S.T.Ziliak "The Standard Error of Regresions". Journal
of Economic Literature (Vol 34, Marzo 1996)
1
ca. POr su lado, la economa matemtica est relacionada con la formalizacin
de la teora econmica sin preocuparse de los problemas estadsticos asociados a
la inferencia a partir de los datos. La econometra pretende principalmente cerrar
la brecha que existe entre la teora econmica y los sistemas econmicos reales
los que son pueden ser representados por datos.
Una Nota de Precaucin : Teora y datos estn ntimamente ligados ; los he-
chos no existen en el vaco, estos son distinguidos e interpretados por la teora.
Los "hechos"en este caso son representados por los datos que podemos recolec-
tar. La manera en que los recolectamos, cmo medimos el fenmeno econmico
inevitablemente est condicionado o guiado por la teora, aquella que utilizamos
para especificar los modelos economtricos.
2
Esto produce una gran tensin dentro de la econometra dado que uno de
los objetivos es el uso de modelos economtricos y los datos para evaluar teora
rivales como si los datos fueran independientes de la teora. La pregunta que
continuamente los investigadores se hacen es: cul es el rol que tiene los datos en
el proceso de la comprensin econmica?, cmo podemos mantener el balance
entre ser fieles a la a la teora y usar datos para calibrar el modelo terico, por
una parte, y por la otra, mantenerse agnstico acerca de la teora y usar los datos
para refinar (o incluso definir) nuestra visin terica del mundo?. Est tensin
est en el centro del debate metodolgico en esta rama cientfica y an no ha sido
resuelto.
Background. Los primeros aos de la econometra (entre los 30s y los 50s)
estuvieron concentrados principalmente en asuntos relacionados con la obtencin
de los estimadores, lo que , antes de la llegada de los computadores personales,
era una tarea monumental. De tal forma, la metodologa economtrica de ese en-
tonces trabajaba bajo el supuesto que el modelo a estimar era conocido y adems
era el correcto. La pobre performance de estos modelos sumado al hecho de la
fragilidad de los estimadores economtricos y las inferencias obtenidas de ellos,
represent un desafo significativo a la econometra y provey un estmulo para
la re-examinacin de la metodologa economtrica. Ya a los comienzos de los 70s
se observa un creciente cuestionamiento acerca de la metodologa utilizada en la
econometra.
La filosofa subyacente a los acercamientos contemporneos de la econometra
comienzan por revisar los cuestionamientos acerca de la computacin al notar
que, en general, la estimacin del modelo es fcil, pero que la especificacin y
evaluacin del modelo es difcil. De esta manera, la econometra es mas bien un
proceso de descubrimiento mas que uno de estimacin y el debate economtrico
consiste en el desarrollo de un proceso eficiente de descubrimiento, diseo y eval-
3
uacin.
Para formalizar un poco mas esta metodologa distinguiremos cuatro niveles de
informacin disponible al investigador (Hendry, 1995, Captulo 1)
Nivel B Teora de Estimacin donde la forma general del DGP es conocida pero
su calibracin (i.e. valores de los parmetros) es desconocida. Aqu, la verosimil-
itud de todos los posibles eventos puede ser slo inferida a partir de las observa-
ciones empricas (datos) con la ayuda de la teora desarrollada en el Nivel A.
4
(consistencia terica) y que tambin describe las caractersticas de los datos en
forma estadsticamente robusta (admisible por los datos). Este approach es referi-
do normalmente como un modelamiento del tipo general-a-especfico (general-to-
specific).
5
factorizado en sus procesos condicionales y marginales para cada t.
DV (Vt |Vt1 , ) = DX|W (Xt |wt , Vt1 , 1 )DW (wt |Vt1 , 2 ) (1.4)
DX (yt , zt |Xt1 , ) = Dy|z (yt |zt , Xt1 , 1 )Dz (zt |Xt1 , 2 ) (1.5)
6
4. Testeo Diagnstico. En el cual la validez estadstica del condicionamiento
est sujeta a un testeo riguroso. La falla en los tests implementados entrega
evidencia acerca de la invalidez de las condiciones de exogeneidad asumidas.
Estos aspectos sern analizados entre la quinta y sptima semana de clases.
Un modelo congruente es aquel que : a) es interpretable en trminos de los
parmetros estructurales de inters; b) coherente con los datos ; c) donde
exista estabilidad en los parmetros de tal forma que el modelo puede ser
generalizable para muestras alternativas.
Si los modelos resultantes no son congruentes (los cuales suele ser la regla al
comienzo de la investigacin) el proceso de reduccin general-a-especfico, al
considerar el condicionamiento, el proceso de simplificacin, la especificacin
dinmica, etc debern ser repetidos. La bsqueda de modelos congruentes
es, como se mencion, un proceso iterativo.
7
de que ordinariamente en economa, la significancia estadstica se considera como
similar a la significancia econmica.
Consideremos el siguiente ejemplo derivado de la teora de tasas de cambio, en
forma particular, la condicin de paridad de poder de compra (PPP):
P P P : P = + (EP ) + % (1.6)
donde H0 : = 1.
Suponga que derivamos una estimacin puntual de 0.95 para . Bajo que condi-
ciones podemos rechazar / no rechazar la hiptesis nula?. La respuesta es simple
ya que disponemos de metodologas estandarizadas para construir intervalos de
confianza. Sin embargo, que significa decir que = 0.95 no es diferente de la
unidad si T = 100 pero lo contrario si T = 1000?. Es realmente diferente de la
unidad?
Pruebas de significancia tratan solamente con errores muestrales (i.e. la precisin
de una estimacin) pero altas o bajas significancias estadsticas no necesariamente
determinan cuan importante es la variable. Un valor de = 0.95 puede ser sufi-
cientemente cercano para un economista que investiga, por ejemplo, ndices de
estndar de vida entre pases. Es claramente diferente de uno para un trader en
los mercados internacionales de divisas.
8
Captulo 2
2.1. Resumen
1. Estimacin: Conceptos Bsicos
2.1.1. Referencias
Gujarati: Parte 1
Greene: Captulos 3 y 4
Kennedy: Captulo 2
Mukherjee:Captulo 2
2.2. Introduccin
En esta y la clase siguiente nos preocuparemos de revisar dos importantes
actividades de la econometra:
9
Estimacin: el uso de informacin muestral para obtener estimadores de parmet-
ros poblacionales (basados en supuestos sobre la DGP-Nivel B).
Estos dos componentes sern revisados a la luz del modelo clsico de regresin
lineal, piedra angular en la econometra moderna.
2.3. Estimacin
Dejaremos para la siguiente clase mtodos especficos de estimacin donde ex-
aminaremos el mtodo de Mxima Verosimilitud as como el ya conocido mtodo
de Mnimos Cuadrados o el mas novedoso mtodo de los Momentos. Por ahora
nos concentraremos en las propiedades deseables de un estimador general.
Supongamos que el parmetro de inters es (el que puede ser la media, varianza,
skewness u otro momento mayor), nos referiremos al estimador como . Cada
observacin individual se denomina como una estimacin de dicho estimador.
Sesgo = [E() ]
10
que pudiera tener una varianza menor.
Convergencia en Probabilidad
Una variable aleatoria x converge en probabilidad si:
lm x = plimx = x
n
El Teorema de Slutsky
Si g(x) es una funcin continua de x entonces:
11
El lmite de la funcin es la funcin en el lmite. Notar que esta no es una
propiedad general de las funciones (p.e. Desigualdad de Jensen)1 .
El teorema de Slutsky aplicado a vectores (matrices) aleatorias como tam-
bin a escalares aleatorios es como sigue.
Si plim Wn = , entonces, plim Wn1 = 1 .
d d
Si xn x y plimyn = c entonces xn yn cx
d d
Si xn x y g(x) es cncava entonces g(xn ) g(x)
Distribucin Asinttica.
1
La desigualdad de Jensen sugiere que, en general, E[g(x)] $= g[E(x)]. Mas especficamente,
cuando g(x) es una funcin convexa, E[g(x)] g[E(x)].
12
Distribuciones lmites son de poco uso directo cuando estamos preocupados
por las propiedades de los estimadores derivadas a partir de muestras finitas
de observaciones. En tales circunstancias haremos uso de aproximaciones a
la verdadera (pero desconocida o no computable) distribucin mediante el
anlisis de la distribucin del estadstico a medida en que el tamao de la
muestra tiende a infinito.
a
xn f (x, n)
lm E() =
n
Teorema 1
Si x1 , .., xn son una muestra aleatoria y sabiendo que estas variales son idntica e
independientemente distribuidas cada una teniendo la misma media y varianza
2 , entonces cualquiera que sea la forma de la distribucin de X , la distribucin
muestral de la variable aleatoria X tendr una media igual a la media poblacional
2
pero con una varianza igual a n .
13
donde X1 , .., Xn son n variables obtenidas de la misma muestra. Se asume que
Xi son i.i.d. Dado que n es constante, se tiene que :
n n
1! 1 !
E(X) = E Xi E(X) = E Xi
n i=1 n i=1
sabemos que en el caso de una funcin lineal, el valor esperado de una suma es
igual a la suma de los valores esperados. Dado que la media de cada Xi es ,
entonces:
1 1 n
E(X) = [E(X1 ) + ... + E(Xn )] = [ + ... + ] =
n n n
as, la media de la distribucin muestral es igual a la media poblacional. POr otra
parte, la varianza de la media muestral es:
" n # n
1 ! 1 !
2
X = V ar(X) = V ar Xi = 2 V ar[ Xi ]
n i=1 n i=1
dado$que las $
variables son independientes, sus covarianzas son cero, entonces,
V ar[ Xi ] = V ar(Xi ).
2 1 2
X = [V ar(X1 ) + ... + V ar(Xn )] =
n2 n
2
En resumen: si X (, 2 ) entonces X (, n ).
14
Finalmente, el teorema central del lmite tambin se puede aplicar en un contexto
multivariado:
el que dice que la distribucin lmite de la media muestral es una Normal (mul-
tivariada).
Los teoremas central del lmite nos entregan una indicacin acerca de las propiedades
de la distribucin lmite de la media muestral. Existe un ltimo teorema funda-
mental:
El teorema central del lmite es una piedra angular en la econometra pues nos
permite basar nuestras inferencias acerca de las propiedades de la muestra bajo
el supuesto que su distribucin puede ser aproximada por una Normal indepen-
dientemente de la distribucin de la poblacin. Ya que la gran mayora de los
estimadores que se usan en econometra estn basados en el TLC, observarn
estas expresiones asintticas a menudo.
15
2.5. El Modelo Clsico de Regresin Lineal
Comenzaremos con el modelo simple de regresin lineal bivariado el cual puede
ser derivado como una esperanza condicionada de una distribucin normal bivari-
ada (ver ayudanta).
Yi = + Xi + %i (2.1)
donde Y es la variable dependiente y X es la variable independiente, y son los
parmetros de la regresin y % es un trmino de error estocstico. Los subindices
se refieren a las observaciones muestrales i los que pueden ser referidas al tiempo,
a un individuo o una firma.
Una caracterstica central de estos cuatro primeros supuestos consiste en que el er-
ror es una secuencia de eventos independientes e individualmente insignificantes.
El trmino de error no contiene informacin sistemtica sobre Y.
16
manera de que para cualquier muestra de tamao n:
n
1!
(Xi X)2 $= 0
n i=1
y su lmite, a medida que n tiende a infinito es finito. Ello implica de que (i)
los valores de X en la muestra no puede ser iguales y que no pueden aumentar
o decrecer sin lmite a medida de que la muestra crece. De ser as, entonces su
varianza no podra ser definida (por qu? ).
17
Captulo 3
3.1. Resumen
1. Estimacin de los parmetros en el modelo CLR
2. Inferencia en el CLR
3.1.1. Referencias
Gujarati. Parte 1
Kmenta. Captulo 6
Greene. Captulos 4 y 5
Yi = + Xi + %i (3.1)
18
Como principal objetivo deseamos estimar y realizar inferencias acerca de la (de-
sconocida) relacin entre X e Y (i.e., los parmetros de la distribucin condicional
(Y|X). Los primeros dos momentos de la distribucin son:
E(Yi ) = E( + Xi + %i ) = + Xi (3.2)
para la media y:
Dados los supuestos sobre los errores en el CLR, existen slo tres parmetros
de inters : los parmetros que describen la media condicional de Y - en este
caso y - y los parmetros del trmino de error. Dado, que por definicin,
% n.i.i.d(0, 2 ) el nico parmetros desconocido es 2 . De esta forma, deseamos
estimar estos tres parmetros a partir de la informacin muestral. Examinaremos
slo dos mtodos de estimacin en detalle : mxima verosimilitud (MLE) y mn-
imos cuadrados ordinarios (OLS). El tercer mtodo de estimacin, el mtodo de
los momentos (MM), ser revisado brevemente pero lo veremos mas en detalle al
final del curso.
19
Si las observaciones son independientes, entonces la distribucin de probabilidad
conjunta de las n observaciones es:
Esta distribucin de probabilidad conjunta asume que los parmetros son conoci-
dos y que los datos son variables aleatorias. Suponga que notamos que para una
muestra dada, los valores x1 son conocidos y los parmetros desconocidos. La
distribucin conjunta dada la muestra puede ser expresada en trminos de los
parmetros desconocidos dado los datos, de la siguiente forma:
En la funcin de verosimilitud, los valores de X son fijos - ellos son los que se ob-
serva en la muestra. El mtodo de ML consiste simplemente en escoger los valores
de los parmetros que maximizan su valor. En otras palabras, el investigador se
pregunta que valores de los parmetros para esta (clase de ) distribucin puede
ser la mas probable de haber generado esta muestra de datos?
Ejemplo
La muestra de observaciones X1 , X2 , ..., X10 pudo haber sido creada por cualquier
distribucin de probabilidades dado que el rango se extiende desde a +.
Sin embargo, la probabilidad de que X1 , X2 , ..., X10 haya sido generada por la
distribucin A o la distribucin C es muy baja. Por otra parte, la probabilidad
de que las observaciones hayan sido generadas por la distribucin B es muy alta.
20
Decimos que B es la distribucin de mxima verosimilitud (aquella mas proba-
ble) para esta muestra de datos y que los parmetros estimados (de los momentos
) de B son los estimadores mximo verosmiles.
A B
C
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
21
Dado que %i = yi Xi entonces la derivada de y con respecto a % es igual
a uno y , en consecuencia f (yi ) = f (%i ). Por otra parte, sabemos que la forma
funcional general de una distribucin Normal con media y desviacin estndar
es:
1 (X)2
f (X|, ) = e 22 (3.7)
2
Con esto y el teorema de cambio de variables podemos inferir que, bajo los
supuestos del CLR, los valores de Y estn normalmente distribuidos y son in-
dependientes. De esta manera, podemos escribir la funcin de verosimilitud como
sigue:
L = f (y1 ) f (y2 ) f (yn ) (3.8)
Dado que es mas fcil trabajar con expresiones aditivas, y dado que la funcin
logaritmo es montona , entonces la expresin en (8) es equivalente a la siguiente
expresin:
!n
log(L) = logf (yi ) (3.9)
i=1
Por otra parte, dado que cada yi es normalmente distribuido con media + Xi
y varianza 2 entonces podemos expresar cada f (yi ) (en logaritmos) como:
( )2
1 1 yi Xi
2
logf (yi ) = log(2 ) (3.10)
2 2
22
Resolviendo estas tres condiciones de primer orden encontramos los estimadores
mximo verosmil de los parmetros para el caso de una distribucin normal
conjunta. Especficamente, de (12) y (13) podemos obtener:
n
! n
!
yi = n + Xi (3.15)
i=1 i=1
n
! n
! n
!
Xi yi = Xi + Xi2 (3.16)
i=1 i=1 i=1
Multiplicando (16) por n y sustituyendo n de (15) tenemos:
$ $ $ $
n( Xi yi ) ( Xi )( yi ) (Xi X)(yi y)
M L = $ 2 $ 2
= $ (3.17)
n( Xi ) ( Xi ) (Xi X)2
y de (15) tenemos:
n n
1! L 1
!
L X
M
L = yi + M Xi = y M (3.18)
n i=1 n i=n
Como veremos mas abajo, estos son precisamente los mismos estimadores que los
obtenidos por OLS para el CLR.
23
3.2.2. Estimacin II : Mnimos Cuadrados Ordinarios
La estimacin por OLS ( o MCO) - la mas popular de las tcnicas de esti-
macin - es un caso especial de la estimacin por ML cuando el modelo es lineal
en los parmetros. El principio subyacente en la estimacin OLS est rela-
cionado con la seleccin de aquellos parmetros de la distribucin (desconocida),
especficamente y , los parmetros de la media en un modelo de regresin
lineal con el fin de minimizar la suma de las desviaciones cuadradas de los datos
observados de yi con respecto a su media E(yi ). Formalmente, lo que se desea es
minimizar: n n
! !
mn S = [yi E(yi )]2 = (yi Xi )2 (3.21)
,
i=1 i=1
Las condiciones de primer orden vienen dadas por:
n n
S ! (yi Xi )2 !
= = 2(yi Xi )(1) = 0 (3.22)
i=1
i=1
y tambin por:
n n
S ! (yi Xi )2 !
= = 2(yi Xi )(Xi ) = 0 (3.23)
i=1
i=1
las que son exactamente iguales a las condiciones de primer orden de los esti-
madores ML. No obstante, esto no es un resultado general : es una caracterstica
del CLR. Mas tarde veremos casos donde los estimadores OLS no son los mismos
que aquellos MLE.
24
un CLR tiene este conjunto de propiedades. Particularmente demostraremos que
este estimador es MELI ( o BLUE en ingls). Por mejor entenderemos aquel
que tiene la mnima varianza y por lineal el que requiere que el estimador sea una
funcin lineal de la muestra de observaciones.(ver notas adjuntas)
Algunas aplicaciones donde este estimador es muy til son las siguientes:
Modelos donde existe autocorelacin/ heteroscedasticidad en el trmino de
error
Modelos autoregresivos con datos de panel
Modelos con seleccin de muestras
Estos modelos los revisaremos en la segunda mitad del curso. Mientras tanto,
una introduccin a nivel intuitivo. Primero, algo de notacin. En general, nos
referiremos al k-simo momento de una variable aleatoria como:
n
1! k
mk = X
n i=1 i
25
La pregunta que surge naturalmente es cmo estimamos . De la ecuacin anterior
podemos construir una condicin de momento:
E(yi ) = 0 (3.26)
Una caracterstica general del mtodo de los momentos es que deben existir a
lo menos el mismo nmero de condiciones (independientes) de momentos (i.e.
ecuaciones) como el nmero de parmetros desconocidos a estimar. Suponga que
tenemos mas ecuaciones de momentos que el nmero de parmetros a estimar.
Si es ese el caso requeriremos un mtodo que combine eficientemente las condi-
ciones de momentos. Este es el llamado Estimador General de Momentos
(estimador GMM) que los discutiremos en detalle mas adelante.
2. Dado que los estimadores son insesgados, entonces la media del estimador
es igual al verdadero valor del parmetro.
26
3. De la derivacin de las propiedades BLUE de los estimadores, conocemos
la varianza de y . Adems sabemos que:
( % &)
1 X 2
N , 2
+$ 2 (3.29)
n xi
( )
2
N , $ 2 (3.30)
xi
Caractersticas de la Varianza de y
1. La varianza aumenta con 2 . Mientras mayor la varianza de Y, dado los
valores de X, la estimacin de los parmetros es menos precisa.
2. La varianza de y decrece con aumentos en la variacin de X. En otra
palabras, mientras mayor variacin exista en el lado derecho ceteris paribus
mas precisa ser la estimacin de los parmetros y . En el lmite, si todos
los valores de X toman el mismo valor, la varianza ser infinita.
3. La covarianza entre y , la cual mide la relacin entre los errores mues-
trales de los dos estimadores, viene dada por la siguiente expresin:
% 2 &
2
Cov(, ) = E( )( ) = XE( ) = X $ 2 (3.31)
xi
Un resultado clave de la relacin anterior es el hecho que si la media de X
es positiva, entonces los errores muestrales de y estn correlacionados
negativamente.
Intervalos de confianza para y : una aplicacin de la distribucin t-student
De lo anterior, sabemos que:
N [, 2 ] N (0, 1) (3.32)
lo que dice simplemente que el estimador de se distribuye normal, lo que im-
plica que puede ser expresado como una normal estndar. Pero ello asume que
la varianza de es conocida....pero esto no es as y necesita en consecuencia ser
estimada. Procederemos de la siguiente forma:
27
Ahora, dividiendo (32) por la raz de (33) obtenemos una expresin la cual genera
una expresin para la distancia en que el valor estimado para se desva de su
verdadero valor. Esta expresin tienen una distribucin bien definida, conocida
como t-student, la que puede ser usada para calcular intervalos de confianza para
el estimador.
( )/
* = tn2 (3.34)
(n 2)S 2 /(n 2) 2 S
(n 2)S 2
2n2 (3.36)
2
y de esta forma un intervalo de confianza puede ser construido a partir de la
distribucin Chi-cuadrado notando que existen en este caso v = n 2 grados de
libertad.
28
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
prediccin media de Y
media de X Xi
Si sumamos sobre el cuadrado de esta expresin para todas las observaciones (el
elevar al cuadrado considera en forma anloga tanto los errores positivos como
los negativos), tendremos que:
n
! n
! n
! n
! n
!
(Yi Y ) =2
([Yi Y ]+%i ) = 2 2
(Yi Y ) + %2i +2 (Yi Y )%i (3.37)
i=1 i=1 i=1 i=1 i=1
Ahora bien, dado que el tercer trmino puede ser expresado como:
n
! n
! n
! n
! n
!
(Yi Y )%i = ( + X Y )%i = %i + Xi %i Y %i = 0 (3.38)
i=1 i=1 i=1 i=1 i=1
entonces: n n n
! ! !
2
(Yi Y ) = 2
(Yi Y ) + %2i (3.39)
i=1 i=1 i=1
el que sugiere que la Suma de Cuadrados Totales (TSS) es la suma de los Suma de
los Cuadrados Explicados (ESS) mas la Suma de los Cuadrados de los Residuos
(RSS).
Finalmente, notar que:
n
! n
! n
!
ESS = (Yi Y )2 = ( + Xi Y )2 = [(Y X) + Xi Y ]2 (3.40)
i=1 i=1 i=1
29
n
! n
!
ESS = [(Xi X)]2 = 2 x2i (3.41)
i=1 i=1
donde 0 R2 1.
ANOVA y el uso del estadstico F para la evaluacin de Modelos
El problema con el R2 es que es una estadstico descriptivo el que no tiene una dis-
tribucin bien definida. Podemos testear la hiptesis de no existencia de relacin
alguna entre X e Y mas formalmente de la siguiente manera:
n
! n
! n
!
E(ESS) = E(2 x2i ) = E[( ) + ]2
x2i 2
= + 2
x2i (3.43)
i=1 i=1 i=1
30
variable explicativa). En el ejemplo anterior, exista una sola restriccin hipotti-
ca: = 0. Generalmente, podemos considerar cualquier forma de restriccin, por
ejemplo denotada por r y estimar el modelo bajo esta restriccin o conjunto de
restricciones. Lo que haremos despus es comparar este modelo restringido con
aquel sin ninguna restriccin. El estadstico general que nos permite realizar esta
prueba viene dado por la siguiente expresin:
Todo test puede ser pensado como una restriccin sobre los valores de los parmet-
ros. Las pruebas significan simplemente examinar si al imponer la restriccin (R )
implica una significativa prdida de verosimilitud relativa al valor del parmetro
bajo la situacin no restrictiva M L . Del diagrama es claro que puede ser medido
de tres forma diferentes.
31
L(theta)
L(theta ML)
L(theta R)
C(theta)
LM
Wald
32
donde I() es la covarianza de evaluada a los valores restringidos de los parmet-
ros.
Prueba de Wald.
Esta prueba es similar a la prueba LM y explota la caracterstica de continuidad
de la funcin de verosimilitud. Supongamos que existe una funcin C() continua,
monotnica en y definida de tal manera de que tenga un valor igual a cero para
los valores restringidos de los parmetros. Esta funcin tendr un valor distinto
de cero para cualquier otro valor de los parmetros incluidos aquellos mximo
verosmiles sin restriccin. Entonces el test de Wald se define de la siguiente
manera:
W = C(M L )% [V (R(M L ))]1 C(M L ) 2R (3.49)
Donde V (R(M L )) es una estimacin consistente de la covarianza de evaluada
en los valores mximo verosmiles sin restringir.
Notar que:
3. Todas las pruebas que veremos mas adelante estn basados en alguno de
estos tres tests.
33
Captulo 4
4.1. Resumen
1. Modelos Lineales versus no-lineales
3. Multicolinealidad
4.1.1. Referencias
Gujarati. Secciones 6.2, 8.9 y 10
34
Kmenta. Secciones 11, 10.3
1. Modelos polinomiales
35
donde:
E(Yi )
= g(X3i )
X2i
y:
E(Yi )
= h(X2i )
X3i
Esto puede ser manejado usando una variable de interaccin no lineal:
E(Yi )
= 1 + 3 X3i
X2i
y:
E(Yi )
= 2 + 3 X2i
X3i
La ecuacin (2) es no lineal pero puede ser redefinida como lineal si Z =
X2i X3i . Notar que al contestar la pregunta cul es la consecuencia de un
cambio en Y como resultado de un cambio en X2 ? puede ser slo respondida
al escoger explcitamente un valor de X3 (a menudo en su media a en un
valor interesante en particular).
Y = A + 1 Z1 + 2 Z2 + % (4.5)
36
4. Modelos lineales Semi-log.
Dos formas de modelos semi-log existen:
log(Y ) = + X + % (4.6)
Y = + log(X) + % (4.7)
Notar que la semi-elasticidad de Y con respecto a X es (X) en la ecuacin
(6) y (1/Y ) para la ecuacin (7). A diferencia del modelo log-lineal, la
semi-elasticidad no es constante.
5. Modelo Recproco.
Y = + (1/X) + % (4.8)
donde la elasticidad es :
(4.9)
XY
Todos estos resultados se resumen en la siguiente tabla.
Cuadro 1: Forma funcional y elasticidad
37
Esto significa que no podemos utilizar el mtodo de OLS para estimar (10).
No obstante podemos utilizar un mtodo de estimacin no lineal como los
Mnimos Cuadrados No-Lineales (NLS) o nuestro ya conocido MLE.
Una discusin del NLS se presenta en el apndice, mientras que aqu nos
concentraremos en el MLE:
Dado que la funcin de verosimilitud en logaritmo de (10) puede ser escrita
como :
n
n n 1 !
2
log(L) = log(2) log( ) 2 (Yi X11 X22 )2 (4.11)
2 2 2 i=1
es claro que esta puede ser resuelta para los cuatro parmetros del problema,
a saber , 1 , 2 y 2 . Dado que (11) es no lineal, la solucin puede ser slo
derivada al usar un algoritmo maximizador lo que no trae problemas
computacionales de magnitud.
Funciones de Produccin tipo CES y la Expansin de Taylor
Las funciones de produccin tipo CES son ampliamente utilizadas en economa.
Tiene la siguiente forma:
Q = A[K + (1 )L ] e (4.12)
38
donde:
1
A = e 0 , = , = (1 + 2 )
(1 + 2 )
y:
24 (1 + 2 )
=
1 2
La ecuacin (15) puede ser generalizada un paso mas al expandir el com-
ponente cuadrtico y dar finalmente lo siguiente:
Pruebas de Linealidad
H0 : Y = + X + %1 (4.17)
39
autores proponen la siguiente aproximacin. Reescribiendo (19) tenemos
que:
Esta es una forma muy general, pero todas las formas particulares discutidas
anteriormente pueden ser derivadas de (22) dependiendo de los valores de
y .
40
a) Caso en que = = 0
Pareciera como si las expresiones en Y y X fueran cero bajo esta re-
striccin, pero al usar la regla de LHopital tenemos que:
% & % &
Yi 1 d(Yi 1)/d
lm = lm = lm Yi log(Yi ) = log(Yi )
0 0 1 0
b) Caso donde = = 1
En este caso (22) colapsa en la siguiente expresin:
(Yi 1) = + (Xi 1) + % Yi = + Xi + % (4.24)
donde = + 1. El cual es el modelo de regresin lineal simple.
Debera ser claro ahora la forma en que opera este procedimiento. Por ex-
tensin tenemos que:
= 1 y = 0 genera un modelo semi logartmico: Y = + log(X) + %
= 0 y = 1 genera un modelo semi logartmico: log(Y ) = + X + %
= 1 y = 1 genera un modelo recproco.
Cmo podemos determinar los valores de y ? La respuesta es simple-
mente estimar estos parmetros junto con los dems parmetros del mod-
elo en (22) mediante el uso de MLE y testear el valor de los parmetros
utilizando pruebas del tipo LM discutidas anteriormente (ver Davidson y
Maclinnon, 1993 captulo 14).
41
pero nosotros estimamos el siguiente modelo:
Yi = 1 + 2 Xi2 + %i (4.26)
El Valor Esperado de 2 .
Si (26) fuera correcto, entonces los estimadores de 1 y 2 seran insesgados y
eficientes. Ahora consideremos que el modelo (26) es el incorrecto y que el correcto
es (25). De (26) podemos estimar 2 (y tambin 1 ) como:
($n )
i=1 (Xi2 X2 )(Yi Y )
E(2 ) = E $n 2
(4.27)
i=1 (Xi2 X2 )
con: $n
i=1 (Xi2 X2 )(Xi3 X3 )
d32 = $n 2
i=1 (Xi2 X2 )
el cual sugiere que si el segundo trmino 3 d32 es cero, entonces el estimador
obtenido en (26) sera insesgado. El mismo mtodo se puede aplicar para el esti-
mador del intercepto 1 . As :
con:
d31 = X3 + d32 X2
Notar que las expresiones d31 y d32 son, de hecho, los coeficientes mnimo cuadrti-
cos en la regresin de Xi3 (la variable omitida) sobre la variable incluida Xi2 .
2
V ar(2 ) = E(2 2 ) = $n 2
(4.32)
i=1 (Xi2 X2 )
42
Sin embargo, dado el modelo incorrecto, la verdadera ecuacin para la varianza
es estimada incorrectamente. Especficamente, a partir del modelo incorrecto la
varianza de 2 es:
$
s2 [(Yi Y ) 2 (Xi2 X2 )]2 /(n 2)
2
s2 = $n 2
= $ (4.33)
i=1 (Xi2 X2 ) (Xi2 X2 )2
Implicaciones:
43
Cuadro 2: Sesgo
3 d32 sesgo
+ + +
+ - -
- - +
- + -
2 2
V ar(2 ) = $n 2
y V ar(2
) = $n 2 2
(4.36)
i=1 (Xi2 Xi2 ) i=1 (Xi2 Xi2 ) (1 r23 )
44
al incluir todas las variables posibles (incluso algunas irrelevantes) tiene la con-
secuencia de incrementar la varianza de los estimadores de los parmetros.
4.4. Multicolinealidad
Suponga que hemos escogido la forma funcional correcta y tambin el con-
junto correcto de variables, ahora veremos lo que puede suceder si las variables
escogidas son colineales. Aunque no lo hemos visto formalmente, el CLR asume
que los regresores X no estn perfectamente correlacionados entre ellos (ya sea
en un sentido bivariado o en una combinacin lineal).
Y = 1 + 2 X2 + 3 X3 + % (4.37)
2 2
V ar(k ) = 2
$n = 2
(4.38)
(1 rjk ) i=1 (Xik Xk )2 (1 rjk )Skk
donde, para e caso de dos variables independientes (I.e. k = 2), r12 es la coeficiente
de correlacin entre X1 y X2 , y Skk es la suma de las desviaciones al cuadrado
para la variable Xk .
45
Si la colinealidad entre X1 y X2 es perfecta, entonces r12
2
= 1 y la varianza de k
es infinita. De esta manera, el modelo no puede ser interpretable dado que una
varianza infinita significa que no podemos rechazar ninguna hiptesis acerca del
verdadero valor de k . Este es un problema en la especificacin del modelo.
Sntomas de la Multicolinealidad
46
Es, en consecuencia, fcil observar que si agregamos una variable al modelo la
que es altamente colineal con xk , entones esto puede :
1. Dejar el valor de Skk sin alterar.
2. No alterar 2 (ya que si xk y la nueva variable estn altamente correla-
cionadas y entonces xk ella misma ha explicado ya bastante de la variacin
en Y que la nueva variable se supone debera explicar).
3. Aumente el valor de Rk2 .
En consecuencia, la varianza de k (V ar(k )) aumentar. Una varianza mas alta
para el estimador de k es consistente con los tres sntomas descritos anterior-
mente.
47
El estimador de Ridge es el siguiente :
br = [X % X + rD]1 X % y
La cual es menor que la varianza del estimador OLS ante la presencia de multi-
colinealidad. La eleccin de r depender si el estimador de Ridge tendr un Error
Cuadrtico Medio (MSE)menore que el de OLS.
48
Captulo 5
1. Normalidad [ Clase 5 ]
2. Homoscedasticidad [ Clase 6 ]
49
Parte I No-Normalidad
5.1. Resumen
1. Las consecuencias de que e $ N.i.i.d para la estimacin e inferencias
3. Soluciones al problema
5.1.1. Referencias
Kmenta Captulo 8
Greene Captulo 10
5.2. No Normalidad
El supuesto de normalidad en el trmino de error es una piedra angular en el
resultado de que los estimadores OLS fueran eficientes (el teorema de cota mnima
de Cramer-Rao). Tambin es necesario para construir intervalos de confianza
correctos para los estimadores de parmetros. Sin el supuesto de normalidad en
el trmino de error, los estadsticos mas utilizados como t, F y chi-cuadrado
no tienen estas distribuciones y en consecuencia, no pueden ser utilizados para
realizar inferencias.
50
2. Gracias al Teorema del Lmite Central, a pesar de que el error no est
distribuido normal, los estimadores del parmetros si lo estarn en muestras
grandes. De esta manera, la distribucin normal de los estimadores lineales
puede ser utilizada para inferencia.
Pero.....
3. El estimador OLS puede que no sea eficiente o asintticamente eficiente. En
otras palabras, el estimador OLS no ser ya BLUE.
Es esta tercera implicancia la que debera llamarnos la atencin. Si los errores
no estn normalmente distribuidos entonces existen otros estimadores, a parte de
los OLS, que nos puedan entregar con una estimacin eficiente de los parmetros
del modelo ?. Examinaremos tres de estos estimadores, la desviacin absoluta
mnima (MAD), su colega cercano, el estimador robusto y el estimador por
regresin cuantil. Pero antes, debemos analizar la forma de determinar si el
trmino de error, es efectivamente normal.
5.2.2. Deteccin
En el Apndice de estas notas se discuten mtodos para la identificacin y el
anlisis de no normalidad usando herramientas estadsticas basadas en series or-
denadas. Estos mtodos son slo aplicables si los datos no tiene un orden natural
como sera en el caso de datos de serie de tiempo. Si estos tiene un orden natural,
estaremos un poco mas restringidos en cuanto a los mtodos de deteccin que
podremos implementar.
51
Por otra parte, la medida estndar de kurtosis, la cual es una medida de la anchura
de las colas de la distribucin, tiene la siguiente frmula :
E(4 )
b2 = (5.2)
( 2 )2
Algunos ejemplos
52
distribucin. En otras palabras, este estimador le da demasiado peso a los eventos
que ocurren con baja probabilidad. Ello debido a que el OLS est basado en la
suma de las desviaciones al cuadrado de la regresin. Es por ello que este esti-
mador es ineficiente bajo situaciones de no normalidad.
Estimadores Robustos
Si el estimador OLS funciona bien en los casos de normalidad pero ineficien-
temente en casos de exceso de kurtosis, se ha propuesto el diseo de un estimador
el que entregue diferentes mtodos de estimacin dependiendo de la estructura
del trmino de error. Esta es la nocin de estimador robusto. Este tipo de
estimador puede ser descrito de la siguiente forma :
n
!
mn = (Y X) (5.6)
i=1
53
Regresin Cuantil
El estimador MAD es un caso espacial de un estimador mas general denom-
inado regresin cuantil (quantile regression) el cual es particularmente til en
el anlisis de datos de encuestas donde hay presencia de hetersocedasticidad.
Este estimador lo discutiremos en la siguiente clase.
54
que pueden presentar los datos. Veamos algunas medidas de ouliers, leverage e
influencia.
Para identificar un outlier podramos ordenar los residuos por sus errores es-
tndar en el modelo (i /S). Sin embargo, si existe un outlier este incrementar s
y en consecuencia, la desviacin de de S se ver reducida. Para salvar este prob-
lema podemos utilizar un residuo studientizado el cual se define de la siguiente
manera :
ti = +i t1
S(i) (1 hi )
Donde hi es igual como se defini anteriormente y S(i) es la ecuacin para el error
estndar al borrar la observacin i-sima.
bj bj (i)
DF ji =
Se(bj )(i)
55
5.4. Apndice
Identificacin de No normalidad mediante el
uso de Estadsticas de series ordenadas
El anlisis basado en orden puede ser slo posible si los datos pueden ser re
ordenados, por ejemplo en trminos creciente de acuerdo al tamao. Esto es posi-
ble en el caso de datos de corte transversal pero no as en series de tiempo. En
estos casos podemos utilizar medidas resistentes como la mediana.
Outliers
Outliers como vimos, pueden afectar aquellas estadsticas que estn basadas en la
media pero no as necesariamente en aquellos estadsticos mas resistentes. Existen
variadas formas de definir un outliers, pero en general podemos clasificarlas como
sigue :
Y0 es un outlier si : Y0 < Ql 1,5IQR o bien Y0 > QU + 1,5IQR
Y0 es un outlier extremo si : Y0 < Ql 3,0IQR o bien Y0 > QU + 3,0IQR
56
con 1 bS 1.
Tanto el IQR como la desviacin estndar miden el grado de tendencia central
en una distribucin. Si una variable est normalmente distribuida entonces el
IQR = 1,35.
Sp = IQR/1,35
con s (la desviacin estndar de la serie). Pueden ocurrir entonces, tres posibili-
dades :
Sp < S Distribucin mas ancha que las colas normales
Sp S Distribucin normal
Sp > S Distribucin mas angosta que colas normales
57
Captulo 6
6.1. Resumen
Errores no esfricos y el Modelo de Regresion Generalizado
Heterocedasticidad-Consecuencias
Heterocedasticidad-Deteccin
Heterocedasticidad-Soluciones
6.1.1. Referencias
Gujarati Captulo 11
Grenne Captulos 14
y = x + % E[%] = 0 (6.1)
E[%%] = % N (0, )
58
donde es una matriz cuadrada n n positiva definida referida normalmente
como la matriz de varianza covarianza.
El modelo de regresin clsico asume que las distribuciones son esfricas.
Esto implica que E[%] = 0 y:
2 0 . . . 0 1 0 ... 0
0 2 . . . 0 0 1 ... 0
2
% 2
E[%% ] = I = .. = .. (6.2)
0 0 ... . 0 ... ... .
0 0 . . . 2 0 0 ... 1
59
Sabemos que este estimador es insesgado:
2 = E(X % X)1 (X % (x + %)) = + E(X % X)1 X % % =
E()
P % P = 1
P Y = P X + P % (6.5)
Esta transformacin asegura que (5) satisface todos los supuestos del modelo
clsico. En particular, el estimador GLS viene dado por:
2GLS = (X % P % P X)1 (X % P % P Y )
= (X % 1 X)1 (6.9)
60
el cual es el valor BLUE para la matriz de varianza- covarianzas para cualquier
matriz de varioanza-covarianza arbitraria.
GLS Factible
Si el verdadero valor o estructura de es conocida (como suele suceder en la
practica), debemos entonces estimarla. Tipicamente podemos estimar la matriz
de varianza-covarianzas como una funcion de un pequeo conjunto de parametros
2 y en
2 = ()
= () Con el fin de hacer el GLS factible, nesecitamos de que
consecuencia, el Estimador GLS Factible (o admisible) viene dado por:
2GLS = (X %
2 1 X)1 X % 1Y
2 (6.10)
6.3. Heterocedasticidad
El modelo de regresin clsico asume que:
V ar(%2i ) = 2 i
Dado que la medida de %i es cero, esto implica que E(%2i ) = 2 para todos los i.
Violaciones de este supuesto se denominan Heterocedasticidad, y es un problema
muy recurrente en datos de corte transversal (cross-section data).
6.3.1. Consecuencias
En lo que sigue ilustraremos las consecuencias de la Heterocedasticidad de un
modelo simple bivariado donde asumiremos que todos los demas supuestos del
modelo de regresin clsico siguen siendo vlidos.
Yi = + Xi + %i (6.11)
Sesgo
Si el termino de error en la regresin es Heterocedstico tenemos que:
E(%2i ) = i2 (6.12)
61
El valor esperado de este estimador es entonces:
$n $n
3
x % y=1 x3i
2 = + E[ $i=1
E() n
i i
] = + $ n E(%i ) (6.14)
32i
i=1 x 32i
i=1 x
=
Resultado 1.El estimador mnimo cuadrtico para ( tambin) son insesgados
an en presencia de Heterocedasticidad en trmino de error. BLUE
Podemos transformar la ecuacion de Heterocedasticidad (10) en una homosceds-
tica al dividir la regresin por i para obtener la siguiente estructura:
Yi 1 Xi %i
= ( ) + ( ) + ( ) (6.15)
i i i i
la cual puede ser re escrita como:
Yi = wi + Xi + %i (6.16)
62
a todos los errores el mismo peso]. Para corregir por este problema deberiamos
darle mayor importancia a los errores menores. El estimador WLS usa informa-
cion muestral para definir estos pesos. Propiedades Asintticas
Para probar de que los estimadores son consistentes frente al problema de la
heteroscedasticidad, necesitamos solo que chequear que la varianza del OLS de-
saparece a medida de que la muestra crece. La varianza del estimador OLS se
define como sigue:
$n 3
2 = E( )
V ar() 2 = E( $i=1 Xi %i )2
2
(6.18)
n 32
i=1 Xi
Dado que E(%2i ) = i2 E(%i %j ) = 0 entonces (15) puede ser re escrito como:
$n 3 2 2
2 Xi i
V ar() = $i=1 (6.19)
n
( i=1 X3 2)
i
63
Usando la notacin anterior podemos re escribir el valor esperado de (21) como
sigue:
$ 32
S2 2 Xi i
2
E(S2) = E( $ )= $ $ 32 2 (6.22)
3
X 2
X3 2
(n 2)( X )
i i i
Estas dos expresiones son claramente diferentes. De hecho, el sesgo (de la varianza
estimada) puede ser calculada como sigue:
$ 32 $ 32 $ 32
2 = X i X i (u 1) Xi i
2
E(S2) V ar() i
$ 32 2 $ 32 2 =
i
$ 32 2 (6.24)
(u 2)( Xi ) ( Xi ) (u 2)( Xi )
La ecuacin (24) muestra que el sesgo en la varianza estimada depender del
$ 32 3 2 y los terminos de varianza
valor de Xi i /n el cual es la varianza entre X i
individuales. Si esta covarianza es positiva entonces tendremos un sesgo negativo,
2 Esto significa que los errores estndar en los coeficientes
ya que E(S22) < V ar().
estimados por OLS en la presencia de heteroscedasticidad sern muy pequeos,
implicando que el modelo presenta una precisin mayor de la que realmente tiene.
Resultado 4.
La varianza estimada para los estimadores OLS est sesgada. Si los errores het-
eroscedasticos estn positivamente correlacionados con las variables entonces el
sesgo ser hacia abajo implicando un falso sentido de precisin en el modelo.
Ho : 12 = 22 = .......m
2
(m n)
Existe una variada gama de tests, cada uno con diferentes fortalezas dependiendo
de las circuntancias.
Test de Goldfeld-Quandt
Esta prueba puede ser usada solamente con datos de corte transversal. La intu-
icin detras de esta prueba es si pudiramos ordenar todos los datos en orden
creciente dependiendo de la varianza de sus errores asociados y escogiramos sub
64
muestras de diferentes partes de esta muestra, entonces las varianzas al interi-
or de cada submuestras debera ser diferente solamente en fluctuaciones bajo la
nula. Sin embargo, si la muestra es heteroscedastica entonces las varianzas entre
submuestras deberian ser significativamente diferentes.
El test de GQ se define de la siguiente manera:
S22
GQ = Fn2 2,n1 2 (6.25)
S12
donde $n1
21 21 Xi )2
i=1 (Yi
S12 = i = 1, .....n1
n1 2
$n1 +p+n2
21 21 Xi )2
i=n1 +p (Yi
2
S2 = n1 + p + 1.....n1 + p + n2 (6.26)
n2 2
Prueba de Breush-Pagan
La prueba de BP es una aplicacion directa de la clase de test de Multiplicadores
de Lagrange introducidas en la clase 4. Aplicando la logica del LM test, si la
hiptesis nula (la restrictiva) es valida entonces la derivada de L no ser signi-
ficativamente diferente de cero.
donde g es una funcin continua y donde las variables Z son no estocsticas, tpi-
camente las variables explicaivas del modelo.
65
Para calcular la prueba de BP el investigador deber estimar la siguiente
regresin auxiliar usando mnimos cuadrados:
%2i
= 0 + 1 z1i + 2 z2i + .... zpi + vi (6.27)
22
donde %i son los residuos de la regresin mnimo cuadrtica de Y sobre X y donde
adems u
! epsilon2i
22 =
i=1
n
Si definimos ESSBP como la suma de cuadrados explicada de la regresin auxiliar
entonces si la nula es vlida ESSBP ser pequea y en consecuencia:
ESSBP 32
BP = X [p] (6.28)
2
Debera ser claro que si la regresin auxiliar explica la evolucin de %2i (lo que
implica que los residuos no son constantes) entonces ESS ser alta y BP no se
distribuir como chi-cuadrado y en consecuencia rechazaremos la hiptesis nula
de homocedasticidad.
Prueba de White
La prueba de White es conceptualmente similar a la prueba de BP (y es la prueba
principal ofrecida en la mayora de los softwares). La prueba de White define la
hiptesis nula igual que el resto de las pruebas y donde la alternativa es:
HA : %2i = 0 + 1 X1i + 2 X2i + ....p Xi Xj + ui i, j
donde las variables Xi son aquellas del modelo original de Y regresionado sobre
X. Notar que la prueba de White incluye los X individualmente, el cuadrado de
cada Xi , y el producto conjunto de todas las variables Xi Xj entre s.
66
6.3.3. Soluciones para la Heteroscedasticidad
Hemos concluido que la heteroscedasticidad presenta problemas en la eficien-
cia de la estimacin mnimo cuadrtica pero mas seriamente, induce sesgo en la
varianza del estimador. Inferencia entonces es un elemento que est afectado ante
este problema. Qu soluciones podemos implementar?
Hemos visto que los Mnimos Cuadrado Ponderados (WLS) son BLUE dado
que escalamos todas las variables por la ecuacin conocida del error estndar.
Sin embargo, WLS como se ha presentado, asume que el verdadero valor de i
para todos los i, es conocido. En general esto no es conocido. Es necesario, en
consecuencia, estimar el valor i a partir de la muestra de datos disponible.
Heteroscedasticididad Multiplicativa
La heteroscedasticidad multiplicativa se refiere a aquella forma de heteroscedas-
ticidad que tiene la siguiente estructura:
i2 = 2 zi (6.30)
la cual es una funcin de dos parmetros. Tpicamente asumiremos que toma
valores pequeos, por ejemplo 1 o 2. Obviamente el caso en que = 0 es aquel
de homoscedasticidad. En este caso, el modelo completo queda expresado de la
siguiente manera:
Yi = + Xi + %i
%i = N (0, i2 ) (6.31)
i2 = 2 Zi ( > 0, Z > 0)
Esto reduce el nmero de parmetros del modelo a ser estimados lo que lo hace
un estimador factible. En el caso especial en que = 2 y Zi = Xi , el modelo se
reduce a:
i2 = 2 Xi2 (6.32)
La ecuacin de regresin se hace homoscedstica al dividir el modelo por Xi lo
que resulta en la siguiente especificacin:
Yi 1 %i
( ) = ( ) + + ( ) (6.33)
Xi Xi Xi
67
La ecuacin (31) es ahora un modelo de regresin clsico.
Heteroscedasticidad Aditiva
Suponga que permitimos que la heteroscedasticidad tenga una forma mas
general, como la que sigue:
donde los %2i son los residuos cuadrados de la regresion original (pero heteroscedas-
tica) entre Y y X y en consecuencia, vi = %2i i2 . Esto nos entrega la "primera
ronda"de estimacin de a,b y c.
a + 2bXi + 2
2i2 = 2
cXi2 (6.36)
Estos estimadores no son, sin embargo, eficientes dado que vi son heteroscedas-
ticos. En consecuencia, nesecitamos re estimar a,b y c al ajustar (35) por los
estimadores consistentes pero ineficientes de i2 .
%2i 1 Xi Xi2
( 2 ) = a( 2 ) + b( 2 ) + c( 2 ) + vi (6.37)
2i
21
2i
2i
Estos estimadores revisados"son asintticamente eficientes y son denotados por
un tilde () y de esta manera podemos definir la "segunda ronda"en la estimacin
de
a + 3bXi + 3
3i2 = 3
cXi2 (6.38)
el cual puede ser luego aplicado a la regresin heteroscedstica.
Yi 1 Xi
( ) = ( ) + ( ) + %i (6.39)
3i
3i
3i
la que asintticamente eficiente y consistente.
68
Podemos aplicar una versin modificada del WLS al estimar el siguiente modelo:
Yi 1 Xi
( ) = ( ) + ( ) + %i (6.41)
Y2i Y2i Y2i
En todos los casos anteriores, dado que i2 no es conocido y debe por tanto ser
estimado, existe una prdida en la eficiencia en los estimadores. Estos estimadores
todos tienen propiedades asintticamente deseables y a pesar de que estos esti-
madores son insesgados en muestras pequeas, estamos menos seguros acerca de
la prdida de eficiencia en tamaos de muestras pequeos.
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
69
valor de X.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
prediccin media de Y
media de X Xi
En este caso, en vez de ajustar una lnea (i.e. estimar una regresin) utilizando
todos los datos, podemos ajustar lnes a percentiles diferentes.
el cual es igual a:
n
!
Qq = [q f (y x%i )] (yi x%i ) (6.44)
i=1
70
Captulo 7
7.1. Resumen
1. Consecuencias del supuesto de independencia
2. Autocorrelacin - Deteccin
3. Autocorrelacin - Soluciones
7.1.1. Referencias
Gujarati Captulo 12
J. Kmenta Captulo 8
Grenne Captulo 15
Y = X + % (7.1)
E[%] = 0 E[%%% ]% =
donde es una matriz cuadrada nxn positiva definida. El caso de autocorrelacin
aparece cuando :
71
2 cov(%1 %2 ) cov(%2 %1 )
cov(%1 %n ) 2 cov(%2 %n )
.. ..
%
E[%% ] = = . . = (7.2)
.. .. .. ..
. . . .
cov(%2 %1 ) 2
1 1 2 . . . n1
..
1 1 ... ... .
2 ..
2 ... 1 ... .
. .. .. ..
.. . . ... .
n1 ... ... ... 1
La forma de la autocorrelacin ser determinada por el nmero de elementos no
cero fuera de la diagonal en la matriz. En el caso de autocorrelacin de primer
orden (la cual domina la literatura) la matriz de varianza-covarianzas tiene la
siguiente forma :
1 1 0 . . . 0
.
1 1 . . . . . . ..
..
= 2 0 . . . 1 . . . .
(7.3)
. . . .
.. .. .. . . . ..
0 ... ... ... 1
Como ya se haba mencionado en la clase anterior, si la verdadera forma de es
conocida, entonces el estimador de Mnimos Cuadrados Generallizados (GLS) es
aquel de estimador lineal insesgado de mnima varianza y tiene la siguiente forma
:
2GLS = (X % 1 X)1 X % 1 y (7.4)
Si el verdadero valor de es desconocido ser necesario estimarlo en funcin de
un reducido conjunto de parmetros = () . Con el fin de hacer GLS un
estimador factible requeriremos que 2 , y en consecuencia, el estimador
2 = ()
GLS factible ser el siguiente :
2F GLS = (X %
2 1 X)1 X %
2 1 y (7.5)
el cual es insesgado, consistente y asintticamente eficiente, no obstante, no efi-
ciente en muestras finitas. Una vez mas, est falta de eficiencia proviene del hecho
que no podemos utilizar toda la informacin disponible para estimar .
72
7.3. Proceso Autocorrelacionado y Autoregresivo:
algunas definiciones
En general, estamos acostumbrados a describir la evolucin de variables en
trminos de su relacin sistemtica con otras variables. No obstante, tambin es
instructivo examinar la evolucin de las variables en trminos de sus propios val-
ores pasados.
%t = %t1 + t (7.6)
donde N (0, 2 ) . El proceso mas general de orden p de una serie puede ser
representado por la siguiente expresin [AR(p)] :
%t = t t1 (7.8)
donde, de nuevo, N (0, ). Por extensin, el proceso de medias mviles mas
2
%t = t 1 t1 ....... q tq (7.9)
En los anlisis de series de tiempo nos referiremos a los trminos de error como
innovaciones con el fin de reflejar el hecho de que la nica informacin nueva
que entra al proceso est contenida en los shocks estocsticos t que ocurren en
cada perodo.
73
autoregresin y q trminos de promedio mvil.
74
aleatorio o random walk.
Debera quedar claro que la distincin entre series de memoria corta o larga est
directamente relacionado con el valor de en el proceso AR. Esta es la principal
distincin entre una serie estacionaria de una no estacionaria, conceptos que
discutiremos en un par de clases.
yt = + xt + %t (7.15)
donde
%t = %t1 + t
y
E(t , s ) = 0; E(t , %t1 ) = 0; con t N (0, 2 )
POr otra parte, la varianza viene dada por :
cov(%t , %t1 ) = 2
75
7.4. Estimacin Minimo Cuadrtica y Errores Au-
tocorrelacionados
En seguida derivaremos las propiedades del los estimadores mnimo cuadrti-
cos ante la presencia de autocorelacin. Una vez mas es mas simple trabajar con
un proceso AR(1) en los errores.
Resultado 2: Dado que los estimadores OLS son insesgados para todos tipo
de tamao de muestra finita, sabemos que el estimador ser consistente.
7.4.2. Eficiencia
Para examinar la pregunta acerca de la eficiencia primero debemos trans-
formar el modelo AR(1) en una forma que tenga un error independiente. Ello
lo haremos al multiplicar la regresin por el coeficiente de autocorrelacin, luego
rezagando la regresin en un perodo y finalmente restando la expresin resultante
de la ecuacin original. Esta transformacin se denomina Cochrane Orcutt.
76
donde xt = (xt xt1 ) y xt1 = (xt1 xt1 ). El punto central acerca de este
estimador es que es funcin de . Dado que el estimador OLS no es funcin de
este parmetro, podemos deducir fcilmente que este ltimo, ante la presencia de
autocorrelacin no es eficiente.
Entonces podemos derivar una expresin para el sesgo de la varianza del estimador
OLS como sigue :
4 T T
5
2 2 2 ! !
s = $T 2 = $
V ar() xt xt1 + 2 xt xt2 + .....
2 T 2 2
t=1 xt ( t=1 xt ) t=2 t=3
(7.24)
77
Resultado 5: Cuando > 0 y existe una correlacin positiva entre los Xs en la
muestra el sesgo es negativo. En este caso subestimamos la verdadera varianza y
en consecuencia sobreestimamos la precisin de los estimadores.
Resumen
Las consecuencias para la estimacin bajo OLS ante la presencia de autocor-
relacinn en los errores son las mismas que en la situacin de heteroscedasticidad.
Es, de hecho, un resultado general de tener errores no esfricos : el estimador OLS
es insesgado y consistente pero son ineficientes y asintticamente ineficientes. Mas
an, la varianza del estimador es sesgada y puede inducir precisin espurea en
los parmetros estimados.
donde la nula :
H0 : 1 = 2 = ..... = p = 0
78
La prueba LM se calcula al regresionar los residuos de la ecuacin original sobre
sus propios valores rezagados hasta un orden p (con p < n). El estadstico deriva-
do del R2 de la regresin auxiliar se distribuye chi-cuadrado bajo la nula de la
siguiente forma :
Esta es una prueba general de autocorrelacin y puede ser usada como una prue-
ba diagnstica tambin. Su uso se recomienda pues se puede estudiar la presencia
de autocorrelacin de cualquier orden.
79
Podemos expandir esta expresin de la siguiente manera :
$T 2 $T 2 $T
t=2 2
%t t=2 2
%t1 t=2 2
%t 2
%t1
d = $T 2 + $T 2 2 $ T
t=1 2
%t t=1 2
%t t=1 2%2t
Si tomamos el lmite de esta ltima expresin podemos notar que los dos primeros
trminos tienden a la unidad y el tercer trmino es simplemente 2. En conse-
cuencia,
plimd = 2(1 )
Bajo la nula, a medida que rho tiende a cero, el valor de d tiende a dos. En
muestras finitas, sin embargo, el DW tiene una distribucin compleja la cual se
ilustra en la siguiente figura.
80
El estadstico DW entrega los valores, dependientes de la muestra, dl y dr los
cuales se ilustran en el grfico.
Resumen
La pruebas anteriores todas tienen propiedades asintticas bien definidas. Sin
embargo, sus propiedades en muestras pequeas o finitas no son tan buenas. En
particular, la prueba de DW tiene relativamente bajo poder mientras que la prue-
ba de LM puede ser ineficiente en muestras pequeas. No obstante, en general la
prueba del tipo LM es preferible dado que el DW es una prueba slo aplicable a
situaciones en que los errores tiene una autocorelacin de primer orden.
81
7.6. Soluciones para la Autocorrelacin
Como en el caso de la heteroscedasticidad, lo que hacemos en presencia de
autocorrelacin depende de cunto sabemos acerca de la estructura del proceso
que la genera. En ambos casos utilizaremos una forma del estimador minimo
cuadrado generalizado (GLS).
2GLS = (X % 1 X)1 X % 1 y
2F GLS = (X %
2 1 X)1 X %
2 1 y
La forma mas comn de FGLS para el caso de autocorrelacin son los esti-
madores mnimo cuadrtico autoregresico iterativos donde el mas cono-
cido entre ellos es el Mtodo de Cochrane Orcutt.
82
que t es autocorrelacionado (lo que puede ser testeado). Es posible entonces
repetir el proceso CO al re estimar el parmetro de autocorrelacin de (36) de la
secuencia de errores de (37). Y de esta manera usarlo para estimar una versin
mejorada de (37). Si los valores de y no cambian entre cada iteracin entonces
estaremos seguros de que la regresin tiene un error independiente. Este es un
proceso estndar de convergencia y los estimadores de y de la iteracin final
se considerarn los mejores estimadores FGLS.
yt = + xt + %t
donde :
%t = %t1 + t
con t N (0, 2 ), E(t , s ) = 0, E(t , %) = 0
Suponga que estimamos el modelo utilizando el mtodo de CO el que tiene la
siguiente forma :
yt = 2 +
2 + x 2t
t
donde
2t es un trmino de error independiente y yt , xt son las transformaciones
de Cochrane Orcutt de Y y X segn la ecuacin (37). Sin embargo, si recordamos
de que :
2t
%2t =
(1 2L)
donde L es el operador rezago, entonces podremos re escribir (38) de la siguiente
manera :
(1 2L)yt = 2 2L)xt +
2 + (1 2
o bien
yt 2yt1 = 2 t 22xt1 +
2 + x 2t
El aspecto clave acerca de esta relacin dinmica es que impone la restriccin de
que la relacin (autoregresiva) condicional entre yt y yt1 es idntica a la relacin
(autoregresiva) condicional entre xt y xt1 y esa relacin est definida por la
relacin autoregresiva entre %t y %t1 . Esto es conocido como la restriccin de
factor comn.
Debera ser obvio que esta es una restriccin muy fuerte. Pero debera tambin
83
quedar claro que es una condicin que puede ser testeable. Para ver esto ltimo
mas en detalle podemos re escribir el modelo en (40) en forma mas general de la
siguiente manera :
(1 )yt = + (1 L)xt + t
y testear directamente la restriccin de que :(1 ) = (1 ) = (1 ) Para
implementar esta prueba debemos estimar la siguiente regresin :
yt = 0 + 1 + 1 yt1 + 0 xt + 1 xt1 + t
84
Captulo 8
Regresores Estocsticos,
Exogeneidad y Estimacin por
Variables Instrumentales
8.1. Resumen
1. Violacin del supuesto de regresores no estocsticos
8.1.1. Referencias
Kmenta Captulo 8, Captulo 9.1, 13.4
Hendry Captulo 5
8.2. Introduccin
El ltimo supuesto del modelo de regresin lineal clsico asume que las vari-
ables independientes en el modelo son no estocsticas, es decir que tienen valores
85
fijos en muestras repetidas y las que satisfacen la condicin de que :
n
1!
(xi x)
n i=1
En la prctica, con datos reales, estos dos ltimos requerimientos no son par-
ticularmente interesantes. El primero no puede ser evaluado dado que rara vez
tenemos muestras repetidas mientras que el segundo simplemente requiere que
los Xs no sean todos iguales.
Nota : generalmente asumimos que una ( y slo una) de las Xs toma el mis-
mo valor a travs de la muestra. Este es el caso de la constante.
El requerimiento clave en trminos prcticos es la condicin de que las vari-
ables X puedan ser tratadas como si fueran no estocsticas lo que requiere sim-
plemente que se cumpla lo siguiente :
yt = + xt + %t (8.2)
86
Notar que dado que ahora xt es estocstica, no es posible sacar esta variable fuera
del valor esperado como una constante. Sin embargo, dado que asumimos inde-
pendencia entre xt e % sabemos que E(xt %t ) = E(xt )E(%t ) Dado que E(%t ) = 0
entonces el valor esperado del estimador es el verdadero valor del parmetro (i.e.
es insesgado).
4$ 52 4$ 5 4$ 5
T T 2 2 T
2 =E x i %i t=1 xi %t t=1 xt xj %t %j
V ar() $t=1
T
=E $ + 2E $ (8.8)
t=1 xi
2
( Tt=1 x2t )2 ( Tt=1 x2t )2
4 5
2 = 2E $ 1
V ar() T
t=1 x2t
87
Dado que xt y %t son independientes
$T entonces la covarianza entre ellos ser cero, y
al cancelar el trmino t=1 xt del numerador y denominador nos quedamos con
2
Para ilustrar este caso, considere un modelo autoregresivo, es decir uno con vari-
able dependiente rezagada.
yt = + yt1 + %t (8.10)
88
Dado que yt1 est definido como :
1
yt1 = yt1 (y0 + y1 + ..... + yt + ..... + yT 1 ) (8.14)
T
podemos notar que es una funcin de yt , el cual, por definicin, no es independi-
ente de %t . De esta manera, yt1 y %t ya no son independientes. En forma similar
%t , no es independiente de yt1
2
. Consecuentemente no podemos separar al tomar
el valor esperado en (13). En consecuencia, no podemos decir que si el estimador
OLS es insesgado.
As, el estimador es sesgado para muestras finitas. Mas an, dado que la covari-
anza poblacional entre xt y %t no es cero ( por definicin) entonces se sigue que
: $
2 plim Tt=2 xt %t /T
plim = + $ $= (8.17)
plim Tt=2 x2t /T
89
Resultado 3 Cuando la covarianza entre xt y %t no es cero entonces el estimador
OLS no es insesgado ni consistente. Asi la estimacin uniecuacional por OLS no
es vlida.
En este caso, las implicaciones para el modelamiento son que para obtener una
estimacin consistente y eficiente ante este problema, se requiere de un estimador
alternativo. Los dos mtodos de estimacin ms comunes son la Estimacin por
Variables Instrumentales (vea seccin 4 de estas notas) y Estimacin por
Sistemas de Ecuaciones (tales como Mnimos Cuadrados en Dos Etapas, MC
en Tres Etapas, Maxima Verosimilitud con Informacin Completa FIML). Estos
ltimos estimadores sern revisados mas adelante.
8.4. Exogeneidad
Antes de repasar las formas de estimacin de loscasos revisados anteriormente,
en esta seccin consideraremos la importancia de este supuesto de la exogeneidad
para el modelamiento economtrico. Recodemos de la primera clase que podemos
considerar un sistema econmico, referido como DGP, como una distribucin con-
junta multivariada compleja denotada como D(zt |Zt1 , ) .
Todos los modelos economtricos son modelos condicionales del tipo de (18).
El aspecto de exogeneidad simplemente concierne a la pregunta de si la simplifi-
cacin en el proceso de modelamiento logrado mediante la marginalizacin de la
variables no modeladas es vlido. Especficamente, la esencia de la exogeneidad
radica en que si existe alguna prdida de informacin cuando se explica yt por xt
sin necesariamente explicar xt al mismo tiempo. Si ocurre una prdida de infor-
macin, entonces es invlido definir un modelo que condiciona en Xt ; y as xt no
es exgeno para los parmetros 1 .
90
sistemtica entre el error estocstico del modelo condicional y los parmetros del
mismo modelo.
En las tres ltimas clases hemos examinado casos en los cuales el trmino de
eror contiene "informacin.acerca de la evolucin de yt . Cuando la fuente de esta
"informacin"surge de la covarianza entre xt y %t nos referiremos a esta situacin
como violacin de la exogeneidad. Dependiendo del tipo de anlisis condi-
cional que ha sido llevado a cabo, pueden existir tres tipos de exogeneidad.
Definicin.
xt es debilmente exgena para los parmetros si yt |xt es funcin solamente de
1 y donde 1 y 2 son libres de variacin. Exogeneidad dbil es una condi-
cin necesaria para la estimacin vlida y eficiente de los valores desconocidos
de los parmetros en el modelo condicional. Exogeneidad dbil es entonces una
condicin necesaria para la econometra de ecuaciones simples o modelos uniecua-
cioinales, y la falla en establecer exogeneidad dbil requiere que el investigador
utilice otros mtodos para la estimacin ya sea por variables instrumentales o
bien por sistemas de ecuaciones simultaneas.
Definicin.
La no causalidad segn Granger existe si y solo si :
91
8.4.3. Superexogeneidad
Si los parmetros del modelo condicional son invariantes ante cualquier cambio
en la distribucin marginal de xt y si adems xt es exgena dbil para 1 ,entonces
se dice que xt es super-exgena.
Definicin
La superexogeneidad requiere que los parmetros estimados del modelo condi-
cional sean independientes de las variaciones en el proceso marginal que produce
xt , as:
1
=0 (8.19)
D(xt |Xt1 ; 2 )
La ausencia de superexogeneidad en econometra es anlogo a la Critica de
Lucas, la que dice que cambios en los gobiernos o en el las polticas o en el rgi-
men de control sern incorporadas en el proceso de formacin de expectativas de
los agentes los que no slo alterarn su proceso marginal pero tambin la forma
condicional de su conducta. Como resultado, estudios empricos que consideren
las respuestas en la conducta de los agentes ante cambios en la poltica econmica
como invariantes colapsarn y en consecuencia, simulacin acerca del impacto de
polticas sern errneos, especialmente en el contexto cuando las simulaciones son
realizadas condicionales en el supuesto de expectativas invariantes departe de los
agentes econmicos. En consecuencia, superexogeneidad es una condicin
necesaria para simulacin de polticas.
Considere, por ejemplo, un modelo donde la demanda por activos reales est
condicionada por el nivel de precios. Suponga que los precios estn determinados
por el control que tiene el gobierno sobre la oferta monetaria, y bajo un cambio en
las autoridades, la autoridad monetaria a cambiado su poltica (i.e. el nuevo go-
bierno instituye los regmenes de crdito del FMI) y en consecuencia la conducta
de los agentes cambia como resultado de este cambio en el rgimen poltico: As,
los precios en este modelo no son superexgenos para los parmetros del modelo
condicional.
92
con respecto a una variable en particular. La hiptesis alternativa es que ex-
iste una gran prdida de informacin (verosimilitud) como consecuencia de la
marginalizacin.
93
8.5. Estimacin por Variables Instrumentales
El propsito de esta seccin es la de examinar una solucin ampliamente
utilizada para el problema donde el supuesto de que cov(xt , %t ) = 0 es violado.
Y = X + % (8.21)
Z % Y = Z % X + Z % % (8.25)
94
En una manera anloga al OLS, definiremos el estimador IV como :
IV = (Z % X)1 Z % Y (8.27)
E((Z % X)1 Z % %) $= 0
Notar que si pensamos el modelo en (21) como una regresin mltiple donde
el supuesto de Cov(X, %) = 0 se mantiene para alguna de las variables, entonces
esos elementos de X no necesitarn instrumentos. Ellos son sus propios instru-
mentos.
95
(i) datos sobre consumo y ahorro son medidos tpicamente como residuos de
datos de ingreso nacional y en consecuencia, contiene errores en la medida
de otros componentes.
(ii) En datos sobre balanza de pagos, los flujos de capital son usualmente me-
didos parcialmente pero tambin incluye errores en la medidas de cuentas
de comercio (las que son producto, por ejemplo, de declaraciones mal real-
izadas) .
(iv) En encuestas las firmas pueden sub reportar ganancias y sobre exagerara
impuestos pagados respondiendo de manera de satisfacer al encuestador.
Adicionalmente, ellos a menudo respondern en una forma que ellos piensen
que puedan influir en reformas a la poltica econmica en forma beneficiosa
para ellos.
Todos estos factores sugieren que el tema del error en la medida de variables es
un aspecto muy comn en los trabajos prcticos.
Y = X + % + (8.33)
96
E(%) = E() = 0
Cov(xi , %i ) = 0
Cov(xi , i ) = 0
Cov(%i , i ) = 0
entonces (34) es un modelo de regresin clsico y la estimacin de ser insesgada.
Sin embargo, la varianza del estimado ser mayor que el caso de inexistencia
de error en la medicin ya que :
2
2 = $n$ ( 2 + 2 )
V ar() = $$n 2 (8.35)
i=1 x2
i i=1 xi
Y = X + % (8.36)
Y = X + (% ) = X + (8.37)
donde = [% ]
97
As, dado que la covarianza entre y X es no cero, el modelo ya no es del tipo
clsico y el estimador OLS de ser sesgado. Mas an, los estimadores sern
inconsistentes dado que se mantendrn sesgados a pesar de que el tamao de la
muestra aumente indefinidamente. Para ver esto calcularemos la probabilidad en
el lmite para 2 :
$n $ $n $ $
2 yi xi ni=1 x2
i + xi %i + ni=1 xi i + ni=1 %i i
i=1
= $n 2 = $n 2 i=1 $n $n 2
(8.39)
i=1 xi i=1 xi + 2 i=1 xi i + i=1 i
y por tanto
plim2 = 7 2
8
1 + 2
x
Dado que hemos supuesto de que a medida de que n tiende a infinito, no existe
correlacin entre los trminos de error % y y entre % y y el verdadero valor de
X, es decir X . Si 2 > 0 entonces 2 es inconsistente y el sesgo es hacia abajo.
98
ganancias (W) por educacin (E) donde no medimos educacin directamente sino
aproximadamente por los aos de colegio (S). As :
W = + E + % (8.43)
Sin embargo, suponga que la relacin entre educacin y escolaridad puede ser
descrita como sigue :
E =S+ (8.44)
as, la ecuacin estimada ser :
W = + S + (8.45)
donde = [% ]
El aspecto importante de este modelo es que a pesar de que tenga media cero,
varianza constante, serialmente independiente y no correlacionado con el error
compuesto , este error no es independiente de S. Para ver esto, asumiendo de
que E() = 0 podemos examinar la covarianza entre y S:
yt = xt + yt1 + %t (8.47)
donde % = %t1 + t
99
Estos modelos entregan estimadores sesgados e inconsistentes dado que yt1 est
estocsticamente relacionada con el trmino de error ya que :Cov(yt1 , %t1 ) $= 0
La estimacin IV puede entregar estimadores que aunque sesgados son consis-
tentes. En este caso particular, existe una eleccin obvia de instrumento: el valor
rezagado del regresor exgeno (i.e. no estocstico) en el modelo,xt1 .
100
No obstante, notar de que :
101
As, resulta relativamente simple construir una prueba en torno a este hecho.
En consecuencia, deseamos probar la nula de que :
H = plim[2OLS 2IV ] = 0 (8.53)
Dada la inconsistencia de 2OLS ante la presencia del problema de regresin es-
tocstica, entonces H no ser cero. Un valor significativo de H generar el rechazo
de la nula.
Sobreidentificacin
Si hay menos instrumentos que variables explicativas endgenas entonces el mod-
elo est sub-identificado (i.e. el estimador IV no existe). Si existe el mismo
nmero de instrumentos que las variables problema, el modelo est identifica-
do exactamente. Si hay mas instrumentos que los necesarios, el modelo est
102
sobre-identificado. Esta ltima situacin es muy atractiva. Sobre identificacin
entregar generalmente un mayor grado de precisin en los estimadores pero
tambin entrega la oportunidad de llevar adelante pruebas sobre la validez de los
instrumentos.
Multiples Instrumentos
Si Z es un instrumento vlido y W tambin es un instrumento vlido entonces
una combinacin lineal entre Z y W tambin ser un instrumento vlido. Dado
que, a partir de (29) la varianza del estimador IV es menor mientras mayor es el
grado de correlacin entre el instrumento y la variable que se est instrumentan-
do, entonces debera resultar claro de que deberamos elegir aquella combinacin
lineal que tenga la mas alta correlacin con X. Este instrumento es simplemente
el valor ajustado de X regresionado sobre Z y W
V = 21 Z + 22 W (8.55)
Pruebas de Sobre-identificacin
Suponga que tenemos Z (n x k) instrumentos donde X es una matriz (n x k) con
k>k. Si definimos la matriz de proyeccin como :
Pz = Z(Z % Z)1 Z %
Entonces el estimador IV es :
103
IV (es decir los residuos 2SLS de la segunda etapa) sobre la matriz de instru-
mentos. El estadstico T R2 (donde T es el tamao de la muestra) tiene una
distribucin chi-cuadrado con k % k grados de libertad bajo la nula de que los
instrumentos slo afectan la variable dependiente a travs de su rol en la predic-
cin los regresores (endgenos).
Si la nula es rechazada ello implica que los instrumentos juegan un rol directo so-
bre Y , en vez de simplemente a travs de su rol de predecir X y en consecuencia,
deberan ser regresores en el modelo en vez de ser tratados simplemente como
instrumentos.
104
Captulo 9
Sistemas de Ecuaciones:
Endogeneidad y Modelos de
Sistemas de Ecuaciones
9.1. Resumen
1. Introduccin a los Sistemas de Ecuaciones
2. El Problema de la Identificacin
3. Sistemas Especiales:
Modelo de Regresin Aparentemente no Relacionadas (SUR)
Sistemas Recursivos
4. Estimacin
Mtodos de Estimacin con Informacin Limitada (ILS y 2SLS)
Mtodos de Estimacin con Informacin Completa (3SLS y FIML)
9.1.1. Referencias
Kmenta Captulo 13
Bernt Captulo 10
Gujarati Captulo 17
Grenne Captulo 20
105
9.2. Introduccin
Hasta el momento nos hemos concentrado en ecuaciones individuales sobre la
conducta econmica. En la practica, sin embargo, muchos fenmenos econmicos
se describen utilizando modelos los que consisten en ecuaciones simultneas. Ello
pues dado el hecho de la violacin del supuesto de exogeneidad dbil, no podemos
realizar una descripcin acerca de la evolucin de las variables de inters en el
vector z mediante el uso de modelos uniecuacionales sin la prdida de informacin.
106
9.3. Introduccin a los Sistemas de Ecuaciones
El sistema de ecuaciones mas general puede ser descrito de la siguiente forma
genrica :
Byt + xt = %t (9.2)
La segunda forma bajo la cual el sistema en (1) puede ser expresado es referi-
da como la forma reducida la cual expresa la variables endgenas del modelo
solamente en funcin de las variables exgenas y el trmino de error. La forma
reducida se deriva al premultiplicar (2) por B 1 y al rearreglar obtenemos :
yt = B 1 xt + B 1 %t
yt = xt + t (9.3)
107
la cual es la matriz de varianzas-covarianzas de la forma reducida del
sistema en (1).
Existen a lo menos tres situaciones que podemos encontrar con respecto al sistema
que estamos estimando. Una ecuacin puede estar :
1. No Identificada (o sub identificada)
2. Exactamente Identificada ( o completamente identificada)
3. Sobre Identificada
Por analoga con el concepto en matemticas, un sistema de ecuaciones simultneas
slo puede ser resuelto si dichas ecuaciones estn completamente determinadas.
La identificacin es el problema anlogo en estadstica. Es importante notar que
el concepto de identificacin se aplica ecuacin por ecuacin y as se puede en-
contrar el caso de que una ecuacin est completamente identificada y que otras
ecuaciones del mismo sistema no lo estn.
108
9.4.1. Cuatro Ejemplos
Caso A : Sub Identificain Considere el siguiente modelo estructural
qd = 0 + 1 p + %d (9.5)
qs = 0 + 1 p + %s
p = 0 + t (9.6)
q = 1 + t
(0 0 ) ($s $d ) (1 0 0 1 ) (1 $s 1 $d )
donde 0 = (1 1 )
, t = (1 1 )
, 1 = (1 1 )
y t = (1 1 )
qd = 0 + 1 p + 2 y + %d
qs = 0 + 1 p + %s (9.7)
p = 0 + 1 y + t
q = 2 + 3 y + t (9.8)
(0 0 ) (1 0 0 1 )
donde 0 = (1 1 )
, 1 = 2
(1 1 )
, 2 = (1 1 )
, 3 = 2 1
(1 1 )
,
($s $d ) (1 $t 1 $d )
t = (1 1 )
, y t = (1 1 )
109
Caso C : Identificacin Exacta de las Funciones de Oferta y Demanda
Llevando el argumento un paso mas all podemos notar que un sistema de la
forma :
qd = 0 + 1 p + 2 y + %d (9.9)
qs = 0 + 1 p + 2 pt1 + %s
p = 0 + 1 y + 2 pt1 + t (9.10)
q = 3 + 4 y + 5 pt1 + t
qd = 0 + 1 p + 2 y + 3 R + %d
qs = 0 + 1 p + 2 pt1 + %s (9.11)
p = o + 1 y + 2 pt1 + 3 R + t
q = 4 + 5 y + 6 pt1 + 7 R + t (9.12)
110
Para un sistema cualquiera podemos asumir :
M: nmero de variables endgenas en el sistema
m: nmero de variables endgenas en la ecuacin
K: nmero de variables pre-determinadas (exgenas y endgenas rezagadas) en
el sistema.
k: nmero de variables pre-determinadas (exgenas y endgenas rezagadas) en la
ecuacin.
Caso A : K = 0
Caso B K = 1
Caso C K = 2
Caso D K = 3
111
Funcin Oferta : m-1=1 y K-k=2 Sobre identificado
As en un sistema con slo dos variables endgenas, una ecuacin estar identifi-
cada si dicha ecuacin excluye una o mas variables las cuales estn presentes en
otra parte en el modelo. La condicin de orden es, no obstante, una condicin
necesaria pero puede que no sea suficiente. Lo anterior pues las variables pre-
determinadas excluidas de la ecuacin en anlisis pero presente en otra aparte
del sistema puede que no sea independiente. Una forma de chequear esto es me-
diante el uso de la condicin de rango.
Ejemplo
No es tan obvio al solo mirar el sistema si las cada una de las ecuaciones estn
identificadas o n. Veamos la condicin de orden. Notar que M=4 y K=3.
112
un poco diferentes. Para facilitar el anlisis es conveniente escribir el sistema bajo
esta otra forma.
Ecuacin 1 y1 y2 y3 y4 x1 x2 x3
(13) 10 1 12 13 0 11 0 0
(14) 20 0 1 23 0 21 22 0
(15) 30 31 0 1 0 31 32 0
(16) 40 41 42 0 1 0 0 43
Consideremos la primera ecuacin (13). Esta ecuacin excluye y4 , x2 yx3 . De esta
manera deberemos calcular el determinante a partir de los coeficientes de esta
variables en las dems ecuaciones.
113
1. Ignorar el problema y concentrarse slo en la estimacin de la forma reduci-
da. Esto puede ser satisfactoria pero depender de las circunstancia de la
investigacin
114
modelo. Un estadstico de LR puede ser utilizado para medir si las restricciones
impuestas para la identificacin reducen significativamente la verosimilitud de los
parmetros de la forma estructural .
LR = 2(log Lr log Lu) 2[k]
donde Lr es la verosimilitud del modelo con las restricciones de identificacin
impuestas y K es el nmero de restricciones impuestas sobre el modelo.
11 0 0 0 0
0 22 0 0 0
.. ..
0 0 . 0 . = i2 I
. .. .. .. ..
.. . . . .
0 0 0 0 mm
115
No obstante, si existe una restriccin entre ecuaciones entonces la estimacin OLS
del sistema no es aplicable y debemos utilizar un FGLS. El estimador FGLS que
se utiliza en este caso se denomina Estimador de Ecuaciones Aparentemente NO
Relacionadas (SURE).
2sure = [X %
3 1 X]1 X %
3 1 y (9.21)
Dado que (22) contiene slo variables exgenas las cuales no estn correlacionadas
con el trmino de error, el modelo est acorde con uno de regresin clsico y puede
ser estimado por OLS. Ahora bien, dado que (23) solo contiene a y1t y x vari-
ables, entonces tambin puede ser estimado por OLS si y solo s Cov(y1t , u2t ) = 0
. Esto es de hecho verdadero ya yit que est correlacionado con u1t pero ( por
116
definicin)u1t no est correlacionado con u2t . As, podemos decir que y1t est
pre-determinado con respecto a y2t . En este caso, podemos tambin utilizar OLS.
La misma lgica se aplica a (24) pues podemos mostrar que y1t , y2t ambos estn
pre-determinados con respecto a y3t .
9.7. Estimacin
Una vez estudiado el tema de la identificacin procederemos ahora al tema de
la estimacin de un sistema de ecuaciones. Existen dos grandes formas de estimar
el sistema. La primera incluye la estimacin de cada ecuacin en forma separa-
da. Esta forma se conoce como Estimacin con Informacin Limitada. La forma
alternativa sugiere la estimacin de todas las ecuaciones del sistema en forma
simultnea, la que se conoce como Estimacin con Informacin Completa.
(i) muchos modelos son extremadamente grandes. Por ejemplo, el modelo del
Banco Central Ingls (UK Treasury Model) tiene alrededor de 300 ecuaciones, as
la estimacin del sistema completo es un poco compleja tanto del punto de vista
estadstico como tambin del computacional.
(iii) Si una de las ecuaciones est mal especificada, el uso de mtodos con in-
formacin limitada no permite que este error se propague al resto de las estima-
ciones. Por el contrario, si se utilizan mtodos con informacin completa, un error
de especificacin en una ecuacin se propagar a todo el sistema.
117
Este mtodo slo se puede aplicar a modelos que estn exactamente identifi-
cados. El mtodo de ILS es muy simple y sigue la discusin del problema de la
identificacin. Si una ecuacin est exactamente identificada entonces podemos
encontrar los estimadores de la forma reducida los que son insesgados y luego
consistentes. A partir de ellos podremos obtener los parmetros estructurales los
que sern, sin embargo, segados pero consistenmtes. El procedimiento es como
sigue :
(i) Obtenga las ecuaciones de la forma reducida del modelo donde cada ecuacin
para las variables endgenas son funcin solamente de las variables exgenas.
(ii) Estime las ecuaciones de la forma reducida por OLS en forma individual.
Dado que todas las variables independientes de la forma reducida son exgenas,
por definicin plimcov(X, u) = 0, y as el estimador por ILS entregar estimadores
consistentes de los coeficientes de la forma reducida (asumiendo que otros prob-
lemas de especificacin estn ausentes).
(iii) Dado que las ecuaciones estn exactamente identificadas, los coeficientes
estructurales pueden ser recuperados directamente de los coeficientes de la forma
reducida.
Paso 1
Las ecuaciones de la forma reducida son las siguientes :
Pt = 0 + 1 Xt + t (9.27)
Qt = 2 + 3 Xt + vt (9.28)
donde :
0 0 (1 0 0 1 )
0 = 2 =
(1 1 ) (1 1 )
2 2 1
1 = 3 = (9.29)
(1 1 ) (1 1 )
118
A partir de estos coeficientes podemos derivar los coeficientes de la funcin de
oferta donde :
3
0 = 2 1 0 1 =
1
No obstante, no es posible derivar valores nicos para 0 , 1 , 2
Paso 2
A partir de (27) y (28) los parmetros de la forma reducida pueden ser estimados
como sigue :
$
2 1 = $Xt Pt lo que implica 20 = P 2 1X (9.30)
Xt2
$
2 3 = $Xt Qt lo que implica 22 = Q 2 3X (9.31)
Xt2
Estos coeficientes son consistentes los que pueden ser utilizados para derivar esti-
madores consistentes de los coeficientes estructurales (slo de la funcin de oferta).
Es importante notar que a pesar de que los estimadores ILS son consistentes
ellos son sesgados. Veamos esto para el caso de 21 . De (30) y (31) despus de un
poco de algebra tenemos que :
23 $
2 Qt Xt
1 = = $ (9.32)
21
Pt Xt
2 1 Xt + (t )
Pt = 2 3 Xt + (vt v)
Qt =
Si las ecuaciones del sistema estn sobre identificadas (recuerden que esto puede
ser bastante posible), ILS no puede ser usado dado que no existir un nico
mtodo para derivar las ecuaciones estructurales. Obviamente OLS no puede ser
utilizado pues los estimadores sern inconsistentes. Un estimador alternativo es
119
el estimador mnimo cuadrtico en dos etapas (2SLS) el cual es una versin de el
Estimador por Variables Instrumentales.
Paso 1
Para superar el problema de la correlacin entre y1t y u2t regresionamos y1t so-
bre todas las variables exgenas y pre determinadas del sistema. As corremos la
siguiente regresin :
y1t = 0 + 1 x1t + 2 x2t + et (9.36)
Esto produce :
20 +
y21t = 2 1 x1t +
2 2 x2t (9.37)
A partir de (36) y (37) tenemos que :
Paso 2
Ahora podemos sustituir el lado derecho de (38) en la ecuacin original, sobre
identificada (35) de tal manera que tenemos lo siguiente :
y2t = 20 + 21 (2
y1t + et ) + u2t (9.39)
120
= 20 + 21 y21t + et
As entonces, aunque y1t est correlacionada con u2t , su instrumento y21t est
asintticamente no correlacionado con el trmino de error et . Una estimacin
mnimo cuadrtica de (39) entregar estimadores sesgados pero consistentes de
20 y 21 . Note que el estimador OLS aplicado directamente a la forma reducida
entrega tambin valores sesgados pero inconsistentes.
Primero, a pesar de ser consistentes, los estimadores 2SLS son sesgados en mues-
tras finitas y en consecuencia, inferencia realizada a partir de ellos para sistemas
con pequeas muestras puede ser problemtico. Segundo, dado que los coeficientes
de la forma estructural son estimados directamente usando 2SLS, los errores es-
tndar de las ecuaciones estructurales son obtenidos de la misma forma. Sin
embargo, debe notarse que :
et = (21 et + u2t )
y en consecuencia,
V ar(et ) $= V ar(u2t )
Especficamente, a menos de que Cov(21 , et ) sea cero, entonces la varianza del
error en el estimador por dos etapas ser V ar(et ) > V ar(u2t ) . Y as, la varianza
del estimador 2SLS es consistente pero asintticamente ineficiente.
121
un trade-off entre los estimadores con informacin competa y aquellos con infor-
macin limitada.
2. Usar los estimadores 2SLS para estimar los errores de las ecuaciones es-
tructurales y luego utilizar estos errores para estimar la matriz de varianza-
covarianza de todos los errores de cada ecuacin estructural. La matriz de
varianza-covarianza representa los errores entre ecuaciones (cruzados) del
sistema. La matriz de varianza-covarianza se calcula a partir de los errores
estimados para cada ecuacin en forma separada utilizando las formulas de
calculo estndar.
122
en la aplicacin usual del principio de mxima verosimilitud para todas las ecua-
ciones estocsticas del sistema en forma simultnea. De esta manera, si tenemos
un sistema descrito de la siguiente forma:
Byt + xt = t (9.40)
123
Captulo 10
10.1. Resumen
1. Datos Cualitativos en Economa : el uso de Variables Mudas (Dummy)
10.1.1. Referencias
Kmenta Captulo 11
Gujarati Captulos 15 y 16
Grenne Captulo 19
10.2. Introduccin
Muchos fenmenos econmicos estn relacionados con variables que son discre-
tas o cualitativas las cuales podemos contar pero no medir. Estas son comnmente
referidas como variables binarias. Consideremos los siguientes ejemplos :
124
Efectos por caractersticas : Tiene grado universitario o n
yi = aA DA + aF DF + ei (10.1)
yi = aA + ei (10.2)
yi = aF + ei (10.3)
125
para un economista que trabaja en el mercado financiero. Notar que este mod-
elo no tiene constantes. Al incluir una constante en el modelo tendramos una
situacin de perfecta
$ colinealidad dado que la constante tiene un valor de 1 y
sabemos que j Dj = 1. Asi es preferibles especificar la ecuacin (1) de la sigu-
iente forma :
yi = b + aF DF + ei (10.4)
En este caso, el coeficiente b medir las ganancias estimadas para la categora
faltante, en este caso los acadmicos. Este sector se utiliza como marco de ref-
erencia y permite la interpretacin ( y testeo) de los efectos de otra profesin
sobre las ganancias relativas al caso cannico ( o benchmark). Esta es una im-
portante caracterstica de todos las aplicaciones con variables dummy. Si existen
G categoras (sectores productivos, gnero, etc) las que pueden ser cubiertas y
representadas mediante el uso de variable dummy, la regresin debera contener
G 1 variables mudas. As, en el caso de las ganancias, las ganancias estimadas
para los economistas en el sector financiero ser de b + aF . Es claro que la especi-
ficacin en (4) permite la prueba acerca de si aF = 0 ya sea en forma separada o
bien conjuntamente al utilizar una prueba de t student o F de Fisher (si existen
multiples variables dummy).
Suponga que estamos interesados en saber si existe un sesgo por gnero dentro
de los economistas. Una posibilidad sera estimar el modelo :
yi = b + aF DF + aM DM + ei (10.5)
Notar que en esta especificacin, se asume que las diferencias en ganancias entre
un hombre y una mujer economista es una funcin aditiva del sector y gnero, i.e.
ser una economista del sector financiero y ser mujer. Esta especificacin tambin
asume que las diferencias por gnero es constante entre todos los tipos de trabajo.
Una forma mas completa de especificar este modelo sera la siguiente :
yi = b + aF DF + aM DM + ag DF DM + ei (10.6)
126
10.3. Combinando Variables Binarias Qualitativas
con Variables Cuantitativas
En general, no todos los regresores en un modelo son del tipo cualitativo. En
este sencillo ejemplo podemos pensar que las ganancias tambin estn determi-
nadas por la experiencia (E). As el modelo podra que dar de la siguiente forma
:
yi = b + aF DF + cE + ei (10.7)
donde ahora b son las ganancias de un economista acadmico sin ninguna expe-
riencia mientras que el valor de aF mide la diferencia (constante) de ganancias
entre los que trabajan como acadmico y aquellos que lo hacen en el sector fi-
nanciero condicional en un cierto nivel dado de experiencia. Si dibujramos esta
funcin tendramos simplemente diferentes interceptos donde la pendiente de la
funcin de ganancias es c. De nuevo, si creemos que la experiencia recompensa
de diferente manera entre sectores deberemos definir las variables dummy de tal
forma de que cada sector tenga un intercepto diferente y una pendiente diferente.
yi = b + cE + ei (10.9)
yi = b + aF + (c + dEC )E + ei (10.10)
127
y despus desaparece. Podemos pensar esto de la siguiente manera :
yi = 1 + 2 t + %i si t < 30
yi = 3 + 4 t + %i si 30 ! t < 50
yi = 5 + 6 t + %i si t " 50
Las edades de 30 y 50 aos son referidas como los puntos ( o junturas) de la funcin
spline. Estas hiptesis pueden ser estimadas mediante el siguiente modelo :
y
b1 + g1 + (b2 + g2 )t2 = b1 + g1 + g3 + (b2 + g2 + g4 )t2
Reareglando los trminos llegamos a las restricciones que g1 = g2 t1 , g3 = g4 t2 .
As, el modelo restringido queda como sigue :
yi = b1 + b2 t + g2 (t t1 ) + g4 (t t2 ) + ei (10.12)
yi = bi + b2 x1 + b3 x2 + b4 x3 + ei (10.13)
128
y
nudos
30 50 Edad
129
como funcin de (i) factores de mercado tales como precios, ingresos etc, (ii)
caractersticas de los agentes como edad, gnero, educacin, etc y (iii) factores
del entorno como ubicacin geogrfica, nivel de infraestructura local, etc. Resulta
obvio que esta es una especificacin muy general y que la teora nos puede ayudar
a tener un modelo mas especfico. El punto clave, a lo menos desde el punto de
vista del econometrista, es que la variable dependiente es de tipo discreta.
La ecuacin (14) parece idntica al modelo de regresin clsico y puede ser esti-
mado aparentemente por OLS. No obstante tiene marcadas diferencias con este
ltimo las que pueden ser resumidas en cuatro resultados principales.
E(yi ) = + xi (10.16)
0 + xi 1 (10.17)
%i = yi xi (10.18)
130
y, dado que por definicin y puede tomar slo dos valores: cero o uno, entonces
para cualquier valor de las caractersticas x, el trmino de error %i puede slo
tomar dos valores :
%i = 1 xi (10.19)
o bien
%i = xi (10.20)
Resultado 1. La distribucin de %i no es normal, mas aun tiene una distribucin
discreta. Esto se puede observar en la siguiente tabla la cual entrega todos los
valores posibles de %i en su distribucin.
Valores de %i Distribucion de %i
xi fi
1 i 1 fi
Total 1
El problema de no-normalidad significa que los estimadores puntuales por OLS
son insesgados pero que la inferencia para muestras pequeas no puede estar sus-
tentada en distribuciones basadas en la Normal, como lo son la distribucin t, F ,
o bien 2 .
E(%2i ) = ( xi )2 (1 xi ) + (1 xi )2 ( + xi ) (10.22)
131
LPM y re estimar el modelo para usando un estimador WLS (similar al proceso
para solucionar heteroscedasticidad visto anteriormente).
y yi=alfa+betaxi
-alfa/beta (1-alfa)/beta x
132
10.5. Variable Dependiente Discreta II : Modelos
Probit y Logit
10.5.1. Forma Funcional
Ya hemos discutidos tres problemas que tiene el Modelo Probabilstico Lineal
LPM, a saber, (i) parmetros no constantes, (ii) errores no normales y (iii) el
modelo puede producir predicciones sin sentido ya que no existe ningn mecan-
ismo que acote el valor de y al rango [0, 1].
Con respecto a este ltimo punto sera deseable encontrar una especificacin que
tenga las siguientes propiedades :
(i) Con respecto a su valor esperado :
E(yi ) = Pr (yi = 1) 1 mientras + xi
y por su parte que :
E(yi ) = Pr (yi = 1) 0 mientras + xi
En otras palabras la forma funcional es asinttica a P r = 1 y P r = 0, a
pesar de que ninguno de los ejes es alcanzado, permaneciendo el modelo en
forma estocstica.
(ii) La especificacin es continua y suave (de tal manera que no existan quiebres
"falsos"en el modelo tal como ocure con el LPM)
Una especificacin que entrega estas propiedades son curvas con una forma de S
como la siguiente :
E(yi)
E(yi)=F(alfa+betaxi)
-infinito +infinito
133
De esta manera nuestro objetivo ser especificar una forma funcional para la
expresin de la derecha del modelo :
E(yi ) = F ( + xi ) (10.25)
El Modelo Logit
En este caso, el valor esperado de yi se define de la siguiente manera :
1 e(+xi )
E(yi ) = = (10.26)
1 + e(xi ) 1 + e(+xi )
Dado que E(yi ) es la probabilidad de suceso (i.e. de que yi = 1) entonces 1E(yi )
es la probabilidad de fracaso o falla. La razn entre estas dos probabilidades se
conoce como la razn de posibilidades odds ratio y con una pequea manipu-
lacin algebraica de (31) podemos notar que esta razn de posibilidades puede
ser expresada como :
E(yi )
= e(+xi ) (10.27)
1 E(yi )
y de esta forma el logaritmo de la razn de posibilidades (log odds ratio) como :
E(yi )
log[ ] = + xi (10.28)
1 E(yi )
El Modelo Probit El vaslor esperado en este caso viene dado por la sigu-
iente expresin :
; (+xi )
E(yi ) = ( + xi ) = (z)dz (10.29)
134
10.5.2. Algunos Aspectos Tericos
Resulta natural preguntarse si estamos sacrificando aspectos tericos con el fin
de encontrar una especificacin economtrica que sirva. Existen variadas formas
mediante las cuales podemos ilustrar la relevancia del modelo para una amplia
gama de relaciones de comportamiento.
Un Ejemplo. Podemos ilustrar este caso usando una versin del modelo de
migracin/empleo de Harris-Todaro. Para un individuo i el ingreso esperado de
permanecer en un rea rural puede ser descrito de la siguiente forma :
yr = xr + %r (10.38)
y el ingreso esperado de una persona que se mud a la ciudad es :
y u = xu + %u (10.39)
135
donde x es un vector de caractersticas que reflejan al individuo y las condiciones
del mercado laboral en ambos situaciones. Sin embargo, existen costos asociados
al traslado del sector rural a la ciudad los que pueden ser descritos como :
c = z + %m (10.40)
M = yu yr c = xn xr z + %u %r %m (10.41)
= w + u (10.42)
(10.43)
notar que la variable aleatoria y puede tomar los valores 0 1 y de esta forma
(36) puede ser re escrita de la siguiente manera :
n
<
L= [F ( + xi )]yi [1 F ( + xi )]1yi (10.45)
i=1
136
Utilizando la regla de la cadena : log(.)
= log L(.) F (.)
F (.)
Las condiciones de primer
orden (mediante las cuales podemos obtener , ) vienen dadas como sigue :
n
log L ! yi fi (1 yi )fi
= [ + ]xi = 0 (10.47)
i=1
Fi (1 Fi )
n
log L ! yi fi (1 yi )fi
= [ + ]=0 (10.48)
i=1
Fi (1 Fi )
(10.49)
Modelo Logit
Para el modelo Logit, al sustituir la ecuacin (31) en (44) para F ( + xi ) y sim-
plificando la expresin (usando la derivacin del log odds ratio y notando de que
log[1/(1 + ex )] = log(1 + ex ) el log-likelihood de la funcin puede re escribirse
como : n
!
log L = [yi ( + xi ) log(1 + e(+xi ) )] (10.50)
i=1
n
log L !
= [yi Fi ] = 0
i=1
Modelo Probit
Para el modelo Probit, el log-likelihood puede escribirse como :
n
!
log L = [yi log ( + xi ) + (1 yi ) log(1 ( + xi ))] (10.52)
i=1
137
y las condiciones de primer orden son :
n
log L ! yi i (i )
= [ + (1 yi ) ]xi = 0 (10.53)
i=1
i (1 i )
n
log L ! yi i (i )
= [ + (1 yi ) ]=0 (10.54)
i=1
i (1 i )
Una vez que hemos encontrados los estimadores para los coeficientes (y los errores
estndar) necesitamos interpretar dichos resultados. Es importante notar de que
al contrario del modelo de probabilidad lineal, los parmetros del modelo (los
betas)logit y probit no miden directamente los efectos marginales. Para apreciar
esto podemos escribir el modelo en forma mas sencilla al absorber la constante
en el vector x de la siguiente manera :E(yi ) = F (xi ) y en consecuencia, el efecto
marginal de un cambio unitario en xj es :
E(yi ) F (x)
= j = f (xi )j (10.55)
xj (x)
As el efecto marginal de un cambio en el valor de las variables explicativas de-
pende del valor de la variable explicativa y en consecuencia se debe hacer explcito
el valor de x para el cual el efecto marginal es calculado.
Volviendo a los dos modelos que estamos analizando podemos observar que el
efecto marginal viene determinado de la siguiente forma :
(i) Logit. Aqu, por conveniencia definiremos E(yi ) = i . DE esta manera, el
efecto marginal viene dado por :
i i log i (1 i )
= (10.56)
xj log i (1 i ) xj
= j i (1 i ) (10.57)
donde i es la probabilidad de que ocurra el evento.
138
(ii) Probit. Los efectos marginales en este caso viene dados por la siguiente
expresin:
E(yi )
= (x)j (10.58)
xj
donde (x) es la densidad normal estndar evaluada en x. En general,
se evala el efecto marginal en la media de los valores de los xi . Sin em-
bargo, esto no es obligatorio pudiendo ser evaluadas las x para diferentes
arqueotipos que sean interesantes de estudiar.
Es posible usar estos dos valores para construir una prueba de likelihood ratio
LR de significancia conjunta de las variables xi :
2 s
LR = 2[log L(0) log L()] (10.59)
k
Una medida alternativa de ajuste viene dado por el ndice de la razn de verosim-
itud
2
log L()
LRI = 1 0 LRI 1 (10.60)
log L( = 0)
El LRI tiene la caracterstica de que esta acotado por entre cero cuando todos
los coeficientes son iguales a cero. Ello pues cuando todos los coeficientes son cero
log L() = log L( = 0)y la razn entre ambos es en consecuencia uno. Mientras
el poder explicativo del modelo aumenta, la funcin de verosimilitud tiende a la
unidad (i.e. cuando Fi = 1 cuando yi = 1 y Fi = 0 cuando yi = 0). Dado que el
logaritmo de uno es cero LRI tiende a uno.
Una medida alternativa es la Tabla de Aciertos y Fallos la cuales una tabla simple
de 2 x 2 la cual muestra la distribucin de los valores actuales y predichos de y.
139
Veamos un ejemplo :
Predicha (F = 0,5)
y=1 y=0 Total
Actual y=1 471 16 487
y=0 183 20 203
Total 654 36 690
Necesitamos determinar qu constituye una prediccin de que y = 1. Usualmente
definiremos el umbral por una regla como la siguiente :
=
y2 = 1 si F2 = E(yi ) > F
y2 = 0
En otras palabras clasificamos el resultado de una estimacin si su probabilidad
es mayor que un medio.
Hasta el momento hemos sugerido que tanto el Probit y Logit son alternati-
vas vlidas al LPM para modelar situaciones de eleccin discreta. Aun no hemos
dicho nada acerca de cmo escogeremos entre los dos aunque en la prctica la
mayora de los investigadores reportan los resultados de los tres modelos. Ello
es as, pues no existe una clara definicin en la profesin acerca de cul modelo
es preferible (entre logit y probit obviamente pues sabemos de que el LPM tiene
severos problemas).
La siguiente figura ilustra las dos formas funcionales no lineales para un conjunto
de parmetros dado. Como se puede observar los dos curvas son muy similares en
140
el rango del medio pero la funcin logit tiene colas mas anchas - la logit se parece
mas a una distribucin t student acumulada. De esta forma, si la proporcin de
xitos en la muestra est entre 0.3 y 0.7 los dos modelos entregan resultados simi-
E(yi)
1
logit
probit
-infinito +infinito
lares.
No obstante, los estimadores de a partir de los dos modelos no son directamente
comparables. Ello se produce dado que en el modelo probit se asume que 2 = 1
mientras que la varianza en el logit es 2 /3 . Existe una correcin para hacerlos
comparables. Al multiplicar los coeficientes del logit por 0,625 se pueden hacer
entonces comparables con los coeficientes del probit. En forma anloga, al multi-
plicar los parmetros de logit por 0,25 se obtoiene los parmetros del logit.
En resumen :
lpm 0,25l 0, 4p (10.61)
Esta regla es vlida para todos los coeficientes excepto la constante en el modelo
LPM (recordar que en logit y probit la constante es absorvida en X), dando la
siguiente regla :
lpm 0, 25l + 0, 25 0,4p + 0, 25 (10.62)
141
Captulo 11
11.1. Resumen
1. Test de Especificacin en Modelos de Eleccin Binaria
2. Datos Agrupados
11.2. Referencias
Greene Captulo 19
142
en Davidson y MacKinnon (Journal of Econometrics, 1984) y los que tambin son
presentados en Greene 19.4
143
11.3.2. Heteroscedasticidad
Considere el siguiente modelo Probit heteroscedastico :
y
n
log L ! fi (yi Fi ) ( " zi )
= [ ]% zi ( % xi ) = 0 (11.11)
i=1
Fi (1 Fi )
Dado que es una funcin de verosimilitud difcil de maximizar, estimamos el
modelo bajo la restriccin de que = 0 y usamos un test de Multiplicador de
Lagrange para probar la restriccin. La prueba de LM viene dada por :
LM = g % V g 2[k] (11.12)
y
n
log L ! fi (yi Fi )
= [ ]zi ( % xi ) = 0 (11.14)
i=1
Fi (1 Fi )
Resulta ser que se hace muy difcil estimar este modelo utilizando una especifi-
cacin Logit (por la especificacin de la funcin score) y de esta forma las pruebas
de heteroscedasticidad son generalmente llevadas a cabo utilizando un Probit.
144
11.4. Datos Agrupados
Hasta el momento hemos estado trabajando con datos sobre respuestas indi-
viduales donde cada observacin en los datos relaciona la respuesta u accin de
un individuo en particular con un vector de regresores. No obstante, generalmente
deseamos utilizar datos agrupados donde observamos la proporcin de respuestas
positivas entre un grupo de individuos los que comparten un conjunto comn de
regresores.
El trabajo con datos agrupados permite aminorar muchos de los problemas aso-
ciados con el LPM el cual a menudo es usado en estas circunstancias aunque una
especificacin Logit sigue siendo la especificacin mas popular. Ver Greene 19.4.6
145
Caso Ejemplo
146
y
e(2 +2 xi )
E[yi2=2 ] = i2 = $J (11.17)
1 + k=2 e(k +k xi )
y as sucesivamente. Esta normalizacin nos permite expresar la probabilidad
relativa de observar el resultado j = 2 con respecto a j = 1, de la siguiente
manera :
i2
= e(2 +2 xi ) (11.18)
i1
Esto puede ser pensado como un "multinomial odds ratio". Explotando la con-
veniencia de la funcin logistica podemos expresar el logaritmo del multinomial
odds ratio como :
i2
log( ) = 2 + 2 xi (11.19)
i1
!J
j
= j [l k k ] = j [l ] (11.22)
xl k=1
147
El efecto marginal en el modelo logit condicional de McFadden son :
j 3 j
= j (1 j ); = j k 3 (11.23)
zj zk
3 el vector de coeficientes estimados en (19).
donde es
Suponga que estamos estudiando la eleccin entre tres diferentes medios de trans-
porte : auto, bus y una tercera opcin. Considere primero que la tercera opcin
es el metro. En este caso, una utilidad relativa mas alta de viajar en auto relativo
al bus no necesariamente implica que tambin sea mas preferible viajar en metro
con respecto al bus. Suponga ahora que la tercer alternativa es una auto azul y
que la primera alternativa es un auto rojo. El hecho de preferir (utilidad relativa
mas alta) el auto rojo con respecto al bus puede implicar una utilidad mas alta
tambin de viajar en auto azul con respecto al bus tambin. En otras palabras, la
probabilidad de que el auto rojo sea preferible al bus aumenta las probabilidades
de que el auto azul tambin sea preferible al bus. De esta manera los parmetros
de las alternativas no son independientes entre s.
148
alternativas, entonces :
H0 : Elecciones alternativas s es consistente y eficiente
son irrelevantes f es consistente y ineficiente
El umbral Aj no puede ser observado pero puede ser estimado junto con , por
mxima verosimilitud si asumimos una forma funcional del modelo. Obviamente
el modelo probit multinomial asume de que la funcin tiene una distribucin
normal estndar. Al normalizar como lo hicimos en el caso de la multinomial
logit, las probabilidades del modelo se derivan como sigue :
P rob(yi = 0) = ( xi ) [obien = 1 ( + xi )]
149
P rob(yi = 1) = (A1 xi ) ( + xi )
P rob(yi = 2) = (A2 xi ) (A1 + xi ) (11.26)
.
.
.
P rob(yi = 5) = 1 (A51 xi )
Ver figura siguiente donde existen tres categoras y por ende un solo umbral
P rob(yi = 0) = 1 ( xi )
P rob(yi = 1) = (A1 xi )
P rob(yi = 2) = 1 (A1 xi )
Efectos Marginales
Los efectos marginales de cambios en los regresores vienen dados por las siguientes
150
expresiones :
P r(Y = 0)
= ( % x)k
xk
P r(y = 1)
= [( % x) (A1 % )]k (11.27)
xk
P r(y = 2)
= (A1 % x)k
xk
151
Captulo 12
12.1. Resumen
1. Introduccin a las Variables Dependientes Limitada
3. Truncacin
4. Censura
12.2. Referencias
Greene Captulo 20
12.3. Introduccin
Existen variados casos donde, debido a la manera en que los datos son recolec-
tados, tenemos informacin incompleta acerca de la conducta de ciertos elementos
de la muestra. Si esta informacin faltante es sistemtica entonces los modelos
que ignoren este hecho, estarn cometiendo un problema de sesgo sistemtico.
En esta seccin examinaremos algunos casos especiales de estos fenmenos. Estos
son :
152
Truncamiento: cuando una muestra est sistemticamente restringida a slo
una parte de la poblacin. Por ejemplo, una muestra que slo incluya observa-
ciones de gente empleada, o gente sobre una cierta edad, etc. El que la trun-
camiento importe, obviamente depender de la pregunta que se quiera responder
con la investigacin.
donde (z) se usa como notacin para la distribucin normal estndar y (z)
para la funcin normal acumulada. Existen un conjunto de propiedades de la
153
normal estndar que sern de gran utilidad en las secciones que siguen.
A1 (z) = (z)
phi(z)
A2 . dz = z(z)
1 1
A3 f (x) = [(x )/] = (z)
; a
A4 (a) = P r(z < a) = (z)dz
A5 (a) = 1 (a) = P r(z > a)
12.4. Truncamiento
El truncamiento ocurre cuando la muestra es restringida slo a una parte de
la poblacin de tal manera que slo observamos las variables X e Y dentro de ese
rango restringido.
f (x)
f (x|x > a) = (12.3)
P r(x > a)
Esta definicin asegura que la densidad truncada sume 1 sobre el rango restringi-
do. Ver el grfico siguiente:
154
Muchas de las aplicaciones que veremos en adelante utilizan la distribucin normal
truncada. Si X se distribuye normal con media y desviacin estndar de
entonces de A5 se obtiene que :
(a )
P r(x > a) = 1 [ ] = 1 () (12.4)
donde = ( a
). De esta forma usando A3 tenemos que:
f (x)
f (x|x > a) = (12.5)
[1 ()]
1 x
= (z)[1 ()] con z = ( )
De la figura anterior se puede notar que si la truncamiento es por debajo, la media
de la distribucin truncada es mayor que la original y viceversa si la truncamiento
155
es por arriba. En forma similar, la varianza de la distribucin truncada es menor
que la original.
E(x|truncamiento) = + () (12.6)
donde
() = ()/[1 ()]
si el truncamiento es de la forma x > a, y
() = ()/()
donde
()
() = 0 < () < 1
[() ]
lo que implica que la varianza de una distribucin truncada es siempre menor que
la varianza de la distribucin sin truncar.
156
12.4.2. La Regresin Truncada
Habiendo dicho algo sobre la estructura de las distribuciones truncadas pode-
mos ahora estimar modelos usando muestras truncadas. Suponga que empezamos
con nuestro modelo genrico, utilizando notacin matricial y absorbiendo la con-
stante dentro de la matriz X (mediante una columna de unos) tenemos :
yi = xi + %i %i N (0, 2 ) (12.8)
Si nuestra muestra est truncada de alguna forma podemos utilizar los resultados
anteriores para legar a la siguiente expresin :
a xi
E(yi |yi > a) = xi + i (i ) i = ( ) (12.9)
Notar que a es el punto de truncamiento (y i el valor estandarizado) y no la
constante del modelo, la cual se asume que est en X).
157
As, se tiene que :
[(a xi )/]
E(yi |yi > a) = xi + (12.10)
1 [(a xi )/]
El aspecto importante de este resultado es que dado que 0 < () < 1 para todo
, entonces con una distribucin truncada el efecto marginal de un cambio en el
valor de xj es menor que su correspondiente coeficiente.
158
Estimacin
Suponga que corremos un modelo de mnimos cuadrados ordinarios de y sobre
x pero utilizando una muestra truncada. Si el verdadero modelo viene dado por
(8) entonces el modelo OLS tendra un problema de sesgo por variable omitida :
el efecto del truncamiento i .
Mas an, dado que el trmino de error en el modelo OLS est tambin trun-
cado ( i.e. como funcin de ) entonces a partir de (8) podemos ver de que el
modelo tendr un error heteroscedastico.
V ar(%i ) = 2 (1 2i + i i ) (12.12)
159
La alternativa natural a la estimacin por OLS es Mxima Verosimilitud. Me-
diante (5) la funcin de densidad de yi viene dada por:
1
xi )/)
((yi
f (yi |yi > a) =
(12.13)
1 ((a xi )/)
donde i = (ax
i) (i )
y i = [1( i )]
. Estas pueden ser resueltas y asi entregar los
estimadores ML para los parmetros , 2 y el inverse mills ratio ().
1. Inversin.
Debera resultar claro que el sesgo que surge a partir de la restriccin sobre el
rango observable para y depender de la probabilidad de caer fuera del rango (i.e.
por debajo del nivel de umbral). Ver figura. Dado que sabemos que eliminar las
160
observaciones en que la variable dependiente cae por debajo del umbral resultar
en un problema de muestra truncada. Necesitamos en consecuencia algn mtodo
que nos permita trabajar con esta situacin de censura en la muestra sin tener
que eliminar informacin valiosa al reducir la muestra censurada a una truncada.
y N (, 2 ) (12.16)
y = a si y a
y = y en otro caso
Aqu, y es una variable (parcialmente) latente la cual es observable slo para
valores sobre el umbral. Muchas veces se encontrar que el umbral se define
como cero, la cual es una normalizacin conveniente. La distribucin total de
una variable censurada puede ser pensada como una combinacin de dos partes :
la primera que corresponde a un componente discreto el cual toma todo el peso
del componente censurado de la distribucin en un solo punto; y la segunda,
una componente continua para el rango de valores de Y para la cual existe una
distribucin (truncada).
161
De esta forma, se tiene que :
donde = a
y () como se defini en (6).
162
cuando existe un punto de censura fijo). Por ahora nos concentraremos slo en el
modelo tobit (su nombre se refiere al "Tobit Probit Model"). Asumiremos, por
conveniencia, que el punto de censura es normalizado a cero lo que nos permitir
especificar el modelo de la sigueiente manera :
yi = xi + %i %i N (0, 2 ) (12.17)
:
0 si yi 0
yi =
yi si yi > 0
Esto es simplemente un modelo en trminos de una variable latente, y la cual es
parcialmente observada -especficamente cuando la variable latente es observada
por encima del valor umbral.
La media de una distribucin censurada viene dada por (18) para el caso en
que el umbral a = 0
E(yi ) = P r(yi = 0)E(yi |yi = 0) + P r(yi > 0)E(yi |yi > 0) (12.18)
donde :
( 0x
i
)
i =
[1 ( 0x
i
)]
( x i )
i = (12.20)
( x i )
Segundo, con respecto a el trmino P r(yi > 0) podemos notar que :
163
lo que implica que :
E(yi ) = (xi /)[xi + i ] (12.23)
donde, al igual que antes :
( x i )
i =
( x i )
E(yi |xi )
= j (xi /) (12.24)
xj
Note que, como se esperaba, los efectos marginales son funciones no lineales de x
y .
Para el segundo caso, los efectos marginales vienen dados simplemente por :
E(yi |xi )
= j (12.25)
xj
164
12.5.4. Estimacin del Modelo Tobit
La estimacin sobre toda la muestra de datos bajo OLS entrega estimadores
inconsistentes y as los investigadores utilizan la forma de ML para realizar es-
timaciones consistentes de los parmetros. Para elmcaso del Tobit, la funcin de
verosimilitud en logaritmo (log-likelihood) viene dada por :
! 1 (yi xi )2 !
log L = [ log(2) + log( 2 ) + ] + log[1 (xi /)] (12.26)
y >0
2 2 y =0
i i
165
la cuales una mezcla de una funcin contnua para aquellas observaciones no cen-
suradas ( la primera sumatoria) y una distribucin discreta para las observaciones
censuradas (el segundo trmino). Esta es una expresin compleja pero manejable
( la instruccin en STATA se denomina heckman), sin embargo la mayora de los
trabajos empricos tambin reportan las estimaciones por OLS con fines compar-
ativos.
Resultado (emprico)
Parece ser que los estimadores OLS son menores en valor absoluto que aquellos
estimados por MLE. Existe una regularidad emprica la cual sugiere que los es-
timadores MLE pueden ser aproximados al dividir los estimadores OLS por la
proporcin de observaciones que caen fuera del rango de censura. La estimacin
por OLS realizada solo sobre las observaciones censuradas entrega estimadores
sesgados e inconsistentes. Existe un mtodo de facil aplicacin para estimar el
modelo tobit mediante el uso OLS orregido"propuesto por Heckman en 1979.
Dado que generalmente este mtodo es utilizado para el problema de Sesgo de
Seleccin primero disctutiremos este problema en detalle y despus nos abocare-
mos al procedimiento de Heckman.
166
donde es el coeficiente de correlacin. La densidad conjunta truncada de y y z :
E(y|z > a) = y + y (z )
y
V ar(y|z > a) = y2 (1 2 (z ))
donde, como antes, y y z son las medias de y y z, y , z las desviaciones
estndar; z = (a
z
z) (z )
; (z ) = 1( z)
el IMR y con (z ) = (z )/((z ) z ).
yi = xi + %i (12.27)
el cual puede representar una relacin entre ganancias (y) y un vectorde otras
variables (x). Sin embargo, suponga de que observamos yi solo si zi = 1 donde :
:
1 si yi > 0
zi
0 en otro caso.
y
zi = Wi + ui (12.28)
donde z es una variable latente no observable. La ecuacin (30) represeta un
mecanismo de seleccin y la ecuacin (29)puede ser re especificada como una
regresin truncada condicional en que zi = 1.
167
este caso es uno de ML. Una alternativa conveniente (parcialmente lineal) es el
procedimiento alternativo de Heckman en dos etapas. Este ltimo entrega esti-
madores consistentes aunque no completamente eficientes y se implementa de la
siguiente manera :
Paso 1: Estime un modelo Probit para la regla de seleccin en (30) de tal forma
de producir un estimador mximo verosmil de . Utilizando este valor calcule
para cada observacin de la muetra :
2i = (2
Wi )
(se asume que u = 1) (12.30)
(2
Wi )
168
ver en la ecuacin (26), existe slo un coeficiente para el valor de cualquier vari-
able explicativa en el caso del Tobit simple.
donde hemos permitido de que los coeficnites asociados a las variables puedan
difereir no solo en su valor sino tambin en su signo. Podemos entones testear
la restriccin (del Tobit simple) de que = usando una prueba de LR de la
siguiente forma :
Lr = 2[log Lt (log Lp + log Ltr )] 2k
donde Lt es la verosimilitud del Tobit; Lp la verosimilitid del Probit y Ltr la
verosimilitud de la regresin truncada.
12.7.1. Heteroscedasticidad
Recordemos el modelo de regresin lineal hetroscedastico estndar
yi = xi + %i = f (xi ) + %i (12.32)
donde E(%i ) = 0, E(%2i ) = 2 g(zi ) Sabemos de que los estimadores de los
parmetros de la regresin (ie la media condicional) son insesgados pero inefi-
cientes. Esto tiene que ver con con la caracterstica de de linealidad aditiva del
modelo de tal forma que es posible separar los parmetros que determinan la
expresin para la media condicionla (ie f (xi ) ) de aquellos que estn detrs de la
determinacin de la precisin de dichos estimadores, g(zi ).
Puede resultar claro de que si la varianza del modelo es contante, entonces puede
sacarse de la funcin () en el segundo trmino de la funcin de verosimilitud.
169
12.7.2. No Normalidad
Vimos anteriormente de que todos los resultados de inferencia a partir de
muestras truncadas dependen crucialmente sobre la estructurade los errores en
el modelo de variable latente. Tpicamente cuando los errores no son normales
entonces los estimadores de parmetros ( de los coeficientes, varianza y IMR)
sern inconsistentes.
170
Captulo 13
13.1. Resumen
1. Introduccin a Datos de Panel y modelos con heterogeneidad
2. Modelos de Efectos Fijos y Efectos Variables :Modelos de Una Componentes
y Modelos de Dos Componentes
3. Efectos Fijos versus Efectos Variables : Prueba de Especificacin de Haus-
man
4. Extensiones
13.2. Referencias
Greenne, Captulo 14
Hsiao, Analysis of Panel Data, Econometric Society Monograph Cambridge
University Press (1986.)
Baltagi, Econometric Analysis of Panel Data, John Wiley (1995).
13.3. Introduccin
Un conjunto de datos de panel o longitudinales es aquel que sigue indi-
viduos (firmas o paises) a travs del tiempo y en consecuencia entrega mltiples
observaciones para cada individuo. As, datos de panel es la unin de datos en
serie de tiempo y de corte transversal. El anlisis de la de conductas utilizando
datos de panel es una de las reas ms atractivas de la econometra. En esta y la
siguiente clase daremos una introduccin a este tema.
171
13.3.1. Porqu usar Datos de Panel ?
Mas observaciones
Un panel contiene NT observaciones. Por convencin, indexaremos la dimen-
sin temporal como t = 1 T y la dimensin transversal como n = 1 N . Tpi-
camente T es relativamente pequeo mientras N es relativamente mayor. Notar
que incluso si T = 2 tendremos un panel que puede ser utilizado para realizar
estimaciones. El aumento en el nmero de observaciones aumentar el nmero
de grados de libertad, reducir el grado de colinealidad muestral y aumentar la
eficiencia de cualquier estimador que se obtenga.
172
que logra es sacar completamente a Suecia de la muestra lo que no es satisfacto-
rio. Este no ser el caso para datos de panel, como veremos en seguida.
173
se sigue de que modelos estndar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisin de variable.
174
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que slo difieren entre individuos. As, podemos
tomar las primeras diferencias de (1) con respecto al tiempo para obtener :
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviacin de la observacin de cada individuo sobre la media entre todos
los individuos (en cada perodo), de la siguiente forma :
175
Medicin del Error Compuesto
En aquellas situaciones en que medir el trmino de error es un problema, esto
puede simplificarse o bien exacerbarse cuando se utilizan datos de panel.
donde %it es una medida del error con media cero y varianza seccional igual a .
Caso (ii) Suponga que los errores de medicin no estn correlacionados en el tiempo
( = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el
error de medicin ser duplicada. Si la varianza del verdadero valor de X es
relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces,
al diferenciar los datos significar que la "seal"es absorbido por el ruido".
En general, notar de que si < 0,5 al diferenciar los datos tendr un efecto
desproporcionado sobre la varianza del error en la medicin relativo a la
varianza propia de la variable en s.
176
Sesgo de Respuesta Sistemtica y Reduccin Sistemtica
El primer sesgo surge al tener que visitar en forma reiterada al mismo in-
dividuo y las respuestas pueden entonces ser endgenas; las personas tienden a
exagerar. El segundo sesgo est relacionado con el hecho de que las los hogares
o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que
o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir
un sesgo hacia atrs. Esto se puede corregir con los denominados pseudo-paneles,
tpico que est fuera del alcance de este curso.
El two way error component model se asume de que la estructura del error
se define de la siguiente manera :
uit = i + t + it , it iid(0, 2 ) (13.11)
donde, nuevamente, i denota efectos individuales especficos no observables y
donde t denota efectos temporales no observables. Estos efectos se asumen que
son comunes entre individuos pero que varan en el tiempo. Ejemplos incluiran
variaciones en el clima o cambios en la poltica econmica en general.
177
13.5. El One Way Error Component Model
Podemos re escribir (9) en forma vectorial de la siguiente forma :
Y = 1N T + X + u = Z + u (13.12)
u = Z + (13.13)
P = Z (Z% Z )1 Z%
Q = IN T P
178
Al sustituir (13) en (12) tenemos que:
y = 1N T + X + Z + = Z + Z + (13.14)
Podemos usar OLS sobre (14) para generar estimadores de y el vector de y
al incluir (N 1) variables dummy para los efectos fijos no observados. Esta
estimacin generalmente se conoce con Estimador Minimo Cuadrtico de
Variables Dummy (LSDV). Cada uno de los coeficientes sobre i miden la
diferencia de los efectos individuales con respecto a un individuo base de com-
paracin ( representado por ).
179
Resultados
Si (14) es el verdadero modelo, el estimador de efectos fijos es BLUE slo
mientras vit tenga las caractersticas Gausianas estndar. A medida de que T
tiende a infinito, entonces el modelo es consistente para todos los parmetros del
modelo. Sin embargo, si T es fijo y N tiende a infinito, entonces el estimador FE
de ser consistente. El estimador FE de los efectos individuales ( + i ) no
son consistentes dado que el nmero de parmetros aumenta a medida de que N
aumenta.
Ho = 1 = 2 = N 1 = 0 (13.19)
(rrss urss)/(n 1)
FF E = F[n1,ntnk] (13.20)
urss/(nt n k)
180
"efecto individual"de cada persona persiste en el tiempo). En particular, sea :
2
= Corr(uit , ujs ) = para i = j; t $= s
(2 + 2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la
matriz de varianzaas covarianzas para el modelo de datos de panel no ser del
tipo "Gaussiano". Para proceder con la estimacin necesitaremos analizar la es-
tructura de esta matriz.
donde J T = JT /T , ET = (IT J T ) y 12 = T 2 + v2 .
Con esta definicin podemos entonces aplicar a (14) el estimador GLS estn-
dar para derivar los estimadores de los coeficientes de , bajo el supuesto de
efectos aleatorios:
2GLS = [X % 1 X]1 [X % 1 y] (13.25)
El nico problema (y uno no trivial) es que es de rango (N T N T ) y la in-
versin de esta matriz es extremadamente difcil. Un sinnmero de trucos se han
desarrollado para salvar esta traba.
181
La forma de resolucin a este problema mas popular introduce los denomina-
dos estimadores Entre Grupos (BG) el cual regresiona un conjunto de observa-
ciones consistentes en el promedio a travs del tiempo para cada una de las N
observaciones :
%
y i. = + X i. + ui i = 1, ...N (13.26)
donde :
T
1!
y i. = yit
T t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro
modelo bsico en (14) :
P y = P 1N T + P X + P (Z + ) (13.27)
Este estimador se denomina entre grupos pues ignora cualquier variacin al in-
terior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un
resumen de la informacin de corte transversal simple sobre la variacin entre los
grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser ex-
presado como :
2 (X % QX) X % (P J N T )X 1 (X % Qy) X % (P J N T )y
GLS = [ + ] [ + ] (13.29)
2 12 2 12
Podemos simplificar la expresin anterior mediante la siguiente notacin. Sea
WXX = X % QX, WXY = X % Qy, BXX = X % (P J N T )X, BXY = X % (P J N T ) y
2
finalmente, 2 = 2 .
1
182
con = [WXX + 2 BXX ]1 WXX . El estimador GLS en (31) es un promedio
ponderado entre los estimadores entre grupos e intra grupo. El parmetro clave
en la ponderacin es . Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces 2 tender a cero, y por tanto
a la unidad. En este caso, el estimador GLS tender al estimador intra
grupo o el estimador LSDV.
La primera opcin es usar una estimacin mxima verosmil interativa. Bajo los
supuestos de normalidad para 2 y it podemos escribir la funcin de verosimili-
tud de la siguiente manera:
NT N 1
log L(, , 2 , 2 ) = constante log 2 + log 2 2 u% 1 u (13.32)
2 2 2
183
entre grupos ( ya que suprime el efecto intra grupo). Estos estimadores consis-
tentes pueden ser sustituidos en el estimador GLS.
Resumen
El mtodo de estimacin a ser usado depender en si asumimos de que los efectos
individuales sean fijos o aleatorios. Resulta ser de que los valores para los parmet-
ros pueden variar dramticamente, en el caso mas comn donde N es grande
y T pequeo, entre estimadores intra o entre grupos. Cuando slo existen pocas
observaciones en el tiempo resulta mejor usar los elementos de corte transversal
de los datos para estimar aquella parte de la relacin que contenga variables que
difieren entre un individuo al otro (el estimador entre grupos). Ello permite de
que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal
manera de rescatar la parte comn de dicha relacin entre individuos.
184
los efectos y las variables xi , el estimador GLS ser sesgado. En contraste, el esti-
mador intra grupo (efecto fijo) ser consistente y BLUE (pero n asintticamente
eficiente) bajo la alternativa y consistente bajo la nula. La prueba de Hausman
pregunta simplemente si existen diferencias significativas entre los estimadores
GLS y intra grupo y viene denotado de la siguiente forma :
u = Z + Z + (13.35)
Podemos usar no obstante, una versin modificada del estimador intra grupo
mediante una transformacin que "saque"los efectos de i y t . Re definiendo la
transformacin Q tenemos :
Q = IN I T I N J T J N I T + J N J T (13.36)
185
Esta transformacin significa que el tpico elemento del vector y viene dado por :
y3 = (yit y i. y .t + y) (13.37)
donde el segundo trmino de la expresin a la derecha promedia a travs del
tiempo ( y en consecuencia saca el efecto temporal); el tercer trmino promedia
entre individuos para el mismo perodo ( asi sacando el efecto individual); mien-
tras que la ltima expresin promedia los efectos entre los individuos y entre los
perodos de tiempo (recuperando la variacin no explicada de los efectos individ-
uales y temporales). Aplicando esta transformacin al trmino de error tenemos
el siguiente resultado importante :
3it = (uit ui. u.t + u.. ) = (it i. .t + .. )
u (13.38)
Podemos entonces estimar los parmetros de inters como :
3 = (X % QX)1 X % y (13.39)
con la estimacin del intercepto comn como sigue :
3 ..
3 = y .. X
(13.40)
(ver Baltagi pp.28 para una derivacin completa )
186
Cov(uij , ujs ) = 2 si i $= j, t=s
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el
caso del modelo de one way eror component, podemos utilizar el estimador pon-
derado de Maddala en el cual tenemos dos estimadores "entre". As existir e
tradicional estimador Intra Grupo (usando la ecuacin (38)) derivado a partir de
la aplicacin del la matriz de seleccin Q1 ; el estimador intergrupos individual el
cual es derivado de la regresin: (y i. y .. ) sobre (xi. x.. ) utilizando la matriz de
seleccin Q2 ; y el tercer estimador intergrupos temporal el cual se deriva de la
regresin entre(y .t y .. ) sobre (x.t x.. ) utilizando la matriz de seleccin Q3 .
187
13.7. Extensiones
El modelo bsico puede ser extendido en varias direcciones. Estas son discu-
tidas en forma extensa en el Hsiao y en Baltagi y estn fuera del alcance de este
curso. Entre las mas interesantes se tiene :
188
Captulo 14
Macroeconometra: Series de
Tiempo.
14.1. Introduccin
Uno de los principales aspectos de la economa est vinculado con la relacin
entre variables en el tiempo como tambin en cualquier punto del tiempo. Por
ejemplo, podramos estar interesados no slo en la relacin entre el nivel de inver-
sin y la tasa de inters hoy en da sino que tambin la manera de cmo la tasa
de inters hoy afecta el nivel de inversin maana. El anlisis de relaciones in-
tertemporales es central en nuestra comprensin de la conducta econmica como
la optimizacin inter temporal, aprendizaje, la conducta ante costos de ajuste, por
nombrar algunos. Tambin resulta ser un aspecto fundamental para formalizar las
nociones de equilibrio en un sistema dinmico y los ajustes hacia dicho equilibrio.
189
14.2. Resumen
1. Definiciones y terminologa
2. Definicin de Estacionariedad
4. Orden de integracin
14.2.1. Referencias
Enders Captulos 1-4
Hamilton Captulos1-3,15
Hendry Captulos 2 y 4
c(z) = 1 bz = 0 (14.3)
190
la que entrega una sola raz igual a z = 1/b la cual es mayor que la unidad si
|b| < 1.
Considere ahora un proceso AR(2) particular, el que tiene las siguiente estructura:
c(z) = 1 0, 6z 0, 3z 2 = 0 (14.5)
Resolviendo para las races z, encontramos que stas son iguales a 1.0816 y -
3.0816 ambas mayores que uno en valor absoluto lo que significa que la serie es
convergente.
Suponga que los valores de los parmetros b1 y b2 fueran 0.5 y 0.7 respectiva-
mente, entonces las races seran 0.8903 y -1.6046. Ya que una de estas races es
menor que uno en valor absoluto entonces la ecuacin sera explosiva.
para que la serie sea estacionaria. Para procesos mas complejos, no podemos decir
tan fcilmente si la series ser convergente o explosiva.
Una caracterstica importante de las series de tiempo es que puede tambin ser
visto ya sea como una regresin sobre valores pasados con un trmino de error
aditivo (el AR) o como la agregacin de errores pasados (el MA). Para ver esto
podemos re expresar el proceso AR(1) como :
yt = + yt1 + %t
yt (1 L) = + %t (14.6)
191
AR(1) puede ser reexpresado de la siguiente forma :
! n
yt = + i %t1 (14.7)
(1 ) i=o
de tal manera de que shocks antiguos tienen una ponderacin igual en la deter-
minacin del valor actual de yt . Una serie que cumple con estas caractersticas
se conoce como un paseo aleatorio (random walk). Debera resultar evidente de
que el cambio en el valor del paseo aleatorio es una serie con memoria corta :
yt = %t (14.10)
Esta distincin entre series de memoria corta y series con memoria larga est
directamente relacionado con el valor de en el proceso AR ( i.e. con la raz).
Esta es la principal distincin entre estacionariedad, no estacionariedad y orden
de integracin.
192
y la varianza) son independientes del tiempo. No obstante, en la prctica nos con-
centraremos en los casos de estacionariedad dbil, de segundo orden y covarianza.
Definicin 2
Se dice de que una serie es estacionaria en covarianza si :
E(yt ) = t
V ar(yt ) = 0 t (14.11)
Cov(ys , yt ) = k
esto es, que el valor esperado de la serie no depende de t como as tambin su vari-
anza. Por otra parte, k est en funcin de ts pero no de t o s en forma separada.
caen fuera del crculo unitario. Esto es equivalente a decir de que el polinomio es
invertible. Para ver esto, el proceso ARMA (p,q) puede ser expresado como :
! !
yt = i yti + j %tj con o = 1 (14.13)
i j
(L)yt = (L)%e
donde ! !
(L) = 1 i L i y (L) = 1 + j Lj (14.14)
i j
193
y, si el valor absoluto de estas races son cada una de ellas en forma separada
mayores que uno entonces se dice de que el polinomio es invertible y que el pro-
ceso ARMA es en consecuencia estacionario. De no cumplirse estas condiciones,
entonces la serie es no estacionaria.
yt = yt1 + t y0 0 (14.16)
La serie ser estacionaria si || < 1. Como se dijo, series estacionarias tienen una
varianza finita, sufren de innovaciones transitorias en torno a la media y poseen
una tendencia a volver a su valor medio. Por otra parte, como se vi, el valor de
la media es independiente del tiempo.
yt = yt1 + %t yt = %t (14.17)
194
14.6. Orden de Integracin
Resulta comn hoy en da referirse a la estructura de una serie de tiempo en
trminos de su orden de integracin el cual entrega una relacin directa con la
estacionariedad de una serie de tiempo.
Definicin 3
Se dice que una serie est integrada de orden d si tiene una representacin esta-
cionaria invertible ARMA (p,q) despus de haber diferenciado la serie d veces la
cual no es estacionaria despus de haber diferenciado la serie d 1 veces. Este
tipo de series se denota xt I(d) donde d es el orden de integracin.
Definicin 4
Una serie integrada de orden d puede ser descrita como teniendo una repre-
sentacin ARIMA (p, d, q).
Por ejemplo, una serie estacionaria se denota como una serie I(0), un paseo
aleatorio es I(1). Al diferenciar una serie I(1) se obtiene una serie que es I(0)
o estacionaria mientras que una serie que es I(2) deber ser diferenciada dos ve-
ces para que resulte ser estacionaria. No obstante, la diferenciacin de una serie
I(0) dar otra serie I(0).
195
es si, y puede ser ilustrado con dos ejemplos. El primero de ellos es lo que se
denomina regresin esprea y el segundo ejemplo es el problema de la regresin
inconsistente.
Suponga dos series x e y, para las que se sabe que son paseos aleatorios sin
correlacin alguna :
Ecuacion (21)
Variable Dependiente : yt
Estimacin por OLS
Muestra:1950(1)-1974(4)
196
Es importante notar de que este problema no est relacionado con la muestra,
mas an al aumentar el tamao de la muestra la correlacin esprea empeora
(existe mas correlacin). Problemas similares estarn reflejados en el estadstico
F el cual progresivamente rechaza la nula H0 = o = 1 = 0.
Sin embargo, una forma para detectar la presencia de correlacin esprea es me-
diante el uso de estadsticas de autocorrelacin, en particular el DW. Si no existe
ninguna relacin entre las series entonces el DW tendera a converger a cero a
medida de que la muestra tienda a infinito. Cuando exista una correlacin gen-
uina, entonces este estadstico tender a converger a un valor finito. Existe una
buena regla de aproximacin para detectar correlacin esprea y es al comparar
el valor relativo entre R2 y DW . Si R2 > DW existir una probabilidad creciente
de que exista correlacin esprea.
yt = 0 + 1 zt + %t (14.22)
donde y I(1), z I(0) . La siguiente tabla compara los valores de los coefi-
cientes para la regresin sobre la muestra completa y tambin al particionar la
muestra en dos grupos.
Las grandes diferencias en los valores de los coeficientes sobre diferentes sub mues-
tras es caracterstico de una regresin inconsistente y es causada principalmente
por el hecho de que la variable dependiente y la variable independiente tienen
diferentes orden de integracin. Claramente si se desea de que la inferencia sea
vlida y no dependiente del tiempo, entonces todas las variables en el modelo
debern tener el mismo orden de integracin. Lo que nos queda, eso s, es deter-
minar la manera de cmo se realizan estas pruebas del orden de integracin de
una serie de tiempo.
197
14.8. Pruebas para el Orden de Integracin de una
serie : Algunos tests estndar
Considere el siguiente DGP el cual tiene la siguiente forma :
La prueba del orden de integracin de una serie es simplemente probar el valor del
coeficiente en la ecuacin (23). Si este resulta ser menor que la unidad entonces
la serie es estacionaria; si es igual o mayor que uno se dice entonces que y tiene
(al menos) una raz unitaria y es en consecuencia no estacionaria.
Esto puede ser testeado al construir una prueba de t-student contra la nula de que
H0 : = 1. Sin embargo, cuando estamos testeando contra esta hiptesis nula
la distribucin lmite de esta prueba no es una distribucin t-student estndar.
En la prctica la distribucin es sesgada hacia la izquierda con la mayora de su
masa menor que cero y de esta forma rechazaremos la nula demasiado a menudo.
La prueba en (24) es aplicada ahora sobre yt1 y en vez que sobre yt1 . El
rechazo de la nula confirmara de que lo que implica de que yt I(1), en otras
palabras la serie contiene slo una raz unitaria. El proceso de diferenciacin y
prueba continua hasta que la nula (revisada) sea rechazada. El nmero de difer-
enciaciones sobre yt requeridas para llegar a una representacin estacionaria es
igual al orden de integracin de la serie.
198
Una aspecto importante de la prueba de DF es que es una prueba no- similar lo
que significa que los valores crticos de la prueba son dependientes de la forma
del modelo bajo la nula. En particular, se consideran tres forma alternativas de
especificacin :
199
14.8.2. Prueba de Dickey-Fuller aumentado
Una de las deficiencias del test de DF es que necesariamente asume de que el
DGP es un proceso AR(1) bajo la nula. De no ser as, entonces la autocorrelacin
en el trmino de error sesgar el test. Con el fin de salir al paso de este problema
se puede utilizar la prueba t de Dickey-Fuller Aumentado. El ADF es idntico al
DF estndar pero se construye en el contexto de una regresin del siguiente tipo
:
j
!
yt = yt1 + j ytj + ut (14.25)
j=1
La seleccin del largo del rezago j debe asegurar de que el trmino de error se
distribuye como ruido blanco. El criterio de Informacin de Akaike (o la prueba
de Schwartz) puede considerarse para estimar el largo ptimo del rezago en (28).
200
14.9. Pruebas Adicionales del Orden de Integracin
de una Serie.
La prueba ADF da cuenta de la potencial no normalidad del trmino de error
en (23) al re especificar la regresin estimada. Una forma alternativa para probar
la presencia de raz unitaria en una serie es al orregir"la prueba simple t de DF
sin tener que agregar parmetros adicionales al modelo. Los mas conocidos son las
pruebas de Phillips-Perron (PP); Kwiatowski, Phillips, Schmidt, Shin (KPSS) y
la prueba de "Prueba de Razn de Varianzas"de Cochrane ( la cual no veremos).
yt = + yt1 + ut (14.27)
201
Paso 1: Estimar y en (30) por OLS estndar, asi como tambin el error
estndar de que se denota p , y por OLS el error estndar de la regresin s.
202
14.9.2. La prueba de Kwiatowski, Phillips, Schmidt y Shin
(KPSS)
Hasta el momento nos hemos concentrado en pruebas donde la nula es sobre
la no estacionariedad en series de tiempo univariadas. Sin embargo, pruebas es-
tndar de raz unitaria tienen en general poco poder contra la nula de que la serie
tiene una raz unitaria. De esta manera, tendemos a concluir (incorrectamente)
de que la mayora de las series de tiempo macroeconmicas aparecen teniendo
raz unitaria.
203
:
yt = t + t + %t %t niid(0, t2 ) (14.32)
donde
t = t1 + t t niid(0, 2 ) (14.33)
La hiptesis nula de estacionariedad es representada por la restriccin de que la
varianza del paseo aleatorio es cero.
Ho = 2 = 0 (14.34)
et = yt 2
2 t (14.35)
204
Captulo 15
Introduccin a la Cointegracin
15.1. Introduccin
En la clase anterior examinamos las caractersticas principales de datos en
serie de tiempo y consideramos los problemas que estn asociados con la regresin
esprea y el anlisis de series que tienen diferentes orden de integracin. En esta
clase y la siguiente consideraremos la econometra de un caso especial de series
integradas cuyas caractersticas dinmicas reflejan una relacin sistemtica (i.e.
no esprea) entre las variables. Este es el caso de la cointegracin.
15.2. Resumen
1. Marco general de la teora de cointegracin
4. Pruebas de cointegracin
205
15.2.1. Referencias
Este material es bastante mas complejo y no est bien cubierto en los textos
clsicos. Aqu se entregan algunas referencias.
Aspectos Bsicos:
Cointegracin de sistemas
Primero, desde un punto de vista econmico, sabemos que existen pares de datos
que tienden a moverse sistemticamente parecidos en el tiempo ( por ejemplo,
consumo e ingreso, inflacin y tasas de inters nominal) a pesar de que en forma
individual estas series son en su mayora no estacionarias. La teora econmica
entrega explicaciones sobre estas equilibrios regulares (funciones de consumo, el
efecto Fisher, etc). La cointegracin representa una caracterizacin estadstica de
tales relaciones de equilibrio.
206
equilibrio entre series no estacionarias (si es que dichas relaciones de equilibrio
existen) dentro de un modelo estacionario (y en consecuencia, dentro de un marco
lsico"). Es de esta forma, un mtodo que evita los problemas de regresin es-
prea e inconsistente los que de otra forma ocurriran en un modelo de regresin
con variables no estacionarias.
Tercero, a pesar de que la teora econmica tiene mucho que decir acerca de
este equilibrio, generalmente no es muy claro al explicar variaciones de corto pla-
zo con respecto a las relaciones de largo plazo. Sin embargo, es claro dado la
naturaleza de las ciencias sociales que los datos que observamos de una economa
representan constante desequilibrio - aunque asumimos de que se est movien-
do hacia un equilibrio - y que en el corto plazo, existe considerable variacin en
la mayora de los datos en series de tiempo (especialmente en aquellos para los
cuales existe mucha frecuencia, p.ej precios de acciones).
207
15.4. Relaciones entre Series Integradas
Podemos pensar en una regresin bivariada como una ombinacin lineal"de
dos variables. Por ejemplo, considere el modelo de regresin :
yt = + xt + %t (15.1)
%t = yt y2t = (yt
2 2 t)
2 x (15.2)
La combinacin lineal de una serie I(0) con otra series I(0) es tambin I(0). La
combinacin lineal de dos series I(1) es tambin I(1). No obstante, series con un
orden superior de integracin dominarn y as la combinacin lineal de una serie
I(1) con una I(0) entregar una serie I(1). En trminos del anlisis de regresin,
la regresin de una serie I(0) con una I(1) (i.e. su combinacin lineal) ser no
estacionaria y en consecuencia estadsticamente inconsistente.
208
y sobre x) es I(0) entonces tenemos cointegracin.
Los valore crticos de los estadsticos DF y SBDW usados para testear la coin-
tegracin debern ser entonces mayores en valor absoluto que aquellos utilizados
para testear el orden de integracin de una serie univariada. Mas an, dado de
que la regresin crea un trmino de error con media cero la prueba de DF de la
ecuacin necesariamente asume de que no hay constante (drift).
209
La prueba de Dickey-Fuller para cointegracin se realiza al probar el valor de
= ( 1) en la regresin:
La prueba de SBDW se realiza en forma similar la que se aplica sobre los residuos
de la regresin de cointegracin. La prueba tiene la siguiente forma :
$
zt z2t1 )2
(2
Q(2z) = $ SBDW Ho : 1 Ha : < 1 (15.6)
zt z)2
(2
Para la prueba SBDW valores mayores que el valor crtico reportado en las tablas
representa el rechazo de la nula. Nota : si zt es ruido blanco, el SBDW tendr un
valor de 2.
Los valores crticos para los estadsticos se presentan en la siguiente tabla. Notar
de que la nula en todos estos test es de no cointegracin (no estacionariedad en
la serie de residuos de la regresin de cointegracin).
210
15.7. El Modelamiento de Relaciones de Cointe-
gracin: Modelo de Correccin de Errores
El modelo de correccin de errores, el cual es una de los modelos mas poderosos,
es aplicado muy a menudo en los ltimos trabajos con series de tiempo. A pesar de
que su popularidad surge del establecimiento del Teorema de Representacin de
Engle-Granger, es importante mostrar de que el modelo de correccin de errores
puede ser derivado de una simple restriccin sobre el coeficiente del modelo estn-
dar de rezagos distribuido autoregresivo (ADL). Para ello, considere el siguiente
modelo ADL(1,1) :
211
si xt I(1) entonces xt I(0) (15.10)
si y, x cointegran entonces z I(0)
As, todos los trminos en la ecuacin (9) tienen el mismo orden de integracin
(y este orden es cero) y en consecuencia este modelo puede estimarse utilizando
el marco clsico de regresin.
El poder del ECM yace del hecho que combina una rica intuicin econmica
en su forma funcional con las propiedades estadsticas deseables cuando los datos
no son estacionarios (como la mayora de los datos macro) sin perder ningn tipo
de informacin valiosa de largo plazo contenida en la relacin de equilibrio.
Teorema 1
Si dos series cointegran entonces ser mas eficiente representarlas mediante un
modelo de correccin de errores. Mas an, si las series cointegran y el modelo de
correccin de errores es validado, entonces est abarcar cualquier otra especifi-
cacin dinmica - como el mecanismo de ajuste parcial.
Resulta til notar dos elementos aqu (los que sern discutidos en detalle mas
adelante). El primero es que en comparacin con un modelo de ajuste parcial,
el ECM no exhibir el mismo nivel de multicolinealidad entre los regresores del
modelo : mientras xt y yt1 pueden ser altamente colineales, no es esperable que
eso ocurra entre xt y (yt1 Kxt1 ).
212
15.8. La Estimacin de Relaciones de Cointegracin
A continuacin se describen tres formas de estimar la relacin de cointegracin
entre dos variables.
yt = + xt + %t (15.11)
213
A pesar de su beneficio intuitivo existen problemas con el anlisis de coin-
tegracin de Engle-Granger especialmente para investigadores que trabajan
con muestra pequeas. Ello pues el vector de cointegracin estimado a par-
tir de (11) es super consistente (en el sentido de que converge hacia el valor
poblacional verdadero mas rpido de que si y y x fueran I(0)) el sesgo en
muestras pequeas puede ser muy significativo especialmente si %t est au-
tocorrelacionado.
donde A(1) $= 0 y A(1) y B(1) son los polinomios A(L) y B(L) evaluados
en t = 1 para todos los rezagos. El vector ( , k) representa un estimador
alternativo del vector de cointegracin.
Este vector puede ser utilizado para construir una combinacin lineal (reza-
gada) definida como :
%
zt1 = (yt1 Kxt1 ) (15.16)
214
la cual es la representacin estacionaria de una relacin de cointegracin.
Esta puede ser posteriormente incluida en el modelo de correccin de errores
(13) reemplazando a zt1 .
Este modelo es lineal en sus variables pero no en sus parmetros dado que
la ecuacin a estimar es :
donde
1 = 2 3 , 2 = 2 4
Sin embargo, existe un problema de identificacin con este modelo. Slo si
imponemos la restriccin de que o bien 0 = 0 , lo que implica de que no
hay drift en la evolucin de yt , o bien que 3 = 0, lo que implica de que no
existe una constante en la relacin de largo plazo, podremos recuperar los
estimadores de la relacin de largo plazo de la regresin de cointegracin
al dividir los parmetros estimados 1 , 2 por 2 . Notar de que estamos
tomando ventaja de la normalizacin de la relacin de largo plazo sobre
yt1 .
215
cointegracin entonces la relacin ser nica.
A menudo encontramos que los investigadores asumen de que existe slo un vec-
tor de cointegracin multivariado entre las n variables. Este supuesto puede ser
derivado de la teora. Si este supuesto es vlido, entonces la relacin puede ser
estimada, testeada y representada por un modelo de correccin de errores uniecua-
cional de forma similar al caso bivariado pero con mas variables. Discutiremos
esto luego; no obstante, teniendo en cuenta de que pueden existir mas de un vec-
tor de cointegracin que relacione a las variables, necesitamos en consecuencia un
mecanismo que nos permita determinar el nmero de vectores de cointegracin y
la forma de modelarlos.
(ii) Asumiendo de que todas las variables son I(1) [o estn transformadas de
I(2) a I(1)] regresione la siguiente ecuacin esttica :
(1) yt = 0 + % Xt + %t
donde
(2) = (1 , 2 ...n )
216
Si define el vector de cointegracin entonces ser superconsistente -
i.e. convergern mas rpido en T que el mtodo de OLS. Notar de que es
posible que ciertos elementos de pueden ser cero.
217
Captulo 16
Cointegracin Sistemica
16.1. Introduccin
Hasta el momento nos hemos concentrado en la estimacin de modelos de
correccin de errores uniecuacionales. El tema que queremos discutir en esta sec-
cin es acerca de la cointegracin sistmica, es decir, aquella en que mas de dos
variables pueden estar involucradas simultneamente.
218
Consideremos un ejemplo de tipo macroeconmico. En un modelo de Solder-
Swan, el que relaciona el Tipo de cambio nominal (e), con la Oferta de dinero
nominal (M s ) y un vector de elementos exgenos como la ayuda internacional y
los salarios reales.
De esta manera podemos tener que existe una funcin g que representa el equi-
librio interno de la economa la cual asocia e con M s y los salarios reales ( pwn , pwt )
el cual puede generar un vector de cointegracin.
Por otra parte est el balance externo el que puede asociar las mismas variables
anteriores mas la ayuda internacional (especialmente en un pas menos desarrol-
lado). Esta segunda ecuacin puede generar otro vector de cointegracin.
$
donde k1i=1 i xti es I(0) y xtk es I(0) si contiene las relaciones de coin-
tegracin.
= %
219
Aqu, es el vector de parmetros de correccin de errores (es decir el ajuste) y
% es el vector de cointregacin hasta n-1. Adems tiene rango reducido lo que
podemos expresar por
0r n1
esto nos entrega el nmero de vectores de cointegracin.
220
Paso 2 Una vez identificada la forma de la matriz se especifica el modelo
general de VECM, de la siguiente manera:
k !
! n
x1t = 1ij xjt1 + 11 1% xtk + 12 2% xtk + ... + 1r r% + %1t
i=0 j=1
k !
! n
x2t = 2ij xjt1 + 21 1% xtk + 22 2% xtk + ... + 2r r% + %2t
i=0 j=1
. =.
. =.
. =.
k !
! n
xnt = nij xjt1 + n1 1% xtk + n2 2% xtk + ... + nr r% + %nt
i=0 j=1
r = T log(1 r ) r = 1.....n
Para ello se deber primero ordenar de mayor a menor los r . As, partiendo
por el valor caracterstico mayor, testear por el nmero de valores caracteristicos
de la siguiente manera:
r r Nula Alternativa
1 1 H0 : r = 0 HA : r 1
2 2 H0 : r = 2 HA : r 2
.
.
.
n n H0 : r = n 1 HA : r = n
221
El nmero de valores caractersticos significativos (es decir el nmero de vectores
de cointegracin) es determinado por la hipotesis nula ms alta aceptada por los
datos.
Una vez que existen que existen r eigenvalues significativos, estos son usados
para calcular los r vectores de cointegracin.
x1t 11 21
x1t 12 22
.
.
.
xnt 1n 2n
222
r t -Tln(1-t 5cv. -Tln(1-t ) 5cv.
1 0.4186 45,01 28.167 77,20
53.347
2 0.2662 25,70 21.894 32.19 35.068
3 0.0716 6.17 15.752 6.48 20.168
4 0.0038 0.32 9.094 0.32 9.094
Leyendo la tabla desde la primera fila partimos con la nula de que la matriz
de tiene rango cero (H0 : r = 0) contra la alternativa de que r 1. Notamos
que el valor del estadstico es mayor que el valor crtico rechazndose la nula de
que no existen vectores de cointegracin en favor de que existe a lo menos uno.
Se sigue en forma anloga hasta que ya la hiptesis nula no puede ser rechaz-
ada determinndose en consecuencia el nmero de vectores de cointegracin. En
este caso, siguiendo el estadstico de valor crtico mximo, la tabla anterior sugiere
que hay dos vectores. Si se usa, por otra parte, el estadstico de traza se sugiere
que hay solo uno. Si bien los dos estadsticos generalmente apuntan al mismo
resultado, en este caso se favorece el que denote mas vectores.1 .
Ecuacin mp r y
1
El resultado anterior denota que el segundo vector es estacionario con un cercano a 1 (i.e.
0.95)
223
Ecuacin mp r y
Dado que encontramos que slo hay dos relaciones significativas entonces nos de-
beremos focalizar en las dos primeras filas de en la tabla anterior y en las dos
primeras columnas de en la ltima tabla. En otras palabras, las dos ltimas
filas y columnas respectivamente pueden ser eliminadas sin prdida de informa-
cin relevante.
t = 0,283(yt trend)
Sus efectos de feedback son un poco mas difciles de interpretar ya que dado que
r y no cointegran existen un feedback significativo de la relacin de inflacin
sobre la tasa de inters.
224
As el V ECM queda expresado de la siguiente forma(asumiendo que el Var cor-
respondiente es xt = 1 xt1 + t )
rt = 3 + 31 t1 + 32 (m p)t1 + 33 yt1
0,016[(m p)t1 0,648yt1 + 5,94t1 + 0,946rt1 + cte31 ]
3,010[t1 0,283yt1 cte32 ] + %3t
yt = 4 + 4 t1 + 42 (m p)t1 + 43 rt1
0,017[(m p)t1 0,648yt1 + 5,94t1 + 0,946rt1 cte41 ]
0,390[t1 0,283yt1 cte42 ] + %4t
225