Apunte Econometria Intermedia

Econometra Intermedia
Apuntes de Clases
Jos Miguel Benavente H.1
21 de septiembre de 2011
1 Escuela
de Negocios. Universidad Adolfo Ibanez. e-mail : jmbenavente@uai.cl. Notas
basadas en Benavente (2010). Todos los errores son responsabilidad del autor.
Captulo 1
Introduccin al Curso
1.1. Resumen
1. Conceptos y Metodologa en Econometra
2. Una Nota de Precaucin
1.1.1. Referencias
D.F. Hendry Dynamic Econometrics (1995) Captulo 1.
J. Kmenta Elements of Econometrics (1986) Parte 1.
P. Kennedy A Guide to Econometrics (1997) Captulo 1.
C. Mukherjee, H. White, M. Wuyts Econometrics and Data Analysis for
Developimng Countries (1998).
Dos artculos tiles:
C.L. Gilbert "Professor Hendrys Methodology". Oxford Bulletin of Eco-
nomics and Statistics (1986, Vol 48).
D.N. McCloskey y S.T.Ziliak "The Standard Error of Regresions". Journal
of Economic Literature (Vol 34, Marzo 1996)
1.2. Conceptos y Metodologa en Econometra

1.2.1. Objetivos
La econometra est relacionada con la medicin de relaciones econmicas me-
diante el uso de mtodos y tcnicas de estimacin de la inferencia estadstica clsi-
1
ca. POr su lado, la economa matemtica est relacionada con la formalizacin
de la teora econmica sin preocuparse de los problemas estadsticos asociados a
la inferencia a partir de los datos. La econometra pretende principalmente cerrar
la brecha que existe entre la teora econmica y los sistemas econmicos reales
los que son pueden ser representados por datos.
1.2.2. Uso de la Econometra

Generalmente la econometra tiene tres propsitos relacionados:
1. Cuantificacin: Aplicacin de mtodos para cuantificar relaciones con in-

ters econmico. En otras palabras, se espera obtener de los datos aquellos
valores de los parmetros del modelo terico, el que creemos representa la
teora econmica subyacente y que ha generado los datos observados. Por
ejemplo, si consideramos una funcin de demanda lineal que tiene la sigu-
iente forma:
Qt = 0 + 1 Pt + 2 Yt + t (1.1)
la estimacin est relacionada con el proceso de derivacin de los valores
de 0 , 1 y 2 . Esto es un proceso intrsicamente mecnico. Existen nu-
merosos mtodos para atacar este problema y la capacidad actual de los
computadores hacen de esta una tarea sencilla.
2. Inferencia: Habiendo obtenido los estimadores de 0 , 1 y 2 querremos

saber ahora si estos estimadores son una buena aproximacin de la verdad,
es decir, la verdadera aunque no observable relacin inherente (condi-
cional) entre Q, P e Y. Este aspecto de la econometra hace un uso intensivo
de la teora clsica de inferencia estadstica.
3. Prediccin y Simulacin: Suponga que una teora dada es apoyada por

la informacin existente (i.e. los datos), podramos desear predecir el com-
portamiento de la economa ahora sobre una muestra diferente. Esta podra
ser la conducta de un grupo diferente de agentes econmicos o para los mis-
mos agentes pero sobre un perodo distinto. No obstante, la aplicacin mas
comn es la prediccin de conductas futuras.
Una Nota de Precaucin : Teora y datos estn ntimamente ligados ; los he-
chos no existen en el vaco, estos son distinguidos e interpretados por la teora.
Los "hechos"en este caso son representados por los datos que podemos recolec-
tar. La manera en que los recolectamos, cmo medimos el fenmeno econmico
inevitablemente est condicionado o guiado por la teora, aquella que utilizamos
para especificar los modelos economtricos.
2
Esto produce una gran tensin dentro de la econometra dado que uno de
los objetivos es el uso de modelos economtricos y los datos para evaluar teora
rivales como si los datos fueran independientes de la teora. La pregunta que
continuamente los investigadores se hacen es: cul es el rol que tiene los datos en
el proceso de la comprensin econmica?, cmo podemos mantener el balance
entre ser fieles a la a la teora y usar datos para calibrar el modelo terico, por
una parte, y por la otra, mantenerse agnstico acerca de la teora y usar los datos
para refinar (o incluso definir) nuestra visin terica del mundo?. Est tensin
est en el centro del debate metodolgico en esta rama cientfica y an no ha sido
resuelto.
1.2.3. Una Metodologa Economtrica

La metodologa adoptada en este curso comienza con los trabajos pioneros
de Dennis Sargan en 1960 la que se ha hecho mas popular con los trabajos con-
temporneos de David Hendry y sus colegas. Esta metodologa es probablemente
aquella que domina la econometra en Inglaterra y Europa y es comnmente
referida como el LSE Approach. Estas notas brevemente discutirn los princi-
pales elementos y conceptos asociados a esta metodologa . Para un mayor detalle
de sta, se puede revisar el Captulo 1 de Hendry (1995). Esta metodologa no
ha estado exenta de crticas, particularmente en USA, donde generalmente (y
errneamente, segn mi percepcin) ha sido caricaturizada como mostrando de-
masiado agnosticismo terico.
Background. Los primeros aos de la econometra (entre los 30s y los 50s)
estuvieron concentrados principalmente en asuntos relacionados con la obtencin
de los estimadores, lo que , antes de la llegada de los computadores personales,
era una tarea monumental. De tal forma, la metodologa economtrica de ese en-
tonces trabajaba bajo el supuesto que el modelo a estimar era conocido y adems
era el correcto. La pobre performance de estos modelos sumado al hecho de la
fragilidad de los estimadores economtricos y las inferencias obtenidas de ellos,
represent un desafo significativo a la econometra y provey un estmulo para
la re-examinacin de la metodologa economtrica. Ya a los comienzos de los 70s
se observa un creciente cuestionamiento acerca de la metodologa utilizada en la
econometra.
La filosofa subyacente a los acercamientos contemporneos de la econometra
comienzan por revisar los cuestionamientos acerca de la computacin al notar
que, en general, la estimacin del modelo es fcil, pero que la especificacin y
evaluacin del modelo es difcil. De esta manera, la econometra es mas bien un
proceso de descubrimiento mas que uno de estimacin y el debate economtrico
consiste en el desarrollo de un proceso eficiente de descubrimiento, diseo y eval-
3
uacin.
Para formalizar un poco mas esta metodologa distinguiremos cuatro niveles de
informacin disponible al investigador (Hendry, 1995, Captulo 1)
Nivel A Teora de Probabilidades en la cual la estructura del proceso generador

de datos (DGP) subyacente (normalmente estocstico) es conocido con certeza y
la verosimilitud (o probabilidad) de todos los posibles eventos puede ser deducida
directamente de la teora.
Nivel B Teora de Estimacin donde la forma general del DGP es conocida pero
su calibracin (i.e. valores de los parmetros) es desconocida. Aqu, la verosimil-
itud de todos los posibles eventos puede ser slo inferida a partir de las observa-
ciones empricas (datos) con la ayuda de la teora desarrollada en el Nivel A.
Nivel C Teora de Modelamiento donde la estructura del DGP es desconoci-

da. La nica estrategia que se puede seguir aqu es hipotetizar caractersticas
alternativas del DGP (referidas como modelos) y desarrollar mtodos para deter-
minar aquel modelo mas proclive de haber generado los datos observados.
Nivel D Teora de Prediccin donde ni el DGP ni la realizacin"de los datos

son observados. La teora de prediccin se preocupa de la evaluacin de modelos
rivales derivados en el Nivel C.
Basados en esta caracterizacin, esta metodologa consiste en cinco pasos in-

terrelacionados. Estos son los siguientes:
1. condicionamiento y marginalizacin del DGP
2. estimacin de modelos no restrictivos y sobreparametrizados
3. simplificacin del modelo sobreparametrizado
4. testeo e identificacin de modelos congruentes
5. anidamiento de modelos rivales
Modelamiento economtrico es, de esta forma, un proceso iterativo de marginal-

izacin y condicionamiento progresivo del conjunto de datos para definir el mod-
elo, y el testeo y validacin de las restricciones de marginalizacin y condi-
cionamiento asumidas.
El proceso de detiene slo cuando el investigador ha identificado lo que comn-
mente se denomina un modelo congruente. Un modelo congruente es aquel que
puede ser interpretado en trminos de relaciones econmicas derivadas de la teora
4
(consistencia terica) y que tambin describe las caractersticas de los datos en
forma estadsticamente robusta (admisible por los datos). Este approach es referi-
do normalmente como un modelamiento del tipo general-a-especfico (general-to-
specific).
1. El Proceso Generador de Datos (DGP) y modelos condicionales.

Esta metodologa est basada en la nocin de que los datos econmicos son
generados por un proceso extremadamente amplio y complejo (i.e. la estruc-
tura de la economa y las interacciones de los agentes con esta estructura)
el que no es o no puede ser comprendido completamente. A este proce-
so complejo lo denominaremos como Proceso Generador de Datos (DGP).
En general, la tarea del econometrista es la de caracterizar las principales
propiedades de este DGP a travs de la construccin de modelos que sean
consistentes con la teora y estadsticamente vlidos.
El conjunto de datos en economa consiste, tpicamente, en una muestra de
observaciones relativamente pequea de un gran nmero de variables. De
esta forma, para que sea manejable, el anlisis debe concentrarse en un sub-
conjunto de estas variables. El DGP puede ser pensado como la distribucin
de probabilidades conjunta de un vector de variables V y un conjunto de
parmetros los que describen las relaciones (aun desconocidas) entre las
variables.
Podemos describir el DGP para V (para el perodo t = 1 ....T) como:
Vt = DV (Vt |, V0 ) = Tt=1 DV (Vt |, Vt1 ) (1.2)
Sin embargo, supongamos que estamos interesados slo en un aspecto es-

pecfico del funcionamiento general de la economa, por ejemplo en la con-
ducta de consumo del sector privado. Podremos definir un vector de parmet-
ros de inters especfico como 1 (escogido dada su relevancia terica en el
problema analizado por el investigador). Por ejemplo, 1 podra incluir la
propensin marginal a consumir.
El modelo ha ser estimado, que contiene slo los parmetros de inters 1 ,
que son un subconjunto de , es obtenido mediante un proceso de factor-
izacin de la distribucin conjunta.
Cabe sealar que para cualquier par de variables aleatorias m y n, su dis-
tribucin de probabilidades conjunta D(m,n) puede ser factorizada como:
D(m, n) = D(m|n)D(n) D(n|m)D(m) (1.3)
Volviendo al caso discutido en (2), supongamos que Vt = {Xt , yt , wt } donde

w es el conjunto de variables no relevantes para el problema y donde X =
( y , z ) es el conjunto de variables relevantes. Entonces el DGP puede ser
5
factorizado en sus procesos condicionales y marginales para cada t.
DV (Vt |Vt1 , ) = DX|W (Xt |wt , Vt1 , 1 )DW (wt |Vt1 , 2 ) (1.4)
donde = {1 , 2 }. Una vez que el investigador a reducido el alcance

del problema al marginalizar la variables ruidosas, w, de esta manera,
factorizaciones posteriores se deben realizar para llegar a la especificacin
preferida.
DX (yt , zt |Xt1 , ) = Dy|z (yt |zt , Xt1 , 1 )Dz (zt |Xt1 , 2 ) (1.5)
La ecuacin (5), donde = {1 , 2 } expresa la variable de inters mode-

lada (i.e. independiente), y, slo en trminos de la variables explicativas ,
z, su historia y los parmetros de inters. Todos los modelos economtri-
cos son esencialmente modelos condicionales de la forma especificada en (5)
obtenidos mediante este proceso de factorizacin del DGP ya sea en forma
explcita o, como suele ocurrir comnmente, de forma implcita. La forma
especfica del modelo depender de los supuestos impuestos sobre la forma
de la funcin de distribucin conjunta (el DGP).
La marginalizacin de las variables w (i.e. la validez de exclusin de es-
tas variables) requiere que los parmetros de inters, 1 , sean una funcin
solamente de 1 y adems que 1 y 2 sean libres de variacin. Este pro-
ceso reduce el tamao del problema y permite al investigador enfrentarse
a un problema manejable. Similarmente, la validez de la versin final del
modelo condicional requiere que la relacin entre las variables y y z, pueda
ser descrita sola y completamente en trminos de 1 sin tener que saber
los parmetros del proceso marginal de z .Estos aspectos, conocidos como
exogeneidad, sern discutidos mas adelante en el curso.
2. Estimacin. Esto ser discutido en la tercera semana
3. Simplificacin. Claramente, los procesos de marginalizacin y condicionamien-

to no son nicos. Estos dependern del problema que se analice y de la
eleccin por parte del investigador acerca de la descomposicin progresiva
del DGP hacia el modelo de condicional final. Ello, obviamente levanta la
pregunta acerca la arbitrariedad del proceso de modelamiento. La respues-
ta a esta pregunta es no, dado que cualquier arbitrariedad es controlada
de tres formas diferentes. La primera, es obviamente la teora econmica:
econometra es una herramienta para informar o probar una teora. No im-
porta cuan buena pueda ser nuestra representacin estadstica, siempre
estaremos forzados a evaluar los modelos en trminos de teora econmica.
Teora y evidencia no son sustitutos. El segundo control viene en....
6
4. Testeo Diagnstico. En el cual la validez estadstica del condicionamiento
est sujeta a un testeo riguroso. La falla en los tests implementados entrega
evidencia acerca de la invalidez de las condiciones de exogeneidad asumidas.
Estos aspectos sern analizados entre la quinta y sptima semana de clases.
Un modelo congruente es aquel que : a) es interpretable en trminos de los
parmetros estructurales de inters; b) coherente con los datos ; c) donde
exista estabilidad en los parmetros de tal forma que el modelo puede ser
generalizable para muestras alternativas.
Si los modelos resultantes no son congruentes (los cuales suele ser la regla al
comienzo de la investigacin) el proceso de reduccin general-a-especfico, al
considerar el condicionamiento, el proceso de simplificacin, la especificacin
dinmica, etc debern ser repetidos. La bsqueda de modelos congruentes
es, como se mencion, un proceso iterativo.
5. Abarcamiento (Encompassing). Como resultado de los pasos (i) a (iv)

habremos desarrollado modelos que son congruentes. Pero cmo los pode-
mos comparar?
El propsito del abarcamiento es la de proveer formalmente una manera de
contrastar un modelo con otro para explicar los datos que se observan. Esen-
cialmente si tenemos dos modelos compitiendo (i.e. dos especificaciones que
persiguen describir la evolucin de una variable en particular) deberemos
hacer la siguiente pregunta : creyendo en el Modelo 1, podemos explicar
a lo menos todo lo que el Modelo 2 puede explicar?. De ser as, podemos
decir que el Modelo 1 abarca al Modelo 2. El concepto de abarcamiento
parsimonioso captura la nocin de que un modelo simple abarca a uno mas
general. Resulta claro que un modelo que tiene muchos regresores es intu-
itivamente menos poderoso que aquel que puede explicar lo mismo en
base a una especificacin mas simple. En el lmite, un modelo que describe
todo, explica nada !!!!
Recapitulando : modelamiento economtrico es un proceso iterativo donde las

primeras tres reglas de oro son Test, Test and Test (Hendry, 1995).
1.3. Una nota de precaucin

Para finalizar estas notas llegamos a lo que probablemente sea la leccin mas
importante en econometra, la que puede ser resumida por la siguiente frase: ...
una diferencia puede ser importante sin que necesariamente sea significante, y
una diferencia puede ser significante sin que sea necesariamente importante ....
McCloskey y Ziliak (1996) resaltan lo que ellos denominan la hiptesis alarmante
7
de que ordinariamente en economa, la significancia estadstica se considera como
similar a la significancia econmica.
Consideremos el siguiente ejemplo derivado de la teora de tasas de cambio, en
forma particular, la condicin de paridad de poder de compra (PPP):
P P P : P = + (EP ) + % (1.6)
donde H0 : = 1.
Suponga que derivamos una estimacin puntual de 0.95 para . Bajo que condi-
ciones podemos rechazar / no rechazar la hiptesis nula?. La respuesta es simple
ya que disponemos de metodologas estandarizadas para construir intervalos de
confianza. Sin embargo, que significa decir que = 0.95 no es diferente de la
unidad si T = 100 pero lo contrario si T = 1000?. Es realmente diferente de la
unidad?
Pruebas de significancia tratan solamente con errores muestrales (i.e. la precisin
de una estimacin) pero altas o bajas significancias estadsticas no necesariamente
determinan cuan importante es la variable. Un valor de = 0.95 puede ser sufi-
cientemente cercano para un economista que investiga, por ejemplo, ndices de
estndar de vida entre pases. Es claramente diferente de uno para un trader en
los mercados internacionales de divisas.
8
Captulo 2
Revisin de las Bases Estadsticas

de la Econometra y el Modelo de
Regresin Clsico
2.1. Resumen
1. Estimacin: Conceptos Bsicos
2. Benchmark: Modelo de Regresin Clsico
3. Apndice: Algunas Distribuciones Utiles
2.1.1. Referencias
Gujarati: Parte 1
Kmenta: Captulos 4-7
Greene: Captulos 3 y 4
Kennedy: Captulo 2
Mukherjee:Captulo 2
2.2. Introduccin
En esta y la clase siguiente nos preocuparemos de revisar dos importantes
actividades de la econometra:
9
Estimacin: el uso de informacin muestral para obtener estimadores de parmet-
ros poblacionales (basados en supuestos sobre la DGP-Nivel B).
Inferencia: el uso de la teora de probabilidades y distribuciones con el fin de

inferir los verdaderos valores de los parmetros en funcin en los momentos esti-
mados para la poblacin ( Nivel A).
Estos dos componentes sern revisados a la luz del modelo clsico de regresin
lineal, piedra angular en la econometra moderna.
2.3. Estimacin
Dejaremos para la siguiente clase mtodos especficos de estimacin donde ex-
aminaremos el mtodo de Mxima Verosimilitud as como el ya conocido mtodo
de Mnimos Cuadrados o el mas novedoso mtodo de los Momentos. Por ahora
nos concentraremos en las propiedades deseables de un estimador general.
Definicin 1: Un estimador es un estadstico de la muestra el que entrega infor-

macin acerca de la poblacin.
Supongamos que el parmetro de inters es (el que puede ser la media, varianza,
skewness u otro momento mayor), nos referiremos al estimador como . Cada
observacin individual se denomina como una estimacin de dicho estimador.
1. Propiedades del estimador en muestras finitas. El primer conjunto

de propiedades estn relacionadas con la calidad del estimador para una
muestra en particular de tamao fijo:
a) Sesgo. Un estimador ser insesgado si el valor esperado del estimador

es igual al "verdadero"valor poblacional. As, E() = . De esta man-
era, el sesgo de un estimador viene dado por:
Sesgo = [E() ]
b) Eficiencia. Un estimador es eficiente si es insesgado y su varianza es

menor que cualquier otro estimador insesgado.
Lo anterior sugiere que a pesar de que podremos comparar la eficiencia rel-

ativa entre estimadores, no podemos realizar ninguna aseveracin definitiva
acerca de un estimador ya que pudiera existir uno an no descubierto, el
10
que pudiera tener una varianza menor.
Afortunadamente existe un teorema, el teorema de la Cota Mnima de

Cramer Rao, el que nos permite determinar la cota mnima a la cual
cualquier estimador insesgado puede alcanzar dado que podemos especificar
la forma funcional de la distribucin poblacional.
Una medida de la calidad de un estimador, la que combina ambas propiedades

es el Error Cuadrado Medio. Este puede ser definido como :
ECM () = E( )2 = E[ E()]2 + [E() ]2
El cual es la suma de la varianza del estimador mas el cuadrado del sesgo.
2. Propiedades lmites y asintticas. Generalmente estamos interesados

en la naturaleza del estimador a medida que la muestra crece en tamao.
Ello debido a dos razones fundamentales:
Primero, en la mayora de los casos no podremos decir nada preciso acerca
de las propiedades de un estimador cuando la muestra es pequea pero s
podremos derivar resultados (aproximados) acerca del estimador a medida
que la muestra crece. Segundo, a menudo encontramos que necesitamos tra-
bajar con estadsticos (principalmente pruebas estadsticas) las que no son
independientes del tamao de la muestra. De ser as, necesitamos saber la
manera en que el estimador se comportar a medida que la muestra cambia,
generalmente cuando sta crece.
Convergencia en Probabilidad
Una variable aleatoria x converge en probabilidad si:
lm x = plimx = x
n
donde x es un valor arbitrario dado, el que se lee el valor lmite en proba-

bilidad es x estrella. La probabilidad en el lmite puede ser reescrita como
sigue:
lm P r(x % x x + %) = 1
n
El Teorema de Slutsky
Si g(x) es una funcin continua de x entonces:
plim g(x) = g(plim(X))
11
El lmite de la funcin es la funcin en el lmite. Notar que esta no es una
propiedad general de las funciones (p.e. Desigualdad de Jensen)1 .
El teorema de Slutsky aplicado a vectores (matrices) aleatorias como tam-
bin a escalares aleatorios es como sigue.
Si plim Wn = , entonces, plim Wn1 = 1 .
Convergencia en Distribucin y Distribuciones Lmites

La distribucin lmite de una variable aleatoria x se denotar por F(x). Di-
remos que la variable aleatoria xn converge en distribucin a x, denotado
d
como xn x. La media lmite y la varianza lmite son simplemente la
media y varianza de la distribucin lmite F(x). Existen dos resultados que
son necesario destacar: (ver Grenne cap. 4)
d d
Si xn x y plimyn = c entonces xn yn cx
d d
Si xn x y g(x) es cncava entonces g(xn ) g(x)
Finalmente, en general se da el caso que la distribucin lmite F(x) de un

variable aleatoria es un punto (a menudo el cero). Hay muy poca informa-
cin en este punto y, en consecuencia, estaremos interesados en estudiar
las propiedades de la variable aleatoria antes de que colapse en esta sin-
gularidad. Ello puede lograrse mediante el uso de una transformacin es-
tabilizadora. Por ejemplo, podremos encontrar un estadstico que tenga la
siguiente propiedad:
plim =
el cual es un punto. Sin embargo, podemos definir una transformacin de
tal manera que:
d
z = h() f (z)
donde f(z) es una funcin lmite bien definida. Lo anterior, nos permite
introducir nuestra siguiente propiedad para un estimador:
3. Consistencia. Un estimador es consistente si su probabilidad lmite ( o en
el lmite) es igual al verdadero parmetro poblacional. En otras palabras:
plim() =
Distribucin Asinttica.
1
La desigualdad de Jensen sugiere que, en general, E[g(x)] $= g[E(x)]. Mas especficamente,
cuando g(x) es una funcin convexa, E[g(x)] g[E(x)].
12
Distribuciones lmites son de poco uso directo cuando estamos preocupados
por las propiedades de los estimadores derivadas a partir de muestras finitas
de observaciones. En tales circunstancias haremos uso de aproximaciones a
la verdadera (pero desconocida o no computable) distribucin mediante el
anlisis de la distribucin del estadstico a medida en que el tamao de la
muestra tiende a infinito.
a
xn f (x, n)
4. Sesgo Asinttico. Un estimador se dice que es asintticamente insesgado si:
lm E() =
n
Si un estimador es insesgado es automticamente asintticamente insesgado

tambin, pero lo contrario no es necesariamente cierto.
2.4. Uso de la Teora de Distribuciones: Distribu-

cin Muestral de la Media Muestral
Imagine que obtiene una muestra aleatoria de n observaciones provenientes
de una poblacin y que calcula un estadstico, por ejemplo, la media muestral.
Si obtenemos otra muestra podramos, obviamente, obtener otro valor para este
estadstico. De esta forma , la media muestral es, efectivamente, una variable
aleatoria.
Estamos interesados aqu en derivar la distribucin muestral de esta media mues-

tral en los casos en que la variable puede tomar cualquier valor y adems puede
provenir de cualquier tipo de distribucin.
Teorema 1
Si x1 , .., xn son una muestra aleatoria y sabiendo que estas variales son idntica e
independientemente distribuidas cada una teniendo la misma media y varianza
2 , entonces cualquiera que sea la forma de la distribucin de X , la distribucin
muestral de la variable aleatoria X tendr una media igual a la media poblacional
2
pero con una varianza igual a n .
Demostracin. Definiremos la media muestral como:

n
1!
X = Xi
n i=1
13
donde X1 , .., Xn son n variables obtenidas de la misma muestra. Se asume que
Xi son i.i.d. Dado que n es constante, se tiene que :
n n
1! 1 !
E(X) = E Xi E(X) = E Xi
n i=1 n i=1
sabemos que en el caso de una funcin lineal, el valor esperado de una suma es
igual a la suma de los valores esperados. Dado que la media de cada Xi es ,
entonces:
1 1 n
E(X) = [E(X1 ) + ... + E(Xn )] = [ + ... + ] =
n n n
as, la media de la distribucin muestral es igual a la media poblacional. POr otra
parte, la varianza de la media muestral es:
" n # n
1 ! 1 !
2
X = V ar(X) = V ar Xi = 2 V ar[ Xi ]
n i=1 n i=1
dado$que las $
variables son independientes, sus covarianzas son cero, entonces,
V ar[ Xi ] = V ar(Xi ).
2 1 2
X = [V ar(X1 ) + ... + V ar(Xn )] =
n2 n
2
En resumen: si X (, 2 ) entonces X (, n ).
Teorema 2: Teorema del Lmite Central

Si X1 , ..., Xn es una muestra aleatoria de cualquier distribucin de probabilidades
con media finita y varianza finita 2 , entonces:
d
n(X ) N (0, 2 )
la que dice que la distribucin lmite de la media muestral es una Normal.

Existen variadas representaciones de esta ltima expresin. Por ejemplo, si es-
tandarizamos la variable aleatoria, la distribucin lmite viene dada por:

n(X ) d
N (0, 1)

Si cada variable aleatoria tienen una media en comn pero con varianzas difer-
entes i2 , entonces la distribucin lmite viene dada por:
d
n(X ) N (0, 2 )
14
Finalmente, el teorema central del lmite tambin se puede aplicar en un contexto
multivariado:
Teorema 3: Lindberg-Levy TCL

Si X1 , ..., Xn es una muestra aleatoria obtenida a partir de cualquier distribucin
de probabilidades multivariada con un vector de medias finito y una matriz de
covarianzas Q finita positiva y definida, entonces:
d
n(X textbf mu) N (0, Q)
el que dice que la distribucin lmite de la media muestral es una Normal (mul-
tivariada).
Los teoremas central del lmite nos entregan una indicacin acerca de las propiedades
de la distribucin lmite de la media muestral. Existe un ltimo teorema funda-
mental:
Teorema 4: Distribucin Asinttica de la Media Muestral

Si se tiene que :
n(X ) d
N (0, 1)

Entonces, asintticamente: % &
2
X N ,
n
El que se denota: % &
a 2
X N ,
n
El que dice que la media de una variable aleatoria X es asintticamente (i.e en
muestras muy grandes) normalmente distribudo con media (media poblacional)
2
y una varianza n (la que tiende a cero a medida que la muestra crece infinita-
mente).
El teorema central del lmite es una piedra angular en la econometra pues nos
permite basar nuestras inferencias acerca de las propiedades de la muestra bajo
el supuesto que su distribucin puede ser aproximada por una Normal indepen-
dientemente de la distribucin de la poblacin. Ya que la gran mayora de los
estimadores que se usan en econometra estn basados en el TLC, observarn
estas expresiones asintticas a menudo.
15
2.5. El Modelo Clsico de Regresin Lineal
Comenzaremos con el modelo simple de regresin lineal bivariado el cual puede
ser derivado como una esperanza condicionada de una distribucin normal bivari-
ada (ver ayudanta).
Yi = + Xi + %i (2.1)
donde Y es la variable dependiente y X es la variable independiente, y son los
parmetros de la regresin y % es un trmino de error estocstico. Los subindices
se refieren a las observaciones muestrales i los que pueden ser referidas al tiempo,
a un individuo o una firma.
El modelo de regresin es estocstico en el sentido de que para cada valor de Xi

existe toda una distribucin de probabilidades para Yi . La forma de la distribu-
cin de Yi es determinada por la forma de la distribucin de %.
El modelo de regresin lineal clsico (CLR) asume un conjunto de premisas acerca

de la forma de (1) y del trmino de error, haciendo de ste el modelo de regresin
de referencia (benchmark). Cabe sealar que raramente en la prctica la realidad
se ajusta a un CLR, pero la comprensin de su estructura e implicaciones, entrega
un punto de partida para la mayora de la econometra.
Supuestos del Modelo Clsico de Regresin Lineal

A1. El error, %i , se distribuye normal. Normalidad.
A2. El valor esperado del trmino de error, es cero, E(%i ) = 0. Media Cero.
A3. La varianza del error es constante, V ar(%i ) = 2 . Homoscedasticidad.
A4. La covarianza del error es cero, Cov(%i , %j )) = 0. No Autocorrelacin.
A5. La variable independiente X es no estocstica. X No estocstica
Los supuestos A1 al A4 tomados en su conjunto implican que el trmino de error

%i est idntica e independientemente distribuido:
%i n.i.i.d(0, 2 )
Notar que si E(%i ) = 0 entonces se sigue que V ar(%i ) = E(%2i ) y que Cov(%i , %j ) =
E(%i %j ) (demostrar ).
Una caracterstica central de estos cuatro primeros supuestos consiste en que el er-
ror es una secuencia de eventos independientes e individualmente insignificantes.
El trmino de error no contiene informacin sistemtica sobre Y.
El ltimo supuesto necesita un poco mas de explicacin. El que la variable X

sea no estocstica, significa que tiene valores fijos en repetidas muestras de tal
16
manera de que para cualquier muestra de tamao n:
n
1!
(Xi X)2 $= 0
n i=1
y su lmite, a medida que n tiende a infinito es finito. Ello implica de que (i)
los valores de X en la muestra no puede ser iguales y que no pueden aumentar
o decrecer sin lmite a medida de que la muestra crece. De ser as, entonces su
varianza no podra ser definida (por qu? ).
El supuesto de regresores no estocsticos significa que su valor es, ya sea controla-

do totalmente (el diseo experimental) o completamente predecible (en el sentido
probabilstico).
La principal implicancia de todo esto es que E(%i Xj ) = Xj E(%i ) = 0 para todo i,

j. En otras palabras, el producto entre el regresor X y el trmino de error es cero.
Estos no estn relacionados de ninguna manera.
17
Captulo 3
Estimacin y teora sobre pruebas

estadsticas
3.1. Resumen
1. Estimacin de los parmetros en el modelo CLR
Mxima Verosimilitud (MLE)

Mnimos Cuadrados Ordinarios (OLS) - caso especial
Mtodos de los Momentos - estimador consistente
2. Inferencia en el CLR
3. Marco General sobre Pruebas Estadsticas
3.1.1. Referencias
Gujarati. Parte 1
Kmenta. Captulo 6
Greene. Captulos 4 y 5
3.2. Estimacin del modelo Clsico de Regresin

Lineal (CLR)
Como se deriv en la Clase 2, el CLR puede ser expresado como:
Yi = + Xi + %i (3.1)
18
Como principal objetivo deseamos estimar y realizar inferencias acerca de la (de-
sconocida) relacin entre X e Y (i.e., los parmetros de la distribucin condicional
(Y|X). Los primeros dos momentos de la distribucin son:
E(Yi ) = E( + Xi + %i ) = + Xi (3.2)
para la media y:
V ar(Yi ) = E(Yi E(Yi ))2 = E[( + Xi + %i ) ( + Xi )] = E(%2i ) = 2 (3.3)
para la varianza. La media de Yi puede ser interpretada como la lnea de regresin

poblacional y la varianza describe la dispersin de Yi alrededor de esta lnea de
regresin.
Dados los supuestos sobre los errores en el CLR, existen slo tres parmetros
de inters : los parmetros que describen la media condicional de Y - en este
caso y - y los parmetros del trmino de error. Dado, que por definicin,
% n.i.i.d(0, 2 ) el nico parmetros desconocido es 2 . De esta forma, deseamos
estimar estos tres parmetros a partir de la informacin muestral. Examinaremos
slo dos mtodos de estimacin en detalle : mxima verosimilitud (MLE) y mn-
imos cuadrados ordinarios (OLS). El tercer mtodo de estimacin, el mtodo de
los momentos (MM), ser revisado brevemente pero lo veremos mas en detalle al
final del curso.
3.2.1. Estimacin I : Mxima Verosimilitud

Este mtodo est basado en la simple idea, ya introducida en la Clase 1, en
que podemos pensar las relaciones econmicas en trminos de un proceso de gen-
eracin de datos. As, un modelo puede ser pensado como una representacin
de las principales caracterstricas de este DGP como una distribucin conjunta
(condicional) del DGP. Nuestro objetivo en la estimacin ser la de usar muestras
generadas aleatoriamente a partir de esta (desconocida) DGP de modo de cuan-
tificar estas distribuciones conjuntas basadas en el mnimo nmero de supuestos
posibles acerca de la estructura de este DGP.
La forma ms general de estimacin puede ser encontrada en el mtodo de Mx-

ima Verosimilitud. Para entender este mtodo es bueno conocer el concepto de
funcin de verosimilitud.
Definicin 1: Funcin de Verosimilitud.

La funcin de verosimilitud se define como la distribucin de probabilidad conjun-
ta de la muestra. La densidad de cada observacin es f (Xi ; ), donde i = 1 ...... n .
19
Si las observaciones son independientes, entonces la distribucin de probabilidad
conjunta de las n observaciones es:
f (Xi , X2 , ..., Xn ; ) = f (X1 ; ) f (X2 ; ) f (Xn ; )
La que puede ser simplificada como:
f (Xi , X2 , ..., Xn ; ) = ni=1 f (Xi ; )
Esta distribucin de probabilidad conjunta asume que los parmetros son conoci-
dos y que los datos son variables aleatorias. Suponga que notamos que para una
muestra dada, los valores x1 son conocidos y los parmetros desconocidos. La
distribucin conjunta dada la muestra puede ser expresada en trminos de los
parmetros desconocidos dado los datos, de la siguiente forma:
ni=1 f (Xi ; ) = L(|X1 , X2 , ..., Xn ) (3.4)
La funcin L(|X) se conoce como la funcin de verosimilitud. Notar que esta-

mos expresando la verosimilitud en trminos de los parmetros (desconocidos)
condicional en los datos (conocidos). Esto es la esencia de la estimacin. Con esta
definicin de funcin de verosimilitud en la mano, el mtodo de estimacin de los
parmetros de la distribucin de probabilidades es una tarea sencilla.
Definicin 2: Estimacin por Mxima Verosimilitud

Si una variable aleatoria X tiene una distribucin de probabilidades f(X) car-
acterizada por los parmetros = {1 , 2 , ..., k } y observamos una muestra
X1 , X2 , ...Xn , entonces los estimadores mximo verosmil de 1 , 2 , ..., k son
aquellos valores de los parmetros que podran generar la muestra observada con
una mayor probabilidad o frecuencia.
En la funcin de verosimilitud, los valores de X son fijos - ellos son los que se ob-
serva en la muestra. El mtodo de ML consiste simplemente en escoger los valores
de los parmetros que maximizan su valor. En otras palabras, el investigador se
pregunta que valores de los parmetros para esta (clase de ) distribucin puede
ser la mas probable de haber generado esta muestra de datos?
Ejemplo
La muestra de observaciones X1 , X2 , ..., X10 pudo haber sido creada por cualquier
distribucin de probabilidades dado que el rango se extiende desde a +.
Sin embargo, la probabilidad de que X1 , X2 , ..., X10 haya sido generada por la
distribucin A o la distribucin C es muy baja. Por otra parte, la probabilidad
de que las observaciones hayan sido generadas por la distribucin B es muy alta.
20
Decimos que B es la distribucin de mxima verosimilitud (aquella mas proba-
ble) para esta muestra de datos y que los parmetros estimados (de los momentos
) de B son los estimadores mximo verosmiles.
A B
C
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
Este es un problema de optimizacin simple que requiere que el investigador

escoja 1 , 2 , ..., k , de tal modo que:
L L L
= = = =0 (3.5)
1 2 k
Estas condiciones de primer orden aseguran un mximo (o mnimo) para la fun-
cin de verosimilitud. Notar que el vnculo natural entre el mtodo de ML y la
discusin metodolgica al comienzo del curso respecto a que la econometra es un
proceso de desarrollo de modelos que son coherentes con los datos.
Estimacin ML del Modelo de Regresin Clsico Bivariado

En el caso del CRL bivariado tenemos una muestra de n observaciones de Y. Para
poder implementar los mtodos de MLE debemos hacer uso del siguiente teorema.
Teorema de Cambio de Variable

Si X tiene un densidad de probabilidades f(X) y si Z es una funcin de X (de tal
manera que existe un mapeo uno a uno desde X a Z), la densidad de probabili-
dades de Z viene dada por:
' '
' dX '
f (Z) = '' ' f (X), dX $= 0
dZ ' dZ
' dX '
donde ' dZ ' es el valor absoluto de la derivada de X con respecto a Z.
Este teorema es particularmente til en el contexto del CLR donde no conocemos

directamente la distribucin de Y pero s sabemos algo de la distribucin de %
como tambin sabemos que existe una relacin uno a uno de %i a yi . De esta
manera, podemos escribir:
' '
' d%i '
f (yi ) = '' '' f (%i ) (3.6)
dyi
21
Dado que %i = yi Xi entonces la derivada de y con respecto a % es igual
a uno y , en consecuencia f (yi ) = f (%i ). Por otra parte, sabemos que la forma
funcional general de una distribucin Normal con media y desviacin estndar
es:
1 (X)2
f (X|, ) = e 22 (3.7)
2
Con esto y el teorema de cambio de variables podemos inferir que, bajo los
supuestos del CLR, los valores de Y estn normalmente distribuidos y son in-
dependientes. De esta manera, podemos escribir la funcin de verosimilitud como
sigue:
L = f (y1 ) f (y2 ) f (yn ) (3.8)
Dado que es mas fcil trabajar con expresiones aditivas, y dado que la funcin
logaritmo es montona , entonces la expresin en (8) es equivalente a la siguiente
expresin:
!n
log(L) = logf (yi ) (3.9)
i=1
Por otra parte, dado que cada yi es normalmente distribuido con media + Xi
y varianza 2 entonces podemos expresar cada f (yi ) (en logaritmos) como:
( )2
1 1 yi Xi
2
logf (yi ) = log(2 ) (3.10)
2 2
y sumando sobre toda la muestra tenemos:

n
n n 1 !
2
log(L) = log(2) log 2 (yi Xi )2 (3.11)
2 2 2 i=1
el cual es la funcin de verosimilitud en logaritmos para el modelo clsico de regre-

sin. A partir de aqu es slo necesario diferenciar la funcin, igualar las derivadas
a cero y resolver los estimadores de ML de los parmetros. Las condiciones de
primer orden son:
n
log(L) 1 !
= 2(yi Xi )(1) = 0 (3.12)
22 i=1
n
log(L) 1 !
= 2(yi Xi )(Xi ) = 0 (3.13)
22 i=1
n
log(L) n 1 !
= + (yi Xi )2 = 0 (3.14)
2 22 24 i=1
22
Resolviendo estas tres condiciones de primer orden encontramos los estimadores
mximo verosmil de los parmetros para el caso de una distribucin normal
conjunta. Especficamente, de (12) y (13) podemos obtener:
n
! n
!
yi = n + Xi (3.15)
i=1 i=1
n
! n
! n
!
Xi yi = Xi + Xi2 (3.16)
i=1 i=1 i=1
Multiplicando (16) por n y sustituyendo n de (15) tenemos:
$ $ $ $
n( Xi yi ) ( Xi )( yi ) (Xi X)(yi y)
M L = $ 2 $ 2
= $ (3.17)
n( Xi ) ( Xi ) (Xi X)2
y de (15) tenemos:
n n
1! L 1
!
L X
M
L = yi + M Xi = y M (3.18)
n i=1 n i=n
Como veremos mas abajo, estos son precisamente los mismos estimadores que los
obtenidos por OLS para el CLR.
Finalmente, de (14) podemos derivar una expresin para el estimador MLE de la

varianza. Notando que (yi Xi )2 = (%i )2 entonces multiplicando (14) por
24 tenemos: n n
! 1! 2
n2 + (%)2 = 0 2 = (
%i ) (3.19)
i=1
n i=1
el que dice que la estimacin MLE de la varianza es igual a la varianza muestral.
Notar que la varianza estimada por el mtodo ML ser asintticamente insesgada
pero ser sesgada para muestras pequeas dado que la varianza muestral es de
hecho un estimador sesgado de la verdadera varianza poblacional (el estimador
insesgado de la varianza es:
n
1 ! 2
2 = (
%i ) (3.20)
n 2 i=1
(ver Kmenta Captulos 5 y 6).

Los mtodos de ML tienen un amplio uso en la econometra. En particular, este
mtodo no est restringido por la necesidad de que el modelo tenga que ser
lineal en los parmetros. Slo requiere que podamos derivar una expresin (de
forma cerrada) para la funcin de verosimilitud. Como discutiremos en una clases
mas adelante, los mtodos de MLE pueden manejar eficientemente funciones de
verosimilitud altamente no lineales.
23
3.2.2. Estimacin II : Mnimos Cuadrados Ordinarios
La estimacin por OLS ( o MCO) - la mas popular de las tcnicas de esti-
macin - es un caso especial de la estimacin por ML cuando el modelo es lineal
en los parmetros. El principio subyacente en la estimacin OLS est rela-
cionado con la seleccin de aquellos parmetros de la distribucin (desconocida),
especficamente y , los parmetros de la media en un modelo de regresin
lineal con el fin de minimizar la suma de las desviaciones cuadradas de los datos
observados de yi con respecto a su media E(yi ). Formalmente, lo que se desea es
minimizar: n n
! !
mn S = [yi E(yi )]2 = (yi Xi )2 (3.21)
,
i=1 i=1
Las condiciones de primer orden vienen dadas por:
n n
S ! (yi Xi )2 !
= = 2(yi Xi )(1) = 0 (3.22)
i=1
i=1
y tambin por:
n n
S ! (yi Xi )2 !
= = 2(yi Xi )(Xi ) = 0 (3.23)
i=1
i=1
las que son exactamente iguales a las condiciones de primer orden de los esti-
madores ML. No obstante, esto no es un resultado general : es una caracterstica
del CLR. Mas tarde veremos casos donde los estimadores OLS no son los mismos
que aquellos MLE.
La lnea de regresin muestral yi = + Xi pasa por el punto (X, Y ) y el proceso

de derivar los estimadores de la lnea de regresin son usualmente referidos como
regresionar Y sobre X. Notar una vez estimado y es un ejercicio trivial estimar
la varianza del CLR el cual puede ser derivado simplemente de (14) al insertar
los valores de y . Dado que dos grados de libertad se han "gastado"en la
estimacin de y , la formula para el estimador de la varianza viene dada por:
n n
1 ! 1 ! 2
2 = V ar(
%i ) = (yi Xi )2 = %i (3.24)
n 2 i=1 n 2 i=1
el cual es un estimador insesgado para el caso de un CLR bivariado (ver de-

mostracin en Kmenta pp 228-229).
Propiedades del estimador OLS para el caso del CLR

En la Clase 2 discutimos un conjunto de propiedades deseables para los esti-
madores. En esta seccin mostraremos que el estimador OLS para el caso de
24
un CLR tiene este conjunto de propiedades. Particularmente demostraremos que
este estimador es MELI ( o BLUE en ingls). Por mejor entenderemos aquel
que tiene la mnima varianza y por lineal el que requiere que el estimador sea una
funcin lineal de la muestra de observaciones.(ver notas adjuntas)
3.2.3. Estimacin III: Mtodo de los Momentos

Los dos mtodos anteriores son relativamente intuitivos y fciles de aplicar.
Tambin ambos son BLUE para el caso de modelos comunes. Sin embargo, es-
tas propiedades son especficas en el sentido que requieren supuestos especficos
acerca de la funcin de verosimilitud (p.ej. que % N (0, 2 )) . En ciertas circun-
stancias encontraremos que estas restricciones son demasiado severas.
Una tercera forma de estimacin est basada en el mtodo de los momen-

tos. Este mtodo es el menos restrictivo de los ya vistos pero con el costo de
que a pesar de ser consistente no siempre es eficiente. Sin embargo, bajo ciertas
circunstancias, es lo mejor que podemos hacer. Una aplicacin prctica de este
enfoque es el denominado Mtodo General de los Momentos (GMM).
Algunas aplicaciones donde este estimador es muy til son las siguientes:
Modelos donde existe autocorelacin/ heteroscedasticidad en el trmino de
error
Modelos autoregresivos con datos de panel
Modelos con seleccin de muestras
Estos modelos los revisaremos en la segunda mitad del curso. Mientras tanto,
una introduccin a nivel intuitivo. Primero, algo de notacin. En general, nos
referiremos al k-simo momento de una variable aleatoria como:
n
1! k
mk = X
n i=1 i
y a su k-simo momento central como:

n
1!
mk = (Xi X)k
n i=1
Suponga que deseamos estimar los parmetros de la distribucin de una variable

aleatoria y podemos describir su valor esperado como:
E(yi ) = (3.25)
25
La pregunta que surge naturalmente es cmo estimamos . De la ecuacin anterior
podemos construir una condicin de momento:
E(yi ) = 0 (3.26)
la cual tiene su contraparte muestral como sigue:

n
1!
(yi mm
)=0 (3.27)
n i=1
es aquel valor que satisface la ecuacin (27) es el estimador por mo-

As, mm
mentos de .
Considere ahora el caso de CLR/OLS. Podemos imponer una condicin de mo-

mentos, por ejemplo que E(Xi %i ) = 0. El equivalente muestral es:
n n
1! 1! )=0
Xi %i = Xi (yi Xi% mm (3.28)
n i=1 n i=1
El estimador de es nuevamente aquel que satisface la condicin de momento.

Notar que este es simplemente el estimador OLS, el cual tambin es un estimador
de momentos. Todos los dems estimadores (GLS, MLE) son tambin mtodos de
estimaciones de momentos. Notar, no obstante, que no hemos dicho nada acerca
de la distribucin del trmino de error o que el modelo es lineal.
Una caracterstica general del mtodo de los momentos es que deben existir a
lo menos el mismo nmero de condiciones (independientes) de momentos (i.e.
ecuaciones) como el nmero de parmetros desconocidos a estimar. Suponga que
tenemos mas ecuaciones de momentos que el nmero de parmetros a estimar.
Si es ese el caso requeriremos un mtodo que combine eficientemente las condi-
ciones de momentos. Este es el llamado Estimador General de Momentos
(estimador GMM) que los discutiremos en detalle mas adelante.
3.3. Inferencia Estadstica y Pruebas de Hiptesis

para los Parmetros en el CLR
1. Dado que y son combinaciones lineales de variables normales indepen-
dientes yi , sabemos que entonces estn normalmente distribuidos.
2. Dado que los estimadores son insesgados, entonces la media del estimador
es igual al verdadero valor del parmetro.
26
3. De la derivacin de las propiedades BLUE de los estimadores, conocemos
la varianza de y . Adems sabemos que:
( % &)
1 X 2
N , 2
+$ 2 (3.29)
n xi
( )
2
N , $ 2 (3.30)
xi
Caractersticas de la Varianza de y
1. La varianza aumenta con 2 . Mientras mayor la varianza de Y, dado los
valores de X, la estimacin de los parmetros es menos precisa.
2. La varianza de y decrece con aumentos en la variacin de X. En otra
palabras, mientras mayor variacin exista en el lado derecho ceteris paribus
mas precisa ser la estimacin de los parmetros y . En el lmite, si todos
los valores de X toman el mismo valor, la varianza ser infinita.
3. La covarianza entre y , la cual mide la relacin entre los errores mues-
trales de los dos estimadores, viene dada por la siguiente expresin:
% 2 &

2
Cov(, ) = E( )( ) = XE( ) = X $ 2 (3.31)
xi
Un resultado clave de la relacin anterior es el hecho que si la media de X
es positiva, entonces los errores muestrales de y estn correlacionados
negativamente.
Intervalos de confianza para y : una aplicacin de la distribucin t-student
De lo anterior, sabemos que:

N [, 2 ] N (0, 1) (3.32)

lo que dice simplemente que el estimador de se distribuye normal, lo que im-
plica que puede ser expresado como una normal estndar. Pero ello asume que
la varianza de es conocida....pero esto no es as y necesita en consecuencia ser
estimada. Procederemos de la siguiente forma:
Primero, podemos construir el siguiente estadstico (con una distribucin para

la varianza conocida):
! (Yi Xi )2 $ (n 2)S2
(n 2)S 2 (n 2)S 2 /( Xi2 )
2
= 2
= 2
$ 2
= 2
2n2
/( Xi )
(3.33)
27
Ahora, dividiendo (32) por la raz de (33) obtenemos una expresin la cual genera
una expresin para la distancia en que el valor estimado para se desva de su
verdadero valor. Esta expresin tienen una distribucin bien definida, conocida
como t-student, la que puede ser usada para calcular intervalos de confianza para
el estimador.
( )/
* = tn2 (3.34)
(n 2)S 2 /(n 2) 2 S

donde S denota la desviacin estndar estimada para .

Esta regla tambin se aplica para la construccin de un intervalo de confianza
para el intercepto. De esta manera, el intervalo de confianza para puede ser
escrito de la siguiente manera:
tn2,/2 S + tn2,/2 S (3.35)
donde es el nivel de significancia del test y (1 ) es el nivel de confianza del

test.
Intervalo de Confianza para la Varianza del Modelo Ya vimos que:
(n 2)S 2
2n2 (3.36)
2
y de esta forma un intervalo de confianza puede ser construido a partir de la
distribucin Chi-cuadrado notando que existen en este caso v = n 2 grados de
libertad.
3.4. Medicin del Grado de Ajuste en un Modelo

Revisaremos en detalle el aspecto del grado general de ajuste de un modelo
economtrico en las prximas clases, no obstante, aqu revisaremos dos compo-
nentes : el coeficiente de determinacin, R2 y el anlisis de variacin (ANOVA).
28
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
prediccin media de Y
media de X Xi
Del grfico podemos observar que para una observacin en particular Yi = Yi + %i

y (Yi Y ) = (Yi Y ) + %i .
Si sumamos sobre el cuadrado de esta expresin para todas las observaciones (el
elevar al cuadrado considera en forma anloga tanto los errores positivos como
los negativos), tendremos que:
n
! n
! n
! n
! n
!
(Yi Y ) =2
([Yi Y ]+%i ) = 2 2
(Yi Y ) + %2i +2 (Yi Y )%i (3.37)
i=1 i=1 i=1 i=1 i=1
Ahora bien, dado que el tercer trmino puede ser expresado como:
n
! n
! n
! n
! n
!
(Yi Y )%i = ( + X Y )%i = %i + Xi %i Y %i = 0 (3.38)
i=1 i=1 i=1 i=1 i=1
entonces: n n n
! ! !
2
(Yi Y ) = 2
(Yi Y ) + %2i (3.39)
i=1 i=1 i=1
el que sugiere que la Suma de Cuadrados Totales (TSS) es la suma de los Suma de
los Cuadrados Explicados (ESS) mas la Suma de los Cuadrados de los Residuos
(RSS).
Finalmente, notar que:
n
! n
! n
!
ESS = (Yi Y )2 = ( + Xi Y )2 = [(Y X) + Xi Y ]2 (3.40)
i=1 i=1 i=1
29
n
! n
!
ESS = [(Xi X)]2 = 2 x2i (3.41)
i=1 i=1
De esta derivacin, fcilmente se puede obtener una expresin para el coeficiente

de determinacin: $
ESS 2 ni=1 x2i
2
R = = $n 2 (3.42)
T SS i=1 yi
donde 0 R2 1.
ANOVA y el uso del estadstico F para la evaluacin de Modelos
El problema con el R2 es que es una estadstico descriptivo el que no tiene una dis-
tribucin bien definida. Podemos testear la hiptesis de no existencia de relacin
alguna entre X e Y mas formalmente de la siguiente manera:
n
! n
! n
!
E(ESS) = E(2 x2i ) = E[( ) + ]2
x2i 2
= + 2
x2i (3.43)
i=1 i=1 i=1
Bajo la nula Ho: = 0, entonces E (ESS) = 2 . Tambin sabemos que E[RSS/(n

2)] = E(S 2 ) = 2 .
ESS/1
Si la nula es correcta entonces el ratio RSS/(n2)
converger a la unidad a medida
que n tienda a infinito.
Podremos decir algo acerca de la distribucin de esta razn o ratio?

Notemos que: $
ESS 2 ni=1 x2i 2
= = 21 (3.44)
2 2 2
2
La que se distribuye Chi-cuadrado con un grado de libertad dado que 2
es el

cuadrado de una distribucin normal estndar. Tambin sabemos que ESS/ 2 =
(n 2)S 2 / 2 tiene una distribucin Chi-cuadrado con ( n-2 ) grados de libertad.
De esta manera, la razn entre RSS y ESS ajustado por los grados de libertad
tiene una distribucin F con la siguiente estructura:
RSS/1
F1,n2 (3.45)
ESS/(n 2)
De esta manera podemos llevar a cabo inferencias acerca del grado de ajuste del
modelo. Esto puede ser resumido en una tabla ANOVA.
La forma F del test es muy importante en econometra y forma la base de la may-

ora de las pruebas estadsticas dado que suficientemente flexible para manejar un
numero ilimitado de restricciones sobre el modelo ( o en modelos con mas de una
30
variable explicativa). En el ejemplo anterior, exista una sola restriccin hipotti-
ca: = 0. Generalmente, podemos considerar cualquier forma de restriccin, por
ejemplo denotada por r y estimar el modelo bajo esta restriccin o conjunto de
restricciones. Lo que haremos despus es comparar este modelo restringido con
aquel sin ninguna restriccin. El estadstico general que nos permite realizar esta
prueba viene dado por la siguiente expresin:
(ESSR ESSU )/r

Fr,nk (3.46)
ESSU /(n k)
3.5. Teora sobre Pruebas Economtricas

Todas las formas de pruebas o testeo que se vern en el resto del curso
pueden ser pensadas como una aplicacin especial del siguiente marco de mxima
verosimilitud.
La curva L() representa los valores de la funcin de verosimilitud como una

funcin de todos los posibles valores del vector de parmetros. El valor mximo
verosmil asociado a los parmetros es (por definicin) aquellos asociados con el
mximo valor de la curva L(), denotado M L .
Todo test puede ser pensado como una restriccin sobre los valores de los parmet-
ros. Las pruebas significan simplemente examinar si al imponer la restriccin (R )
implica una significativa prdida de verosimilitud relativa al valor del parmetro
bajo la situacin no restrictiva M L . Del diagrama es claro que puede ser medido
de tres forma diferentes.
31
L(theta)
L(theta ML)
L(theta R)
C(theta)
LM
Wald
theta theta theta

R ML
Prueba de la Razn de Verosimilitud (LR test) Esta es la forma mas directa de

realizar una prueba sobre un valor restringido de uno ( o un conjunto) de parmetro
(s) , el que simplemente mide la distancia entre L(M L ) y L(R ). La razn de
verosimilitud se define como:
L(R )
=
L(M L)
LR = 2log() 2R (3.47)
Prueba del Multiplicador de Lagrange (LM test)
Considere la derivada de la funcin de verosimilitud dL()/d. Esta es referida
como la funcin score y mide la pendiente de la funcin de verosimilitud. Esta
funcin debera tener un valor de cero en el valor de los parmetros mximo
verosmil y no cero en todo el resto de posible valores de los parmetros. La
prueba de Multiplicador de Lagrange es simplemente es la medida de la funcin
score al valor del parmetro restringido. Definiendo el valor de la funcin score a
los valores de los parmetros restringidos como:
L(R )
T (R ) =

Podemos entonces definir el test LM como:
LM = T ()% I(R )1 T (R ) 2R (3.48)
32
donde I() es la covarianza de evaluada a los valores restringidos de los parmet-
ros.
Prueba de Wald.
Esta prueba es similar a la prueba LM y explota la caracterstica de continuidad
de la funcin de verosimilitud. Supongamos que existe una funcin C() continua,
monotnica en y definida de tal manera de que tenga un valor igual a cero para
los valores restringidos de los parmetros. Esta funcin tendr un valor distinto
de cero para cualquier otro valor de los parmetros incluidos aquellos mximo
verosmiles sin restriccin. Entonces el test de Wald se define de la siguiente
manera:
W = C(M L )% [V (R(M L ))]1 C(M L ) 2R (3.49)
Donde V (R(M L )) es una estimacin consistente de la covarianza de evaluada
en los valores mximo verosmiles sin restringir.
Notar que:
1. Estos tres test son asintticamente equivalentes pero presentan diferencias

en sus propiedades en muestras pequeas.
2. Existen circunstancias en que la construccin de uno de estos test puede

resultar ser mas fcil comparado con los dems y ello motive su preferencia
en los casos prcticos.
3. Todas las pruebas que veremos mas adelante estn basados en alguno de
estos tres tests.
33
Captulo 4
Forma Funcional, Especificacin del

Modelo y Multicolinealidad
Habiendo establecido el modelo de regresin clsica como el paradigma con

propiedades estadsticas bien definidas bajo supuestos rigurosos sobre la ecuacin
de error ahora procederemos a considerar problemas economtricos que tiene este
modelo cannico o de referencia al aplicarlo a problemas economtricos prcticos.
Las clases 5 a 8 considerarn las implicaciones para la estimacin de parmetros
e inferencia cuando los supuestos estadsticos son violados o quebrados por los
modelos implementados. En esta clase consideraremos problemas asociados a la
especificacin funcional de los modelos economtricos concentrndonos en aquel-
los casos donde el investigador tienen supuestos tericos de antemano que guan
su investigacin pero donde existe conocimiento incompleto acerca de la forma
y la verdadera especificacin del DGP y donde el conjunto de datos puede ser
altamente colineal.
4.1. Resumen
1. Modelos Lineales versus no-lineales
2. Inclusin/Omisin de Variables Relevantes
3. Multicolinealidad
4. Apndice: Mnimos Cuadrados No-Lineales
4.1.1. Referencias
Gujarati. Secciones 6.2, 8.9 y 10
34
Kmenta. Secciones 11, 10.3
Greene. Secciones 8.3, 9.2 y 11
Davidson y Mackinnon. Captulo 2
4.2. Modelos Lineales versus No lineales

Como su nombre lo sugiere, el modelo de regresin lineal clsico asume que el
modelo (as como tambin los estimadores) son lineales. En muchas aplicaciones
econmicas nuestra modelos tericos no son lineales en los parmetros. De esta
manera, podemos distinguir dos tipos de modelos, aquellos modelos intrinsica-
mente lineales y aquellos modelos intrinsicamente no lineales.
Un modelo intrinsicamente lineal es aquel que puede ser lineal o no lineal en

sus variables pero es lineal ( o se puede hacer lineal) con respecto a sus parmet-
ros. Como resultado, estos modelos pueden ser convertidos en lineales. Modelos
intrinsicamente no lineales son aquellos que son no solo no lineales en sus parmet-
ros sino tambin en las variables.
Modelos Intriniscamente Lineales
1. Modelos polinomiales
Yi = 0 + 1 Xi + 2 Xi2 + 3 Xi3 + + k Xik + %i (4.1)
redefiniendo las variables como Z1 = X; Z2 = X 2 , ..., Zk = X k podemos

reescribir el modelo de la siguiente manera:
Yi = 0 + 1 Z1i + 2 Z2i + 3 Z3i + + k Zki + %i (1% )
y asumiendo que existen mas de K + 1 observaciones, podemos estimar

(1) como un CLR y los parmetros i tendrn las propiedades deseables
asumiendo que %i (el error) es bien comportado.
2. Modelos con Trminos de Interaccin. Suponga que el cambio en el valor

esperado de Y en respuesta a cambios en X2 es una funcin de X3 . Por
ejemplo, podemos pensar en Y como ganancias, X2 como el nivel de edu-
cacin y X3 como la edad.
Entonces:
E(Yi ) = f (X2i , X3i )
35
donde:
E(Yi )
= g(X3i )
X2i
y:
E(Yi )
= h(X2i )
X3i
Esto puede ser manejado usando una variable de interaccin no lineal:
Yi = 0 + 1 X2i + 2 X3i + 3 X2i X3i + %i (4.2)
se sigue de este modelo que:
E(Yi )
= 1 + 3 X3i
X2i
y:
E(Yi )
= 2 + 3 X2i
X3i
La ecuacin (2) es no lineal pero puede ser redefinida como lineal si Z =
X2i X3i . Notar que al contestar la pregunta cul es la consecuencia de un
cambio en Y como resultado de un cambio en X2 ? puede ser slo respondida
al escoger explcitamente un valor de X3 (a menudo en su media a en un
valor interesante en particular).
3. El modelo Multiplicativo o Modelo Log-Lineal
Y = X11 X22 Xkk e$ (4.3)
Las elasticidades de Y con respecto a Xi son simplemente los i . El ejemplo

mas tpico de esta forma funcional es la funcin de utilidad/produccin
Cobb-Douglas. Si tomamos logaritmos de (3) tenemos que:
log(Y ) = log() + 1 log(X1 ) + 2 log(X2 ) + % (4.4)
Redefiniendo log(Xi ) como Zi el modelo entonces, se reduce a:
Y = A + 1 Z1 + 2 Z2 + % (4.5)
donde: Y = log(Y ) y A = log(). Por otra parte, si % N (0, 2 ) entonces

e$ se distribuye lognormal. Entonces, si estamos interesados en estimar una
funcin de produccin tipo Cobb-Douglas como en (4) al estimar una versin
log-lineal, estamos asumiendo que la distribucin de los resultados para un
conjunto de insumos dados es log-normal !!.
36
4. Modelos lineales Semi-log.
Dos formas de modelos semi-log existen:
log(Y ) = + X + % (4.6)
Y = + log(X) + % (4.7)
Notar que la semi-elasticidad de Y con respecto a X es (X) en la ecuacin
(6) y (1/Y ) para la ecuacin (7). A diferencia del modelo log-lineal, la
semi-elasticidad no es constante.
5. Modelo Recproco.
Y = + (1/X) + % (4.8)
donde la elasticidad es :

(4.9)
XY
Todos estos resultados se resumen en la siguiente tabla.
Cuadro 1: Forma funcional y elasticidad
Variable dependiente Variable independiente Elasticidad

Lineal Lineal (X/Y) evaluada en la media
Log Log
Log Lineal (X) evaluada en la media
Lineal Log (1/Y) evaluada en la media
Como se observa de la tabla anterior, en una especificacin de logs para todas

la variables, el coeficiente mide la elasticidad (i.e. el porcentaje de cambio en
Y dado un cambio de un uno por ciento en X ). Si la variable X es una vari-
able dummie, el coeficiente es sesgado ( la variable dummie entrega la mediana
estimada en vez de la media de la distribucin) (ver Kennedy (1981) American
Economic Review para una discusin sobre este punto).
Modelos Intrinsicamente No Lineales Existe un conjunto adicional de modelos

no lineales que discutiremos a continuacin.
Modelos Multiplicativos con errores aditivos
Modelos intrnsicamente no lineales son aquellos que no pueden ser trans-
formados en un modelo lineal en los parmetros. El modelo mas comn y
bsico en esta clase son aquellos en que el trmino de error en (3) es aditivo.
Y = Xi1 X22 + (4.10)
Este modelo no puede ser convertido simplemente a una forma log-lineal

dado que:
log(A + B) $= log(A) + log(B)
37
Esto significa que no podemos utilizar el mtodo de OLS para estimar (10).
No obstante podemos utilizar un mtodo de estimacin no lineal como los
Mnimos Cuadrados No-Lineales (NLS) o nuestro ya conocido MLE.
Una discusin del NLS se presenta en el apndice, mientras que aqu nos
concentraremos en el MLE:
Dado que la funcin de verosimilitud en logaritmo de (10) puede ser escrita
como :
n
n n 1 !
2
log(L) = log(2) log( ) 2 (Yi X11 X22 )2 (4.11)
2 2 2 i=1
es claro que esta puede ser resuelta para los cuatro parmetros del problema,
a saber , 1 , 2 y 2 . Dado que (11) es no lineal, la solucin puede ser slo
derivada al usar un algoritmo maximizador lo que no trae problemas
computacionales de magnitud.
Funciones de Produccin tipo CES y la Expansin de Taylor
Las funciones de produccin tipo CES son ampliamente utilizadas en economa.
Tiene la siguiente forma:

Q = A[K + (1 )L ] e (4.12)
donde A es un parmetro tecnolgico, es una parmetro de distribucin,

es un parmetro que mide la sustitucin entre K y L con = (1/(1 + ))
es la elasticidad de sustitucin y es un parmetro que mide los retornos
a escala de la produccin. Tomando logaritmos de (12) tenemos que:

log(Q) = log(A) log[K + (1 )L ] + (4.13)

el cual sigue siendo no lineal pero puede ser estimado (asumiendo que K y
L son no-estocsticos o si son estocsticos, son independientes de ) usando
mtodos de ML para estimar A, , , , 2 .
A menudo, sin embargo, podemos hacer nuestra tarea mas fcil an al

aproximar (13) usando una expansin de Taylor de segundo orden de Q
alrededor del valor de = 0. Esto queda como sigue:
1
log(Q) = log(A)+log(K)+(1)log(L) (1)[log(K)log(L)]2 +
2
(4.14)
Esta ecuacin es ahora intrnsicamente lineal la cual puede ser re escrita
como sigue:
log(Q) = 0 + 1 log(K) + 2 log(L) + 3 [log(K) log(L)]2 + (4.15)
38
donde:
1
A = e 0 , = , = (1 + 2 )
(1 + 2 )
y:
24 (1 + 2 )
=
1 2
La ecuacin (15) puede ser generalizada un paso mas al expandir el com-
ponente cuadrtico y dar finalmente lo siguiente:
log(Q) = 0 +1 log(K)+2 log(L)+3 log(K)2 +4 log(L)2 +5 log(K)log(L)+

(4.16)
el cual es tambin es intrnsicamente lineal y es conocida como Funcin
de Utilidad / Produccin logartmica Trascendental (Translog).
Otro caso de modelos no lineales son los modelos de variable dependiente
limitada los que sern discutido en detalle mas adelante durante el curso.
Pruebas de Linealidad
El objetivo de estas pruebas es determninar aquella forma funcional que mejor

describa los datos disponibles. En particular revisaremos dos pruebas acerca de
la forma funcioonal.
1. Prueba de Mackinnon, White y Davidson (PE Test) : prueba especfica en

contra de alternativas log-lineal. Suponga que sabemos que X e Y estn
relacionados pero desconocemos si la relacin es lineal o del tipo log-lineal.
Podremos utilizar los datos para escoger la forma funcional apropiada?.
La respuesta es si, si empleamos una versin general de las pruebas no
anidadas propuesta por Mackinnon et al (Journal of Econometrics, 1983).
Comenzaremos por los dos modelos alternativos:
H0 : Y = + X + %1 (4.17)
HA : log(Y ) = + log(X) + %2 (4.18)

los que pueden ser definidos en trminos de un error compuesto de la sigu-
iente manera :
(1 )(Y X) + (log(Y ) log(X)) = % (4.19)
donde % es el trmino de error compuesto. Bajo la hiptesis nula, = 0

mientras que bajo la alternativa = 1. El problema bsico que enfrentamos
es que (19) es no lineal en los parmetros y puede ser difcil de estimar. Estos
39
autores proponen la siguiente aproximacin. Reescribiendo (19) tenemos
que:
Y X = ( + log(X) log(Y )) + (Y X) + % (4.20)
Ahora, si notamos que Y = Y + %1 y log(Y ) = log(Y )+ %2 podemos sustituir

Y y % de (17) y log(Y ), %2 de (18) para reescribir (20) como sigue:
Y = + + [log(Y ) log(Y )] + (4.21)
donde es un trmino de error compuesto. La ecuacin (21) nos permite

usar un test de t-student simple para ver la significancia del parmetro .
Bajo la nula concluimos que no existe informacin en la diferencia entre la
prediccin en el modelo log-lineal y el modelo lineal. Si rechazamos la nula
concluiremos entonces que el modelo lineal no caracteriza adecuadamente
el DGP.
Sin embargo, no podemos necesariamente concluir lo inverso (i.e. que la ver-
dadera forma funcional es log-lineal). De esta manera, deberemos repetir la
prueba bajo la posibilidad inversa donde bajo HA donde ahora estimamos
:
log(Y ) = + log(X) + [Y e(logY ) ] + v (21% )
Si no rechazamos la nula podremos concluir que la especificacin log-lineal es
la correcta. Si rechazamos la nula bajo ambas formas de la prueba podremos
concluir que ninguna de las dos formas sugeridas est sustentada por los
datos.
2. Transformacin de Box-Cox : Un mtodo general para examinar no lin-

ealidad. La prueba anterior es altamente especfica ya que slo prueba un
modelo lineal contra la alternativa de ser no lineal. Sin embargo, puede
resultar de mucha utilidad definir una base mas general para testear la lin-
ealidad de una forma funcional. Esto puede ser realizado al utilizar una
Transformacin de Box-Cox la cual especifica un modelo de regresin
entre Y y X de la siguiente forma:
% & % &
Yi 1 Xi 1
=+ + i (4.22)

Esta es una forma muy general, pero todas las formas particulares discutidas
anteriormente pueden ser derivadas de (22) dependiendo de los valores de
y .
40
a) Caso en que = = 0
Pareciera como si las expresiones en Y y X fueran cero bajo esta re-
striccin, pero al usar la regla de LHopital tenemos que:
% & % &
Yi 1 d(Yi 1)/d
lm = lm = lm Yi log(Yi ) = log(Yi )
0 0 1 0
Lo que significa que (22) colapsa en el modelo log-lineal:

log(Y ) = + log(X) + % (4.23)
b) Caso donde = = 1
En este caso (22) colapsa en la siguiente expresin:
(Yi 1) = + (Xi 1) + % Yi = + Xi + % (4.24)
donde = + 1. El cual es el modelo de regresin lineal simple.
Debera ser claro ahora la forma en que opera este procedimiento. Por ex-
tensin tenemos que:
= 1 y = 0 genera un modelo semi logartmico: Y = + log(X) + %
= 0 y = 1 genera un modelo semi logartmico: log(Y ) = + X + %
= 1 y = 1 genera un modelo recproco.
Cmo podemos determinar los valores de y ? La respuesta es simple-
mente estimar estos parmetros junto con los dems parmetros del mod-
elo en (22) mediante el uso de MLE y testear el valor de los parmetros
utilizando pruebas del tipo LM discutidas anteriormente (ver Davidson y
Maclinnon, 1993 captulo 14).
4.3. Inclusin de Variables Irrelevantes / Omisin

de Variables Relevantes
Asumiendo que tenemos entre manos la forma funcional correcta, entonces
cuales sern las consecuencias para la estimacin de los parmetros del modelo
el hecho de dejar fuera variables relevantes o incluir en el modelo variables irrel-
evantes?. En la terminologa desarrollada en la Clase 1, queremos considerar las
implicaciones de un la invalidez en el condicionamiento del GDP.
Omisin de Variables Relevantes

Suponga que la regresin poblacional verdadera es la siguiente :
Yi = 1 + 2 Xi2 + 3 Xi3 + %i (4.25)
41
pero nosotros estimamos el siguiente modelo:
Yi = 1 + 2 Xi2 + %i (4.26)
El Valor Esperado de 2 .
Si (26) fuera correcto, entonces los estimadores de 1 y 2 seran insesgados y
eficientes. Ahora consideremos que el modelo (26) es el incorrecto y que el correcto
es (25). De (26) podemos estimar 2 (y tambin 1 ) como:
($n )
i=1 (Xi2 X2 )(Yi Y )
E(2 ) = E $n 2
(4.27)
i=1 (Xi2 X2 )
Dado que sabemos de (25) que :
(Yi Y ) = 2 (Xi2 X) + 3 (Xi3 X) + (%i %) (4.28)
Entonces por sustitucin, tenemos que :
E(2 ) = 2 + 3 d32 (4.29)
con: $n
i=1 (Xi2 X2 )(Xi3 X3 )
d32 = $n 2
i=1 (Xi2 X2 )
el cual sugiere que si el segundo trmino 3 d32 es cero, entonces el estimador
obtenido en (26) sera insesgado. El mismo mtodo se puede aplicar para el esti-
mador del intercepto 1 . As :
E(1 ) = E(Y 2 X2 ) = 1 + 3 d31 (4.30)
con:
d31 = X3 + d32 X2
Notar que las expresiones d31 y d32 son, de hecho, los coeficientes mnimo cuadrti-
cos en la regresin de Xi3 (la variable omitida) sobre la variable incluida Xi2 .
Xi3 = d31 + d32 Xi2 + i (4.31)
La varianza de 2 . (ver Kmenta p444)

La verdadera varianza de 2 viene dada por la frmula estndar:
2
V ar(2 ) = E(2 2 ) = $n 2
(4.32)
i=1 (Xi2 X2 )
42
Sin embargo, dado el modelo incorrecto, la verdadera ecuacin para la varianza
es estimada incorrectamente. Especficamente, a partir del modelo incorrecto la
varianza de 2 es:
$
s2 [(Yi Y ) 2 (Xi2 X2 )]2 /(n 2)
2
s2 = $n 2
= $ (4.33)
i=1 (Xi2 X2 ) (Xi2 X2 )2
No obstante, sabemos que la verdadera varianza s2 debera ser estimada como

sigue:
1
s2 = (myy 22 my2 32 my3 ) (4.34)
(n 3)
$
donde mxy = ni=1 (X X)(Y Y ) y donde hemos usado para denotar los
verdaderos estimadores de los parmetros en (25). Sustituyendo los verdaderos
valores de (Yi Y ) a partir de (28) y rearreglando, podemos obtener la siguiente
expresin :
m22 V ar(2 ) + 32 m33 2m22 V ar(2 ) + (n 1) 2 32 m33

s22 = = V ar(2 ) +
(n 2)m22 (n 2)m22
(4.35)
Donde mij es la suma de las desviaciones al cuadrado sobre la media. La ecuacin
(35) indica que la varianza de los parmetros estimados del modelo con variable
omitida es tambin sesgado hacia arriba (dado que el segundo trmino es siempre
positivo) y de nuevo, depende de la importancia relativa de la variable omitida.
Implicaciones:
1. Dado que 3 es no cero el valor esperado de los parmetros estimados a

partir del modelo incorrecto no son iguales a los verdaderos parmetros
poblacionales. Si variables relevantes son omitidas de la regresin, los esti-
madores de todos los parmetros derivados a partir del modelo restringido
estarn sesgados ( a menos que d32 = 0).
2. Si d32 no desaparece a medida que el tamao de la muestra aumenta, el

estimador de 2 ser tambin inconsistente.
3. Por extensin, la varianza estimada para 2 a partir del modelo restringido

tambin ser un estimador sesgado e inconsistente de la verdadera varianza
de 2 .
4. Si 3 y d32 tienen el mismo signo, entonces el sesgo es positivo. De otra

forma ser negativo.
La siguiente tabla resumen todos los casos posibles.
43
Cuadro 2: Sesgo
3 d32 sesgo
+ + +
+ - -
- - +
- + -
5. An si la variable omitida no est correlacionada con las variables explica-

tivas incluidas encontraremos que el estimador de 2 ser insesgado y con-
sistente, pero su varianza ser sesgada hacia arriba y as subestimaremos
la significancia de las variables incluidas.
Inclusin de Variables Irrelevantes

Si volvemos a las ecuaciones (25) y (26) pero esta vez asumiendo que (26) es
el verdadero modelo pero que estimamos un modelo sobreparametrizado. Bajo
este caso tenemos que:
1. Los estimadores de 1 y 2 son ambos insesgados y consistentes.
2. La varianza del error 2 es insesgada.
3. Los valores estimados para los parmetros sern, eso s, ineficientes. En

otras palabras, la varianza de los parmetros cuando son obtenidas a partir
de modelos sobreparametrizados sern mayores que aquellos resultantes del
modelo verdadero.
Este ltimo resultado es demostrable en forma sencilla. Si hemos estimado direc-

tamente el verdadero modelo (el que denotaremos por ) y enseguida realizamos
la estimacin con el modelo sobreparametrizado (el que denotaremos por )
tenemos lo siguiente :
2 2
V ar(2 ) = $n 2
y V ar(2

) = $n 2 2
(4.36)
i=1 (Xi2 Xi2 ) i=1 (Xi2 Xi2 ) (1 r23 )
Dado que 0 r232

1 se sigue que la varianza del modelo sobreparametrizado
es mayor que aquella del modelo verdadero. La implicancia de estos es que los
parmetros estimados a partir del modelo sobreparametrizado sern estimados
con menor precisin.
De esta manera existen dos tipos de problemas al decidir sobre la especificacin

correcta del modelo. La primera sugiere que la omisin de variables relevantes
traer como consecuencia sesgos en la estimacin de los parmetros de la vari-
ables incluidas en el modelo. Sin embargo, al compensar la posible fuente de sesgo
44
al incluir todas las variables posibles (incluso algunas irrelevantes) tiene la con-
secuencia de incrementar la varianza de los estimadores de los parmetros.
Esto lleva a una estrategia de modelamiento general-a-especfica partiendo de

un modelos insesgado pero ineficiente para converger en uno (aun insesgado) con
mayor grado de precisin.
Deteccin de Variable Omitida

Ya hemos discutido las clases de pruebas estadsticas necesarias para evaluar si
una variable deber ser incluida o no. Esto es simplemente la aplicacin de un test
F para el caso de restricciones impuestas. En el ejemplo anterior, la ecuacin (25)
representa el modelo sin restriccin mientras que el modelo en (26) representa el
modelo restringido bajo la restriccin que 3 = 0. Un valor significativo para el
estadstico F implica que se rechaza la hiptesis nula a favor de la alternativa en
que al mantener la restriccin se incurrir en un sesgo por omisin de variable
en la estimacin de los otros parmetros de modelo.
Aceptar la nula y manteniendo X3 en el modelo, no sesgar los estimadores de

los coeficientes, pero reducir la eficiencia de los estimadores.
4.4. Multicolinealidad
Suponga que hemos escogido la forma funcional correcta y tambin el con-
junto correcto de variables, ahora veremos lo que puede suceder si las variables
escogidas son colineales. Aunque no lo hemos visto formalmente, el CLR asume
que los regresores X no estn perfectamente correlacionados entre ellos (ya sea
en un sentido bivariado o en una combinacin lineal).
Para ilustrar este punto, considere el siguiente modelo:
Y = 1 + 2 X2 + 3 X3 + % (4.37)
A partir de la estimacin de los coeficientes de (33) por OLS sabemos que:
2 2
V ar(k ) = 2
$n = 2
(4.38)
(1 rjk ) i=1 (Xik Xk )2 (1 rjk )Skk
donde, para e caso de dos variables independientes (I.e. k = 2), r12 es la coeficiente
de correlacin entre X1 y X2 , y Skk es la suma de las desviaciones al cuadrado
para la variable Xk .
45
Si la colinealidad entre X1 y X2 es perfecta, entonces r12
2
= 1 y la varianza de k
es infinita. De esta manera, el modelo no puede ser interpretable dado que una
varianza infinita significa que no podemos rechazar ninguna hiptesis acerca del
verdadero valor de k . Este es un problema en la especificacin del modelo.
Si tenemos colinealidad alta, pero no perfecta (tal que r12

2
< 1), el modelo de
regresin mantiene todas las propiedades asumidas (i.e. los estimadores sern
BLUE) pero existirn serios problemas de inferencia. Esto se puede observar a
partir de (34) dado que r12
2
Ser un valor alto y en consecuencia, la varianza
estimada de los parmetros del modelo ser tambin alta y entonces la precisin
en la estimacin de los parmetros se ver reducida ( a pesar de seguir siendo
BLUE). Esto es un problema de la muestra de datos.
Sntomas de la Multicolinealidad
1. Pequeos cambios en la muestra producirn grandes cambios en los esti-

madores de los parmetros
2. Los coeficientes pueden tener grandes errores estndar (i.e. valores t pe-
queos) a pesar que la significancia conjunta de todos ellos sea alta (i.e.
ajuste por R2 ).
3. Los coeficientes muchas veces tienen el signo incorrecto o son de una
magnitud poco plausible.
Pero, porqu sucede esto ?
Es til pensar el modelo en trminos de notacin matricial Y = X + % donde
existen k regresores. El k-simo elemento diagonal de la matriz inversa (X % X)1
puede ser escrito como :
(xk M2 xk )1 = [x%k xk x%k X2 (X2% X2 )1 X2% xk ]1 (4.39)
donde M2 es la matriz de residuos de la regresin de los xk sobre todos los dems
regresores en el modelo, X2 .
La ecuacin (39) puede ser entonces reescrita de la siguiente manera:

1
(x%k M2 xk )1 = (4.40)
[Skk (1 Rk2 )]
donde Rk2 es simplemente el R2 de la regresin de los xk sobre todas las dems
variables independientes en el modelo. Se desprende claramente que:
2
V ar(k ) = (4.41)
(1 Rk2 )Skk
46
Es, en consecuencia, fcil observar que si agregamos una variable al modelo la
que es altamente colineal con xk , entones esto puede :
1. Dejar el valor de Skk sin alterar.
2. No alterar 2 (ya que si xk y la nueva variable estn altamente correla-
cionadas y entonces xk ella misma ha explicado ya bastante de la variacin
en Y que la nueva variable se supone debera explicar).
3. Aumente el valor de Rk2 .
En consecuencia, la varianza de k (V ar(k )) aumentar. Una varianza mas alta
para el estimador de k es consistente con los tres sntomas descritos anterior-
mente.
Identificacin de la Fuente de Colinealidad

El mtodo mas simple para identificar la fuente de multi-colinealidad son las
simples correlaciones entre las variables independientes
Cov(Xi , Xj )
Xi Xj =
Xi Xj
Una forma alternativa es seguir con el anlisis descrito en la seccin anterior y
examinar el valor de Rk2 para cada una de las variables independientes.
Algunas Soluciones Posibles
1. Eliminar la variable problemtica. Esto puede resolver el problema de mul-

ticolinealidad pero puede generar el sesgo por omisin de variable.
2. Transformar el modelo. Esta es a menudo, la solucin en modelos de serie
de tiempo. Por ejemplo, considere el siguiente modelo:
Y = + X + Z + e
Donde X e Z son altamente colineales. Podra darse el caso que mientras X
y Z son colineales, X y Z tengan una baja colinealidad. De ser as, los
parmetros y pueden ser estimados a partir del siguiente modelo:
Y = X + Z + e
3. Adoptar mtodos de estimacin alternativos. Existen dos formas alterna-

tivas de estimacin que son frecuentemente utilizados en estos casos. El
primero es la Regresin de Ridge el cual produce estimadores, aunque
sesgados pero con menor varianza.
47
El estimador de Ridge es el siguiente :
br = [X % X + rD]1 X % y
Donde r es un escalar de valor pequeo y D es la diagonal principal de X % X.

Debera ser claro que br est sesgado dado que:
E(br ) = E(X % X + rD)1 X % X $=
Pero la varianza del estimador de Ridge es :
V ar(br ) = 2 (X % X + rD)1 X % X(X % X + rD)1
La cual es menor que la varianza del estimador OLS ante la presencia de multi-
colinealidad. La eleccin de r depender si el estimador de Ridge tendr un Error
Cuadrtico Medio (MSE)menore que el de OLS.
La segunda forma de corregir este problema es el anlisis de componentes

principales. Este mtodo parte de la observacin que dentro de la matriz X % X,
de existir una colinealidad sustancial, entonces existen pocas fuentes de variabil-
idad en el vector de variables independientes.
El anlisis de componentes principales busca extraer a partir de la matriz de

X una pequea cantidad de combinaciones lineales de las variables, de tal man-
era de dar cuenta de toda o la mayor parte de la variacin de X. Si el subconjunto
puede ser identificado pueden sustituir al la matriz de X en la explicacin de Y.
48
Captulo 5
Violaciones de los Supuestos del

Modelo de Regresin Clsico
En la Clase 3 (y prxima ayudanta) desarrollamos el Modelo de Regresin

Clsico basado en el Teorema de Gauss-Markov. Como se mencion, la derivacin
de las propiedades de los estimadores mnimo cuadrticos descansan en unos
supuestos claves relacionados con la estructura del trmino de error. En partic-
ular, asumimos que los trminos de error eran independientes e idnticamente
distribuidos Normal.
En la Clase 4 examinamos aspectos relacionados con el modelamiento tales

como especificacin incorrecta y forma funcional, concentrndonos en los casos
de omisin de variables relevantes. En las tres clases siguientes analizaremos las
consecuencias de violar los supuestos relacionados con la estructura del trmino
de error en el modelo de regresin, los que dividiremos en la siguiente forma :
1. Normalidad [ Clase 5 ]
2. Homoscedasticidad [ Clase 6 ]
3. Independencia (cero autocorrelacin) [ Clase 7 ]
4. Regresores No Estocsticos [ Clase 8 ]
Nota : Desde un punto de vista de la exposicin de los temas, trataremos es-

tas violaciones como separables analticamente y, en consecuencia, testearemos
cada una de ellas independientemente de otras (posibles) violaciones. Se asume,
entonces, que la distribucin de las pruebas estadsticas son condicionales en el
supuesto de que la nula es que el modelo es CLR. Esto tpicamente no es el caso
en problemas de la vida real donde generalmente los problemas con los supuestos
estn presentes al mismo tiempo.
49
Parte I No-Normalidad
5.1. Resumen
1. Las consecuencias de que e $ N.i.i.d para la estimacin e inferencias
2. Cmo detectar violaciones al supuesto de normalidad
3. Soluciones al problema
4. Apndice: Anlisis de normalidad basado en series ordenadas
5.1.1. Referencias
Kmenta Captulo 8
Greene Captulo 10
Mukherjee et al. Captulos 3 y 4
5.2. No Normalidad
El supuesto de normalidad en el trmino de error es una piedra angular en el
resultado de que los estimadores OLS fueran eficientes (el teorema de cota mnima
de Cramer-Rao). Tambin es necesario para construir intervalos de confianza
correctos para los estimadores de parmetros. Sin el supuesto de normalidad en
el trmino de error, los estadsticos mas utilizados como t, F y chi-cuadrado
no tienen estas distribuciones y en consecuencia, no pueden ser utilizados para
realizar inferencias.
5.2.1. Consecuencias y Aplicaciones

La no normalidad en el trmino de error acarrea las siguientes consecuencias
(ver Greene Captulo 10.5 para una discusin detallada sobre ste punto) :
Si la varianza del trmino de error es finita, entonces :
1. El estimador OLS es insesgado y consistente.
50
2. Gracias al Teorema del Lmite Central, a pesar de que el error no est
distribuido normal, los estimadores del parmetros si lo estarn en muestras
grandes. De esta manera, la distribucin normal de los estimadores lineales
puede ser utilizada para inferencia.
Pero.....
3. El estimador OLS puede que no sea eficiente o asintticamente eficiente. En
otras palabras, el estimador OLS no ser ya BLUE.
Es esta tercera implicancia la que debera llamarnos la atencin. Si los errores
no estn normalmente distribuidos entonces existen otros estimadores, a parte de
los OLS, que nos puedan entregar con una estimacin eficiente de los parmetros
del modelo ?. Examinaremos tres de estos estimadores, la desviacin absoluta
mnima (MAD), su colega cercano, el estimador robusto y el estimador por
regresin cuantil. Pero antes, debemos analizar la forma de determinar si el
trmino de error, es efectivamente normal.
5.2.2. Deteccin
En el Apndice de estas notas se discuten mtodos para la identificacin y el
anlisis de no normalidad usando herramientas estadsticas basadas en series or-
denadas. Estos mtodos son slo aplicables si los datos no tiene un orden natural
como sera en el caso de datos de serie de tiempo. Si estos tiene un orden natural,
estaremos un poco mas restringidos en cuanto a los mtodos de deteccin que
podremos implementar.
La distribucin normal se puede describir completamente por sus dos primeros

momentos ya que todos sus momentos centrales superiores son cero. Especfi-
camente, esta distribucin es simtrica, lo que implica que el tercer momento
(skewness) es cero y mesokurtica, es decir que el cuarto momento es exacta-
mente igual a 3.
En consecuencia, si la variable x se distribuye normal, se debera cumplir que:

Media : E(X) = Primer momento
Varianza : E(X ) =
2 2
Segundo momento
E(3 ) = E(X )3 Tercer momento (simetra)
E(4 ) = E(X )4 Cuarto momento (kurtosis)
La medida estndar de simetra de cualquier distribucin es el coeficiente de

skewness el cual se define de la siguiente manera:
+ E(3 )
b1 = 2 3/2 (5.1)
( )
51
Por otra parte, la medida estndar de kurtosis, la cual es una medida de la anchura
de las colas de la distribucin, tiene la siguiente frmula :
E(4 )
b2 = (5.2)
( 2 )2
Como se dijo, el valor de kurtosis para una distribucin normal es igual a 3.

Sabiendo esto, las pruebas estndares para normalidad estn relacionadas con
el clculo de la skewness y kurtosis de la muestra que tenemos y comparar el
skewness con cero y el kurtosis con 3. Este ltimo se conoce como el exceso
de kurtosis, el cual es simplemente medido por (b2 3). Excesos positivos de
kurtosis se denominan plytokurtosis (colas anchas) e implica que (b2 3) > 0.
Mientras que excesos negativos de kurtosis se denominan como leptokurtosis
(i.e. colas angostas).
La prueba mas comn para normalidad es la denominada Prueba de Jarque y

Bera el cual combina estas dos medidas, de la siguiente manera :
( )
b1 (b2 3)2
JB = n + 2(2) (5.3)
6 24
donde n es el tamao de la muestra. El test de JB es del tipo Wald (dado que

bajo la nula, la distancia JB es cero) y tiene una distribucin Chi-cuadrado con
dos grados de libertad (uno para la restriccin sobre la skewness nula y otra para
la restriccin sobre exceso de kurtosis).
5.2.3. Soluciones para la estimacin con errores No nor-

males
Por lo anteriormente dicho, en el caso de la estimacin por OLS (no as en
MLE) no deberamos preocuparnos en demasa acerca de la violacin del supuesto
de normalidad en los errores por lo menos en muestras grandes, ya que los esti-
madores sern insesgados y consistentes. Pero si queremos correctamente carac-
terizar la distribucin, tendramos que realizar tareas adicionales.
Algunos ejemplos
El estimador de Desviaciones Absolutas Mnimas (MAD)

Suponga que el error tiene un exceso de kurtosis positivo, teniendo colas an-
chas. En el caso del estimador OLS, ste dar demasiado peso en las colas de la
52
distribucin. En otras palabras, este estimador le da demasiado peso a los eventos
que ocurren con baja probabilidad. Ello debido a que el OLS est basado en la
suma de las desviaciones al cuadrado de la regresin. Es por ello que este esti-
mador es ineficiente bajo situaciones de no normalidad.
Un estimador alternativo es el estimador MAD el que minimiza la suma de

las desviaciones absolutas sobre la lnea de regresin. As, el estimador OLS es
definido como : n
!
mn S = (Yi X)2 (5.4)

i=1
(donde la constante est absorbida) mientras el estimador MAD tiene la siguiente

forma : n
!
mn S = |Yi X| (5.5)

i=1
El estimador MAD es mas eficiente en casos donde la desviacin de la normal-

idad consiste en que la distribucin resultante tiene colas mas anchas, esto es,
exceso de kurtosis positivo. El estimador MAD es asintticamente insesgado y
normalmente distribuido (por el TLC) y tiene una varianza asinttica menor en
presencia de exceso de kurtosis.
Nota : si el trmino de error es de hecho normal, el estimador MAD ser, aunque

consistente, ineficiente con respecto al OLS (por el teorema de Gauss-Markov).
Estimadores Robustos
Si el estimador OLS funciona bien en los casos de normalidad pero ineficien-
temente en casos de exceso de kurtosis, se ha propuesto el diseo de un estimador
el que entregue diferentes mtodos de estimacin dependiendo de la estructura
del trmino de error. Esta es la nocin de estimador robusto. Este tipo de
estimador puede ser descrito de la siguiente forma :
n
!
mn = (Y X) (5.6)

i=1
donde la funcin es escogida de tal forma de satisfacer las propiedades an-

teriores. Un ejemplo, es el estimador de Huber el cual est relacionado con
una funcin la cual estima una regresin por OLS para desviaciones de la media
que son menores que un umbral dado de antemano y una estimacin por MAD
para aquellas desviaciones que sobrepasan este valor pre asignado. A medida que
este umbral tiende a infinito, el estimador de Huber tiende al OLS y si este valor
tiende a cero, el estimador de Huber tiende al MAD.
53
Regresin Cuantil
El estimador MAD es un caso espacial de un estimador mas general denom-
inado regresin cuantil (quantile regression) el cual es particularmente til en
el anlisis de datos de encuestas donde hay presencia de hetersocedasticidad.
Este estimador lo discutiremos en la siguiente clase.
5.3. Modelos de Regresin ante la presencia de

datos Outliers, Leverage o Influyente
El estimador de Huber presenta a lo menos dos problemas. Primero es susep-
tible de una eleccin arbitraria del valor de umbral pre asignado para determinar
los valores que sern considerados como outliers. La segunda razn es que at-
aca el problema de los ouliers en trminos estadsticos mas que en trminos
econmicos. Quiz los outliers pueden ser muy importantes y en consecuencia
su ponderacin no debera ser arbitrariamente disminuida. Quiz deberan ser
modeladas mediante el uso de variables mudas (o dummies).
En un anlisis univariado, los outliers son la nicas observaciones problema. En

un modelo de regresin, tambin queremos identificar las observaciones proble-
ma las que pueden tener un peso sobredimensionado sobre la esperanza condi-
cional de la variable dependiente (i.e. la lnea de regresin). Teniendo esto en
consideracin es bueno hacer una pausa y definir de mejor manera tres conceptos
que nos pueden ayudar en el anlisis del problema con los datos en un modelo de
regresin :
Outlier : un dato que presenta un residuo significativamente mayor al restos

de los datos. Es decir, la distancia vertical desde la esperanza condicional media.
Leverage : un dato tendr leverage si es extremo en la direccin de X. La carac-

terstica importante del leverage es que podra influenciar la posicin de la lnea
de regresin.
Influyente: un dato influyente es aquel que su eliminacin de la muestra podra

alterar significativamente la posicin de los estimadores de la esperanza condi-
cional de la variable dependiente.
Dado que el estimador OLS no es una medida resistente de la esperanza condi-

cional de una variable, es importante entender las consecuencias de los problemas
54
que pueden presentar los datos. Veamos algunas medidas de ouliers, leverage e
influencia.
5.3.1. Medida basadas en la media de Outliers, Leverage e

Influencia
Comenzaremos con una medida del leverage para la observacin i . Esta puede
ser definida como :
1 (Xi X)2
hi = + $n 2
n i=1 (Xi X)
La cual es creciente respecto a la desviacin de Xi de la media de X. La medida
hi vara desde 1/n, cuando Xi es igual a la media hasta 1 situacin en la cual el
outlier domina tanto el proceso que termina por opacar a todas las dems observa-
ciones. Huber sugiere que el leverage comienza a ser un problema si max(hi ) > 0,2
Para identificar un outlier podramos ordenar los residuos por sus errores es-
tndar en el modelo (i /S). Sin embargo, si existe un outlier este incrementar s
y en consecuencia, la desviacin de de S se ver reducida. Para salvar este prob-
lema podemos utilizar un residuo studientizado el cual se define de la siguiente
manera :

ti = +i t1
S(i) (1 hi )
Donde hi es igual como se defini anteriormente y S(i) es la ecuacin para el error
estndar al borrar la observacin i-sima.
Finalmente, para medir la influencia podemos usar el estadstico DF el cual

se define de la siguiente manera :
bj bj (i)
DF ji =
Se(bj )(i)
Donde j (i) denota la estimacin j con la i-sima observacin eliminada de la

muestra y lo mismo para el coeficiente del error estndar. Claramente, si la i-
sima observacin tiene una influencia, entonces el DF se desviar de cero. Este
estadstico no tiene una distribucin bien definida pero trabajos estadsticos sug-
ieren que si DF > 2 entonces se presume que la observacin es influyente.
55
5.4. Apndice
Identificacin de No normalidad mediante el
uso de Estadsticas de series ordenadas
El anlisis basado en orden puede ser slo posible si los datos pueden ser re
ordenados, por ejemplo en trminos creciente de acuerdo al tamao. Esto es posi-
ble en el caso de datos de corte transversal pero no as en series de tiempo. En
estos casos podemos utilizar medidas resistentes como la mediana.
Calculando la Mediana (Md)

Ordenar los datos (Y1 , ..., Yn ) por tamao y seleccionar la observacin del medio.
Si el nmero de datos es par, promediar las dos observaciones del medio.
( )
Yn/2 + Yn/2+1
2
Calculando el Cuantil Mayor y el Cuantil Menor (QU , Ql )

Repita el mismo ejercicio para cada una de las mitades de la distribucin ante-
rior. Los tres valores (QU , M d, Ql ) dividen la distribucin en cuatro partes iguales.
El Rango Intercuartil (IQR)

Este se define como (QU Ql ) y en consecuencia, contiene el 50 % del medio de
la distribucin.
Outliers
Outliers como vimos, pueden afectar aquellas estadsticas que estn basadas en la
media pero no as necesariamente en aquellos estadsticos mas resistentes. Existen
variadas formas de definir un outliers, pero en general podemos clasificarlas como
sigue :
Y0 es un outlier si : Y0 < Ql 1,5IQR o bien Y0 > QU + 1,5IQR
Y0 es un outlier extremo si : Y0 < Ql 3,0IQR o bien Y0 > QU + 3,0IQR
Analizando skewness and kurtosis mediante el uso de estadsticas basadas

en series ordenadas.
Skewness positivo: Media > Mediana
Skewness negativo: Media < Mediana
Notar sin embargo, que los outliers pueden generar skewness y de esta forma es
mas til emplear medidas resistentes"tales como el Coeficiente de Skewness
de Bowley:
bS = (QU + Ql 2M d)/IQR
56
con 1 bS 1.
Tanto el IQR como la desviacin estndar miden el grado de tendencia central
en una distribucin. Si una variable est normalmente distribuida entonces el
IQR = 1,35.
Usando esta relacin podemos comparar el estadstico :
Sp = IQR/1,35
con s (la desviacin estndar de la serie). Pueden ocurrir entonces, tres posibili-
dades :
Sp < S Distribucin mas ancha que las colas normales
Sp S Distribucin normal
Sp > S Distribucin mas angosta que colas normales
Formas de remover el skewness mediante la utilizacin de transfor-

maciones de potencias
Potencia Transformacin Efecto sobre skewness

3 Y3 Reduce skewness negativos extremos
2 Y2 Reduce skewness negativo
1 Y Deja los datos inalterados
0 log(Y ) Reduce el skewness positivo
-1 Y 1 Reduce skewness positivos extremos
57
Captulo 6
Violaciones de los supuestos del

modelo de regresin clsico
6.1. Resumen
Errores no esfricos y el Modelo de Regresion Generalizado
Heterocedasticidad-Consecuencias
Heterocedasticidad-Deteccin
Heterocedasticidad-Soluciones
6.1.1. Referencias
Gujarati Captulo 11
Kmenta Captulo 8-2
Grenne Captulos 14
6.2. Errores No Esfricos y el Modelo de Regre-

sin Generalizado
Antes de introducir el tema de la Heterocedasticidad, es conveniente desarrol-
lar la nocin de Modelo de Regresion Generalizado para la muestra
y = x + % E[%] = 0 (6.1)
E[%%] = % N (0, )
58
donde es una matriz cuadrada n n positiva definida referida normalmente
como la matriz de varianza covarianza.
El modelo de regresin clsico asume que las distribuciones son esfricas.
Esto implica que E[%] = 0 y:

2 0 . . . 0 1 0 ... 0
0 2 . . . 0 0 1 ... 0
2
% 2
E[%% ] = I = .. = .. (6.2)
0 0 ... . 0 ... ... .
0 0 . . . 2 0 0 ... 1
Bajo este supuesto acerca de la forma de la ecuacin de los residuos, el teo-

rema de Gauss-Markov muestra que el estimador OLS son BLUE, consistentes y
distribuidos asintticamente normales (CAN).
Cuando $= 2 I los errores del modelo general se dice que son no esfricos.
Las dos dimensiones que nos concentraremos en esta y las siguientes clases son el
de la Heterocedasticidad donde:

12 0 . . . 0
0 2 0 . . .
2
= . (6.3)
0 . . . . . . ..
0 . . . . . . n2
donde la varianza no es constante sobre toda la muestra (i.e.i2 $= 2 1 ).

El segundo caso de interes es de la autocorrelacin donde:

1 1 . . . n1
1 1 . . . n2
2
= .. .. .. .. (6.4)
. . . .
n1 n2 . . . 1
donde, a pesar de que la varianza es constante para cada valor de i la covari-

anza entre observaciones secesivas no es cero.
Si la verdadera forma de es conocida, entonces el estimador minimo cuadrti-
co generalizado (GLS) es el estimador insesgado, lineal de minima varianza.
Recuerdo del OLS con notacion matrical
considere el modelo de regresin clsico y = x + % donde % N (0, ) y
= 2 I. El estimador OLS de los coeficientes de este modelo vienen dado por la
siguiente expresion:
2 = (X % X)1 X % Y
59
Sabemos que este estimador es insesgado:
2 = E(X % X)1 (X % (x + %)) = + E(X % X)1 X % % =
E()
Y que la matriz de varianza-covarianzas viene dado por:
E((2 )(2 )% ) = E(X % X)1 X % %%% X(X % X)1 = 2 (X/X)1
El modelo GLS se deriva a partir de una estructura arbitraria de como sigue.

La nica restriccin que requerimos es que sea positiva definida lo que implica
que existe ina matriz diagonal P de tal manera que:
P % P = 1
Si pre multiplicamos (1) por P tenemos lo siguiente:
P Y = P X + P % (6.5)
Esta transformacin asegura que (5) satisface todos los supuestos del modelo
clsico. En particular, el estimador GLS viene dado por:
2GLS = [(P X)% (P X)]1 (P X)% (P Y ) (6.6)
el cual, notando que P % P = 1 se simplifica como:
2GLS = (X % P % P X)1 (X % P % P Y )
2GLS = (X % 1 X)1 X % 1 Y (6.7)

Ahora es un asunto trivial demostrar que este estimador GLS es insesgado:
E(2GLS ) = E[(P X)% (P X)]1 P X % [P X + P %]

= + E(X % 1 X)1 (X % 1 %) (6.8)
=
y que su matriz de varianza-covarianza es aquella de varianza mnima:
E(2GLS )(2GLS )% = E(X % 1 X)1 X % 1 %%% 1% X(X % 1 X)1
= (X % 1 X)1 (6.9)
60
el cual es el valor BLUE para la matriz de varianza- covarianzas para cualquier
matriz de varioanza-covarianza arbitraria.
GLS Factible
Si el verdadero valor o estructura de es conocida (como suele suceder en la
practica), debemos entonces estimarla. Tipicamente podemos estimar la matriz
de varianza-covarianzas como una funcion de un pequeo conjunto de parametros
2 y en
2 = ()
= () Con el fin de hacer el GLS factible, nesecitamos de que
consecuencia, el Estimador GLS Factible (o admisible) viene dado por:
2GLS = (X %
2 1 X)1 X % 1Y
2 (6.10)
el cual es insesgado, consistente y asintticamente eficiente, a pesar de no ser

eficiente en muestras finitas.
6.3. Heterocedasticidad
El modelo de regresin clsico asume que:
V ar(%2i ) = 2 i
Dado que la medida de %i es cero, esto implica que E(%2i ) = 2 para todos los i.
Violaciones de este supuesto se denominan Heterocedasticidad, y es un problema
muy recurrente en datos de corte transversal (cross-section data).
6.3.1. Consecuencias
En lo que sigue ilustraremos las consecuencias de la Heterocedasticidad de un
modelo simple bivariado donde asumiremos que todos los demas supuestos del
modelo de regresin clsico siguen siendo vlidos.
Yi = + Xi + %i (6.11)
Sesgo
Si el termino de error en la regresin es Heterocedstico tenemos que:
E(%2i ) = i2 (6.12)
El estimador mnimo cuadrtico de viene dado por:

$n $n
3i Yi
y=1 x 3i %i
x
2
= $n 2 = + $i=1 n (6.13)
3i
i=1 x 32i
i=1 x
61
El valor esperado de este estimador es entonces:
$n $n
3
x % y=1 x3i
2 = + E[ $i=1
E() n
i i
] = + $ n E(%i ) (6.14)
32i
i=1 x 32i
i=1 x
=
Resultado 1.El estimador mnimo cuadrtico para ( tambin) son insesgados
an en presencia de Heterocedasticidad en trmino de error. BLUE
Podemos transformar la ecuacion de Heterocedasticidad (10) en una homosceds-
tica al dividir la regresin por i para obtener la siguiente estructura:
Yi 1 Xi %i
= ( ) + ( ) + ( ) (6.15)
i i i i
la cual puede ser re escrita como:
Yi = wi + Xi + %i (6.16)
Se sigue que E(%i ) = E(%i )/i = 0 ; V ar(%i ) = V ar(%i )/ 2 = 1 el cual es ahora

constante (i.e homoscedastico).
La ecuacin (16) ahora satisface todas las propiedades del modelo de regresin
clsico. Si definimos wi = 1/i2 entonces podemos definir los estimadores BLUE
como: $n 3 i Y3 )
wi (Xi X)(Y
3 = i=1$n y 3 = Y3 3X
3 (6.17)
3 2
wi (Xi X)
i=1
donde: $n $n
i=1 (wi Xi )
3= $ i=1 (wi Yi )
X n Y3 = $ n
i=1 wi i=1 wi
En el caso de la regresin heteroscedastica, esta formula entrega los estimadores
BLUE. En consecuencia, el estimador OLS no puede ser BLUE dado que bajo la
estimacion OLS, wi = 1 en vez de 1/i2 .
Resultado 2.
El estimador OLS es una regresin heteroscedastica no es BLUE. Dado que los
estimadores son lineales e insesgados, se sigue que los estimadores OLS son ine-
ficientes. Los estimadores BLUE para el caso de las regresiones heteroscedasticas
son aquellos presentados en la ecuacin (16) los que se conocen como estimadores
mnimos cuadrticos ponderados (WLS). Algo de intuicin
OLS, por definicion entrega cada error al cuadrado una misma ponderacion (lo
cual es correcto en un mundo homoscedastico). Si existe heteroscedasticidad, el
estimador OLS entre u otorga "demasiado"peso a los errores grandes. [Sabemos
de lo anterior que el peso verdadero que deber otorgrsele a cada error es 1/wi y
a medida de que i2 aumenta de valor 1/wi deberia disminuir. Pero OLS entrega
62
a todos los errores el mismo peso]. Para corregir por este problema deberiamos
darle mayor importancia a los errores menores. El estimador WLS usa informa-
cion muestral para definir estos pesos. Propiedades Asintticas
Para probar de que los estimadores son consistentes frente al problema de la
heteroscedasticidad, necesitamos solo que chequear que la varianza del OLS de-
saparece a medida de que la muestra crece. La varianza del estimador OLS se
define como sigue:
$n 3
2 = E( )
V ar() 2 = E( $i=1 Xi %i )2
2
(6.18)
n 32
i=1 Xi
Dado que E(%2i ) = i2 E(%i %j ) = 0 entonces (15) puede ser re escrito como:
$n 3 2 2
2 Xi i
V ar() = $i=1 (6.19)
n
( i=1 X3 2)
i
Ahora cuando 12 = 2 el cual es el de homoscedasticidad, este no es el caso. No

obstante, podemos definir las varianzas no constantes como i2 = i + 2 donde
2 = i2 /n de tal modo que i = 0 entonces:
$ 32 2 2
$ 32
2 = X i ( + i ) X i
V ar() $ 32 2 =$ + $ i
( Xi ) 32 ( X
X 3 2 )2
i i
$ 3i2 i /n)(1/n)
2 /n ( X
=$ + $ 32 2 (6.20)
X3 2 /n ( X
i i /n)
$ 32
Si tomamos el lmite de (20) notamos que el lmite de Xi /n es finito y que el
numerador de ambos componentes de (20) desaparecen. De esta forma, la varianza
del estimador OLS converge efectivamente a cero. Sin embargo, debe estar claro
que la varianza del estimador es, para todo tamao de muestra, mayor que la
verdadera varianza y en consecuencia, es asintticamente ineficiente (ver Kmenta
273-275 para prueba detallada en sobre este punto). Resultado 3.
El estimador OLS es consistente, pero es asintticamente ineficiente.
Inferencia bajo Heterocedasticidad: La varianza del estimador OLS. En pres-
encia de Heterocedasticidad, el estimador OLS es insesgado, consistente pero in-
eficiente (y asintticamente ineficiente). Si queremos realizar inferencias en base
a los estimadores necesitamos admas que la varianza de los estimadores sea
tambien insesgadas.
La varianza del estimador mnimo cuadrtico viene dada por la siguiente ex-
presion:
S2
S22 = $ (6.21)
32
X
i
63
Usando la notacin anterior podemos re escribir el valor esperado de (21) como
sigue:
$ 32
S2 2 Xi i
2
E(S2) = E( $ )= $ $ 32 2 (6.22)
3
X 2
X3 2
(n 2)( X )
i i i
Sabemos de (20), sin embargo, que la "verdadera"varianza de 2 viene dada por:

$ 32 2 2
$ 32
2 = $ X X i
V ar() i i
=$ + $ i (6.23)
( X 3 2 )2 X32 ( X 3 2 )2
i i i
Estas dos expresiones son claramente diferentes. De hecho, el sesgo (de la varianza
estimada) puede ser calculada como sigue:
$ 32 $ 32 $ 32
2 = X i X i (u 1) Xi i
2
E(S2) V ar() i
$ 32 2 $ 32 2 =
i
$ 32 2 (6.24)
(u 2)( Xi ) ( Xi ) (u 2)( Xi )
La ecuacin (24) muestra que el sesgo en la varianza estimada depender del
$ 32 3 2 y los terminos de varianza
valor de Xi i /n el cual es la varianza entre X i
individuales. Si esta covarianza es positiva entonces tendremos un sesgo negativo,
2 Esto significa que los errores estndar en los coeficientes
ya que E(S22) < V ar().
estimados por OLS en la presencia de heteroscedasticidad sern muy pequeos,
implicando que el modelo presenta una precisin mayor de la que realmente tiene.
Resultado 4.
La varianza estimada para los estimadores OLS est sesgada. Si los errores het-
eroscedasticos estn positivamente correlacionados con las variables entonces el
sesgo ser hacia abajo implicando un falso sentido de precisin en el modelo.
6.3.2. Deteccion de la Heteroscedasticidad

De la discusin anterior debera resultar claro que con el fin de probar que la
varianza del trmino de error es constante requeriremos que la hiptesis nula sea:
Ho : 12 = 22 = .......m
2
(m n)
Existe una variada gama de tests, cada uno con diferentes fortalezas dependiendo
de las circuntancias.
Test de Goldfeld-Quandt
Esta prueba puede ser usada solamente con datos de corte transversal. La intu-
icin detras de esta prueba es si pudiramos ordenar todos los datos en orden
creciente dependiendo de la varianza de sus errores asociados y escogiramos sub
64
muestras de diferentes partes de esta muestra, entonces las varianzas al interi-
or de cada submuestras debera ser diferente solamente en fluctuaciones bajo la
nula. Sin embargo, si la muestra es heteroscedastica entonces las varianzas entre
submuestras deberian ser significativamente diferentes.
El test de GQ se define de la siguiente manera:
S22
GQ = Fn2 2,n1 2 (6.25)
S12
donde $n1
21 21 Xi )2
i=1 (Yi
S12 = i = 1, .....n1
n1 2
$n1 +p+n2
21 21 Xi )2
i=n1 +p (Yi
2
S2 = n1 + p + 1.....n1 + p + n2 (6.26)
n2 2
Notar que las sumas individuales de los cuadrados se distribuyen en Chi-cuadrado

y en consecuencia la razon entre dos Chi-cuadrados independientes se distribuye
F. Notar tambien que las sub muestras son realizaciones independientes de la
muestra completa.
Algunos aspectos importantes:
1. p es un conjunto arbitrario de los datos y puede ser escogidos por el inves-

tigador. Evidencia experimental sugiere que el 15 por ciento del medio de
la muestra debe ser desechado.
2. La prueba de GQ tiene generalmente, bajo poder.
Prueba de Breush-Pagan
La prueba de BP es una aplicacion directa de la clase de test de Multiplicadores
de Lagrange introducidas en la clase 4. Aplicando la logica del LM test, si la
hiptesis nula (la restrictiva) es valida entonces la derivada de L no ser signi-
ficativamente diferente de cero.
La hiptesis nula es probada en contra de la hiptesis alternativa mas general:
HA : i2 = g[0 + 1 z1i + 2 z2i + ....p zpi ] i = 1, 2, ...k
donde g es una funcin continua y donde las variables Z son no estocsticas, tpi-
camente las variables explicaivas del modelo.
65
Para calcular la prueba de BP el investigador deber estimar la siguiente
regresin auxiliar usando mnimos cuadrados:
%2i
= 0 + 1 z1i + 2 z2i + .... zpi + vi (6.27)
22

donde %i son los residuos de la regresin mnimo cuadrtica de Y sobre X y donde
adems u
! epsilon2i
22 =

i=1
n
Si definimos ESSBP como la suma de cuadrados explicada de la regresin auxiliar
entonces si la nula es vlida ESSBP ser pequea y en consecuencia:
ESSBP 32
BP = X [p] (6.28)
2
Debera ser claro que si la regresin auxiliar explica la evolucin de %2i (lo que
implica que los residuos no son constantes) entonces ESS ser alta y BP no se
distribuir como chi-cuadrado y en consecuencia rechazaremos la hiptesis nula
de homocedasticidad.
Prueba de White
La prueba de White es conceptualmente similar a la prueba de BP (y es la prueba
principal ofrecida en la mayora de los softwares). La prueba de White define la
hiptesis nula igual que el resto de las pruebas y donde la alternativa es:
HA : %2i = 0 + 1 X1i + 2 X2i + ....p Xi Xj + ui i, j
donde las variables Xi son aquellas del modelo original de Y regresionado sobre
X. Notar que la prueba de White incluye los X individualmente, el cuadrado de
cada Xi , y el producto conjunto de todas las variables Xi Xj entre s.
Habiendo hecho la regresin de White, que bajo la nula:

nRw2 X3[p]
2
(6.29)
donde n es el numero de observaciones y Rw2 es la medida estandar R2 de ajuste
aplicado a la regresion auxiliar. Algunos aspectos importantes:
1. La regresin auxiliar no slo entrega una prueba para la existencia de het-
eroscedasticidad sino que tambin una base para descubrir la forma de la
heteroscedasticidad y en consecuencia, permite ayudar en el proceso del
diseo del modelo final.
2. Tanto el test de BP como el de White pueden ser implementados usando la
metodologa general-a-especfico al comenzar con una especificacin auxiliar
muy general y en seguida borrar los regresores irrelevantes. Esto significa
que el ultimo test resultante ser insesgado, consistente y eficiente.
66
6.3.3. Soluciones para la Heteroscedasticidad
Hemos concluido que la heteroscedasticidad presenta problemas en la eficien-
cia de la estimacin mnimo cuadrtica pero mas seriamente, induce sesgo en la
varianza del estimador. Inferencia entonces es un elemento que est afectado ante
este problema. Qu soluciones podemos implementar?
Hemos visto que los Mnimos Cuadrado Ponderados (WLS) son BLUE dado
que escalamos todas las variables por la ecuacin conocida del error estndar.
Sin embargo, WLS como se ha presentado, asume que el verdadero valor de i
para todos los i, es conocido. En general esto no es conocido. Es necesario, en
consecuencia, estimar el valor i a partir de la muestra de datos disponible.
Nota: Nunca ser posible estimar un modelo heteroscedastico completo dado

que el numero de parametros desconocidos (para una muestra de n observaciones)
es igual a n + k 1. Todas las soluciones factibles para la heteroscedasticidad
tiene un costo de trminos de eficiencia relativa a la situacin en que toda la
informacion puede ser utilizada.
Heteroscedasticididad Multiplicativa
La heteroscedasticidad multiplicativa se refiere a aquella forma de heteroscedas-
ticidad que tiene la siguiente estructura:
i2 = 2 zi (6.30)
la cual es una funcin de dos parmetros. Tpicamente asumiremos que toma
valores pequeos, por ejemplo 1 o 2. Obviamente el caso en que = 0 es aquel
de homoscedasticidad. En este caso, el modelo completo queda expresado de la
siguiente manera:
Yi = + Xi + %i
%i = N (0, i2 ) (6.31)
i2 = 2 Zi ( > 0, Z > 0)
Esto reduce el nmero de parmetros del modelo a ser estimados lo que lo hace
un estimador factible. En el caso especial en que = 2 y Zi = Xi , el modelo se
reduce a:
i2 = 2 Xi2 (6.32)
La ecuacin de regresin se hace homoscedstica al dividir el modelo por Xi lo
que resulta en la siguiente especificacin:
Yi 1 %i
( ) = ( ) + + ( ) (6.33)
Xi Xi Xi
67
La ecuacin (31) es ahora un modelo de regresin clsico.
Heteroscedasticidad Aditiva
Suponga que permitimos que la heteroscedasticidad tenga una forma mas
general, como la que sigue:
i2 = a + bXi + cXi2 (6.34)
Podemos encontrar los valore de a, b y c al estimar la siguiente ecuacin por OLS:
%2i = a + bXi + cXi2 + vi (6.35)
donde los %2i son los residuos cuadrados de la regresion original (pero heteroscedas-
tica) entre Y y X y en consecuencia, vi = %2i i2 . Esto nos entrega la "primera
ronda"de estimacin de a,b y c.
a + 2bXi + 2
2i2 = 2
cXi2 (6.36)
Estos estimadores no son, sin embargo, eficientes dado que vi son heteroscedas-
ticos. En consecuencia, nesecitamos re estimar a,b y c al ajustar (35) por los
estimadores consistentes pero ineficientes de i2 .
%2i 1 Xi Xi2
( 2 ) = a( 2 ) + b( 2 ) + c( 2 ) + vi (6.37)
2i
21
2i
2i

Estos estimadores revisados"son asintticamente eficientes y son denotados por
un tilde () y de esta manera podemos definir la "segunda ronda"en la estimacin
de
a + 3bXi + 3
3i2 = 3
cXi2 (6.38)
el cual puede ser luego aplicado a la regresin heteroscedstica.
Yi 1 Xi
( ) = ( ) + ( ) + %i (6.39)
3i
3i
3i

la que asintticamente eficiente y consistente.
Heteroscedasticidad en la Variable Dependiente

Finalmente, la heteroscedasticidad puede depender de la variable endgena,
con estructura como la siguiente:
i2 = 2 [E(Yi )]2 = 2 ( + Xi )2 (6.40)
68
Podemos aplicar una versin modificada del WLS al estimar el siguiente modelo:
Yi 1 Xi
( ) = ( ) + ( ) + %i (6.41)
Y2i Y2i Y2i
En todos los casos anteriores, dado que i2 no es conocido y debe por tanto ser
estimado, existe una prdida en la eficiencia en los estimadores. Estos estimadores
todos tienen propiedades asintticamente deseables y a pesar de que estos esti-
madores son insesgados en muestras pequeas, estamos menos seguros acerca de
la prdida de eficiencia en tamaos de muestras pequeos.
6.3.4. Errores Estndares Heteroscedasticos Consistentes

Con el fin de solucionar los problemas asociados son el sesgo en la varianza de
los estimadores en presencia de Heteroscedasticidad, podemos calcular los errores
estndar Heteroscedasticos consistentes de la siguiente manera:
$n
2 HCSE = $i=1 Xi2 %2i
V ar() n (6.42)
( i=1 Xi2 )2
donde el estimador OLS de la varianza 2 es reemplazado por la expresin

$
Xi2 %2i . White encuentra que este estimador de la varianza del OLS es con-
sistente.
6.3.5. Regresin Cuantil

Una forma conveniente para analizar datos intrnsicamente Heteroscedasticos
(donde la Heteroscedasticidad es en s misma una caracteristica interesante del
DGP) es la regresin cuantil. Para entender este procedimiento recordemos el caso
de Heteroscedasticidad estndar donde el percentil de la distribucin puede ser
representado por lineas paralelas y la lnea de regresin pasa a travs del 50mo.
Percentil.
A B
C
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
- infinito +infinito
Si la regresin es heteroscedastica las lineas de percentiles no sern paralelas y si

la heteroscedasticidad est relacionada con el valor de X entonces las lneas de
percentil divergirn (o convergern) a medida que nos alejemos de la medida del
69
valor de X.
(Xi,Yi)
Yi
error
recta
ajustada
(Yi - media de Y)
media de Y
prediccin media de Y
media de X Xi
En este caso, en vez de ajustar una lnea (i.e. estimar una regresin) utilizando
todos los datos, podemos ajustar lnes a percentiles diferentes.
La regresin cuantil puede ser usada para detectar heteroscedasticidad. Si

la relacin es de hecho homoscedstica entonces las pendientes de las regresiones
cuantiles deberan ser las mismas. Sin embargo, ante la presencia de heteroscedas-
ticidad entonces la regresin cuantil nos permite explorar la distribucin condi-
cional con mas detalle. Podemos analizar el comportamiento de los diferentes
componentes de la muestra.
Por ejemplo, la relacin entre consumo e ingreso para aquellos grupos de

bajo ingreso (10mo percentil de la muestra) y los grupos de altos ingresos (90mo
percentil). Un buen ejemplo de este tipo de ejercicios se puede encontrar en Angus
Deaton "The Analysis of Houshold Surveys"World Bank (1997) pp 81-85.
Formalmente, la definicin del regresin cuantil es como sigue:
! !
Qq = mn(1 q) (yi x%i ) + q (yi x%i ) (6.43)

yx" y>x"
el cual es igual a:
n
!
Qq = [q f (y x%i )] (yi x%i ) (6.44)
i=1
donde q denota el cuantil de inters y la funcin f (z) toma el valor de 1 si z es

verdarero, y un valor de 0 si z es falso.
Este mtodo es discutido extensivamente en los manuales STATA. Ver la funcin
qreg y las diferencias que all se citan.
70
Captulo 7
Violaciones de los Supuestos del

Modelo de Regresin Clsico.
Parte III : Autocorrelacin
7.1. Resumen
1. Consecuencias del supuesto de independencia
2. Autocorrelacin - Deteccin
3. Autocorrelacin - Soluciones
7.1.1. Referencias
Gujarati Captulo 12
J. Kmenta Captulo 8
Grenne Captulo 15
7.2. Errores No Esfricos (continuacin)

Volvamos al Modelo de Regresin Generalizado
Y = X + % (7.1)
E[%] = 0 E[%%% ]% =
donde es una matriz cuadrada nxn positiva definida. El caso de autocorrelacin
aparece cuando :
71

2 cov(%1 %2 ) cov(%2 %1 )
cov(%1 %n ) 2 cov(%2 %n )
.. ..

%
E[%% ] = = . . = (7.2)
.. .. .. ..
. . . .
cov(%2 %1 ) 2

1 1 2 . . . n1
..
1 1 ... ... .

2 ..
2 ... 1 ... .

. .. .. ..
.. . . ... .
n1 ... ... ... 1
La forma de la autocorrelacin ser determinada por el nmero de elementos no
cero fuera de la diagonal en la matriz. En el caso de autocorrelacin de primer
orden (la cual domina la literatura) la matriz de varianza-covarianzas tiene la
siguiente forma :
1 1 0 . . . 0
.
1 1 . . . . . . ..
..
= 2 0 . . . 1 . . . .
(7.3)
. . . .
.. .. .. . . . ..
0 ... ... ... 1
Como ya se haba mencionado en la clase anterior, si la verdadera forma de es
conocida, entonces el estimador de Mnimos Cuadrados Generallizados (GLS) es
aquel de estimador lineal insesgado de mnima varianza y tiene la siguiente forma
:
2GLS = (X % 1 X)1 X % 1 y (7.4)
Si el verdadero valor de es desconocido ser necesario estimarlo en funcin de
un reducido conjunto de parmetros = () . Con el fin de hacer GLS un
estimador factible requeriremos que 2 , y en consecuencia, el estimador
2 = ()
GLS factible ser el siguiente :
2F GLS = (X %
2 1 X)1 X %
2 1 y (7.5)
el cual es insesgado, consistente y asintticamente eficiente, no obstante, no efi-
ciente en muestras finitas. Una vez mas, est falta de eficiencia proviene del hecho
que no podemos utilizar toda la informacin disponible para estimar .
72
7.3. Proceso Autocorrelacionado y Autoregresivo:
algunas definiciones
En general, estamos acostumbrados a describir la evolucin de variables en
trminos de su relacin sistemtica con otras variables. No obstante, tambin es
instructivo examinar la evolucin de las variables en trminos de sus propios val-
ores pasados.
Una representacin como un proceso Autoregresivo de Primer Orden AR(1) de

una serie puede ser expresado como :
%t = %t1 + t (7.6)
donde N (0, 2 ) . El proceso mas general de orden p de una serie puede ser
representado por la siguiente expresin [AR(p)] :
%t = 1 %t1 + 2 %t2 + ........ + p %tp + t (7.7)
la cual representa a %t en funcin de valores pasados de ella misma.
Existe tambin la representacin en trminos de promedios mviles donde MA(1)

es la mas conocida la cual tiene la siguiente estructura :
%t = t t1 (7.8)
donde, de nuevo, N (0, ). Por extensin, el proceso de medias mviles mas
2
general, denotado como MA(q) tiene la siguiente estructura :
%t = t 1 t1 ....... q tq (7.9)
En los anlisis de series de tiempo nos referiremos a los trminos de error como
innovaciones con el fin de reflejar el hecho de que la nica informacin nueva
que entra al proceso est contenida en los shocks estocsticos t que ocurren en
cada perodo.
Un modelo general que engloba ambas especificaciones es el modelo de Media

Moviles y Autoregresivo (Auto Regressive Moving Average) denotados como mod-
elos ARMA (p,q) el cual tiene la siguiente estructura :
%t = 1 %t1 + 2 %t2 + ........ + p %tp + t 1 t1 ....... q tq (7.10)
Notar la convencin de que en un modelo ARM A(p, q) existen p trminos de
73
autoregresin y q trminos de promedio mvil.
Una caracterstica importante de estos procesos de series de tiempo es que bajo

ciertas circunstancias, especialmente cuando || < 1 ellos pueden ser tambin vis-
tos tanto como una regresin sobre valores rezagados con un error aditivo (caso
AR) o bien como la agregacin de la historia de errores pasados (el caso MA).
Esto es una propiedad muy importante y de amplio uso. Para ver esto podemos
re escribir el proceso AR(1) por sustituciones repetidas como :
%t = %t1 + t
%t = (%t1 + t1 ) + t
%t = 2 %t2 + t + t
.. .
. = ..
%t = s %ts + s1 ts+1 + .........t1 + t (7.11)
donde si s implica que s 0 y en consecuencia :

!
%t = s ts (7.12)
s=0
En otras palabras, el proceso autoregresivo de primer orden puede ser expresado

como un proceso infinito de medias mviles. Ello expresa la evolucin de %t en
trminos de la historia de "innovaciones".
La evolucin de %t claramente depende de la historia de las innovaciones y en

consecuencia, del valor de .
Si el valor de este parmetro es menor que la unidad entonces para poten-

cias superiores progresivas (i.e. rezagos mayores) el efecto de las innovaciones
se disipa. Nos referiremos a este caso como una serie de corta memoria. Sin
embargo, si el valor de es alto entonces innovaciones pasadas tienen un peso
cada vez mayor para determinar el valor actual de %t . Nos referiremos a estas
series como aquellas de larga memoria. En el lmite cuando podemos expresar
el AR(1) como :
%t = %t1 + t (7.13)
o, utilizando (12), como :

!
%t = ti (7.14)
i=0
de tal manera que shocks antiguos tiene un peso igual a los mas nuevos en la
determinacin del valor actual de %t . Una serie de este tipo se conoce como paseo
74
aleatorio o random walk.
Debera quedar claro que la distincin entre series de memoria corta o larga est
directamente relacionado con el valor de en el proceso AR. Esta es la principal
distincin entre una serie estacionaria de una no estacionaria, conceptos que
discutiremos en un par de clases.
Siguiendo esta discusin, podemos caracterizar el proceso autoregresivo de primer

orden como :
yt = + xt + %t (7.15)
donde
%t = %t1 + t
y
E(t , s ) = 0; E(t , %t1 ) = 0; con t N (0, 2 )
POr otra parte, la varianza viene dada por :
var(%t ) = var(t ) + 2 var(t1 ) + 4 var(t2 ) + ......... + 2n var(tn )

2
var(%t ) =
(1 2 )
la cual, notando que (1 + 2 + 4 ...) es una serie convergente cuando < 1, define
la verdadera varianza del proceso AR(1) como :
2
$2 = (7.16)
(1 2 )
Finalmente, respecto a la covarianzas, sabemos que :
cov(%t , %t1 ) = E(t + t1 + ....)(t1 + t1 + ...) (7.17)

= 2 + 3 2 + 5 2 = $2
Se sigue entonces dado que :
cov(%t , %t1 ) = 2
Entonces se tiene que :

cov(%t , %t1 ) cov(%t , %t1 )
= 2
=+ +
$ var(%t ) var(%t1 )
75
7.4. Estimacin Minimo Cuadrtica y Errores Au-
tocorrelacionados
En seguida derivaremos las propiedades del los estimadores mnimo cuadrti-
cos ante la presencia de autocorelacin. Una vez mas es mas simple trabajar con
un proceso AR(1) en los errores.
7.4.1. Sesgo y Consistencia

Considere el modelo definio en (15). Dado que no hemos violado el supuesto
de regresores no estocsticos, la formula del OLS para el parmetro ser:
$T $T
2 t=1 xt yt x t %t
= $T 2
= + $t=1
T 2
(7.18)
t=1 xt t=1 xt
y, en consecuencia, $T
2 =+ t=1 xt E(%t )
E() $T 2
t=1 xt
Resultado 1: La estimacin OLS ante la presencia de errores autocorrelaciona-

dos se mantiene insesgada.
Resultado 2: Dado que los estimadores OLS son insesgados para todos tipo
de tamao de muestra finita, sabemos que el estimador ser consistente.
7.4.2. Eficiencia
Para examinar la pregunta acerca de la eficiencia primero debemos trans-
formar el modelo AR(1) en una forma que tenga un error independiente. Ello
lo haremos al multiplicar la regresin por el coeficiente de autocorrelacin, luego
rezagando la regresin en un perodo y finalmente restando la expresin resultante
de la ecuacin original. Esta transformacin se denomina Cochrane Orcutt.
yt yt1 = (1 ) + (xt xt1 ) + %t %t1 (7.19)

Pero dado que sabemos que %t %t1 = t podemos re escribir la ecuacin como :
yt yt1 = (1 ) + (xt xt1 ) + t (7.20)
donde tenemos una ecuacin con errores no correlacionados,pero estimada a partir
de menos datos. Notar de (20) que si conocemos podemos estimar inmediata-
mente por : $T
(x xt1 )(yt yt1 )
2 = t=1$Tt
(7.21)
(x x )2
t=1 t t1
76
donde xt = (xt xt1 ) y xt1 = (xt1 xt1 ). El punto central acerca de este
estimador es que es funcin de . Dado que el estimador OLS no es funcin de
este parmetro, podemos deducir fcilmente que este ltimo, ante la presencia de
autocorrelacin no es eficiente.
Resultado 3: Ante la presencia de autocorrelacin, el estimador OLS para

y no es eficiente. Ello surge dado que el verdadero estimador es una funcin
de la autocorrelacin. La intuicin detrs de este resultado es simple. Para cada
observacin en la muestra el coeficiente de autocorrelacin entrega informacin
sobre la observacin siguiente (en un sentido dinmico). Esta informacin puede
ser explotada (y es de hecho explotada por un estimador eficiente). Dado que el
estimador OLS ignora esta informacin importante, entonces no puede ser efi-
ciente al compararlos con otros que si la consideren.
Resultado 4: El estimador OLS es asintticamente ineficiente. En otras pal-

abras la prdida de eficiencia en muestras finitas no desaparece a medida que el
tamao de la muestra crece, dado que no desaparece a medida que la muestra
es mayor. (ver la prueba de esto en Kmenta pp 307-308).
7.4.3. La varianza del estimador OLS

La "verdadera"varianza del estimador OLS ante la presencia de autocor-
relacin es la siguiente :
4$ 52
T
x
2 = E(2 )2 = E $t=1 t t %
V ar() T 2
(7.22)
x
t=1 t
Expandiendo esta expresin (y notando que %t = %t1 + t ) tenemos la siguiente

expresin :
4 T T
5
2
2 ! !
2 =$ $
V ar() + 2 $T $ 2 xt xt1 + 2 xt xt2 + ..... (7.23)
T 2 2
t=1 x t ( t=1 x t ) t=2 t=3
Finalmente, dado que sabemos que la varianza calculada del estimador OLS es:
2
E(S22) = $T
t=1 x2t
Entonces podemos derivar una expresin para el sesgo de la varianza del estimador
OLS como sigue :
4 T T
5
2 2 2 ! !
s = $T 2 = $
V ar() xt xt1 + 2 xt xt2 + .....
2 T 2 2
t=1 xt ( t=1 xt ) t=2 t=3
(7.24)
77
Resultado 5: Cuando > 0 y existe una correlacin positiva entre los Xs en la
muestra el sesgo es negativo. En este caso subestimamos la verdadera varianza y
en consecuencia sobreestimamos la precisin de los estimadores.
Resumen
Las consecuencias para la estimacin bajo OLS ante la presencia de autocor-
relacinn en los errores son las mismas que en la situacin de heteroscedasticidad.
Es, de hecho, un resultado general de tener errores no esfricos : el estimador OLS
es insesgado y consistente pero son ineficientes y asintticamente ineficientes. Mas
an, la varianza del estimador es sesgada y puede inducir precisin espurea en
los parmetros estimados.
La solucin para el problema de la autocorrelacin es similar para aquella en

que se desea utilizar el estimador FGLS el que incorpora una estimacin del
componente no esfrico del trmino de error.
7.5. Pruebas de Autocorrelacin

Existen tres pruebas conocidas para autocorrelacin. La primera es del tipo
LM asinttico atribuido a Engle, el segundo de carcter no-paramtrico denomi-
nado Box Pierce Q Test y el tercero el test de Durbin-Watson. En todos ellos la
hiptesis nula es la misma :
H0 : = 0
Y la alternativa
H0 : $= 0
Como ya vimos en el caso de heteroscedasticidad, las pruebas requieren que una
forma especfica de la hiptesis alternativa deba ser especificada
7.5.1. La Prueba General del Multiplicador de Lagrange

para Autocorrelacin de Orden P
Esta prueba lsica"de autocorrelacin est basada en la teora de mxima
verosimilitud y es la versin equivalente de la prueba de White en heteroscedas-
ticidad. Para ello construimos la siguiente regresin auxiliar :
%t = 1 %t1 + 2 %t2 + ...... + p %tp + t (7.25)
donde la nula :
H0 : 1 = 2 = ..... = p = 0
78
La prueba LM se calcula al regresionar los residuos de la ecuacin original sobre
sus propios valores rezagados hasta un orden p (con p < n). El estadstico deriva-
do del R2 de la regresin auxiliar se distribuye chi-cuadrado bajo la nula de la
siguiente forma :
LM = nR2 2np+1 (7.26)

A modo de recapitulacin, si no existe una correlacin de orden p en los er-
rores entonces el R2 de la regresin auxiliar ser bajo (i.e. no habr perdida de
verosimilitud significativa al imponer la restriccin bajo la hiptesis nula), y el
estadstico LM tendr una distribucin chi-cuadrado.
Esta es una prueba general de autocorrelacin y puede ser usada como una prue-
ba diagnstica tambin. Su uso se recomienda pues se puede estudiar la presencia
de autocorrelacin de cualquier orden.
7.5.2. La prueba de Box-Pierce Q (o de Portmanteau)

Esta es una prueba no-paramtrica ( en el sentido de que no debemos calcular
ningn parmetro de la regresin auxiliar). La prueba Q se define al construir
el conjunto de correlaciones muestrales ( para cada orden de la autocorrelacin,
k = 1, 2....m )
$T
2
%t 2
%tk
r2k = t=k+1
$n 2 ; k = 1, ....m (7.27)
t=1 2
%t
Al construir el estadstico Q podemos encontrar que tambin este tiene una dis-
tribucin chi-cuadrado bajo la nula ( autocorrelacin de orden m) :
m
!
Q=n r2k2 2m (7.28)
k=1
7.5.3. La prueba de Durbin-Watson para Autocorrelacin

de Primer Orden
El archiconocido test de DW para autocorrelacin involucra la construccin
de un estadstico y la posterior comparacin de la distribucin actual de ese
estadstico con aquella que se calcula a partir de la hiptesis nula. La clave de
este test es que no tiene una distribucin estndar. Durbin y Watson han calculado
est distribucin. El estadstico viene dado por :
$T
(2 %t1 )2
%t 2
d = t=2$T 2 (7.29)
2
%
t=1 t
79
Podemos expandir esta expresin de la siguiente manera :
$T 2 $T 2 $T
t=2 2
%t t=2 2
%t1 t=2 2
%t 2
%t1
d = $T 2 + $T 2 2 $ T
t=1 2
%t t=1 2
%t t=1 2%2t
Si tomamos el lmite de esta ltima expresin podemos notar que los dos primeros
trminos tienden a la unidad y el tercer trmino es simplemente 2. En conse-
cuencia,
plimd = 2(1 )
Bajo la nula, a medida que rho tiende a cero, el valor de d tiende a dos. En
muestras finitas, sin embargo, el DW tiene una distribucin compleja la cual se
ilustra en la siguiente figura.
80
El estadstico DW entrega los valores, dependientes de la muestra, dl y dr los
cuales se ilustran en el grfico.
Descripcin de las Zonas

A : Autocorrelacin posistiva
B : Area inconclusa
C : Inexsitencia de autocorrelacin
D : Area inconclusa
E : Autocorrelacin negativa
As, la regla de decisin es la siguiente:
Si d < Ll rechazar Ho a favor de autocorrelacin positiva.

Si d > 4 Ll rechazar Ho a favor de autocorrelacin negativa.
Si Lu < d < 4 Lu no rechazar Ho.
Si Ll d Lu o 4 Lu d 4 Ll resultado inconcluso.
7.5.4. La prueba h de Durbin

Suponga que el modelo autoregresivo tiene la siguiente forma :
yt = + xt + yt1 + %t (7.30)
y donde
%t = %t1 + t
En este caso la prueba de DW (d) no es aplicable pero s una variante de esta
denominada la prueba h la cual ajusta la prueba d ante la presencia de variable
dependiente rezagada. El test h de Durbin tiene la siguiente estructura :
6
d n
h = (1 ) N (0, 1)
2 1 nS22
donde n es el nmero de observaciones y S22 es la varianza estimada. Notar que

la distribucin de este estadstico es una Normal.
Resumen
La pruebas anteriores todas tienen propiedades asintticas bien definidas. Sin
embargo, sus propiedades en muestras pequeas o finitas no son tan buenas. En
particular, la prueba de DW tiene relativamente bajo poder mientras que la prue-
ba de LM puede ser ineficiente en muestras pequeas. No obstante, en general la
prueba del tipo LM es preferible dado que el DW es una prueba slo aplicable a
situaciones en que los errores tiene una autocorelacin de primer orden.
81
7.6. Soluciones para la Autocorrelacin
Como en el caso de la heteroscedasticidad, lo que hacemos en presencia de
autocorrelacin depende de cunto sabemos acerca de la estructura del proceso
que la genera. En ambos casos utilizaremos una forma del estimador minimo
cuadrado generalizado (GLS).
2GLS = (X % 1 X)1 X % 1 y
Como siempre, si el verdadero valor de es desconocido, ser necesario entonces

estimarlo de tal manera de aplicar en consecuencia el estimador GLS factible
(FGLS) el que tiene la siguiente forma
2F GLS = (X %
2 1 X)1 X %
2 1 y
el cual es insesgado, consistente y asintticamente eficiente, aunque no eficiente

en muestras finitas. Lo anterior dado que existe una prdida de informacin ante
la necesidad de estimar la matriz de varianzas-covarianzas.
La forma mas comn de FGLS para el caso de autocorrelacin son los esti-
madores mnimo cuadrtico autoregresico iterativos donde el mas cono-
cido entre ellos es el Mtodo de Cochrane Orcutt.
7.6.1. Mtodo de Cochrane Orcutt

Suponga que el trmino error est autocorrelacionado (de primer orden) en-
tonces podremos estimar consistentemente la correlacin de la siguiente manera
:
$T
t=1 2
%t 2
%t1
2 = $ T 2
t 2
%t1
con este estimador en la mano podemos usarlo para construir la transformacin
de Cochrane Orcutt ya vista :
(yt 2yt1 ) = (1 2) + (xt xt1 ) + t
donde ahora, por definicin, est distribuido independientemente. De esta for-

ma, podremos entonces estimar consistentemente (pero no eficientemente) , y
2 de (37)
Nota Importante : El mtodo de Cochrane Orcutt es usualmente implementa-

do iterativamente. Suponga que despus de esta estimacin en dos etapas resulta
82
que t es autocorrelacionado (lo que puede ser testeado). Es posible entonces
repetir el proceso CO al re estimar el parmetro de autocorrelacin de (36) de la
secuencia de errores de (37). Y de esta manera usarlo para estimar una versin
mejorada de (37). Si los valores de y no cambian entre cada iteracin entonces
estaremos seguros de que la regresin tiene un error independiente. Este es un
proceso estndar de convergencia y los estimadores de y de la iteracin final
se considerarn los mejores estimadores FGLS.
7.6.2. Problemas con el mtodo de Cochrane Orcutt / Min-

imos Cuadrados Autoregresivos
A pesar de su extendido uso en econometra aplicada, el mtodo de CO tiene
un problema serio. Considere el modelo autoregresivo siguiente :
yt = + xt + %t
donde :
%t = %t1 + t
con t N (0, 2 ), E(t , s ) = 0, E(t , %) = 0
Suponga que estimamos el modelo utilizando el mtodo de CO el que tiene la
siguiente forma :
yt = 2 +
2 + x 2t
t
donde
2t es un trmino de error independiente y yt , xt son las transformaciones
de Cochrane Orcutt de Y y X segn la ecuacin (37). Sin embargo, si recordamos
de que :
2t

%2t =
(1 2L)
donde L es el operador rezago, entonces podremos re escribir (38) de la siguiente
manera :
(1 2L)yt = 2 2L)xt +
2 + (1 2
o bien
yt 2yt1 = 2 t 22xt1 +
2 + x 2t
El aspecto clave acerca de esta relacin dinmica es que impone la restriccin de
que la relacin (autoregresiva) condicional entre yt y yt1 es idntica a la relacin
(autoregresiva) condicional entre xt y xt1 y esa relacin est definida por la
relacin autoregresiva entre %t y %t1 . Esto es conocido como la restriccin de
factor comn.
Debera ser obvio que esta es una restriccin muy fuerte. Pero debera tambin
83
quedar claro que es una condicin que puede ser testeable. Para ver esto ltimo
mas en detalle podemos re escribir el modelo en (40) en forma mas general de la
siguiente manera :
(1 )yt = + (1 L)xt + t
y testear directamente la restriccin de que :(1 ) = (1 ) = (1 ) Para
implementar esta prueba debemos estimar la siguiente regresin :
yt = 0 + 1 + 1 yt1 + 0 xt + 1 xt1 + t
y testear directamente la restriccin de que 1 = 1 /0 . Si y slo si la restriccin

se mantiene, entonces la transformacin de Cochrane Orcutt es vlida. Mas an,
si la restriccin es vlida entonces la estimacin mediante CO ser una estimacin
eficiente. La prueba de Restriccin de Factor Comn COMFAC es una prueba
de Wald donde la hiptesis nula asume que la restriccin de factor comn es
vlida. Esta prueba tiene una distribucin chi-cuadrado bajo la nula donde los
grados de libertad vienen determinados por el orden del factor de polinomio. En
el ejemplo anterior, el polinomio de rezago tiene un orden igual a 1.
7.6.3. Estrategia de Modelamiento para Mnimos Cuadra-

dos Autoregresivos
1. Estime el modelo dinmico de la forma definida en (43) usando OLS.
2. Aplique la prueba de COMFAC al modelo.
3. Si la restriccin de factor comn no es rechazada entonces re estime el

modelo (sin los valores rezagados de Y y X ) usando ALS. En otras palabras,
estime la ecuacin (39).
4. Si la restriccin no es aceptada (i.e. Ho es rechazada) usted debera pensar

un poco acerca de la causa de la autocorrelacin en el trmino de error.
Nota: el procedimiento COMFAC / ALS se aplica para cualquier tipo de

orden de polinomio rezagado y orden de autocorrelacin. De esta manera, en un
modelo de dos rezagos sobre Y y X deberamos testear por un factor polinomial
comn de segundo orden. Si la restriccin es aceptada, el trmino de error en (39)
debera ser de la forma t = %t 1 %t1 2 %t2 . El cual es un proceso AR(2)
como el siguiente:
%t = 1 %t1 2 %t2 + t
con t N (0, 2 )
84
Captulo 8
Regresores Estocsticos,
Exogeneidad y Estimacin por
Variables Instrumentales
8.1. Resumen
1. Violacin del supuesto de regresores no estocsticos
2. Una extensin : concepto de exogeneidad
3. Una solucin : estimacin por variables instrumentales
8.1.1. Referencias
Kmenta Captulo 8, Captulo 9.1, 13.4
Hendry Captulo 5
Gujarati Secciones 13.6 y 16.9
Grenne Secciones 9.5 y 20.4
Kennedy Secciones 9.2
8.2. Introduccin
El ltimo supuesto del modelo de regresin lineal clsico asume que las vari-
ables independientes en el modelo son no estocsticas, es decir que tienen valores
85
fijos en muestras repetidas y las que satisfacen la condicin de que :
n
1!
(xi x)
n i=1
es igual a un valor finito y no cero para cualquier tamao de muestra.
En la prctica, con datos reales, estos dos ltimos requerimientos no son par-
ticularmente interesantes. El primero no puede ser evaluado dado que rara vez
tenemos muestras repetidas mientras que el segundo simplemente requiere que
los Xs no sean todos iguales.
Nota : generalmente asumimos que una ( y slo una) de las Xs toma el mis-
mo valor a travs de la muestra. Este es el caso de la constante.
El requerimiento clave en trminos prcticos es la condicin de que las vari-
ables X puedan ser tratadas como si fueran no estocsticas lo que requiere sim-
plemente que se cumpla lo siguiente :
E(%i , xj ) = xj E(%i ) = 0; i, j (8.1)
8.3. Consecuencias de la Violacin del Supuesto

de Regresores no Estocsticos
Vamos a separar este problema en tres casos diferentes :
Caso 1: xt es estocstica pero es independiente de %t

Considere el siguiente modelo :
yt = + xt + %t (8.2)
donde ahora asumiremos que xt es estocstica pero independiente de %t . El esti-

mador mnimo cuadrado ordinario de es el siguiente :
$T
2 x t %t
= + $t=1 T 2
(8.3)
t=1 xt
y el valor esperado viene dado por :

T
!
2 =+ xt
E() E( $T )E(%t ) (8.4)
t=1 t=1 x2t
86
Notar que dado que ahora xt es estocstica, no es posible sacar esta variable fuera
del valor esperado como una constante. Sin embargo, dado que asumimos inde-
pendencia entre xt e % sabemos que E(xt %t ) = E(xt )E(%t ) Dado que E(%t ) = 0
entonces el valor esperado del estimador es el verdadero valor del parmetro (i.e.
es insesgado).
Notar tambin que el estimador de ya no es una funcin lineal (pues ya no

podemos expresar este estimador como ki yt ). Estrictamente ya no es BLUE. Sin
embargo, esto no representa un problema en este caso ya que el estimador mnimo
cuadrtico mantiene an todas sus propiedades del modelo de regresin clsico.
Veamos todo esto.
Considere la densidad conjunta de xt e %t como :
f (x1 .....xT , %1 .....%T ) (8.5)
entonces su verosimilitud en logaritmos viene dada por :
logL = logf (x1 .....xT ) + logL(%1 ....%T ) (8.6)

el cual es igual a :
T
T 1 !
logL = logf (x1 .....xT ) = 2
log(2 ) 2 (yt xt )2 (8.7)
2 2 t=1
Ahora, si la distribucin de xt es independiente de %t ( y en consecuencia y )

entonces maximizar la funcin de verosimilitud con respecto a , y 2 no ser
influenciado por la verosimilitud de xt . En consecuencia, aun si xt es estocstico,
el estimador tendr todas las propiedades del estimador mnimo cuadrado ordi-
nario. Esto puede ser probado al sacar la derivada parcial de (7) con respecto a
los parmetros del modelo de regresin.
Finalmente, podemos mostrar que la varianza del estimador mnimo cuadrti-

co es :
4$ 52 4$ 5 4$ 5
T T 2 2 T
2 =E x i %i t=1 xi %t t=1 xt xj %t %j
V ar() $t=1
T
=E $ + 2E $ (8.8)
t=1 xi
2
( Tt=1 x2t )2 ( Tt=1 x2t )2
4 5
2 = 2E $ 1
V ar() T
t=1 x2t
87
Dado que xt y %t son independientes
$T entonces la covarianza entre ellos ser cero, y
al cancelar el trmino t=1 xt del numerador y denominador nos quedamos con
2
la formula conocida para la varianza del estimador.
El resultado anterior tambin se aplica para el valor esperado y la varianza del

termino de intercepto.
Resultado 1. Si xt es una variable estocstica pero independiente de %t entonces

todas las propiedades del modelo de regresin clsico y el estimador mnimo
cuadrtico se mantienen inalteradas.
Caso 2: xt es estocstica, no es independiente pero est no correlacionada con-

temporneamente.
En este caso no asumimos que xt y %t son independientes pero mantenemos el
supuesto que :
Cov(x1 , %1 ) = Cov(x2 , %2 ) = ...... = Cov(xT , %T ) = 0 (8.9)
Para ilustrar este caso, considere un modelo autoregresivo, es decir uno con vari-
able dependiente rezagada.
yt = + yt1 + %t (8.10)
En este caso asumimos que la variable xt es yt1 . Si asumimos que || < 1

entonces podemos sustituir reiteradamente para el valor rezagado de yt y llegar
a una expresin como la siguiente :
yt = (1 + + 2 + .... + t1 ) + t y0 + %t + %t1 + 2 %t2 + .... + t1 %1 (8.11)
A medida que t se hace mayor, llegando hasta infinito, entonces la expresin

converge a :

yt = + %t + %t1 + 2 %t2 + ...... + t1 %1 (8.12)
(1 )
Como vimos en la clase pasada, esto es un modelo de media mvil con rezago
infinito el cual fue derivado de un modelo autoregresivo finito.
Notar que el supuesto de que Cov(xt , %t ) = 0 implica que cov(yt1 , %t ) = 0 dado

que de (11) yt1 es una funcin de y0 , %0 , %1 , .....%t1 pero no de %t . Considere el
estimador mnimo cuadrtico de .
$T
yt1 %t
2 = + $t=1 T 2
(8.13)
y
t=1 t2
88
Dado que yt1 est definido como :
1
yt1 = yt1 (y0 + y1 + ..... + yt + ..... + yT 1 ) (8.14)
T
podemos notar que es una funcin de yt , el cual, por definicin, no es independi-
ente de %t . De esta manera, yt1 y %t ya no son independientes. En forma similar
%t , no es independiente de yt1
2
. Consecuentemente no podemos separar al tomar
el valor esperado en (13). En consecuencia, no podemos decir que si el estimador
OLS es insesgado.
Sin embargo, podemos tomar la probabilidad en el lmite para 2 como:

$
2 plim Tt=2 yt1 %t /T
plim = + $ = (8.15)
plim Tt=2 yt1
2
/T
El numerador de esta expresin es un estimador consistente de la covarianza

poblacional entre yt1 y %t la cual es cero mientras que el denominador es un
estimador consistente de la varianza poblacional de yt1 . En consecuencia, el
segundo termino desaparece y as 2 es un estimador consistente.
Resultado 2 Si la variable explicativa no es independiente del error pero no

est contenporaneamente correlacionada, entonces el estimador OLS puede estar
sesgado pero es consistente y todas las propiedades del modelo de regresin clsi-
co estimados por mnimos cuadrados se mantienen asintticamente. La principal
implicancia de este resultado es que modelos dinmicos producen estimadores los
que a pesar de ser consistentes tienen propiedades indeseables en muestras finitas.
No es posible calcular, exante, el signo o la magnitud de estos efectos en muestras
finitas.
Caso 3 Si Xt es estocstica, pero no es independiente y est correlacionada

contempornemanete con el termino de error. Aqu, si xt y %t covaran entonces
el estimador OLS de viene dado por :
4$ 5
T
2 = + E $t=1 xt %t $=
E() (8.16)
T 2
t=1 xt
As, el estimador es sesgado para muestras finitas. Mas an, dado que la covari-
anza poblacional entre xt y %t no es cero ( por definicin) entonces se sigue que
: $
2 plim Tt=2 xt %t /T
plim = + $ $= (8.17)
plim Tt=2 x2t /T
89
Resultado 3 Cuando la covarianza entre xt y %t no es cero entonces el estimador
OLS no es insesgado ni consistente. Asi la estimacin uniecuacional por OLS no
es vlida.
En este caso, las implicaciones para el modelamiento son que para obtener una
estimacin consistente y eficiente ante este problema, se requiere de un estimador
alternativo. Los dos mtodos de estimacin ms comunes son la Estimacin por
Variables Instrumentales (vea seccin 4 de estas notas) y Estimacin por
Sistemas de Ecuaciones (tales como Mnimos Cuadrados en Dos Etapas, MC
en Tres Etapas, Maxima Verosimilitud con Informacin Completa FIML). Estos
ltimos estimadores sern revisados mas adelante.
8.4. Exogeneidad
Antes de repasar las formas de estimacin de loscasos revisados anteriormente,
en esta seccin consideraremos la importancia de este supuesto de la exogeneidad
para el modelamiento economtrico. Recodemos de la primera clase que podemos
considerar un sistema econmico, referido como DGP, como una distribucin con-
junta multivariada compleja denotada como D(zt |Zt1 , ) .
Si pensamos en el vector Z consistiendo en dos variable (digamos yt y zt ) pode-

mos factorizar en trminos de sus componentes: las distribuciones marginal y
condicional, de la siguiente manera :
D(zt |Zt1 , ) = D(yt |Xt , Zt1 ; 1 )D(xt |Zt1 ; 2 ) (8.18)
donde D(yt |Xt , Zt1 ; 1 ) es la distribucin condicional de yt , dado Xt y un con-

junto de parmetros 1 y D(xt |Zt1 ; 2 ) es la distribucin marginal de xt y con
= (1 , 2 ).
Todos los modelos economtricos son modelos condicionales del tipo de (18).
El aspecto de exogeneidad simplemente concierne a la pregunta de si la simplifi-
cacin en el proceso de modelamiento logrado mediante la marginalizacin de la
variables no modeladas es vlido. Especficamente, la esencia de la exogeneidad
radica en que si existe alguna prdida de informacin cuando se explica yt por xt
sin necesariamente explicar xt al mismo tiempo. Si ocurre una prdida de infor-
macin, entonces es invlido definir un modelo que condiciona en Xt ; y as xt no
es exgeno para los parmetros 1 .
En (18) notamos que el requerimiento acerca de que no exista prdida de informa-

cin al estimar el modelo condicional es equivalente a decir que no existe relacin
90
sistemtica entre el error estocstico del modelo condicional y los parmetros del
mismo modelo.
En las tres ltimas clases hemos examinado casos en los cuales el trmino de
eror contiene "informacin.acerca de la evolucin de yt . Cuando la fuente de esta
"informacin"surge de la covarianza entre xt y %t nos referiremos a esta situacin
como violacin de la exogeneidad. Dependiendo del tipo de anlisis condi-
cional que ha sido llevado a cabo, pueden existir tres tipos de exogeneidad.
8.4.1. Exogeneidad Dbil

Si la especificacin de la distribucin marginal D(xt ) es irrelevante para la
especificacin de los parmetros del modelo condicional, entonces se dice que xt
es debilmente exgena (o exgena debil) para la estimacin de los parmetros .
Definicin.
xt es debilmente exgena para los parmetros si yt |xt es funcin solamente de
1 y donde 1 y 2 son libres de variacin. Exogeneidad dbil es una condi-
cin necesaria para la estimacin vlida y eficiente de los valores desconocidos
de los parmetros en el modelo condicional. Exogeneidad dbil es entonces una
condicin necesaria para la econometra de ecuaciones simples o modelos uniecua-
cioinales, y la falla en establecer exogeneidad dbil requiere que el investigador
utilice otros mtodos para la estimacin ya sea por variables instrumentales o
bien por sistemas de ecuaciones simultaneas.
8.4.2. Exogeneidad Fuerte y Causalidad de Granger.

Si xt es exogena dbil y no es causada en el sentido de Granger por yt , entonces
se dice que xt es fuertemente exgena (o exgena fuerte). No causalidad segn
Granger existe cuando la historia de yt no est determinada por xt .
Definicin.
La no causalidad segn Granger existe si y solo si :
D(xt |Xt1 ; 2 ) = D(Xt |Zt1 ; 2 )
Mientras la exogeneidad fuerte no es requerida para la inferencia de los parmetros

en el modelo condicional, exogeneidad fuerte es una condicin necesaria
para prediccin. La prediccin de valores futuros de yt requiere el uso de valores
futuros de xt . Si existe causalidad segn Granger entonces los valores futuros de yt
(i.e. aquellos que fueron predichos) tendrn un efecto de retroalimentacin sobre
las variables xt (i.e. aquellas que fueron usadas para para realizar la prediccin).
91
8.4.3. Superexogeneidad
Si los parmetros del modelo condicional son invariantes ante cualquier cambio
en la distribucin marginal de xt y si adems xt es exgena dbil para 1 ,entonces
se dice que xt es super-exgena.
Definicin
La superexogeneidad requiere que los parmetros estimados del modelo condi-
cional sean independientes de las variaciones en el proceso marginal que produce
xt , as:
1
=0 (8.19)
D(xt |Xt1 ; 2 )
La ausencia de superexogeneidad en econometra es anlogo a la Critica de
Lucas, la que dice que cambios en los gobiernos o en el las polticas o en el rgi-
men de control sern incorporadas en el proceso de formacin de expectativas de
los agentes los que no slo alterarn su proceso marginal pero tambin la forma
condicional de su conducta. Como resultado, estudios empricos que consideren
las respuestas en la conducta de los agentes ante cambios en la poltica econmica
como invariantes colapsarn y en consecuencia, simulacin acerca del impacto de
polticas sern errneos, especialmente en el contexto cuando las simulaciones son
realizadas condicionales en el supuesto de expectativas invariantes departe de los
agentes econmicos. En consecuencia, superexogeneidad es una condicin
necesaria para simulacin de polticas.
Considere, por ejemplo, un modelo donde la demanda por activos reales est
condicionada por el nivel de precios. Suponga que los precios estn determinados
por el control que tiene el gobierno sobre la oferta monetaria, y bajo un cambio en
las autoridades, la autoridad monetaria a cambiado su poltica (i.e. el nuevo go-
bierno instituye los regmenes de crdito del FMI) y en consecuencia la conducta
de los agentes cambia como resultado de este cambio en el rgimen poltico: As,
los precios en este modelo no son superexgenos para los parmetros del modelo
condicional.
8.4.4. Pruebas para Exogeneidad

A pesar de la simplicidad del concepto de exogeneidad, la prueba directa de
las condiciones de exogeneidad no es tan fcil. Como debera ser claro, dada la
naturaleza de la interrelacin existente en la distribucin conjunta descrita por el
DGP, ninguna variable es perfectamente exgena, como tampoco es necesario que
as sea en todas las circunstancias. Como es comn en mtodos estadsticos de-
seamos testear si existe una perdida significativa de informacin al marginalizar
92
con respecto a una variable en particular. La hiptesis alternativa es que ex-
iste una gran prdida de informacin (verosimilitud) como consecuencia de la
marginalizacin.
Prueba para Exogeneidad Dbil

No existen test para probar directamente la exogeneidad dbil como tal. No
obstante una prueba sobre la validez del condicionamiento en el modelamien-
to seguido es una prueba indirecta acerca de la exogeneidad dbil. Cualquier
desviacin del trmino de error de la normalidad, independiente, y distribucin
idntica puede ser causado por una condicionamiento invlido y en consecuencia,
una violacin de la exogeneidad dbil aunque ello puede ser tambin debido a la
heteroscedasticidad o la autocorrelacin.
Sin embargo, una vez habiendo testeado por la presencia de autocorrelacin o
heteroscedasticidad, el indicador mas importante de la violacin de exogeneidad
dbiles es la situacin de parmetros no constantes. Estudiaremos en forma
mas directa mtodos de estimacin recursiva que ayudarn a resolver este
problema en una clases mas adelante.
Pruebas para Exogeneidad Fuerte

No obstante lo anterior, existen test bien establecidos para probar exogeneidad
fuerte o tambin denominado Causalidad segn Granger. La prueba de causalidad
de Granger es una prueba F para la significancia de agregar la historia de yt a xt .
xt = 1 yt1 + 2 yt2 + .... + tk + et (8.20)
La hiptesis nula es H0 : 1 = 2 = ..... = k = 0. Este estadstico se distribuye F

con K y T k 1 grados de libertad, donde k es el nmero de variables rezagadas
que se incluye en la ecuacin (20).
Si la prueba de F es significativa, entonces la hiptesis nula se rechaza a fa-

vor de que yt ausa en el sentido de Granger.a xt y, en consecuencia, xt no es
exgena fuerte con respecto a los parmetros del modelo condicional de yt sobre
xt . Notar aqu que la causalidad segn Granger es a menudo utilizada como una
forma de determinar el sentido de la causalidad econmica. Sin embargo, esta es
una prueba dbil de causalidad pues puede suceder que se llegue a la situacin
de que "yt causa a xt "pero tambin que "xt causa a yt "sugiriendo que yt y xt
estn co-determinadas. Esta es la propiedad que reside en la base de la nocin de
cointegracin, aspecto que retomaremos en las siguientes clases.
93
8.5. Estimacin por Variables Instrumentales
El propsito de esta seccin es la de examinar una solucin ampliamente
utilizada para el problema donde el supuesto de que cov(xt , %t ) = 0 es violado.
8.5.1. Una Solucin para el Problema de Regresores Es-

tocsticos : Variables Instrumentales
Utilizaremos notacin matricial suponiendo que la matriz X contiene slo una
variable, ignorando por el momento la constante.
Y = X + % (8.21)
Para llegar al estimador de necesitamos pre multiplicar la ecuacin por X % para

obtener :
X % Y = X % X + X % % (8.22)
Asi, resolviendo para tenemos :
= (X % X)1 X % Y (X % X)1 X % % (8.23)
Bajo la condicin de que X % % es la matriz nula, llegamos a la formula estndar

de OLS.
OLS = (X % X)1 X % Y (8.24)
Sin embargo, si X % % no es cero el OLS ser sesgado (por un monto (X % X)1 X % %).
Este es exactamente el problema donde los regresores del modelo son estocsticos
(y no independientes). Suponga, sin embargo, que existe una variable la cual tiene
las siguientes propiedades :
(i) est correlacionada con X (la variable de inters) pero,
(ii) no est correlacionada con % , a lo menos asintticamente
Esta variable se puede denotar como un instrumento para X . Llamaremos a
esta variable Z.
Usando el mtodo de la Estimacin IV (por variables instrumentales)

podemos simplemente pre multiplicar (21) no por X % pero por Z % , la variable
instrumental para obtener :
Z % Y = Z % X + Z % % (8.25)
y resolviendo para tenemos :
= (Z % X)1 Z % Y (Z % X)1 Z % % (8.26)
94
En una manera anloga al OLS, definiremos el estimador IV como :
IV = (Z % X)1 Z % Y (8.27)
Notar que, estrictamente, la condicin (ii) seala que solamente la covarianza

asinttica entre Z y % deber ser cero (Cov(Z % %) = 0 ). De esta forma, el estimador
IV es sesgado dado que para muestras finitas puede ocurrir que:
E((Z % X)1 Z % %) $= 0
No obstante, este estimador es consistente. Para ver esto tomemos el lmite de

la probabilidad de (27) :
plim(1/n)[Z % (X + %)] plim(1/n)[Z % %]

plimIV = = + = (8.28)
plim(1/n)[Z % X] plim(1/n)[Z % X]
ello pues el segundo trmino es ahora cero.

La varianza asinttica de IV se define por :
asyvar[IV ] = 2 [(Z % X)1 (Z % Z)(X % Z)1 ]1 (8.29)
Resultado 4 Cuando Cov(X, %) $= 0 y el estimador OLS es sesgado e inconsis-

tente, un estimador IV ser consistente pero no eficiente.
Notar que si pensamos el modelo en (21) como una regresin mltiple donde
el supuesto de Cov(X, %) = 0 se mantiene para alguna de las variables, entonces
esos elementos de X no necesitarn instrumentos. Ellos son sus propios instru-
mentos.
8.6. Aplicacin de la Estimacin IV

La estimacin IV parece ofrecer una opcin atractiva en casos donde el supuesto
de regresores no correlacionados con el error es violado. En consecuencia, este
mtodo surge como vlido para un amplio espectro de problemas.
8.6.1. "Error de Medicin 2

el modelo con errores en las
variables
La mayora de los datos son medidos con algn grado de error tanto en corte
transversal como en series de tiempo. Por ejemplo :
95
(i) datos sobre consumo y ahorro son medidos tpicamente como residuos de
datos de ingreso nacional y en consecuencia, contiene errores en la medida
de otros componentes.
(ii) En datos sobre balanza de pagos, los flujos de capital son usualmente me-
didos parcialmente pero tambin incluye errores en la medidas de cuentas
de comercio (las que son producto, por ejemplo, de declaraciones mal real-
izadas) .
(iii) En datos de corte transversal, la gente a menudo reporta slo parte de su

ingreso (por miedo a impuestos adicionales) o bien pueden sistemticamente
sub o sobre reportar el consumo de ciertos bienes.
(iv) En encuestas las firmas pueden sub reportar ganancias y sobre exagerara
impuestos pagados respondiendo de manera de satisfacer al encuestador.
Adicionalmente, ellos a menudo respondern en una forma que ellos piensen
que puedan influir en reformas a la poltica econmica en forma beneficiosa
para ellos.
Todos estos factores sugieren que el tema del error en la medida de variables es
un aspecto muy comn en los trabajos prcticos.
Podemos formalizar esto en el siguiente modelo. Asumiremos que la "verdadera-

elacin viene dada por :
Y = X + % (8.30)
pero donde X y Y son slo observado con un error estocstico. De esta manera,
observamos :
Y = Y + con N (0, 2 ) (8.31)
y
X = X + con N (0, 2 ) (8.32)
Error de medicin en la Variable Dependiente

Suponga, primero, que slo Y est medido con error. As
Y = X + % + (8.33)
lo que implica que

Y = X + % (8.34)
donde :
% = % +
Dado que (por definicin) X es no estocsticca y que :
96
E(%) = E() = 0
Cov(xi , %i ) = 0
Cov(xi , i ) = 0
Cov(%i , i ) = 0
entonces (34) es un modelo de regresin clsico y la estimacin de ser insesgada.
Sin embargo, la varianza del estimado ser mayor que el caso de inexistencia
de error en la medicin ya que :
2
2 = $n$ ( 2 + 2 )
V ar() = $$n 2 (8.35)
i=1 x2
i i=1 xi
donde x representa desviaciones de la media.
Resultado 5Errores en la variable dependiente genera estimadores insesgados

pero la varianza estimada es mayor que en el caso de inexistencia de error en la
medicin. As, el estimador es ineficiente.
Error en la medicin de las Variables Independientes

El resultado anterior no obstante no es aplicable cuando el error de medicin
est en la variable independiente. Ello puede ocurrir por alguna de las razones
antes mencionadas o bien porque no hemos podidos utilizar la verdadera variable
sino mas bien una proxy de ella. En este caso (que por simplicidad asumiremos que
la variable dependiente est correctamente medida) el modelo puede ser escrito
como :
Y = X + % (8.36)
Y = X + (% ) = X + (8.37)
donde = [% ]
La principal caracterstica de este modelo es que a pesar de que tiene media

cero, varianza constante, serialmente independiente y no correlacionado con % , el
termino de error compuesto no es independiente de X . Para ver esto, asumiendo
de que E() = 0 , podemos examinar la covarianza entre X y
Cov(, X) = E[ E()][X E(X)]

= E[(% X)]
= E[2 ] (8.38)
= 2
97
As, dado que la covarianza entre y X es no cero, el modelo ya no es del tipo
clsico y el estimador OLS de ser sesgado. Mas an, los estimadores sern
inconsistentes dado que se mantendrn sesgados a pesar de que el tamao de la
muestra aumente indefinidamente. Para ver esto calcularemos la probabilidad en
el lmite para 2 :
$n $ $n $ $
2 yi xi ni=1 x2
i + xi %i + ni=1 xi i + ni=1 %i i
i=1
= $n 2 = $n 2 i=1 $n $n 2
(8.39)
i=1 xi i=1 xi + 2 i=1 xi i + i=1 i
Dividiendo por el tamao de la muestra y tomando la probabilidad en el lmite

encontramos que :
$ $n $ $
2 (1/n)[ ni=1 x2
i + xi %i + ni=1 xi i + ni=1 %i i ]
plim = $ i=1 $n $n (8.40)
(1/n)[ ni=1 x2
i +2 i=1 xi i +
2
i=1 i ]
y por tanto

plim2 = 7 2
8
1 + 2
x
Dado que hemos supuesto de que a medida de que n tiende a infinito, no existe
correlacin entre los trminos de error % y y entre % y y el verdadero valor de
X, es decir X . Si 2 > 0 entonces 2 es inconsistente y el sesgo es hacia abajo.
Resultado 6 Errores en la variable independiente genera estimadores sesgados

e inconsistentes. El sesgo es negativo.
Notar que el problema de error en la medicin de variables es simplemente un

caso especial de variable omitida dado que podemos pensar sobre la ecuacin (37)
simplemente como :
Y = X + + % (8.41)
y en consecuencia, para usar un estimador OLS sin tomar en cuenta la variable
omitida, , esto llevar a estimadores sesgados para las variables incluidas ,X
donde :
2 = + Cov(X, )
E() (8.42)
V ar(X)
8.6.2. Variables Proxy

La estimacin por IV est tambin cercanamente relacionado con el caso donde
necesitamos encontrar variables apropiadas para aproximar para nociones tericas
que no tienen su contraparte emprica. Como ejemplo, si deseamos explicar las
98
ganancias (W) por educacin (E) donde no medimos educacin directamente sino
aproximadamente por los aos de colegio (S). As :
W = + E + % (8.43)
Sin embargo, suponga que la relacin entre educacin y escolaridad puede ser
descrita como sigue :
E =S+ (8.44)
as, la ecuacin estimada ser :
W = + S + (8.45)
donde = [% ]
El aspecto importante de este modelo es que a pesar de que tenga media cero,
varianza constante, serialmente independiente y no correlacionado con el error
compuesto , este error no es independiente de S. Para ver esto, asumiendo de
que E() = 0 podemos examinar la covarianza entre y S:
Cov(, S) = E[ E()][S E(S)]

= E[% ]()
= E(2 ) (8.46)
= 2
As, dado que la covarianza entre y S es no cero, el modelo ya no es del tipo

clsico y en consecuencia el estimador de ser sesgado. Es apropiado, entonces
en nuestra estimacin sobre el efecto de la educacin sobre las ganancias usar una
estimacin por IV de la ecuacin (45). Deberiamos en consecuencia, escoger un
buen instrumento para S.
Nota : Una variabla proxy (S) no es un instrumento ( y vice versa).
8.6.3. Estimacin por IV para modelos AR con errores au-

toregresivos
Un caso especial importante donde la estimacin por IV puede ser utilizada
es en series de tiempo cuando un modelo contiene errores autoregresivos.
yt = xt + yt1 + %t (8.47)
donde % = %t1 + t
99
Estos modelos entregan estimadores sesgados e inconsistentes dado que yt1 est
estocsticamente relacionada con el trmino de error ya que :Cov(yt1 , %t1 ) $= 0
La estimacin IV puede entregar estimadores que aunque sesgados son consis-
tentes. En este caso particular, existe una eleccin obvia de instrumento: el valor
rezagado del regresor exgeno (i.e. no estocstico) en el modelo,xt1 .
Es claro ya que xt y yt estn relacionados, y entonces xt1 e yt1 tambin lo

estarn, satisfaciendo de esta forma parte de los requerimientos para ser un in-
strumento. Mas an, en este caso, no estar corelaccionado con el trmino de error
actual ya que xt1 es exgena. As, esta variable aparece como un instrumento
vlido.
8.6.4. Los Parmetros de un Sistema de Ecuaciones Si-

multneas
Quiz esta es el rea donde comnmente aparecen violaciones a la exogenei-
dad. Considere el siguiente sistema de oferta y demanda con equilibrio :
q d = 1 p + 2 y + %d (8.48)
q S = 1 p + %s
qd = qs = q
Se asume que :
E(%dt ) = E(%st ) = 0
E(%2dt ) = d2
E(%2st ) = s2
E(%st , %dt ) = 0
E(%st , yt ) = E(%dt , yt ) = 0 (8.49)
resolviendo el sistema para p y q usando la condicin de equilibrio, se llega a que:
2 y (%d %s )
p= + (8.50)
(1 1 ) (1 1 )
2 y 1 %d 1 %s
q = 1 + (8.51)
(1 1 ) (1 1 )
Ahora suponga que deseamos estimar los parmetros de la funcin de demanda
(48). Uno de los requerimientos del modelo de regresin clsico es que los regre-
sores de la ecuacin no estn correlacionados con el trmino de error. En el caso
de la ecuacin de demanda (48) esto significa que :
Cov(p, %d ) = 0
100
No obstante, notar de que :
Cov(p, %d ) = E[p E(p)][%d E(%d )]

( )
2 y (%d %s ) 2 y
Cov(p, %d ) = + %d
(1 1 ) (1 1 ) (1 1 )
d2
Cov(p, %d ) = (8.52)
(1 1 )
lo que claramente viola el supuesto de que la covarianza de los regresores con
el trmino de error sea cero. As la estimacin por OLS entregar estimadores
sesgados para los parmetros de p en la ecuacin estructural con el fin de estimar
la elasticidad precio de la demanda a partir de una ecuacin de q regresionada
sobre p y y. Mas an, el estimador OLS es tambin inconsistente de tal manera
que el problema no puede ser solucionado al aumentar el tamao de la muestra.
Intuitivamente, el sesgo en la ecuacin simultnea surge pues ambos, p y q

son variables estocsticas determinadas conjuntamente. Dado que estas variables
endgenas estn todas correlacionadas, no es posible identificar el nico efecto
de p sobre q en (48) dado que p el mismo, es una funcin de q y de los mismos
trminos de error estocsticos. Es claro que a pesar de que podemos estimar este
modelo, nuestro mtodo debe tener en cuenta est dependencia conjunta de la
variables endgenas entre ellas y sobre los errores estocsticos comunes.
8.7. Una Prueba de Correlacin entre los Regre-

sores y el Trmino de Error : Test de Haus-
man
Como podemos saber si existe un problema de simultaneidad ? . Jerry Haus-
man ("Specification Test in Econometrics", Econometrica, Noviembre 1976) sug-
iere una prueba especialmente diseada para el caso de errores en la medicin
de las variables. No obstante, esta prueba es una general para los casos donde
deseamos probar sobre la covarianza estocstica entre el trmino de error y el
(los) regresor (res). La prueba asume que:
H0 no existe el problema de regresores estocsticos
HA existe un problema significativo de regresores estocsticos.

Bajo la nula tanto 2OLS como 2IV son insesgados y consistentes, pero el estimador
OLS es eficiente (y BLUE en el caso del modelo lineal) mientras que el estimador
IV es ineficiente (ver (29)). Bajo la hiptesis alternativa, slo 2IV es consistente.
101
As, resulta relativamente simple construir una prueba en torno a este hecho.
En consecuencia, deseamos probar la nula de que :
H = plim[2OLS 2IV ] = 0 (8.53)
Dada la inconsistencia de 2OLS ante la presencia del problema de regresin es-
tocstica, entonces H no ser cero. Un valor significativo de H generar el rechazo
de la nula.
Para calcular este estadstico, necesitamos expresiones para la varianza asinttica

de ambos estimadores, 2OLS y 2IV . Para el caso de IV simplemente utilizamos
(29) el cual denotaremos V1 , mientras que para el caso del OLS definiremos
:V0 = 2 (X % X)1 como la formula estndar para la varianza del estimador OLS.
En consecuencia, el estadstico se define como sigue :
W = [2OLS 2IV ]% [V1 V0 ]1 [2OLS 2IV ] 2k (8.54)
donde W es una prueba del tipo Wald la que se distribuye chi-cuadrado con k
grados de libertad donde k es el nmero de parmetros que han sido estimados.
Notar de que para realizar esta prueba necesitamos ambos estimadores, el OLS
y el IV.
8.8. Aplicaciones y Aspectos asociados a la esti-

macin por Variables Instrumentales (IV)
Identificando Instrumentos Validos
La identificacin de Instrumentos vlidos es bastante difcil. Comnmente para
encontrar un instrumento el que est no correlacionado con el error, el investi-
gador deber escoger variables cuya correlacin con la variable de inters X, es
baja. Aunque estas variables seguirn siendo un instrumento vlido, no sern muy
eficientes.
Ello puede verse en (29) el que muestra que mientras ZX decrece, la varianza
asinttica del estimador IV crecer. Ante la ausencia de buenos instrumentos, los
investigadores pueden seguir prefiriendo estimar usando OLS en vez de IV pues
aunque sesgado e inconsistente, puede tener menores errores cuadrticos medios.
Sobreidentificacin
Si hay menos instrumentos que variables explicativas endgenas entonces el mod-
elo est sub-identificado (i.e. el estimador IV no existe). Si existe el mismo
nmero de instrumentos que las variables problema, el modelo est identifica-
do exactamente. Si hay mas instrumentos que los necesarios, el modelo est
102
sobre-identificado. Esta ltima situacin es muy atractiva. Sobre identificacin
entregar generalmente un mayor grado de precisin en los estimadores pero
tambin entrega la oportunidad de llevar adelante pruebas sobre la validez de los
instrumentos.
Multiples Instrumentos
Si Z es un instrumento vlido y W tambin es un instrumento vlido entonces
una combinacin lineal entre Z y W tambin ser un instrumento vlido. Dado
que, a partir de (29) la varianza del estimador IV es menor mientras mayor es el
grado de correlacin entre el instrumento y la variable que se est instrumentan-
do, entonces debera resultar claro de que deberamos elegir aquella combinacin
lineal que tenga la mas alta correlacin con X. Este instrumento es simplemente
el valor ajustado de X regresionado sobre Z y W
V = 21 Z + 22 W (8.55)
donde V tiene la propiedad de toda variable instrumental : no est correlacionada

con % ya que Z y W no lo estn y est correlacionada con X (por el modelo de
regresin). Esta forma de estimacin se conoce como Estimacin por Variable In-
strumental Generalizada (GIVE : Generalized Instrumental Variable Estimation).
Notar que si X es un vector de variables pero slo se necesita instrumentalizar
una de las variables en X la regresin GIVE en (55) puede tambin incluir las
otras variables en X como instrumentos.
Pruebas de Sobre-identificacin
Suponga que tenemos Z (n x k) instrumentos donde X es una matriz (n x k) con
k>k. Si definimos la matriz de proyeccin como :
Pz = Z(Z % Z)1 Z %
Entonces el estimador IV es :
2IV = (X % Z(Z % Z)1 Z % X)1 X % Z(Z % Z)1 Z % Y

2IV = (X % PZ X)1 X % Pz Y (8.56)
y, bajo los supuestos estndar, se tiene que:
V ar(2IV ) = (X % Pz X)1 (X % Pz% DPz X)(X % Pz X) (8.57)
donde D = 2 I si los residuos son homoscedasticos. Cuando k % > k la validez de

los instrumentos est avalada al calcular una prueba de sobre identificacin (OID).
El mtodo bsico (Davidson y McKinnon pp 232) implica regresionar los residuos
103
IV (es decir los residuos 2SLS de la segunda etapa) sobre la matriz de instru-
mentos. El estadstico T R2 (donde T es el tamao de la muestra) tiene una
distribucin chi-cuadrado con k % k grados de libertad bajo la nula de que los
instrumentos slo afectan la variable dependiente a travs de su rol en la predic-
cin los regresores (endgenos).
Si la nula es rechazada ello implica que los instrumentos juegan un rol directo so-
bre Y , en vez de simplemente a travs de su rol de predecir X y en consecuencia,
deberan ser regresores en el modelo en vez de ser tratados simplemente como
instrumentos.
104
Captulo 9
Sistemas de Ecuaciones:
Endogeneidad y Modelos de
Sistemas de Ecuaciones
9.1. Resumen
1. Introduccin a los Sistemas de Ecuaciones
2. El Problema de la Identificacin
3. Sistemas Especiales:
Modelo de Regresin Aparentemente no Relacionadas (SUR)
Sistemas Recursivos
4. Estimacin
Mtodos de Estimacin con Informacin Limitada (ILS y 2SLS)
Mtodos de Estimacin con Informacin Completa (3SLS y FIML)
9.1.1. Referencias
Kmenta Captulo 13
Bernt Captulo 10
Gujarati Captulo 17
Grenne Captulo 20
105
9.2. Introduccin
Hasta el momento nos hemos concentrado en ecuaciones individuales sobre la
conducta econmica. En la practica, sin embargo, muchos fenmenos econmicos
se describen utilizando modelos los que consisten en ecuaciones simultneas. Ello
pues dado el hecho de la violacin del supuesto de exogeneidad dbil, no podemos
realizar una descripcin acerca de la evolucin de las variables de inters en el
vector z mediante el uso de modelos uniecuacionales sin la prdida de informacin.
Considere el vector z = y, x, w donde w es un vector de variables exgenas fuerte.

Como ya hemos visto, si x es un vector de variable dbilmente exgeno, podemos
entonces expresar la distribucin conjunta como :
D(zt |zt1 ; ) = D(yt |xt , wt , zt1 ; 1 )D(xt |wt , zt1 ; 2 )
y estimar el vector de parmetros 1 de manera eficiente utilizando un estimador

uniecuacional. Sin embargo, si y y x son conjuntamente determinados (i.e. end-
genas) entonces la factorizacin de la distribucin conjunta ser la siguiente :
D(zt |zt1 ; ) = D(yt |xt , wt , zt1 ; 1 )D(xt |wt , yt , zt1 ; 2 )
En la clase anterior vimos que podramos controlar por la endogeneidad de xt me-

diante el uso del estimador por Variables Instrumentales (IV). Pero en variadas
circunstancias necesitaremos usar nuestro modelo para entender la estructura in-
herente de la relacin conjunta entre y y x (i.e. estaremos interesados en los dos
vectores de estimadores 1 y 2 ). En consecuencia, necesitaremos mtodos de
estimacin para el vector completo de parmetros el que considere la simultanei-
dad entre x e y.
En la literatura economtrica tipicamente denominamos a estos modelos como

sistemas. En estas notas de clases entregaremos una introduccin a los aspectos
economtricos asociados con la estimacin de sistemas. Los aspectos que veremos
son aplicables tanto sistemas pequeos ( p.ej. un sistema con slo dos ecuaciones)
como tambin a grandes sistemas macro-economtricos que son aplicados por los
gobiernos para predecir variables macro relevantes los que superan largamente las
cien ecuaciones.
106
9.3. Introduccin a los Sistemas de Ecuaciones
El sistema de ecuaciones mas general puede ser descrito de la siguiente forma
genrica :
11 yt1 + 21 yt2 + ........ + m1 ytm + 11 xt1 + ..... + k1 xtk = %t1

12 yt1 + 22 yt2 + ........ + m2 ytm + 12 xt1 + ..... + k2 xtk = %t2
.. .
. = .. (9.1)
1m yt1 + 21 yt2 + ........ + tm ytm + 1m xt1 + ..... + km xtk = %tm
En este sistema hay M ecuaciones y M variables endgenas (y1t .....ytm ). Existen

adems K variables exgenas (xt1 ...xtk ). Una de las variables y en cada ecuacin
es denominada como la variable dependiente de esa ecuacion y en consecuencia
el beta que lo acompaa ij puede ser igualado a 1.
Byt + xt = %t (9.2)
donde la dimensin de y es (M x1), la de B es (M xM ), la de es (M xK), la

de x es (Kx1) y la de %t es (M x1). La ecuacin (2) es normalmente denotada
como la forma estructural del sistema y es la forma (estocstica) que corresponde
al modelo econmico terico inherente en l. En general, nuestro inters estar
centrado sobre la forma estructural y el vector de parmetros y .
La segunda forma bajo la cual el sistema en (1) puede ser expresado es referi-
da como la forma reducida la cual expresa la variables endgenas del modelo
solamente en funcin de las variables exgenas y el trmino de error. La forma
reducida se deriva al premultiplicar (2) por B 1 y al rearreglar obtenemos :
yt = B 1 xt + B 1 %t
yt = xt + t (9.3)
La parmetros de la forma reducida corresponden a multiplicadores asociados con

el modelo. En otras palabras, ellos miden las consecuencias ltimas en la variables
endgenas del modelo de una perturbacin en las variables exgenas del modelo,
una vez que todos los efectos simultneos de feed back entre las variables han
operado en el sistema.
Si asumimos que E(%t ) = 0 y que adems E(%t %%t ) = la cual es la matriz

estructural de varianzas-covarianzas se sigue que si t = B 1 %t :
E(t% ) = E(B 1 )E(%%t ) = 0

E(t t% ) = B 1 B 1 = (9.4)
107
la cual es la matriz de varianzas-covarianzas de la forma reducida del
sistema en (1).
En la prctica, sistemas de ecuaciones simultneas son estimados en su forma

reducida (sin restriccin) definida en (3). Ello levanta al menos dos preguntas
importantes para el investigador :
1. Cules estimadores son vlidos para estimar un sistema con una estructura
como la definida en (3) ?
2. Habiendo estimado los parmetros de la forma reducida del modelo, (i.e. la
ecuacin (3)), es posible recuperar los parmetros de las ecuaciones en el
modelo estructural ?.
Ello tpicamente generar definir restricciones"sobre las ecuaciones del modelo
reducido.
9.4. El Problema de Identificacin

Primero describiremos las formas de contestar la segunda de las preguntas de-
scritas en el prrafo anterior donde el problema radica en encontrar los parmetros
de la forma estructural a partir de aquellos estimados en la forma reducida, de-
jando para mas adelante el tema propio de la estimacin de los mismos.
Este aspecto se conoce como el problema de la identificacin. Es importante

notar que la identificacin no es un problema estadstico sin que uno matemtico
y tiene que ver con la especificacin del modelo aunque existen algunas soluciones
estadsticas para este problema.
Existen a lo menos tres situaciones que podemos encontrar con respecto al sistema
que estamos estimando. Una ecuacin puede estar :
1. No Identificada (o sub identificada)
2. Exactamente Identificada ( o completamente identificada)
3. Sobre Identificada
Por analoga con el concepto en matemticas, un sistema de ecuaciones simultneas
slo puede ser resuelto si dichas ecuaciones estn completamente determinadas.
La identificacin es el problema anlogo en estadstica. Es importante notar que
el concepto de identificacin se aplica ecuacin por ecuacin y as se puede en-
contrar el caso de que una ecuacin est completamente identificada y que otras
ecuaciones del mismo sistema no lo estn.
108
9.4.1. Cuatro Ejemplos
Caso A : Sub Identificain Considere el siguiente modelo estructural
qd = 0 + 1 p + %d (9.5)
qs = 0 + 1 p + %s
donde q y p son variables endgenas. La forma reducida de este sistema (asum-

iendo que expost qs = qp = q) puede ser escrito de la siguiente forma :
p = 0 + t (9.6)
q = 1 + t
(0 0 ) ($s $d ) (1 0 0 1 ) (1 $s 1 $d )
donde 0 = (1 1 )
, t = (1 1 )
, 1 = (1 1 )
y t = (1 1 )
Existen cuatro coeficientes estructurales (0 , 1 , 0 , 1 ) pero slo dos coeficientes

de la forma reducida ( 0 , 1 ). As no existe suficiente informacin en la forma
reducida para recobrar los parmetros del sistema estructural. Se necesita de in-
formacin adicional para distinguir los movimientos en la curva de demanda de
aquellos en la curva de oferta.
Caso B :Identificacin Exacta en la Funcin de Oferta
Considere el siguiente sistema donde y denota ingreso :
qd = 0 + 1 p + 2 y + %d
qs = 0 + 1 p + %s (9.7)
La forma reducida de este sistema puede ser escrita de la siguiente manera :
p = 0 + 1 y + t
q = 2 + 3 y + t (9.8)
(0 0 ) (1 0 0 1 )
donde 0 = (1 1 )
, 1 = 2
(1 1 )
, 2 = (1 1 )
, 3 = 2 1
(1 1 )
,
($s $d ) (1 $t 1 $d )
t = (1 1 )
, y t = (1 1 )
Las ecuaciones estructurales en (7) tienen 5 coeficientes estructurales (0 , 1 , 2 , 0 , 1

) pero slo cuatro coeficientes existen el la forma reducida (0 , 1 , 2 , 3 ). Sin em-
bargo, es posible identificar exactamente la funcin de oferta dado que podemos
obtener a partir de los coeficientes de la forma reducida lo siguiente :
0 = 2 1 0 1 = 31
109
Caso C : Identificacin Exacta de las Funciones de Oferta y Demanda
Llevando el argumento un paso mas all podemos notar que un sistema de la
forma :
qd = 0 + 1 p + 2 y + %d (9.9)
qs = 0 + 1 p + 2 pt1 + %s
tiene una forma reducida de la siguiente forma :
p = 0 + 1 y + 2 pt1 + t (9.10)
q = 3 + 4 y + 5 pt1 + t
Donde ahora existen 6 coeficientes estructurales y 6 coeficientes reducidos. Ahora

ambas ecuaciones pueden ser identificadas (demostrarlo)
Caso D : Sobre Identificacin
Finalmente, si el sistema fuese :
qd = 0 + 1 p + 2 y + 3 R + %d
qs = 0 + 1 p + 2 pt1 + %s (9.11)
entonces la forma reducida de este sistema tendra la siguiente forma :
p = o + 1 y + 2 pt1 + 3 R + t
q = 4 + 5 y + 6 pt1 + 7 R + t (9.12)
En este caso, tenemos 7 coeficientes estructurales y 8 coeficientes reducidos. Ex-

iste "demasiada"informacin para identificar nicamente ambas ecuaciones del
modelo. Como veremos mas adelante esto no representa un terrible problema.
9.4.2. Formalizando el Problema de la Identificacin

Es relativamente sencillo pero tedioso determinar el tipo de identificacin en
sistemas simples donde existen slo dos ecuaciones, como el que hemos visto.
No obstante, podemos formalizar el proceso de identificacin para sistemas de
ecuaciones de cualquier dimensin. Existen dos condiciones para identificacin,
la condicin de orden, la cual es una condicin necesaria, y la condicin de
rango, la cual es una condicin suficiente. La razn de porqu no slo tratamos
la condicin de rango es que es generalmente fcil chequear la condicin de orden
pero es mas tedioso chequear la de rango).
110
Para un sistema cualquiera podemos asumir :
M: nmero de variables endgenas en el sistema
m: nmero de variables endgenas en la ecuacin
K: nmero de variables pre-determinadas (exgenas y endgenas rezagadas) en
el sistema.
k: nmero de variables pre-determinadas (exgenas y endgenas rezagadas) en la
ecuacin.
Definicin 1 : La Condicin de Orden

En un modelo de M ecuaciones simultneas, para que cada ecuacin pueda ser
individualmente identificada se debe cumplir que el nmero de variables pre-
determinadas excluidas de la ecuacin debe ser mayor o igual que el nmero de
variables endgenas incluidas en la ecuacin, menos 1.
As, una ecuacin est identificada si K - k >= m - 1
Si encontramos que K - k <m - 1 la ecuacin est sub identificada

Si encontramos que K - k = m - 1 la ecuacin est exactamente identificada
Si encontramos que K - k >m - 1 la ecuacin est sobre identificada.
Podemos aplicar esta definicin para el ejemplo anterior de demanda y oferta de
mercado donde M = 2.
Caso A : K = 0
Funcin de Demanda : m-1=1 y K-k=0 Sub identificado
Funcin Oferta : m-1=1 y K-k=0 Sub identificado
Caso B K = 1
Funcin de Demanda : m-1=1 y K-k=0 Sub identificado
Funcin Oferta : m-1=1 y K-k=1 Identificado Exacta
Caso C K = 2
Funcin de Demanda : m-1=1 y K-k=1 Identificado Exacta
Funcin Oferta : m-1=1 y K-k=1 Identificado Exacta
Caso D K = 3
Funcin de Demanda : m-1=1 y K-k=1 Identificado Exacta
111
Funcin Oferta : m-1=1 y K-k=2 Sobre identificado
As en un sistema con slo dos variables endgenas, una ecuacin estar identifi-
cada si dicha ecuacin excluye una o mas variables las cuales estn presentes en
otra parte en el modelo. La condicin de orden es, no obstante, una condicin
necesaria pero puede que no sea suficiente. Lo anterior pues las variables pre-
determinadas excluidas de la ecuacin en anlisis pero presente en otra aparte
del sistema puede que no sea independiente. Una forma de chequear esto es me-
diante el uso de la condicin de rango.
Definicin 2. La Condicin de Rango

En un modelo que tiene M ecuaciones con M variables endgenas, una ecuacin
estar identificada si y solo si la matriz construida a partir de los coeficientes
de las variables (endgenas y pre- determinadas) excluidas de esa ecuacin en
particular pero incluida en otras ecuaciones del modelo, tiene rango M - 1.
En sistemas simples es usualmente mas facil si esta condicin de rango es satis-

fecha. Cuando el sistema es complejo la cosa es mas difcil. El rango de la matriz
puede ser chequeado al calcular el orden de su determinante. El siguiente mtodo
es una forma para comprobar fcilmente las condiciones de rango y orden en un
sistema de ecuaciones.
Ejemplo
y1t 10 12 y2t 13 y3t 11 x1t = 1t (9.13)

y2t 20 23 y3t 21 x1t 22 x2t = 2t (9.14)
y3t 30 31 y3t 31 x1t x2t = 3t (9.15)
yt4 40 41 y1t 42 y2t 43 x3t = 4t (9.16)
No es tan obvio al solo mirar el sistema si las cada una de las ecuaciones estn
identificadas o n. Veamos la condicin de orden. Notar que M=4 y K=3.
Ecuacin (K-k) (m-1) Identificacin (orden)

(13) 2 2 Exacta
(14) 1 1 Exacta
(15) 1 1 Exacta
(16) 2 2 Exacta
De acuerdo a la condicin de orden, todas las ecuaciones estn exactamente iden-

tificadas. No obstante, si examinamos la condicin de rango los resultados sern
112
un poco diferentes. Para facilitar el anlisis es conveniente escribir el sistema bajo
esta otra forma.
Ecuacin 1 y1 y2 y3 y4 x1 x2 x3
(13) 10 1 12 13 0 11 0 0
(14) 20 0 1 23 0 21 22 0
(15) 30 31 0 1 0 31 32 0
(16) 40 41 42 0 1 0 0 43
Consideremos la primera ecuacin (13). Esta ecuacin excluye y4 , x2 yx3 . De esta
manera deberemos calcular el determinante a partir de los coeficientes de esta
variables en las dems ecuaciones.
La matriz de coeficientes es la siguiente :

0 22 0
A = 0 32 0 (9.17)
1 0 43
El determinante de esta matriz es cero lo que implica que la ecuacin (13) no est
identificada. El rango de la matriz de coeficientes excluidos determina el nmero
de variables independientes excluidas de la ecuacin en cuestin pero incluidas
en el resto del sistema. Debera quedar claro cmo esto est relacionado con la
condicin de orden. Las condiciones de orden determinan el nmero de variables
explicativas excluidas de la ecuacin mientras que la condicin de rango determi-
na si estas son variables independientes.
Continuando con el chequeo de la condicin de rango podemos notar que (14)

y (15) tambin fallan el la prueba de rango (prubelo usted mismo) pero (16)
tiene rango completo. As, (16) excluye y3 , x1 y x3 y en consecuencia, la matriz
de coeficientes de variables excluidas correspondiente es :

13 11 0
A = 23 12 22 (9.18)
1 31 32
La cual tiene rango 3 que es igual a M-1. Entonces (16) est exactamente identi-
ficada.
9.4.3. Qu hacer si las Ecuaciones No estn Identificadas

Suponga que una ecuacin no est identificada. Qu deberamos hacer ?. Ex-
iste una variada gama de posibilidades las que son a menudo utilizadas. La prin-
cipales son las siguientes :
113
1. Ignorar el problema y concentrarse slo en la estimacin de la forma reduci-
da. Esto puede ser satisfactoria pero depender de las circunstancia de la
investigacin
2. El uso de identidades. En algunos modelos, definiciones de variables o condi-

ciones de equilibrio impliquen que todos los coeficientes en una ecuacin en
particular son conocidos.
3. Exclusin de Variables (la forma mas comn de proceder). La omisin de

variables de una ecuacin es equivalente a poner ceros en las matrices b. En
el ejemplo anterior, podemos pensar que las diferencia entre las funciones
de oferta entre el caso D y el caso C es que en C es simplemente la anterior
con una exclusin de cero para la variable R en la funcin de demanda.
Esta restriccin significa que la funcin de oferta es identificada en C pero
no en D. En la prctica, muchos sistemas parten desde una forma reducida
sobre-identificada (la cual ocurre cuando todas las "posibles"variables son
incluidas en todas las ecuaciones del sistema) y entonces el proceso de iden-
tificacin est relacionado con el hallazgo y justificacin de restricciones a
los parmetros los que identifiquen las ecuaciones del modelo.
4. Restricciones Lineales. Esto es equivalente al caso de exclusin de variables

pero impone en este caso restricciones entre ecuaciones. Por ejemplo, en
modelos de funcin de produccin es a menudo imposible distinguir los
efectos de la tecnologa de aquellos efectos derivados de los retornos a la
escala. Una solucin adoptada es imponer retornos constantes a la escala
en la funcin de produccin para poder as identificar los efectos de la
tecnologa.
9.4.4. La prueba de la Validez de la Restricciones de Iden-

tificacin
Es claro de que pueden existir una gran variedad de restricciones que pueden
ser empleadas para identificar un modelo. La eleccin acerca de la restriccin
para la identificacin impuesta sobre la forma reducida es arbitraria pero gen-
eralmente basada en aspectos tericos (o por la desesperacin!). Sin embargo, las
consecuencias ( en un sentido estadstico ) al imponer una condicin en particu-
lar pueden ser testeadas usando una prueba de Razn de Verosimilitud (LR test).
La intuicin detrs de esta prueba es que la estimacin mnimo cuadrtica de la

forma reducida maximiza la verosimilitud de la funcin multivariada. Al imponer
restricciones (para la identificacin) sobre el modelo se reduce esta verosimilitud,
la cual puede ser pensada como una reduccin en la informacin contenida en el
114
modelo. Un estadstico de LR puede ser utilizado para medir si las restricciones
impuestas para la identificacin reducen significativamente la verosimilitud de los
parmetros de la forma estructural .
LR = 2(log Lr log Lu) 2[k]
donde Lr es la verosimilitud del modelo con las restricciones de identificacin
impuestas y K es el nmero de restricciones impuestas sobre el modelo.
9.5. Estimacin por el Mtodo de Ecuaciones Aparente-

mente No Relacionadas (SURE)
Considere el siguiente sistema el cual es una versin mas restringida de aquel
presentado en (1)
yt1 + 11 xt1 + .......k1 xtk = %t1
yt2 + 12 xt1 + .......k2 xtk = %t2
.
. (9.19)
.
ytm + 1m xt1 + .......km xtk = %tm
donde los valores del vector X vara a travs de los m miembros. El aspecto clave
de este sistema es que pareciera que fuese un conjunto apilado de modelos de
regresin clsicos dado que en cada ecuacin y es una funcin slo de variables
exgenas. Sin embargo, podemos estimar (19) utilizando OLS slo bajo la condi-
cin de que no exista covarianzas entre ecuaciones en la estructura de error del
sistema. En otras palabras, asumimos que :

11 12 . . . . . . 1m
21 . . . . . . . . . 2m
. .. .. .. ..
.
E(%% ) = = .
%
. . . . = (9.20)
. . . . .
.. .. .. .. ..
m1 . . . . . . . . . mm

11 0 0 0 0
0 22 0 0 0
.. ..

0 0 . 0 . = i2 I
. .. .. .. ..
.. . . . .
0 0 0 0 mm
115
No obstante, si existe una restriccin entre ecuaciones entonces la estimacin OLS
del sistema no es aplicable y debemos utilizar un FGLS. El estimador FGLS que
se utiliza en este caso se denomina Estimador de Ecuaciones Aparentemente NO
Relacionadas (SURE).
2sure = [X %
3 1 X]1 X %
3 1 y (9.21)
donde, como siempre, el FGLS requiere de una estimacin de (denotada por

el tilde ). Existe una variedad de mtodos para hacer esto donde la mayora
de ellos est basado en una estimacin en dos etapas. En la primera etapa cada
ecuacin se estima individualmente y se guardan los residuos. Cada elemento de
la matriz de varianzas-covarianzas es estimado en consecuencia a partir de los
residuos de la siguiente forma :
1 %
2mn = Smn =
(e en )
T m
[Ver Greene, Cap. 17 para mas detalles]
9.6. Sistemas Recursivos

Tal como lo dijimos en la clase anterior, la estimacin por OLS de un sistema
entrega estimadores sesgados e inconsistentes debido a la covarianza existente
entre los errores del sistema y los regresores no es cero. No obstante, existe una
particular forma en un sistema donde no existe tal problema, el cual se denomina
sistema recursivo (o triangular).
Considere el siguiente sistema :
y1t = 10 + 11 x1t + 12 x2t + u1t (9.22)
y2t = 20 + 21 y1t + 21 x1t + 22 x2t + n2t (9.23)

y3t = 30 + 31 y1t + 32 y2t + 31 x1t + 32 x2t + u3t (9.24)
Asumiremos lo siguiente :
Cov(u1t , u2t ) = Cov(u1t , u3t ) = Cov(u2t , u3t ) = 0
Dado que (22) contiene slo variables exgenas las cuales no estn correlacionadas
con el trmino de error, el modelo est acorde con uno de regresin clsico y puede
ser estimado por OLS. Ahora bien, dado que (23) solo contiene a y1t y x vari-
ables, entonces tambin puede ser estimado por OLS si y solo s Cov(y1t , u2t ) = 0
. Esto es de hecho verdadero ya yit que est correlacionado con u1t pero ( por
116
definicin)u1t no est correlacionado con u2t . As, podemos decir que y1t est
pre-determinado con respecto a y2t . En este caso, podemos tambin utilizar OLS.
La misma lgica se aplica a (24) pues podemos mostrar que y1t , y2t ambos estn
pre-determinados con respecto a y3t .
El sistema recursivo es un sistema pero no uno simultneo dado que ya que

no existen relaciones contemporneas entre las variables endgenas ya que y1
determina a y2 pero y2 no retroalimenta a y1 .
9.7. Estimacin
Una vez estudiado el tema de la identificacin procederemos ahora al tema de
la estimacin de un sistema de ecuaciones. Existen dos grandes formas de estimar
el sistema. La primera incluye la estimacin de cada ecuacin en forma separa-
da. Esta forma se conoce como Estimacin con Informacin Limitada. La forma
alternativa sugiere la estimacin de todas las ecuaciones del sistema en forma
simultnea, la que se conoce como Estimacin con Informacin Completa.
Debera resultar claro que en general deberamos tratar de estimar el sistema

con mtodos con informacin completa , aunque en la prctica es difcil llevar a
cabo esta tarea por las siguiente razones :
(i) muchos modelos son extremadamente grandes. Por ejemplo, el modelo del
Banco Central Ingls (UK Treasury Model) tiene alrededor de 300 ecuaciones, as
la estimacin del sistema completo es un poco compleja tanto del punto de vista
estadstico como tambin del computacional.
(ii) A menudo el foco de atencin slo est en un subconjunto de ecuaciones

y as es mas fcil re estimar slo este sub conjunto.
(iii) Si una de las ecuaciones est mal especificada, el uso de mtodos con in-
formacin limitada no permite que este error se propague al resto de las estima-
ciones. Por el contrario, si se utilizan mtodos con informacin completa, un error
de especificacin en una ecuacin se propagar a todo el sistema.
9.7.1. Mtodos de Estimacin con Informacin Limitada

(ILS y 2SLS)
Mnimos Cuadrados Indirectos (ILS)
117
Este mtodo slo se puede aplicar a modelos que estn exactamente identifi-
cados. El mtodo de ILS es muy simple y sigue la discusin del problema de la
identificacin. Si una ecuacin est exactamente identificada entonces podemos
encontrar los estimadores de la forma reducida los que son insesgados y luego
consistentes. A partir de ellos podremos obtener los parmetros estructurales los
que sern, sin embargo, segados pero consistenmtes. El procedimiento es como
sigue :
(i) Obtenga las ecuaciones de la forma reducida del modelo donde cada ecuacin
para las variables endgenas son funcin solamente de las variables exgenas.
(ii) Estime las ecuaciones de la forma reducida por OLS en forma individual.
Dado que todas las variables independientes de la forma reducida son exgenas,
por definicin plimcov(X, u) = 0, y as el estimador por ILS entregar estimadores
consistentes de los coeficientes de la forma reducida (asumiendo que otros prob-
lemas de especificacin estn ausentes).
(iii) Dado que las ecuaciones estn exactamente identificadas, los coeficientes
estructurales pueden ser recuperados directamente de los coeficientes de la forma
reducida.
Considere el siguiente sistema de mercado :
Qt = 0 + 1 Pt + 2 Xt + u1t Demanda (9.25)

Qt = 0 + 1 Pt + u2t Of erta (9.26)
Note que M = 2 y K = 1. En este caso la funcin de oferta est completamente

identificada y la de demanda esta sub identificada ( prubelo usted mismo!!).
Paso 1
Las ecuaciones de la forma reducida son las siguientes :
Pt = 0 + 1 Xt + t (9.27)
Qt = 2 + 3 Xt + vt (9.28)
donde :
0 0 (1 0 0 1 )
0 = 2 =
(1 1 ) (1 1 )
2 2 1
1 = 3 = (9.29)
(1 1 ) (1 1 )
118
A partir de estos coeficientes podemos derivar los coeficientes de la funcin de
oferta donde :
3
0 = 2 1 0 1 =
1
No obstante, no es posible derivar valores nicos para 0 , 1 , 2
Paso 2
A partir de (27) y (28) los parmetros de la forma reducida pueden ser estimados
como sigue :
$
2 1 = $Xt Pt lo que implica 20 = P 2 1X (9.30)
Xt2
$
2 3 = $Xt Qt lo que implica 22 = Q 2 3X (9.31)
Xt2
Estos coeficientes son consistentes los que pueden ser utilizados para derivar esti-
madores consistentes de los coeficientes estructurales (slo de la funcin de oferta).
Es importante notar que a pesar de que los estimadores ILS son consistentes
ellos son sesgados. Veamos esto para el caso de 21 . De (30) y (31) despus de un
poco de algebra tenemos que :
23 $
2 Qt Xt
1 = = $ (9.32)
21
Pt Xt
Podemos sustituir de (27) y (28)
2 1 Xt + (t )
Pt = 2 3 Xt + (vt v)
Qt =
y sustituyendo estas expresiones en (33) tenemos que :
93 $ Xt2 + $(vt v)Xt

93 + $(vt v)Xt / $ Xt2

2
1 = $ 2 $ 2 = (9.33)
9
1 Xt + (t )Xt 91 + $(t )Xt / $ Xt2

el cual es consistente pero sesgado (dado que X es estocstica).
Mnimos Cuadrados en Dos Etapas (2SLS)
Si las ecuaciones del sistema estn sobre identificadas (recuerden que esto puede
ser bastante posible), ILS no puede ser usado dado que no existir un nico
mtodo para derivar las ecuaciones estructurales. Obviamente OLS no puede ser
utilizado pues los estimadores sern inconsistentes. Un estimador alternativo es
119
el estimador mnimo cuadrtico en dos etapas (2SLS) el cual es una versin de el
Estimador por Variables Instrumentales.
Considere el siguiente sistema :
y1t = 10 + 12 y2t + 11 x1t + 12 x2t + u1t (9.34)

y2t = 20 + 21 y1t + u2t (9.35)
Utilizando los mtodos de identificacin podemos notar que la primera ecuacin

est sub-identificada y que la segunda ecuacin est sobre-identificada.
Consideremos la segunda ecuacin. No podemos utilizar aqu ni ILS ni tampoco

OLS dado que la variables y1t es estocstica (i.e. la covarianza entre y1t y u2t
no es cero). Este es exactamente el problema que la estimacin por IV trata de
solucionar. En el caso de un sistema la solucin del problema, i.e. la eleccin de
los instrumentos, es bastante directa : escoger simplemente las variables exgenas
y pre determinadas en el sistema. As :
Paso 1
Para superar el problema de la correlacin entre y1t y u2t regresionamos y1t so-
bre todas las variables exgenas y pre determinadas del sistema. As corremos la
siguiente regresin :
y1t = 0 + 1 x1t + 2 x2t + et (9.36)
Esto produce :
20 +
y21t = 2 1 x1t +
2 2 x2t (9.37)
A partir de (36) y (37) tenemos que :
y1t = y21t + et (9.38)
el cual expresa el regresor endgeno en (35) como la suma de dos trminos. El

primero como una combinacin lineal de dos regresores exgenos no estocs-
ticos (x1t , x2t ) y el segundo un trmino de error. As, la regresin en (36) ha
"limpiado"y1t de su componente estocstico.
Paso 2
Ahora podemos sustituir el lado derecho de (38) en la ecuacin original, sobre
identificada (35) de tal manera que tenemos lo siguiente :
y2t = 20 + 21 (2
y1t + et ) + u2t (9.39)
= 20 + 21 y21t + (21 et + u2t )
120
= 20 + 21 y21t + et
As entonces, aunque y1t est correlacionada con u2t , su instrumento y21t est
asintticamente no correlacionado con el trmino de error et . Una estimacin
mnimo cuadrtica de (39) entregar estimadores sesgados pero consistentes de
20 y 21 . Note que el estimador OLS aplicado directamente a la forma reducida
entrega tambin valores sesgados pero inconsistentes.
Algunos Aspectos del Estimador 2SLS

La principal caracterstica del estimador 2SLS es que entrega estimadores estruc-
turales consistentes de una manera directa (lineal) y de fcil aplicacin pues al
ser ecuacin-por-ecuacin se puede trabajar en sistemas con un gran nmero de
ecuaciones (sobre identificadas). Eso s presenta ciertos problemas.
Primero, a pesar de ser consistentes, los estimadores 2SLS son sesgados en mues-
tras finitas y en consecuencia, inferencia realizada a partir de ellos para sistemas
con pequeas muestras puede ser problemtico. Segundo, dado que los coeficientes
de la forma estructural son estimados directamente usando 2SLS, los errores es-
tndar de las ecuaciones estructurales son obtenidos de la misma forma. Sin
embargo, debe notarse que :
et = (21 et + u2t )
y en consecuencia,
V ar(et ) $= V ar(u2t )
Especficamente, a menos de que Cov(21 , et ) sea cero, entonces la varianza del
error en el estimador por dos etapas ser V ar(et ) > V ar(u2t ) . Y as, la varianza
del estimador 2SLS es consistente pero asintticamente ineficiente.
9.7.2. Mtodo de Estimacin con Informacin Competa

(3SLS y FIML)
Hasta el momento, la estimacin ecuacin-por-ecuacin con informacin lim-
itada produce estimadores consistentes pero asintticamente ineficientes. La ine-
ficiencia surge en parte por el hecho de que los mtodos con informacin limitada
ignoran la correlacin de los errores entre las ecuaciones. Consideraremos dos tipos
de estimadores - los que se denominan estimadores con Informacin Completa -
los que utilizan toda la informacin del sistema al mismo tiempo. La principal
consecuencia de ello es la obtencin de varianzas asintticas menores y con ello,
estimaciones mas eficientes de los parmetros estructurales. No obstante, como
se mencion, con una de las ecuaciones que est mal especificada, toda la esti-
macin estar mal especificada utilizando estos mtodos. As, existe claramente
121
un trade-off entre los estimadores con informacin competa y aquellos con infor-
macin limitada.
La estimacin con informacin completa es significativamente mas compleja. De-

scribiremos cada mtodo en forma general, no obstante un anlisis en detalle
puede ser encontrado en el captulo 20 del Greene .
Mnimos Cuadrados en Tres Etapas (3SLS)
El mtodo de 3SLS es la contraparte sistmica del 2SLS. Consiste en aumen-

tar el mtodo de ecuacin-por-ecuacin del 2SLS al calcular los vnculos entre
los errores en cada ecuacin y en seguida utilizar estos errores calculados para re
-estimar el sistema como un todo. El mtodo consiste en los siguientes pasos :
1. Calcular el estimador 2SLS para las ecuaciones identificadas en forma indi-

vidual.
2. Usar los estimadores 2SLS para estimar los errores de las ecuaciones es-
tructurales y luego utilizar estos errores para estimar la matriz de varianza-
covarianza de todos los errores de cada ecuacin estructural. La matriz de
varianza-covarianza representa los errores entre ecuaciones (cruzados) del
sistema. La matriz de varianza-covarianza se calcula a partir de los errores
estimados para cada ecuacin en forma separada utilizando las formulas de
calculo estndar.
3. Re estime las ecuaciones ombinadasomo un sistema nico donde el sis-

tema consiste en todas las ecuaciones identificadas y la matriz de varianza
covarianzas estimadas en la etapa anterior. Esta tercera etapa se realiza
utilizando la edstimacin por mnimos cuadrados generalizados factibles.
La estimacin por 3SLS producir estimadores mas eficientes de lkos parmetros

del modelo estructural pues emplea informacin sobre los errores cruzados en-
tre ecuaciones del sistema. Notar de que si no existen errores cruzados entre las
ecuaciones entonces la matriz de varianzas-covarianzas no tendr elementos no
cero fuera de la diagonal y ser equivalente a estimar el sistema utilizando el 2SLS.
Estimacin por Mxima Verosimilitud con Informacin Completa (Full

Information Maximum Likelihood -FIML)
Finalmente, hemos llegado a un mtodo de estimacin el cual es no lineal pero

entrega estimadores consistentes y asintticamente eficientes. El mtodo se basa
122
en la aplicacin usual del principio de mxima verosimilitud para todas las ecua-
ciones estocsticas del sistema en forma simultnea. De esta manera, si tenemos
un sistema descrito de la siguiente forma:
Byt + xt = t (9.40)
el cual tiene una matriz de varianza-covarianza igual a : = E(%t t )
El logaritmo de la funcin de verosimilitud para las T observaciones de yt condi-

cional en los valores de xt viene dado por :
T
M T M 1!
logL = log(2) log|| + T log|B| [(Byt xt )% 1 (Byt xt )]
2 2 2 t=1
el cual puede ser resuelto para los parmetros B,, .
9.8. Ecuaciones Simultneas y Modelos de Vec-

tores Autoregresivos (VAR)
En modelos macroeconometricos basados en series de tiempo existe una forma
reducida de sistemas de ecuaciones dinmicos muy utilizados en la literatura
reciente. Ellos son los denominados Vectores Autoregresivos (VAR). Estos
son particularmente tiles cuando el acento no est puesto sobre la estimacin
del sistema estructural sino mas bien sobre la respuesta ltima que puede tener
el vector de variables endgenas ante "shocks.al sistema. Estos "shocks"pueden
representar cambios en el valor de las variables exgenas (tales como variables de
poltica) como tambin innovaciones o cambios en el valor del trmino de error.
Examinaremos este tipo particular de sistemas al final del curso.
123
Captulo 10
Introduccin a Datos Cualitativos

en Microeconometra
10.1. Resumen
1. Datos Cualitativos en Economa : el uso de Variables Mudas (Dummy)
2. El Modelo Probabilstico Lineal
3. Modelos Bivariados : Logit y Probit
10.1.1. Referencias
Kmenta Captulo 11
Gujarati Captulos 15 y 16
Grenne Captulo 19
Maddala Limited Dependent and Qualitative
10.2. Introduccin
Muchos fenmenos econmicos estn relacionados con variables que son discre-
tas o cualitativas las cuales podemos contar pero no medir. Estas son comnmente
referidas como variables binarias. Consideremos los siguientes ejemplos :
Diferencias por gnero : Masculino vs Femenino
Diferencias por regin / pas : Amrica Latina vs Africa
124
Efectos por caractersticas : Tiene grado universitario o n
Cambio de rgimen : Tipo de cambio fijo vs variable
Participacin fuerza de trabajo : empleado vs desempleado
Este tipo de variables tienen un uso extendido en econometra y pueden tener

implicaciones importantes para el modelamiento y estimacin. Si estas variables
cualitativas son tratadas como variables independientes en un modelo economtri-
co, en general no existen problemas fundamentales con ello. Sin embargo, si la
variables dependiente es discreta tenemos que descartar la utilizacin del marco
de anlisis del modelo de regresin clsico. En esta y las dos siguientes clases
examinaremos las implicaciones economtricas del modelamiento con variables
discretas.
10.2.1. Recapitulacin sobre Variables Discretas Indepen-

dientes
Podemos representar caractersticas binarias mediante el uso de variables
dummy Di donde :
:
1 si la caracterstica est presente,
Di =
0 si no lo est.
La magnitud de los valores (0,1) no es importante. Lo que importa es que slo

existen dos valores posibles. En esta seccin entregaremos una descripcin intuiti-
va acerca del uso de variables dummies como variables independientes. Considere
la pregunta acerca de la determinacin de las ganancias promedio de un grupo
de economistas jvenes, yi , la cual estimaremos solamente en trminos del sector
donde ellos trabajan. Imagine que existen slo dos tipos posibles de trabajo para
estos economistas : academia (A) o en el sector financiero (F). Podramos pensar
en estimar un modelo como el siguiente :
yi = aA DA + aF DF + ei (10.1)
Si el individuo es un acadmico, el modelo se reducira a :
yi = aA + ei (10.2)
dado que DA = 1 y DF = 0. Por otra parte, se tiene que :
yi = aF + ei (10.3)
125
para un economista que trabaja en el mercado financiero. Notar que este mod-
elo no tiene constantes. Al incluir una constante en el modelo tendramos una
situacin de perfecta
$ colinealidad dado que la constante tiene un valor de 1 y
sabemos que j Dj = 1. Asi es preferibles especificar la ecuacin (1) de la sigu-
iente forma :
yi = b + aF DF + ei (10.4)
En este caso, el coeficiente b medir las ganancias estimadas para la categora
faltante, en este caso los acadmicos. Este sector se utiliza como marco de ref-
erencia y permite la interpretacin ( y testeo) de los efectos de otra profesin
sobre las ganancias relativas al caso cannico ( o benchmark). Esta es una im-
portante caracterstica de todos las aplicaciones con variables dummy. Si existen
G categoras (sectores productivos, gnero, etc) las que pueden ser cubiertas y
representadas mediante el uso de variable dummy, la regresin debera contener
G 1 variables mudas. As, en el caso de las ganancias, las ganancias estimadas
para los economistas en el sector financiero ser de b + aF . Es claro que la especi-
ficacin en (4) permite la prueba acerca de si aF = 0 ya sea en forma separada o
bien conjuntamente al utilizar una prueba de t student o F de Fisher (si existen
multiples variables dummy).
Suponga que estamos interesados en saber si existe un sesgo por gnero dentro
de los economistas. Una posibilidad sera estimar el modelo :
yi = b + aF DF + aM DM + ei (10.5)
donde DM es una variable dummy la que toma un valor de 1 si la economista es

mujer y 0 si no lo es. As, las ganancias de una mujer economista que trabaja en
el sector financiero ser igual a b + aF + aM .
Notar que en esta especificacin, se asume que las diferencias en ganancias entre
un hombre y una mujer economista es una funcin aditiva del sector y gnero, i.e.
ser una economista del sector financiero y ser mujer. Esta especificacin tambin
asume que las diferencias por gnero es constante entre todos los tipos de trabajo.
Una forma mas completa de especificar este modelo sera la siguiente :
yi = b + aF DF + aM DM + ag DF DM + ei (10.6)
donde el sector base es ahora las ganancias promedio de un economista hombre.

As permitiramos que el sesgo por gnero pueda ser distinto entre diferentes tra-
bajos de tal forma que estimar el efecto de ser una economista mujer que trabaja
en el sector financiero ( comparado con por ejemplo, una economista acadmica
mujer). Esta especificacin con variables dummy se conoce como variables mudas
de interaccin.
126
10.3. Combinando Variables Binarias Qualitativas
con Variables Cuantitativas
En general, no todos los regresores en un modelo son del tipo cualitativo. En
este sencillo ejemplo podemos pensar que las ganancias tambin estn determi-
nadas por la experiencia (E). As el modelo podra que dar de la siguiente forma
:
yi = b + aF DF + cE + ei (10.7)
donde ahora b son las ganancias de un economista acadmico sin ninguna expe-
riencia mientras que el valor de aF mide la diferencia (constante) de ganancias
entre los que trabajan como acadmico y aquellos que lo hacen en el sector fi-
nanciero condicional en un cierto nivel dado de experiencia. Si dibujramos esta
funcin tendramos simplemente diferentes interceptos donde la pendiente de la
funcin de ganancias es c. De nuevo, si creemos que la experiencia recompensa
de diferente manera entre sectores deberemos definir las variables dummy de tal
forma de que cada sector tenga un intercepto diferente y una pendiente diferente.
yi = b + aF DF + cE + dEC (DF E) + ei (10.8)
As, las ganancias para un economista acadmico son :
yi = b + cE + ei (10.9)
y para aquellos que trabajan en el sector financiero :
yi = b + aF + (c + dEC )E + ei (10.10)
Una pregunta que surge naturalmente es : porqu no modelar los sectores ( A y

F) con regresiones separadas ? La respuesta depende en parte de la varianza del
trmino de error entre los diferentes grupos. Si E(%i |D = 1) = 2 = E(%i |D = 0)
Entonces es ms eficiente juntar todos los datos. Si las varianzas no son las mismas
agrupar los datos generar un estimador de ambas variazas sub grupales las que
estarn sesgadas. Adicionalmente, si las varianzas son iguales entonces : (i) la
ecuacin (8) ofrece una forma para testear restricciones sobre los parmetros y
(ii) si la restriccin es vlida entonces los parmetros resultantes de la regresin
restringida sern mas eficientes.
10.3.1. Regresin por Partes y la Funcin Spline

Suponga que tenemos una hiptesis en que los ingresos crecen con la edad
(denotada por t ) donde la edad tiene un efecto creciente a medida que se avejentan
127
y despus desaparece. Podemos pensar esto de la siguiente manera :
yi = 1 + 2 t + %i si t < 30
yi = 3 + 4 t + %i si 30 ! t < 50
yi = 5 + 6 t + %i si t " 50
Las edades de 30 y 50 aos son referidas como los puntos ( o junturas) de la funcin
spline. Estas hiptesis pueden ser estimadas mediante el siguiente modelo :
yi = b1 + b2 t + g1 D1 + g2 (D1 t) + g3 D2 + g4 (D2 t) + ei (10.11)
donde D1 = 1 si t " t1 = 30 y D2 = 1 si t " t2 = 50.
Coma ya habamos mencionado, podemos simplemente estimar estos tres sub

modelos separadamente sobre cada una de sus sub muestras. Una forma alterna-
tiva de hacerlo es estimar la funcin spline la cual es una regresin restringida la
cual fuerza que la los segmentos de recta estn unidos en las junturas. Para que
esto ocurra se requiere que :
b1 + b2 t1 = (b1 + g1 ) + (b2 + g2 )t1
y
b1 + g1 + (b2 + g2 )t2 = b1 + g1 + g3 + (b2 + g2 + g4 )t2
Reareglando los trminos llegamos a las restricciones que g1 = g2 t1 , g3 = g4 t2 .
As, el modelo restringido queda como sigue :
yi = b1 + b2 t + g2 (t t1 ) + g4 (t t2 ) + ei (10.12)
el cual finalmente puede ser simplificado a :
yi = bi + b2 x1 + b3 x2 + b4 x3 + ei (10.13)
donde x1 = t, x2 = t 30 si t 30 y x3 t 50 si t 50 o cero en otro caso.

Podemos probar la hiptesis de funcin spline al estudiar la significancia de b3 y
b4 en la ecuacin (13).
128
y
nudos
30 50 Edad
Finalmente, otras aplicaciones de variables dummy en econometra son para elim-

inar observaciones outliers donde se agrega una variable dummy asociada a aque-
lla ( o aquellas) observaciones outliers estimndose de esta forma los parmetros
para todas las observaciones excepto aquella que ha sido considerada como outli-
er. Una aplicacin similar se utiliza en el contexto de series de tiempo cuando se
desea estudiar el efecto estacional de algunas variables. Para ello se construyen
variables dummy estacionales para controlar por los efectos propios asociados al
perodo del ao que se est estudiando. Por ejemplo dummy por trimestre (ver
Sven Hylleberg "Modelling Seasonability", Oxford University Press, 1992).
10.4. Variable Dependiente Discreta I : El Modelo

de Probabilidad Lineal
Discutimos anteriormente que las cosas cambian bastante una vez que con-
sideramos variables dependientes discretas. Consideremos los siguientes ejemplos
: (i) Qu determina que una persona escoja migrar a otra ciudad ? (ii) Qu de-
termina el tipo de asistencia mdica (privada o pblica) que una persona busca
? (iii) Qu determina que una firma adopte una nueva tecnologa ?
Estas preguntas tienen una estructura en comn. Agentes (individuos, hogares,

firmas, etc) hacen elecciones discretas dentro de un rango de alternativas (tanto
elecciones bivariadas o multivariadas) y creemos que estas pueden ser modeladas
129
como funcin de (i) factores de mercado tales como precios, ingresos etc, (ii)
caractersticas de los agentes como edad, gnero, educacin, etc y (iii) factores
del entorno como ubicacin geogrfica, nivel de infraestructura local, etc. Resulta
obvio que esta es una especificacin muy general y que la teora nos puede ayudar
a tener un modelo mas especfico. El punto clave, a lo menos desde el punto de
vista del econometrista, es que la variable dependiente es de tipo discreta.
El modelo ms sencillo sobre eleccin discreta es el modelo de probabilidad lineal

(LPM)
yi = + xi + %i (10.14)
donde yi = 1 si la accin (o caracterstica ) es observada para el agente i ( por
ejemplo que la firma invirti) y yi = 0 si no es as. xi puede ser pensado como un
vector de variables explicativas independientes (las que pueden ser continuas y/o
discretas) donde, por conveniencia, asumiremos que estas son o bien no estocs-
ticas o de serlo, que no estn correlacionadas con el trmino de error. Tambin
asumiremos que %i N (0 2 ).
La ecuacin (14) parece idntica al modelo de regresin clsico y puede ser esti-
mado aparentemente por OLS. No obstante tiene marcadas diferencias con este
ltimo las que pueden ser resumidas en cuatro resultados principales.
En primer lugar, $recordar que la esperanza de cualquier variable w viene da-

da por E(w) = i wi = . Dado que en el LPM, la variable y slo puede tomar
dos valores: cero y uno, podemos escribir el valor esperado de esta variable como
sigue :
E(yi ) = 1f (1) + 0f (0) (10.15)
= f (1)
donde f (1) es la probabilidad de que un individuo con caractersticas xi adopte
la tecnologa. De la ecuacin (14) tambin sabemos que :
E(yi ) = + xi (10.16)
el cual puede ser interpretado como una medida de la proporcin de individuos

con ciertas caractersticas los que han decidido adoptar la tecnologa. Sabemos
que por definicin, 0 f (1) 1 lo que significa :
0 + xi 1 (10.17)
Finalmente, recordando que de (14) podemos expresar el error como :
%i = yi xi (10.18)
130
y, dado que por definicin y puede tomar slo dos valores: cero o uno, entonces
para cualquier valor de las caractersticas x, el trmino de error %i puede slo
tomar dos valores :
%i = 1 xi (10.19)
o bien
%i = xi (10.20)
Resultado 1. La distribucin de %i no es normal, mas aun tiene una distribucin
discreta. Esto se puede observar en la siguiente tabla la cual entrega todos los
valores posibles de %i en su distribucin.
Valores de %i Distribucion de %i
xi fi
1 i 1 fi
Total 1
El problema de no-normalidad significa que los estimadores puntuales por OLS
son insesgados pero que la inferencia para muestras pequeas no puede estar sus-
tentada en distribuciones basadas en la Normal, como lo son la distribucin t, F ,
o bien 2 .
Por definicin, sabemos que E(%i ) = 0 y en consecuencia :
E(%i ) = ( xi )f + (1 xi )(1 f ) = 0 (10.21)
lo que implica que fi = 1 xi . Podemos utilizar este ltimo resultado para

calcular la varianza del trmino de error como :
E(%2i ) = ( xi )2 (1 xi ) + (1 xi )2 ( + xi ) (10.22)
E(%2i ) = ( + xi )(1 xi ) = E(yi )(1 E(yi )) (10.23)

Resultado 2. La varianza del LPM es heteroscedastica ya que la varianza de %i
es una funcin de yi .
El problema de heteroscedasticidad es simple de resolver en este caso dado que

conocemos la forma de la heteroscedasticidad a partir de (23). Como sabemos, la
heteroscedasticidad no sesga los estimadores pero existe una prdida de eficien-
cia. Sin embargo, podemos calcular un estimador consistente de la ecuacin de la
varianza como :
2 = y2i (1 y2i ) (10.24)
donde y2i es el estimador mnimo cuadrado (heteroscedastico) de y. Podemos uti-
lizar este resultado para escalar las variables dependientes e independientes del
131
LPM y re estimar el modelo para usando un estimador WLS (similar al proceso
para solucionar heteroscedasticidad visto anteriormente).
Resultado 3. El LPM puede generar predicciones sin sentido. La estimacin

por LPM entrega valores de 2, 2 . Lo anterior quiere decir que para ciertos val-
ores de xi , el valor de y2i puede exceder uno o ser menor que cero. Pero la teora
restringe el valor de y a estar dentro del intervalo [0, 1]. No es posible excluir
aquellas observaciones de x para las cuales los valores de y pueden caer fuera del
rango [0, 1] dado que este rango es dependiente de parmetros desconocidos (ver
Figura).
y yi=alfa+betaxi
-alfa/beta (1-alfa)/beta x
Resultado 4. Los coeficientes del LPM no son constantes. Los valores de ,

dependern de los valores de X. Por ejemplo:
Si xi / tanto el intercepto como la pendiente son cero.
Si / < xi < (1 )/ el intercepto es igual a y la pendiente a .
Si xi (1 )/ el intercepto es igual a uno y la pendiente cero.
Si la muestra incluye valores de xi fuera del rango [0, 1] entonces OLS entregar
estimadores sesgados e inconsistentes. Por las razones dadas en el resultado 3, no
es posible truncar la muestra de tal forma de estimar slo sobre el rango cerrado
[0, 1] dado que el rango es una funcin de los parmetros no observados los que
debern ser estimados en primer lugar (ver Figura anterior).
132
10.5. Variable Dependiente Discreta II : Modelos
Probit y Logit
10.5.1. Forma Funcional
Ya hemos discutidos tres problemas que tiene el Modelo Probabilstico Lineal
LPM, a saber, (i) parmetros no constantes, (ii) errores no normales y (iii) el
modelo puede producir predicciones sin sentido ya que no existe ningn mecan-
ismo que acote el valor de y al rango [0, 1].
Con respecto a este ltimo punto sera deseable encontrar una especificacin que
tenga las siguientes propiedades :
(i) Con respecto a su valor esperado :
E(yi ) = Pr (yi = 1) 1 mientras + xi
y por su parte que :
E(yi ) = Pr (yi = 1) 0 mientras + xi
En otras palabras la forma funcional es asinttica a P r = 1 y P r = 0, a
pesar de que ninguno de los ejes es alcanzado, permaneciendo el modelo en
forma estocstica.
(ii) La especificacin es continua y suave (de tal manera que no existan quiebres
"falsos"en el modelo tal como ocure con el LPM)
Una especificacin que entrega estas propiedades son curvas con una forma de S
como la siguiente :
E(yi)
E(yi)=F(alfa+betaxi)
-infinito +infinito
133
De esta manera nuestro objetivo ser especificar una forma funcional para la
expresin de la derecha del modelo :
E(yi ) = F ( + xi ) (10.25)
la cual exhibe estas caractersticas. Cualquier distribucin de probabilidades con-

tinua que sea definida sobre la lnea de los reales tendr estas propiedades. Sin
embargo, existen dos formas funcionales comunes que tiene estas propiedades de-
seables (forma de S) y las cuales son relativamente fcil de manipular. Debido
a ello gozan de una gran popularidad entre los economistas. Estas son la curva
logstica la cual resulta en el modelo logstico y la distribucin normal estndar
acumulada la que resulta en el modelo probit.
El Modelo Logit
En este caso, el valor esperado de yi se define de la siguiente manera :
1 e(+xi )
E(yi ) = = (10.26)
1 + e(xi ) 1 + e(+xi )
Dado que E(yi ) es la probabilidad de suceso (i.e. de que yi = 1) entonces 1E(yi )
es la probabilidad de fracaso o falla. La razn entre estas dos probabilidades se
conoce como la razn de posibilidades odds ratio y con una pequea manipu-
lacin algebraica de (31) podemos notar que esta razn de posibilidades puede
ser expresada como :
E(yi )
= e(+xi ) (10.27)
1 E(yi )
y de esta forma el logaritmo de la razn de posibilidades (log odds ratio) como :
E(yi )
log[ ] = + xi (10.28)
1 E(yi )
De esta manera, para un modelo logit el logaritmo de la razn de posibilidades

es una funcin lineal simple de los parmetros.
El Modelo Probit El vaslor esperado en este caso viene dado por la sigu-
iente expresin :
; (+xi )
E(yi ) = ( + xi ) = (z)dz (10.29)

donde : z = + xi y (z) y es la funcin de densidad normal estndar de z.

Obviamente, () es la funcin de densidad normal acumulada. En ambos modelos
podemos notar de que E(yi ) = P r(yi = 1).
134
10.5.2. Algunos Aspectos Tericos
Resulta natural preguntarse si estamos sacrificando aspectos tericos con el fin
de encontrar una especificacin economtrica que sirva. Existen variadas formas
mediante las cuales podemos ilustrar la relevancia del modelo para una amplia
gama de relaciones de comportamiento.
Variable Latente o Funcin Indice

Podemos pensar en una eleccin discreta como el reflejo de un proceso continuo
no observado. Por ejemplo, podemos pensar en agentes decidiendo si comprar
una mquina relativamente cara (un notebook). Ellos usarn un proceso contin-
uo de beneficio costo y comprarn el equipo si el beneficio neto es positivo. As,
podemos pensar en el beneficio neto de comprar el notebook viene dado por la
siguiente expresin :
y = + x + % (10.30)
donde y es un variable "latente"no observada y x es un vector de variables ex-
plicativas (las que pueden depender de la alternativa escogida o de quien decide).
Suponga que el individuo tiene una regla de decisin de tal forma de que comprar
el activo si el valor presente neto es positivo y no si no lo es. As :
y = 1 si y > 0 (10.31)
y = 0 si y 0 (10.32)
De tal forma, podemos re expresar esto como sigue :
P r(yi = 1) = P r(y > 0) (10.33)
= P r(%i > xi ) (10.34)
= P r(%i < + xi ) (10.35)
= F ( + xi ) (10.36)
(10.37)
lo limo debido a la simetra de la funcin f , la cual es exactamente la definicinn
de una distribucin acumulada.
Un Ejemplo. Podemos ilustrar este caso usando una versin del modelo de
migracin/empleo de Harris-Todaro. Para un individuo i el ingreso esperado de
permanecer en un rea rural puede ser descrito de la siguiente forma :
yr = xr + %r (10.38)
y el ingreso esperado de una persona que se mud a la ciudad es :
y u = xu + %u (10.39)
135
donde x es un vector de caractersticas que reflejan al individuo y las condiciones
del mercado laboral en ambos situaciones. Sin embargo, existen costos asociados
al traslado del sector rural a la ciudad los que pueden ser descritos como :
c = z + %m (10.40)
De esta forma, el beneficio neto de la migracin es :
M = yu yr c = xn xr z + %u %r %m (10.41)
= w + u (10.42)
(10.43)
Si yr , yu y c fueran observables, entonces M tambin lo sera y un modelo

de regresin podra aplicarse directamente. Sin embargo, si (como generalmente
ocurre) estas variables son latentes, el investigador slo observa de que M = 1 o
bien M = 0 donde M es la observacin de que el individuo emigr a la ciudad
o n. En este caso, este modelo corresponde directamente a la forma de eleccin
discreta.
10.5.3. Estimacin e Interpretacin de los Coeficientes

Dado que los modelos que hemos estando viendo no son lineales, los parmet-
ros del modelo Probit o Logit generalmente son estimados mediante ML. Cada
observacin es tratada como una realizacin de una distribucin binomial donde
la probabilidad de existo es: P (yi = 1) = F ( + xi ) Si las observaciones son
independientes entonces su distribucin de probabilidades conjunta (o likelihood)
viene dada por :
< <
P r(Y1 = y1 , Y2 = y2 , ...Yn = yn ) = (1 F ( + xi )) F ( + xi ) (10.44)
yi =0 yi =1
notar que la variable aleatoria y puede tomar los valores 0 1 y de esta forma
(36) puede ser re escrita de la siguiente manera :
n
<
L= [F ( + xi )]yi [1 F ( + xi )]1yi (10.45)
i=1
la cual es simplemente la verosimilitud para una muestra de n observaciones.

Tomando logaritmo natural encontramos la forma de log-likelihood para un mod-
elo de eleccin binaria :
n
!
log L = [yi log F ( + xi ) + (1 yi ) log(1 F ( + xi ))] (10.46)
i=1
136
Utilizando la regla de la cadena : log(.)

= log L(.) F (.)
F (.)
Las condiciones de primer
orden (mediante las cuales podemos obtener , ) vienen dadas como sigue :
n
log L ! yi fi (1 yi )fi
= [ + ]xi = 0 (10.47)
i=1
Fi (1 Fi )
n
log L ! yi fi (1 yi )fi
= [ + ]=0 (10.48)
i=1
Fi (1 Fi )
(10.49)
donde Fi es la derivada parcial de F () con respecto a ( + xi ). Estas condiciones

de primer orden son aplicables a toda distribucin continua F () Para el caso de
los dos modelos que estamos revisando, la derivacin de las condiciones de primer
orden son mas simples, veamos :
Modelo Logit
Para el modelo Logit, al sustituir la ecuacin (31) en (44) para F ( + xi ) y sim-
plificando la expresin (usando la derivacin del log odds ratio y notando de que
log[1/(1 + ex )] = log(1 + ex ) el log-likelihood de la funcin puede re escribirse
como : n
!
log L = [yi ( + xi ) log(1 + e(+xi ) )] (10.50)
i=1
y las condiciones de primer orden sern :

n
log L !
= [yi Fi ]xi = 0 (10.51)
i=1
n
log L !
= [yi Fi ] = 0
i=1
donde Fi es el valor de la distribucin logstica (31) evaluada en los valor mximos

verosmiles para , .
Modelo Probit
Para el modelo Probit, el log-likelihood puede escribirse como :
n
!
log L = [yi log ( + xi ) + (1 yi ) log(1 ( + xi ))] (10.52)
i=1
137
y las condiciones de primer orden son :
n
log L ! yi i (i )
= [ + (1 yi ) ]xi = 0 (10.53)
i=1
i (1 i )
n
log L ! yi i (i )
= [ + (1 yi ) ]=0 (10.54)
i=1
i (1 i )
donde i = ( + xi ) y i = ( + xi ). En ambos casos, las condiciones

de primer orden estn bien definidas (dado de que las distribuciones estn bien
definidas y las valores muestrales de xi son conocidos) y en consecuencia, pueden
ser resueltas las ecuaciones para los parmetros del modelo. La condiciones de
primer orden son, no obstante, no lineales y as una forma de optimizacin no
lineal debe ser aplicada para encontrar su solucin.
Interpretando los Resultados : Los Efectos Marginales
Una vez que hemos encontrados los estimadores para los coeficientes (y los errores
estndar) necesitamos interpretar dichos resultados. Es importante notar de que
al contrario del modelo de probabilidad lineal, los parmetros del modelo (los
betas)logit y probit no miden directamente los efectos marginales. Para apreciar
esto podemos escribir el modelo en forma mas sencilla al absorber la constante
en el vector x de la siguiente manera :E(yi ) = F (xi ) y en consecuencia, el efecto
marginal de un cambio unitario en xj es :
E(yi ) F (x)
= j = f (xi )j (10.55)
xj (x)
As el efecto marginal de un cambio en el valor de las variables explicativas de-
pende del valor de la variable explicativa y en consecuencia se debe hacer explcito
el valor de x para el cual el efecto marginal es calculado.
Volviendo a los dos modelos que estamos analizando podemos observar que el
efecto marginal viene determinado de la siguiente forma :
(i) Logit. Aqu, por conveniencia definiremos E(yi ) = i . DE esta manera, el
efecto marginal viene dado por :
i i log i (1 i )
= (10.56)
xj log i (1 i ) xj
= j i (1 i ) (10.57)
donde i es la probabilidad de que ocurra el evento.
138
(ii) Probit. Los efectos marginales en este caso viene dados por la siguiente
expresin:
E(yi )
= (x)j (10.58)
xj
donde (x) es la densidad normal estndar evaluada en x. En general,
se evala el efecto marginal en la media de los valores de los xi . Sin em-
bargo, esto no es obligatorio pudiendo ser evaluadas las x para diferentes
arqueotipos que sean interesantes de estudiar.
10.5.4. Medidas del Grado de Ajuste

La medicin el grado de ajuste en modelos de eleccin discreta es sorprenden-
temente dificultoso. No existe una analoga directa con el R2 en modelos clsicos.
Una medida a considerar es la verosimilitud evaluada en los estimadores ML

del modelo log L() 2 . Esto puede ser utilizado para comparar entre diferentes
especificaciones del modelo para una muestra dada. Una medida de referencia
es el valor del likelihood cuando todos los coeficientes se han restringido a cero
log( = 0) . Este ltimo es el likelihood incluyendo slo una constante.
Es posible usar estos dos valores para construir una prueba de likelihood ratio
LR de significancia conjunta de las variables xi :
2 s
LR = 2[log L(0) log L()] (10.59)
k
donde los grados de libertar k vienen determninado por el nmero de variables

explicativas xi .
Una medida alternativa de ajuste viene dado por el ndice de la razn de verosim-
itud
2
log L()
LRI = 1 0 LRI 1 (10.60)
log L( = 0)
El LRI tiene la caracterstica de que esta acotado por entre cero cuando todos
los coeficientes son iguales a cero. Ello pues cuando todos los coeficientes son cero
log L() = log L( = 0)y la razn entre ambos es en consecuencia uno. Mientras
el poder explicativo del modelo aumenta, la funcin de verosimilitud tiende a la
unidad (i.e. cuando Fi = 1 cuando yi = 1 y Fi = 0 cuando yi = 0). Dado que el
logaritmo de uno es cero LRI tiende a uno.
Una medida alternativa es la Tabla de Aciertos y Fallos la cuales una tabla simple
de 2 x 2 la cual muestra la distribucin de los valores actuales y predichos de y.
139
Veamos un ejemplo :
Predicha (F = 0,5)
y=1 y=0 Total
Actual y=1 471 16 487
y=0 183 20 203
Total 654 36 690
Necesitamos determinar qu constituye una prediccin de que y = 1. Usualmente
definiremos el umbral por una regla como la siguiente :
=
y2 = 1 si F2 = E(yi ) > F
y2 = 0
En otras palabras clasificamos el resultado de una estimacin si su probabilidad
es mayor que un medio.
La mayora de los investigadores definen F = 0, 5 lo que significa que si la

probabilidad predicha de un xito (dado los valores de x) es mayor que 0.5 en-
tonces la tomamos como una prediccin de xito ( o que yi = 1). La lgica de
esto es que predecimos un xito si el modelo dice que 1 es mas probable que 0.
Por su puesto, podemos definir una "prediccin exitosaon un umbral diferente,
como 0,75 o 0,4.
En la tabla anterior, hay 690 observaciones. El modelo predice correctamente

471 de un total de 487 ocurrencias de y = 1 y 20 de un total de 203 como y = 0.
Des esta manera, la tasa agregada de aciertos exitosos es (471+20)/690 = 71,2.
No obstante, esta es una forma muy dbil de prediccin del grado de ajuste del
modelo.
Comparando el modelo Logit con el Probit
Hasta el momento hemos sugerido que tanto el Probit y Logit son alternati-
vas vlidas al LPM para modelar situaciones de eleccin discreta. Aun no hemos
dicho nada acerca de cmo escogeremos entre los dos aunque en la prctica la
mayora de los investigadores reportan los resultados de los tres modelos. Ello
es as, pues no existe una clara definicin en la profesin acerca de cul modelo
es preferible (entre logit y probit obviamente pues sabemos de que el LPM tiene
severos problemas).
La siguiente figura ilustra las dos formas funcionales no lineales para un conjunto
de parmetros dado. Como se puede observar los dos curvas son muy similares en
140
el rango del medio pero la funcin logit tiene colas mas anchas - la logit se parece
mas a una distribucin t student acumulada. De esta forma, si la proporcin de
xitos en la muestra est entre 0.3 y 0.7 los dos modelos entregan resultados simi-
E(yi)
1
logit
probit
-infinito +infinito
lares.
No obstante, los estimadores de a partir de los dos modelos no son directamente
comparables. Ello se produce dado que en el modelo probit se asume que 2 = 1
mientras que la varianza en el logit es 2 /3 . Existe una correcin para hacerlos
comparables. Al multiplicar los coeficientes del logit por 0,625 se pueden hacer
entonces comparables con los coeficientes del probit. En forma anloga, al multi-
plicar los parmetros de logit por 0,25 se obtoiene los parmetros del logit.
En resumen :
lpm 0,25l 0, 4p (10.61)
Esta regla es vlida para todos los coeficientes excepto la constante en el modelo
LPM (recordar que en logit y probit la constante es absorvida en X), dando la
siguiente regla :
lpm 0, 25l + 0, 25 0,4p + 0, 25 (10.62)
141
Captulo 11
Extensin del Modelo para Variable

Dependiente Cualitativa
11.1. Resumen
1. Test de Especificacin en Modelos de Eleccin Binaria
2. Datos Agrupados
3. Modelos para Elecciones Mltiples
11.2. Referencias
Greene Captulo 19
Maddala Limited Dependent and Qualitative Variables in Econometrics

(CUP, 1983) Captulos 2, 6 y 7
11.3. Pruebas de Especificacin en Modelos de Elec-

cin Binaria
Dos de los mas problemticos errores en la especificacin en datos microe-
conomtricos estn relacionados con la heteroscedasticidad y variable omitida.
Las consecuencias de ambos errores de especificacin son mucho mas graves que
en el caso de modelo de regresin lineal. Dado que los modelos Probit y Logit son
no lineales en los parmetros estamos obligados a testear acerca de la ausencia
de problemas de variable omitida y heteroscedasticidad mediante el uso de los
mtodos estndar de pruebas de hiptesis (LR, LM, Wald). Estos son derivados
142
en Davidson y MacKinnon (Journal of Econometrics, 1984) y los que tambin son
presentados en Greene 19.4
11.3.1. Variable Omitida

La hiptesis sobre variable omitida se prueba mediante el siguiente modelo :
H0 : y = 1 x1 + e1 (11.1)
HA : y = 1 x1 + 2 x1 + e1 (11.2)
Esto puede ser fcilmente probado utilizando cualquiera de los tres tests.
La prueba de Razn de Verosimilitud es el mas sencillo :

LR = 2[log L 2 u ] 2
2r log L (11.3)
[k]
donde k es el nmero de restricciones y donde r denota al modelo restringido (1)

y u al no restringido (2).
Por su parte, el test de Wald generalizado tiene la siguiente forma :

w = (R2 q)% [R(V arAsint[])R
2 % ] 1(R2 q) 2
k (11.4)
donde R = q representa un conjunto de restricciones sobre el modelo general.
Al implementar el test nos queda :
w = 22% V21 22 2[k] (11.5)
donde V2 es la matriz de covarianza estimada para el modelo evaluada en los
valores restringidos de los parmetros estimada como 22 .
Finalmente, la prueba del Multiplicador de Lagrange LM viene dada por la sigu-

iente expresin:
LM = g % V g 2[k] (11.6)
donde g es la primera derivada de la funcin de verosimilitud evaluada bajo H0 ,
V es la matriz de covarianza asinttica del modelo estimada bajo las mismas
restricciones y k es el nmero de restricciones. Davidson y MacKinnon (1984)
proponen la siguiente versin de este test LM :
!n !n !n
( %
gi x i ) [ % 1
E[hi]xi xi ] ( gi x i ) (11.7)
i=1 i=1 i=1
2
donde hi = dd(x
log Fi
i)
2 . El termino[]
1
el cual es la matriz de covarianzas asinttica
estimada la que viene dada por el valor estimado del Hessiano (i.e. la matriz de
segundas derivadas de la funcin del log-likelihood).
143
11.3.2. Heteroscedasticidad
Considere el siguiente modelo Probit heteroscedastico :
y = % x + % con V ar[%] = [e(%z) ]2 (11.8)

donde y es una variable latente no observada y z es un vector de variables, el cual
tipicamente incluye varores de x. El log-likelihood para el modelo "ponderado"es
: n
! % xi % xi
logL = [yi logF ( " zi ) + (1 yi )log[1 F ( " zi )]] (11.9)
i=1
e e
donde las condiciones de primer orden para este modelo vienen dadas por las
siguientes expresiones:
n
log L ! fi (yi Fi ) ( " zi )
= [ ]% xi = 0 (11.10)
i=1
Fi (1 Fi )
y
n
log L ! fi (yi Fi ) ( " zi )
= [ ]% zi ( % xi ) = 0 (11.11)
i=1
Fi (1 Fi )
Dado que es una funcin de verosimilitud difcil de maximizar, estimamos el
modelo bajo la restriccin de que = 0 y usamos un test de Multiplicador de
Lagrange para probar la restriccin. La prueba de LM viene dada por :
LM = g % V g 2[k] (11.12)
donde g es la primera derivada del likelihood evaluada en los valores restringidos

de los coeficientes, en este caso = 0, V es la matriz de covarianzas asinttica
estimada del modelo obtenida bajo la misma restriccin y k es el nmero de
restricciones. Notar que bajo la restriccin de que = 0 , las condiciones de
primer orden del modelo restringido son simplemente :
n
log L ! fi (yi Fi )
= [ ]xi = 0 (11.13)
i=1
Fi (1 Fi )
y
n
log L ! fi (yi Fi )
= [ ]zi ( % xi ) = 0 (11.14)
i=1
Fi (1 Fi )
Resulta ser que se hace muy difcil estimar este modelo utilizando una especifi-
cacin Logit (por la especificacin de la funcin score) y de esta forma las pruebas
de heteroscedasticidad son generalmente llevadas a cabo utilizando un Probit.
144
11.4. Datos Agrupados
Hasta el momento hemos estado trabajando con datos sobre respuestas indi-
viduales donde cada observacin en los datos relaciona la respuesta u accin de
un individuo en particular con un vector de regresores. No obstante, generalmente
deseamos utilizar datos agrupados donde observamos la proporcin de respuestas
positivas entre un grupo de individuos los que comparten un conjunto comn de
regresores.
Por ejemplo, en las pruebas de frmacos, la proporcin de personas responde

a un frmaco controlando por sus caractersticas (regresores) comunes. O, en el
caso de las elecciones, la proporcin de personas que vota por un gobierno en
particular dado un conjunto comn de circunstancias.
El trabajo con datos agrupados permite aminorar muchos de los problemas aso-
ciados con el LPM el cual a menudo es usado en estas circunstancias aunque una
especificacin Logit sigue siendo la especificacin mas popular. Ver Greene 19.4.6
11.5. Extensiones de los Modelos para Variable

Dependiente Cualitativa
Hasta ahora nos habamos concentrado slo con variables binarias o dicotmi-
cas. Tambin existenm las llamadas variables categricas, es decir, aquellas que no
son continuas pero que pueden ser clasificadas en diferentes categoras. General-
mente son referidas como variables policotmicas. Existen tres casos de inters :
145
Caso Ejemplo
No ordenadas Votacin (PC, PS, PPD, DC, RN, UDI)

Modo de Transporte (caminar, auto, bus)
Ordenadas y=1 si gasto es menor que $10

y=2 si gasto mayor que $10 menor que $100
y=3 si gasto mayor que $100
x=1 si impacto bajo

x=2 si impacto moderado
x=3 si impacto medio
x=4 si impacto alto
x=5 si impacto muy alto
Secuencial y=1 si persona no termin el colegio

y=2 si persona termin colegio pero no universid.
y=3 si perosona termino U. pero no post grado
11.5.1. Variables (policotmicas) No Ordenadas

El modelo mas utilizado para este tipo de casos es el Multinomial Logit el
cual extiende la forma simple del modelo logit al permitir de que las probabili-
dades de eleccin dependan de las caractersticas de los individuos que deciden.
Estamos aqu interesados en estimar la probabilidad de que el individuo i escoja
la alternativa j. Asi definiremos Yij = 1 si el individuo i escoge la alternativa j;
conj = 1, 2, , , J.De no ser as, entonces Yij = 0.
Definiremos, en consecuencia, E[yi j = 1] = ij como$la probabilidad de que

el individuo i escoja la alternativa j notando de que jj=1 ij = 1; esto es, el
individuo debe escoger algo. Aqu, de nuevo Xi es el vector de caractersticas in-
dividuales especficas del individuo i. El modelo multinomial logit se define como
sigue :
e(j +j xi )
E[yij = 1] = ij = $J (11.15)
e (k +k xi )
k=1
Es una prctica comn normalizar estas probabilidades al definir 1 = 1 = 0
Esta normalizacin se conoce como la Normalizacin de Theil y permite una
conveniente interpretacin de los datos. Notando de que e0 = 1 entonces se tiene
:
1
E[yi1 ] = i1 = $J (11.16)
1 + k=2 e(k +k xi )
146
y
e(2 +2 xi )
E[yi2=2 ] = i2 = $J (11.17)
1 + k=2 e(k +k xi )
y as sucesivamente. Esta normalizacin nos permite expresar la probabilidad
relativa de observar el resultado j = 2 con respecto a j = 1, de la siguiente
manera :
i2
= e(2 +2 xi ) (11.18)
i1
Esto puede ser pensado como un "multinomial odds ratio". Explotando la con-
veniencia de la funcin logistica podemos expresar el logaritmo del multinomial
odds ratio como :
i2
log( ) = 2 + 2 xi (11.19)
i1
Las Caractersticas de la Alternativas

En el modelo logit multinomial se asume de que las elecciones estn determinadas
solo por las caractersticas de los individuos que deciden. Las caractersticas de
las alternativas en s no afectaran las elecciones de los agentes. Un modelo que
efectivamente incluye este ltimo aspecto en la determinacin de las decisiones
se conoce como el modelo logit condicional de McFadden el cual puede escribirse
como sigue :
ezj
E[yij = 1] = ij = $J (11.20)
zj
k=1 e
el cual relaciona la probabilidad de que un individuo i escoja la opcin j con las
caractersticas no slo con las caractersticas del individuo i sino que tambin con
las caractersticas de la opcin j. De esta manera la forma general de este modelo
es la siguiente :
e(j +j xi +zj )
E[yij = 1] = ij = $J (11.21)
(k +k xi +zj )
k=1 e
Efectos Marginales en un Modelo de Eleccin Policotmica
El efecto marginal del multinomial logit son :
!J
j
= j [l k k ] = j [l ] (11.22)
xl k=1
donde, como en el caso del modelo logit bivariado, j es la probabilidad predicha

de observar escoger la opcin j evaluada en el valor promedio del vector de
variables X. Notar que es posible que en un modelo multinomial logit el efec-
to marginal de un cambio unitario en la variable Xl no necesariamente tenga el
mismo signo que el coeficiente l .
147
El efecto marginal en el modelo logit condicional de McFadden son :
j 3 j
= j (1 j ); = j k 3 (11.23)
zj zk
3 el vector de coeficientes estimados en (19).
donde es
La Independencia de Alternativa Irrelevantes

El modelo de logit multinomial enfrenta directamente el problema de la inde-
pendiencia de alternativas irrelevantes. El MLM asume que la decisin entre dos
alternativas cualesquiera (i.e. entre una alternativa y aquella base) es independi-
ente de las alternativas restantes. Especficamente, se asume que el trmino de
error en las ecuaciones de eleccin subyacentes son independientes entre s. Esto
hace al modelo mas fcil para la estimacin pero quiz no sea una descripcin
vlida de la realidad. Veamos un ejemplo para ilustrar este problema.
Suponga que estamos estudiando la eleccin entre tres diferentes medios de trans-
porte : auto, bus y una tercera opcin. Considere primero que la tercera opcin
es el metro. En este caso, una utilidad relativa mas alta de viajar en auto relativo
al bus no necesariamente implica que tambin sea mas preferible viajar en metro
con respecto al bus. Suponga ahora que la tercer alternativa es una auto azul y
que la primera alternativa es un auto rojo. El hecho de preferir (utilidad relativa
mas alta) el auto rojo con respecto al bus puede implicar una utilidad mas alta
tambin de viajar en auto azul con respecto al bus tambin. En otras palabras, la
probabilidad de que el auto rojo sea preferible al bus aumenta las probabilidades
de que el auto azul tambin sea preferible al bus. De esta manera los parmetros
de las alternativas no son independientes entre s.
Este es un ejemplo trivial pero apunta a un problema esencial : en aquellas cir-

cunstancias donde las alternativas son sustitutos cercanos el multinomial logit
puede entregar estimadores de coeficientes sesgados.
Hausman y McFadden (Economterica 1984) proponen un test sobre consisten-

cia de parmetros en el caso de diferentes alternativas de eleccin. El test est
basado en la idea de todos los test de Hausman donde si la eleccin alternativa es
irrelevante entonces al omitirla del modelo los estimadores sern consistentes y as-
intticamente eficientes. Bajo estas circunstancias la inclusin de una alternativa
irrelevante traer como consecuencia estimadores consistentes pero ineficientes.
Si la alternativa no es irrelevante, entonces su exclusin de ella resultar en es-
timadores inconsistentes. As, si determinamos como s los estimadores basados
en el subconjunto restringido de alternativas y f como el conjunto completo de
148
alternativas, entonces :
H0 : Elecciones alternativas s es consistente y eficiente
son irrelevantes f es consistente y ineficiente
H1 : Elecciones alternativas s es inconsistente e ineficiente

son relevantes f es consistente y eficiente
La prueba tiene la forma usual de las pruebas de Hausman :
R = (2s 2f )% [V2s V2f ]1 (2s 2f ) 2[k] (11.24)
Como solucin al problema de la independencia de variables irrelevantes uno
podra estimar un modelo multinomial (no ordenado) probit o bien utilizar esti-
maciones semi yu no paramtricas. Sin embargo, estos aspectos estn fuera del
alcance de este curso.
11.5.2. Variables Ordenadas

Los problemas con el probit multinomial con datos no ordenados desaparecen
en gran medida cuandos las alternativas de eleccin tienen un orden pre definido.
El modelo multinomial ordered probit (probit ordenado) est basado en la sigu-
iente regresin subyacente con variable latente :
yi = + % xi + %i (11.25)
donde yi es una variable no observada, %i N (0, 1) y donde observamos la
siguiente alternativas de eleccin ordenadas :
Yi = 1 si yi < 0
Yi = 2 si 0 yi < A1
Yi = 3 si Ai yi A2
.
.
Yi si Aj1 yi
El umbral Aj no puede ser observado pero puede ser estimado junto con , por
mxima verosimilitud si asumimos una forma funcional del modelo. Obviamente
el modelo probit multinomial asume de que la funcin tiene una distribucin
normal estndar. Al normalizar como lo hicimos en el caso de la multinomial
logit, las probabilidades del modelo se derivan como sigue :
P rob(yi = 0) = ( xi ) [obien = 1 ( + xi )]
149
P rob(yi = 1) = (A1 xi ) ( + xi )
P rob(yi = 2) = (A2 xi ) (A1 + xi ) (11.26)
.
.
.
P rob(yi = 5) = 1 (A51 xi )
Ver figura siguiente donde existen tres categoras y por ende un solo umbral
P rob(yi = 0) = 1 ( xi )
P rob(yi = 1) = (A1 xi )
P rob(yi = 2) = 1 (A1 xi )
Efectos Marginales
Los efectos marginales de cambios en los regresores vienen dados por las siguientes
150
expresiones :
P r(Y = 0)
= ( % x)k
xk
P r(y = 1)
= [( % x) (A1 % )]k (11.27)
xk
P r(y = 2)
= (A1 % x)k
xk
Mientras (asumiendo de que los coeficientes son positivos) un aumento en X

reducir la probabilidad de que y = 0 y aumentar la probabilidad de que y =
2 en forma inambigua. Las consecuencias sobre la probabilidad de que y = 1 es
ambigua. Esto puede ser generalizable para cuando existen mas categoras. Solo
el impacto sobre la primera y ltima categora de un cambio en una variable X
es conocida (en trminos de su signo).
151
Captulo 12
Variable Dependiente Limitada
12.1. Resumen
1. Introduccin a las Variables Dependientes Limitada
2. Revisin de Algunas Caractersticas de la Distribucin Normal
3. Truncacin
4. Censura
5. Sesgo de Seleccin y el Modelo Tobit
6. Problemas de Especificacin en el Modelo Tobit
12.2. Referencias
Greene Captulo 20
Maddala Limited Dependent and Qualitative Variables in Econometrics

(CUP, 1983) Captulos 6 a 9
12.3. Introduccin
Existen variados casos donde, debido a la manera en que los datos son recolec-
tados, tenemos informacin incompleta acerca de la conducta de ciertos elementos
de la muestra. Si esta informacin faltante es sistemtica entonces los modelos
que ignoren este hecho, estarn cometiendo un problema de sesgo sistemtico.
En esta seccin examinaremos algunos casos especiales de estos fenmenos. Estos
son :
152
Truncamiento: cuando una muestra est sistemticamente restringida a slo
una parte de la poblacin. Por ejemplo, una muestra que slo incluya observa-
ciones de gente empleada, o gente sobre una cierta edad, etc. El que la trun-
camiento importe, obviamente depender de la pregunta que se quiera responder
con la investigacin.
Censura: cuando la variable dependiente, pero no as las variables independi-

entes, son observadas en un rango restringido de tal forma que todas las obser-
vaciones en la variable dependiente que estn por debajo de un cierto umbral o
valor dado son tratadas como si estuvieran sobre el umbral o tomaran un valor
igual al umbral.
Sesgo de Seleccin (referido tambin como Truncamiento Incidental) : com-

bina aspectos de ambos y ocurre cuando el proceso por el cual la muestra est
truncada influencia los parmetros del modelo sobre la muestra restringida. Por
ejemplo, suponga que estamos interesados en la determinacin de los salarios de
aquellas persona que emigraron. El problema est en que las potenciales ganan-
cias de los inmigrantes tendrn que ver con el hecho que hayan decidido emigrar
(i.e. con la probabilidad de pertenecer a la muestra). Esto es claramente una
forma de truncamiento (i.e. la muestra slo incluye a inmigrantes) pero en una
donde los factores que determinan la truncamiento no son independientes del
comportamiento de la variable dependiente al interior de la muestra truncada.
12.3.1. Algunas Propiedades Importantes de la Distribu-

cin Normal
Recordemos la formula para una distribucin Normal con media y varianza
igual a 2 :
1 (x)
f (x) = e 22 (12.1)
2 2
para una normal estndar z = (x )/ la cual tiene la siguiente funcin :
1 z2
(z) = e 2 N [0, 1] (12.2)
s
donde (z) se usa como notacin para la distribucin normal estndar y (z)
para la funcin normal acumulada. Existen un conjunto de propiedades de la
153
normal estndar que sern de gran utilidad en las secciones que siguen.
A1 (z) = (z)
phi(z)
A2 . dz = z(z)
1 1
A3 f (x) = [(x )/] = (z)
; a
A4 (a) = P r(z < a) = (z)dz

A5 (a) = 1 (a) = P r(z > a)
A1 entrega la propiedad de simetria, A2 viene de (2) y A3 sale de comparar (1)

con (2)
12.4. Truncamiento
El truncamiento ocurre cuando la muestra es restringida slo a una parte de
la poblacin de tal manera que slo observamos las variables X e Y dentro de ese
rango restringido.
12.4.1. Propiedades de la Distribucin Truncada

La densidad de una variable aleatoria truncada viene dada por :
f (x)
f (x|x > a) = (12.3)
P r(x > a)
Esta definicin asegura que la densidad truncada sume 1 sobre el rango restringi-
do. Ver el grfico siguiente:
154
Muchas de las aplicaciones que veremos en adelante utilizan la distribucin normal
truncada. Si X se distribuye normal con media y desviacin estndar de
entonces de A5 se obtiene que :
(a )
P r(x > a) = 1 [ ] = 1 () (12.4)

donde = ( a

). De esta forma usando A3 tenemos que:
f (x)
f (x|x > a) = (12.5)
[1 ()]
1 x
= (z)[1 ()] con z = ( )

De la figura anterior se puede notar que si la truncamiento es por debajo, la media
de la distribucin truncada es mayor que la original y viceversa si la truncamiento
155
es por arriba. En forma similar, la varianza de la distribucin truncada es menor
que la original.
La media de una distribucin truncada viene dada por :
E(x|truncamiento) = + () (12.6)
donde
() = ()/[1 ()]
si el truncamiento es de la forma x > a, y
() = ()/()
si el truncamiento es de la forma x < a.
La funcin () se conoce como el Inverse Mills Ratio (o hazard rate). Es la

razn entre la densidad de probabilidad normal evaluada en y uno menos la
funcin normal acumulada evaluada en el mismo valor, el cual puede ser inter-
pretado como una medida sobre la probabilidad de observar condicional en que
forma parte de la muestra truncada. En otras palabras mide el grado de ajuste
que se requiere realizar para la media de la distribucin sin truncar.
La varianza de una distribucin truncada viene dada por la siguiente expresin:
V ar(x|truncamiento) = 2 [1 ()] (12.7)
donde
()
() = 0 < () < 1
[() ]
lo que implica que la varianza de una distribucin truncada es siempre menor que
la varianza de la distribucin sin truncar.
A menudo nos referimos al truncamiento en trminos del grado de truncamiento

el cual es simplemente la probabilidad de que X sea menor que a. A medida de
que a aumenta, el grado de truncamiento aumenta dado que la probabilidad de
que X sea menor que a (i.e. P r(x < a)) aumenta. Consecuentemente una may-
or parte de la distribucin ha sido descartada y en consecuencia la media de la
distribucin truncada tambin aumenta.
156
12.4.2. La Regresin Truncada
Habiendo dicho algo sobre la estructura de las distribuciones truncadas pode-
mos ahora estimar modelos usando muestras truncadas. Suponga que empezamos
con nuestro modelo genrico, utilizando notacin matricial y absorbiendo la con-
stante dentro de la matriz X (mediante una columna de unos) tenemos :
yi = xi + %i %i N (0, 2 ) (12.8)
Si nuestra muestra est truncada de alguna forma podemos utilizar los resultados
anteriores para legar a la siguiente expresin :
a xi
E(yi |yi > a) = xi + i (i ) i = ( ) (12.9)

Notar que a es el punto de truncamiento (y i el valor estandarizado) y no la
constante del modelo, la cual se asume que est en X).
157
As, se tiene que :
[(a xi )/]
E(yi |yi > a) = xi + (12.10)
1 [(a xi )/]
el cual muestra de que la media condicional de la distribucin truncada en una

funcin no lineal de x, , y el punto de truncamiento a. De esta forma, a partir
de (7) podemos obtener la varianza de la variable truncada mediante la siguiente
expresin :
V ar[yi |yi > a] = 2 (1 (i )) (12.11)
Interpretando los coeficientes

Podemos expresar los efectos marginales de la ecuacin (10) como sigue :
E[yi ]yi > a] i i

= j + ( )( )
xj i xj
= j + (2i i i )(j /)
= j (1 2i + i i )
= j (1 (i ))
El aspecto importante de este resultado es que dado que 0 < () < 1 para todo
, entonces con una distribucin truncada el efecto marginal de un cambio en el
valor de xj es menor que su correspondiente coeficiente.
Es importante recalcar que si el inters de la investigacin est centrado sobre

realizar inferencias sobre la sub poblacin entonces el parmetro relevante ser
j (1 ()) . Si nuestro inters fuera realizar inferencias sobre toda la muestra
entonces j sera el parmetro relevante. Ver
158
Estimacin
Suponga que corremos un modelo de mnimos cuadrados ordinarios de y sobre
x pero utilizando una muestra truncada. Si el verdadero modelo viene dado por
(8) entonces el modelo OLS tendra un problema de sesgo por variable omitida :
el efecto del truncamiento i .
Mas an, dado que el trmino de error en el modelo OLS est tambin trun-
cado ( i.e. como funcin de ) entonces a partir de (8) podemos ver de que el
modelo tendr un error heteroscedastico.
V ar(%i ) = 2 (1 2i + i i ) (12.12)
el cual es una funcin de xi (dado que i es funcin de xi ).
159
La alternativa natural a la estimacin por OLS es Mxima Verosimilitud. Me-
diante (5) la funcin de densidad de yi viene dada por:
1
xi )/)
((yi
f (yi |yi > a) =
(12.13)
1 ((a xi )/)
El log-likelihood es la suma de los logaritmos de estas densidades

n n
n 2 1 ! 2
! a xi
log L = (log(2) + log ) 2 (yi xi ) log[1 ( )]
2 2 i=1 i=1

(12.14)
Podemos entonces maximizar esta funcin con respecto al vector de parmetros
, 2 . Las condiciones de primer orden (la funcin Score del modelo) viene dada
por :
n
log L ! (yi xi ) i
= [ 2
]xi = 0
i=1

n
log L ! 1 (yi xi )2 i i
= [ + ]=0 (12.15)
2 i=1
2 2 2 4 2 2
donde i = (ax

i) (i )
y i = [1( i )]
. Estas pueden ser resueltas y asi entregar los
estimadores ML para los parmetros , 2 y el inverse mills ratio ().
12.5. Datos Censurados

Censura describe la situacin donde a pesar de que observamos las variables
independientes x sobre todo el rango de la muestra / poblacin, observamos la
variable y, la variable dependiente, solo en un subconjunto restringido de su dis-
tribucin. Valores de y para ciertos rangos son todos reportados con un valor en
particular.
Algunos ejemplos pueden ayudar a entender esta situacin :
1. Inversin.
2. Gasto de hogares en bienes durables.
3. Horas de trabajo (salario de reserva).
Debera resultar claro que el sesgo que surge a partir de la restriccin sobre el
rango observable para y depender de la probabilidad de caer fuera del rango (i.e.
por debajo del nivel de umbral). Ver figura. Dado que sabemos que eliminar las
160
observaciones en que la variable dependiente cae por debajo del umbral resultar
en un problema de muestra truncada. Necesitamos en consecuencia algn mtodo
que nos permita trabajar con esta situacin de censura en la muestra sin tener
que eliminar informacin valiosa al reducir la muestra censurada a una truncada.
12.5.1. Distribucin Normal Censurada

La distribucin relevante para modelos que utilizan datos censurados es similar
que el caso cuando se utilizan datos truncados. Considere la variable donde :
y N (, 2 ) (12.16)
y = a si y a
y = y en otro caso
Aqu, y es una variable (parcialmente) latente la cual es observable slo para
valores sobre el umbral. Muchas veces se encontrar que el umbral se define
como cero, la cual es una normalizacin conveniente. La distribucin total de
una variable censurada puede ser pensada como una combinacin de dos partes :
la primera que corresponde a un componente discreto el cual toma todo el peso
del componente censurado de la distribucin en un solo punto; y la segunda,
una componente continua para el rango de valores de Y para la cual existe una
distribucin (truncada).
161
De esta forma, se tiene que :
E(y) = P r(y = a)E(y|y = a) + P r(y > a)E(y|y > a)

= P r(y a)a + P r(y > a)E(y|y > a)
= ()a + [1 ()]( + ())
donde = a

y () como se defini en (6).
12.5.2. El Modelo Tobit

Los modelos de regresin que estn basados en los aspectos discutidos en la
seccin anterior se denominan modelos de regresin censurada (cuando el punto
de censura puede cambiar a travs de las observaciones) o el Modelo Tobit (
162
cuando existe un punto de censura fijo). Por ahora nos concentraremos slo en el
modelo tobit (su nombre se refiere al "Tobit Probit Model"). Asumiremos, por
conveniencia, que el punto de censura es normalizado a cero lo que nos permitir
especificar el modelo de la sigueiente manera :
yi = xi + %i %i N (0, 2 ) (12.17)
:
0 si yi 0
yi =
yi si yi > 0
Esto es simplemente un modelo en trminos de una variable latente, y la cual es
parcialmente observada -especficamente cuando la variable latente es observada
por encima del valor umbral.
La media de una distribucin censurada viene dada por (18) para el caso en
que el umbral a = 0
E(yi ) = P r(yi = 0)E(yi |yi = 0) + P r(yi > 0)E(yi |yi > 0) (12.18)
Con el punto de censura igualado en cero el primer trmino de la parte derecha

de la expresin es igual a cero y, usando el resultado de la regresin truncada
podemos re expresar los dos trminos remanentes de (20) como sigue.
Primero, a partir de la ecuacin de regresin truncada (9) se tiene que :
E(yi |yi > 0) = xi + i (12.19)
donde :
( 0x

i
)
i =
[1 ( 0x

i
)]
( x i )
i = (12.20)
( x i )
Segundo, con respecto a el trmino P r(yi > 0) podemos notar que :
P r(yi > 0) = P r(xi + %i > 0)
Lo que implica que :
P r(yi > 0) = P r(%i > xi ) = P r(%i < xi ) = (xi /) (12.21)
De esta forma, combinando (21),(22)y (23) obtenemos lo siguiente :
E(yi ) = P r(yi > 0)E(yi |yi > 0) (12.22)
163
lo que implica que :
E(yi ) = (xi /)[xi + i ] (12.23)
donde, al igual que antes :
( x i )
i =
( x i )
12.5.3. Interpretando los Efectos Marginales en el Modelo

Tobit
La interpretacin de los efectos marginales en el modelo Tobit depender de lo
que estemos interesados en investigar. Podemos estar interesados en (i) la media
de la distribucin censurada o bien (ii) los coeficientes del modelo latente. Por
ejemplo, suponga que tomammos el caso de los salarios reserva, la forma en que
calculemos los efectos marginales depender si estamos interesados en estudiar la
relacin entre educacin (llamemosla xj ) y las ganancias de mercado para aquel-
los que trabajan (la muestra censurada) o entre educacin y ganacias (esperadas)
de mercado para toda la oferta de trabajo (la distribucin completa).
Para el primer caso estaremos interesados en los efectos marginales calculados

a partir del modelo de regresin censurado los cuales vienen dado por :
E(yi |xi )
= j (xi /) (12.24)
xj
Note que, como se esperaba, los efectos marginales son funciones no lineales de x
y .
Para el segundo caso, los efectos marginales vienen dados simplemente por :
E(yi |xi )
= j (12.25)
xj
Considere por un momento que pasara si el valor de xj aumenta. Primero, afec-

tar la media condicional del valor de yi en la parte positiva de la distribucin.
El segundo efecto es que un aumento de xj aumentar la probabilidad de que
la observacin caiga en la parte positiva de la distribucin. La siguiente figura
ilustra la naturaleza del modelo Tobit.
164
12.5.4. Estimacin del Modelo Tobit
La estimacin sobre toda la muestra de datos bajo OLS entrega estimadores
inconsistentes y as los investigadores utilizan la forma de ML para realizar es-
timaciones consistentes de los parmetros. Para elmcaso del Tobit, la funcin de
verosimilitud en logaritmo (log-likelihood) viene dada por :
! 1 (yi xi )2 !
log L = [ log(2) + log( 2 ) + ] + log[1 (xi /)] (12.26)
y >0
2 2 y =0
i i
165
la cuales una mezcla de una funcin contnua para aquellas observaciones no cen-
suradas ( la primera sumatoria) y una distribucin discreta para las observaciones
censuradas (el segundo trmino). Esta es una expresin compleja pero manejable
( la instruccin en STATA se denomina heckman), sin embargo la mayora de los
trabajos empricos tambin reportan las estimaciones por OLS con fines compar-
ativos.
Resultado (emprico)
Parece ser que los estimadores OLS son menores en valor absoluto que aquellos
estimados por MLE. Existe una regularidad emprica la cual sugiere que los es-
timadores MLE pueden ser aproximados al dividir los estimadores OLS por la
proporcin de observaciones que caen fuera del rango de censura. La estimacin
por OLS realizada solo sobre las observaciones censuradas entrega estimadores
sesgados e inconsistentes. Existe un mtodo de facil aplicacin para estimar el
modelo tobit mediante el uso OLS orregido"propuesto por Heckman en 1979.
Dado que generalmente este mtodo es utilizado para el problema de Sesgo de
Seleccin primero disctutiremos este problema en detalle y despus nos abocare-
mos al procedimiento de Heckman.
12.6. Sesgo de Seleccin y el Mtodo de Heckman

en dos Etapas
El sesgo de seleccin surge cuando los factores que causan la censura de la
muestra estn correlacionados con aquellos factores que determinan el valor es-
perado de la variable dependiente sobre la muestra truncada. Pensando en el caso
de la participacin femenina en el mercado del trabajo : el que una mujer par-
ticipe en el mercado del trabajo es una funcin de las ganancias esperadas en el
mercado ( y otros factores). As, el examinar los determinantes de las ganancias
en una muestra de mujeres que efectivamente trabajan no ser representativo
pues ser una muestra de mujeres para las cuales la participacin en el mercado
del trabajo es en s rentable o deseable.
12.6.1. La Densidad Conjunta Truncada

Para examinar los aspectos asociados con el sesgo de seleccin, necesitamos
definir las caractersticas de una densidad conjunta truncada de z e y. Si y y z se
distribuyen normal conjunta estndar entonces :
y
y|z N [(y + (z z , y2 (1 2 )]
z
166
donde es el coeficiente de correlacin. La densidad conjunta truncada de y y z :
f (y, z|z > a) = f (y, z)/P r(z > a)
Los momentos de esta distribucin son :
E(y|z > a) = y + y (z )
y
V ar(y|z > a) = y2 (1 2 (z ))
donde, como antes, y y z son las medias de y y z, y , z las desviaciones
estndar; z = (a
z
z) (z )
; (z ) = 1( z)
el IMR y con (z ) = (z )/((z ) z ).
12.6.2. La Estimacin de Heckman en Dos Etapas

Heckman argumentaba de que el problema de sesgo de seleccin poda ser
pensado como un problema de variable omitida donde la variable omitida era i ,
la Razn Inversa de Mills (IMR) la cual, como notamos anteriormente, es una
medida del grado de truncamiento de la muestra. Mas an, dado que el punto de
truncamiento es endgeno podemos tambin modelar la verosimilitud de que una
observacin aparecer en la parte truncada de la muestra.
Podemos ver por qu esto es as de la siguiente manera. Suponga que tenemos un

modelo de regresin de la siguiente forma :
yi = xi + %i (12.27)
el cual puede representar una relacin entre ganancias (y) y un vectorde otras
variables (x). Sin embargo, suponga de que observamos yi solo si zi = 1 donde :
:
1 si yi > 0
zi
0 en otro caso.
y
zi = Wi + ui (12.28)
donde z es una variable latente no observable. La ecuacin (30) represeta un
mecanismo de seleccin y la ecuacin (29)puede ser re especificada como una
regresin truncada condicional en que zi = 1.
E[yi |zi = 1] = xi + $ (Wi ) (12.29)
La ecuacin anterior no es lineal en los parmetros y en consecuencia, no puede

ser estimado usando nuestro modelo lineal estndar. El estimador eficiente, en
167
este caso es uno de ML. Una alternativa conveniente (parcialmente lineal) es el
procedimiento alternativo de Heckman en dos etapas. Este ltimo entrega esti-
madores consistentes aunque no completamente eficientes y se implementa de la
siguiente manera :
Paso 1: Estime un modelo Probit para la regla de seleccin en (30) de tal forma
de producir un estimador mximo verosmil de . Utilizando este valor calcule
para cada observacin de la muetra :
2i = (2

Wi )
(se asume que u = 1) (12.30)
(2
Wi )
El vector de variables Wi contiene los determinantes de la participacin (en el

mercado laboral) y generalmente contiene variables que tambin estn en x. Sin
embargo, para poder identificar la segunda ecuacin, el vector W debe contener
a lo menos una variable que no est en X.
Paso 2: La ecuacin de Heckman (deganacias en el mercado laboral ) corregida

por el sesgo de seleccin es simplemente :
2 i + %i
yi |zi > 0 = xi + (12.31)
donde = $ . El coeficiente sobre el IMR estimado puede ser interpretado

como la covarianza entre %i , ui ; en otras palabras la covarianza entre los errores
el modelo de participacin y el modelo de ganancias. Convenientemente, la prueba
simple de t-student sobre la variable de sesgo de seleccin representa una prueba
simple y directa de la pesencia del sesgo de seleccin en la muestra.
12.7. Errores de Especificacin en los Modelos To-

bit
Puede existir el caso en que las consecuencias (marginales) de un factor o
variable sobre la probabilidad de observar un resultado o fenmeno sea diferente
de la consecuencia (marginal) de ese factor sobre el nivel de una variable o ac-
tividad. Un ejemplo puede ilustrar mejor este punto. Conductores jvenes tienen
mas probabilidad de tener un accidente de trnsito. De esta manera, la edad est
negativamente correlacionada con la probabilidad de solicitar un reembolso a la
aseguradora. Sin embargo, si los conductores jvenes tpicamente manejan autos
mas viejos y menos costosos, entonces la edad (del conductor) est positivamente
correlacionada con el valor del reembolso solicitado. Esto significa que la edad
tendra diferentes signos en las dos partes del modelo Tobit. Pero como se puede
168
ver en la ecuacin (26), existe slo un coeficiente para el valor de cualquier vari-
able explicativa en el caso del Tobit simple.
Para testear si existe un problema de especificacin (entre unTobit simple y aquel

en dos etapas, denominado Tobit tipo II) deberemos especificar un modelo gen-
eral de las dos etapas del Tobit de la siguiente forma :
Modelo de Decisin : P r(yi > 0) = (xi ) zi = 1 si yi > 0
Regresin parte no limitada : E[yi |zi ] = xi + i
donde hemos permitido de que los coeficnites asociados a las variables puedan
difereir no solo en su valor sino tambin en su signo. Podemos entones testear
la restriccin (del Tobit simple) de que = usando una prueba de LR de la
siguiente forma :
Lr = 2[log Lt (log Lp + log Ltr )] 2k
donde Lt es la verosimilitud del Tobit; Lp la verosimilitid del Probit y Ltr la
verosimilitud de la regresin truncada.
12.7.1. Heteroscedasticidad
Recordemos el modelo de regresin lineal hetroscedastico estndar
yi = xi + %i = f (xi ) + %i (12.32)
donde E(%i ) = 0, E(%2i ) = 2 g(zi ) Sabemos de que los estimadores de los
parmetros de la regresin (ie la media condicional) son insesgados pero inefi-
cientes. Esto tiene que ver con con la caracterstica de de linealidad aditiva del
modelo de tal forma que es posible separar los parmetros que determinan la
expresin para la media condicionla (ie f (xi ) ) de aquellos que estn detrs de la
determinacin de la precisin de dichos estimadores, g(zi ).
Las cosas no son tan simples cuando tenemos heteroscedasticidad en un modelo

de variable dependiante limitada : de hecho ante la presencia de heteroscedasti-
cidad la estimacin por MLE del modelo Tobit ser sesgada e inconsistente. Ello
puede observarse a partir de la funcin de verosimilitud :
! 1 (yi xi )2 !
log L = [log 2 + log 2 + 2
] + log[1 (xi /)] (12.33)
y >0
2 y =0
i i
Puede resultar claro de que si la varianza del modelo es contante, entonces puede
sacarse de la funcin () en el segundo trmino de la funcin de verosimilitud.
169
12.7.2. No Normalidad
Vimos anteriormente de que todos los resultados de inferencia a partir de
muestras truncadas dependen crucialmente sobre la estructurade los errores en
el modelo de variable latente. Tpicamente cuando los errores no son normales
entonces los estimadores de parmetros ( de los coeficientes, varianza y IMR)
sern inconsistentes.
Existe un trabajo importante durante los ltimos aos acerca de estimadores

alternativos al Tobit cuando los errores del modelo latente no siguen una dis-
tribucin normal. Existe dos formas de solucin bien definidas (i) el estimador
de Least Absolute Deviations (LAD) propuesto por Powell y los mtodos semi-
paramtricos los que asumen otras distribuciones para los errores. Este es un
tema complejo y avanzado el cual est cubierto relativamente bien en Amemiya
(1985) .Afvanced Econometricsaptulo 10 y en Pagan y Ullah "Non Parametric
Econometricsaptulos 7 y 9.
170
Captulo 13
Modelos para Datos de Panel
13.1. Resumen
1. Introduccin a Datos de Panel y modelos con heterogeneidad
2. Modelos de Efectos Fijos y Efectos Variables :Modelos de Una Componentes
y Modelos de Dos Componentes
3. Efectos Fijos versus Efectos Variables : Prueba de Especificacin de Haus-
man
4. Extensiones
13.2. Referencias
Greenne, Captulo 14
Hsiao, Analysis of Panel Data, Econometric Society Monograph Cambridge
University Press (1986.)
Baltagi, Econometric Analysis of Panel Data, John Wiley (1995).
13.3. Introduccin
Un conjunto de datos de panel o longitudinales es aquel que sigue indi-
viduos (firmas o paises) a travs del tiempo y en consecuencia entrega mltiples
observaciones para cada individuo. As, datos de panel es la unin de datos en
serie de tiempo y de corte transversal. El anlisis de la de conductas utilizando
datos de panel es una de las reas ms atractivas de la econometra. En esta y la
siguiente clase daremos una introduccin a este tema.
171
13.3.1. Porqu usar Datos de Panel ?
Mas observaciones
Un panel contiene NT observaciones. Por convencin, indexaremos la dimen-
sin temporal como t = 1 T y la dimensin transversal como n = 1 N . Tpi-
camente T es relativamente pequeo mientras N es relativamente mayor. Notar
que incluso si T = 2 tendremos un panel que puede ser utilizado para realizar
estimaciones. El aumento en el nmero de observaciones aumentar el nmero
de grados de libertad, reducir el grado de colinealidad muestral y aumentar la
eficiencia de cualquier estimador que se obtenga.
Discriminacin entre hiptesis

Al utilizar el componente de series de tiempo de los datos puede ser posible
discriminar entre hiptesis aspecto que no es posible realizar al utilizar solo datso
de corte transversal
Ejemplo: Considere el efecto de la sindicalizacin sobre los salarios. Suponga que

observaciones de corte transversal sugieren que firmas donde existen sindicatos,
sus trabajadores tienen salarios mas altos. Esto es consistente con a lo menos dos
hiptesis. Primero, que los sindicatos hacen aumentar los salarios por encima de
la productividad marginal de la mano de obra. Segundo, que diferentes niveles
de sindicalizacin reflejan factores diferentes al poder del sindicato, como ser la
productividad de la mano de obra individual. Estas dos apreciaciones no pueden
ser distinguibles en el caso de que slo contramos con datos de corte transversal.
Sin embargo, si pudiramos seguir a los trabajadores durante el tiempo entonces
podramos determinar si el salario de un trabajador con una habilidad constante
sube o n cuando pasa de no estar sindicalizado a estarlo.
Controlando por heterogeneidad individual no observable

Similar al caso anterior el que lo ilustraremos mediante un ejemplo. Suponga
que estamos estudiando la utilizacin (consumo) de bienes pblicos entre pases e
imagine que existe un factor que vara entre los pases pero que no es fcilmente
medible : uno de estos factores puede ser actitudes polticas con respecto a la
provisin pblica de servicios. Dado que en una poltica pro-estado (estado bene-
factor) es esperable que el consumo de bienes pblicos aumente, en el caso de
estados benefactores como Suecia, uno esperara encontrar una diferencia signi-
ficativa en la propensin al consumo de bienes pblicos con respecto al promedio
del resto de los pases. En una regresin de corte transversal, podramos manejar
este problema al utilizar una variable dummy para Suecia. Esto, sin embargo, lo
172
que logra es sacar completamente a Suecia de la muestra lo que no es satisfacto-
rio. Este no ser el caso para datos de panel, como veremos en seguida.
Considere el siguiente proceso de generacin de datos (bivariado):

yit = i + i xit + uit i = 1....N t = 1, ....T (13.1)
donde, en principio, tanto i como i pueden variar entre individuos. Suponga
que agrupamos las NT observaciones y estimamos el modelo clsico de regresin
(con y fijos) :
yit = + xit + uit (13.2)
Esta especificacin ignora la heterogeneidad entre individuos. Cules son las
implicancias de esto ?
(i) Interceptos heterogeneos (i $= ). Tanto los coeficientes de la pendiente

como de los interceptos estarn sesgados al ser estimados por OLS y el ses-
go no tendr signo determinado. Datos de panel pueden ser tiles en este
caso. Ver Figura.
(ii) Pendientes e interceptos heterogneos (i $= y i $= ). Los estimadores

OLS de las pendientes e interceptos sern sesgados y sin sentido. Tambin
173
se sigue de que modelos estndar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
Controlando por variables omitidas (no observadas o mal medidas)

Datos de panel permiten al investigador usar los elementos tanto dinmicos
como de individualidad de los elementos de un set de datos para controlar por
los efectos de variables faltantes o inobservables. Esta es una de las principales
atracciones acerca del uso de datos de panel.
Considere el siguiente modelo :

yit = + % xit + % zit + uit , it N (0, u2 ) (13.3)
Bajo los supuestos usuales, la estimacin por OLS de (3) entregar estimadores
insesgados y consistentes del vector de parmetros y . Suponga, sin em-
bargo, de que el vector de variables Z no es observable pero donde la matriz
de covarianza entre X y Z no es cero. En este caso, los estimadores OLS de
estarn sesgados, dado que zit representara el caso clsico de omisin de variable.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisin de variable.
174
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que slo difieren entre individuos. As, podemos
tomar las primeras diferencias de (1) con respecto al tiempo para obtener :
(yit yit1 ) = % (xit xit1 ) + (it it1 ) (13.4)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal

manera que ahora se pueden obtener estimadores insesgados y consistentes
de .
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviacin de la observacin de cada individuo sobre la media entre todos
los individuos (en cada perodo), de la siguiente forma :
yit yt = % (xit xt ) + (it t ) (13.5)

$
donde yt = N1 N i=1 yit representa la media grupal (el valor promedio de la
variable del grupo i = 1 N en cada perodo t )
En ambos casos las transformaciones han "sacado"la variable-problema no

observada (o mal medida) Z. Como consecuencia, la estimacin por OLS
de (4) o (5) entregar estimadores insesgados y consistentes de los que
no podran haber sido obtenidos mediante series de corte transversal o en
series de tiempo en forma aislada.
Modelamiento de la Dinmica de Ajuste

Datos de panel son particularmente tiles para el anlisis de la duracin de
situaciones econmicas como desempleo o pobreza. Dependiendo del largo del
panel estos nos pueden dar luces sobre la velocidad de ajuste a shock exgenos.
Aunque estos deben ser modelados con largos datos de panel mediante tcnicas
denominadas Datos de Panel Dinmicos (DPD), los que no veremos en estas
clases.
13.3.2. Algunos Problemas de los Datos de Panel

Costos de recoleccin de los datos
Algunos datos de panel son terriblemente costosos en su recoleccin y re-
quieren largos horizontes de investigacin. Ellos presentan todos los problemas
clsicos de recoleccin de datos como cobertura, no respuesta, seleccin endgena
(i.e. truncamiento endgeno), etc.
175
Medicin del Error Compuesto
En aquellas situaciones en que medir el trmino de error es un problema, esto
puede simplificarse o bien exacerbarse cuando se utilizan datos de panel.
Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiem-

po t por el hogar i con cierto error :
xit = xit + %it (13.6)
donde %it es una medida del error con media cero y varianza seccional igual a .
Si asumimos de que Cov(x, %) = 0 entonces V ar(xit ) = V ar(xit ) + . Ahora,

si vamos a utilizar estos datos para eliminar algunos efectos no observables (co-
mo en la ecuacin (4)) entonces tenemos lo siguiente :
xit = xit + %it

V ar(xit ) = V ar(xit ) + 2 2 (1 ) (13.7)
donde es la correlacin entre el error de medicin de dos perodos. Ello puede

sugerir dos casos extremos:
Caso (i) Errores Independientes del Tiempo (autocorrelacin perfecta) Suponga de

que un hogar comete el mismo error ao tras ao ( por ejemplo el hogar se
equivocan en ingresar el valor de su casa). En este caso tender a uno y
en consecuencia :
xit xit
V ar(xit ) V ar(xit ) (13.8)
De esta manera, datos de panel permiten que los errores de medicin sean
"eliminados"de los datos y as los parmetros de inters sean estimados sin
sesgo.
Caso (ii) Suponga que los errores de medicin no estn correlacionados en el tiempo
( = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el
error de medicin ser duplicada. Si la varianza del verdadero valor de X es
relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces,
al diferenciar los datos significar que la "seal"es absorbido por el ruido".
En general, notar de que si < 0,5 al diferenciar los datos tendr un efecto
desproporcionado sobre la varianza del error en la medicin relativo a la
varianza propia de la variable en s.
176
Sesgo de Respuesta Sistemtica y Reduccin Sistemtica
El primer sesgo surge al tener que visitar en forma reiterada al mismo in-
dividuo y las respuestas pueden entonces ser endgenas; las personas tienden a
exagerar. El segundo sesgo est relacionado con el hecho de que las los hogares
o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que
o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir
un sesgo hacia atrs. Esto se puede corregir con los denominados pseudo-paneles,
tpico que est fuera del alcance de este curso.
13.4. Un Modelo Lineal General para Datos de

Panel
El modelo bsico de datos de panel combina series de tiempo con datos en
corte transversal en un solo modelo el cual puede ser escrito de la siguiente forma
:
yit = + Xit + uit , i = 1....N, t = 1.....T (13.9)
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes
modelos de datos de panel dependern de los supuestos que se realicen sobre los
errores no observados uit . Existen principalmente dos alternativas :
El one-way error component model (modelo de error de componente en un

solo sentido) el cual asume de que la estructura del error se define como sigue
uit = i + it , it iid(0, 2 ) (13.10)
donde i denota efectos especficos al individuo que no son observables y it son
los denominados efectos idiosincrticos. Los i son invariantes en el tiempo y
dan cuenta de cualquier tipo de efecto individual no incluido en la regresin. Un
ejemplo estndar en ecuaciones de ganancia es la habilidad; en funciones de pro-
duccin agrcola uno de estos efectos puede ser la calidad (no observada) del suelo;
en macro paneles sobre crecimiento de pases se pueden incluir normas culturales
(e.g. con respecto al ahorro o riesgo).
El two way error component model se asume de que la estructura del error
se define de la siguiente manera :
uit = i + t + it , it iid(0, 2 ) (13.11)
donde, nuevamente, i denota efectos individuales especficos no observables y
donde t denota efectos temporales no observables. Estos efectos se asumen que
son comunes entre individuos pero que varan en el tiempo. Ejemplos incluiran
variaciones en el clima o cambios en la poltica econmica en general.
177
13.5. El One Way Error Component Model
Podemos re escribir (9) en forma vectorial de la siguiente forma :
Y = 1N T + X + u = Z + u (13.12)
donde las dimensiones de las matrices son Y = [N T 1], X = [N T K],

Z = [1N T X] y % = [% % ] en donde 1N T es un vector de unos de dimension
N T . De esta forma (10) puede ser expresado como sigue:
u = Z + (13.13)
donde u% = (u11 , ...u1T , u21 , ...u2T , ....uN 1 , ...uN T ) y Z = IN 1N T , con IN la ma-

triz identidad y el producto Kronecker.
De esta manera Z es la matriz de seleccin la que est compuesta de ceros

y unos y que captura los efectos de i . Usaremos estos resultados para calcular
dos matrices adicionales. La primera es :
P = Z (Z% Z )1 Z%
la cual es la matriz de proyeccin sobre Z ; matriz que promedia las observa-

ciones en el tiempo para cada individuo. La segunda matriz es :
Q = IN T P
la cual permite obtener las desviaciones sobre las medias individuales.

$T
De esta forma P u, tiene el tpico elemento ui = uit
t=1 T y la matriz Qu tiene
este como elemento tpico uit ui
Estas relaciones se usan extensivamente para derivar los modelos de datos de

panel. Ahora consideraremos dos supuestos sobre los efectos individuales i .
13.5.1. Modelo de Efectos Fijos

El modelo de efectos fijos asume que los efectos individuales i son parmetros
determinsticos los que debern ser estimados. Este sera el caso si N representa
la "poblacin"tal como el conjunto de pases o estados o firmas, y que nuestras
inferencias es solamente relacionada sobre las N observaciones que se dispone. As
la inferencia es condicional sobre las N observaciones en particular : no estare-
mos utilizando los resultados para inferir aspectos relacionados a otro conjunto
de pases/firmas/individuos.
178
Al sustituir (13) en (12) tenemos que:
y = 1N T + X + Z + = Z + Z + (13.14)
Podemos usar OLS sobre (14) para generar estimadores de y el vector de y
al incluir (N 1) variables dummy para los efectos fijos no observados. Esta
estimacin generalmente se conoce con Estimador Minimo Cuadrtico de
Variables Dummy (LSDV). Cada uno de los coeficientes sobre i miden la
diferencia de los efectos individuales con respecto a un individuo base de com-
paracin ( representado por ).
Sin embargo, si N es grande con respecto a N T existirn demasiados parmetros

a estimar (, y los N 1 efectos individuales especficos) en (14). Comunmente,
el inters del investigador estar en saber los valores de , y en consecuencia,
desearemos simplemente controlar, y n estimar, los efectos individuales los que,
despus de todo, son una amalgama de diferentes aspectos de la heterogeneidad.
La alternativa mas comn para estimar esta situacin es el estimador de efec-

tos fijos. Primero, deberemos pre multiplicar el modelo (11) por la matriz de
seleccin Q la cual calcula las desviaciones con respecto a la media grupal (de
individuos). La observacin representativa para el individuo i en el tiempo t es :
(yit y i ) = ( i ) + (Xit X i ) + (i i ) + (vit v i ) (13.15)
$
donde y i = T1 Tt=1 yit es la media del valor y para el individuo i sobre todo
el perodo de observaciones (t = 1 T ). Notar de que por definicin de que el
primer y tercer trmino de la parte derecha de (15) son cero. En una notacin
vectorial mas conveniente queda de la siguiente forma :
Qy = QX + Q (13.16)
donde hacemos uso del hecho de que Q Z = Q1N T = 0 dado que el promedio
temporal del efecto invariante en el tiempo es simplemente el efecto en si mismo.
De esta forma, podemos estimar como sigue :
3W = (X % QX)1 X % Qy (13.17)
donde
V ar(3W ) = 2 (X % QX)1 = 2 (X
3 % X)
3 1 (13.18)
y donde podemos recuperar el valor estimado de como :
3W = y X 3W

donde aqu, el promedio
$N se calcula sobre todas las observaciones basados en la
restriccin de que i=1 i = 0 el cual es un supuesto estndar para las variables
dummy.
179
Resultados
Si (14) es el verdadero modelo, el estimador de efectos fijos es BLUE slo
mientras vit tenga las caractersticas Gausianas estndar. A medida de que T
tiende a infinito, entonces el modelo es consistente para todos los parmetros del
modelo. Sin embargo, si T es fijo y N tiende a infinito, entonces el estimador FE
de ser consistente. El estimador FE de los efectos individuales ( + i ) no
son consistentes dado que el nmero de parmetros aumenta a medida de que N
aumenta.
Pruebas de Efectos Fijos

Podemos testear para la existencia de efectos fijos al usar un test F estndar
donde la nula es que :
Ho = 1 = 2 = N 1 = 0 (13.19)
La suma de cuadrados de residuos restringidas viene dado por la suma de los

cuadrados de los residuos del modelo OLS sobre los datos agrupados y el modelo
sin restringir son la suma de los residuos al cuadrado del modelo de efectos fijos.
La prueba es la siguiente :
(rrss urss)/(n 1)
FF E = F[n1,ntnk] (13.20)
urss/(nt n k)
Generalmente nos referiremos a esta como la restriccin de agrupamiento sobre

la heterogeneidad no observable en el modelo.
13.5.2. Modelo de Efectos Aleatorios

Suponga ahora que los efectos individuales no son deterministicos sino que
cada uno de ellos son una variable aleatoria. Esto sera un supuesto mas razonable
en el caso de que nuestros datos fuera una muestra genuina utilizada con el fin de
realizar inferencias sobre la poblacin como un todo. Estos efectos aleatorios no
observables pueden ser pensados a nivel de individuos como habilidades mientras
que a nivel de firma podemos pensar en trminos de capacidad administrativa.
Asumiremos de que i iid(0, 2 ) y que ambos, i , vit son independientes de Xit
para todo i y t. Ahora, siendo los efectos individuales aleatorios la varianza del
trmino de error ser :
V ar(uit ) = 2 + 2 (13.21)
El aspecto clave de esta varianza es que a pesar de ser homosedastica, tiene
correlacin serial al interior de cada unidad de corte transversal (dado que cada
180
"efecto individual"de cada persona persiste en el tiempo). En particular, sea :
Cov(uit , ujs ) = (i + vit )(j + vjs ) (13.22)
As, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = 2 + v2 . POr otro

lado, si i = j pero t $= s entonces se tiene que la Cov(uit , ujs ) = 2 y cero en otro
caso. Por extensin, tenemos lo siguiente :
= Corr(uit , ujs ) = 1 para i = j; t=s
2
= Corr(uit , ujs ) = para i = j; t $= s
(2 + 2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la
matriz de varianzaas covarianzas para el modelo de datos de panel no ser del
tipo "Gaussiano". Para proceder con la estimacin necesitaremos analizar la es-
tructura de esta matriz.
Para examinar el estimador de efectos aleatorios necesitaremos introducir una

nueva matriz de seleccin. Sea JT una matriz de unos de dimensin T de tal
forma de que Z Z % = IN JT .
De esta manera, a partir de (13) podemos calcular la matriz de varianza co-

varianza (la cual es ahora de N T N T )
= E(uu% ) = Z E(% )Z% + E( % ) (13.23)
la cual se puede simplificar en la siguiente expresin :
= (T 2 + 2 )(IN J T ) + 2 (IN ET ) = 12 P + 2 (13.24)
donde J T = JT /T , ET = (IT J T ) y 12 = T 2 + v2 .
Con esta definicin podemos entonces aplicar a (14) el estimador GLS estn-
dar para derivar los estimadores de los coeficientes de , bajo el supuesto de
efectos aleatorios:
2GLS = [X % 1 X]1 [X % 1 y] (13.25)
El nico problema (y uno no trivial) es que es de rango (N T N T ) y la in-
versin de esta matriz es extremadamente difcil. Un sinnmero de trucos se han
desarrollado para salvar esta traba.
181
La forma de resolucin a este problema mas popular introduce los denomina-
dos estimadores Entre Grupos (BG) el cual regresiona un conjunto de observa-
ciones consistentes en el promedio a travs del tiempo para cada una de las N
observaciones :
%
y i. = + X i. + ui i = 1, ...N (13.26)
donde :
T
1!
y i. = yit
T t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro
modelo bsico en (14) :
P y = P 1N T + P X + P (Z + ) (13.27)
el cual entrega el siguiente estimador :
3B = [X % (P J N T )X]1 [X % (P J N T )y] (13.28)
Este estimador se denomina entre grupos pues ignora cualquier variacin al in-
terior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un
resumen de la informacin de corte transversal simple sobre la variacin entre los
grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser ex-
presado como :
2 (X % QX) X % (P J N T )X 1 (X % Qy) X % (P J N T )y
GLS = [ + ] [ + ] (13.29)
2 12 2 12
Podemos simplificar la expresin anterior mediante la siguiente notacin. Sea
WXX = X % QX, WXY = X % Qy, BXX = X % (P J N T )X, BXY = X % (P J N T ) y
2
finalmente, 2 = 2 .
1
Usando estas definiciones podemos reexpresar (29) como :
2GLS = [WXX + 2 BXX ]1 [WXY + 2 BXY ] (13.30)
el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.
Finalmente, notar de (17) de que WXX1

WXY es simplemente el estimador al in-
terior del grupo (o intra grupo, WG) y de (28) de que BXX
1
BXY es el estimador
entre grupos (BG) de tal forma que :
2GLS = 3W + (1 )3B (13.31)
182
con = [WXX + 2 BXX ]1 WXX . El estimador GLS en (31) es un promedio
ponderado entre los estimadores entre grupos e intra grupo. El parmetro clave
en la ponderacin es . Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces 2 tender a cero, y por tanto
a la unidad. En este caso, el estimador GLS tender al estimador intra
grupo o el estimador LSDV.
(ii) Si 2 tiende al infinito entonces tender a cero y en consecuencia el

estimador GLS converger al estimador entre grupos.
(iii) Si 2 = 0 (i.e. los efectos individuales son determinsticos) entonces 2 = 1

y as el estimador GLS tender al estimador OLS (el cual entrega igual
ponderacin a la variacin intra grupo y inter grupos).
Podemos pensar, en consecuencia, a los estimadores LSDV (FE) y el estimador

OLS con los datos agrupados como casos especiales del estimador GLS donde el
estimador LSDV trata a todos los efectos individuales como fijos y diferentes y
donde el estimador OLS asume de que todos son fijos pero idnticos. El estimador
GLS de efectos variables permite a los datos considerar una posicin intermedia.
13.5.3. Estimacin Factible del estimador GLS

Como en todos los casos de estimadores GLS, necesitamos un procedimiento
para estimar los componentes de la matriz de varianzas y covarianzas de tal man-
era de que la podamos utilizar para estimar los parmetros del GLS. Necesitamos,
en consecuencia, estimaciones de 2 y 2 .
La primera opcin es usar una estimacin mxima verosmil interativa. Bajo los
supuestos de normalidad para 2 y it podemos escribir la funcin de verosimili-
tud de la siguiente manera:
NT N 1
log L(, , 2 , 2 ) = constante log 2 + log 2 2 u% 1 u (13.32)
2 2 2
y maximizarla en la forma usual, utilizando los estimadores entre grupos como

los valores iniciales de .
Alternativamente 1 , valores consistentes de 2 pueden ser derivados a partir de

los estimadores intra grupos ( ya que este estimador suprime los efectos entre
grupos) y los estimadores de 2 pueden ser obtenidos a partir de los estimadores
1
ver la rutina existente en STATA
183
entre grupos ( ya que suprime el efecto intra grupo). Estos estimadores consis-
tentes pueden ser sustituidos en el estimador GLS.
Si el modelo de efectos aleatorios es correcto, entonces el estimdor GLS basa-

do en las componentes verdaderas de varianzasa es BLUE. Todos los estimadores
FGLS sern consistentes a medida de que N o T tiendan a infinito.
Resumen
El mtodo de estimacin a ser usado depender en si asumimos de que los efectos
individuales sean fijos o aleatorios. Resulta ser de que los valores para los parmet-
ros pueden variar dramticamente, en el caso mas comn donde N es grande
y T pequeo, entre estimadores intra o entre grupos. Cuando slo existen pocas
observaciones en el tiempo resulta mejor usar los elementos de corte transversal
de los datos para estimar aquella parte de la relacin que contenga variables que
difieren entre un individuo al otro (el estimador entre grupos). Ello permite de
que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal
manera de rescatar la parte comn de dicha relacin entre individuos.
13.5.4. Problemas de Especificacin

Hasta el momento se ha asumido de que los efectos individuales son o bien
fijos (i.e. no estocsticos) o si estos eran aleatorios, la covarianza entre los efectos
no observables y las variables xi es cero. Esto puede no ser muy realista. Por ejem-
plo, en una funcin de produccin las capacidades administrativas no observables
podran estar correlacionadas con la eleccin de los insumos.
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuan-

do los efectos i son tratados como variables aleatorias pero la varianza entre
estos y las variables xi no son cero, el estimador de efectos aleatorios GLS ser
segado e inconsistente. Dado que el estimador intra grupo "eliminaompletamente
el efecto de los i , entonces el estimador de efectos fijo intra grupo es insesgado
y consistente.
Un corolario del resultado anterior es el siguiente. Por una parte, si Cov(ui , xi ) $= 0

entonces W es BLUE y por lo tanto GLS = B + (1 )W estar sesgado.
Por otra parte, si Cov(ui , xi ) = 0 enonces se tiene que GLS = b + (1 )W
es BLUE y asintticamente eficiente.
El test de especificacin de Hausman puede ser tambin utilizado en este caso. De

no existir covarianza (i.,e. bajo la nula) entonces el estimador GLS ser BLUE y
asintticamente eficiente; pero bajo la alternativa de que existe covarianza entre
184
los efectos y las variables xi , el estimador GLS ser sesgado. En contraste, el esti-
mador intra grupo (efecto fijo) ser consistente y BLUE (pero n asintticamente
eficiente) bajo la alternativa y consistente bajo la nula. La prueba de Hausman
pregunta simplemente si existen diferencias significativas entre los estimadores
GLS y intra grupo y viene denotado de la siguiente forma :
m = (2W 2GLS )% V ar(2W 2GLS )1 (2W 2GLS ) 2[k] (13.33)
donde la hiptesis nula es que la covarianza es cero. Covarianza significativa entre

los efectos i y las variables xi har que el valor de m sea grande lo que rechazar
el test y deber estimarse, entonces, utilizando el estimador de efectos fijos intra
grupo.
13.6. El Two Way Error Component Model

Suponga de que el trmino de error tienen dos efectos sistemticos no observ-
ables de la siguiente manera :
uit = i + t + it it iid(0, 2 ) (13.34)
Podemos re escribir esto en forma vectorial como :
u = Z + Z + (13.35)
donde Z fue anteriormente definido y Z = 1N IT es la matriz de variables

dummies temporales que capturan el efecto t si estos son parmetros fijos.
13.6.1. El Estimador de Efectos Fijos

Como fue definido anteriormente, si i y t son determinsticos (y vit es inde-
pendiente de los xit ) podemos utilizar el estimador LSDV el cual incluye N 1
variables dummy para cada efecto individual y T 1 variables dummy para los
efectos temporales. Esto, sin embargo, consume una gran cantidad de grados de
libertad los que pueden hacer invlida la estimacin.
Podemos usar no obstante, una versin modificada del estimador intra grupo
mediante una transformacin que "saque"los efectos de i y t . Re definiendo la
transformacin Q tenemos :
Q = IN I T I N J T J N I T + J N J T (13.36)
185
Esta transformacin significa que el tpico elemento del vector y viene dado por :
y3 = (yit y i. y .t + y) (13.37)
donde el segundo trmino de la expresin a la derecha promedia a travs del
tiempo ( y en consecuencia saca el efecto temporal); el tercer trmino promedia
entre individuos para el mismo perodo ( asi sacando el efecto individual); mien-
tras que la ltima expresin promedia los efectos entre los individuos y entre los
perodos de tiempo (recuperando la variacin no explicada de los efectos individ-
uales y temporales). Aplicando esta transformacin al trmino de error tenemos
el siguiente resultado importante :
3it = (uit ui. u.t + u.. ) = (it i. .t + .. )
u (13.38)
Podemos entonces estimar los parmetros de inters como :
3 = (X % QX)1 X % y (13.39)
con la estimacin del intercepto comn como sigue :
3 ..
3 = y .. X
(13.40)
(ver Baltagi pp.28 para una derivacin completa )
Prueba de Efectos Fijos

Como en el caso del one way eror component model, podemos testear por la
presencia de efectos fijos usando la prueba F estndar sobre la nula :
Ho = 1 = n1 = 1 T 1 = 0 (13.41)
13.6.2. Modelo de Efectos Aleatorios

Ahora suponga que ambos efectos individuales y temporales son no determin-
isticos, es decir podemos tratarlas como variables aleatorias estocsticas. Podemos
asumir de que i iid(0, u2 ), t iid(02 ) independiente entre cada uno de
ellas y con it , y que i , t , it son independientes de xit para todo i y t. Ahora
siendo los efectos fijos aleatorios, la varianza del trmino de error ser :
V ar(uit ) = 2 + 2 + 2 (13.42)
El aspecto clave de esta varianza es que siendo de nuevo homoscedstica tendr
dos tipos de correlacin serial : entre cada unidad de corte transversal (un "efecto
fijo"individual que persiste en el tiempo) y uno a travs del tiempo. As :
Cov(uij , ujs ) = 2 si i = j, t $= s
186
Cov(uij , ujs ) = 2 si i $= j, t=s
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el
caso del modelo de one way eror component, podemos utilizar el estimador pon-
derado de Maddala en el cual tenemos dos estimadores "entre". As existir e
tradicional estimador Intra Grupo (usando la ecuacin (38)) derivado a partir de
la aplicacin del la matriz de seleccin Q1 ; el estimador intergrupos individual el
cual es derivado de la regresin: (y i. y .. ) sobre (xi. x.. ) utilizando la matriz de
seleccin Q2 ; y el tercer estimador intergrupos temporal el cual se deriva de la
regresin entre(y .t y .. ) sobre (x.t x.. ) utilizando la matriz de seleccin Q3 .
Definiendo WXX = X % Q1 X; BXX = X % Q2 X; CXX = X % Q3 X, y en forma anloga

2 2
para WXY , BXY y CXY donde adems se tiene que 22 = v2 ; 23 = v3 ; 2 = T 2 +2
y 3 = n2 + v2 , Maddala (Econometrica, 1971) demuestra de que el estimador
GLS puede ser expresado mediante un rearreglo de (29) como :
2GLS = [WXX + 22 BXX + 23 CXX ]1 [WXY + 22 BXY + 23 CXY ] (13.43)
el cual puede ser simplificado un paso ms al notar de que WXX

1
WXY es simple-
mente el estimador intragrupo y que BXX BXY es el estimador integrupo indi-
1
vidual y que CXX

1
CXY es el estimador intergrupo temporal. As, se tiene que la
siguiente expresin :
2GLS = 1 3W + 2 3B + 3 2C (13.44)
donde :
1 = [WXX + 22 BXX + 23 CXX ]1 WXX

2 = [WXX + 22 BXX + 23 CXX ]1 (22 BXX )
3 = [WXX + 22 BXX + 23 CXX ]1 (23 CXX )
A partir de lo anterior, fFinalmente se tiene que :
Si 2 = 2 = 0 implica de que 22 = 23 = 1 y as el estimador GLS tender

al OLS.
Si T y N tienden al infinito entonces esto implica de que 22 , 23 tiendan a

cero y as el estimador GLS tienda al estimador intra grupo.
Si 22 (23 ) tienden a infinito entonces el estimador GLS tender al estimador

intergrupo individual (intergrupo temporal).
187
13.7. Extensiones
El modelo bsico puede ser extendido en varias direcciones. Estas son discu-
tidas en forma extensa en el Hsiao y en Baltagi y estn fuera del alcance de este
curso. Entre las mas interesantes se tiene :
Tratar la Heteroscedasticidad y Correlacin Serial en Datos de Panel.
Modelos de Sistemas con Datos de Panel.
Variables con variable Dependiente Discreta en datos de panel.
Modelos de Datos de Panel Dinmicos.
188
Captulo 14
Macroeconometra: Series de
Tiempo.
14.1. Introduccin
Uno de los principales aspectos de la economa est vinculado con la relacin
entre variables en el tiempo como tambin en cualquier punto del tiempo. Por
ejemplo, podramos estar interesados no slo en la relacin entre el nivel de inver-
sin y la tasa de inters hoy en da sino que tambin la manera de cmo la tasa
de inters hoy afecta el nivel de inversin maana. El anlisis de relaciones in-
tertemporales es central en nuestra comprensin de la conducta econmica como
la optimizacin inter temporal, aprendizaje, la conducta ante costos de ajuste, por
nombrar algunos. Tambin resulta ser un aspecto fundamental para formalizar las
nociones de equilibrio en un sistema dinmico y los ajustes hacia dicho equilibrio.
Desde un punto de vista estadstico, una consecuencia importante de la depen-

dencia inter temporal de los fenmenos econmicos es que las observaciones en
series de tiempo en una muestra no son aleatorias dado que comparten un factor
comn en su generacin, el tiempo. Ello a menudo merma la utilidad de mto-
dos economtricos estndar y en consecuencia estamos forzados a buscar tcnicas
novedosas para poder solucionarlos. Durante las clases que restan formalizaremos
el modelamiento de relaciones en series de tiempo. En esta primera clase nos con-
centraremos en la caracterizacin de las relaciones en series de tiempo mientras
que en las siguientes examinaremos aspectos relacionados con el modelamiento
de relaciones en series de tiempo.
189
14.2. Resumen
1. Definiciones y terminologa
2. Definicin de Estacionariedad
3. Caractersticas de serie estacionarias y no estacionarias
4. Orden de integracin
5. Regresin esprea y regresiones inconsistentes
6. Testeo del orden de integracin : algunas pruebas estndar
7. Testeo del orden de integracin : otras pruebas mas avanzadas
14.2.1. Referencias
Enders Captulos 1-4
Grenne Captulo 15,18-19
Hamilton Captulos1-3,15
Hendry Captulos 2 y 4
14.3. Definiciones y Terminologa

Comenzaremos por recordar algunos conceptos bsicos. Para ello considere la
siguiente ecuacin dinmica :
yt = a + b1 yt1 + b2 yt2 + ... + bp ytp (14.1)
Est ecuacin describir un trayectoria convergente o divergente para yt la que

depender de las races de la ecuacin caracterstica. Las races, las que denom-
inaresmos por z, se obtienen a partir de la solucin la siguiente ecuacin carac-
terstica :
c(z) = 1 b1 z b2 z 2 ... bp z p = 0 (14.2)
Si las races que resulten de resolver la ecuacin anterior son mayores que la unidad
en valor absoluto, entonces se dice que la ecuacin e estable (i.e. convergente). El
ejemplo mas sencillo es el proceso AR(1) donde la ecuacin caracterstica es :
c(z) = 1 bz = 0 (14.3)
190
la que entrega una sola raz igual a z = 1/b la cual es mayor que la unidad si
|b| < 1.
Considere ahora un proceso AR(2) particular, el que tiene las siguiente estructura:
yt = 0, 6yt1 + 0, 3yt2 + ct (14.4)
La expresin en trminos del polinomial rezagado es c(L) = 1 0, 6L 0, 3L2

cuya ecuacin caracterstica es :
c(z) = 1 0, 6z 0, 3z 2 = 0 (14.5)
Resolviendo para las races z, encontramos que stas son iguales a 1.0816 y -
3.0816 ambas mayores que uno en valor absoluto lo que significa que la serie es
convergente.
Suponga que los valores de los parmetros b1 y b2 fueran 0.5 y 0.7 respectiva-
mente, entonces las races seran 0.8903 y -1.6046. Ya que una de estas races es
menor que uno en valor absoluto entonces la ecuacin sera explosiva.
En general, para procesos simples como AR(1) AR(2) la estacionariedad puede

ser fcilmente inferida. Por ejemplo, en un proceso AR(1) simplemente se re-
querir de que |b| < 1( ya que la raz es z = 1/|b| ) mientras que para un proceso
AR(2) se necesitar la condicin de que
|b2 | < 1, |b1 + b2 | < 1, b2 b1 < 1
para que la serie sea estacionaria. Para procesos mas complejos, no podemos decir
tan fcilmente si la series ser convergente o explosiva.
Una caracterstica importante de las series de tiempo es que puede tambin ser
visto ya sea como una regresin sobre valores pasados con un trmino de error
aditivo (el AR) o como la agregacin de errores pasados (el MA). Para ver esto
podemos re expresar el proceso AR(1) como :
yt = + yt1 + %t
donde es la constante y %t el trmino de error. Al aplicar el operador rezago L,

la ecuacin anterior puede ser escrita de la siguiente forma :
yt (1 L) = + %t (14.6)
de esta forma, al dividir la expresin anterior por (1 L) y notando de que si

|| < 1 entonces 1/(1 L) = (1 + + 2 + 3 .... i ). En consecuencia, el proceso
191
AR(1) puede ser reexpresado de la siguiente forma :
! n

yt = + i %t1 (14.7)
(1 ) i=o
Esto ltimo expresa la evolucin de la variable y en trminos de una constante y

la historia de "innovaciones". 1
La evolucin de yt claramente depende de la historia de innovaciones y en conse-

cuencia, del valor de la secuencia de . Si el valor de es menor que la unidad
entonces para progresivas potencias mas altas (i.e. rezagos mayores) el efecto de
las innovaciones va desapareciendo. Nos referiremos a este tipo de casos como
series con memoria corta.
No obstante, si el valor de es alto, entonces innovaciones pasadas tendrn un

mayor peso en la determinacin del valor actual de yt . Nos referiremos a estos
casos como series de memoria larga. En el lmite cuando = 1 entonces (por
conveniencia asumiendo de que = 0 ) podemos re expresar el proceso AR(1)
como :
yt = yt1 + %t (14.8)
o, a partir de (8) como :
n
!
yt = %ti (14.9)
i=0
de tal manera de que shocks antiguos tienen una ponderacin igual en la deter-
minacin del valor actual de yt . Una serie que cumple con estas caractersticas
se conoce como un paseo aleatorio (random walk). Debera resultar evidente de
que el cambio en el valor del paseo aleatorio es una serie con memoria corta :
yt = %t (14.10)
Esta distincin entre series de memoria corta y series con memoria larga est
directamente relacionado con el valor de en el proceso AR ( i.e. con la raz).
Esta es la principal distincin entre estacionariedad, no estacionariedad y orden
de integracin.
14.4. Estacionariedad y No estacionariedad

Definicin 1
Se dice que una serie es estacionaria si los momentos de la serie ( como la media
1
Notar que dado que es una constante, el operador rezago en el primer trmino desaparece.
192
y la varianza) son independientes del tiempo. No obstante, en la prctica nos con-
centraremos en los casos de estacionariedad dbil, de segundo orden y covarianza.
Definicin 2
Se dice de que una serie es estacionaria en covarianza si :
E(yt ) = t
V ar(yt ) = 0 t (14.11)
Cov(ys , yt ) = k
esto es, que el valor esperado de la serie no depende de t como as tambin su vari-
anza. Por otra parte, k est en funcin de ts pero no de t o s en forma separada.
Un caso especial de estacionariedad es el proceso de ruido blanco (white noise)

donde :
E(yt ) = 0
V ar(yt ) = 2 (14.12)
Cov(yt , ys ) = 0
Retornando ahora al proceso ARMA que habamos discutido, se puede demostrar
de que un proceso ARMA es estacionario si las races del polinomio de rezago AR
:
(1 1 L 2 L2 .... p Lp )
caen fuera del crculo unitario. Esto es equivalente a decir de que el polinomio es
invertible. Para ver esto, el proceso ARMA (p,q) puede ser expresado como :
! !
yt = i yti + j %tj con o = 1 (14.13)
i j
el cual podemos re escribir como :
(L)yt = (L)%e
donde ! !
(L) = 1 i L i y (L) = 1 + j Lj (14.14)
i j
los cuales son los polinomios en los componentes AR y MA respectivamente. Las

races del polinomio AR son simplemente el (los) valor (es) de zi que resuelven la
ecuacin caracterstica : !
c(z) = 1 i z i = 0 (14.15)
i
193
y, si el valor absoluto de estas races son cada una de ellas en forma separada
mayores que uno entonces se dice de que el polinomio es invertible y que el pro-
ceso ARMA es en consecuencia estacionario. De no cumplirse estas condiciones,
entonces la serie es no estacionaria.
14.5. Las Caractersticas de las Series Estacionar-

ias y No Estacionarias
Resulta entonces conveniente concentrarnos en la formulacin AR(1) de una
serie de tiempo la cual puede ser utilizada para describir las propiedades de un
sinnmero de series de inters para los econometristas. Veamos,
yt = yt1 + t y0 0 (14.16)
La serie ser estacionaria si || < 1. Como se dijo, series estacionarias tienen una
varianza finita, sufren de innovaciones transitorias en torno a la media y poseen
una tendencia a volver a su valor medio. Por otra parte, como se vi, el valor de
la media es independiente del tiempo.
Una serie es no estacionaria si || 1 lo que implica de que tiene a lo menos una

raz unitaria. Series no estacionarias tienen una varianza que es asintticamente
infinita, la serie raramente cruza su valor medio ( en muestras finitas) y las inno-
vaciones en la serie son permanentes.
Un caso especial en la clase de series no estacionarias es aquel donde = 1

Este es el paseo aleatorio el cual puede ser expresado como :
yt = yt1 + %t yt = %t (14.17)
Podemos resumir las principales diferencias entre las series estacionarios y no

estacionarias en la siguiente tabla.
CARACTERISTICAS ESTACIONARIA NO ESTACIONARIA

Valor de || < 1 || 1
Promedio Serie Constante Dependiente del tiempo
Varianza Finita =$2 /(1 2 ) Infinita(asintoticamente)=t$2
Imnovaciones Transitorias Permanentes
Dibujo Retorna a su valor medio Se aleja de su valor medio
Orden de integracion I(0) I(1)o mayor
194
14.6. Orden de Integracin
Resulta comn hoy en da referirse a la estructura de una serie de tiempo en
trminos de su orden de integracin el cual entrega una relacin directa con la
estacionariedad de una serie de tiempo.
Definicin 3
Se dice que una serie est integrada de orden d si tiene una representacin esta-
cionaria invertible ARMA (p,q) despus de haber diferenciado la serie d veces la
cual no es estacionaria despus de haber diferenciado la serie d 1 veces. Este
tipo de series se denota xt I(d) donde d es el orden de integracin.
Definicin 4
Una serie integrada de orden d puede ser descrita como teniendo una repre-
sentacin ARIMA (p, d, q).
Por ejemplo, una serie estacionaria se denota como una serie I(0), un paseo
aleatorio es I(1). Al diferenciar una serie I(1) se obtiene una serie que es I(0)
o estacionaria mientras que una serie que es I(2) deber ser diferenciada dos ve-
ces para que resulte ser estacionaria. No obstante, la diferenciacin de una serie
I(0) dar otra serie I(0).
Muchos datos macroeconmicos en pases en desarrollo son no estacionarios. En

general, se encuentra de que ingreso real y consumo son series I(1), los precios a
menudo I(2) lo que significa de que la inflacin que es la primera diferencia de la
serie de precios, es I(1). Por otra parte, tasas de inters nominales generalmente
son I(0).
14.7. Porqu importa todo esto ? : regresin es-

prea, regresiones inconsistentes y no esta-
cionariedad
Porqu la no estacionariedad es un problema ? Fundamentalmente el proble-
ma radica en el hecho de que una serie no estacionaria, no tiene asintticamente
varianza finita, lo que implica de que muchos de los teoremas estndar de anlisis
asintticos son invlidos ante esta situacin.
Pero lo anterior levanta la pregunta acerca de si se extiende este problema tambin

para pequeas muestras (sobre las que generalmente trabajamos). La respuesta
195
es si, y puede ser ilustrado con dos ejemplos. El primero de ellos es lo que se
denomina regresin esprea y el segundo ejemplo es el problema de la regresin
inconsistente.
El problema de la regresin esprea (discutido por Yule en 1926) surge cuando

series sin relacin alguna aparecen como estando relacionadas debido al hecho de
que comparten una tendencia temporal comn. Este problema puede ser ilustra-
do mediante el siguiente ejemplo producido a partir de un generador de datos
artificial.
Suponga dos series x e y, para las que se sabe que son paseos aleatorios sin
correlacin alguna :
yt = yt1 + t t iid(0, 2 ) (14.18)
xt = xt1 + t t iid(0, u2 ) (14.19)

E(t , vs ) = 0 t, s; E(t , tk ) = E(vt , vtk ) = 0 k (14.20)
Este modelo asegura de que x e y son paseos aleatorios (random walks) no correla-
cionados. Consecuentemente, esperaramos de que el coeficiente en el modelo
de regresin :
yt = o + 1 xt + %t (14.21)
tienda a cero y el R2 tambin tienda a cero. Sin embargo esto no ocurre debido
a la raz unitaria presente en x y en y.
Podemos ilustrar esto utilizando un experimento de Monte Carlo bajo el cual

artificialmente generamos (20) y (21) y realizamos la regresin (23). Los resulta-
dos de dicha regresin se presentan en la siguiente tabla.
Ecuacion (21)
Variable Dependiente : yt
Estimacin por OLS
Muestra:1950(1)-1974(4)
VARIABLE COEFICIENTE ERROR ESTANDAR VALOR t

xt -0.4778 1.2964 -3.68
Constante 9.4917 0.4665 20.34
R2 = 0,1217 = 3,1429 F (1, 98) = 13, 59(0,0004) DW = 0,128
196
Es importante notar de que este problema no est relacionado con la muestra,
mas an al aumentar el tamao de la muestra la correlacin esprea empeora
(existe mas correlacin). Problemas similares estarn reflejados en el estadstico
F el cual progresivamente rechaza la nula H0 = o = 1 = 0.
Sin embargo, una forma para detectar la presencia de correlacin esprea es me-
diante el uso de estadsticas de autocorrelacin, en particular el DW. Si no existe
ninguna relacin entre las series entonces el DW tendera a converger a cero a
medida de que la muestra tienda a infinito. Cuando exista una correlacin gen-
uina, entonces este estadstico tender a converger a un valor finito. Existe una
buena regla de aproximacin para detectar correlacin esprea y es al comparar
el valor relativo entre R2 y DW . Si R2 > DW existir una probabilidad creciente
de que exista correlacin esprea.
Por otra parte, el problema de la regresin inconsistente es un corolario direc-

to del problema anterior. Considere la regresin de una serie estacionaria sobre
una no estacionaria. Debido a que la serie no estacionaria tendr una media de-
pendiente del tiempo entonces el valor del coeficiente de la regresin no puede ser
una constante. Considere la siguiente regresin :
yt = 0 + 1 zt + %t (14.22)
donde y I(1), z I(0) . La siguiente tabla compara los valores de los coefi-
cientes para la regresin sobre la muestra completa y tambin al particionar la
muestra en dos grupos.
COEFICIENTE 1950-1960 1960-1974 1950-1974

o 7.21 9.35 8.35
1 -0.62 -0.21 -0.34
Las grandes diferencias en los valores de los coeficientes sobre diferentes sub mues-
tras es caracterstico de una regresin inconsistente y es causada principalmente
por el hecho de que la variable dependiente y la variable independiente tienen
diferentes orden de integracin. Claramente si se desea de que la inferencia sea
vlida y no dependiente del tiempo, entonces todas las variables en el modelo
debern tener el mismo orden de integracin. Lo que nos queda, eso s, es deter-
minar la manera de cmo se realizan estas pruebas del orden de integracin de
una serie de tiempo.
197
14.8. Pruebas para el Orden de Integracin de una
serie : Algunos tests estndar
Considere el siguiente DGP el cual tiene la siguiente forma :
yt = yt1 + t ut (0, 2 ) yo 0 (14.23)
La prueba del orden de integracin de una serie es simplemente probar el valor del
coeficiente en la ecuacin (23). Si este resulta ser menor que la unidad entonces
la serie es estacionaria; si es igual o mayor que uno se dice entonces que y tiene
(al menos) una raz unitaria y es en consecuencia no estacionaria.
Esto puede ser testeado al construir una prueba de t-student contra la nula de que
H0 : = 1. Sin embargo, cuando estamos testeando contra esta hiptesis nula
la distribucin lmite de esta prueba no es una distribucin t-student estndar.
En la prctica la distribucin es sesgada hacia la izquierda con la mayora de su
masa menor que cero y de esta forma rechazaremos la nula demasiado a menudo.
14.8.1. La Prueba t de Dickey-Fuller para la presencia de

raz unitaria
Dickey y Fuller (1976) reescriben la prueba en una forma de prueba t de la
siguiente manera :
yt = yt1 + %t (14.24)
donde ahora testeamos por la significancia de contra la nula H0 : = 0. Se
observa de que = ( 1) asi que la nula H0 : = 1 es equivalente a = 0. El
rechazo de la nula en favor de que < 0 implica de que < 1 lo que significa
que la serie es estacionaria. Si la nula no puede ser rechazada entonces existe
evidencia de a lo menos una raz unitaria en la serie yt .
Suponga que no podemos rechazar la nula concluyendo de que la serie tiene

una raz unitaria. Sin embargo, es posible de que la serie tenga mas de una raz
unitaria. Con el fin de testear si la serie yt es exactamente I(1) en vez de I(2) o
mayor la serie yt deber ser diferenciada una vez para sacar la raiz unitaria.
La prueba en (24) es aplicada ahora sobre yt1 y en vez que sobre yt1 . El
rechazo de la nula confirmara de que lo que implica de que yt I(1), en otras
palabras la serie contiene slo una raz unitaria. El proceso de diferenciacin y
prueba continua hasta que la nula (revisada) sea rechazada. El nmero de difer-
enciaciones sobre yt requeridas para llegar a una representacin estacionaria es
igual al orden de integracin de la serie.
198
Una aspecto importante de la prueba de DF es que es una prueba no- similar lo
que significa que los valores crticos de la prueba son dependientes de la forma
del modelo bajo la nula. En particular, se consideran tres forma alternativas de
especificacin :
yt = yt1 + %t H0 : paseo aleatorio

yt = + yt1 + %t H0 : paseo aleatorio con drift
yt = + t + yt1 + %t H0 : paseo aleatorio con drift y tendencia determinstica
Esta clase de test para la existencia de races unitarias se denominan test de

Dickey-Fuller. Notar de que los valores de t que son menores que el valor crtico
implican el rechazo de la nula de no estacionariedad. De esta forma con un tamao
de muestra de 25 y un modelo que incluya una constante, un valor de prueba de
-3,5 representa el rechazo de la nula a un nivel de 5 por ciento (95 por ciento
de confianza) implicando de que la series es estacionaria mientras de que un
valor de -2,5 implica de que la nula no puede ser rechazada y que la serie es en
consecuencia no estacionaria conteniendo al menos una raz unitaria. Los valores
crticos se entregan en la siguiente tabla.
199
14.8.2. Prueba de Dickey-Fuller aumentado
Una de las deficiencias del test de DF es que necesariamente asume de que el
DGP es un proceso AR(1) bajo la nula. De no ser as, entonces la autocorrelacin
en el trmino de error sesgar el test. Con el fin de salir al paso de este problema
se puede utilizar la prueba t de Dickey-Fuller Aumentado. El ADF es idntico al
DF estndar pero se construye en el contexto de una regresin del siguiente tipo
:
j
!
yt = yt1 + j ytj + ut (14.25)
j=1
La seleccin del largo del rezago j debe asegurar de que el trmino de error se
distribuye como ruido blanco. El criterio de Informacin de Akaike (o la prueba
de Schwartz) puede considerarse para estimar el largo ptimo del rezago en (28).
14.8.3. La Prueba F de Dickey-Fuller

La prueba t de DF se concentra slo sobre el valor de bajo la especificaciones
alternativas del modelo bajo la nula (i.e. ecuaciones (25), (26) y (27)). Es posible
tambin testear el orden de integracin de una serie formalmente contra las nulas
usando una prueba F . Para ello considere los siguientes tres modelos alternativos :
Hipostesis Nula Hipotesis Alternativa Nombre Test

$ $
yt = Jj=1 j ytj + t yt = + yt1 + Jj=1 j ytj + t 1
$ $
yt = Jj=1 j ytj + t yt = + t + yt1 + Jj=1 j ytj + t 2
$ $
yt = + Jj=1 j ytj + t yt = + t + yt1 + Jj=1 j ytj + t 3
Estas pruebas son implementadas como pruebas F restringidas estndar de la for-

ma :
(rssr rssur )/T
i = FDF (r, T k) (14.26)
(rssur /(T k))
donde r es el nmero de restricciones.
La hiptesis nulas relevantes son :

1 = (, ) = (0, 0) Random Walk with Drift
2 = (, , ) = (0, 0, 0) Random Walk sin Drift y sin Tendencia
3 = (, , ) = (, 0, 0) Random Walk con drift sin tendencia
Sin embargo, la prueba no se distribuyen como F estndar. Los valores crticos al
1 y al 5 por ciento se entregan en la siguiente tabla.
200
14.9. Pruebas Adicionales del Orden de Integracin
de una Serie.
La prueba ADF da cuenta de la potencial no normalidad del trmino de error
en (23) al re especificar la regresin estimada. Una forma alternativa para probar
la presencia de raz unitaria en una serie es al orregir"la prueba simple t de DF
sin tener que agregar parmetros adicionales al modelo. Los mas conocidos son las
pruebas de Phillips-Perron (PP); Kwiatowski, Phillips, Schmidt, Shin (KPSS) y
la prueba de "Prueba de Razn de Varianzas"de Cochrane ( la cual no veremos).
14.9.1. Prueba No Paramtrica de Phillips Perron

La prueba de ADF trata la potencial no normalidad del error en (23) al re
especificar la ecuacin de regresin estimada. Phillips y Perron (Biometrika, 1988)
proponen solucionar este problema al ajustar la prueba t bsica de DF el que
considere la correlacin serial y la hetroscedasticidad en los errores. Son conocida
como una correccin "no paramtrica". El caso mas sencillo es el siguiente :
yt = + yt1 + ut (14.27)
pero donde el verdadero proceso es descrito por la siguiente ecuacin :
yt yt1 = t = (L)et (14.28)
donde (L) es un polinomio estacionario y et es Gaussiano. El mtodo de PP se

aplica de la siguiente forma :
201
Paso 1: Estimar y en (30) por OLS estndar, asi como tambin el error
estndar de que se denota p , y por OLS el error estndar de la regresin s.
Paso 2: Se deben calcular estimadores consistentes de la varianza de la me-

dia poblacional (2 ) y de las covarianzas poblacionales (j ) a partir del trmino
de error en (30) mediante la siguiente frmula :
T
!
2j = T
1
2t
2tj (14.29)
t=j+1
para el caso de la auto covarianzas, y :

q
! j
22 =
2o + 2 [1 ]2
j (14.30)
j>1
(q + 1)
para el caso de la media, usando el estimador consistente de Newey-West para la

varianza de la media muestral.
Paso 3: Estas correcciones son utilizadas posteriormente para ajustar el estads-

tico t de DF obtenido por OLS de la siguiente forma :
1 22
2o 1/2
2o )(T 2 /s)
(
Zt = ( ) t[2 ] (14.31)
22
2

Este estadstico tiene ahora la misma distribucin que el estadstico t de DF bajo
el caso de que el modelo estimado no tenga drift (intercepto). Los valores crticos
relevantes para el caso de que el modelo auma un drift y una tendencia temporal
son los valores crticos DF correspondientes.
202
14.9.2. La prueba de Kwiatowski, Phillips, Schmidt y Shin
(KPSS)
Hasta el momento nos hemos concentrado en pruebas donde la nula es sobre
la no estacionariedad en series de tiempo univariadas. Sin embargo, pruebas es-
tndar de raz unitaria tienen en general poco poder contra la nula de que la serie
tiene una raz unitaria. De esta manera, tendemos a concluir (incorrectamente)
de que la mayora de las series de tiempo macroeconmicas aparecen teniendo
raz unitaria.
Kwiatowski et al (Journal of Econometrics, 1992) invierten la hiptesis nula con-

siderando de que se debe rechazar a favor de que es no estacionaria. Su prueba
es muy simple.
Consideran una serie de tiempo la que consiste de tres partes fundamentales,

una tendencia determinstica, una paseo aleatorio y un componente estacionario
203
:
yt = t + t + %t %t niid(0, t2 ) (14.32)
donde
t = t1 + t t niid(0, 2 ) (14.33)
La hiptesis nula de estacionariedad es representada por la restriccin de que la
varianza del paseo aleatorio es cero.
Ho = 2 = 0 (14.34)
Bajo la nula, el proceso es estrictamente estacionario en tendencia. Mas an, al

imponer la restriccin de que = 0 la prueba es especificada en contra de la nula
de que el proceso es estacionario en niveles.
En el caso de que la nula sea definida como estacionaria en tendencia, el es-

tadstico de prueba es calculado directamente de los residuos de la regresin deyt
sobre una constante y una tendencia :
et = yt 2
2 t (14.35)
donde el estadstico es definido como :

T
!
T = (s2t /2
$2 ) (14.36)
t=1
donde st es la suma acumulada de los residuos.
En el caso donde la nula es definida como estacionaria en niveles, los residu-

os et son derivados de la regresin de yt sobre una constante solamente. El es-
tadstico de prueba es idntico pero se denota como y . El estadstico de prueba
tiene los siguientes valores crticos (obtenidos de Kwiatowski et al 1992, tabla 1).
204
Captulo 15
Introduccin a la Cointegracin
15.1. Introduccin
En la clase anterior examinamos las caractersticas principales de datos en
serie de tiempo y consideramos los problemas que estn asociados con la regresin
esprea y el anlisis de series que tienen diferentes orden de integracin. En esta
clase y la siguiente consideraremos la econometra de un caso especial de series
integradas cuyas caractersticas dinmicas reflejan una relacin sistemtica (i.e.
no esprea) entre las variables. Este es el caso de la cointegracin.
15.2. Resumen
1. Marco general de la teora de cointegracin
2. Relaciones entre series integradas
3. La definicin de cointegracin : el caso bivariado
4. Pruebas de cointegracin
5. Modelamiento de variables cointegradas : el modelo de correcin de errores
6. Mtodos para ecuaciones simples

Estimacin I : proceso en dos etapas de Engle-Granger
Estimacin II: relaciones de cointegracin de modelos dinmicos
Estimacin III : modelo de correcin de errores en uniecuacional
7. Cointegracin multivariada en modelos uniecuacionales
205
15.2.1. Referencias
Este material es bastante mas complejo y no est bien cubierto en los textos
clsicos. Aqu se entregan algunas referencias.
Aspectos Bsicos:
R. Harris Using Cointegration Analysis in Econometric Modelling (Prentice

Hall, 1995)
A. Banerjee, J. Dolado, J. Galbraith and D.F. Hendry Cointegration, Error-

Correction, and the Econometric Analysis of Non Stationary Data (Oxford
University Press, 1993)
R. Engle and C. Granger Long-Run Economics Relationships (Oxford Uni-

versity Press, 1989)
Cointegracin de sistemas
Maddala y Kim Unit Roots, Cointegration and Structural Change (Cam-

bridge University Press 1998)
Johansen (1995) reimpreso en Engle y Granger (eds)

Johansen Likelihood Based Inference in Cointegrated Vector Auto-Regresive
Models (Oxford University Press, 1995)
15.3. Marco General de la Teora de Cointegracin

El reciente nfasis en la literatura teortica sobre especificaciones dinmi-
cas ha enfatizado a la cointegracin como una la forma apropiada de modelar
dinmicas macroeconmicas en series de tiempo. La teora de cointegracin tienen
propiedades atractivas tanto econmicas como estadsticas. A pesar de que el prin-
cipio de la cointegracin es bastante simple, sus implicancias son muy poderosas.
Primero, desde un punto de vista econmico, sabemos que existen pares de datos
que tienden a moverse sistemticamente parecidos en el tiempo ( por ejemplo,
consumo e ingreso, inflacin y tasas de inters nominal) a pesar de que en forma
individual estas series son en su mayora no estacionarias. La teora econmica
entrega explicaciones sobre estas equilibrios regulares (funciones de consumo, el
efecto Fisher, etc). La cointegracin representa una caracterizacin estadstica de
tales relaciones de equilibrio.
Segundo, los mtodos de cointegracin nos permiten capturar las relaciones de
206
equilibrio entre series no estacionarias (si es que dichas relaciones de equilibrio
existen) dentro de un modelo estacionario (y en consecuencia, dentro de un marco
lsico"). Es de esta forma, un mtodo que evita los problemas de regresin es-
prea e inconsistente los que de otra forma ocurriran en un modelo de regresin
con variables no estacionarias.
Tercero, a pesar de que la teora econmica tiene mucho que decir acerca de
este equilibrio, generalmente no es muy claro al explicar variaciones de corto pla-
zo con respecto a las relaciones de largo plazo. Sin embargo, es claro dado la
naturaleza de las ciencias sociales que los datos que observamos de una economa
representan constante desequilibrio - aunque asumimos de que se est movien-
do hacia un equilibrio - y que en el corto plazo, existe considerable variacin en
la mayora de los datos en series de tiempo (especialmente en aquellos para los
cuales existe mucha frecuencia, p.ej precios de acciones).
La cointegracin entrega una herramienta para particionar o separar la evolucin

de una serie de tiempo en dos componentes (i.e. las caractersticas del equilibrio
de largo plazo y la dinmica de los desequilibrios de corto plazo) mediante el uso
de la relacin entre cointegracin y los denominados modelos de correccin de
errores (o correccin de equilibrio). De esta forma esto permite la combinacin
de informacin de corto y largo plazo en el mismo modelo, y as se resuelve parte
de los problemas y crticas asociadas con la prdida de informacin que ocurre
en los intentos simples para atacar la no estacionariedad de las series de tiempo
al diferenciar las series ( como en los modelos con tasa de crecimiento).
El que la contribucin de la cointegracin sea importante depender de la nat-

uraleza de la series de tiempo macroeconomicas. Para la gran parte del perodo
post guerra en las economas OECD los datos parecen (en forma general) esta-
cionarios en cuyo caso las violaciones asociadas a la no estacionariedad no eran
tan serias y as las preocupaciones que ataca la cointegracin tampoco eran tan
serias. Sin embargo, desde los comienzos de los 70s ha quedado en claro de que la
mayora de los datos macroeconmicos sean probablemente no estacionarios. Esto
es particularmente cierto para los pases en desarrollo. Ser entonces claramente
ineficiente simplemente ignorar series de datos no estacionarias en la estimacin
economtrica y de esta forma se hace necesario desarrollar tcnicas las que cap-
turen eficientemente la informacin de datos no estacionarios sin sacrificar la
validez estadstica del modelo.
207
15.4. Relaciones entre Series Integradas
Podemos pensar en una regresin bivariada como una ombinacin lineal"de
dos variables. Por ejemplo, considere el modelo de regresin :
yt = + xt + %t (15.1)
Los residuos de esta ecuacin viene dados por :
%t = yt y2t = (yt
2 2 t)
2 x (15.2)
y podemos denominar esta serie 2 %t como la combinacin lineal de x e y. Por

conveniencia, redefiniremos la combinacin lineal como zt . Existe un conjunto de
observaciones que podemos realizar con respecto al orden de integracin de esta
combinacin lineal.
La combinacin lineal de una serie I(0) con otra series I(0) es tambin I(0). La
combinacin lineal de dos series I(1) es tambin I(1). No obstante, series con un
orden superior de integracin dominarn y as la combinacin lineal de una serie
I(1) con una I(0) entregar una serie I(1). En trminos del anlisis de regresin,
la regresin de una serie I(0) con una I(1) (i.e. su combinacin lineal) ser no
estacionaria y en consecuencia estadsticamente inconsistente.
Podemos formalizar esta relacin con la siguiente condicin la que se desprende

de la definicin del orden de integracin de una series vista en la clase pasada
Condicin 1: Series Integradas

Si yt I(d) y xt I(c) donde d y c son ordenes de integracin arbitrarios, en-
tonces la combinacin lineal de las dos series denominada zt = yt a bxt ser
integrada de orden I(Max(d,c)).
15.5. Definicin de Cointegracin : el caso Bivari-

ado
Existe, sin embargo, una excepcin a la regla general y este caso especial es
el de la cointegracin, en el cual la combinacin lineal de dos series I(1) es I(0).
Condicin 2: Series Cointegradas

Si yt I(d) y xt I(c) pero si zt = (yt 2 t ) I(d c) Entonces se dice de
2 x
que las series xt e yt estn cointegradas o cointegran. En general tratamos casos
de series I(1). As, si la combinacin lineal (i.e. los residuos de la regresin entre
208
y sobre x) es I(0) entonces tenemos cointegracin.
La intuicin informal de cointegracin es bien sencilla. Si dos series no esta-

cionarias se mueven juntas en el tiempo entonces la distancia que las separa entre
ellas tendr caractersticas estacionaras y slo reflejar la naturaleza estocstica
del desequilibrio de los datos. Mas especficamente, esperaremos que la media de
zt sea cero y que la varianza sea constante e independiente del tiempo. Esto es
exactamente lo que deberamos esperar si dos series se mueven conjuntamente
en una relacin de equilibrio. Puesto simplemente : donde sea que x vaya en el
tiempo, y siempre la va a seguir.
15.6. Pruebas de Cointegracin

La definicin de cointegracin sugiere inmediatamente la forma en que pode-
mos testear por ella entre dos variables : si la regresin entre dos variables I(1)
produce residuos que son estacionarios entonces ambas series cointegran.
Pruebas de cointegracin son anlogos directos de la prueba de Dickey y Fuller

y Sargan Bhargava Durbin Watson (SBDW) desarrolladas para el anlisis de
races unitarias en serie de tiempo simples con la excepcin que ahora las pruebas
son aplicadas a los residuos de la regresin de cointegracin"de y sobre x (i.e.
zt = yt a bxt ). Recordando de que si y y x son I(1) entonces los residuos de
la regresin de estas series podran ser tambin I(1), a menos de que las series
estuvieran cointegradas. De esta forma, si los residuos se distribuyen I(1) acepta-
mos la nula de no cointegracin pero si los residuos son I(0) entonces se rechaza
la nula y acepta de que y y x cointegran. Dado que el proceso de regresin, por
definicin, minimiza la variacin de los residuos en torno a la media de cero, los
residuos estimados sern sesgados hacia la estacionariedad.
Los valore crticos de los estadsticos DF y SBDW usados para testear la coin-
tegracin debern ser entonces mayores en valor absoluto que aquellos utilizados
para testear el orden de integracin de una serie univariada. Mas an, dado de
que la regresin crea un trmino de error con media cero la prueba de DF de la
ecuacin necesariamente asume de que no hay constante (drift).
De esta forma, deseamos que en la prueba de cointegracin testeamos si la serie

zt - los residuos estimados de la regresin de cointegracin se distribuyen I(1) o
I(0). Esto es equivalente a probar si 1 en la ecuacin :
zt = zt1 + %t Ho : 1 Ha : < 1 (15.3)
209
La prueba de Dickey-Fuller para cointegracin se realiza al probar el valor de
= ( 1) en la regresin:
zt = zt1 + %t Ho : 0 Ha : < 0 (15.4)
La prueba de Dickey-Fuller Aumentado es un test sobre en la regresin :

!
zt = zt1 + i zti +%t i : 1....n Ho : 0 Ha : < 0 (15.5)
La prueba de SBDW se realiza en forma similar la que se aplica sobre los residuos
de la regresin de cointegracin. La prueba tiene la siguiente forma :
$
zt z2t1 )2
(2
Q(2z) = $ SBDW Ho : 1 Ha : < 1 (15.6)
zt z)2
(2
Para la prueba SBDW valores mayores que el valor crtico reportado en las tablas
representa el rechazo de la nula. Nota : si zt es ruido blanco, el SBDW tendr un
valor de 2.
Los valores crticos para los estadsticos se presentan en la siguiente tabla. Notar
de que la nula en todos estos test es de no cointegracin (no estacionariedad en
la serie de residuos de la regresin de cointegracin).
210
15.7. El Modelamiento de Relaciones de Cointe-
gracin: Modelo de Correccin de Errores
El modelo de correccin de errores, el cual es una de los modelos mas poderosos,
es aplicado muy a menudo en los ltimos trabajos con series de tiempo. A pesar de
que su popularidad surge del establecimiento del Teorema de Representacin de
Engle-Granger, es importante mostrar de que el modelo de correccin de errores
puede ser derivado de una simple restriccin sobre el coeficiente del modelo estn-
dar de rezagos distribuido autoregresivo (ADL). Para ello, considere el siguiente
modelo ADL(1,1) :
yt = 0 + 1 yt1 + 0 xt + 1 xt1 + %t (15.7)
Podemos restar yt1 de ambos lados de la ecuacin y agregar y restar 0 xt1 en

la pare derecha de la ecuacin. Al hacerlo, nos queda :
yt = 0 + (1 1)yt1 + 0 xt + (1 + 0 )xt1 + %t (15.8)
el cual con un poco de lgebra toma la siguiente forma :
yt = 0 + 0 xt + (1 1)(yt1 Kxt1 ) + %t (15.9)
donde K = (0 + 1 )/(1 1 ). Notar que K es exactamente lo que surgira si

elegimos resolver la relacin de largo plazo entre y y x en la ecuacin (7). K
entonces es la solucin de largo plazo, o de equilibrio, en el modelo dinmico.
El modelo anterior captura tres componentes de la relacin entre y y x, a saber:

(i) El impacto de corto plazo de x sobre y a travs de 0
(ii) El efecto de largo plazo, o de equilibrio, a travs de K
(iii) El feedback, o error de correccin del valor actual de y hacia el nivel de

equilibrio (condicional en el valor de x y K) a travs de (1 1) el cual es
negativo si 1 < 1.
Considere ahora las propiedades estadsticas de este modelo. Si y y x son I(1) y
si adems cointegran de tal manera de que :
zt = (y kx)t = (y kx)t1 I(0)
entonces podemos observar de que el modelo de correccin de errores es consis-

tente ya que :
si yt I(1) entonces yt I(0)
211
si xt I(1) entonces xt I(0) (15.10)
si y, x cointegran entonces z I(0)
As, todos los trminos en la ecuacin (9) tienen el mismo orden de integracin
(y este orden es cero) y en consecuencia este modelo puede estimarse utilizando
el marco clsico de regresin.
El poder del ECM yace del hecho que combina una rica intuicin econmica
en su forma funcional con las propiedades estadsticas deseables cuando los datos
no son estacionarios (como la mayora de los datos macro) sin perder ningn tipo
de informacin valiosa de largo plazo contenida en la relacin de equilibrio.
Lo anterior ha sido formalizado al interior de la teora de cointegracin por lo

que se denomina el teorema de representacin de Engle-Granger
Teorema 1
Si dos series cointegran entonces ser mas eficiente representarlas mediante un
modelo de correccin de errores. Mas an, si las series cointegran y el modelo de
correccin de errores es validado, entonces est abarcar cualquier otra especifi-
cacin dinmica - como el mecanismo de ajuste parcial.
Resulta til notar dos elementos aqu (los que sern discutidos en detalle mas
adelante). El primero es que en comparacin con un modelo de ajuste parcial,
el ECM no exhibir el mismo nivel de multicolinealidad entre los regresores del
modelo : mientras xt y yt1 pueden ser altamente colineales, no es esperable que
eso ocurra entre xt y (yt1 Kxt1 ).
El segundo es que el ECM no sufre de distorsiones al estimar el rezago promedio

como ocurre en el modelo de ajuste parcial cuando los datos no son estacionarios.
El rezago promedio en el ECM se define como (1 0 )/, mientras que en el
modelo PA es 1 /(1 1 ) . Cuando 1 es cercano a la unidad entonces el rezago
promedio en un modelo de PA tiende al infinito sugiriendo un ajuste mucho mas
lento de lo que efectivamente ocurre en la realidad.
El modelo ECM no es nuevo habiendo existido como especificacin dinmica

por largos aos (Sargan 1964 fue el primero en utilizarlo). El teorema de repre-
sentacin de Engle-Granger le ha entregado un poco mas de importancia a esta
representacin y hoy es una especificacin estndar en cualquier modelo macroe-
conmico en de series de tiempo.
212
15.8. La Estimacin de Relaciones de Cointegracin
A continuacin se describen tres formas de estimar la relacin de cointegracin
entre dos variables.
1. El Procedimiento en Dos Etapas de Engle-Granger
Las ideas que subyacen la teora de cointegracin deben mucho al traba-

jo de Clive Granger y Rob Engle. Su ahora famoso trabajo (ointegration
and Error Correction : Representation, Estimation and Testing", Econo-
metrica 1987) establece un proceso en dos etapas para modelar variables
cointegradas. Sin embargo, existe un sinnmero de problemas con respecto
a esta forma - especialmente en muestras pequeas - y ser aqu explica-
do principalmente para ilustrar la esencia de la cointegracin. En secciones
posteriores veremos formas alternativas para estimar las relaciones de coin-
tegracin. Comenzaremos con el caso bivariado.
Paso 1: Estimar la regresin esttica de cointegracin utilizando OLS
yt = + xt + %t (15.11)
y testear la presencia de cointegracin. Si la cointegracin es aceptada en-

tonces (11) se dice que representa la relacin de largo plazo entre y y x y
el vector de parmetros (, ) es referido como el vector de cointegracin el
que contiene las relaciones de largo plazo o las elasticidades de equilibrio de
largo plazo. El vector de parmetros es nico y super consistente (aspecto
que discutiremos mas adelante).
Paso 2: Calcular la combinacin lineal (rezagada) a partir de (11) definida

como :
zt1 = (yt1 2 t1 )
2 x (15.12)
la cual es una representacin estacionaria de la relacin del equilibrio de
largo plazo, o de cointegracin, e incluya esta variable en el modelo de
correccin de error estacionario de la forma siguiente :
A(L)yt = B(L)xt + czt1 + ut (15.13)
donde A(L) y B(L) son polinomios de rezago generales y c se conoce como

el coeficiente de correccin de error ( o correccin de equilibrio).
2. Solucin de Largo Plazo para Modelos Dinmicos
213
A pesar de su beneficio intuitivo existen problemas con el anlisis de coin-
tegracin de Engle-Granger especialmente para investigadores que trabajan
con muestra pequeas. Ello pues el vector de cointegracin estimado a par-
tir de (11) es super consistente (en el sentido de que converge hacia el valor
poblacional verdadero mas rpido de que si y y x fueran I(0)) el sesgo en
muestras pequeas puede ser muy significativo especialmente si %t est au-
tocorrelacionado.
Un forma alternativa para atacar este problema de estimar el vector de

cointegracin es mediante el uso de la solucin de largo plazo de la versin
dinmica equivalente de (11)
A(L)yt = + B(L)xt + %t (15.14)
donde el polinomio de rezago es definido lo suficientemente largo para ase-

gurar de que %t (0, 2 ). La solucin de largo plazo para esta ecuacin se
obtiene al definir cada valor de L en el polinomio de rezagos igual a 1 y
luego resolviendo para los valores :
= /[A(1)] y K = [B(1)]/[A(1)] (15.15)
donde A(1) $= 0 y A(1) y B(1) son los polinomios A(L) y B(L) evaluados
en t = 1 para todos los rezagos. El vector ( , k) representa un estimador
alternativo del vector de cointegracin.
Evidencia por simulaciones de Monte Carlo indican que este es un esti-

mador menos sesgados del verdadero vector de cointegracin en muestras
pequeas que el de Engle-Granger.
Este vector puede ser utilizado para construir una combinacin lineal (reza-
gada) definida como :
%
zt1 = (yt1 Kxt1 ) (15.16)
214
la cual es la representacin estacionaria de una relacin de cointegracin.
Esta puede ser posteriormente incluida en el modelo de correccin de errores
(13) reemplazando a zt1 .
3. El Modelo de Correccin de Errores Uniecuacional

Suponga que hemos aceptado de que yt , xt estn cointegrados. Podemos
entonces escribir el modelo de correccin de errores de la siguiente forma :
yt = 0 + 1 xt + 2 [yt1 3 4 xt1 ] + %t (15.17)
Este modelo es lineal en sus variables pero no en sus parmetros dado que
la ecuacin a estimar es :
yt = 0 + 1 xt + 2 yt1 1 2 xt1 + %t (15.18)
donde
1 = 2 3 , 2 = 2 4
Sin embargo, existe un problema de identificacin con este modelo. Slo si
imponemos la restriccin de que o bien 0 = 0 , lo que implica de que no
hay drift en la evolucin de yt , o bien que 3 = 0, lo que implica de que no
existe una constante en la relacin de largo plazo, podremos recuperar los
estimadores de la relacin de largo plazo de la regresin de cointegracin
al dividir los parmetros estimados 1 , 2 por 2 . Notar de que estamos
tomando ventaja de la normalizacin de la relacin de largo plazo sobre
yt1 .
15.9. Cointegracin Multivariada

Hasta el momento nos hemos concentrado en el caso de un modelo de cointe-
gracin bivariado. Sin embargo, muchas relaciones de equilibrio son multivariadas.
Por ejemplo, mientras que una funcin de demanda simple por importaciones del
tipo Keynesiana sugiere que M = m (Y), una especificacin neoclsica sugiere
que dicha relacin es del tipo M = m (y, RER). En otras palabras, es posible
que para varias variables determinen conjuntamente la evolucin del equilibrio
de largo plazo de la variable dependiente. De esta manera resulta util extender el
anlisis de cointegracin para incorporar el caso multivariado.
No obstante, esta es una extensin no trivial dado que para un conjunto de n

variables pueden existir hasta n 1 combinaciones lineales diferentes e indepen-
dientes que determinen conjuntamente la evolucin de un conjunto de variables
en el tiempo. En el caso del modelo bivariado, n = 2 y en consecuencia si existe
215
cointegracin entonces la relacin ser nica.
Cuando n > 2 entonces pueden existir hasta n 1 vectores de cointegracin

entre las n variables. Si existen r vectores de cointegracin linealmente indepen-
dientes, donde r < n 1 entonces estos pueden ser representados por una matriz
la cual es referida como la matriz de cointegracin. El rango de esta matriz
es r, denotado como el rango de cointegracin.
A menudo encontramos que los investigadores asumen de que existe slo un vec-
tor de cointegracin multivariado entre las n variables. Este supuesto puede ser
derivado de la teora. Si este supuesto es vlido, entonces la relacin puede ser
estimada, testeada y representada por un modelo de correccin de errores uniecua-
cional de forma similar al caso bivariado pero con mas variables. Discutiremos
esto luego; no obstante, teniendo en cuenta de que pueden existir mas de un vec-
tor de cointegracin que relacione a las variables, necesitamos en consecuencia un
mecanismo que nos permita determinar el nmero de vectores de cointegracin y
la forma de modelarlos.
15.10. Relaciones de Cointegracin Multivariada

Uniecuacional
El mtodo en dos etapas de Granger-Engle, el mtodo de ADL dinmico y el
mtodo de SEECM pueden ser generalizadios a partir del caso bivariado al multi-
variado en que el vector xt consiste en mas de un regresor I(1). Conceptualmente
no tiene nada de nuevo esta generalizacin, aunque como veremos, los estadsticos
de prueba tienen distribuciones diferentes. Ilustraremos este caso con el mtodo
de Granger-Engle pero ello puede ser igualmente aplicado para los otros mtodos.
El mtodo se aplica como sigue :
(i) Evale individialmente las variables de inters y y los n elemento de X re-

specto a su orden de integracin. Pruebe las series en niveles y en diferencias
contra la nula de no estacionariedad.
(ii) Asumiendo de que todas las variables son I(1) [o estn transformadas de
I(2) a I(1)] regresione la siguiente ecuacin esttica :
(1) yt = 0 + % Xt + %t
donde
(2) = (1 , 2 ...n )
216
Si define el vector de cointegracin entonces ser superconsistente -
i.e. convergern mas rpido en T que el mtodo de OLS. Notar de que es
posible que ciertos elementos de pueden ser cero.
(iii) Pruebe la estacionariedad de los residuos derivados de la regresin (1) uti-

lizando el conjunto estdar de tests para cointegracin (SBDW, DF, ADF).
Estos tests tienen diferentes valores crticos dependiendo del nmero de
variables incluidas n en el vector X en la modelo de regresin esttico y
tambin del tamao de muestra utilizado. En la siguente tabla se presentan
dichos valores a partir del caso bivariado (n = 2) hasta n = 5.
No obstante, y como ya se adelant, en el caso de regesiones multivari-

adas, el vector de cointegracin no debe ser necesariamnente nico dado
que pueden existir otras combinaciones lineales de las variables en el vec-
tor % que determinen la evolucin de las variables en el vector X. De este
modo, necesitaremos alguna metodologa para determinar el nmero de vec-
tores de cointegracin. Ello lo estudiaremos en un contexto de cointregacin
sistmica o de sistemas.
217
Captulo 16
Cointegracin Sistemica
16.1. Introduccin
Hasta el momento nos hemos concentrado en la estimacin de modelos de
correccin de errores uniecuacionales. El tema que queremos discutir en esta sec-
cin es acerca de la cointegracin sistmica, es decir, aquella en que mas de dos
variables pueden estar involucradas simultneamente.
Suponga que xt es un vector de n variables y que xt I(1). De acuerdo a lo

anteriormente discutido se tiene lo siguiente:
1. Si existe slo un vector de cointegracin entonces los modelos de cointe-
gracin uniecuacionales, ya vistos como el Engle-Granger, pueden ser uti-
lizados, solamente que se deben agregar ms variables a la ecuacin de la
siguiente manera :
Para n=1 tenemos :

yt = 0 + 1 xt + 2 [yt1 3 4 xt1 ] + %t
con n=2
yt = 0 + 11 xt + 12 zt + 2 [yt1 3 4 xt1 5 zt1 ] + %t
y as sucesivamente si existen mas variables exgenas pero con la condicin
de que exista solo un vector de cointegracin entre las variables.
2. Si existen vectores de cointegarcin multiples necesitamos de un mtodo
para la estimacin por sistemas y el sistema es modelado como un Vector
Error Correction Model (V ECM ). Cabe sealar que la cointegarcin
de sistemas a su vez entrega un mtodo para probar el nmero de vectores
de cointegarcin entre los elementos de xt
218
Consideremos un ejemplo de tipo macroeconmico. En un modelo de Solder-
Swan, el que relaciona el Tipo de cambio nominal (e), con la Oferta de dinero
nominal (M s ) y un vector de elementos exgenos como la ayuda internacional y
los salarios reales.
De esta manera podemos tener que existe una funcin g que representa el equi-
librio interno de la economa la cual asocia e con M s y los salarios reales ( pwn , pwt )
el cual puede generar un vector de cointegracin.
Por otra parte est el balance externo el que puede asociar las mismas variables
anteriores mas la ayuda internacional (especialmente en un pas menos desarrol-
lado). Esta segunda ecuacin puede generar otro vector de cointegracin.
De esta manera, la dinmica de e y M s depender de los desequilibrios con re-

specto a las condiciones de equilibrio.
Formalmente, estas relaciones se pueden escribir de la siguiente manera :
et = 1 (e(L), H(L), ..) + 1 (CIV BalInt)t1 + 2 (CIV BalExt)t1 + 1t

Ht = 2 (e(L), H(L), ...) + 1 (CIV BalInt)t1 + 2 (CIV BalExt)t1 + 2t
donde L representa el operador rezago. Aqu se asume que xt I(1) con xt =

(x1t , ......xnt )%
Dado que xt es un vector de datos en series de tiempo, puede ser representa-

do como un V AR no estacionario de la siguiente forma:
V AR{I(1)} xt = 1 xt1 + ...... + k xtk + %t
Este puede ser transformado como en el caso bivariado en un V ECM estacionario

k1
!
V ECM{I(0)} xt = i xti + xtk + %t
i=1
$
donde k1i=1 i xti es I(0) y xtk es I(0) si contiene las relaciones de coin-
tegracin.
Por otra parte se tiene que i = (I 1 ... i ) representa la dinmica

de corto plazo y = (I 1 2 ...... k ) es la matriz reducida de los
parmetros de largo plazo, en donde:
= %
219
Aqu, es el vector de parmetros de correccin de errores (es decir el ajuste) y
% es el vector de cointregacin hasta n-1. Adems tiene rango reducido lo que
podemos expresar por
0r n1
esto nos entrega el nmero de vectores de cointegracin.
16.2. El Mtodo de Johansen

Este mtodo es comnmente utilizado en el caso de cointegracin sistmica y
est descrito en Johansen (1985), Johansen y Juselius (1990) y tambin en Baner-
jee et al (1993). Esta metodologa entrega la forma de determinar el nmero de
vectores de cointegracin, su identificacin y la forma de su inclusin en una esti-
macin general. No obstante, la metodologa es en si muy compleja y en las lneas
que siguen se describe someramente su aplicacin.
Paso 1. Examinar la forma (rango) de aquella que contiene informacin acerca

de la relacin de largo plazo en niveles entre las variables. Claramente existen tres
casos posibles :
Caso 1 Si r = 0 es decir la matriz tiene rango cero entonces esta no contiene

vectores de cointegracin . Lo anterior implica que todas las variables son
individualmente I(1) y que no existe una relacin de largo plazo entre ellas.
La nica forma entonces que el proceso puede ser modelado es como un
VAR en primeras diferencias xt sin relaciones de equilibrio de largo plazo.
Caso 2 Si r = n es decir que la matriz tiene rango completo. Lo anterior significa

que efectivamente todas las variables que componen el sistema son de hecho
I(0) y en consecuencia, el modelo es estacionario en niveles.
Caso 3 Si 0 < r n 1 tenemos una matriz de rango reducido donde existen r

vectores de cointegracin entre las n variables del sistema.
220
Paso 2 Una vez identificada la forma de la matriz se especifica el modelo
general de VECM, de la siguiente manera:
k !
! n
x1t = 1ij xjt1 + 11 1% xtk + 12 2% xtk + ... + 1r r% + %1t
i=0 j=1
k !
! n
x2t = 2ij xjt1 + 21 1% xtk + 22 2% xtk + ... + 2r r% + %2t
i=0 j=1
. =.
. =.
. =.
k !
! n
xnt = nij xjt1 + n1 1% xtk + n2 2% xtk + ... + nr r% + %nt
i=0 j=1
con 1 ...r vectores de cointegracon y 1 .....n vectores de feedback
Paso 3 Eleccin del Nmero de vectores de cointegracin. El numero de vec-

tores de cointegracin es determinado por el nmero de valores caractersti-
cos(eigenvalues) significativos en le vector de variables no estacionarias.Esto de-
termina el rango de = % . El estadstico de mximo valor caracterstico
r = T log(1 r ) r = 1.....n
en donde r es el valor caracterstico de xt .
Para ello se deber primero ordenar de mayor a menor los r . As, partiendo
por el valor caracterstico mayor, testear por el nmero de valores caracteristicos
de la siguiente manera:
r r Nula Alternativa
1 1 H0 : r = 0 HA : r 1
2 2 H0 : r = 2 HA : r 2
.
.
.
n n H0 : r = n 1 HA : r = n
221
El nmero de valores caractersticos significativos (es decir el nmero de vectores
de cointegracin) es determinado por la hipotesis nula ms alta aceptada por los
datos.
Una vez que existen que existen r eigenvalues significativos, estos son usados
para calcular los r vectores de cointegracin.
As, si r = 2 mediante el mtodo de Johansen tenemos que 1 1% con

11 x1t + .... + 1n xnt I(0) y 2 % con 21 x1t + .... + 2n xnt I(0). Todas
las otras combinaciones lineales de las variables x son I(1), es decir, no cointegran.
Ahora para el caso de los feedback vector tenemos:
Ecuacin Primer Segundo

CIV CIV
x1t 11 21
x1t 12 22
.
.
.
xnt 1n 2n
16.3. Ejemplo de Oferta de Dinero, Ingreso, In-

flacin y Tasa de Inters
Considere el vector de variables Xt = (m, y, , r) donde m es la cantidad de
dinero (en logs), y es el ingreso real (en logs), es la tasa de inflacin y R es
la tasa de inters. En este caso nos interesa saber la posibilidad de cointegracin
entre las variables de X.
La siguiente tabla entre los valores caractersticos (eingelvalues) y sus estads-

ticas asociadas.
222
r t -Tln(1-t 5cv. -Tln(1-t ) 5cv.
1 0.4186 45,01 28.167 77,20
53.347
2 0.2662 25,70 21.894 32.19 35.068
3 0.0716 6.17 15.752 6.48 20.168
4 0.0038 0.32 9.094 0.32 9.094
Fuente : Hendry y Mizon (1990).
Leyendo la tabla desde la primera fila partimos con la nula de que la matriz
de tiene rango cero (H0 : r = 0) contra la alternativa de que r 1. Notamos
que el valor del estadstico es mayor que el valor crtico rechazndose la nula de
que no existen vectores de cointegracin en favor de que existe a lo menos uno.
Se sigue en forma anloga hasta que ya la hiptesis nula no puede ser rechaz-
ada determinndose en consecuencia el nmero de vectores de cointegracin. En
este caso, siguiendo el estadstico de valor crtico mximo, la tabla anterior sugiere
que hay dos vectores. Si se usa, por otra parte, el estadstico de traza se sugiere
que hay solo uno. Si bien los dos estadsticos generalmente apuntan al mismo
resultado, en este caso se favorece el que denote mas vectores.1 .
Enseguida se determinan los y del VECM. Los resultados de la estimacin

de dichos valores para todos los valores crticos utilizando la metodologa de Jo-
hansen se presentan en la siguiente tabla (normalizados sobre la diagonal).
Ecuacin mp r y
1 1.00 5.94 0.966 -0.648

2 0.001 1.00 0.003 -0.283
3 -3.43 -25.30 1.000 1.140
4 -0.48 -0.90 -0.005 1.000
Y los vectores de feedback son los siguientes:
1
El resultado anterior denota que el segundo vector es estacionario con un cercano a 1 (i.e.
0.95)
223
Ecuacin mp r y
1 -0.102 0.017 0.008 -0.013

2 0.025 -0.540 -0.001 -0.002
3 -0.016 -3.010 -0.098 0.089
4 0.017 0.390 -0.002 -0.029
Dado que encontramos que slo hay dos relaciones significativas entonces nos de-
beremos focalizar en las dos primeras filas de en la tabla anterior y en las dos
primeras columnas de en la ltima tabla. En otras palabras, las dos ltimas
filas y columnas respectivamente pueden ser eliminadas sin prdida de informa-
cin relevante.
16.3.1. Identificacin e interpretacin de los vectores

Los vectores propios en pueden ser interpretados como las soluciones de
largo plazo entre las variables del modelo. Los vectores son automticamente nor-
malizados en la diagonal principal pero ello no es necesario dado que se pueden
reacomodar los trminos en forma de entenderlos mejor.
De esta manera podemos interpretar el primer vector como la demanda de dinero

de la forma :
(m p) = 0,648y 5,94 0,966r + trend
Esta ecuacin tiene un feedback aproximado de un 10 por ciento por perodo
en la demanda de dinero y virtualemnte un efecto insignificante sobre las dems
variables.
El segundo vector de cointegracin puede ser interpretado como un proceso cuasi

estacionario para la inflacin el cual es influenciado por desviaciones del producto
sobre la tendencia temporal (i.e. una relacin del tipo Phillips).
t = 0,283(yt trend)
Sus efectos de feedback son un poco mas difciles de interpretar ya que dado que
r y no cointegran existen un feedback significativo de la relacin de inflacin
sobre la tasa de inters.
224
As el V ECM queda expresado de la siguiente forma(asumiendo que el Var cor-
respondiente es xt = 1 xt1 + t )
(m p)t = 1 + 11 t1 + 12 rt1 + 13 yt1

0,102[(m p)t 0,648yt1 + 5,94t1 + 0,9406rt1 cte11 ]
0,017[t1 0,283yt1 cte12 ]
t = 2 + 21 (m p)t1 + 22 rt1 + 23 yt1

0,025[(m p)t1 0,648yt1 + 5,94t1 + 0,946rt1 cte21 ]
,540[t1 0,283yt1 cte22 ] + %2t
rt = 3 + 31 t1 + 32 (m p)t1 + 33 yt1
0,016[(m p)t1 0,648yt1 + 5,94t1 + 0,946rt1 + cte31 ]
3,010[t1 0,283yt1 cte32 ] + %3t
yt = 4 + 4 t1 + 42 (m p)t1 + 43 rt1
0,017[(m p)t1 0,648yt1 + 5,94t1 + 0,946rt1 cte41 ]
0,390[t1 0,283yt1 cte42 ] + %4t
225

Apunte Econometria Intermedia

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Apunte Econometria Intermedia

Hochgeladen von

Copyright:

Verfügbare Formate

Econometra Intermedia

Jos Miguel Benavente H.1

1.2. Conceptos y Metodologa en Econometra

1.2.2. Uso de la Econometra

1. Cuantificacin: Aplicacin de mtodos para cuantificar relaciones con in-

2. Inferencia: Habiendo obtenido los estimadores de 0 , 1 y 2 querremos

3. Prediccin y Simulacin: Suponga que una teora dada es apoyada por

1.2.3. Una Metodologa Economtrica

Nivel A Teora de Probabilidades en la cual la estructura del proceso generador

Nivel C Teora de Modelamiento donde la estructura del DGP es desconoci-

Nivel D Teora de Prediccin donde ni el DGP ni la realizacin"de los datos

Basados en esta caracterizacin, esta metodologa consiste en cinco pasos in-

1. condicionamiento y marginalizacin del DGP

2. estimacin de modelos no restrictivos y sobreparametrizados

3. simplificacin del modelo sobreparametrizado

4. testeo e identificacin de modelos congruentes

5. anidamiento de modelos rivales

Modelamiento economtrico es, de esta forma, un proceso iterativo de marginal-

1. El Proceso Generador de Datos (DGP) y modelos condicionales.

Vt = DV (Vt |, V0 ) = Tt=1 DV (Vt |, Vt1 ) (1.2)

Sin embargo, supongamos que estamos interesados slo en un aspecto es-

D(m, n) = D(m|n)D(n) D(n|m)D(m) (1.3)

Volviendo al caso discutido en (2), supongamos que Vt = {Xt , yt , wt } donde

donde = {1 , 2 }. Una vez que el investigador a reducido el alcance

La ecuacin (5), donde = {1 , 2 } expresa la variable de inters mode-

2. Estimacin. Esto ser discutido en la tercera semana

3. Simplificacin. Claramente, los procesos de marginalizacin y condicionamien-

5. Abarcamiento (Encompassing). Como resultado de los pasos (i) a (iv)

Recapitulando : modelamiento economtrico es un proceso iterativo donde las

1.3. Una nota de precaucin

Revisin de las Bases Estadsticas

2. Benchmark: Modelo de Regresin Clsico

3. Apndice: Algunas Distribuciones Utiles

Kmenta: Captulos 4-7

Inferencia: el uso de la teora de probabilidades y distribuciones con el fin de

Definicin 1: Un estimador es un estadstico de la muestra el que entrega infor-

1. Propiedades del estimador en muestras finitas. El primer conjunto

a) Sesgo. Un estimador ser insesgado si el valor esperado del estimador

b) Eficiencia. Un estimador es eficiente si es insesgado y su varianza es

Lo anterior sugiere que a pesar de que podremos comparar la eficiencia rel-

Afortunadamente existe un teorema, el teorema de la Cota Mnima de

Una medida de la calidad de un estimador, la que combina ambas propiedades

ECM () = E( )2 = E[ E()]2 + [E() ]2

El cual es la suma de la varianza del estimador mas el cuadrado del sesgo.

2. Propiedades lmites y asintticas. Generalmente estamos interesados

donde x es un valor arbitrario dado, el que se lee el valor lmite en proba-

plim g(x) = g(plim(X))

Convergencia en Distribucin y Distribuciones Lmites

Finalmente, en general se da el caso que la distribucin lmite F(x) de un

4. Sesgo Asinttico. Un estimador se dice que es asintticamente insesgado si:

Si un estimador es insesgado es automticamente asintticamente insesgado

2.4. Uso de la Teora de Distribuciones: Distribu-

Estamos interesados aqu en derivar la distribucin muestral de esta media mues-

Demostracin. Definiremos la media muestral como:

Teorema 2: Teorema del Lmite Central

la que dice que la distribucin lmite de la media muestral es una Normal.

Teorema 3: Lindberg-Levy TCL

Teorema 4: Distribucin Asinttica de la Media Muestral

El modelo de regresin es estocstico en el sentido de que para cada valor de Xi

El modelo de regresin lineal clsico (CLR) asume un conjunto de premisas acerca

Supuestos del Modelo Clsico de Regresin Lineal

Los supuestos A1 al A4 tomados en su conjunto implican que el trmino de error

El ltimo supuesto necesita un poco mas de explicacin. El que la variable X

El supuesto de regresores no estocsticos significa que su valor es, ya sea controla-