Sie sind auf Seite 1von 109

Julio H.

Cole

ELEMENTOS DE ECONOMETRA APLICADA

Tercera Edicin

J & G Ediciones

Guatemala

Para Gina,
con todo mi amor

Copyright 1996, 2006, 2014 por Julio H. Cole. Derechos reservados.


J & G Ediciones (Guatemala).

Cole, Julio Harold (1955

Elementos de Econometra Aplicada.


Tercera edicin [2014]. Bibliografa.
103 p., ilustrado, tablas.
1. Econometra. I. Ttulo.
330.015195 C689

Impreso en Guatemala Printed in Guatemala

CONTENIDO

Prefacio a la Segunda Edicin . v


.

Prefacio a la Tercera Edicin .. v


.

Captulo
1. INTRODUCCIN ........................................................................................ 1
2. REGRESIN LINEAL SIMPLE ................................................................. 5
2.1. Introduccin
2.2. Mtodo de Mnimos Cuadrados
2.3. Coeficiente de Determinacin (R2)
Preguntas de Repaso
Casos Aplicados
3. REPASO DE ALGEBRA MATRICIAL ....................................................... 20
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.

Matrices
Operaciones con Matrices
Teoremas sobre Matrices
Clases Especiales de Matrices
Traza de una Matriz Cuadrada
Transposicin de Matrices
Matriz Inversa

Preguntas de Repaso
4. REGRESIN LINEAL MLTIPLE ............................................................ 27
4.1.
4.2.
4.3.
4.4.

Vector Mnimo-Cuadrtico
Inferencia Estadstica en la Regresin Lineal
Coeficiente de Determinacin (R2)
Aplicacin Costos Administrativos en la Banca Comercial

Casos Aplicados

5. AMPLIACIONES DEL MODELO LINEAL ............................................. 44


5.1. Estimacin de Formas No-Lineales
5.2. Variables Binarias o Cualitativas
5.3. Problemas Especiales en la Regresin Lineal
5.3.1. Variables Omitidas y Variables Irrelevantes
5.3.2. Multicolinealidad
5.3.3. Heteroscedasticidad
Preguntas de Repaso
Casos Aplicados
6. AUTOCORRELACIN ................................................................................ 67
6.1.
6.2.
6.3.
6.4.

Naturaleza del Problema


Efectos de la Autocorrelacin
Cmo Detectar la Autocorrelacin
Estimacin en Presencia de Autocorrelacin

Preguntas de Repaso
Caso Aplicado
7. RETARDOS DISTRIBUIDOS ................................................................... 82
7.1. Variables Retardadas en Econometra
7.2. Autocorrelacin en Regresiones con Retardos
7.3. Aplicacin Inflacin en Guatemala
Casos Aplicados
ANEXOS .............................................................................................................. 95
.

A-1.
A-2.
A-3.
A-4.

Areas de la Distribucin Normal Estndar


Percentiles de la Distribucin t (Student)
Valores Crticos de la Distribucin Chi-cuadrado
Estadstico Durbin-Watson: Valores Crticos (5 %) para dL y dU

REFERENCIAS ............................................................................................... 100

PREFACIO A LA SEGUNDA EDICIN

La primera edicin de este libro se public en 1996. Para esta reedicin he mantenido la estructura del texto original, pero he aprovechado la oportunidad para
realizar algunas ligeras correcciones y cambios de presentacin, y tambin para
incorporar varios casos aplicados que he desarrollado en estos ltimos 10 aos.
Estos casos han resultado de gran utilidad en el curso introductorio de econometra que imparto desde hace muchos aos en la Universidad Francisco Marroqun,
y me alegro de poder ahora compartirlos con un pblico ms amplio.

J. H. C.
Guatemala, 2006

PREFACIO A LA TERCERA EDICIN

Para esta tercera edicin he mantenido la estructura del texto original, pero he incluido algunos temas adicionales, y he efectuado algunos ligeros cambios de presentacin. He incluido tambin algunos casos prcticos que he usado con xito en
mi curso de econometra en la Universidad Francisco Marroqun, pero que no haba previamente incorporado al texto. Reitero el gusto que me da ahora poder
compartirlos con un pblico ms amplio.

J. H. C.
Guatemala, 2014

Captulo 1

INTRODUCCIN

All models are wrong, but some models


are useful .
G. E. P. Box1

if you torture the data enough, nature


will always confess .
R. H. Coase2

La Econometra es aquella rama de la ciencia econmica que aplica los


instrumentos de la economa terica, del anlisis matemtico y de la estadstica
inferencial al anlisis cuantitativo de los fenmenos econmicos. Las teoras
econmicas tpicamente expresan relaciones funcionales entre diferentes
variables. La curva de demanda, por ejemplo, representa la cantidad demandada
de una mercanca como funcin de su precio. En la teora de la empresa, por otro
lado, el costo de produccin se considera como funcin de la escala de
produccin, mientras que en el anlisis macroeconmico la funcin consumo
relaciona los gastos de consumo con el nivel de ingreso nacional. Todos estos son
ejemplos de relaciones entre dos variables, aunque por supuesto que una
formulacin ms completa debe incluir varias variables diferentes en cada
relacin.
El propsito de la Econometra consiste en desarrollar mtodos para la estimacin numrica de los parmetros que definen las relaciones funcionales entre
las diversas variables econmicas que nos pueden interesar, y para testar y comprobar las diversas hiptesis que se pueden postular acerca de dichos parmetros.
El primer paso en cualquier investigacin economtrica debe ser la especificacin
1

Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.

How Should Economists Choose? [1981], en Ideas, Their Origins, and Their Consequences: Lectures to Commemorate the Life and Work of G. Warren Nutter (Washington: American Enterprise Institute, 1988), p. 74.
2

[1]

de un modelo matemtico para representar la relacin que se desea investigar. En


la prctica, lo comn es partir de una ecuacin de regresin que postula una relacin causal entre una variable dependiente y una o ms variables independientes. (En econometra, una variable es denominada dependiente si podemos
suponer que es funcin de otras variables, y el anlisis de regresin consiste en
explicar los cambios observados en la variable dependiente por medio de los
cambios observados en estas otras variables independientes.) Luego debemos recoger datos relevantes de la economa o sector que deseamos describir por medio
del modelo. Como tercer paso, se utilizan estos datos para estimar los parmetros
del modelo. Por ltimo, se realizan pruebas sobre el modelo estimado, a fin de
determinar si constituye una representacin adecuada del fenmeno estudiado, o
si debemos realizar modificaciones en la especificacin original.
En la econometra aplicada, la forma funcional que ms se utiliza en la
prctica para representar la relacin causal entre variables dependientes e
independientes es la funcin lineal, que en su forma ms general puede
expresarse de la siguiente manera:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
donde Y representa el valor de la variable dependiente, X1, X2, ... , Xk representan
los valores de las variables independientes, 0 representa la ordenada en el
origen, 1, 2 , ... , k representan los coeficientes de las respectivas variables
independientes, y u representa un trmino de error.
En un problema de econometra aplicada, deseamos obtener estimaciones de
los k + 1 parmetros (0, 1, 2, ... , k) que contiene esta ecuacin. Consideremos
la interpretacin de estos parmetros, obviando por el momento los problemas de
estimacin. El parmetro 0 es relativamente fcil de interpretar, ya que como se
mencion en el prrafo anterior, es simplemente la ordenada en el origen, o sea,
el valor de Y cuando todas las variables independientes son exactamente cero. Por
otra parte, los coeficientes 1, 2, etc., pueden interpretarse como las derivadas
parciales de Y respecto de las respectivas variables independientes: as, 1 nos
dice cunto cambia Y en respuesta a un cambio de una unidad en X1, suponiendo
que las dems variables independientes no cambian, y los dems coeficientes se
pueden interpretar de la misma manera. Obviamente, es muy importante contar
con estimaciones confiables de la magnitud de estos coeficientes, y el trabajo del
econometrista consiste en proporcionar estas estimaciones.
La presencia del trmino de error (u) en esta ecuacin refleja el hecho de que
los datos econmicos nunca se ajustan a funciones matemticamente exactas, de
modo que funciones simples como la anterior slo pueden considerarse como
aproximaciones a las verdaderas relaciones que se estn investigando. An si la

[2]

verdadera relacin no es lineal, sin embargo, si el rango relevante de variacin de


las variables no es muy grande, entonces la forma lineal podra constituir de todas
maneras una buena aproximacin a la verdadera forma funcional.
El Prof. Johnston ha propuesto tres diferentes razones para justificar el trmino de error en un anlisis economtrico.3 Por un lado, los datos econmicos
siempre contienen errores de medicin, ya que las variables econmicas no pueden ser medidas con exactitud. En este sentido, u puede ser interpretado literalmente como un error genuino. Por otro lado, en un anlisis aplicado slo pueden tomarse en cuenta las variables ms importantes para la explicacin de un fenmeno, y por tanto las ecuaciones en la prctica no pueden incluir todas las variables que pueden afectar una determinada variable dependiente. El efecto neto
de las variables omitidas se refleja en el trmino de error, que en este sentido es
interpretado como un residuo. Por ltimo, y como ya se mencion en el prrafo
anterior, las relaciones econmicas probablemente no seran exactas an si no
existiera ningn error de medicin, y an si todas las variables relevantes son incluidas en el anlisis. En ltima instancia, las variables econmicas dependen de
la accin humana, y existe una cierta indeterminacin en el comportamiento humano que slo puede ser representada mediante un trmino de perturbacin aleatorio, cuya varianza es incrementada por los errores de medicin y el efecto residual de variables omitidas. Se reconoce de entrada, por tanto, que las estimaciones economtricas siempre contienen cierto elemento de incertidumbre. Con tcnicas adecuadas, se puede tratar de reducir esta incertidumbre, aunque nunca se
podr eliminar del todo. El estudiante de econometra debe estar siempre consciente de las limitaciones de sus mtodos de anlisis.
El propsito de este texto es familiarizar al estudiante de economa y/o
administracin con las tcnicas ms comunes que se emplean en el anlisis
economtrico aplicado. Esencialmente, se trata de estimar los coeficientes de
ecuaciones lineales, tales como la ecuacin (1). En el siguiente captulo se discute
el caso ms sencillo, el de una sola variable independiente, que puede ser tratado
con tcnicas algebraicas relativamente simples. El caso ms general de k variables
independientes requiere de tcnicas ms sofisticadas, y por esto es que el Captulo
3 se dedica a un repaso de lgebra matricial, previo a la discusin del modelo de
Regresin Lineal Mltiple, que es el tema del Captulo 4. En el Captulo 5 se
consideran ampliaciones del modelo lineal, como ser la estimacin de formas nolineales y el uso de variable binarias, y se discuten algunos problemas especiales
que frecuentemente surgen en el anlisis de regresin, tales como multicolinealidad, heteroscedasticidad y el efecto de variables omitidas, mientras que
el importante problema de la autocorrelacin es tratado a fondo en el Captulo 6.
3

J. Johnston, Econometric Methods, 2a ed. (Nueva York: McGraw-Hill, 1972), pp. 1011.

[3]

Finalmente, el Captulo 7 trata de los problemas especiales que puede plantear la


presencia de retardos en las ecuaciones de regresin.
La lectura de este texto presupone que el estudiante conoce los rudimentos del
clculo, y ciertos elementos de estadstica matemtica. Tambin es conveniente
cierta familiaridad con las computadoras, y particularmente con el manejo de hojas electrnicas tipo Excel. Como lo indica el ttulo, este es un texto para un curso
introductorio de econometra aplicada. Un texto introductorio debe ser selectivo,
y si bien se ha hecho un esfuerzo por incluir la mayora de las herramientas que
en la prctica debe emplear el investigador tpico en la situacin tpica, sin duda
existen algunas lagunas ms o menos importantes. En aras de la brevedad, por
ejemplo, se ha omitido por completo el tema de la estimacin de modelos de
ecuaciones simultneas, de modo que el texto se limita nicamente al caso de
modelos de ecuacin nica, e incluso en este caso slo se discuten los problemas
que ms comnmente se plantean en la prctica. El estudiante que desea especializarse en este campo podr subsanar estas deficiencias consultando algunos de
los textos citados en la bibliografa.

[4]

Captulo 2

REGRESIN LINEAL SIMPLE

2.1. Introduccin.
En este captulo consideramos el caso ms simple de una regresin lineal, que
es el de una ecuacin lineal con una variable dependiente (Y), y una sola variable
independiente (X). Este modelo bsico puede ser representado como:
Y = 0 + 1X + u
donde 0 y 1 son los parmetros respectivos, y u es el trmino de error. (Siempre
conviene recordar que en econometra las relaciones entre variables no son funciones exactas, sino que son nicamente relaciones estadsticas. Por esto siempre
es necesario incluir una variable de error en la relacin.)
El parmetro 0, conocido como la ordenada en el origen, nos dice cunto
es Y cuando X = 0. El parmetro 1, conocido como la pendiente, nos dice
cunto aumenta Y por cada aumento de una unidad en X. Estos parmetros son
desconocidos, y nuestro problema consiste en obtener estimaciones numricas de
los mismos a partir de una muestra de observaciones sobre las variables estudiadas. El mtodo de estimacin ms comnmente empleado en el anlisis de regresin es el mtodo de mnimos cuadrados. La mejor forma de ilustrar la aplicacin de este mtodo es por medio de un ejemplo prctico.
Consideremos el Cuadro 2.1, que muestra datos mensuales de produccin y
costos de operacin para una empresa britnica de transporte de pasajeros por carretera durante los aos 1949-52. (La produccin se mide en trminos de miles de
millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de
libras por mes). Para poder visualizar el grado de relacin que existe entre las variables, como primer paso en el anlisis es conveniente elaborar un diagrama de
dispersin, que es una representacin en un sistema de coordenadas cartesianas
de los datos numricos observados. En el diagrama resultante, en el eje X se miden las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin
mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y
costos de operacin) que corresponde a un mes determinado. Como era de esperarse, existe una relacin positiva entre estas variables: una mayor cantidad de
millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.

[5]

Por otro lado, tambin se aprecia por qu este grfico se denomina un


diagrama de dispersin: no existe una relacin matemticamente exacta entre
las variables, ya que no toda la variacin en el costo de operacin puede ser
explicada por la variacin en las millas-vehculo. Si entre estas variables existiera
una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la
recta de regresin, que tambin ha sido trazada y que muestra la relacin
promedio que existe entre las dos variables. En la prctica, se observa que la
mayora de los puntos no caen directamente sobre la recta, sino que estn
dispersos en torno a ella. Esta dispersin representa la variacin en Y que no
puede atribuirse a la variacin en X.

CUADRO 2.1.
OPERACIONES MENSUALES EN UNA EMPRESA DE TRANSPORTE DE PASAJEROS

Costos
MillasCostos
MillasTotales Vehculo
Totales Vehculo
(miles)
(miles)
(miles)
(miles)
Mes N
Y
X
Mes N
Y
X

1
213.9
3147
20
243.7
4019
2
212.6
3160
21
262.3
4394
3
215.3
3197
22
252.3
4251
4
215.3
3173
23
224.4
3844
5
215.4
3292
24
215.3
3276
6
228.2
3561
25
202.5
3184
7
245.6
4013
26
200.7
3037
8
259.9
4244
27
201.8
3142
9
250.9
4159
28
202.1
3159
10
234.5
3776
29
200.4
3139
11
205.9
3232
30
209.3
3203
12
202.7
3141
31
213.9
3307
13
198.5
2928
32
227.0
3585
14
195.6
3063
33
246.4
4073
15
200.4
3096
16
200.1
3096
17
201.5
3158
18
213.2
3338
19
219.5
3492

Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A.,

1966), p. 118.

[6]

DIAGRAMA DE DISPERSIN
280

COSTOS

260

240

220

200

180
2500

3000

3500
MILLAS

[7]

4000

4500

2.2. Mtodo de Mnimos Cuadrados.


En un anlisis de regresin, tratamos de contestar dos preguntas bsicas:
1. Cul es la relacin estadstica que existe entre la variable dependiente (Y) y la
variable independiente (X)? Para contestar esta pregunta, debemos obtener estimaciones de los parmetros de la recta de regresin, es decir, los coeficientes 0 y
1 de la ecuacin (1). En el ejemplo concreto que nos concierne aqu, el estimador de 1 nos ayuda a responder una pregunta muy importante: cunto aumenta,
en promedio, el costo de operacin por cada milla-vehculo adicional?
2. Qu porcentaje de la variacin total en la variable dependiente se puede atribuir a la variacin en la variable independiente? Para contestar esta pregunta, debemos comparar la dispersin de los datos en torno a la recta de regresin con la
variacin total en la variable dependiente.
La primera de estas dos preguntas supone encontrar la recta que mejor se
ajusta a los datos observados, lo que obviamente requiere algn criterio de
seleccin. Supongamos que tenemos dos estimadores de los coeficientes 0 y 1,
que denotaremos por b0 y b1, respectivamente, y consideremos el i-simo punto
del diagrama de dispersin, que representa un valor para la variable
independiente (Xi) y un valor para la variable dependiente (Yi). Dado el valor de
Xi, el valor de Y calculado por la recta de regresin ser b0 + b1Xi y la diferencia
entre este valor calculado y el valor realmente observado (Yi) ser el error
correspondiente a la i-sima observacin:
ei = Yi b0 b1Xi
Sea n el nmero total de observaciones en la muestra (en este ejemplo n = 33).
Para cada observacin individual habr un error correspondiente, y el mtodo de
minimos cuadrados consiste en encontrar los valores de b0 y b1 que minimizan
la suma de los errores cuadrados para la muestra en conjunto. Es decir, se trata
de minimizar la variable:
n

i 1

i 1

Q ei2 (Yi b0 b1 X i ) 2

Ntese que esta expresin es funcin de b0 y b1, ya que diferentes valores para
estos parmetros producirn diferentes conjuntos de errores. En otras palabras, la
suma de los errores cuadrados es funcin de la recta de regresin. Segn el
criterio de mnimos cuadrados, la mejor recta de regresin es la que minimiza
Q. Aplicando un conocido principio del clculo, para minimizar Q calculamos las
derivadas parciales respecto de b0 y de b1, y las igualamos a 0:

[8]

n
Q
2 (Yi b0 b1 X i ) 0
b0
i 1
n
Q
2 (Yi b0 b1 X i ) X i 0
b1
i 1

Esto nos proporciona un sistema de dos ecuaciones con dos incgnitas. Resolviendo el sistema podemos obtener los valores de b0 y b1. En la terminologa del
anlisis de regresin estas ecuaciones son a veces denominadas las ecuaciones
normales. Ntese que la primera de estas ecuaciones equivale a la restriccin
e i 0 , mientras que la segunda equivale a la restriccin X i ei 0 . Este es
un resultado importante que ser utilizado ms adelante en este captulo. (En lo
sucesivo suprimiremos el uso del subndice en las sumatorias, para facilitar la notacin. Se entiende que todas las sumas se efectan sobre i = 1, 2, ... , n.) Simplificando estas ecuaciones, podemos obtener las siguientes expresiones equivalentes:
(1)

nb0 b1 X

(2)

XY

b0 X b1 X 2

La ecuacin (1) tambin puede expresarse como


(3)

b0 y b1 x

donde y

es el promedio aritmtico de los valores para Y, y x

es el
n
n
promedio aritmtico de los valores para X. Sustituyendo (3) en (2), y reordenando
trminos, obtenemos la siguiente expresin para b1:
(4)

b1

XY y X
X x X
2

Las frmulas (3) y (4) nos permiten calcular b0 y b1 a partir de los datos observados. Para el ejemplo de los costos de transporte, tenemos:

Y 7,231.1 (por tanto

y 7,231.1 33 219.12424 )

X 113,879 (por tanto x 113,879 33 3,450.8788 )


XY 25,216,020.3

398,855,769

[9]

Sustituyendo estos valores en la frmula (4) obtenemos:

b1

25,216,020.3 (219.12424)(113,879)
0.044673
398,855,769 (3,450.8788)(113,879)

Por ltimo, sustituyendo este valor en la frmula (3), juntamente con los valores
para x y y , obtenemos:

b0 219.12424 (0.044673)(3,450.8788) 64.963


Estos dos parmetros definen la recta de regresin, que podemos expresar como
sigue:

Y 64.963 0.044673 X
(Usamos el smbolo Y para representar el valor calculado de Y segn la recta de
regresin. Es muy importante distinguir claramente entre Y y Y, que es el valor
observado de la variable dependiente.) Segn esta estimacin, y en nmeros
redondos, podemos esperar que en promedio el costo de operacin se incremente
alrededor de 0.045 libras por cada milla-vehculo adicional, mientras que el
costo fijo mensual (i.e., la parte del costo de operacin que no vara con las
millas recorridas) es de aproximadamente 65,000 libras al mes, en promedio.
2.3. Coeficiente de Determinacin (R2).
Habiendo calculado la recta de regresin, podemos ahora tratar de responder a
la segunda pregunta planteada en la seccin anterior: qu porcentaje de la variacin total en el costo de operacin (Y) se debe a la variacin en las millasvehculo recorridas (X)? En otras palabras, y en trminos ms generales, cul es
la proporcin de la variacin total en Y que puede ser explicada por la variacin
en X? Para poder contestar esta pregunta, debemos antes descomponer la variacin total en Y en sus dos componentes: la variacin explicada, que se puede
atribuir a la variacin en X, y la variacin no-explicada, que se debe a factores
desconocidos y que representamos por los errores de la regresin.
Por definicin de la recta de regresin, tenemos que para cualquier observacin individual el valor observado de Y ser igual a la Y calculada ms el error:

Yi Yi ei

Y Y , ya que se recordar que e

0 por
la primera ecuacin normal. Esto implica a su vez que el promedio de las Y es
Ntese que esto implica que

[10]

exactamente igual a y . Si restamos y de ambos lados de esta ecuacin y elevamos al cuadrado tendremos:

(Yi y ) 2 [(Yi y ) ei ]2 (Yi y ) 2 ei2 2(Yi y )ei


Por ltimo, si sumamos sobre todas las observaciones tendremos:
(5)

(Y y)

(Y y ) 2 e 2 2 (Y y )e

donde nuevamente hemos suprimido los subndices para simplificar la notacin.


Consideremos ahora la expresin:

(Y y)e Ye y e Ye
ya que e 0 , por la primera ecuacin normal. A su vez, por la definicin de
Y tenemos que:

Ye (b

ya que

e 0

b1 X )e b0 e b1 Xe 0

por la primera ecuacin normal, y Xe 0 por la segunda

ecuacin normal. Por tanto, la ecuacin (5) se reduce a la siguiente expresin:

(Y y)

(Y y ) 2 e 2

En palabras, esto nos indica que la variacin total de la variable dependiente (en
torno a su promedio) se puede descomponer en dos partes: (1) la variacin total
de la Y calculada, y (2) la suma de los errores cuadrados. Puesto que la
variacin de la Y calculada se debe totalmente a la variacin en X, a este primer
componente de la variacin total en Y se le conoce como la variacin explicada,
ya que es la parte de la variacin en Y que puede ser atribuida a la variacin en la
variable independiente. El segundo componente de la variacin en Y, la suma de
los errores cuadrados, representa la variacin no-explicada, ya que es la parte
residual de la variacin en Y que no puede ser atribuida a la variacin en X. Si
expresamos la variacin explicada como porcentaje de la variacin total,
obtenemos el siguiente estadstico importante que se conoce como el coeficiente
de determinacin:
e2
(Y y ) 2

R
1
2
2

(
Y

y
)
(
Y

y
)

Los clculos relevantes para el caso de los costos de transporte se muestran en el


Cuadro 2.2. El valor de 0.9464 para R2 nos indica que la variacin en las millasvehculo recorridas explica el 94.64 % de la variacin en el gasto de operacin
mensual. El resto de la variacin observada (5.36 %) se debe a otros factores.

[11]


CUADRO 2.2. CLCULO DE R2 PARA EL CASO DE LOS COSTOS DE TRANSPORTE.

Mes N
Y
X
e
e2
Y2
Y

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

213.9
212.6
215.3
215.3
215.4
228.2
245.6
259.9
250.9
234.5
205.9
202.7
198.5
195.6
200.4
200.1
201.5
213.2
219.5
243.7
262.3
252.3
224.4
215.3
202.5
200.7
201.8
202.1
200.4
209.3
213.9
227.0
246.4

3147
3160
3197
3173
3292
3561
4013
4244
4159
3776
3232
3141
2928
3063
3096
3096
3158
3338
3492
4019
4394
4251
3844
3276
3184
3037
3142
3159
3139
3203
3307
3585
4073

205.5489
206.1297
207.7826
206.7104
212.0265
224.0436
244.2357
254.5552
250.7580
233.6482
209.3461
205.2809
195.7655
201.7964
203.2706
203.2706
206.0403
214.0815
220.9611
244.5039
261.2562
254.8679
236.6860
211.3117
207.2018
200.6349
205.3256
206.0850
205.1915
208.0506
212.6966
225.1157
246.9161

8.3511
6.4703
7.5174
8.5896
3.3735
4.1564
1.3643
5.3448
0.1420
0.8518
-3.4461
-2.5809
2.7345
-6.1964
-2.8706
-3.1706
-4.5403
-0.8815
-1.4611
-0.8039
1.0438
-2.5679
-12.2860
3.9883
-4.7018
0.0651
-3.5256
-3.9850
-4.7915
1.2494
1.2034
1.8843
-0.5161

69.7409
41.8648
56.5113
73.7812
11.3805
17.2757
1.8613
28.5669
0.0202
0.7256
11.8756
6.6610
7.4775
38.3954
8.2403
10.0527
20.6143
0.7770
2.1348
0.6463
1.0895
6.5941
150.9458
15.9065
22.1069
0.0042
12.4299
15.8802
22.9585
1.5610
1.4482
3.5506
0.2664

45753.21
45198.76
46354.09
46354.09
46397.16
52075.24
60319.36
67548.01
62950.81
54990.25
42394.81
41087.29
39402.25
38259.36
40160.16
40040.01
40602.25
45454.24
48180.25
59389.69
68801.29
63655.29
50355.36
46354.09
41006.25
40280.49
40723.24
40844.41
40160.16
43806.49
45753.21
51529.00
60712.96

Sumas

7231.1

113879

7231.0953

(*) 0.0047

663.3451

1596893.53

(Y y)

Y 2 n( y ) 2 1,596,893.53 (33)(219.12424) 2 12,384.2557

R 2 1 (663.3451 12,384.2557) 0.9464

(*) La suma algebraica de los errores no es exactamente 0 debido a errores de redondeo.

[12]

PREGUNTAS DE REPASO

1. Defina los siguientes conceptos:


a)
b)
c)
d)

diagrama de dispersin
recta de regresin
criterio de mnimos cuadrados
coeficiente de determinacin.

2. (Regresin por el Origen) En algunas situaciones, se sabe que la relacin entre Y y X pasa por el origen en el sentido de que 0 = 0. Este sera el caso
cuando Y = 0 por definicin cuando X = 0. En este caso la recta de regresin
sera simplemente Y = 1X + u.
a) Derive la frmula para b1, el estimador de 1, usando el criterio de mnimos cuadrados.
b) Ntese que en este caso la suma algebraica de los errores,

, ya no es

igual a 0. Por qu? Qu implicaciones tiene esto para la interpretacin de


R2?
c) En el caso de una regresin lineal convencional, 0 < R2 < 1 por definicin.
Sin embargo, en el caso de una regresin por el origen, se puede dar el caso
de una R2 negativa. Muestre grficamente de qu forma podra darse esta
situacin.

[13]

CASOS APLICADOS
Caso A Elecciones en Florida
En las elecciones presidenciales norteamericanas de Noviembre 2000 los contendientes principales, George Bush y Al Gore, resultaron casi empatados en trminos de votos electorales, por lo que el resultado dependa crucialmente de los comicios en el estado de Florida, donde el escrutinio inicial no dio un resultado definitivo a favor de ninguno de los candidatos. A medida que prosegua el conteo,
surgieron varias anomalas, una de las cuales tuvo que ver con el condado de
Palm Beach. Entre otras cosas, se aleg que en este condado muchos votantes que
deseaban votar por Gore se confundieron, debido al diseo de la papeleta electoral, y votaron por error por un candidato marginal, Pat Buchanan, del Reform
Party. (El condado de Palm Beach tena una papeleta electoral un tanto confusa y
con un formato diferente a la de los dems condados en el estado.)
El cuadro adjunto muestra la votacin obtenida por Buchanan en todos los condados del estado de Florida, y se aprecia claramente que la cantidad de votos obtenidos por ese candidato en Palm Beach fue exageradamente grande en comparacin al resto del estado. Presumiblemente, muchos de estos fueron efectivamente votos errneos (y probablemente con la intencin de votar por Gore, debido al
diseo de la papeleta). La pregunta es si se puede obtener una estimacin aproximada de la cantidad de estos votos errneos.
Como una primera aproximacin, se esperara que la votacin obtenida por Buchanan en un condado determinado estara positivamente relacionada con la cantidad de personas afiliadas al Reform Party residentes en ese condado. Este dato
tambin se muestra en el cuadro adjunto.
Con esta informacin:
(a)

Construya un diagrama de dispersin, relacionando las dos variables.

(b)

Calcule la lnea de regresin (excluyendo la observacin para Palm


Beach), y con los resultados obtenidos, haga una estimacin de la votacin excedente obtenida por Buchanan en Palm Beach.

(c)

Tomando en cuenta que segn los resultados oficiales, Bush gan a Gore
en Florida por una diferencia de 537 votos (sobre un total de ms de
6,100,000 votos emitidos), comente sobre las implicaciones de este anlisis para el resultado final de las elecciones presidenciales de ese ao.

[14]

RESULTADOS ELECTORALES EN FLORIDA, NOV 2000 REFORM PARTY (P. BUCHANAN)

Condado
Alachua
Baker
Bay
Bradford
Brevard
Broward
Calhoun
Charlotte
Citrus
Clay
Collier
Columbia
Dade
Desoto
Dixie
Duval
Escambia
Flagler
Franklin
Gadsden
Gilchrist
Glades
Gulf
Hamilton
Hardee
Hendry
Hernando
Highlands
Hillsborough
Holmes
Indian River
Jackson
Jefferson
Lafayette

Registrados
Reform Party

Votos por
Buchanan

91
4
55
3
148
332
2
41
44
40
118
35
217
7
0
150
130
30
0
11
6
2
3
3
4
10
43
24
299
2
66
8
2
0

263
73
248
65
570
788
90
182
270
186
122
89
560
36
29
652
502
83
33
38
29
9
71
23
30
22
242
127
847
76
105
102
29
10

Condado

Registrados Votos por


Reform Party Buchanan

Lake
Lee
Leon
Levy
Liberty
Madison
Manatee
Marion
Martin
Monroe
Nassau
Okaloosa
Okeechobe
Orange
Osceola
Pasco
Pinellas
Polk
Putnam
Santa Rosa
Sarasota
Seminole
St.Johns
St.Lucie
Sumter
Suwannee
Taylor
Union
Volusia
Wakulla
Walton
Washington

80
113
80
17
0
2
140
108
48
62
13
96
27
199
62
167
425
119
27
55
154
81
59
25
21
7
3
1
176
7
22
9

289
305
282
67
39
29
271
563
112
47
90
267
43
446
145
570
1013
532
148
311
305
194
229
124
114
108
27
37
496
46
120
88

PALM BEACH

337

3407

Fuentes: Florida Dept. of State, Division of Elections, "County Voter Registration by


Party," Oct 10, 2000 (http://election.dos.state.fl.us/pdf/2000voterreg/2000genparty.pdf);
ABC News, "Florida: Real-Time County Returns" (www.abcnews.go.com/sections/poli
tics/2000vote/general/FL_county.html), visited June 15, 2001.

[15]

Caso B Desempleo y Crecimiento Econmico


En 1962 el economista norteamericano Arthur Okun plante un modelo macroeconmico para explicar las variaciones en la tasa de desempleo. Segn este modelo, que se conoce hoy en da como la ley de Okun, existe una relacin lineal
entre el cambio en la tasa de desempleo y la tasa de crecimiento del Producto Interno Bruto (PIB) real.4 El siguiente cuadro muestra datos sobre desempleo y crecimiento econmico en los Estados Unidos durante el perodo 1972-2011:

Ao

Tasa de
Desempleo (%)

Crecimiento
PIB real (%)

Ao

Tasa de
Desempleo (%)

Crecimiento
PIB real (%)

1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991

5.6
4.9
5.6
8.5
7.7
7.1
6.1
5.8
7.1
7.6
9.7
9.6
7.5
7.2
7.0
6.2
5.5
5.3
5.6
6.8

5.3
5.8
-0.6
-0.2
5.4
4.6
5.6
3.1
-0.3
2.5
-1.9
4.5
7.2
4.1
3.5
3.2
4.1
3.6
1.9
-0.2

1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011

7.5
6.9
6.1
5.6
5.4
4.9
4.5
4.2
4.0
4.7
5.8
6.0
5.5
5.1
4.6
4.6
5.8
9.3
9.6
8.9

3.4
2.9
4.1
2.5
3.7
4.5
4.4
4.8
4.1
1.1
1.8
2.5
3.5
3.1
2.7
1.9
-0.3
-3.5
3.0
1.7

Fuente: Economic Report of the President, 2012 (Washington: U.S. Government Printing
Office, 2012), Table B-4, Table B-43 (pp. 321, 369).

A. M. Okun, Potential GNP: Its Measurement and Significance, Proceedings (Business and Economics Section), American Statistical Association, 1962, pp. 98-104. Para
aplicaciones ms recientes del modelo de Okun vase Paul Krugman, How Fast Can
the U.S. Economy Grow? Harvard Business Review, 75 (1997): 123-29 y J. Crespo
Cuaresma, Okuns Law Revisited, Oxford Bulletin of Economics and Statistics, 65
(2003): 439-51.
4

[16]

a) Use estos datos para estimar el modelo de Okun, y explique el significado


de los coeficientes obtenidos.
b) En este problema, el punto donde la recta intersecta al eje X tiene un significado econmico interesante. Determine este punto para este caso, y
explique su significado en trminos del modelo de Okun.
Caso C Desempleo y Crecimiento Econmico (cont.)
Como regularidad emprica, la Ley de Okun es una de las relaciones macroeconmicas ms estables que se conocen. Para comprobarlo, vuelva a estimar el modelo de Okun usando datos sobre desempleo y crecimiento econmico en Estados
Unidos durante el perodo 1929-54. (Para el estudio de las fluctuaciones en el
desempleo, este perodo muestral es particularmente interesante, porque incluye
el perodo de la Gran Depresin de los aos 30s.)
Compare con la regresin estimada en el caso anterior, y comente sobre los resultados.

Ao

Tasa de
Desempleo (%)

Crecimiento
PIB real (%)

1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941

3.2
8.9
15.9
23.6
24.9
21.7
20.1
17.0
14.3
19.0
17.2
14.6
9.9

.
-9.5
-7.0
-15.0
-2.7
9.4
10.4
13.3
5.9
-4.6
8.1
8.7
15.7

Ao

Tasa de
Desempleo (%)

Crecimiento
PIB real (%)

1942
1943
1944
1945
1946
1947
1948
1949
1950
1951
1952
1953
1954

4.7
1.9
1.2
1.9
3.9
3.6
3.4
5.5
5.0
3.0
2.7
2.5
5.0

12.1
11.2
7.1
-1.2
-10.0
-0.1
3.8
-0.1
8.7
7.5
3.4
4.4
-1.6

Fuentes: (a) Desempleo Stanley Lebergott, Annual Estimates of Unemployment in


the U.S., 1900-1950, en The Measurement and Behavior of Unemployment
(Princeton University Press, 1957), Table 1, pp. 215-16; (b) Crecimiento PIB real
Economic Report of the President, 1962 (Washington: Government Printing Office,
1962), Table B-3, p. 210.

[17]

Caso D Costos de Impresin


Se espera que mientras mayor sea el nmero de pginas en un libro, mayor sea su
costo de impresin, ceteris paribus. Usted desea estimar la relacin entre el costo
promedio por ejemplar y el nmero de pginas, tomando una muestra de los ltimos 10 anuarios publicados por una asociacin acadmica5:

Libro No.

Nmero de
Pginas

Cantidad de
Ejemplares

Costo Total

1
2
3
4
5
6
7
8
9
10

754
677
689
745
675
615
753
698
652
670

12,400
12,700
14,000
14,800
15,800
16,000
17,700
18,500
20,000
22,500

$ 16,253.00
$ 15,471.00
$ 16,780.00
$ 18,914.00
$ 19,759.00
$ 18,277.00
$ 23,440.00
$ 23,362.00
$ 23,264.00
$ 28,405.00

(a) Qu porcentaje de la variacin en el costo promedio se explica por la variacin en el nmero de pginas?
(b) Cul sera su estimacin del costo marginal por ejemplar para un libro de
500 pginas?

Los datos sobre costos de publicacin fueron tomados de H. F. Williamson, Report of


the Secretary for the Year 1966, American Economic Review, 57 (May 1967), p. 690
(Exhibit II).
5

[18]

Caso E Costos de Operacin en Escuelas Pblicas


En un estudio de los costos de operacin en escuelas pblicas del estado de Wisconsin,6 el economista John Riew clasific a 109 escuelas secundarias en grupos
segn su tamao (nmero de estudiantes inscritos), y encontr que el costo anual
promedio por alumno se comportaba de la siguiente manera:
Tamao de
la Escuela

Nmero de
Escuelas

Costo Promedio
por Alumno

143-200
201-300
301-400
401-500
501-600
601-700
701-900
901-1100
1101-1600
1601-2400

6
12
19
17
14
13
9
6
6
7

$ 531.90
$ 480.80
$ 446.30
$ 426.90
$ 442.60
$ 413.10
$ 374.30
$ 433.20
$ 407.30
$ 405.60

Total

109

Use estos datos para obtener una estimacin aproximada del costo marginal por
alumno en escuelas de este tipo.

John Riew, Economies of Scale in High School Operation, Review of Economics and
Statistics, 48 (1966), p. 282 (Table 2).
6

[19]

Captulo 3

REPASO DE ALGEBRA MATRICIAL

En el captulo anterior se discuti el caso ms simple de una regresin lineal con


una sola variable independiente. Por cierto que la aplicabilidad prctica de este
modelo simple es relativamente limitada, ya que generalmente las variaciones en
la variable dependiente no obedecen a un solo factor, sino que ms bien existen
varios factores diferentes que pueden estarla influenciando.
En el caso ms general de k diferentes variables independientes, nuestro problema consiste en estimar los coeficientes de la siguiente ecuacin:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
Se puede apreciar que en este caso la aplicacin del criterio de mnimos cuadrados por medio de mtodos algebraicos sera sumamente tedioso y complicado.
Afortunadamente, por medio de lgebra matricial se puede obtener una solucin
bastante compacta por medio de unas pocas frmulas muy simples. Por tanto, en
este captulo repasaremos los elementos del lgebra de matrices que sern requeridos en el resto del texto.

3.1. Matrices.
Una matriz es una coleccin rectangular de elementos, ordenados en filas y
columnas. En su forma ms general, una matriz tiene la siguiente forma:

a11
a
21
A= .

.
a m1

a12
a 22
.
.
am2

... a1n
... a 2 n
... .

... .
... a mn

donde aij (el elemento caracterstico de la matriz) es el elemento ubicado en la


fila i y la columna j. Si una matriz tiene m filas y n columnas, se dice que es de

[20]

orden m por n ( m n ). La expresin [aij] tambin se usa para denotar a la matriz que tiene aij como elemento caracterstico. En este caso, A = [aij].
Un vector es un caso especial de una matriz que tiene una sola fila (vector
fila) o una sola columna (vector columna). En lo que sigue, usaremos letras
maysculas para denotar matrices, y letras minsculas para denotar vectores.

3.2. Operaciones con Matrices.


a) Igualdad de dos matrices Se dice que dos matrices A y B son iguales cuando son del mismo orden y aij = bij para todo i, j. Esto es, las matrices deben ser
iguales, elemento por elemento.
b) Suma y resta de matrices Si A y B son del mismo orden, entonces A + B
ser una nueva matriz C tal que cij = aij + bij. Esto es, se suman los elementos correspondientes de las dos matrices. En forma similar, A B ser una nueva matriz
D tal que dij = aij bij, esto es, se restan los elementos correspondientes de las dos
matrices.
Ejemplo.

3 4 1
0 1 2
1 2 0

AB

3 4 2
5 7 6
5 3 6

0 0 1
5 6 4
4 1 6

AB

3 4 0
5 5 2
3 1 6

c) Multiplicacin escalar Si es una constante, entonces el producto escalar


de por una matriz A ser tal que A = [aij]. Esto es, se multiplica cada elemento de A por .
d) Multiplicacin de matrices Si A es una matriz de orden m n , y B es una
matriz de orden n p , entonces el producto AB ser una matriz C de orden
m p con elemento caracterstico:
n

cij aik bkj


k 1

[21]

Es decir, el elemento en la i-sima fila y j-sima columna de AB se encuentra


multiplicando los elementos de la i-sima fila de A por los elementos correspondientes de la j-sima columna de B, y sumando los productos.
Ejemplo.

3 4
0 1
1 2

5 6
4 1

AB

31 22
4 1
13 8

Ntese que para poder multiplicar dos matrices, el nmero de columnas de la


primera matriz debe ser igual al nmero de filas de la segunda matriz (caso contrario, el producto no est definido). Cuando se multiplican dos matrices, la matriz resultante tendr el mismo nmero de filas que la primera matriz, y el mismo
nmero de columnas que la segunda matriz. Es muy importante el orden en que
se multiplican las matrices, ya que en el caso de lgebra matricial el orden de los
factores s altera el producto: BA generalmente no ser igual a AB, y podra no
existir.

3.3. Teoremas sobre Matrices.


(i) Ley Conmutativa de la Suma.
A+B=B+A
Este resultado se desprende directamente de la definicin de la suma de matrices.
(ii) La Multiplicacin de Matrices no es Conmutativa.
Como ya se mencion en la seccin anterior, en general AB BA (excepto en
el caso algunas matrices especiales). De hecho, a veces alguno de estos productos
ni siquiera estar definido. Los dos productos AB y BA existirn si las matrices
son de orden m n y n m , respectivamente. En ese caso, el primer producto ser de orden m m , y el segundo de orden n n . (An en el caso de que los dos
productos sean del mismo orden, en general no sern iguales.)
(iii) Ley Asociativa de la Suma.
(A + B) + C = A + (B + C)
(iv) Ley Asociativa del Producto.
(AB)C = A(BC)

[22]

(v) Ley Distributiva.


A(B + C) = AB + AC
(A + B)C = AC + BC

3.4. Clases Especiales de Matrices.


Matriz Cuadrada: Se dice que una matriz es cuadrada si el nmero de filas
es igual al nmero de columnas (m = n).
Matriz Diagonal: Es una matriz cuadrada que tiene elementos, no necesariamente iguales, a lo largo de su diagonal principal (los elementos aii), y ceros en
el resto. Obviamente, slo las matrices cuadradas tienen una diagonal principal.
Matriz Identidad: Es una clase especial de matriz diagonal, que slo tiene
unos en la diagonal principal. Esta es una matriz muy importante, y se representa
por el smbolo especial I. Se comprueba fcilmente que si se multiplica cualquier
matriz A por una matriz identidad del orden apropiado, entonces AI = A y IA =
A.
Matriz Escalar: Es una matriz diagonal que tiene la misma constante en la
diagonal principal. Si la constante es , entonces la matriz escalar se puede representar por I.
Matriz Idempotente: Es una matriz cuadrada tal que AA = A.

3.5. Traza de una Matriz Cuadrada.


La traza de una matriz cuadrada de orden n, tr(A), se define como la suma
de los elementos de su diagonal principal:
n

tr(A) =

a
i 1

ii

Es obvio que tr(A + B) = tr(A) + tr(B), y tr(A B) = tr(A) tr(B).


La traza tambin tiene la siguiente propiedad importante: Si el producto de dos
matrices A y B es una matriz cuadrada, entonces tr(AB) = tr(BA).

[23]

Demostracin. Sea C = AB, donde A es de orden m n , y B es de orden n m .


Entonces el elemento caracterstico de C ser:
n

cij aik bkj


k 1

tr(AB) =

i 1

i 1 k 1

cii aik bki bki aik = tr(BA)


k 1 i 1

ya que

b
i 1

ki

aik es el elemento dkk de D = BA.

Corolario: tr(ABC) = tr(BCA) = tr(CAB).

3.6. Transposicin de Matrices.


A' (A transpuesta) es la matriz que resulta de A tras intercambiar filas por
columnas. El elemento caracterstico de A' es a'ij = aji. Por ejemplo,

31 22 1
A = 4 1 2
13 8 3

31 4 13
A' = 22 1 8
1 2 3

Si A' = A, se dice que A es una matriz simtrica. (Obviamente, para que una
matriz sea simtrica, tiene que ser cuadrada.)
Teoremas sobre Transpuestas.
3.6.1. (A')' = A
3.6.2. (A + B)' = A' + B'
3.6.3. (AB)' = B'A'
n

Demostracin. Si C = AB, entonces cij aik bkj . Por tanto, el elemento carack 1

terstico de C' ser


n

k 1

k 1

k 1

c'ij c ji a jk bki bki a jk b'ik a' kj

que es precisamente el elemento caracterstico del producto B'A'.

[24]

Corolario. (ABC)' = C'B'A'


Otro Corolario. AA' y A'A son simtricas. (Nota: En general AA' A'A, pero
sus trazas son siempre iguales. Por qu?)

3.7. Matriz Inversa.


Se dice que A1 es la inversa de una matriz cuadrada A, si A1A = AA1 = I.
Propiedades de la Inversa.
3.7.1. (A1)1 = A
3.7.2. (AB)1 = B1A1
Demostracin. AB(B1A1) = A(BB1)A1 = AA1 = I
3.7.3. (A')1 = (A1)'
Demostracin. Se sabe que
(1)

A'(A')1 = I

Transponiendo (1) tenemos ((A')1)'A = I. Por tanto,


(2)

((A')1)' = A1

Transponiendo (2) obtenemos el teorema.


Corolario. Si A es simtrica, entonces A = A', y por tanto (A1)' = A1 (la inversa
de una matriz simtrica es simtrica).

[25]

PREGUNTAS DE REPASO

1. Defina los siguientes trminos:


a)
b)
c)
d)
e)
f)

Matriz cuadrada
Matriz identidad
Diagonal principal
Matriz simtrica
Matriz idempotente
Traza de una matriz

2. Construya algunos ejemplos numricos para verificar los teoremas sobre


matrices enunciados en las secciones 3.3, 3.6 y 3.7.
3. Expanda (A + B)(A B) y (A B)(A + B). Son iguales? Por qu no?
4. Compruebe que para una matriz X de orden n k , las siguientes matrices son
idempotentes:
a) X(X'X)1X'
b) I X(X'X)1X'
5. Compruebe que para una matriz X de orden n k , tr[I X(X'X)1X'] = n k.
6. Si y es un vector n 1 , y X es una matriz n k , cul es el orden de la siguiente expresin?
(X'X)1X'y

[26]

Captulo 4

REGRESIN LINEAL MLTIPLE

En este captulo discutiremos el modelo general de regresin mltiple. En la


primera seccin derivamos el estimador mnimo-cuadrtico para el caso general
de k variables independientes, siguiendo un razonamiento anlogo al del Captulo
2. En la segunda seccin introducimos el tema de la inferencia estadstica en la
regresin lineal. Este es un tema nuevo, que no ha sido discutido en captulos
anteriores. En la tercera seccin comentamos sobre la interpretacin del
coeficiente de determinacin (R2) en el contexto de regresiones mltiples.
Finalmente, en la cuarta seccin ilustramos la aplicacin de los resultados
analticos obtenidos por medio de un ejemplo numrico.

4.1. Vector Mnimo-Cuadrtico.


4.1.1. Planteo del Problema.
Expresamos una variable dependiente Y como funcin lineal de k variables
independientes X1, X2, ... , Xk:
Y = 0 + 1X1 + 2X2 + ... + kXk + u
donde 0, 1, 2, ... , k son constantes desconocidas, y u es una variable aleatoria
que refleja la variacin en Y que no puede atribuirse a las variables independientes (o explicativas). El problema consiste en obtener estimaciones de los k + 1
coeficientes en este modelo mediante anlisis de n observaciones conjuntas sobre
la variable dependiente y las k variables independientes.
Ntese que podemos representar las observaciones sobre Y como un vector y
de orden n 1 , mientras que las observaciones sobre las X podemos representarlas como una matriz X de orden n k :

[27]


Observacin
N
Y
X1
X2
....
Xk

Y1

X11

X12

....

X1k

Y2

X21

X22

....

X2k

3
.
.

Y3
.
.

X31
.
.

X32
.
.

....
....
....

X3k
.
.

i
.
.

Yi
.
.

Xi1
.
.

Xi2
.
.

....
....
....

Xik
.
.

Yn

Xn1

Xn2

....

Xnk

Se comprueba adems que si la matriz X se aumenta con una columna de 1s


(para poder tomar en cuenta 0, la ordenada en el origen), entonces el modelo
lineal para las n observaciones se puede expresar como:
y = X + u
donde es un vector de orden (k 1) 1 cuyos elementos son los coeficientes del
modelo lineal (0, 1, 2, ... , k), X es una matriz de orden n (k 1) de observaciones sobre la variables independientes (incluyendo la columna de 1s) y u es
un vector-columna de orden n 1 cuyos elementos (u1, u2, ... , un) consisten de n
variables aleatorias idnticamente distribuidas.
Dado un vector b de estimadores de los coeficientes, el vector y tambin puede expresarse como:
y = Xb + e
donde e es un vector de orden n 1 cuyos elementos (e1, e2, ... , en) son los residuos obtenidos de la ecuacin estimada. (Esto es, e = y Xb, donde Xb es la Y
calculada. No debe confundirse b con , ni e con u.)

[28]

4.1.2. Estimacin de b.
El vector b que minimiza la suma de los errores cuadrados (e'e) se llama el
vector mnimo-cuadrtico. Por definicin,
e'e =

e (Y b
2

b1 X 1 b2 X 2 ... b k X k ) 2

(Nuevamente, suprimimos los sub-ndices i para facilitar la notacin.) Para


minimizar e'e, derivamos respecto de cada uno de los k + 1 coeficientes, e
igualamos a cero. As, obtenemos las ecuaciones normales:
(1)

e' e
2 (Y b0 b1 X 1 b2 X 2 ... bk X k ) 0
b0

(2)

e' e
2 (Y b0 b1 X 1 b2 X 2 ... bk X k ) X 1 0
b1

(3)

e' e
2 (Y b0 b1 X 1 b2 X 2 ... bk X k ) X 2 0
b2

.
.
.
(k + 1)

.
.
.

e' e
2 (Y b0 b1 X 1 b2 X 2 ... bk X k ) X k 0
bk

Estas k + 1 ecuaciones tambin pueden expresarse como


(1)

e 0

(2)

X e 0

(3)

.
.
.

.
.
.

(k + 1)

e0

e0

Se puede comprobar fcilmente que en trminos de nuestra notacin matricial


este sistema de k + 1 ecuaciones puede expresarse como
X'e = 0

[29]

donde 0 es un vector de ceros de orden (k 1) 1. Puesto que e = y Xb, esto


tambin lo podemos expresar como
X'(y Xb) = 0
Por tanto,
X'Xb = X'y
Multiplicando ambos lados por (X'X)1 obtenemos el vector mnimo-cuadrtico:
b = (X'X)1X'y
Los k + 1 elementos de este vector-columna (b0, b1, b2, ... , bk) son los respectivos
estimadores de 0, 1, 2, ... , k.
En la prctica el investigador no calcular el vector b directamente usando esta frmula, ya que existen programas de computadora que hacen todos los clculos requeridos con mayor rapidez y precisin que lo que podra hacerlo una persona armada nicamente de una calculadora manual. Es importante, sin embargo,
tener una idea clara de qu es lo que hace la computadora cuando se corre un programa de regresin, y adems esta expresin nos ser muy til ms adelante para
propsitos analticos.

4.2. Inferencia Estadstica en la Regresin Lineal.


4.2.1. Supuestos Bsicos.
El objetivo de esta seccin es desarrollar procedimientos para testar hiptesis
sobre los coeficientes del modelo lineal. Para esto, debemos hacer ciertas suposiciones sobre el comportamiento estadstico de los errores. Los dos supuestos ms
importantes en el modelo clsico de regresin lineal son los siguientes:
Supuesto No. 1: ui tiene una distribucin N(0, 2) para toda i.
En palabras, suponemos que todas las ui tienen una misma distribucin normal,
con la misma media (0) y la misma varianza (2). Una implicacin de este supuesto es que E(u) = 0, es decir, que el valor esperado del vector u es un vector
de ceros.
Supuesto No. 2: E(uu') = 2I.
Ntese que el elemento caracterstico de la matriz uu' es uiuj. Por tanto, suponer
que el valor esperado de uu' es una matriz escalar equivale a suponer lo siguiente:

[30]

(1) E(uiuj) = 0 para i j, o sea, todos los elementos no-diagonales de E(uu') son
cero. Esto implica que las ui son independientes unas de otras.
(2) E(ui2) = 2, o sea, todos los elementos de la diagonal de E(uu') son iguales a
2. Esto implica que cada ui tiene la misma varianza 2. (Si suponemos que la
media de ui es 0, entonces E(ui2) ser la varianza de ui.)
4.2.2. Valor Esperado y Matriz de Varianza-Covarianza de b.
Puesto que segn el modelo lineal y = X + u, entonces
b = (X'X)1X'y = (X'X)1X'(X + u) = + (X'X)1X'u
Por tanto, el valor esperado del vector b ser
E(b) = + E[(X'X)1X'u] = + (X'X)1X'E(u) =
dado que E(u) = 0. Este es un resultado muy importante, ya que significa que b es
un estimador insesgado de . Adems, puesto que b = (X'X)1X'u, entonces
(b )( b )' = (X'X)1X'uu'X(X'X)1
(Recurdese que X'X es una matriz simtrica.) Si obtenemos el valor esperado de
esta expresin y aplicamos el supuesto No. 2, tendremos:
E[(b )( b )'] = (X'X)1X'E(uu')X(X'X)1 = (X'X)1X'2IX(X'X)1
= 2(X'X)1
Ntese que el elemento caracterstico de E[(b )(b )'] es E[(bi i)(bj j)],
que es la covarianza entre bi y bj. Para i = j (los elementos de la diagonal de esta
matriz) esto se reduce a E[(bi i)2], que es la varianza de bi. Por tanto, a esta
matriz se le llama la matriz de varianza-covarianza del vector b.
4.2.3. Estimacin de 2 y 2(X'X)1.
En general, no conocemos 2, pero podemos obtener un estimador insesgado
de la siguiente manera. Por definicin, el vector de residuos de la regresin estimada ser
e = y Xb = y X(X'X)1X'y = [I X(X'X)1X']y
= [I X(X'X)1X'](X + u) = [I X(X'X)1X']u
Ntese que la expresin entre corchetes es una matriz simtrica idempotente, y
que la traza de esta matriz es la diferencia entre las trazas de dos matrices identidad:

[31]

tr[I X(X'X)1X'] = tr(I) tr[X(X'X)1X'] = tr(I) tr[(X'X)1X'X] = n (k + 1)


ya que la primera matriz identidad es de orden n, y la segunda es de orden (k + 1).
Adems, la suma de los errores cuadrados (e'e) es de orden 1 1 , y por tanto ser
igual a su traza:
e'e = tr(e'e) = tr(u'[I X(X'X)1X']u) = tr([I X(X'X)1X']uu')
= tr(uu'[I X(X'X)1X'])
Por ltimo, puesto que la traza es una sumatoria,
E(e'e) = E[tr(uu'[I X(X'X)1X'])] = tr[E(uu')(I X(X'X)1X')]
= tr(2I[I X(X'X)1X'] ) = 2tr[I X(X'X)1X'] = 2(n k 1)
Por tanto, puede obtenerse un estimador insesgado de 2 calculando:

ei2
e' e

n k 1 n k 1
2

y el estimador insesgado de 2(X'X)1 ser S2(X'X)1. Los elementos de la diagonal de esta matriz cuadrada de orden (k + 1) son los estimadores de las varianzas
de los coeficientes del vector b: el primer elemento de la diagonal de S2(X'X)1 es
la varianza muestral de b0, el segundo elemento es la varianza muestral de b1,
etc.7
4.2.4. Testado de Hiptesis.
Supongamos que se desea testar la siguiente hiptesis nula sobre uno de los
coeficientes de regresin:
H0: i = * (donde * es algn valor numrico). Para testar esta hiptesis, se calcula el siguiente estadstico:

bi *
s (bi )
7

Esto es para el caso general de un modelo que incluye una ordenada en el origen ( 0).
Si la regresin es por el origen (ver Pregunta de Repaso No. 2 del Captulo 2), entonces tr[I X(X'X)1X'] = n k, ya que la matriz X slo tiene k columnas, y el denominador en la frmula para S2 es n k. El primer elemento de la diagonal de S2(X'X)1 es la
varianza muestral de b1, el segundo elemento es la varianza muestral de b2, etc.

[32]

donde s(bi) es la desviacin estndar de bi, o sea, la raz cuadrada del elemento
correspondiente de la diagonal de S2(X'X)1. Este estadstico tiene una distribucin t con n k 1 grados de libertad.8 Por tanto, si la prueba es a dos colas
con un nivel de significancia de 5 %, rechazamos H0 si el valor absoluto de este
estadstico es mayor que el valor crtico de t para 2.5 % y n k 1 grados de libertad. (Si la prueba es a una cola, usamos el valor crtico para 5 %.)
Muchas veces, la hiptesis nula que queremos testar en un anlisis de
regresin es H0: i = 0, o sea, la hiptesis de que la variable independiente Xi no
tiene realmente ningn efecto sobre Y. En este caso, para testar esta hiptesis
bi
simplemente se calcula
y se compara con el valor crtico relevante para la
s (bi )
distribucin t. En la terminologa del anlisis de regresin, esta razn se conoce
como la razn t, y si rechazamos la hiptesis nula podemos concluir que Xi s
tiene un efecto sobre Y. A menudo esto se expresa diciendo que Xi es una variable
significativa, o que su coeficiente (i) es significativamente mayor (o menor)
que 0.9
4.3. Coeficiente de Determinacin (R2).
En un anlisis de regresin mltiple, el coeficiente de determinacin (R2) se
define igual que en el caso de la regresin simple, y tiene la misma interpretacin,
aunque debe tomarse en cuenta que en este caso lo que estamos midiendo es el
porcentaje de la variacin en Y que se explica por la variacin conjunta de las
variables independientes. (El estudiante podr comprobar tambin que la R2 en
una regresin mltiple es igual a la R2 de la regresin simple de Y contra Y . Esta
segunda interpretacin es quiz ms fcil de visualizar.)
En general, no podemos descomponer la variacin explicada en trminos de
cunto aporta cada variable independiente individual, pero existe un caso especial
donde esto s es posible. Si la correlacin entre las diferentes variables explicativas es exactamente cero, entonces la R2 de la regresin mltiple ser igual a la
8

Para una demostracin rigurosa, vase Johnston, Econometric Methods, pp. 135-38.
(Por lo expuesto en la Nota 7, una regresin por el origen cuenta con n k grados de
libertad.)
9

A menudo los econometristas usan la siguiente regla emprica para decidir si una variable es significativa en una regresin lineal: Concluir que la variable es significativa si
su coeficiente estimado es por lo menos dos veces mayor, en valor absoluto, que su desviacin estndar (o sea, si el valor absoluto de la razn t es mayor que 2). Cmo justificara usted el empleo de este criterio?

[33]

suma de las R2 de las regresiones simples de cada variable explicativa contra Y.


Es muy raro que suceda esto en la prctica, pero si los datos provienen de un experimento controlado entonces es posible disear el experimento en forma tal que
los datos muestrales tengan esta propiedad.
4.3.1. Comparando dos o ms regresiones en trminos de R2.
Un problema que surge cuando se calculan diferentes regresiones para una
misma variable dependiente es que los valores de R2 no son estrictamente comparables. Cuando se agregan variables independientes a una regresin, el resultado
es que la R2 necesariamente aumenta, ya sea que las variables adicionales sean
significativas o no. Recordemos que R2 se calcula por medio de la frmula:
e2

R2 1
(Y y ) 2

Supongamos que tenemos dos regresiones: una primera regresin con k variables independientes (Regresin 1), y una segunda regresin que contiene, adems
de estas variables, una variable adicional Xk+1 (Regresin 2). Puesto que
(Y y) 2 ser igual para las dos regresiones, el efecto sobre R2 depender de
los que sucede con

. Para la Regresin 2 la suma de los errores cuadrados

necesariamente ser menor o igual que para la Regresin 1, no importando si Xk+1


es significativa o no. Para entender por qu, notemos que si aumenta e 2 cuando se agrega Xk+1, entonces significa que los coeficientes estimados para la Regresin 2 no minimizan e 2 , ya que existe otro vector de coeficientes que producir una menor suma de errores cuadrados: este sera un vector que mantiene
los coeficientes de la Regresin 1, y asignando 0 para el coeficiente de Xk+1. Por
tanto e 2 no puede ser mayor para la Regresin 2, y slo ser igual en las dos
regresiones si el coeficiente estimado de Xk+1 es exactamente 0, lo cual es muy
poco probable que suceda en la prctica ya que incluso si la variable adicional no
tiene realmente ningn efecto sobre Y, su coeficiente estimado ser pequeo pero
no 0, debido a la variacin muestral. En la prctica, entonces, e 2 siempre ser
menor para la Regresin 2, y por tanto R2 siempre aumentar.
2

4.3.2. R2 ajustada ( R ).
Esto significa que R2 no es, por s sola, una buena gua para comparar diferentes regresiones, ya que este coeficiente siempre aumentar si se agregan ms variables independientes, aun cuando stas no son significativas. Debido a esto,
Henri Theil propuso una modificacin a la frmula convencional, para compensar

[34]

por este efecto cuando se comparan regresiones diferentes.10 En el ajuste propuesto por Theil se toma en cuenta el hecho de que, para un tamao de muestra determinado, ms variables explicativas en una regresin implican menos grados de
libertad para la estimacin. A diferencia de la R2 convencional, que compara la
variacin no-explicada (suma de los errores cuadrados) con la variacin total en
2

Y, la R2 ajustada (que se representa por medio del smbolo R ) compara la varianza de los errores con la varianza de Y:

e 2

2
Var (e)
R 1
1 n k 12
Var (Y )
Y y)
n 1

n 1 e
1

2
n k 1 (Y y )

Esto tambin puede expresarse como:


2
n 1
2
R 1
(1 R )
n

R puede ser negativa, y su valor siempre ser menor o igual que la R2 conven2

cional.11 Adems, a diferencia de la R2 convencional, R puede aumentar o disminuir cuando se agregan ms variables independientes. La direccin del efecto
depender de si la reduccin en e 2 compensa o no la reduccin en los grados
de libertad debido a la inclusin de la variable adicional.
4.4. Aplicacin Costos Administrativos en la Banca Comercial.
Ahora podemos finalmente realizar un ejemplo numrico para ilustrar la aplicacin de estos conceptos. Como ya se mencion antes, en la prctica la mayor
parte de los clculos en un anlisis de regresin se realizan por medio de un programa de computacin, por lo que no viene al caso ilustrar numricamente los
clculos matriciales. El ejemplo concreto que se desarrolla a continuacin est
basado en un estudio estadstico de los costos de administracin en los bancos
comerciales guatemaltecos durante el ao 1991. Los resultados de este anlisis
pueden proporcionar una buena indicacin sobre el comportamiento de los costos
para el banco tpico en Guatemala, aunque la naturaleza misma de un estudio
10

Henri Theil, Principles of Econometrics (New York: John Wiley & Sons, 1971),
pp. 178-79.
Por lo expuesto en las Notas 7 y 8, cuando la regresin es por el origen el denominador correcto para el factor de ajuste es n k.
11

[35]

de este tipo no puede arrojar resultados estrictamente aplicables a cada uno de los
bancos considerados individualmente. No obstante, a pesar de esto, un estudio de
este tipo de todos modos puede ser muy til, porque los resultados pueden proporcionar una norma o estndar contra el cual se pueden comparar los costos
administrativos en un banco particular. En ausencia de un estudio de este tipo, un
banco no tiene realmente un criterio para determinar si sus costos son aceptables o normales, ya que los bancos difieren enormemente en cuanto a cantidad
de activos, nmero de sucursales, etc., por lo que el nico criterio objetivo sera el
de compararse con un banco de similar tamao y caractersticas. Sin embargo, si
se pudiera obtener una frmula emprica que permita calcular un valor normal
o promedio para los costos administrativos en funcin de unas pocas variables
que permitan una medicin numrica, entonces se podra fcilmente determinar si
el banco en cuestin est mejor o peor que el banco tpico a ese respecto.
(Estos resultados tambin podran servir para comparar el comportamiento de los
costos administrativos en los bancos comerciales con los de otros tipos de instituciones financieras.) La variable dependiente para el anlisis ser el nivel anual de
los Gastos Generales y de Administracin en los diferentes bancos del sistema.
Si se observa el Cuadro 4.1, se podr apreciar que estos costos (que en lo sucesivo llamaremos simplemente costos administrativos) varan enormemente de un
banco a otro. Nuestro problema consistir, por tanto, en encontrar una lista de variables que nos permitan explicar, estadsticamente, esta variacin observada.
4.3.1. Primera Aproximacin.
A un nivel muy elemental, por supuesto, dicha variacin no tiene realmente
ningn misterio, ya que los bancos varan mucho en cuanto a su tamao, y es ms
bien de esperarse que los bancos ms grandes tengan tambin costos administrativos ms altos por el slo hecho de ser ms grandes. Nuestra tarea ser traducir esta nocin intuitiva en un concepto operativo, y para esto debemos tratar de
expresar el tamao de un banco en trminos de alguna variable numrica. En
este estudio, la variable escogida para este propsito fue el Total de Activos del
banco. Con esto, y como una primera aproximacin para el anlisis, la recta de
regresin ser la siguiente:
(1)

Yi = 0 + 1Xi + ui

donde Yi = Costos Administrativos del banco i, Xi = Activos Totales del banco i.


Los Activos Totales de un banco son una buena medida de su tamao, aunque no es la nica medida posible, por lo que la decisin de adoptar esta medida
especfica es en cierto modo arbitraria. Por otro lado, el empleo de los Activos
Totales como variable independiente en la regresin facilita en cierto modo la interpretacin econmica de los coeficientes:

[36]

CUADRO 4.1. BANCOS COMERCIALES PRIVADOS EN GUATEMALA (1991).


Millones de Quetzales
Gastos Generales
Total Activo
y de Admin.
Promedio

Agencias

G&T

48.8

831.5

30

INDUSTRIAL

43.2

1204.0

18

OCCIDENTE

39.4

1153.5

20

del CAFE

29.8

499.6

25

del AGRO

26.2

466.6

30

AGRICOLA MERC.

24.8

522.3

12

INTERNACIONAL

24.0

376.6

12

INMOBILIARIO

21.5

431.3

20

CONSTRUBANCO

18.3

282.2

10

del EJERCITO

15.6

311.8

13

LLOYDS

14.3

284.5

METROPOLITANO

12.9

339.0

BANEX

12.5

462.8

del QUETZAL

8.8

205.0

12

PROMOTOR

6.0

162.4

CITIBANK

5.9

45.8

CONTINENTAL

3.6

113.7

REFORMADOR

1.7

237.3

UNO

1.0

170.8

Fuente: Superintendencia de Bancos, Boletn de Estadsticas Bancarias (Guatemala, 4 Trimestre, 1992).

(a) El coeficiente 1 nos indica en cunto incrementa el costo administrativo


anual por cada quetzal adicional de activos que maneja el banco. En otras palabras, este coeficiente nos mide el costo marginal de administrar un quetzal adicional de activos. Obviamente, este es un dato sumamente interesante para los
tomadores de decisiones en el sector bancario. Esperamos naturalmente que este
coeficiente sea positivo.
(b) Por otro lado, el coeficiente 0, que matemticamente es simplemente la ordenada en el origen (o sea, el valor de Y cuando X = 0), nos estara indicando la
parte del costo administrativo que no vara directamente con el nivel de los activos del banco. En otras palabras, esta es la parte del costo administrativo que podra interpretarse como un costo fijo. Esperamos tambin que este coeficiente
sea positivo.

[37]

4.3.2. Segunda Aproximacin.


Un posible defecto de la ecuacin (1) es la suposicin de que todos los bancos
tienen los mismos costos fijos. Por otro lado, se puede apreciar en el Cuadro 4.1
que los bancos comerciales varan mucho en cuanto al nmero de sucursales o
agencias que operan, y este es un factor que seguramente debe afectar el nivel de
los costos administrativos. Por esto, como una segunda aproximacin, se estimar
la siguiente regresin adicional:
(2)

Y = 0 + 1X1 + 2X2 + u

donde X1 = Activos Totales del banco i, X2 = Nmero de Agencias del banco i.


(De aqu en adelante suprimiremos el uso del sub-ndice i, para facilitar la notacin. Se entiende que cada observacin corresponde a un banco diferente.) En esta segunda regresin, el coeficiente 2 nos est midiendo el incremento en el costo administrativo anual que resulta de manejar una agencia adicional. Esperamos,
por tanto, que este coeficiente sea positivo. (Naturalmente que este coeficiente
tendra que interpretarse como un costo promedio por agencia, ya que ninguna
agencia es exactamente igual que otra, por lo que difcilmente pueden tener todas
el mismo costo.) Los dems coeficientes tienen la misma interpretacin que en la
ecuacin (1).
4.3.3. Datos.
Antes de reportar los resultados de las regresiones, es necesario y conveniente
hacer las siguientes aclaraciones sobre los datos:
(a) Se tom la decisin de incluir en la muestra nicamente a los bancos comerciales privados, ya que los bancos estatales tienen peculiaridades especiales que
posiblemente resulten en un comportamiento diferente en cuanto a sus costos
administrativos. (Puesto que lo que nos interesa es investigar el comportamiento
de los costos administrativos en el banco comercial tpico, incluir a los bancos
estatales podra resultar en una distorsin de los resultados, ya que dichos bancos
no son tpicos a ese respecto.)
(b) Podra existir un problema de comparabilidad de los datos sobre Costos
Administrativos y Activos Totales, dada la manera como se reportan los datos en
la fuente original, ya que las cifras sobre Costos Administrativos corresponden a
los gastos anuales efectuados durante un ao determinado, mientras que las cifras
sobre Activos Totales corresponden a los valores al 31 de Diciembre de cada ao.
No est del todo claro que la cifra correspondiente al final del ao sea la ms
adecuada para propsitos del anlisis, y probablemente sera mejor contar con una

[38]

cifra para los Activos Totales que represente algn valor promedio durante el ao.
Para evitar estos problemas, se opt por calcular un promedio aritmtico de los
Activos Totales al 31 de Diciembre de 1991, y al 31 de Diciembre del ao
anterior. Esta cifra promedio, si bien no es la solucin perfecta para este
problema, probablemente se acerca ms al nivel promedio de los Activos Totales
en cada ao, y en todo caso ser mejor que simplemente usar la cifra de fines de
ao.
4.3.4. Resultados.
Los resultados para la ecuacin (1) fueron los siguientes (los nmeros entre
parntesis son las desviaciones estndar de los coeficientes estimados):
Y 2.203 0.03906 X 1
(2.551) (0.00483)

R2 = 0.7935
n = 19

Se puede apreciar en primer lugar que esta regresin, a pesar de ser muy sencilla,
tiene un alto grado de poder explicativo: el coeficiente de determinacin (R2) indica que la variacin en los Activos Totales explica casi 80 % de la variacin en
los Costos Administrativos. Como era de esperarse, el valor estimado para b1, la
pendiente de la regresin, es positivo y altamente significativo. Para testar formalmente la hiptesis nula 1 = 0, calculamos el estadstico b1/s(b1), que en este
caso tiene un valor de 8.087 (= 0.03906 0.00483). Consultando la tabla de valores crticos para la distribucin t (ver las tablas al final del texto), se puede ver
que para 17 grados de libertad el valor crtico para 5 % a dos colas es de 2.11.
Puesto que 8.087 > 2.11, en este caso se rechaza la hiptesis de que el verdadero
coeficiente 1 es cero, y por tanto concluimos que X1 es una variable significativa.
Por otro lado, el valor estimado para b0 , la ordenada en el origen, aunque positivo, no es significativo, ya que 2.203 2.551 = 0.864 < 2.11.
Los resultados para la ecuacin (2) fueron los siguientes:

Y 1.22 0.0275 X 1 0.661X 2


(1.99) (0.0044) (0.157)

R2 = 0.9018

La R2 para esta segunda regresin es poco ms de 90 %, aunque, por lo explicado


en la seccin anterior, las dos regresiones no son estrictamente comparables en
trminos de la R2 convencional, por lo que debemos aplicar el concepto de R2
ajustada. Para el primer modelo, con n = 19 y k = 1,
2
18
R 1 (1 0.7935) 0.7814
17

[39]

2
18
Para el segundo modelo, con k = 2, R 1 (1 0.9018) 0.8895. Se puede
16
apreciar claramente que la adicin de X2, el nmero de agencias, incrementa bastante el poder explicativo de la regresin.

Al igual que en el caso anterior, el valor estimado para b1 es positivo y significativo, y es interesante notar que es menor al estimado en la primera regresin.
Esto implica que la primera regresin probablemente tiende a sobre-estimar este
coeficiente, debido a que omite el efecto de la variable X2. Como era de esperarse,
el valor estimado para b2 es tambin positivo y altamente significativo. Por otro
lado, se aprecia que el valor estimado para b0 es negativo y no-significativo. Esto
nos apunta a una conclusin interesante: Al parecer, el componente fijo de los
costos administrativos depende bsicamente del nmero de agencias que administra el banco.
Puesto que el coeficiente b0 no es significativamente diferente de cero en esta
segunda regresin, corresponde ahora volver a estimar esta regresin por el origen, es decir, sin esta constante. Los resultados son los siguientes:

Y 0.0266 X 1 0.621X 2
(0.0041) (0.141)

R2 = 0.8995

Aqu se aprecia que el poder explicativo es bsicamente igual que en la regresin


anterior, aunque al haber eliminado un coeficiente posiblemente redundante,
esta tercera regresin nos proporciona en principio estimaciones ms eficientes de
los otros coeficientes:
(a) El coeficiente b1, se recordar, nos mide el costo marginal de administrar un
quetzal adicional de activos. Segn estas estimaciones, por tanto, se podra concluir que en nmeros redondos el costo administrativo de un banco tpico aumentar entre 2 y 3 centavos por ao por cada quetzal adicional de activos que
administre.
(b) El coeficiente b2, se recordar, nos mide el incremento en el costo administrativo anual que resulta de manejar una agencia adicional. Segn estas estimaciones, por tanto, se podra concluir en nmeros redondos, y tomando en cuenta que
los datos se expresan en trminos de millones de quetzales, que el costo administrativo de un banco tpico aumentar alrededor de 620,000 quetzales por ao
por cada agencia adicional. (Debe recordarse que estas cifras estn expresadas en
trminos de quetzales de 1991.)

[40]

CASOS APLICADOS
Caso F Demanda de Fotocopias
En el cuadro adjunto se muestra una estadstica de la venta trimestral de fotocopias en la Biblioteca de la Universidad Francisco Marroqun (UFM) durante un
perodo reciente, y la cantidad de usuarios en dicha biblioteca, clasificados segn
varias categoras. (Para facilitar los clculos, los datos se expresan en trminos de
miles de fotocopias y miles de usuarios.) Como se puede observar, el movimiento
de fotocopias vara mucho de un trimestre a otro. Utilice los datos disponibles para estimar un modelo de regresin mltiple que explique esta variacin.
Qu porcentaje de la variacin en el volumen de fotocopias se puede explicar
por las variaciones en el nmero de usuarios de diferente tipo? Cules son los
usuarios que ms impacto tienen sobre las ventas de fotocopias?
Ao,
Trimestre
1994

1995

1996

1997

1998

1999

I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV

Fotocopias
(trimestral)

Visitantes por Trimestre


Estudiantes Universitarios
Escolares Otros
UFM
Otras Univ.

Total

55.786
55.734
51.222

33.813
30.431
27.226

1.758
1.352
1.737

1.853
2.317
1.695

2.336
1.906
1.547

39.760
36.006
32.205

27.344
52.456
47.630
43.670
15.314
67.434
59.024
60.868
27.214
57.632
57.518
48.266
29.928
56.128
46.948
37.942
19.682
45.282
67.546
65.364
30.064

15.366
31.724
26.745
31.612
20.357
36.322
29.418
29.728
14.993
36.361
38.427
28.327
21.425
36.398
30.474
22.712
17.772
28.261
27.090
23.751
12.827

1.165
1.255
1.140
1.594
0.768
1.799
0.962
1.352
0.890
1.865
1.276
1.580
1.163
1.930
1.670
1.948
0.938
1.939
1.711
2.210
0.710

0.872
1.328
2.915
1.835
0.307
1.917
1.712
1.634
0.307
2.066
2.759
1.933
0.514
2.214
1.874
1.342
0.341
1.741
2.323
1.732
0.182

2.084
2.177
1.821
1.439
1.144
2.790
1.624
0.811
0.275
2.622
2.188
2.111
1.325
2.451
2.103
1.716
1.153
1.639
1.796
1.658
0.672

19.487
36.484
32.621
36.480
22.576
42.828
33.716
33.525
16.465
42.914
44.650
33.951
24.427
42.993
36.121
27.718
20.204
33.580
32.920
29.351
14.391

Fuente: Registros de la Biblioteca.

[41]

Caso G Inflacin en Amrica Latina


La llamada Teora Cuantitativa del Dinero (tambin conocida como monetarismo) postula a largo plazo una relacin estable entre tres variables macroeconmicas muy importantes: el cambio porcentual en el ndice general de precios (i.e.,
la tasa de inflacin), el cambio porcentual en la masa monetaria (la tasa de
crecimiento monetario), y el cambio porcentual en el PIB a precios constantes
(la tasa de crecimiento real).12 Segn esta teora, la inflacin estar positivamente relacionada con la tasa de crecimiento monetario, e inversamente relacionada con la tasa de crecimiento econmico real.
El cuadro adjunto muestra las tasas anuales promedio de inflacin, crecimiento
monetario, y crecimiento real en 16 pases latinoamericanos durante el perodo
1950-69. La inflacin fue medida por medio del IPC, y el crecimiento monetario
se basa en el agregado monetario conocido como M1 (efectivo fuera de bancos +
depsitos a la vista en bancos comerciales).
Use estos datos para estimar la siguiente regresin:
Y = 0 + 1X1 + 2X2 + u
donde Y = tasa anual promedio de inflacin, X1 = tasa anual promedio de crecimiento monetario, y X2 = tasa anual promedio de crecimiento en PIB real.
Comente sobre los resultados, e interprete el significado de los coeficientes en
trminos de la Teora Cuantitativa.

12

Para un desarrollo moderno de esta teora, vase Milton Friedman, Money: Quantity
Theory, International Encyclopedia of the Social Sciences (1968), vol. 10, pp. 432-47.

[42]

INFLACIN EN 16 PASES LATINOAMERICANOS, 1950-69


Tasa Anual (%) Promedio de:
Inflacin

Crecimiento
Monetario

Crecimiento
PIB Real

Argentina

26.4

24.6

2.4

Bolivia

41.3

41.6

3.0

Brasil

35.1

38.2

3.9

Chile

28.2

35.2

4.6

Colombia

9.2

16.5

5.4

Costa Rica

1.9

9.0

5.7

Ecuador

3.0

8.8

4.7

El Salvador

0.3

3.5

4.6

Guatemala

1.1

5.9

3.9

Honduras

2.1

8.0

4.0

Mxico

5.3

11.3

6.9

Nicaragua

3.4

8.6

3.7

Paraguay

12.5

15.4

5.5

8.5

13.4

5.7

43.0

40.1

0.7

1.1

7.9

6.8

Per
Uruguay
Venezuela

Fuente: R. C. Vogel, The Dynamics of Inflation in Latin America,


1950-1969, American Economic Review, 64 (1974), Table 1, p. 103.

[43]

Captulo 5

AMPLIACIONES DEL MODELO LINEAL

En este captulo ampliaremos nuestra discusin del modelo lineal, considerando


primeramente la estimacin de formas funcionales no-lineales. La discusin se
concentrar principalmente en la aplicacin e interpretacin del llamado modelo
doble-log, que es el que ms se aplica en la prctica. Luego se ampla el modelo
lineal en otra direccin, mediante el uso de variables binarias. Por ltimo, se
discuten algunos problemas especiales que pueden surgir en aplicaciones prcticas, como ser el problema de variables omitidas, el problema de multicolinealidad, y el problema de heteroscedasticidad.

5.1. Estimacin de Formas Funcionales No-lineales.


El modelo clsico de regresin lineal se basa en el supuesto de que la variable dependiente Y es una funcin lineal de las variables independientes X1, X2,
... , Xk. Ahora bien, esto es mucho menos restrictivo de lo que podra parecer a
primera vista, ya que de hecho es posible estimar los parmetros de algunas funciones no-lineales por medio del modelo de regresin lineal, si se hacen algunas
transformaciones de las variables.
En esta etapa de nuestro anlisis es conveniente hacer una distincin entre (1)
las variables explicativas, y (2) los regresores que las representan en la ecuacin de regresin. Consideremos, por ejemplo, la siguiente relacin funcional:
Y = + ln(X)
Obviamente, la relacin funcional entre Y y X no es lineal, aunque existe una relacin lineal entre Y y el logaritmo de X, y por tanto los parmetros de esta relacin podran ser estimados por regresin lineal si se toma ln(X) como la variable
independiente. En este caso, si bien la variable explicativa es X, el regresor es
ln(X). Lo que requiere el modelo clsico de regresin lineal es que la variable dependiente (en la regresin) sea una funcin lineal de los regresores.13
Como un ejemplo, considrese la siguiente funcin de produccin, estimada en base a
pruebas de campo realizadas en El Llano, en el Valle Central de Chile en 1962-63:
13

Y = 18.846512 + 7.586167 N + 2.469969 P 0.655713 N2 0.397513 P2 + 0.211423 NP

[44]

5.1.1. Modelo Doble-logartmico.


Tal vez la transformacin que ms se emplea en la prctica en la econometra
aplicada sea el llamado modelo doble-log, donde todas las variables se expresan
en trminos de logaritmos:
ln(Y) = 0 + 1ln(X1) + 2ln(X2) + ... + k ln(Xk) + u
En muchos problemas, el inters del investigador no se centra tanto en la pendiente, o sea, el cambio en Y que se produce como resultado de un cambio de
una unidad en X, sino en la elasticidad, que es el cambio porcentual en Y que se
produce como resultado de un cambio de 1 % en X. En esta situacin, el modelo
doble-log es interesante porque los coeficientes del modelo son estimaciones directas de la elasticidad de Y respecto de las respectivas variables explicativas. Para comprobar esto, ntese que
Y X i
ln(Y )
.

X i Y
ln( X i )

que es la elasticidad de Y respecto de la i-sima variable explicativa,14 es precisamente el coeficiente i en el modelo doble-log. Debido a esta propiedad, el modelo doble-log se usa con mucha frecuencia en la estimacin de funciones de demanda.
En el Cuadro 5.1 se detallan las propiedades de otras formas funcionales que
tambin se emplean a menudo en estudios economtricos. A continuacin, ilustraremos la aplicacin del modelo doble-log por medio de la estimacin de una
funcin de demanda.

donde Y = quintales de trigo por hectrea, N = nitrato de sodio en unidades de 150 kg


por hectrea, y P = triple superfosfato en unidades de 100 kg por hectrea (J. J. Dillon,
The Analysis of Response in Crop and Livestock Production, 2 ed. [Oxford: Pergamon
Press, 1977], p. 18). El uso de este tipo de funcin es muy comn en el anlisis de experimentos agrcolas. Ntese que en esta ecuacin slo existen dos variables explicativas,
N y P, y su relacin con la variable dependiente no es lineal, pero existen cinco regresores, y la relacin entre la variable dependiente y los regresores es lineal.
14

R. G. D. Allen, Anlisis Matemtico para Economistas (Madrid: Aguilar, 1978),


p. 247.

[45]

_________________________________________________________________
Cuadro 5.1.
FORMAS FUNCIONALES ALTERNATIVAS
En la siguiente tabla se hace una comparacin de varias formas funcionales diferentes que a menudo se emplean en estudios aplicados. (Para mayor simplicidad,
se presentan las formas funcionales en trminos de una sola variable explicativa,
pero los resultados se pueden generalizar para el caso de k variables explicativas).
_________________________________________________________________
Nombre
Forma
Pendiente
Elasticidad
_________________________________________________________________
Lineal

Y = 0 + 1X

1X/Y

Semi-log

Y = 0 + 1ln(X)

1/X

1/Y

Hiperblica

Y = 0 1/X

1/X2

1/XY

Doble-log

ln(Y) = 0 + 1ln(X)

1Y/X

Log-hiprbola

ln(Y) = 0 1/X

1Y/X2

1/X

_________________________________________________________________
Fuente: A. S. Goldberger, Teora Economtrica (Madrid: Tecnos, 1970), pp. 227-28.

_________________________________________________________________

5.1.2. Aplicacin Consumo de Textiles en Holanda.


En el Cuadro 5.2 se muestran los datos bsicos de un estudio del consumo de
textiles en Holanda durante los aos 1923 a 1939 (los datos se expresan como
ndices con base 1925 = 100). Podemos utilizar estos datos para calcular la
siguiente regresin doble-log:
ln(Y) = 0 + 1 ln(X1) + 2 ln(X2) + u
donde Y = Indice del consumo per cpita de textiles, X1 = Indice del ingreso real
per cpita, y X2 = Indice del precio relativo de textiles. Estimando esta regresin
por mnimos cuadrados obtenemos los siguientes resultados:

[46]


Cuadro 5.2. CONSUMO DE TEXTILES EN HOLANDA, 1923-1939 (INDICES, 1925 = 100).

Volumen de
Consumo de
Ingreso
Precio
Textiles per
Real per
Relativo
Cpita
Cpita
de Textiles

1923
99.2
96.7
101.0
1924
99.0
98.1
100.1
1925
100.0
100.0
100.0
1926
111.6
104.9
90.6
1927
122.2
104.9
86.5
1928
117.6
109.5
89.7
1929
121.1
110.8
90.6
1930
136.0
112.3
82.8
1931
154.2
109.3
70.1
1932
153.6
105.3
65.4
1933
158.5
101.7
61.3
1934
140.6
95.4
62.5
1935
136.2
96.4
63.6
1936
168.0
97.6
52.6
1937
154.3
102.4
59.7
1938
149.0
101.6
59.5
1939
165.5
103.8
61.3

Fuente: H. Theil, Principles of Econometrics (Nueva York: J. Wiley & Sons, 1971),
Table 3.1, p. 102.

ln(Y ) = 3.1636 + 1.1432 ln(X1) 0.8288 ln(X2)


(0.7048) (0.1560)
(0.0361)

R = 0.9744

n = 17

(Recurdese que en esta presentacin compacta, el nmero entre parntesis debajo de cada coeficiente estimado es su respectiva desviacin estndar. El estudiante deber procurar replicar por s mismo los resultados de esta regresin.15) Como
era de esperarse, la variable de precio relativo tiene un coeficiente negativo,
15

En toda esta seccin hemos estado empleando logaritmos naturales, pero da lo mismo
usar logaritmos base 10. Las estimaciones de b1, b2, , bk son iguales, y la nica diferencia es en la estimacin de la constante b0 y su desviacin estndar, que con logaritmos naturales sern 2.3026 veces mayores que con logaritmos base 10.

[47]

mientras que la variable de ingreso tiene un coeficiente positivo, resultados que


son consistentes con la teora elemental de la demanda. La razn t para el caso de
X1 es de 7.33 (= 1.1432 0.156) y para X2 esta razn es de 22.96 (= 0.8288
0.0.0361). El valor crtico de la distribucin t para 5 % y 14 grados de libertad es
2.145 (en pruebas a dos colas), que en ambos casos es excedido por amplio margen, por lo que podemos concluir que ambas variables son altamente significativas. Por ltimo, las estimaciones indican que la elasticidad-precio de la demanda
de textiles es alrededor de 0.83, mientras que la elasticidad-ingreso es alrededor
de 1.14. Estos resultados implican, por tanto, que ceteris paribus un aumento de
10 % en el precio relativo de los textiles producir, en promedio, una reduccin
de 8.3 % en el consumo, mientras que un aumento de 10 % en el ingreso per cpita producir, en promedio, un aumento de 11.4 % en el consumo de textiles.

5.2. Variables Binarias o Cualitativas.


Otra til extensin del modelo lineal es el empleo de variables binarias o
cualitativas. Hasta ahora hemos supuesto que todas las variables en el modelo de
regresin pueden medirse cuantitativamente. A veces, sin embargo, la variable
dependiente se ver afectada por factores cualitativos que no pueden medirse
numricamente, pero no por eso dejan de ser importantes. Estos factores se
pueden tomar en cuenta por medio del empleo de variables binarias.16 Estas son
variables artificiales que slo pueden tomar dos posibles valores, 1 o 0,
dependiendo de la presencia o ausencia del factor cualitativo que deseamos
incorporar en la regresin. Estas variables tambin son conocidas como variables
categricas o dicotmicas, ya que el objeto es clasificar las observaciones en
categoras mutuamente excluyentes: por ejemplo, hombre/mujer, fumador/nofumador, nacional/extranjero, etc. Muchas veces estas variables tambin se usan
en el contexto de series cronolgicas (por ejemplo, para medir efectos
estacionales).
Como un ejemplo, consideremos el Cuadro 5.3, que muestra datos sobre
eficiencia en el consumo de combustible y otras caractersticas de 32 modelos de
automviles de la temporada 1973-74. De estos 32 vehculos, 19 son de
transmisin automtica, y 13 son de transmisin manual. Se puede notar que, en
promedio, el millaje para los vehculos con caja manual tiende a ser bastante
mayor que para los vehculos con caja automtica, y al parecer la diferencia es
estadsticamente significativa. Por otro lado, los vehculos con caja automtica
tienden a ser ms pesados, y tambin tienden a tener motores ms potentes, y se
sabe que estos factores tienden a incrementar el consumo de combustible. Por
tanto, si queremos saber si el tipo de transmisin per se tiene algn efecto sobre
es

tienden

En ingls la expresin que se usa es dummy variables.

16

[48]


Cuadro 5.3. DATOS TCNICOS SOBRE 32 MODELOS DE AUTOMVIL, 1973-74.

Caja Automtica

Caja Manual

Millas por
galn

Peso
(lbs.)

Potencia
(caballos de
fuerza)

Millas por
galn

Peso
(lbs.)

Potencia
(caballos de
fuerza)

21.4

3215

110

21.0

2620

110

18.7

3440

175

21.0

2875

110

18.1

3460

105

22.8

2320

93

4
5

14.3

3570

245

32.4

2200

66

24.4

3190

62

30.4

1615

52

22.8

3150

95

33.9

1835

65

19.2

3440

123

27.3

1935

66

17.8

3440

123

26.0

2140

91

16.4

4070

180

30.4

1513

113

10

17.3

3730

180

10

15.8

3170

264

11

15.2

3780

180

11

19.7

2770

175

12

10.4

5250

205

12

15.0

3570

335

13

10.4

5424

215

13

21.4

2780

109

14

14.7

5345

230

15

21.5

2465

97

16

15.5

3520

150

17

15.2

3435

150

18

13.3

3840

245

19

19.2

3845

175

Promedio

17.147

3768.9

160.3

24.392

2411.0

126.8

Desv. Est.

3.834

777.4

53.9

6.167

617.0

84.1

Fuente: H. V. Henderson y P. F. Velleman, Building Multiple Regression Models Interactively, Biometrics, 37 (1981), Table 1, p. 396.

[49]

el consumo de combustible, tenemos que controlar por estos otros factores. Para
esto, podemos calcular la siguiente regresin mltiple:
Y = 0 + 1X1 + 2X2 + 3X3 + u
donde Y es el millaje (en millas por galn de gasolina), X1 es una variable binaria
(= 0 si el vehculo tiene caja automtica, = 1 si es de caja manual), X2 es el peso
del vehculo (en libras), y X3 es la potencia del motor (en caballos de fuerza).
Estimando esta regresin con los datos del Cuadro 5.3 obtenemos:
Y = 34.003 + 2.0837 X1 0.0029 X2 0.0375X3
(2.643) (1.3764)
(0.0009) (0.0096)

R2 = 0.8399

n = 32

Se aprecia aqu que el peso del vehculo y la potencia del motor tienen ambos un
efecto negativo sobre la eficiencia en el consumo de combustible, tal como se esperaba, y estos efectos son estadsticamente significativos. Por otro lado, tambin
se aprecia que, una vez controlamos por los efectos del peso y la potencia, el tipo
de transmisin (automtica o manual) no tiene realmente un efecto muy grande
sobre el millaje y el efecto estimado no es estadsticamente significativo: si bien
el coeficiente para esta variable es positivo, su razn t (1.514) est muy por debajo del valor crtico de la distribucin t para niveles convencionales de significancia. Por tanto, aunque a primera vista los resultados parecen indicar lo contrario,
no podemos concluir en base a estos datos que el tipo de transmisin tenga por s
mismo un efecto significativo sobre la eficiencia en el consumo de combustible.
5.2.1. Caso Especial.
El caso de los automviles es un buen ejemplo para ilustrar cmo se pueden
utilizar variables binarias para estimar los efectos de factores cualitativos en el
contexto de una regresin mltiple.17 Con relacin a este tema, hay un aspecto
adicional que vale la pena resaltar. Si se calcula una regresin de Y nicamente
contra una variable binaria, entonces el resultado es equivalente a una prueba de
diferencia de medias convencional. En este caso, la regresin de Y contra X1 da el
siguiente resultado:
Y = 17.147 + 7.245 X1
(1.125) (1.7644)
17

La variable dependiente tambin podra ser binaria, pero esto plantea problemas
especiales de estimacin, que sobrepasan los alcances de este libro. El mtodo de
mnimos cuadrados ordinarios ya no es aplicable en este contexto, y para esto existen
otros mtodos no-lineales (por ejemplo, los modelos probit y logit) que son ms
apropiados para este caso. Estos modelos son tratados en detalle en textos avanzados de
econometra.

[50]

En este modelo b0 es una estimacin del millaje promedio para vehculos con caja
automtica (X1 = 0), y es exactamente igual al promedio muestral para esta clase
de vehculos en el Cuadro 5.3. Por otro lado, b1 es una estimacin del millaje
adicional para vehculos con caja manual (X1 = 1), y el coeficiente estimado es
igual a la diferencia entre los dos promedios muestrales (24.392 17.147 =
7.245). Por tanto, testar la hiptesis de que b1 no es significativamente diferente
de 0 es equivalente a testar la hiptesis de que la diferencia entre las dos medias
muestrales no es estadsticamente significativa.18
5.2.2. Variables Binarias en Regresiones Semi-logartmicas.19
A veces hay que tener ciertas precauciones al interpretar el coeficiente de una
variable binaria. Un error muy comn se da cuando se incluyen variables binarias
en regresiones semi-logartmicas de la forma:
ln(Y) = 0 + 1X1 + 2X2 + ... + k Xk + u
Si Xi es una variable continua, entonces su coeficiente estimado (bi) es un estimador de la derivada parcial de ln(Y) respecto de Xi :
bi

ln(Y ) ln(Y ) Y
1 Y

.
.
X i
Y X i Y X i

Esto, multiplicado por 100, es igual al cambio porcentual en Y debido a un cambio marginal en Xi. Por tanto, en una regresin semi-logartmica cada coeficiente
puede interpretarse como el cambio porcentual en Y debido a un cambio en la
respectiva variable independiente. Sin embargo, esta interpretacin sera incorrecta si Xi es una variable binaria, ya que una variable binaria no es continua, y por
tanto el concepto de una derivada parcial es inaplicable.
Para poder medir el cambio porcentual en Y causado por la presencia del
factor cualitativo representado por una variable binaria, supongamos que la
variable binaria es X1 y que el cambio en Y debido a la presencia del factor
cualitativo es de g por ciento. Ntese que el modelo semi-logartmico puede
expresarse de la siguiente forma:

18

El estudiante podr comprobar que la razn t para b1 en esta regresin es exactamente


igual al estadstico de prueba para una prueba de diferencia de medias convencional, y
tiene el mismo nmero de grados de libertad.
La discussion en esta seccin se basa en R. Halvorsen y R. Palmquist, The Interpretation of Dummy Variables in Semilogarithmic Equations, American Economic Review,
70 (1980): 474-75.
19

[51]

Y (e 0 )(1 g ) X1 (e 2 X 2 )...(e k X k )
Si X1 = 0, el segundo factor (asociado con la variable binaria) ser igual a 1, y si
X1 = 1 este factor ser igual a 1 + g, y por tanto g es el cambio porcentual en Y
debido al efecto de la variable binaria. Al expresar esta ecuacin en trminos de
ln(Y), se puede apreciar que 1= ln(1 + g), y puesto que el estimador de 1 es b1,
el estimador de g ser
g eb1 1

y el estimador del cambio porcentual en Y ser igual a 100 g .


Para ilustrar podemos usar nuevamente el problema de los automviles. Si
con esos datos calculamos una regresin semi-logartmica obtenemos el siguiente
resultado (donde las variables tienen las mismas definiciones que en el caso anterior):
ln(Y ) = 3.7491 + 0.0517 X1 0.000176 X2 0.00168 X3
(0.1166) (0.0607)
(0.00004)
(0.00042)

R2 = 0.8723

n = 32

En trminos de R2 este modelo funciona ligeramente mejor que el modelo lineal


estndar.20 Nuevamente, el peso (X2) y la potencia (X3) del automvil tienen un
efecto negativo sobre el millaje, y estos efectos son estadsticamente
significativos. El coeficiente de la variable binaria implica que tener caja manual
(X1 = 1) incrementa el millaje en 5.3 % (e0.0517 1 = 0.053), aunque este efecto no
es significativo.
La magnitud del ajuste en este caso no es muy grande, precisamente porque el
efecto de la variable cualitativa es pequeo. Si el coeficiente de la variable binaria
fuera de 0.517, por ejemplo, entonces el cambio porcentual en Y para X1 = 1 sera
de 67.7 % (e0.517 1 = 0.677), una diferencia de 16 % comparado con el
estimador no ajustado. Interpretar el coeficiente de una variable binaria en una
regresin semi-logartmica como el cambio porcentual en Y debido al efecto de
una variable cualitativa podra causar serios errores si este efecto es relativamente
grande.

20

Vase, sin embargo, la Pregunta de Repaso No. 2, al final de este captulo.

[52]

5.3. Problemas Especiales en la Regresin Lineal.


5.3.1. Variables Omitidas y Variables Irrelevantes.
En el captulo anterior se demostr que el vector mnimo-cuadrtico b es un
estimador insesgado del vector de coeficientes del modelo verdadero:
y = X + u
En este punto conviene anotar la siguiente salvedad: el vector b ser un estimador
insesgado de , siempre que el modelo de regresin est bien especificado, o sea,
siempre que se incluyan todas las variables explicativas relevantes. Como se ver
a continuacin, si existen algunas variables relevantes que no fueron incluidas en
la regresin, entonces el vector b ya no ser generalmente insesgado. Para apreciar esto, recordemos que en nuestra notacin matricial, X es una matriz de orden
n (k 1) que representa las k variables independientes que afectan a Y (incluyendo una columna de 1s para representar a la ordenada en el origen). Ahora
bien, puede suceder muchas veces que por una u otra razn no se incluyen todas
las k variables en la regresin estimada: podra ser que no se dispongan de los datos necesarios, o podra ser que se omita alguna variable relevante por simple ignorancia. En este caso, la matriz de observaciones usada en la regresin ser incompleta en el sentido de que no incluye todas las columnas de X. Para facilitar
el anlisis, representemos por X1 la matriz de observaciones sobre las variables
incluidas, y por X2 la matriz de las variables omitidas. Por tanto, el modelo
lineal completo puede ser expresado como:
y = X1 1 + X2 2 + u
donde 1 es el vector de los coeficientes de las variables incluidas, y 2 es el vector de coeficientes de las variables omitidas. Puesto que las variables omitidas no
son incluidas en el anlisis, el modelo estimado ser
y = X1b1 + e
Obviamente, si las variables omitidas son realmente relevantes, entonces se cometer un error de entrada al suponer que todos sus coeficientes son cero. La pregunta interesante, sin embargo, es si esta omisin tendr algn efecto sobre la estimacin del vector b1. Concretamente, podemos plantearnos la pregunta: Ser
ahora b1 un estimador insesgado de 1? En otras palabras, si se omiten una o
ms variables relevantes de una regresin, introduce esta omisin un sesgo en la
estimacin de los otros coeficientes? Para contestar esta pregunta, debemos calcular el valor esperado del vector b1. Notemos en primer lugar que el estimador
mnimo-cuadrtico de b1 ser:

[53]

b1 = (X1'X1)1X1'y
Ahora bien, puesto que y = X1 1 + X2 2 + u, entonces
b1 = (X1'X1)1X1'(X1 1 + X2 2 + u) = 1 + (X1'X1)1X1'X2 2 + (X1'X1)1X1'u
El valor esperado de b1 ser:
E(b1) = 1 + (X1'X1)1X1'X2 2 + (X1'X1)1X1'E(u) = 1 + (X1'X1)1X1'X2 2
Por tanto, b1 generalmente no ser un estimador insesgado de 1, ya que generalmente (X1'X1)1X1'X2 2 0. De hecho, esta expresin slo ser igual a 0 bajo dos
condiciones muy especiales:
(1) Si 2 = 0, o sea, si las variables omitidas son realmente irrelevantes. En
ese caso, el modelo estimado es realmente el modelo completo, y por tanto no
existe ningn problema. Obviamente, este caso no es muy interesante.
(2) Si (X1'X1)1X1'X2 = 0. Para entender mejor el significado de esta condicin,
ntese que cada columna de esta matriz representa los coeficientes de la regresin
de una de las variables omitidas sobre las variables incluidas. (Para visualizarlo
mejor, consideremos el caso de una sola variable omitida: en ese caso,
(X1'X1)1X1'X2 se reduce a un vector, y ese vector no es ms que el vector de los
coeficientes de la regresin de la variable omitida sobre las variables incluidas.)
En palabras, lo que esto significa es que no habr sesgo en la estimacin de b1 si
las variables omitidas y las variables incluidas son completamente independientes
unas de otras.
Esta segunda condicin es muy difcil que se cumpla en la prctica, al menos
literalmente, y por tanto se puede concluir en trminos generales que la omisin
de variables relevantes en una regresin lineal introducir algn grado de sesgo
en los coeficientes estimados. Esto no significa, por otro lado, que este sesgo ser
necesariamente muy grande. Si las variables omitidas no son muy importantes
(esto es, si los coeficientes del vector 2 son pequeos) y/o si no existe mucha
correlacin entre las variables omitidas y las variables incluidas (esto es, si los
elementos de la matriz (X1'X1)1X1'X2 son pequeos), entonces el sesgo ser
tambin pequeo. Por otro lado, si este no es el caso entonces las estimaciones resultantes podran estar seriamente erradas. Siempre es bueno tener en mente esta
posibilidad, ya que el mtodo de mnimos cuadrados slo garantiza buenos resultados si el modelo est bien especificado.
Consideremos ahora el problema contrario: Cul es el efecto de incluir una
variable irrelevante en una regresin lineal? En este caso, las consecuencias son

[54]

menos graves, ya que el verdadero coeficiente de la variable irrelevante es cero, y


lo que tender a suceder es que se obtendr un coeficiente no-significativo para
esta variable. Supongamos, por ejemplo, que se estima el siguiente modelo:
Y = b0 + b1X1 + b2X2 + b3X3 + e
Si X3 es realmente irrelevante, entonces 3 = 0. El mtodo de mnimos cuadrados
producir estimadores insesgados de todos los coeficientes en el modelo estimado, incluyendo el coeficiente de la variable irrelevante. En este caso, el valor esperado de b3 (el estimador de 3) ser precisamente 0. Por cierto que en la prctica el valor estimado de b3 nunca ser exactamente 0, debido a las variaciones de
muestreo, pero puede esperarse que por lo general resulte poco significativo. Lo
ms importante, sin embargo, es que la presencia de la variable irrelevante no introduce ningn sesgo en las estimaciones de los dems coeficientes.
Esto no significa, por otro lado, que la presencia de la variable irrelevante no
implica costo alguno. De hecho, existen consecuencias importantes, pero en este
caso el costo no se hace sentir en trminos de sesgo sino en trminos de la precisin de los estimadores. Lo que tender a suceder es que la presencia de variables
irrelevantes incrementar las desviaciones estndar de los coeficientes de las dems variables. Esto se debe a una razn muy simple: estadsticamente, lo que sucede es que parte de la informacin contenida en la muestra se est desperdiciando en la estimacin de un parmetro que no existe. Puesto que la informacin no
est siendo utilizada eficientemente, entonces la precisin de las estimaciones
tender a reducirse. En este caso, al incrementarse las desviaciones estndar de
los coeficientes de regresin, se reducir la razn t de todos los coeficientes, y
stos aparecern como menos significativos de lo que realmente son. Incluso podra darse el caso de que se concluya errneamente de que alguna de las variables
no es significativa cuando en realidad s lo es.
Qu conclusiones prcticas se desprenden de este anlisis? En la prctica,
por supuesto, el investigador no puede saber de antemano si una determinada variable es relevante o no, ya que generalmente esta es precisamente una de las preguntas que se desean resolver por medio de la investigacin. Por otro lado, se
aprecia por el anlisis anterior que las consecuencias de omitir variables relevantes son generalmente ms graves que las consecuencias de incluir variables irrelevantes. Por tanto, es mejor errar en la direccin de incluir variables irrelevantes,
que correr el riesgo de omitir alguna variable relevante. Estas consideraciones sugieren la conveniencia de aplicar la siguiente estrategia: en la primera etapa de la
investigacin, es mejor incluir todas las variables que puedan considerarse como
relevantes. En pocas palabras, si est en la duda de si incluir una variable o no,
inclyala. Si como resultado de la primera regresin algunas de las variables resultan no-significativas, entonces se podr proceder a descartarlas, y re-estimar la
regresin nicamente con las variables significativas.

[55]

5.3.2. Multicolinealidad.
(a) Naturaleza del Problema.
Imaginemos la siguiente paradoja: se estima una regresin mltiple, se obtiene una alta R2 (digamos, mayor que 0.8), pero ninguno de los coeficientes estimados es significativo, es decir, en ningn caso podemos rechazar la hiptesis de
que el verdadero coeficiente es 0. A primera vista, esto podra parecer contradictorio, ya que si la regresin tiene bastante poder explicativo (R2 es alta), entonces
quiere decir que por lo menos una de las variables independientes debe ser significativa. Sin embargo, esta situacin es de hecho muy comn en la econometra
aplicada, y se debe a un problema estadstico conocido como multicolinealidad.
En una regresin lineal mltiple, la multicolinealidad se presenta cuando las
variables explicativas estn fuertemente correlacionadas entre s, ya que si las variables explicativas varan juntas, entonces no se podr separar el efecto individual de cada una. Esto da lugar al sntoma clsico de una alta R2, pero coeficientes individuales poco significativos, porque si bien la alta R2 efectivamente implica que por lo menos una de las variables independientes es significativa, el problema es que no podemos determinar cules son significativas y cules no.
Estadsticamente, la multicolinealidad produce estimadores insesgados de los
coeficientes de regresin, pero con varianzas muy grandes. Esto es de esperarse,
ya que al no poder distinguir el efecto separado de cada variable, las estimaciones
de los coeficientes sern necesariamente muy imprecisas. Para apreciar mejor las
implicaciones de la multicolinealidad, hay que recordar el significado del coeficiente j en el modelo lineal: en ltima instancia, lo que se trata de medir con este
coeficiente es la derivada parcial de Y respecto de Xj, o sea, el efecto de un cambio en Xj, manteniendo constantes las dems variables independientes. El problema, sin embargo, es que en la muestra las otras Xs no slo no se mantienen
constantes, sino que de hecho varan junto con Xj. En este caso es muy difcil separar el efecto individual de cada variable.
Se aprecia entonces que la multicolinealidad es bsicamente un problema de
informacin. Lo que sucede es que estamos pidiendo a los datos ms de lo que
nos pueden decir. La muestra de observaciones no contiene suficiente informacin como para estimar el efecto separado de cada variable explicativa. Puesto
que se trata de un problema muestral, es muy poco lo que puede hacerse para resolver el problema si no es posible obtener informacin adicional. Por ejemplo,
se podra pensar en descartar alguna de las variables explicativas, para romper as
la multicolinealidad. Sin embargo, si la variable descartada es una variable relevante, entonces esto podra agravar los problemas, ya que se producir un sesgo
en los coeficientes de las otras Xs (ver seccin anterior). En este caso, los coefi-

[56]

cientes de las variables no-descartadas recogern su propio efecto, ms parte del


efecto de la variable descartada.
Puesto que el problema de multicolinealidad es en ltima instancia un problema de informacin insuficiente, se desprende que la nica solucin real consistir en obtener ms informacin. Ntese, sin embargo, que una ampliacin de
la muestra (ms observaciones) no servir de mucho si las observaciones adicionales estn tambin correlacionadas entre s. En otras palabras, seguiremos en la
misma situacin si las nuevas observaciones son simplemente ms de lo mismo. Desafortunadamente, muchas veces esta es precisamente la situacin que se
presenta en la investigacin econmica.
(b) Medidas del Grado de Multicolinealidad.
Regla de Klein Por la discusin anterior, se aprecia que la multicolinealidad no es una cuestin de todo o nada, sino ms bien una cuestin de grado. En
la mayora de los casos prcticos es inevitable que exista algn grado de correlacin entre los regresores, ya que en la econometra emprica es muy raro que los
datos provengan de un experimento controlado. Lo que necesitamos, entonces, es
algn criterio para determinar si la multicolinealidad existente es aceptable, o si
es suficientemente severa como para invalidar los resultados de un anlisis. Para
esto existen algunas reglas empricas. Una de ellas se basa en la siguiente observacin del Profesor Lawrence Klein:
La multicolinealidad o inter-correlacin entre las variables no es siempre un
problema, a menos que sea alta en relacin con el grado general de correlacin
mltiple entre todas las variables [de la regresin].21

Maddala22 se bas en esta observacin para formular el siguiente criterio, que se


conoce como la regla de Klein: La multicolinealidad debe considerarse un problema si para alguno de los regresores R 2j > R2, donde R 2j es el coeficiente de determinacin de la regresin de Xj contra todas las dems variables explicativas, y
R2 es el coeficiente de determinacin de la regresin completa.
Como ejemplo, tomemos nuevamente el caso de los automviles. En este
caso R12 = 0.5597, R22 = 0.7351 y R32 = 0.5211. Por tanto, puesto que la R2 para
la regresin completa es 0.8399, segn el criterio de Klein la multicolinealidad no
es un problema serio en esta regresin.
21

L. R. Klein, An Introduction to Econometrics (London: Prentice-Hall International,


1962), p. 101.
22

G. S. Maddala, Econometra (Madrid: McGraw-Hill, 1985), p. 195.

[57]

Factor de Inflacin de Varianza Este criterio se basa en el hecho de que la


varianza muestral del coeficiente de la variable Xj depende en parte de la correlacin entre Xj y las dems variables explicativas:

1
S2

Var (b j )
(n 1)Var ( X j ) 1 R 2j
donde Var(bj) es la varianza muestral de bj, Var(Xj) es la varianza muestral de Xj,
y S2 es la varianza estimada de los errores de la regresin.23 Se puede apreciar
aqu que Var(bj) se minimiza cuando R 2j = 0. Dados los valores muestrales de Xj,
la varianza muestral de bj se va incrementando a medida que aumenta R 2j (i.e., el
grado de multicolinealidad). Por esto, a la expresin entre parntesis se le conoce
como el factor de inflacin de varianza (FIV), ya que mide el aumento en la
varianza de bj que se puede atribuir al hecho de que los regresores no son
completamente independientes entre s.24 (En la terminologa del lgebra lineal,
esto se expresa diciendo que las columnas de la matriz X no son vectores
ortogonales.) Idealmente quisiramos que FIV = 1, aunque esto es muy difcil
que suceda en la prctica. Como regla emprica, se considera que la
multicolinealidad es demasiado alta si para alguno de los coeficientes FIV > 10,
es decir, si la varianza muestral del coeficiente estimado es ms de 10 veces
mayor que lo que sera si los regresores fueran ortogonales.25
Aplicando este criterio para el caso de los automviles tenemos:

1
1

FIV1
2.271
2
1

0
.
5597
1

1
FIV2
2
1 R2


3.775
1

0
.
7351

23

Ver, por ejemplo, W. H. Greene, Econometric Analysis, 5 ed. (Upper Saddle River,
NJ: Prentice Hall, 2003), p. 57. El estudiante podr verificar numricamente que el resultado obtenido al calcular Var(bj) por medio de esta frmula es idntico al elemento
correspondiente de la diagonal de la matriz S2(X'X)1.
24

Numricamente, el factor de inflacin de varianza para Xj es igual al j-simo elemento


diagonal de la inversa de la matriz de correlaciones de los regresores.
La expresin factor de inflacin de varianza fue acuada por D. W. Marquardt
(Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear
Estimation, Technometrics, 12 [1970], p. 606). Marquardt tambin fue el primero en
proponer la regla del 10 (ibid., p. 610).
25

[58]

1
FIV3
2
1 R3


2.088
1 0.5211

Para los tres regresores FIV < 10, lo cual confirma la conclusin obtenida por
medio de la regla de Klein. Aunque hay cierto grado de correlacin entre los
regresores, la multicolinealidad no es un problema serio en esta regresin.26
5.3.3. Heteroscedasticidad.
La heteroscedasticidad es un problema que surge cuando los errores en una
regresin lineal no tienen varianza constante. Esto en s no plantea un problema
para el clculo de los coeficientes mnimo-cuadrticos, ya que stos siguen siendo
estimadores insesgados, pero s afecta la varianza de los coeficientes estimados.
Se recordar del Captulo 4 que la inferencia estadstica en el modelo clsico
de regresin lineal se basa en los siguientes dos supuestos:
(1) E(u) = 0, lo que equivale a suponer que E(ui) = 0 para todo i. Con base en este supuesto concluimos que b es un estimador insesgado de .
(2) E(uu') = 2I, lo que equivale a suponer que todos los errores tienen la misma
varianza, y que los errores para las diferentes observaciones son independientes.
Con base en este supuesto, concluimos que la matriz de varianza-covarianza del
vector b es 2(X'X)1, que estimamos por medio de S2(X'X)1.
Cuando existe heteroscedasticidad falla el segundo de estos supuestos bsicos,
y entonces la matriz de varianza-covarianza ya no es igual a 2(X'X)1. Siempre
podemos calcular S2(X'X)1, pero los elementos diagonales de esta matriz ya no
sern estimadores insesgados de las varianzas de los coeficientes de regresin. De
hecho, las varianzas calculadas de este modo tendern a subestimar las verdaderas varianzas muestrales.
En una regresin simple es relativamente fcil detectar si existe heteroscedasticidad, ya que se puede visualizar por medio del diagrama de dispersin. En la
Figura 6.1 se muestra el perfil tpico de una regresin con heteroscedasticidad.
Cuando hay dos o ms variables explicativas el problema ya no se puede visualizar de este modo, pero es posible detectar la heteroscedasticidad por medios numricos.
o

26

Aunque en este caso los dos criterios apuntan a la misma conclusin, esto no siempre
ser el caso. La regla del 10 implica un valor mximo aceptable de R 2j = 0.9. La regla
de Klein, por otro lado, podra violarse con valores mucho menores de R 2j , ya que la
conclusin tambin depende del valor de R2.

[59]

Figura 5.1. Diagrama de Dispersin con Heteroscedasticidad.

100

80

60

40

20

0
0

20

40

60

80

100

120

Existen muchas diferentes pruebas de heteroscedasticidad, pero en la actualidad la prueba que ms se utiliza se conoce como la prueba de White.27 Para efectuar esta prueba primero se calcula la regresin por mnimos cuadrados ordinarios. Luego, si se trata de una regresin simple, se calcula la siguiente regresin
auxiliar:

e 2 a0 a1 X a2 X 2
Aqu la variable dependiente es el error cuadrado de la regresin estimada, y hay
dos regresores: la variable explicativa (X) y el cuadrado de X. Si la regresin estimada tiene dos variables explicativas, X1 y X2, entonces la regresin auxiliar
tendr la forma:

e 2 a0 a1 X 1 a2 X 12 a3 X 2 a4 X 22 a5 X 1 X 2
Halbert White, A Heteroskedasticity-Consistent Covariance Matrix Estimator and a
Direct Test for Heteroskedasticity, Econometrica, 48 (1980): 81738.
27

[60]

En este caso la regresin auxiliar tendr cinco regresores. En general, la regresin


auxiliar para e2 incluye como regresores todas las variables explicativas, sus cuadrados, y todos sus productos cruzados.
Luego se toma la R2 de la regresin auxiliar, que denotaremos como Ra2 , y se
multiplica por el nmero de observaciones. White demostr que si la varianza de
los errores es constante (no existe heteroscedasticidad) entonces n Ra2 tendr
una distribucin chi-cuadrado ( 2 ) con grados de libertad igual al nmero de regresores en la regresin auxiliar. Tendemos a rechazar la hiptesis de varianza
constante si este producto es grande, y por tanto la prueba es a una cola: concluimos que existe heteroscedasticidad en una regresin si n Ra2 es mayor que el
valor crtico de la distribucin chi-cuadrado para los grados de libertad relevantes. (Si se trata de una regresin simple la prueba de White tendr 2 grados de libertad, y si es una regresin con dos variables explicativas la prueba tendr 5 grados de libertad, si son tres variables la prueba tendr 9 grados de libertad, etc.)
Como ejemplo, podemos utilizar el caso de los costos bancarios, del captulo
anterior (Seccin 4.4). En este problema, X1 = Activos y X2 = Agencias. Calculando la regresin auxiliar con los errores de la regresin estimada obtenemos:

2 26.752 0.0254 X 1 0.000085 X 12 1.0935 X 2 0.0664 X 22 0.0078 X 1 X 2


Ra2 = 0.21102

n = 19

Por tanto, n Ra2 = 19 0.21102 4.0094 , y puesto que el valor crtico de una
variable chi-cuadrado con 5 grados de libertad y 5 % en la cola derecha es 11.07,
se concluye que no existe heteroscedasticidad en esta regresin.28

28

En caso de que exista heteroscedasticidad, no es necesario ajustar los coeficientes


mnimo-cuadrticos, ya que estos siguen siendo insesgados, pero se debe hacer un ajuste
a la matriz de varianza-covarianza, a fin de obtener estimadores correctos de las
varianzas de los coeficientes estimados. White tambin desarroll un mtodo para
efectuar dicho ajuste, pero la explicacin de este procedimiento sobrepasa los alcances
de este texto introductorio. La mayora de los paquetes de software economtrico
(E-Views, GRETL, etc.) incorporan el ajuste de White como una opcin estndar.

[61]

PREGUNTAS DE REPASO

1. Explique, en palabras, de qu forma podra darse la siguiente situacin: Se estima


una regresin lineal, se obtiene una alta R2, pero ninguna de las variables independientes
es significativa.
2. Si se estima una regresin doble-log o semi-logartmica, debe tenerse en mente que la
R2 de la regresin estimada mide la proporcin de la variacin del logaritmo de Y que ha
sido explicada, que no es lo mismo que la proporcin de la variacin de Y. Para poder
estimar esto ltimo (que es lo que realmente nos interesa en fin de cuentas), debemos
tomar antilogaritmos de los valores calculados de ln(Y), y compararlos con los valores
observados de Y por medio de la frmula convencional para R2. Haga este ejercicio para
el caso de la demanda de textiles (Secc. 5.1.2) y para el caso de los automviles (Secc.
5.2.2).
3. En un estudio sobre determinantes del ahorro en pases subdesarrollados 29, se reportaron las siguientes regresiones para una muestra de 47 pases:

S
Y
ln 9.3209 0.1624 ln 0.0258 ln( g ) 1.8402 ln( D1 ) 0.5416 ln( D2 )
Y
N
S
Y
ln 4.6341 1.1501 ln 0.0271 ln( g ) 1.8012 ln( D1 ) 0.5014 ln( D2 )
N
N
donde Y = Producto Interno Bruto (PIB), N = poblacin total, S/Y = ahorro nacional (expresado como % del PIB), S/N = ahorro nacional per cpita, g = tasa de crecimiento del
PIB per cpita, D1 = porcentaje de la poblacin menor de 15 aos de edad, y D2 = porcentaje de la poblacin mayor a 65 aos de edad.
a) Explique por qu estos resultados estimados no pueden ser correctos.
b) Cree usted que este es un buen modelo terico para este problema?
4. Para el caso de los costos bancarios (Secc. 4.4), aplique el criterio del factor de inflacin de varianza para medir el grado de multicolinealidad en la regresin estimada.
5. Para el problema de los automviles (Secc. 5.2), determine si existe
heteroscedasticidad en estas regresiones (tanto en el modelo lineal como en el modelo
semi-logartmico). Normalmente, en una regresin con tres variables explicativas la
prueba de White tendra 9 grados de libertad. Sin embargo, en este caso slo tenemos 8
grados de libertad. Por qu?

K. L. Gupta, Dependency Rates and Savings Rates: Comment, American Economic


Review, 61 (1971): 469-71. La motivacin para este problema se basa en un comentario
por A. S. Goldberger, Dependency Rates and Savings Rates: Further Comment, American Economic Review, 63 (1973): 232-33.
29

[62]

CASOS APLICADOS
Caso H Demanda de Automviles
En 1958 el Profesor Daniel Suits public un estudio economtrico de la demanda
de carros nuevos en los Estados Unidos. Las variables consideradas para el anlisis fueron las siguientes:
X1 = Indice del Precio Real de Automviles Nuevos
X2 = Ingreso Disponible Real (en miles de millones de dlares)
X3 = Automviles en Circulacin al principio de cada ao (millones de unidades)
Y = Ventas de Automviles Nuevos (millones de unidades).
Los datos se muestran en el cuadro siguiente (ntese que Suits excluy de su anlisis los datos correspondientes al perodo 1942-48, por considerarlos poco representativos):

X1
X2
X3
Y

1932
1933
1934
1935
1936
1937
1938
1939
1940
1941

126.5
128.5
128.5
120.5
117.0
121.0
133.8
131.0
134.3
144.9

83.4
82.6
90.9
99.3
111.6
115.6
109.0
118.5
127.0
147.9

18.7
17.9
18.9
19.4
20.1
21.5
22.3
22.7
23.2
24.5

1.10
1.53
1.93
2.87
3.51
3.51
1.96
2.72
3.46
3.76

1949
1950
1951
1952
1953
1954
1955
1956

186.6
186.6
181.5
195.7
188.2
190.2
196.6
193.4

184.9
200.5
203.7
209.2
218.7
221.6
236.3
247.2

30.6
33.1
35.7
37.6
39.3
41.6
43.0
47.0

4.87
6.37
5.09
4.19
5.78
5.47
7.20
5.90

Fuente: D. B. Suits, The Demand for New Automobiles in the United States, Review
of Economics and Statistics, 40 (1958), p. 279.

[63]

Con estos datos, calcule las siguientes regresiones:


ln(Y) = b0 + b1 ln(X1) + b2 ln(X2) + e
ln(Y) = b0 + b1 ln(X1) + b2 ln(X2) + b3 ln(X3) + e
(a) Cul de estas dos regresiones funciona mejor? Razone su respuesta.
(b) Cmo se interpreta el significado del coeficiente de la variable X3 en la segunda regresin? Tiene sentido este resultado? Por qu?

Caso I Convergencia Regional en Mxico


Segn el modelo neo-clsico de crecimiento econmico, propuesto por Robert
Solow en los aos 50s,30 a largo plazo la tasa de crecimiento en el ingreso per
cpita tiende a disminuir, a medida que aumenta el nivel de ingreso per cpita,
debido al efecto de rendimientos decrecientes en el empleo de capital fsico. Esto
implica que si se comparan diferentes pases durante un determinado perodo, se
esperara encontrar una relacin inversa entre la tasa de crecimiento econmico
en un pas y su nivel de ingreso inicial. Este efecto se conoce como convergencia, ya que implica que a largo plazo los niveles de ingreso per cpita tienden a
igualarse entre diferentes regiones. En la prctica slo se observa este efecto a nivel internacional cuando se comparan pases ms o menos similares (ya que es
una prediccin ceteris paribus, y cuando los pases son muy disimilares tiende a
predominar el efecto de otros factores). Por otro lado, s se observa comnmente
este efecto cuando se comparan diferentes regiones de un mismo pas.31
En el cuadro adjunto, se muestra una estadstica de la evolucin del ingreso real
per cpita en los diferentes estados de Mxico, entre 1940 y 1995. Use estos datos
para estimar la siguiente regresin:
Y = b + bln(X) + e
donde Y = tasa anual promedio de crecimiento del ingreso real per cpita, 194095, X = ingreso real per cpita en 1940. Son compatibles estos resultados con la
hiptesis de convergencia?
30

R. M. Solow, A Contribution to the Theory of Economic Growth, Quarterly Journal


of Economics, 70 (1956): 65-94.
31

Vase, por ejemplo, R. J. Barro, Economic Growth and Convergence, Occasional


Papers No. 46 (San Francisco: International Center for Economic Growth, 1994), y
Xavier Sala-i-Martin, The Classical Approach to Convergence Analysis, Economic
Journal, 106 (1996): 1019-36.

[64]

MXICO INGRESO PER CPITA ESTATAL, 1940-1995 (pesos de 1995).

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

Estado

1940

1995

Aguascalientes
Baja California
Baja California del Sur
Campeche
Chiapas
Chihuahua
Coahuila
Colima
Distrito Federal
Durango
Guanajuato
Guerrero
Hidalgo
Jalisco
Mxico
Michoacn
Morelos
Nayarit
Nuevo Len
Oaxaca
Puebla
Quertaro
Quintana Roo
San Luis Potos
Sinaloa
Sonora
Tabasco
Tamaulipas
Tlaxcala
Veracruz
Yucatn
Zacatecas

10384
22361
9573
3758
2934
8578
8537
6909
17816
12132
4359
2181
4414
5309
3408
3327
6936
4836
9073
1892
3569
11016
21965
4372
4840
6399
2459
7508
3605
5203
7990
3734

21013
25311
23989
35806
8341
24973
25654
17970
45323
15270
12494
10258
10515
17535
14430
10193
15682
10515
31453
8404
12809
21451
29276
13757
14310
23298
12422
19895
9628
11911
13426
10663

Fuente: G. Esquivel, Convergencia Regional en Mxico, 1940-1995, El Trimestre Econmico, 66


(1999), Cuadro A1, p. 759.

[65]

Caso J Produccin de Algodn


Los siguientes datos muestran los resultados de un experimento agrcola realizado en
1957 por la Universidad Estatal de Mississippi para investigar los efectos de variaciones en el uso de dos fertilizantes, nitrgeno y cido fosfrico, sobre el rendimiento en el cultivo del algodn:
Rendimiento en el Cultivo de Algodn (kg/Ha) para Diferentes
Combinaciones de Nitrgeno y Acido Fosfrico

Acido Fosfrico (kg/Ha)


Nitrgeno
(kg/Ha)
0
8
16
24
32
40
48
56

0
710
800
873
932
975 1003 1014 1012
8
985
1078 1155 1217 1264 1295 1311 1312
16
1205
1301 1382 1448 1498 1534 1553 1558
24
1370
1470 1555 1625 1679 1718 1742 1749
32
1481
1584 1673 1747 1804 1847 1875 1886
40
1538
1645 1737 1814 1876 1922 1954 1969
48
1539
1651 1747 1828 1893 1943 1978 1997

Fuente: C. E. Bishop y W. D. Toussaint, Introduccin al Anlisis de Economa Agrcola (Mxico: Limusa-Wiley, 1966), p. 119. El experimento original tambin incluye resultados para aplicaciones de 56 kg de nitrgeno, y para aplicaciones de 64 kg
de cido fosfrico, pero se han omitido estos valores del anlisis, ya que con estas
cantidades de fertilizante los rendimientos empiezan a disminuir.

(a) Sea Y = rendimiento de la cosecha, X1 = cantidad empleada de nitrgeno, y X2 =


cantidad empleada de cido fosfrico. Use estos datos para estimar la siguiente funcin por regresin lineal:

Y = A(1+X1)b(1+X2)c
donde A, b y c son constantes desconocidas. Cmo interpreta usted el significado de
la constante A en esta funcin?
(b) Determine si existe heteroscedasticidad en esta regresin.
(c) Suponiendo que el fertilizante es el nico costo variable, y que los otros costos
de cultivo suman $500.00 por hectrea (costo fijo), determine la cantidad ptima que
debera emplearse de cada fertilizante, si el precio del algodn es de $0.80 por kg, y
los costos de aplicacin de nitrgeno y de cido fosfrico son de $5.60 y $2.80 por
kg, respectivamente.
(d) Cunto deberamos emplear de cada fertilizante si quisiramos minimizar el
costo promedio por kg de algodn?

[66]

Captulo 6

AUTOCORRELACIN

En el captulo anterior se mencionaron algunos problemas prcticos que a menudo surgen en las aplicaciones del anlisis de regresin. Nos corresponde ahora en
este captulo tratar el tema de la autocorrelacin, que es otro problema muy
comn en la investigacin economtrica aplicada.

6.1. Naturaleza del Problema.


Hasta este punto hemos desarrollado nuestro anlisis sin prestar mayor atencin al orden en que se presentan las diferentes observaciones. De hecho, existen
situaciones donde este orden no tiene en s mayor significado. Por ejemplo, en el
caso de los costos bancarios (Cuadro 4.1), los datos para cada banco fueron ordenados de acuerdo al nivel de sus costos administrativos, pero podran haberse
presentado en cualquier otro orden (por ejemplo, alfabticamente segn el nombre del banco) sin alterar en nada el anlisis o las conclusiones.
Esta no es, sin embargo, una situacin muy comn en econometra, ya que en
la investigacin econmica los datos por lo general consisten de series cronolgicas. En una serie cronolgica, cada observacin sobre cada variable corresponde a un perodo de tiempo determinado, y el orden de presentacin de los datos es muy importante, ya que corresponde a la secuencia temporal en que fueron
generadas las diferentes observaciones. En este caso, es comn agregar un subndice en la notacin para indicar el perodo al cual corresponde cada observacin.
De esta forma, expresamos nuestro modelo lineal de la siguiente manera:
Yt = 0 + 1X1t + 2X2t + + kXkt + ut
donde el subndice t indica que los valores de las diferentes variables corresponden al perodo t. Cuando los datos son series cronolgicas, es muy importante
distinguir a qu perodo corresponden las observaciones, ya que podra ser que el
valor de la variable dependiente en un perodo determinado dependa de valores
de las variables explicativas que corresponden a perodos anteriores (o sea, de
valores retardados de las variables explicativas). Por ejemplo, en un estudio

[67]

sobre la demanda de alimentos en los Estados Unidos,32 Tobin estim la siguiente


regresin:
log(Ct) = 1.57 + 0.45 log(Yt ) + 0.11 log(Yt1) 0.53 log(Pt)
donde Ct es un ndice del consumo per cpita de alimentos en el ao t, Yt representa el ingreso real per cpita en el ao t, y Pt es un ndice de precios de alimentos en el ao t. Se aprecia que en este modelo el consumo de alimentos en un ao
determinado no slo depende del ingreso en ese ao, sino tambin del ingreso del
ao anterior. En este caso, si bien Yt y su valor retardado Yt1 representan una
misma variable independiente, deben ser tratados como regresores diferentes en
la ecuacin de regresin. (Los problemas especiales planteados por la presencia
de variables retardadas sern discutidos ms a fondo en el siguiente captulo.)
El problema de autocorrelacin surge cuando los errores correspondientes a
diferentes perodos no son independientes. Concretamente, decimos que los errores en una regresin estn auto-correlacionados si el valor del error en cualquier
perodo t (ut) depende de los errores correspondientes a perodos anteriores. Como veremos a continuacin, esto viola uno de los supuestos bsicos del mtodo
de mnimos cuadrados, y puede conducir a errores en la interpretacin de los coeficientes de regresin.
Para visualizar mejor el significado de la autocorrelacin en los errores, consideremos la Figura 6.1, que muestra los errores correspondientes a una regresin
basada en los datos del Caso F (Captulo 4):
Y = 5.869 + 0.923 X1 + 4.446 X2
(8.258) (0.511)
(2.997)

R2 = 0.6391

n = 24

donde Y = Fotocopias, X1 = Total de estudiantes universitarios, y X2 = Escolares


ms otros usuarios.33
Se puede apreciar claramente que en este caso los errores no son
independientes entre s, ya que no fluctan en forma completamente aleatoria,
sino que tienden a estar agrupados en secuencias de acuerdo a su signo: tienden a
haber secuencias de valores positivos alternadas por secuencias de valores
negativos, etc. Este es el tpico patrn de una serie que muestra autocorrelacin
positiva.
James Tobin, A Statistical Demand Function for Food in the U.S.A., Journal of the
Royal Statistical Society, Series A, 113 (1950): 132.
32

33

Esta no es necesariamente la mejor especificacin para este problema.

[68]

Figura 6.1. DEMANDA DE FOTOCOPIAS


(errores de la regresin estimada)
30

20

10

-10

-20
1994

1995

1996

1997

1998

1999

En general, la autocorrelacin en los errores se puede representar por medio


del siguiente proceso auto-regresivo:
ut = ut1 + vt
donde vt es una variable aleatoria independiente con media 0 y varianza constante, y es el coeficiente de autocorrelacin. En la terminologa del anlisis de
series cronolgicas, esta expresin se conoce como un proceso auto-regresivo de
primer orden. Si > 0, entonces decimos que existe autocorrelacin positiva, y
se presentar una situacin similar a la del caso que hemos tomado como ejemplo. En este caso, tiende a haber cierta persistencia en los signos de los errores. Si
< 0, entonces decimos que la autocorrelacin es negativa, y en este caso los
cambios de signos en los errores son demasiado frecuentes. En ambos casos, los
errores en perodos sucesivos no son independientes, ya que el valor del error en
un perodo determinado depende parcialmente del error del perodo anterior. Los

[69]

errores slo sern completamente independientes si = 0, o sea, si existe autocorrelacin cero.


En este punto, surgen naturalmente tres preguntas bsicas: (1) Qu efectos
tiene la autocorrelacin sobre las estimaciones de los coeficientes de regresin?
(2) Cmo se detecta la presencia de autocorrelacin en una regresin lineal? (3)
Qu se puede hacer para contrarrestar los efectos de la autocorrelacin? A fin de
organizar mejor la discusin, trataremos cada uno de estos temas en secciones separadas.

6.2. Efectos de la Autocorrelacin.


Supongamos que deseamos estimar la siguiente ecuacin lineal:
Yt = 0 + 1X1t + 2X2t + + kXkt + ut
que en forma matricial expresamos como:
y = X + u
En el modelo clsico de regresin lineal, estimamos el vector de coeficientes
por medio del vector mnimo-cuadrtico b = (X'X)1X'y. Recordemos nuevamente el segundo supuesto bsico del modelo clsico de regresin lineal (Secc. 4.2):
E(uu') = 2I, lo que en trminos de nuestra nueva notacin equivale a suponer
que E(ut2) = 2 para todo t, y E(ututs) = 0 para todo s 0. Es decir, suponemos
que todos los errores tienen la misma varianza, y que los errores para perodos diferentes son independientes. (Se podr apreciar intuitivamente que la segunda
parte de este supuesto es lo que falla cuando existe autocorrelacin.) Con base en
este supuesto, concluimos que la matriz de varianza-covarianza del vector b es
2(X'X)1, que estimamos por medio de S2(X'X)1.
Supongamos ahora que los errores en el modelo lineal siguen el siguiente
proceso auto-regresivo:
ut = ut1 + vt
donde vt es una variable aleatoria independiente con media 0 y varianza constante, y || < 1. (Se podr apreciar intuitivamente que esta condicin es necesaria para que el proceso sea estable.) Esto implica que
utut1 = (ut1 + vt)ut1
Si calculamos el valor esperado de esta expresin obtenemos:

[70]

E(utut1) = E( u t21 )
ya que vt es una variable completamente aleatoria, y por tanto ser independiente
de ut1 (es decir, E(vtut1) = 0). La expresin anterior slo ser igual a 0 si = 0,
es decir, si no existe autocorrelacin. Si no es cero, entonces E(utut1) tampoco
ser cero, ya que E( u t21 ) es necesariamente positiva. Por tanto, esto significa que
si existe autocorrelacin (ya sea positiva o negativa), entonces los errores en perodos sucesivos no sern independientes. Esto implica que el supuesto de que
E(uu') = 2I ya no es vlido, lo que implica a su vez que la matriz de varianzacovarianza del vector b ya no ser de la forma 2(X'X)1. Por tanto, no tiene ya
sentido estimar esta matriz por medio de S2(X'X)1. Por supuesto que siempre es
posible calcular esta matriz, pero ya no se puede interpretar de la manera convencional. Se recordar que en el caso clsico los elementos de la diagonal de esta
matriz son los estimadores de las varianzas de los coeficientes de regresin. Sin
embargo, si existe autocorrelacin en los errores este ya no es el caso. De hecho,
si los errores estn auto-correlacionados y tratamos de estimar las varianzas de
los coeficientes por medio del mtodo convencional (que dicho sea de paso, es el
mtodo que viene automticamente incorporado en los programas de regresin
por computadoras), entonces se tender a subestimar estas varianzas. Por otro lado, ntese que
ut1 = ut2 + vt1
Por tanto,
ut = ut2 + vt1) + vt = vt + vt1 + 2ut2 = vt + vt1 + 2vt2 + 3vt3 + .
El valor esperado de ut ser entonces:
E(ut) = E(vt)+ Evt1) + 2Evt2) + 3E(vt3) + . = 0
Esto ser cierto para toda t, y por tanto se sigue manteniendo vlido el supuesto
de que E(u) = 0. Esto implica que el vector b sigue siendo insesgado, ya que esta
conclusin depende nicamente de este supuesto.
Para resumir, la autocorrelacin no introduce sesgo en los coeficientes de regresin, pero s hace que se tiendan a subestimar las varianzas de estos coeficientes, si estas varianzas se estiman por medio de la frmula convencional. En trminos prcticos, esto implica que se tender sobre-estimar la significancia de
los coeficientes (porque se tender a sobre-estimar la razn t de cada coeficiente), e incluso podra darse el caso de que se tienda a concluir que una variable es
significativa an cuando realmente no lo sea.

[71]

6.3. Cmo Detectar la Autocorrelacin.


La discusin anterior implica que la autocorrelacin es un problema serio, y
por tanto es muy importante contar con alguna tcnica para detectarla si es que
existe. Lo que necesitamos es alguna prueba confiable para testar la hiptesis
nula:
H0: = 0
Si no podemos rechazar esta hiptesis entonces concluimos que no existe autocorrelacin, lo que significa que los supuestos del modelo clsico de regresin se
aplican, lo mismo que las inferencias basadas en esos supuestos. Por otro lado, si
en un caso determinado encontramos que debemos rechazar esta hiptesis nula,
entonces concluimos que existe autocorrelacin, y en ese caso debemos tratar de
remediar la situacin, empleando algn mtodo de estimacin alternativo.
6.3.1. Prueba de Durbin-Watson.
En la prctica, la prueba que ms comnmente se emplea se basa en el siguiente estadstico propuesto por Durbin y Watson34:
n

(e
t 2

et 1 ) 2

e
t 1

2
t

Ntese que este estadstico se basa en los errores de la regresin estimada (que
son los nicos que podemos observar en la prctica). Si desarrollamos el numerador de esta expresin, encontramos que

n 1

t 2

t 2
n

t 1

et2 2 et et 1 et2
e
t 1

2
t
n

n 1

t 2

t 1

t 1

2
2
2
Adems, si apreciamos que en forma aproximada et et et , entonces

et et 1
el estadstico Durbin-Watson ser aproximadamente igual a 2 2
,
2
et
J. Durbin y G. S. Watson, Testing for Serial Correlation in Least Squares Regression, Biometrika, 37 (1950): 409-28, 38 (1951): 159-78.
34

[72]

donde hemos suprimido los subndices de las sumatorias para simplificar la


notacin. La expresin entre corchetes es el estimador mnimo-cuadrtico del
coeficiente de la regresin (por el origen) de et contra et1, y el valor esperado de
este coeficiente es precisamente , el coeficiente de autocorrelacin. Por tanto,
puesto que vara entre 1 y 1, el valor esperado de d vara entre 0 y 4. Si la
hiptesis nula de cero autocorrelacin es cierta ( = 0), entonces el estadstico
Durbin-Watson (que a menudo se representa por las siglas DW) tendr un valor
esperado de 2. Si d es menor que 2, entonces existir evidencia de
autocorrelacin positiva, y si es mayor que 2 existir evidencia de autocorrelacin
negativa. La relacin entre d y se puede visualizar mejor en el siguiente grfico:
Autocorrelacin

Positiva
Cero
Negativa
:

1
0
1
|||

d:

0
2
4
|||

Naturalmente que d nunca ser exactamente igual a 2 an cuando sea realmente


cero, debido a variaciones muestrales, por lo que en la prctica slo rechazamos
la hiptesis de que = 0 cuando d se aleje demasiado de 2 (en cualquiera de las
dos direcciones). Durbin y Watson tabularon los valores crticos de d para testar
H0: = 0 contra la alternativa de autocorrelacin positiva para varios niveles de
significancia. En la Tabla A-4 del Apndice presentamos los valores crticos tabulados para 5 % de significancia (que es el nivel que ms comnmente se emplea en la prctica).35 Se aprecia que los valores crticos dependen tanto del nmero de observaciones (n) como del nmero de variables independientes (k), y
que para cada combinacin de n y k de hecho existen dos valores crticos: un valor inferior (dL) y un valor superior (dU). En la prctica, la prueba Durbin-Watson
se reduce a la siguiente regla de decisin:
(a) Si d > dU, aceptar H0 (concluir que no existe autocorrelacin)
(b) Si d < dL, rechazar H0 (concluir que existe autocorrelacin positiva)
(c) Si dL < d < dU, la prueba no es concluyente.
35

La Tabla A-4 del Apndice se basa en las tablas ampliadas reportadas por N. E. Savin
y K. J. White, The Durbin-Watson Test for Serial Correlation with Extreme Sample
Sizes or Many Regressors, Econometrica, 45 (1977): 1989-96.

[73]

Si d > 2, entonces la alternativa relevante es < 0 (autocorrelacin negativa). En


este caso, se puede calcular 4 d, y aplicar la regla anterior como si se estuviera
considerando la alternativa de autocorrelacin positiva:
(a) Si 4 d > dU, aceptar H0 (concluir que no existe autocorrelacin)
(b) Si 4 d < dL, rechazar H0 (concluir que existe autocorrelacin negativa)
(c) Si dL < 4 d < dU, la prueba no es concluyente.
6.3.2. Limitaciones de la Prueba Durbin-Watson.
Uno de los problemas con la prueba Durbin-Watson es la regin de incertidumbre entre dL y dU, que puede ser muy amplia cuando existen relativamente
pocas observaciones, o cuando el nmero de regresores es muy grande. En este
caso, en principio no se justifica ninguna conclusin, de modo que no sabemos
si existe autocorrelacin, pero tampoco estamos seguros de que no existe. Por
cierto que en la prctica tenemos que tomar alguna decisin: o aceptamos las estimaciones mnimo-cuadrticas tal cual, o empleamos otro mtodo de estimacin.
Si adoptamos la primera alternativa, entonces implcitamente estamos suponiendo
que no existe autocorrelacin en los errores de la regresin. La cuestin es si se
justifica tomar esta actitud cuando d cae en la regin de incertidumbre. En vista
de que en este caso las consecuencias de aceptar errneamente la hiptesis nula
(Error Tipo II) son ms graves que las de rechazarla incorrectamente (Error Tipo
I), parecera ms conveniente concluir que existe autocorrelacin a no ser que estemos seguros de lo contrario. Por esto, muchos autores recomiendan la siguiente
estrategia conservadora: si d < dU (o si 4 d < dU), entonces rechazar H0 y concluir que existe autocorrelacin.
Otra de las limitaciones de la prueba Durbin-Watson es que los valores crticos tabulados estn definidos nicamente para regresiones con constante. En el
caso de regresiones por el origen, el valor crtico superior (dU) es igual que en el
caso convencional de regresin con constante, pero el valor crtico inferior (dL) es
menor, lo que implica una mayor regin de incertidumbre.36 Por ltimo, es muy
importante anotar que la prueba Durbin-Watson tampoco es aplicable cuando los
regresores incluyen valores retardados de la variable dependiente. Este caso ser
discutido con mayor detalle en el captulo siguiente.

R. W. Farebrother, The Durbin-Watson Test for Serial Correlation When There is No


Intercept in the Regression, Econometrica, 48 (1980): 1553-63.
36

[74]

6.3.3. Ejemplo Prctico.


Para ilustrar la aplicacin de la prueba Durbin-Watson consideremos nuevamente el ejemplo de la demanda de fotocopias. Los clculos necesarios se detallan en el Cuadro 6.1. En este caso, para 24 observaciones y 2 variables independientes tenemos que los valores crticos para la prueba Durbin-Watson son dL =
1.188 y dU = 1.546. Puesto que 0.921 < 1.188, concluimos que existe evidencia de
autocorrelacin positiva en esta regresin.

6.4. Estimacin en Presencia de Autocorrelacin.


Vimos en la seccin 6.2 que cuando los errores en una regresin estn autocorrelacionados, entonces se viola uno de los supuestos del modelo clsico de
regresin lineal, y por tanto las inferencias estadsticas basadas en esos supuestos
ya no son vlidas. En este caso, se deber adoptar algn mtodo de estimacin
alternativo. El mtodo ms comnmente empleado es el llamado mtodo
iterativo de Cochrane-Orcutt.37
Para simplificar la presentacin, supongamos que deseamos estimar el siguiente modelo lineal simple (las conclusiones se pueden generalizar fcilmente
para el caso de k variables independientes):
(1)

Yt = 0 + 1Xt + ut

y que los errores siguen el siguiente proceso auto-regresivo:


(2)

ut = ut1 + vt

Si retardamos la ecuacin (1) en un perodo y pre-multiplicamos por , tendremos:


(3)

Yt1 = 0 + 1Xt1 + ut1

Si restamos (1) menos (3), y reordenamos trminos, tendremos finalmente:


(4)

Yt Yt1 = 0(1 ) + 1(Xt Xt1) + vt

Ntese que el error vt en la ecuacin (4) ya no est auto-correlacionado, por lo


que en principio podra ser estimada por mnimos cuadrados ordinarios. Por tanto, si conociramos el valor del coeficiente de autocorrelacin (), entonces podramos obtener estimaciones de los coeficientes de la ecuacin (1) por medio de
P. Cochrane y G. H. Orcutt, Application of Least Squares Regression to Relationships
Containing Autocorrelated Error Terms, Journal of the American Statistical Association, 44 (1949): 32-61.
37

[75]


Cuadro 6.1. CLCULO DEL ESTADSTICO DURBIN-WATSON PARA
EL CASO DE LA DEMANDA DE FOTOCOPIAS.

Y
et
et2
(et et1)2
Y

1994.1
.2
.3
.4
1995.1
.2
.3
.4
1996.1
.2
.3
.4
1997.1
.2
.3
.4
1998.1
.2
.3
.4
1999.1
.2
.3
.4

55.786
55.734
51.222
27.344
52.456
47.630
43.670
15.314
67.434
59.024
60.868
27.214
57.632
57.518
48.266
29.928
56.128
46.948
37.942
19.682
45.282
67.546
65.364
30.064

57.327
53.982
47.017
34.270
51.893
52.664
51.076
31.819
61.984
48.743
45.427
23.117
61.996
64.511
51.454
34.895
61.988
53.221
42.227
29.781
48.772
50.767
44.904
22.161

-1.541
1.752
4.205
-6.926
0.563
-5.034
-7.406
-16.505
5.450
10.281
15.441
4.097
-4.364
-6.993
-3.188
-4.967
-5.860
-6.273
-4.285
-10.099
-3.490
16.779
20.460
7.903

2.375
3.070
17.682
47.969
0.317
25.341
54.849
272.415
29.703
105.699
238.424
16.785
19.044
48.902
10.163
24.671
34.340
39.351
18.361
101.990
12.180
281.535
418.612
62.457

10.844
6.017
123.899
56.085
31.326
5.626
82.792
482.022
23.339
26.626
128.686
71.589
6.912
14.478
3.165
0.797
0.171
3.952
33.803
43.679
410.832
13.550
157.678

Sumas:

1886.235

1737.868

d = 1737.868 1886.235 = 0.921

[76]

una estimacin de la ecuacin (4), que viene expresada en trminos de las variables transformadas (Yt Yt1) y (Xt Xt1).
El problema, naturalmente, es que no conocemos , y por tanto debemos estimarlo. Denotemos el valor estimado de por . En el mtodo Cochrane-Orcutt
se procede por pasos de acuerdo a la siguiente secuencia:
Paso N 1. Estimar la ecuacin (1) por mnimos cuadrados ordinarios.
Paso N 2. Estimar a partir de los errores de la ecuacin (1) por medio de:

et et 1

2
t

que tambin podra estimarse como (1 0.5d), donde d es el estadstico Durbin-Watson.38


Paso N 3. Sustituir el valor estimado de en la ecuacin (4), y estimar los coeficientes de esta regresin por mnimos cuadrados ordinarios. [Ntese que la
ordenada en el origen de la ecuacin (4) no es un estimador de 0 sino de
0(1). Para obtener el estimador de 0 deber dividirse entre (1 ).]
Paso N 4. Sustituir los coeficientes estimados en la ecuacin (1), recalcular los
errores, y repetir los pasos 2, 3, y 4.
El proceso se repite iterativamente hasta que converge a un valor fijo. En la
prctica se decide de antemano detener el proceso cuando el cambio en el valor
estimado de de una iteracin a otra es menor que algn valor pequeo (digamos, 0.001). Generalmente se produce la convergencia al cabo de unas pocas iteraciones.
El mtodo Cochrane-Orcutt es bastante conocido, y muchos paquetes de regresin traen incorporados alguna variante del mismo. Obviamente se trata de un
mtodo mucho ms sofisticado que el mtodo de mnimos cuadrados ordinarios.
La pregunta interesante, sin embargo, es si realmente produce mejores resultados.
Otra alternativa sera estimar por medio del mtodo propuesto por J. Durbin (The
Fitting of Time-Series Models, Review of the International Statistical Institute, 28
[1960], p. 237). Si expresamos la ecuacin (4) como:
38

Yt = 0(1 ) + 1Xt 1Xt1 + Yt1 + vt


y estimamos esta regresin por mnimos cuadrados ordinarios, podramos tomar el
coeficiente de Yt1 como un estimador de

[77]

El problema, por supuesto, es que el proceso de estimacin no est basado en el


verdadero valor de , sino en su estimador . Debido a esto, es muy comn
observar en la prctica que las estimaciones obtenidas por el mtodo CochraneOrcutt difieren mucho de las estimaciones obtenidas por mnimos cuadrados
ordinarios (a tal grado que los coeficientes muchas veces terminan incluso con los
signos cambiados). En este punto es bueno recordar que an con errores autocorrelacionados, el vector mnimo-cuadrtico sigue siendo al fin y al cabo insesgado.
Por ltimo, conviene siempre tener en mente que los mtodos tipo CochraneOrcutt no son un remedio para la autocorrelacin, sino una forma de estimar los
coeficientes de regresin, dado que los errores estn auto-correlacionados. Por
otro lado, la autocorrelacin muchas veces es un sntoma de algn problema ms
bsico: por ejemplo, podra reflejar el efecto de alguna variable omitida, o de algn error en la forma funcional de la ecuacin de regresin. En este sentido, antes
de recurrir a tcnicas sofisticadas (que en ltima instancia slo atacan el sntoma), es preferible tratar de eliminar la autocorrelacin, investigando ms a fondo
los factores que podran estarla causando.

[78]

PREGUNTAS DE REPASO

1. Defina los siguientes conceptos:


a) serie cronolgica
b) autocorrelacin
c) estadstico Durbin-Watson.
2. Qu efectos tiene la autocorrelacin sobre los estimadores mnimocuadrticos en el modelo clsico de regresin?
3. Para los Casos B y C del Captulo 2 (ley de Okun), determine si existe
heteroscedasticidad y/o autocorrelacin en estas regresiones.
4. Cules son las principales limitaciones de la prueba Durbin-Watson?
5. Explique los pasos que deben seguirse para estimar una regresin por medio
del mtodo Cochrane-Orcutt.

[79]

CASO APLICADO
Caso K Funcin Consumo
Los datos en el cuadro adjunto fueron tomados de un antiguo estudio sobre la
funcin consumo en los Estados Unidos. Se desea estimar la siguiente
regresin lineal:
Ct = b0 + b1Yt + et
donde Ct = Gasto de consumo personal en el trimestre t, Yt = Ingreso personal
disponible en el trimestre t (ambos expresados en billones de dlares de 1954), y
et es el error o residuo de la regresin estimada.
a) Determine si hay autocorrelacin en esta regresin.
b) Use estos datos para estimar el coeficiente de autocorrelacin () por medio
del mtodo de Durbin.

[80]

CONSUMO E INGRESO PERSONAL EN ESTADOS UNIDOS, 1947-61 (trimestral).


Ao

Trimestre

C(t)

Y(t)

Ao

Trimestre

C(t)

Y(t)

1947

I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV

192.5
196.1
196.9
197.0
198.1
199.0
199.4
200.6
199.9
203.6
204.8
209.0
210.7
214.2
225.6
217.0
222.3
214.5
217.5
219.8
220.0
222.7
223.8
230.2
234.0
236.2
236.0
234.1
233.4
236.4
239.0
243.2
248.7
253.7
259.9
261.8

202.3
197.1
202.9
202.2
203.5
211.7
215.3
215.1
212.9
213.9
214.0
214.9
228.0
227.3
232.0
236.1
230.9
236.3
239.1
240.8
238.1
240.9
245.8
248.8
253.3
256.1
255.9
255.9
254.4
254.8
257.0
260.9
263.0
271.5
276.5
281.4

1956

I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II

263.2
263.7
263.4
266.9
268.9
270.4
273.4
272.1
268.9
270.9
274.4
278.7
283.8
289.7
290.8
292.8
295.4
299.5
298.6
299.6
297.0
301.6

282.0
286.2
287.7
291.0
291.1
294.6
296.1
293.3
291.3
292.6
299.9
302.1
305.9
312.5
311.3
313.2
315.4
320.3
321.0
320.1
318.4
324.8

1948

1949

1950

1951

1952

1953

1954

1955

1957

1958

1959

1960

1961

Fuente: Z. Griliches, et al., Notes on Estimated Aggregate Quarterly Consumption Functions,


Econometrica, 30 (1962), pp. 499-500 (Data Appendix).

[81]

Captulo 7

RETARDOS DISTRIBUIDOS

En este captulo final, discutiremos la estimacin de regresiones que incluyen variables retardadas en la lista de regresores. Como veremos, cuando los datos bsicos consisten de series cronolgicas, la inclusin de variables retardadas permite
ampliar la flexibilidad del modelo de regresin, pero tambin plantea problemas
especiales de estimacin, que justifican una discusin por separado.

7.1. Variables Retardadas en Econometra.


Cuando se especifica una relacin entre variables econmicas que son representadas por medio de series cronolgicas, generalmente es poco realista suponer
que el efecto total de un cambio en las variables explicativas se produce en un
mismo perodo. Ms bien, en muchas situaciones es de esperarse que este efecto
quedar distribuido entre varios perodos futuros. Esto implica a su vez que el valor de Y correspondiente a un perodo determinado depender en parte de los valores de las Xs en ese mismo perodo, pero tambin depender de los valores de
las Xs correspondientes a perodos anteriores.
Para tomar un ejemplo concreto, recordemos el Caso G del Captulo 4, donde
se aplic un modelo basado en la Teora Cuantitativa del Dinero para explicar
la variacin en las tasas de inflacin en un grupo de pases latinoamericanos. Un
problema que se presenta al aplicar este modelo a los datos anuales de un pas especfico es que, en el corto plazo, generalmente existe un retardo en el efecto de
variaciones en la masa monetaria. Por tanto, si aumenta la tasa de crecimiento
monetario en un perodo determinado, la inflacin en ese perodo tambin aumentar, aunque probablemente no en la misma proporcin, ya que el efecto inflacionario de un cambio monetario toma cierto tiempo. Por esto, parte del efecto del
cambio monetario no se reflejar de inmediato, sino que se reflejar posteriormente en la inflacin de perodos futuros. Por otro lado, y vindolo desde otro
ngulo, esto implica que la tasa de inflacin en el perodo actual no depende nicamente de la tasa contempornea de crecimiento monetario, sino que tambin
depender del crecimiento monetario de perodos anteriores. Por tanto, si expresamos la tasa de inflacin como funcin nicamente del crecimiento monetario
contemporneo se obtendrn resultados sesgados, ya que la regresin tender a

[82]

subestimar el efecto total de un cambio monetario, debido a la omisin del efecto


retardado. (Debemos recordar en este punto la discusin del Captulo 5 sobre los
efectos de variables omitidas.)
Por otro lado, si bien es fcil justificar la presencia de variables retardadas en
una regresin, la teora relevante rara vez proporciona guas claras sobre la duracin exacta del retardo en un caso concreto, ya que generalmente esta es precisamente una de las cuestiones que deseamos determinar por medio de la investigacin. Si suponemos, para simplificar la presentacin, de que Y depende de una sola variable explicativa X, entonces podramos especificar un modelo lineal de la
forma:
(1)

Yt = 0 + 1Xt + 2Xt1 + ... + k+1Xtk + ut

donde Yt depende del valor contemporneo de X, y de los valores de X correspondientes a los k perodos anteriores. Una ecuacin de este tipo se conoce como un
retardo distribuido. En principio, se podra determinar el nmero de valores
retardados (k) por prueba y error, empezando con un nmero relativamente
grande y examinando la significancia de los coeficientes estimados. En la prctica
este procedimiento no es siempre factible, por varias razones. En primer lugar, el
nmero de observaciones en la muestra impone una limitacin al nmero de retardos que pueden considerarse, ya que si incluimos demasiados valores retardados en la ecuacin, nos quedarn pocos grados de libertad para la estimacin. Por
otro lado, tpicamente los diferentes valores retardados de X estarn correlacionados entre s, lo que puede crear problemas de multicolinealidad.
7.1.1. Transformacin de Koyck.39
Una forma de evitar estos problemas es suponer que el retardo es en principio
infinito, pero imponer algn tipo de restriccin sobre la forma de los coeficientes. Supongamos que la relacin entre Y y X tiene el siguiente retardo distribuido:
(2)

Yt = 0 + 1Xt + 2Xt1 + 3Xt2 + + ut

Por supuesto que sera imposible estimar este modelo directamente. No obstante,
se puede reducir el problema a proporciones manejables si imponemos ciertas
restricciones sobre los coeficientes 1, 2, .... En muchas situaciones, por ejemplo, parece razonable suponer que la magnitud del efecto de un cambio en X dis39

La discusin en esta seccin y la siguiente se basa en Goldberger, Teora Economtrica, Cap. 6 (pp. 289-90), y Marc Nerlove, Distributed Lags, International Encyclopedia of the Social Sciences (1968), vol. 4, pp. 214-17. Vase tambin A. S. Goldberger,
Review of Distributed Lags and Demand Analysis for Agricultural and Other Commodities by Marc Nerlove, American Economic Review, 48 (1958): 1011-13.

[83]

minuye con el tiempo, por lo que esperamos un impacto inicial relativamente


fuerte, un efecto menos fuerte en el perodo siguiente, etc. Si este es el caso, entonces los coeficientes de la ecuacin (2) tenderan a disminuir sistemticamente
a medida que retrocedemos ms y ms en el pasado. La llamada transformacin
de Koyck se basa en el supuesto de que estos coeficientes disminuyen en forma
geomtrica:
i = i1 para i = 1, 2, .... (0 1)
Con este supuesto, podemos expresar la ecuacin (2) como:
(3)

Yt = 0 + Xt + Xt1 + 2Xt2 + ... + ut

Si retardamos la ecuacin (3) en un perodo y pre-multiplicamos por tendremos:


(4)

Yt1 = 0 + Xt1 + 2Xt2 + 3Xt3 + ... + ut1

Por ltimo, restando (3) menos (4) y reordenando, obtenemos:


(5)

Yt = (1 )0 + Xt + Yt1 + (ut ut1)

De esta forma, el problema se reduce a la estimacin de nicamente tres parmetros. Se notar, sin embargo, que esta ecuacin implica un trmino de error un
tanto complicado. Por otra parte, Nerlove ha propuesto un mecanismo de retardo
que produce una regresin muy similar a la de Koyck, pero con un error ms simple.
7.1.2. Modelo de Ajuste Parcial (Nerlove).
El modelo de Nerlove se basa en el supuesto de que existe una relacin lineal
de largo plazo entre Y y X, que se expresa de la forma:
(6)

Y* = 0 + 1Xt

Aqu, Y* representa el valor de Y que se observara si el valor de X se mantuviera


igual a Xt por un tiempo muy largo. Si cambia X, entonces Y* tambin cambia,
pero el valor observado de la variable dependiente (Yt) no se ajusta de inmediato
al valor de largo plazo, de modo que en cualquier perodo determinado habr discrepancias entre Y* y Yt. En el modelo de Nerlove, se supone que estas discrepancias se corrigen de acuerdo al siguiente mecanismo de ajuste parcial:
(7)

Yt Yt1 = (Y* Yt1) + ut

(0 1)

[84]

En este modelo, el coeficiente de ajuste () mide la rapidez con que Yt se ajusta


a un cambio en Xt. Si es muy grande, entonces el ajuste es rpido, mientras que
si es pequeo, entonces el ajuste es lento. (En el caso lmite, si = 1 entonces Yt
= Y* + ut, todo el ajuste se produce en el mismo perodo, y las nicas discrepancias se deben a las fluctuaciones del error aleatorio.) Si sustituimos (6) en (7) y
reordenamos trminos, obtenemos:
(8)

Yt = 0 + 1Xt + (1 )Yt1 + ut

Ntese que este modelo es formalmente idntico al modelo de Koyck, pero con la
diferencia de que el trmino de error es ms sencillo. Para estimar los parmetros
del modelo, calculamos la siguiente regresin:
(9)

Yt = b0 + b1Xt + b2Yt1 + et

En esta regresin, b0 es el estimador de 0, b1 es el estimador de 1, y b2 es el


estimador de (1 ). A partir de estos estimadores, podemos estimar 0 por medio de b0/(1 b2), y 1 por medio de b1/(1 b2). [Para facilitar la presentacin,
hemos desarrollado el modelo de ajuste parcial en trminos de una sola variable
explicativa, pero los resultados se pueden fcilmente generalizar para el caso de k
variables independientes. Sin embargo, para evitar confusiones, debe tenerse en
mente que para estimar los parmetros del modelo de largo plazo (0, 1, 2, etc.)
lo que nos interesa es dividir los coeficientes de la regresin (9) entre el estimador de , que ser igual a 1 menos el coeficiente de Yt1 en esa regresin.]

7.2. Autocorrelacin en Regresiones con Retardos.


En el captulo anterior, se mencion que la prueba Durbin-Watson no es aplicable cuando la lista de regresores incluye variables dependientes retardadas. De
hecho, Nerlove y Wallis han demostraron que en este caso el valor del estadstico
Durbin-Watson estar sesgado hacia 2, por lo que se tender a aceptar la hiptesis
de cero autocorrelacin, aun cuando los errores realmente estn autocorrelacionados.40
En vista de esto, Durbin41 ha propuesto el siguiente estadstico alternativo:

h (1 0.5d )

n
1 n Var (b)

Marc Nerlove y K. F. Wallis, Use of the Durbin-Watson Statistic in Inappropriate


Situations, Econometrica, 34 (1966): 235-38.
40

J. Durbin, Testing for Serial Correlation in Least Squares Regression When Some of
the Regressors are Lagged Dependent Variables, Econometrica, 38 (1970): 410-21.
41

[85]

donde d es el convencional estadstico Durbin-Watson, y Var(b) es la varianza


muestral del coeficiente de Yt1. (Ntese que el estadstico h no estar definido si
n Var(b) > 1.) Durbin demostr que en grandes muestras h tiene una distribucin
que se aproxima a la de una variable normal estndar (es decir, una variable normal con media 0 y varianza 1). Por tanto, para testar la hiptesis de cero autocorrelacin ( = 0) contra la alternativa de autocorrelacin positiva ( > 0) con un
nivel de significancia de 5 %, rechazamos la hiptesis nula y concluimos que
existe autocorrelacin si h > 1.645. (Si la alternativa es autocorrelacin negativa,
concluimos que existe autocorrelacin si h < 1.645.) La prueba h de Durbin es
asinttica en el sentido de que, en principio, slo se aplica para el caso de
muestras muy grandes (digamos, n > 30). Sin embargo, Park ha encontrado que la
prueba tambin funciona razonablemente bien incluso cuando las muestras no son
muy grandes.42
7.3. Aplicacin Inflacin en Guatemala.
En un clsico estudio sobre la inflacin chilena,43 Harberger propuso el siguiente modelo:
Pt = b0 + b1Mt + b2Mt1 + b3Qt + et
donde Pt representa la tasa de inflacin en el ao t, Mt es la tasa de crecimiento en
la masa monetaria en el ao t, Qt es el cambio porcentual en el PIB real en el ao
t, y et es el error o residuo de la regresin estimada. Se puede apreciar que la regresin incluye tambin como variable independiente el crecimiento monetario
del ao anterior, Mt1, para poder tomar en cuenta posibles retardos en el efecto
del crecimiento monetario.44 Este modelo ha sido usado para estudiar la inflacin
S.-B. Park, On the Small-Sample Power of Durbins h Test, Journal of the American
Statistical Association, 70 (1975): 60-63.
42

A. C. Harberger, The Dynamics of Inflation in Chile, en C. F. Christ, et al.,


Measurement in Economics: Studies in Mathematical Economics and Econometrics in
Memory of Yehuda Grunfeld (Stanford University Press, 1963), pp. 219-50.
43

44

Otra forma de expresar esta misma ecuacin es:


Pt = b0 + (b1 + b2)Mt b2(Mt Mt1) + b3Qt + et

donde la tasa de inflacin en un perodo determinado depende de la tasa de crecimiento


monetario en ese perodo, y del cambio en la tasa de crecimiento monetario. Esto introduce un elemento dinmico en la relacin a corto plazo entre inflacin y crecimiento
monetario. La relacin de largo plazo se da cuando Mt = Mt1 (i.e., el crecimiento monetario se mantiene constante de un perodo a otro), y la ecuacin entonces se reduce a
Pt = b0 + (b1 + b2)Mt + b3Qt + et
por lo que en el largo plazo el efecto de una determinada tasa de crecimiento monetario
est dado por (b1 + b2).

[86]

en muchos pases, con buenos resultados. Algunos economistas, sin embargo,


consideran que el modelo de Harberger no siempre capta bien el retardo en el
efecto monetario, y proponen ms bien que se incluya, en lugar del crecimiento
monetario retardado, un valor retardado de la variable dependiente, o sea, la tasa
de inflacin del ao anterior. En otras palabras, proponen que un modelo ms
adecuado sera de la forma:
Pt = b0 + b1Mt + b2Qt + b3Pt1 + et
que podra interpretarse en trminos de un modelo de ajuste parcial tipo Nerlove.
Este segundo modelo fue estimado con datos para Guatemala para el perodo
1962-95 (Cuadro 7.1). Los resultados obtenidos fueron los siguientes:
Pt = 2.0899 + 0.5922 Mt 0.8506 Qt + 0.3067 Pt1
(2.243) (0.1008) (0.3668) (0.1080)
R2 = 0.701

n = 34

Se puede apreciar que, en trminos generales, esta regresin funciona relativamente bien. En primer lugar, los regresores explican poco ms de 70 % de la variacin anual en la tasa de inflacin, y en segundo lugar, los coeficientes estimados son todos significativos (con excepcin de la constante).
Para determinar si existe autocorrelacin en este modelo, calculamos el
estadstico h. Los clculos bsicos se detallan en el Cuadro 7.2. Con estos datos
calculamos el valor del estadstico h de la siguiente manera:
d = 2028.9718 1080.991 = 1.87696

h (1 0.5 1.87696)

Var(b) = (0.108)2 = 0.01166

34
0.4617
1 34 0.01166

En este caso, puesto que h < 1.645, no rechazamos la hiptesis de cero autocorrelacin.
Dado que la constante b0 no es significativa en esta regresin, podemos
obtener estimaciones ms eficientes de los otros coeficientes por medio de una
regresin por el origen. Los resultados son los siguientes:
Pt = 0.6235 Mt 0.6324 Qt + 0.3403 Pt1
(0.0948) (0.2817) (0.1016)
R2 = 0.6925

[87]

n = 34

Cuadro 7.2.
INFLACIN, MASA MONETARIA Y PIB REAL EN GUATEMALA, 1961-1995
(cambios porcentuales anuales)
Ao

IPC

M1

PIB

1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995

-0.5
2.1
0.1
-0.2
-0.8
0.7
0.5
1.9
2.1
2.4
-0.5
0.6
14.4
15.9
13.1
10.7
12.6
7.9
11.5
10.7
11.4
0.1
4.7
3.4
18.7
36.9
12.3
10.8
13.0
41.0
35.1
10.2
13.4
12.5
8.4

-1.4
0.4
13.8
8.8
3.2
8.4
-2.9
7.8
4.4
7.0
1.8
11.7
26.1
27.0
9.5
32.3
24.7
10.5
9.8
1.6
1.3
6.3
1.0
5.2
32.8
34.7
14.8
11.9
14.0
39.8
20.3
19.3
19.7
29.5
21.3

4.3
3.5
9.5
4.6
4.4
5.5
4.1
8.8
4.7
5.7
5.6
7.3
6.8
6.4
2.0
7.4
7.8
5.0
4.7
3.7
0.7
-3.5
-2.6
0.5
-0.6
0.1
3.5
3.9
3.9
3.1
3.7
4.8
3.9
4.0
4.9

IPC = Indice de Precios al Consumidor


M1 = Efectivo fuera de bancos + Depsitos a la vista en bancos comerciales
PIB = Producto Interno Bruto real
Fuente: J. H. Cole, Inflacin en Guatemala, 1961-95, Banca Central, No. 32 (1997), p. 24.

[88]


Cuadro 7.2. ERRORES DEL MODELO DE INFLACIN EN GUATEMALA.

Y
et
et2
(et et1)2
Y

1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995

2.1
0.1
-0.2
-0.8
0.7
0.5
1.9
2.1
2.4
-0.5
0.6
14.4
15.9
13.1
10.7
12.6
7.9
11.5
10.7
11.4
0.1
4.7
3.4
18.7
36.9
12.3
10.8
13.0
41.0
35.1
10.2
13.4
12.5
8.4

-0.8036
2.8255
3.4190
0.1810
2.1406
-2.9000
-0.6229
1.2805
2.0309
-0.8713
2.6557
11.9456
17.0513
10.8910
18.9405
13.3637
7.9193
6.3184
3.4174
5.5461
12.2940
4.9242
6.1854
23.0661
28.2885
19.1945
9.5920
10.3755
27.0086
23.5388
20.2014
13.5668
20.2664
14.3691

2.9036
-2.7255
-3.6190
-0.9810
-1.4406
3.4000
2.5229
0.8195
0.3691
0.3713
-2.0557
2.4544
-1.1513
2.2090
-8.2405
-0.7637
-0.0193
5.1816
7.2826
5.8539
-12.1940
-0.2242
-2.7854
-4.3661
8.6115
-6.8945
1.2080
2.6245
13.9914
11.5612
-10.0014
-0.1668
-7.7664
-5.9691

8.4309
7.4284
13.0972
0.9624
2.0753
11.5600
6.3650
0.6716
0.1362
0.1379
4.2259
6.0241
1.3255
4.8797
67.9058
0.5832
0.0004
26.8490
53.0363
34.2681
148.6936
0.0503
7.7585
19.0628
74.1579
47.5341
1.4593
6.8880
195.7593
133.6613
100.0280
0.0278
60.3170
35.6302

31.6868
0.7983
6.9590
0.2112
23.4314
0.7693
2.9016
0.2029
0.0000
5.8903
20.3410
13.0011
11.2916
109.1921
55.9025
0.5541
27.0494
4.4142
2.0412
325.7267
143.2761
6.5597
2.4986
168.4181
240.4360
65.6505
2.0065
129.2064
5.9059
464.9457
96.7194
57.7539
3.2303
31.6868

Sumas:

1080.9910

2028.9718

[89]

Si interpretamos esta regresin en trminos de un modelo de ajuste parcial, entonces las estimaciones de los coeficientes de largo plazo para las variables explicativas seran:
Crecimiento Monetario
Crecimiento PIB Real

0.6235 (1 0.3403) = 0.945


0.6324 (1 0.3403) = 0.959

Por tanto, de acuerdo a estas estimaciones, el efecto final de un aumento en la


masa monetaria ser un aumento de aproximadamente la misma proporcin en el
nivel general de precios, mientras que el efecto final de un aumento en el PIB real
ser una reduccin de aproximadamente la misma proporcin en el nivel de precios. Estos resultados son compatibles con la teora econmica relevante.

[90]

CASOS APLICADOS
Caso L Curva de Phillips
En un trabajo sobre la Curva de Phillips en Estados Unidos,45 William Niskanen propuso el siguiente modelo para representar la relacin a corto plazo entre la
tasa anual de desempleo (U) y la tasa anual de inflacin (I):
Ut = b0 + b1It + b2 It1 + b3Ut1 + et
El cuadro adjunto muestra los datos relevantes para el perodo 1960-2001.
(1) Estime el modelo propuesto por Niskanen.
(2) Determine si existe autocorrelacin en esta regresin.
Ao

Desempleo (%)

Inflacin (%)

Ao

Desempleo (%)

Inflacin (%)

1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

5.5
6.7
5.5
5.7
5.2
4.5
3.8
3.8
3.6
3.5
4.9
5.9
5.6
4.9
5.6
8.5
7.7
7.1
6.1
5.8
7.1

1.7
1.0
1.0
1.3
1.3
1.6
2.9
3.1
4.2
5.5
5.7
4.4
3.2
6.2
11.0
9.1
5.8
6.5
7.6
11.3
13.5

1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001

7.6
9.7
9.6
7.5
7.2
7.0
6.2
5.5
5.3
5.6
6.8
7.5
6.9
6.1
5.6
5.4
4.9
4.5
4.2
4.0
4.7

10.3
6.2
3.2
4.3
3.6
1.9
3.6
4.1
4.8
5.4
4.2
3.0
3.0
2.6
2.8
3.0
2.3
1.6
2.2
3.4
2.8

Fuente: Economic Report of the President, 2006, Table B-42 y Table B-64.

William A. Niskanen, On the Death of the Phillips Curve, Cato Journal, 22 (2002):
193-98.
45

[91]

Caso M Inflacin en Guatemala


En la seccin 7.3 de este captulo se aplic un modelo monetarista con retardos
para explicar la variacin anual en la tasa de inflacin en Guatemala. Para medir
la inflacin, se utiliz el Indice de Precios al Consumidor (IPC). En el cuadro adjunto, se muestra una desagregacin del cambio en el IPC en Guatemala, en trminos de sus dos principales componentes: Alimentos y No-Alimentos.
Con estos datos, repita el anlisis de la seccin 7.3, estimando regresiones separadas para los dos componentes del IPC.
Qu conclusiones deriva usted de este ejercicio?

INDICE DE PRECIOS AL CONSUMIDOR EN GUATEMALA, 1961-1995


(cambios porcentuales anuales)

Ao
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980

Total

IPC
Alimentos

-0.5
2.1
0.1
-0.2
-0.8
0.7
0.5
1.9
2.1
2.4
-0.5
0.6
14.4
15.9
13.1
10.7
12.6
7.9
11.5
10.7

-1.1
1.9
0.3
-0.5
-0.1
-0.1
0.0
3.6
1.1
4.0
-1.9
0.1
19.3
15.9
14.6
9.6
11.0
4.6
10.3
11.2

No-Alim.

Ao

0.3
2.4
-0.2
0.2
-1.7
1.8
1.2
-0.4
3.4
0.3
1.4
1.3
7.8
15.9
11.9
11.6
13.8
10.5
12.4
10.3

1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995

Total

IPC
Alimentos

No-Alim.

11.4
0.1
4.7
3.4
18.7
36.9
12.3
10.8
13.0
41.0
35.1
10.2
13.4
12.5
8.4

11.3
-2.8
3.3
2.0
20.6
39.2
15.6
14.2
13.3
47.1
32.3
7.2
14.5
16.1
8.8

11.5
2.4
5.8
4.4
17.3
35.2
9.9
8.3
12.8
36.5
37.1
12.4
12.5
9.9
8.1

Fuente: J. H. Cole, Inflacin en Guatemala, 1961-95, Banca Central, No. 32 (1997), p. 24.

[92]

Caso N Demanda de Importaciones en Guatemala


En el cuadro adjunto se muestran datos relacionados con las importaciones en
Guatemala durante el perodo de 1965 a 2000. Para eliminar el efecto de la inflacin, los datos han sido expresados en trminos de quetzales de 1958, de modo
que estas cifras deflatadas se pueden interpretar como las importaciones
reales en el sentido de que reflejan cambios en la demanda fsica de bienes importados. Como una primera aproximacin, podemos expresar la demanda de
importaciones como funcin del costo relativo de los productos importados
(comparado con el costo de bienes producidos domsticamente) y del nivel de ingreso real.
Para medir la primera de estas variables explicativas, tomamos la razn entre el
Deflactor de Importaciones y el Deflactor del Producto Interno Bruto (PIB) total,
y para medir la segunda variable explicativa tomamos el PIB real (a precios de
1958). Puesto que lo que nos interesa saber es la elasticidad de la demanda de
importaciones respecto de cada una de estas variables, estimamos el siguiente
modelo doble-log:
ln(Imp)t = b0 + b1ln(Pm)t + b2ln(PIB)t + b3ln(Imp)t1 + et
donde Imp son las importaciones reales, Pm es el precio relativo de las importaciones, y PIB es el Producto Interno Bruto real. Para tomar en cuenta posibles retardos en el efecto de estas variables, se agrega tambin el valor retardado
de la variable dependiente como una tercera variable explicativa.46
(a) Con estos datos estime el modelo propuesto, y utilice los resultados para calcular la elasticidad-precio y la elasticidad-ingreso de la demanda de importaciones, tanto en el corto plazo como en el largo plazo.
(b) Determine si en este modelo existen problemas de autocorrelacin.

46

Para una justificacin de esta forma funcional y su interpretacin en trminos de un


modelo de ajuste parcial, vase M. S. Khan, Import and Export Demand in Developing
Countries, IMF Staff Papers, 21 (1974): 678-93.

[93]

IMPORTACIONES EN GUATEMALA, 1965-2000.


Ao
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

Importaciones
Reales 1/
247.0
251.0
267.0
277.7
271.8
293.2
312.0
294.7
324.2
416.4
352.1
457.1
498.1
521.6
482.8
441.2
424.6
334.3
269.2
287.2
250.3
213.6
315.9
327.7
346.9
344.3
369.2
506.0
527.3
553.5
595.5
554.7
662.8
825.2
831.1
882.2

1/ Millones de quetzales de 1958

Precio
Relativo 2/
1.076
1.090
1.088
1.074
1.087
1.087
1.134
1.277
1.352
1.598
1.573
1.524
1.431
1.495
1.603
1.755
1.738
1.687
1.589
1.589
2.358
2.009
2.149
2.117
2.130
2.336
2.055
1.992
1.894
1.790
1.785
1.752
1.599
1.500
1.612
1.679

PIB Real 1/
1355.2
1429.9
1488.6
1619.2
1695.9
1792.8
1892.8
2031.6
2169.4
2307.7
2352.7
2526.5
2723.8
2859.9
2994.6
3106.9
3127.6
3016.6
2939.6
2953.5
2936.1
2940.2
3044.4
3162.9
3287.6
3389.6
3513.6
3683.6
3828.3
3982.7
4179.8
4303.4
4491.2
4715.5
4896.9
5072.5

Deflactor de Importacin
2/ Precio Relativo =
Deflactor del PIB

Fuente: Banco de Guatemala, Seccin Cuentas Nacionales.

[94]

ANEXOS

A-1.
p.
A-2.
p.
A-3.
p.
A-4.
p

Areas de la Distribucin Normal Estndar .... 96


Percentiles de la Distribucin t (Student) .. 97
Valores Crticos de la Distribucin Chi-cuadrado 98
Estadstico Durbin-Watson: Valores Crticos (5 %) para dL y dU .. 99

[95]

A-1. Areas de la Distribucin Normal Estndar.

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

0.0

0.0000

0.0040

0.0080

0.0120

0.0160

0.0199

0.0239

0.0279

0.0319

0.0359

0.1

0.0398

0.0438

0.0478

0.0517

0.0557

0.0596

0.0636

0.0675

0.0714

0.0753

0.2

0.0793

0.0832

0.0871

0.0910

0.0948

0.0987

0.1026

0.1064

0.1103

0.1141

0.3

0.1179

0.1217

0.1255

0.1293

0.1331

0.1368

0.1406

0.1443

0.1480

0.1517

0.4

0.1554

0.1591

0.1628

0.1664

0.1700

0.1736

0.1772

0.1808

0.1844

0.1879

0.5

0.1915

0.1950

0.1985

0.2019

0.2054

0.2088

0.2123

0.2157

0.2190

0.2224

0.6

0.2257

0.2291

0.2324

0.2357

0.2389

0.2422

0.2454

0.2486

0.2517

0.2549

0.7

0.2580

0.2611

0.2642

0.2673

0.2704

0.2734

0.2764

0.2794

0.2823

0.2852

0.8

0.2881

0.2910

0.2939

0.2967

0.2995

0.3023

0.3051

0.3078

0.3106

0.3133

0.9

0.3159

0.3186

0.3212

0.3238

0.3264

0.3289

0.3315

0.3340

0.3365

0.3389

1.0

0.3413

0.3438

0.3461

0.3485

0.3508

0.3531

0.3554

0.3577

0.3599

0.3621

1.1

0.3643

0.3665

0.3686

0.3708

0.3729

0.3749

0.3770

0.3790

0.3810

0.3830

1.2

0.3849

0.3869

0.3888

0.3907

0.3925

0.3944

0.3962

0.3980

0.3997

0.4015

1.3

0.4032

0.4049

0.4066

0.4082

0.4099

0.4115

0.4131

0.4147

0.4162

0.4177

1.4

0.4192

0.4207

0.4222

0.4236

0.4251

0.4265

0.4279

0.4292

0.4306

0.4319

1.5

0.4332

0.4345

0.4357

0.4370

0.4382

0.4394

0.4406

0.4418

0.4429

0.4441

1.6

0.4452

0.4463

0.4474

0.4484

0.4495

0.4505

0.4515

0.4525

0.4535

0.4545

1.7

0.4554

0.4564

0.4573

0.4582

0.4591

0.4599

0.4608

0.4616

0.4625

0.4633

1.8

0.4641

0.4649

0.4656

0.4664

0.4671

0.4678

0.4686

0.4693

0.4699

0.4706

1.9

0.4713

0.4719

0.4726

0.4732

0.4738

0.4744

0.4750

0.4756

0.4761

0.4767

2.0

0.4772

0.4778

0.4783

0.4788

0.4793

0.4798

0.4803

0.4808

0.4812

0.4817

2.1

0.4821

0.4826

0.4830

0.4834

0.4838

0.4842

0.4846

0.4850

0.4854

0.4857

2.2

0.4861

0.4864

0.4868

0.4871

0.4875

0.4878

0.4881

0.4884

0.4887

0.4890

2.3

0.4893

0.4896

0.4898

0.4901

0.4904

0.4906

0.4909

0.4911

0.4913

0.4916

2.4

0.4918

0.4920

0.4922

0.4925

0.4927

0.4929

0.4931

0.4932

0.4934

0.4936

2.5

0.4938

0.4940

0.4941

0.4943

0.4945

0.4946

0.4948

0.4949

0.4951

0.4952

2.6

0.4953

0.4955

0.4956

0.4957

0.4959

0.4960

0.4961

0.4962

0.4963

0.4964

2.7

0.4965

0.4966

0.4967

0.4968

0.4969

0.4970

0.4971

0.4972

0.4973

0.4974

2.8

0.4974

0.4975

0.4976

0.4977

0.4977

0.4978

0.4979

0.4979

0.4980

0.4981

2.9

0.4981

0.4982

0.4982

0.4983

0.4984

0.4984

0.4985

0.4985

0.4986

0.4986

3.0

0.4987

0.4987

0.4987

0.4988

0.4988

0.4989

0.4989

0.4989

0.4990

0.4990

Fuente: Hoel (1971)

[96]

A-2. Percentiles de la Distribucin t (Student).

1
0.90

0.95

0.975

0.99

0.995

1
2
3
4
5

3.078
1.886
1.638
1.533
1.476

6.314
2.920
2.353
2.132
2.015

12.706
4.303
3.182
2.776
2.571

31.821
6.965
4.541
3.747
3.365

63.657
9.925
5.841
4.604
4.032

6
7
8
9
10

1.440
1.415
1.397
1.383
1.372

1.943
1.895
1.860
1.833
1.812

2.447
2.365
2.306
2.262
2.228

3.143
2.998
2.896
2.821
2.764

3.707
3.499
3.355
3.250
3.169

11
12
13
14
15

1.363
1.356
1.350
1.345
1.341

1.796
1.782
1.771
1.761
1.753

2.201
2.179
2.160
2.145
2.131

2.718
2.681
2.650
2.624
2.602

3.106
3.055
3.012
2.977
2.947

16
17
18
19
20

1.337
1.333
1.330
1.328
1.325

1.746
1.740
1.734
1.729
1.725

2.120
2.110
2.101
2.093
2.086

2.583
2.567
2.552
2.539
2.528

2.921
2.898
2.878
2.861
2.845

21
22
23
24
25

1.323
1.321
1.319
1.318
1.316

1.721
1.717
1.714
1.711
1.708

2.080
2.074
2.069
2.064
2.060

2.518
2.508
2.500
2.492
2.485

2.831
2.819
2.807
2.797
2.787

26
27
28
29
30

1.315
1.314
1.313
1.311
1.310

1.706
1.703
1.701
1.699
1.697

2.056
2.052
2.048
2.045
2.042

2.479
2.473
2.467
2.462
2.457

2.779
2.771
2.763
2.756
2.750

40
60
80
100
120

1.303
1.296
1.292
1.290
1.289
1.282

1.684
1.671
1.664
1.660
1.658
1.645

2.021
2.000
1.990
1.984
1.980
1.960

2.423
2.390
2.374
2.364
2.358
2.326

2.704
2.660
2.639
2.626
2.617
2.576

Fuente: Hoel (1971)

[97]

A-3. Valores Crticos de la Distribucin Chi-cuadrado.


Area en la cola derecha

Grados
de libertad

0.99

0.98

0.95

0.90

0.80

0.50

0.20

0.10

0.05

0.02

0.01

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0.000157
0.0201
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953

0.000628
0.0404
0.185
0.429
0.752
1.134
1.564
2.032
2.532
3.059
3.609
4.178
4.765
5.368
5.985
6.614
7.255
7.906
8.567
9.237
9.915
10.600
11.293
11.992
12.697
13.409
14.125
14.847
15.574
16.306

0.00393
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493

0.0158
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
5.578
6.304
7.042
7.790
8.547
9.312
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599

0.0642
0.446
1.005
1.649
2.343
3.070
3.822
4.594
5.380
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364

0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336

1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.030
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250

2.706
4.605
6.251
7.779
9.236
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256

3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773

5.412
7.824
9.837
11.668
13.388
15.033
16.622
18.168
19.679
21.161
22.618
24.054
25.472
26.873
28.259
29.633
30.995
32.346
33.687
35.020
36.343
37.659
38.968
40.270
41.566
42.856
44.140
45.419
46.693
47.962

6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892

Fuente: Hoel (1971)

A-4. Estadstico Durbin-Watson: Valores crticos (5 %) para dL y dU.

k=1
dL
dU

k=2
dL
dU

k=3
dL
dU

k=4
dL
dU

k=5
dL
dU

k=6
dL
dU

12

0.971

1.331

0.812

1.579

0.658

1.864

0.512

2.177

0.380

2.506

0.268

2.832

13

1.010

1.340

0.861

1.562

0.715

1.816

0.574

2.094

0.444

2.390

0.328

2.692

14

1.045

1.350

0.905

1.551

0.767

1.779

0.632

2.030

0.505

2.296

0.389

2.572

15

1.077

1.361

0.946

1.543

0.814

1.750

0.685

1.977

0.562

2.220

0.447

2.471

16

1.106

1.371

0.982

1.539

0.857

1.728

0.734

1.935

0.615

2.157

0.502

2.388

17

1.133

1.381

1.015

1.536

0.897

1.710

0.779

1.900

0.664

2.104

0.554

2.318

18

1.158

1.391

1.046

1.535

0.933

1.696

0.820

1.872

0.710

2.060

0.603

2.258

19

1.180

1.401

1.074

1.536

0.967

1.685

0.859

1.848

0.752

2.023

0.649

2.206

20

1.201

1.411

1.100

1.537

0.998

1.676

0.894

1.828

0.792

1.991

0.691

2.162

21

1.221

1.420

1.125

1.538

1.026

1.669

0.927

1.812

0.829

1.964

0.731

2.124

22

1.239

1.429

1.147

1.541

1.053

1.664

0.958

1.797

0.863

1.940

0.769

2.090

23

1.257

1.437

1.168

1.543

1.078

1.660

0.986

1.785

0.895

1.920

0.804

2.061

24

1.273

1.446

1.188

1.546

1.101

1.656

1.013

1.775

0.925

1.902

0.837

2.035

25

1.288

1.454

1.206

1.550

1.123

1.654

1.038

1.767

0.953

1.886

0.868

2.013

26

1.302

1.461

1.224

1.553

1.143

1.652

1.062

1.759

0.979

1.873

0.897

1.992

27

1.316

1.469

1.240

1.556

1.162

1.651

1.084

1.753

1.004

1.861

0.925

1.974

28

1.328

1.476

1.255

1.560

1.181

1.650

1.104

1.747

1.028

1.850

0.951

1.959

29

1.341

1.483

1.270

1.563

1.198

1.650

1.124

1.743

1.050

1.841

0.975

1.944

30

1.352

1.489

1.284

1.567

1.214

1.650

1.143

1.739

1.071

1.833

0.998

1.931

31

1.363

1.496

1.297

1.570

1.229

1.650

1.160

1.735

1.090

1.825

1.020

1.920

32

1.373

1.502

1.309

1.574

1.244

1.650

1.177

1.732

1.109

1.819

1.041

1.909

33

1.383

1.508

1.321

1.577

1.258

1.651

1.193

1.730

1.127

1.813

1.061

1.900

34

1.393

1.514

1.333

1.580

1.271

1.652

1.208

1.728

1.144

1.808

1.079

1.891

35

1.402

1.519

1.343

1.584

1.283

1.653

1.222

1.726

1.160

1.803

1.097

1.884

36

1.411

1.525

1.354

1.587

1.295

1.654

1.236

1.724

1.175

1.799

1.114

1.876

37

1.419

1.530

1.364

1.590

1.307

1.655

1.249

1.723

1.190

1.795

1.131

1.870

38

1.427

1.535

1.373

1.594

1.318

1.656

1.261

1.722

1.204

1.792

1.146

1.864

39

1.435

1.540

1.382

1.597

1.328

1.658

1.273

1.722

1.218

1.789

1.161

1.859

40

1.442

1.544

1.391

1.600

1.338

1.659

1.285

1.721

1.230

1.786

1.175

1.854

45

1.475

1.566

1.430

1.615

1.383

1.666

1.336

1.720

1.287

1.776

1.238

1.835

50

1.503

1.585

1.462

1.628

1.421

1.674

1.378

1.721

1.335

1.771

1.291

1.822

55

1.528

1.601

1.490

1.641

1.452

1.681

1.414

1.724

1.374

1.768

1.334

1.814

60

1.549

1.616

1.514

1.652

1.480

1.689

1.444

1.727

1.408

1.767

1.372

1.808

65

1.567

1.629

1.536

1.662

1.503

1.696

1.471

1.731

1.438

1.767

1.404

1.805

70

1.583

1.641

1.554

1.672

1.525

1.703

1.494

1.735

1.464

1.768

1.433

1.802

75

1.598

1.652

1.571

1.680

1.543

1.709

1.515

1.739

1.487

1.770

1.458

1.801

80

1.611

1.662

1.586

1.688

1.560

1.715

1.534

1.743

1.507

1.772

1.480

1.801

90

1.635

1.679

1.612

1.703

1.589

1.726

1.566

1.751

1.542

1.776

1.518

1.801

100

1.654

1.694

1.634

1.715

1.613

1.736

1.592

1.758

1.571

1.780

1.550

1.803

150

1.720

1.746

1.706

1.760

1.693

1.774

1.679

1.788

1.665

1.802

1.651

1.817

200

1.758

1.778

1.748

1.789

1.738

1.799

1.728

1.810

1.718

1.820

1.707

1.831

Fuente: Savin y White (1977)

[99]

REFERENCIAS
A. Textos de Econometra.
Doti, James L. y Esmael Adibi. The Practice of Econometrics with EViews. Irvine, CA:
Quantitative Micro Software, 1998.
Edwards, A. L. Multiple Regression and the Analysis of Variance and Covariance. San
Francisco: W. H. Freeman & Co., 1979.
Goldberger, Arthur S. Teora Economtrica. Madrid: Editorial Tecnos, 1970. Versin
original: Econometric Theory [1964].
Goldberger, Arthur S. Topics in Regression Analysis. New York: Macmillan, 1968.
Greene, William H. Econometric Analysis, 5 ed. Upper Saddle River, NJ: Prentice Hall,
2003.
Gujarati, Damodar N. Econometra, 2 ed. Mxico: McGraw-Hill, 1992. Versin original: Basic Econometrics [1988].
Hernndez Alonso, Jos. Ejercicios de Econometra, 2 ed. Madrid: ESIC Editorial,
1992.
Hill, R. Carter, William E. Griffiths y George G. Judge. Undergraduate Econometrics,
2 ed. New York: John Wiley & Sons, 2001.
Johnston, J. Econometric Methods, 2a ed. Nueva York: McGraw-Hill, 1972.
Klein, Lawrence R. An Introduction to Econometrics. London: Prentice-Hall International, 1962.
Maddala, G. S. Econometra. Madrid: McGraw-Hill, 1985. Versin original: Econometrics [1977].
Martn, Guillermina, Jos M. Labeaga y Francisco Mochn M. Introduccin a la Econometra. Madrid: Prentice-Hall, 1997.
Neter, John y William Wasserman. Applied Linear Statistical Models. Homewood, Ill.:
R. D. Irwin, 1974.
Novales, Alfonso. Econometra, 2 ed. Madrid: McGraw-Hill, 1993.
Rao, Potluri y R. L. Miller. Applied Econometrics. Belmont, CA: Wadsworth Pub. Co.,
1971.
Studenmund, A. H. y Henry J. Cassidy. Using Econometrics: A Practical Guide. Boston: Little, Brown and Co., 1987.
Theil, Henri. Principles of Econometrics. New York: John Wiley & Sons, 1971.

[100]

Tirado de Alonso, Irma y M. Dutta. Mtodos Economtricos. Cincinnati, OH: SouthWestern Publishing Co., 1982.
Walters, A. A. Introduccin a la Econometra. Barcelona: Oikos-Tau, 1977. Versin
original: An Introduction to Econometrics [1968].
Wonnacott, Ronald J. y Thomas H. Wonnacott. Econometrics. New York: John Wiley &
Sons, 1970.
Wooldridge, Jeffrey M. Introduccin a la Econometra: Un Enfoque Moderno, 4 ed.
Mxico: Cengage Learning, 2009. Versin original: Introductory Econometrics: A
Modern Approach [2006].

B. Otras Referencias.
Alcaide, ngel (ed). Lecturas de Econometra. Madrid: Gredos, 1972.
Allen, R. G. D. Anlisis Matemtico para Economistas. Madrid: Aguilar, 1946. Versin
original: Mathematical Analysis for Economists [1938].
Barro, Robert J. Economic Growth and Convergence. Occasional Papers No. 46. San
Francisco: International Center for Economic Growth, 1994.
Benston, George J. Multiple Regression Analysis of Cost Behavior, Accounting Review, 41 (1966): 657-72. (University of Rochester, Graduate School of Management, Systems Analysis Reprint Series No. S-6.)
Bishop, C. E. y W. D. Toussaint. Introduccin al Anlisis de Economa Agrcola. Mxico: Limusa-Wiley, 1966. Versin original: Introduction to Agricultural Economic
Analysis [1958].
Cochrane, D. y G. H. Orcutt. Application of Least Squares Regression to Relationships
Containing Autocorrelated Errors, Journal of the American Statistical Association,
44 (1949): 32-61.
Cole, Julio H. Inflacin en Guatemala, 1961-95, Banca Central, No. 32 (1997): 21-25.
Crespo Cuaresma, Jess. Okuns Law Revisited, Oxford Bulletin of Economics and
Statistics, 65 (2003): 439-51.
Dillon, John J. The Analysis of Response in Crop and Livestock Production, 2 ed. Oxford: Pergamon Press, 1977.
Durbin, J. y G. S. Watson. Testing for Serial Correlation in Least Squares Regression,
Biometrika, 37 (1950): 409-28, 38 (1951): 159-78.
Durbin, J. The Fitting of Time-Series Models, Review of the International Statistical
Institute, 28 (1960): 233-43.
Durbin, J. Testing for Serial Correlation in Least-Squares Regression When Some of
the Regressors are Lagged Dependent Variables, Econometrica, 38 (1970): 410-21.

[101]

Esquivel, Gerardo. Convergencia Regional en Mxico, 1940-1995, El Trimestre Econmico, 66 (1999): 725-61.
Farebrother, R. W. The Durbin-Watson Test for Serial Correlation When There is No
Intercept in the Regression, Econometrica, 48 (1980): 1553-63.
Friedman, Milton. Money: Quantity Theory, International Encyclopedia of the Social
Sciences (1968), vol. 10, pp. 432-47.
Goldberger, Arthur S. Review of Distributed Lags and Demand Analysis for Agricultural and Other Commodities by Marc Nerlove, American Economic Review, 48
(1958): 1011-13.
Goldberger, Arthur S. Dependency Rates and Savings Rates: Further Comment, American Economic Review, 63 (1973): 232-33.
Griliches, Z., et al., Notes on Estimated Aggregate Quarterly Consumption Functions,
Econometrica, 30 (1962): 491-500.
Gupta, Kanhaya L. Dependency Rates and Savings Rates: Comment, American Economic Review, 61 (1971): 469-71.
Halvorsen, Robert y Raymond Palmquist. The Interpretation of Dummy Variables in
Semilogarithmic Equations, American Economic Review, 70 (1980): 474-75.
Harberger, Arnold C. The Dynamics of Inflation in Chile, en C. F. Christ, et al.,
Measurement in Economics: Studies in Mathematical Economics and Econometrics
in Memory of Yehuda Grunfeld, pp. 219-50. Stanford, CA: Stanford University
Press, 1963.
Henderson, Harold V. y Paul F. Velleman. Building Multiple Regression Models Interactively, Biometrics, 37 (1981): 391-411.
Hoel, Paul G. Introduction to Mathematical Statistics, 4 ed. Nueva York: John Wiley &
Sons, 1971.
Johnston, J. Anlisis Estadstico de los Costes. Barcelona: Sagitario, S. A., 1966. Versin original: Statistical Cost Analysis [1960].
Khan, M. S. Import and Export Demand in Developing Countries, IMF Staff Papers,
21 (1974): 678-93.
Krugman, Paul. How Fast Can the U.S. Economy Grow? Harvard Business Review,
75 (July-Aug 1997): 123-29.
Lebergott, Stanley. Annual Estimates of Unemployment in the United States, 19001950, en The Measurement and Behavior of Unemployment, pp. 213-41. Princeton:
Princeton University Press, 1957.
Marquardt, Donald W. Generalized Inverses, Ridge Regression, Biased Linear Estimation, and Nonlinear Estimation, Technometrics, 12 (1970): 591-612.

[102]

Merrington, Maxine. Percentage Points of the t-Distribution, Biometrika, 32 (1941):


300.
Nerlove, Marc. Distributed Lags, International Encyclopedia of the Social Sciences
(1968), vol. 4, pp. 214-17.
Nerlove, Marc y K. F. Wallis. Use of the Durbin-Watson Statistic in Inappropriate
Situations, Econometrica, 34 (1966): 235-38.
Niskanen, William A. On the Death of the Phillips Curve, Cato Journal, 22 (2002):
193-98.
Okun, Arthur M. Potential GNP: Its Measurement and Significance. Proceedings
(Business and Economics Section), American Statistical Association, 1962, pp. 98104.
Park, Soo-Bin. On the Small-Sample Power of Durbins h Test, Journal of the American Statistical Association, 70 (1975): 60-63.
Riew, John. Economies of Scale in High School Operation, Review of Economics and
Statistics, 48 (1966): 280-87.
Sala-i-Martin, Xavier. The Classical Approach to Convergence Analysis, Economic
Journal, 106 (1996): 1019-36.
Savin, N. E. y K. J. White. The Durbin-Watson Test for Serial Correlation with Extreme Sample Sizes or Many Regressors, Econometrica, 45 (1977): 1989-96.
Solow, Robert M. A Contribution to the Theory of Economic Growth, Quarterly
Journal of Economics, 70 (1956): 65-94.
Suits, Daniel B. The Demand for New Automobiles in the United States, Review of
Economics and Statistics, 40 (1958): 273-80.
Tobin, James. A Statistical Demand Function for Food in the U.S.A., Journal of the
Royal Statistical Society, Series A, 113 (1950): 113-41.
Vogel, Robert C. The Dynamics of Inflation in Latin America, 1950-1969, American
Economic Review, 64 (1974): 102-14.
White, Halbert. A Heteroskedasticity-Consistent Covariance Matrix Estimator and a
Direct Test for Heteroskedasticity, Econometrica, 48 (1980): 81738.

[103]

Das könnte Ihnen auch gefallen