Beruflich Dokumente
Kultur Dokumente
3.1. INTRODUCCIN
En la investigacin aplicada buscamos darle contenido emprico a las relaciones que nos
sugiere la teora y la intuicin. En muchos casos lo que buscamos es determinar cules son las
principales variables que explican a otra variable a la cual le hemos dado el nombre de variable
dependiente. En el Captulo precedente se ha limitado el anlisis de regresin al estudio de las
relaciones existentes entre una variable endgena o explicada (Y) y una variable exgena o
explicativa (X). Para tal fin, realizamos la estimacin de los parmetros desconocidos del
modelo de regresin bivariado y posteriormente demostramos sus propiedades por lo que
concluimos que el estimador MCO es MELI. En el presente Captulo, Vamos a generalizar el
anlisis previo incluyendo ms de una variable explicativa (aparte del intercepto) utilizaremos el
mismo criterio de minimizacin (MCO) y presentaremos el modelo de regresin lineal de k
variables (Y y X1, X2,..., Xk) en notacin matricial. Este modelo es conocido como el modelo de
regresin lineal general, pues en l se generaliza el modelo de regresin bivariado estudiado en
el Captulo 2.
Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se
estudiarn a continuacin debe recordar algunos conceptos de lgebra matricial. En este modelo
la funcin de regresin poblacional, definida en el Captulo 1, est compuesta por la variable
endgena (Y) y k variables exgenas (X). Formalmente:
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i
i = 1,2,......n
(3.1)
La ecuacin (3.1) indica que el vector Y observado es la suma del vector de errores ( ) y de
una combinacin lineal de las columnas de X. Ntese que ahora se tienen k pendientes
Econometra Moderna
Y1 = 1 + 2 X 21 + 3 X 31 + ... + k X k1 + 1
Y2 = 1 + 2 X 22 + 3 X 32 + ... + k X k 2 + 2
..........................................................................
Yn = 1 + 2 X 2 n + 3 X 3n + ... + k X kn + n
En trminos matriciales:
Y1
Y
2 =
.
Yn
(nx1)
1 X 2 ,1
1 ...
1 ...
1 X 2 ,n
... X k,1
...
...
.
...
...
... X k ,n
1
1
2 + .
.
.
n
k
(nxk)
(kx1)
(nx1)
Y = X +
y en forma compacta:
(3.2)
(3.3)
ee = [e1 e2
e1
e
..... en ]. 2 = e12 + e22 + ... + en2 = ei2
.
e n
52
Econometra Moderna
)' ( Y - X
-
' X'Y +
' X'X
) = Y'Y - Y'X
( Y - X
'X'Y +
'X'X
= Y'Y - 2
y
' X'Y son escalares y por tanto son iguales(uno es el
en la expresin anterior Y'X
transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la
. De modo que:
suma de residuos al cuadrado define una funcin del vector de coeficientes
)
e e = f (
son las variables de la ecuacin, por lo que se debe minimizar
donde los elementos del vector
. Para tal fin, es preciso hacer una digresin acerca del lgebra
la misma con respecto a
matricial utilizada para obtener los resultados que a continuacin se detallan:
'X'X
'X'Y +
)
Min (Y'Y - 2
' X' Y +
' X ' X
e' e = Y ' Y 2
e' e
=0
= 2 X ' Y + 2 X ' X
X ' Y = X ' X
(3.4)
Digresin:
!
Se define f (b ) como una funcin de k elementos distintos de bi entonces debemos calcular k
derivadas parciales de dicha funcin con respecto a cada bi. En este sentido, se obtiene el vector
gradiente (primeras derivadas parciales) como definicin general en formas lineales:
!
!
f (b )
f (b ) !
b
!
f (b )
b1
= "!
f (b )
bn
(3.5)
53
Econometra Moderna
[b1
b2
A11
A
... bk ] 12
"
A1k
A12
A22
"
A2k
# A1k b1
# A2 k b2
$ " "
# Akk bk
2 b A + 2b A + # + 2 b A
g (b) g
2 22
k 2k
b 2 = 1 12
=
"
b
"
g
2b1A1k + 2b 2 A 2k + # + 2b k A kk
b k
54
Econometra Moderna
A11
"
= 2
"
A1k
A12
$
A2k
# A1k
b1
"
" = 2 Ab
$ "
b
# Akk k
X +
X X + ... +
X2 =X Y
1
2
ki
ki 2i
k
ki
ki i
o en trminos matriciales,
n
X
2i
...
X ki
X 2i
2
X 2i
...
X ki X 2i
1
...
X ki
1
... X 2i X ki 2 X 21
=
.
... ...
...
...
2
...
X ki
k X k1
1
X 22
...
X k2
1
1 Y1
... X 2n Y2
.
... ... ..
... X kn Yn
= ( X 'Y )
( X X )
En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la
expresin anterior por ( X ' X )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el
estimador es una funcin de los datos, para ello basta con reemplazarlos en la siguiente
expresin:
= ( X ' X )1 X ' Y
(3.6)
Ntese que en este modelo tambin se verifica que las variables explicativas y el trmino de
error son ortogonales entre s (Cov (X, ) = 0). Para tal fin debemos reordenar la expresin
compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del lgebra
matricial:
X ' (Y X ) = 0
En los casos en que la matriz (X ' X ) no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,
esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Seccin (1.2).
55
Econometra Moderna
X 1e 0
X e
2 0
=0
=
X 'e =
.. ..
X k e 0
(3.7)
ei = 0
i =1
e =0
por lo que, los residuos de la regresin estimada por MCO tienen media igual a cero, siempre
que el investigador incluya un trmino independiente en el modelo2. Por otro lado, los dems
elementos de la matriz muestran que, al igual que en el modelo de regresin lineal simple, el
supuesto de ortogonalidad entre los errores y las variables independientes se cumple.
Y1 1 X 21
e1
Y 1 X e
22 1
2
2 =
+
.. ..
..
.. 2
Yn 1 X 2 n
e n
y, por el resultado obtenido en (3.4)
( X X ). = ( X Y )
nX
2i
i
=1
n
n
X 2i Yi
i =1
1 = i =1
n
n
2
X 2i Yi
X 2i
i =1
t =1
Ahora, veamos la Tabla (2.1) y reemplacemos en la expresin matricial anterior los valores
correspondientes. As, las matrices que resultan de la aplicacin de este procedimiento son las
siguientes:
2
Ntese que la presencia de un trmino independiente en el modelo implica que la primera fila de X es un vector de
unos.
56
Econometra Moderna
10 20
(XX) =
20 46
80
(XY) =
166
- 0,33333333 0,16666666
Si aplicamos la frmula del estimador MCO en trminos matriciales (3.6), obtenemos:
0,76666666 - 0,33333333 80 6
= 1 =
=
De all que reciban el nombre de propiedades asintticas. Estas propiedades sern analizadas en profundidad en el
captulo X, dedicado a esta tpico.
57
Econometra Moderna
Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor
del parmetro, sino que proviene de una distribucin cuya media es igual a dicho valor ( ).
Segunda propiedad: Eficiencia
El estimador debe tener la menor varianza posible con el fin de lograr mayor precisin en sus
aproximaciones. Por lo tanto, un estimador eficiente es aqul que cumple con la primera
propiedad y adems es el que posee la mnima varianza entre todos los dems estimadores
insesgados posibles. As, y como se demostr en la ilustracin del teorema de Gauss-Markov, el
estimador MCO cumple con esta propiedad. Grficamente: (Figura 2.3):
58
Econometra Moderna
= + ( X ' X ) 1 X '
(3.8)
(3.9)
De esta manera se verifica que el estimador MCO, para el modelo de regresin general, es
insesgado. Un resultado fundamental para la comprobacin de esta propiedad es que las X son
fijas o que no estn correlacionadas con el error. La ortogonalidad entre los regresores y el
trminos de error es necesaria para comprobar el insesgamiento.
2. Matriz varianza-covarianza (Eficiencia)
59
Econometra Moderna
Recordemos que por el segundo y tercer supuesto del modelo de regresin lineal4
verificamos que: E (' ) = 2 I n . Por consiguiente, la expresin anterior resulta:
Var ( ) = ( X ' X ) 1 X ' 2 I n X ( X ' X ) 1
Var ( ) = 2 ( X ' X ) 1
(3.10)
Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el
estimador de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que
cuando el investigador dispone de varias muestras el mtodo de estimacin de MCO arroja
estimadores que en promedio son idnticos a los verdaderos valores de los parmetros
desconocidos. Sin embargo, en la mayora de los casos cuando corremos una regresin
solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia
entre el estimador y su valor esperado poblacional, es decir tenemos una aproximacin de la
misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras
palabras, de la matriz de varianzas y covarianzas del estimador MCO.
Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende
de la varianza del error. Esto es, si la distribucin poblacional del error presenta una alta
dispersin, la varianza del estimador se comportar de igual forma (existe una relacin directa
entre los dos). Por otro lado, el anlisis del segundo componente es un poco ms complicado,
dado que los elementos de la matriz (XX) estn relacionados directamente con las varianzas y
covarianzas muestrales de las X5. Si analizamos las implicancias de la relacin matemtica
notaremos que a mayor dispersin de las variables independientes, la matriz (XX) es mayor6 y
por tanto su inversa es menor, de modo que la varianza del coeficiente de regresin ser menor.
Es decir, a mayor varianza de las X ganamos precisin en las estimaciones del modelo. Esta
ltima idea la podemos entender de manera utilizando un grfico. En l, ilustraremos el caso de
una regresin bivariada, en el eje de las abcisas tenemos los valores de la variable independiente
y en el eje de las ordenadas, los valores de la variable dependiente:
4
5
Var ( x) =
(x
x)2
n 1
2
i
2x
+ nx 2
n 1
Como vemos, si el primer trmino del desarrollo de la sumatoria es mayor, la varianza de la variable x ser mayor.
Ese trmino es precisamente uno de los trminos de la diagonal principal de la matriz XX. De igual manera ocurre
con los elementos fuera de esta diagonal principal que sern los elementos correspondientes de la covarianzas
muestrales de las variables explicativas incluidas en el modelo.
6
Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la
sumatoria de las variables elevadas al cuadrado tendern a ser mayores, como estos son los elementos de la diagonal
principal, sabemos que a mayor la traza de una matriz cuadrada, mayor ser su magnitud.
60
Econometra Moderna
Figura 3.1
La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la
lnea de regresin que muestra dicha caracterstica es LR1. Basta introducir una nueva
observacin (a) para que la lnea de regresin presente un cambio brusco de pendiente (LR2),
por lo que los estimadores MCO pierden precisin en la medida que son muy sensibles.
Figura 3.2
61
Econometra Moderna
Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrtico
medio ser idntico a su varianza, por tanto se deber comparar dicha medida de dispersin con
el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicacin de este criterio es
general y puede aplicarse a cualquier par o ms de estimadores.
Hasta aqu hemos hablado de cmo estimar la varianza y la interpretacin de la misma. Sin
embargo, la estimacin de la varianza es un paso previo a la comprobacin de que sta es la
mnima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el captulo anterior el
teorema de Gauss-Markov en su forma matricial.
Teorema de Gauss-Markov
Aqu extenderemos los resultados encontrados en el captulo 2 a todo un vector de
coeficientes . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una
funcin lineal de la variable endgena (Y). Demostracin:
~ ~
~
Sea = A Y donde A es una matriz de orden (kxT)
Definimos otra matriz A (kxT) a la diferencia:
~
A = A ( X X ) 1 X '
Segn lo anterior:
~
= [ A + ( X ' X ) 1 X ][ X + ]
~
= AX + + [ A + ( X X ) 1 X ' ]
(3.11)
(3.12)
~
De modo que ser insesgado s y solo s suponemos que AX=0. De esta manera, resulta
til reexpresar la ecuacin (3.11) para el clculo de la varianza del estimador:
~
= + [ A + ( X X ) 1 X ' ]
(3.13)
~
Var ( ) = AA' 2 + ( X ' X ) 1 2 + ( X ' X ) 1 X ' A' 2 + AX ( X ' X ) 1 2
= AA' 2 + ( X ' X ) 1 2
matriz
definida positiva
varianza del
estimador MCO
62
Econometra Moderna
La expresin anterior indica que la matriz de covarianzas del estimador alternativo es igual a
la del estimador MCO ms una matriz definida positiva. En este sentido, se verifica que la
varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor
que la varianza del estimador MCO.
3.6 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MATRICIAL DE MNIMOS CUADRADOS
ORDINARIOS
1.El vector de residuos de Mnimos Cuadrados es una transformacin lineal del vector de
errores del modelo terico. Recordemos que:
e = Y X
= [ I n X ( X ' X ) 1 X ' ]Y
= [ I n X ( X ' X ) 1 X ' ][ X + ]
= M x [ X + ]
e = M x = M xY
(3.14)
= I n X ( X ' X ) 1 X '
= Mx
ii) Ortogonal a la matriz X
M x X = [ I n X ( X ' X ) 1 X ' ] X
= X X ( X ' X ) 1 X ' X = 0
Si utilizamos esta ltima propiedad obtenemos el resultado presentado en (3.14).
2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en
trminos de los errores tericos del modelo.
Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es
que la suma residual de cuadrados puede expresarse en trminos del verdadero vector de
errores. As, obtenemos:
En realidad, la matriz de proyeccin ortogonal Mx est asociada a otra matriz Px. Esto se explicar detalladamente
en la seccin (3.9).
8
Una matriz simtrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente
es aquella que al ser multiplicada por s misma da como resultado la misma matriz.
63
Econometra Moderna
(3.15)
E (e) = E (Y ) E ( X )
= X X
E ( e) = 0
(3.16)
64
Econometra Moderna
)y
De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho (Y
i
su valor observado. As, por la ecuacin (3.16) podemos descomponer la varianza de Y de la
siguiente forma9:
Var (Yi ) = Var (Yi ) + Var (ei )
La expresin anterior muestra que es factible descomponer la varianza de la variable
endgena en un componente explicado por el modelo de regresin lineal, en el sentido descrito
anteriormente, y en otro no explicado relacionado a la presencia del residuo.
Recurdese que la bondad de ajuste del modelo nos permite conocer el grado en que la
estructura que gobierna el comportamiento de la variable dependiente, recoge el
comportamiento de tal variable. O en otros trminos, mide cun bien explicado est el
comportamiento de la variable endgena por nuestro modelo.
En consecuencia, definimos formalmente al coeficiente de determinacin:
R2 =
)
Var(Y
i
Var(Yi )
(3.17)
Y
nY 2
Y
Y Y nY
SEC
STC
(3.18)
SEC = X Y nY 2
Debe mencionarse que esta suma explicada de cuadrados est medida alrededor de la media
de la variable dependiente. El trmino nY 2 precisamente resta la media de la variable
dependiente10. Este clculo se puede hacer si es que el modelo contiene un intercepto.
Asimismo, podemos expresar el coeficiente de determinacin en trminos de la suma
residual de cuadrados:
Recurdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:
e = X e = 0 .
Y
10
(y
Recordemos que
y
=y
y) =
2
2
i
2y
2
i
2 yny ny 2 = yy ny 2
+ ny 2
65
Econometra Moderna
R2 = 1
SRC
ee
= 1
STC
Y Y nY 2
(3.19)
Algo que debe discutirse a estas alturas es que el R2 estar acotado entre 0 y 1 si es que slo
se incluye un intercepto en el modelo. Esto se concluye porque la inclusin del intercepto
asegura a travs de las ecuaciones normales- que la media de los errores mnimos cuadrticos
(ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados
en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto
asegura que existe ortogonalidad entre las variables explicativas y el trmino de error mnimo
cuadrtico. De no incluir intercepto por construccin- nada asegura que la parte explicada y la
parte no explicada sean ortogonales entre s, por lo que la suma de total de cuadrados podra
incluir un tercer trmino que puede ser negativo o positivo. De ser negativo y mayor que y, el
R2 podra ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no est
acotado por abajo. El valor mximo de 1 se seguir manteniendo.
Debido a que el coeficiente de determinacin mide la bondad de ajuste de los valores
estimados a la lnea de regresin, puede ser utilizado para comparar el grado del poder
explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los
siguientes casos:
i)
En los casos en que el investigador disponga de un modelo que incluya intercepto y otro
que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer
modelo podra resultar negativo, especficamente se haya en el siguiente
intervalo [ ,1] como ya se mencion. En este caso los R2 no son comparables.
ii)
Cuando dos modelos estn especificados con igual nmero de variables explicativas y
tratan de explicar la misma variable endgena pero no incluyen intercepto. Es factible
utilizar al R2 como una medida de comparacin, de esta manera se eligir aqul que
tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.
iii)
iv)
Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos
modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una
medida que tenga mucho sentido comparar, dado que cada R2 mide la explicacin de la
varianza dela variable endgena que en este caso no son las mismas.
Una conclusin lgica que se infiere de lo anterior es que el R2 es una funcin creciente del
nmero de variables explicativas utilizados en el modelo. Es decir, una variable adicional
aumenta la proporcin en que el modelo explica el comportamiento de la variable endgena. Por
ello, es importante que el investigador incluya todos los regresores necesarios para explicar con
mayor precisin a Y.
66
Econometra Moderna
Algo que se deriva de lo discutido en el prrafo anterior es que una forma de elevar cada vez
ms el R2 es incluir nuevas variables. La inclusin de una nueva variable, en el peor de los
casos, no modifica el R2 pero en la mayora de las veces logra aumentarlo11. Sin embargo, si
bien el beneficio de incluir una variable ms est en la elevacin del R2, tiene un costo. Este
viene dado por la prdida de grados de libertad. Recordemos que por la inclusin de una
variable ms, aumenta en igual cantidad el nmero de ecuaciones normales y por lo tanto existe
un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un
valor de tal forma que se cumpla la ecuacin normal. Esto le quita libertad al modelo para captar
la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusin de una
variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que
tome en cuenta estas dos consideraciones, de tal forma de contar con una medida ms confiable.
Este indicador es el estadstico conocido como R2 ajustado o corregido. Formalmente:
R 2 = 1
SRC /( n k )
(n 1)
(1 R 2 )
= 1
STC /( n 1)
(n k )
(3.20)
La interpretacin de este R2 alternativo es similar al anterior pues cumple con las mismas
propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero,
le aade el ajuste por los grados de libertad que se pierden por la inclusin de una variable
adicional en el modelo. De modo que, la fraccin:
(n 1)
aumenta cuando el nmero de
(n k )
Suma de
cuadrados
Total de la
regresin
Debido a la
regresin
YY nY
Debido a los
residuos
Grados de
libertad
n-1
2
X X n Y
k-1
n-k
La prdida de un grado de libertad para la STC proviene del hecho de que para el clculo de
ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo.
Los grados de libertad son k-1 porque el espacio en donde estn definidos los parmetros es kdimensional y se pierde un grado de libertad por el clculo de la media de la variable
dependiente que sabemos es la misma que la media de la variable dependiente estimada a travs
del modelo. Por ltimo, los grados de libertad de la suma residual es la diferencia entre los dos
grados de libertas ya mencionados.
11
X X que es una forma cuadrtica. Al incluir una variable ms esta magnitud aumentar o a lo ms no disminuir
debido a que si el efecto de la variable es cero no se modificar esta expresin.
67
Econometra Moderna
X 1 X 2 1 X 1Y
=
X 2 X 2 2 X 2 Y
Digresin:
Cabe sealar que para hallar la inversa de una matriz particionada se tiene dos
procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz
original. As, para la estimacin de los parmetros del modelo debemos calcular la matriz
inversa de (XX). Se pueden dar dos casos:
i) Se define la matriz particionada P, de orden kxk:
P
P = 11
P21
P12
P22
donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr,
rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de
orden kxk:
F
F = 11
F21
F12
F22
Si bien los elementos de sta matriz no son idnticos a los de la matriz P-1, s guardan una
relacin importante con los elementos de la matriz P:
1
68
Econometra Moderna
ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la
matriz inversa de (XX) es igual al de una matriz cualquiera de orden (2x2).
Dada la digresin anterior, trabajemos con las ecuaciones normales del modelo y hallemos
los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:
X 1 X 1 1 + X 1 X 2 2 = X 1Y
(3.21)
Factorizando llegamos a:
1 = ( X 1 X 1 )1 X 1 (Y X 2 2 )
(3.22)
(X 2 X 1 ) 1 + X 2 X 2 2 = X 2 Y
(3.23)
X 2 X1 (X1 X1 )1 X1 (Y X 2 2 ) + X 2 X 2 2 = X 2 Y
X 2 X 1 (X 1 X 1 )1 X 1Y X 2 X 1 (X 1 X 1 )1 X 1 X 2 2 + X 2 X 2 2 = X 2 Y
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y
(3.24)
12
69
Econometra Moderna
(3.25)
La expresin precedente, muestra que los efectos que tienen las variables explicativas
incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,
2 mide slo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente
sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parmetro slo
mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la
multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el
modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.
(3.26)
Recordemos que podemos expresar al modelo en trminos de los valores medios de las
variables:
Y = 1 + 2 X 2 + ... + k X k
(3.27)
(Yi Y ) = 2 (X 2i X 2 ) + ... + k (X ki X k ) + ei
(3.28)
Ntese que, esta expresin muestra una reparametrizacin del modelo. En sta no se incluye
un intercepto, cada variable est expresada en diferencias con respecto a su promedio muestral y
tanto las pendientes como los residuos son iguales a los del modelo original.
Consideremos al modelo en su forma matricial y planteemos una particin de nuestra matriz
X de tal forma que X1 slo incluya la columna de unos que corresponden al intercepto y X2
contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de
la siguiente forma:
Y = X + e
donde X y representan matrices particionadas de la forma:
X = [1n ;X 2 ]
(3.29)
70
Econometra Moderna
(3.30)
Ntese que, en la ecuacin (3.29) X2 es una matriz de orden nx(k-1) y est formada por las
columnas de observaciones de las variables exgenas del modelo, exceptuando el intercepto.
Por otro lado, la expresin (3.30) muestra que el vector tiene como elementos al intercepto
( 1 ) y al resto de coeficientes estimados (desde 2 hasta k ). De esta manera, el nuevo
modelo particionado resulta:
Y = X 1 1 + X 2 2 + e
(3.31)
Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos
utilizar la expresin (3.24):
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y
En este caso particular, X1 sera un vector de unos, por lo que la expresin entre corchetes
quedara de la siguiente manera:
[I n (1 / n)(1n1n )] (nxn)
(3.32)
Esta matriz ser denotada desde ahora por M0 y tiene la particularidad de transformar los
datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la
expresin anterior y comprobar esta afirmacin.. Si tomamos el vector de observaciones de la
variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:
Y1 Y
Y Y
2
M 0Y = ..
..
Yn Y
La matriz M0 , al igual que las matrices similares a ella, es simtrica e idempotente. Cabe
mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos sern de
mucha utilidad para las estimaciones que desarrollaremos posteriormente:
M 0 (1n ) = 0 n
(3.33)
(3.34)
M 0e = e
Ntese que la ltima propiedad se cumple porque el valor medio de los errores estimados es
igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.
Ahora, premultipiquemos la expresin (3.31) por la matriz M0 y utilicemos las propiedades
definidas en (3.33) y (3.34). As, obtenemos:
M 0Y = M 0 X 2 2 + e
(3.35)
Ntese que este modelo muestra la notacin matricial del modelo definido en (3.27).
71
Econometra Moderna
(3.36)
Por ltimo, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a
(3.36) como:
(M 0 X 2 )' M 0Y = (M 0 X 2 )' (M 0 X 2 ) 2
(3.37)
M 0 X 2 = x2
M 0Y = y
donde, x2 es una matriz de dimensin n x (k-1) que muestra al conjunto de las variables
explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la
variable endgena y es de dimensin (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:
(x2 y ) = (x2 x 2 ) 2
(3.38)
De esta manera, la expresin (3.38) muestra que cuando transformamos las variables del
modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma
forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite
obtener los estimadores de las pendientes y no del intercepto, ste se obtendr premultipicando
el modelo particionado definido en (3.31), por (1/n)1'n :
1 '
1 '
1n Y = 1n (X + e)
n
n
Y = X = 1 + X 2
Y = [1 X 2
1
X 3 ... X k ] 2
..
k
1 = Y 2 X 2 ... k X k
(3.39)
Ahora tratemos de expresar tanto la SCT como la SEC en trminos del modelo en
diferencias. Premultipliquemos la ecuacin (3.35) por Y' :
13
Recurdese que
expresin (3.7).
72
Econometra Moderna
M 0 X = M 0 (X1
= (O n
(3.40)
X 2 )
M 0 X 2 2 ) = M 0 X 2 2
e M 0 = 0
SEC
e' e
=1
STC
Y' M 0 Y
X M Y
X M X
= 2 2 0 2 2 = 2 2 0
Y' M 0 Y
Y' M 0 Y
(3.41)
3.10
Introduccin
Recordemos que el mtodo de estimacin ms comnmente usado y uno de los ms
estudiados en el anlisis economtrico es el de Mnimos Cuadrados Ordinarios. Cabe distinguir
entre dos variantes de tal mtodo: Mnimos Cuadrados Ordinarios (MCO) y Mnimos
Cuadrados no lineales. Por el Captulo 1 sabemos que, la lnea de regresin MCO tiene como
supuesto la linealidad en todos los parmetros. Mientras que en la segunda variante, y tal como
su nombre lo indica, no se cumple tal supuesto. Para fines de este captulo, slo nos interesa
discutir la estimacin MCO de un modelo lineal, ya que la comprensin de la regresin lineal y
del mtodo MCO como mtodo de estimacin de ella es esencial para entender el resto de
Captulos de este libro.
Ntese que existe una distincin importante entre las propiedades numricas y las
estadsticas de los estimadores obtenidos usando MCO. Las propiedades numricas son aquellas
73
Econometra Moderna
que se mantienen como consecuencia del uso de MCO, sin importar la generacin de los datos.
Recordemos que estas propiedades fueron verificadas por reemplazos y clculos directos14. Por
otro lado, las propiedades estadsticas se mantienen slo bajo ciertos supuestos acerca de la
generacin de los datos15.
A continuacin discutiremos la interpretacin geomtrica de las propiedades numricas de
MCO, pues todas estas propiedades pueden interpretarse en trminos de la geometra
Euclideana.16
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i
Y = X +
donde, la variable dependiente representa a un vector de dimensin n y donde los regresores
forman una matriz de dimensin (nxk). Cada columna de X que contienen a las observaciones
correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos
en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente
independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos
formalmente como S(X).
Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por
todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X.
Por otro lado, la dimensin de S(X) es igual al rango de la matriz X17 (( X ) = k ) . De esta
manera, asumimos que k es estrictamente menor que n (k < n).
El complemento ortogonal de S(X) en En , el cual es denotado por S(X), esta formado por
todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez
definidos estos conceptos estamos listos para entender la interpretacin geomtrica del
estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable
dependiente, Y, que es de dimensin n en dos sub-espacios que sean ortogonales entre s.
Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte
que sea explicada por las variables independientes y que esta parte explicada sea construida de
tal manera que implique que se extrae toda la informacin contenida en estas variables. Una
forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto
porque la ortogonalidad entre dos espacios implica que no existe relacin alguna entre ellos. En
otras palabras, no existira forma de explicar aquella parte no explicada a partir de informacin
contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta
condicin el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes:
una predecible y una no predecible.
Teniendo en cuenta lo anterior, pensemos en nuestra descomposicin. Uno de los objetivos
es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos
14
74
Econometra Moderna
un grfico que nos permita ilustrar lo que est en juego. Para simplificar el anlisis supongamos
que n=2 y k=1
Figura 3.3
El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos
los espacios ortogonales (cada uno de dimensin 1). Aquel definido por la variable explicativa
es S(X) y est representado por el eje horizontal y su complemento ortogonal est representado
en el eje vertical. Si queremos que la parte explicada sea la mayor posible, grficamente
debemos encontrar el punto en S(X) que est lo ms cerca posible a Y. Existen diversas
opciones para ello. Sin embargo, sabemos que la distancia ms corta estar representada por una
lnea que sea perpendicular a S(X). El punto que representa esta distancia ms corta ser
~
denotado por X . Existen otras alternativas como puntos tiene S(X). Por ejemplo, X
representa a uno de estos puntos, pero se puede apreciar que X implica una distancia menor y
es posible demostrar que la menor distancia es reflejada por este punto. Entonces X puede
interpretarse como la proyeccin ortogonal de la variable dependiente en el espacio definido por
las X (S(X)).
Por otro lado, sabemos que todos los puntos del espacio S(X) son ortogonales a los puntos
de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los
errores (Y X = e) . Dado que X representa al punto donde la lnea que parte de Y es
perpendicular a S(X), en dicho punto el espacio definido por X deber ser perpendicular al otro
espacio que representa a los errores. Formalmente ello implica que deber cumplirse la siguiente
condicin X ' (Y X ) = 0 . Recordemos que esta es la condicin de ortogonalidad de donde se
obtienen los estimadores MCO. Por tanto el vector de parmetros es aquel que descompone
al espacio en el cual est definido la variable dependiente en dos ub-espacios que son
ortogonales entre s.
Otra forma de abordar el problema y obtener un estimador para es el siguiente. Si nosotros
queremos hallar el punto en S(X) que es ms cercano al vector Y, el problema se cifra en la
solucin de una minimizacin (con respecto a la eleccin de ) de la distancia entre Y y S(X).
El punto en S(X) que representa esto es X . La distancia entre estos puntos est dada por el
error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta
distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el
problema de la siguiente manera:
18
Debemos recordar que en el caso que se utiliz como ejemplo anteriormente se supuso que el nmero de
observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parmetro as que slo se
75
Econometra Moderna
Min Y X
)
) ( Y - X
Min( Y - X
Entonces podemos observar que la minimizacin de la distancia entre Y y S(X) nos lleva al
planteamiento del estimador de mnimos cuadrados ordinarios. De esta manera comprobamos
que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los
cuales se puede descomponer la variable dependiente.
Ahora, reemplacemos el estimador obtenido por el proceso de minimizacin de MCO (3.6)
en el vector de la variable endgena estimada:
Y = X = X ( X ' X ) 1 X ' Y = Px Y
(3.42)
La ecuacin anterior define una matriz Px = X ( X ' X ) 1 X ' , de dimensin (nxn), dicha
matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz
de proyeccin ortogonal.
Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal
de S(X), es decir en S(X):
Y X = Y X ( X ' X ) 1 X ' Y = I X ( X X ) 1 X Y = M xY
(3.43)
(3.44)
Px M x = 0
(3.45)
Por la ecuacin anterior, se verifica que cualquier punto en En, como X o Y es igual a:
X = M x X + Px X
Y = M xY + PxY
(3.46)
En funcin a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada
uno de los componentes de las expresiones anteriores como:
M x Y = vector de residuos de la regresin.
76
Econometra Moderna
(3.47)
Px Y
M xY
Figura 3.4
Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la
estimacin de MCO. As, podemos reexpresar el problema de minimizacin descrito
anteriormente:
) ( Y - X
)=
( Y - X
( M x Y )' ( M x Y )
= ( M x Y )' ( M x Y )
= Y ' M x M xY = Y ' M xY
=
M xY
(3.48)
(3.49)
= PxY
+ MxY
(3.50)
77
Econometra Moderna
Esta expresin muestra que la suma total de cuadrados o STC, de la variable dependiente es
igual a la suma explicada de cuadrados (SEC) ms la suma de residual de cuadrados (SRC).
Recordemos que, el coeficiente de determinacin (R2) lo definimos como:
R2 =
SEC
SRC PxY
=1
=
2
STC
STC
Y
=1
MxY
Y
(3.51)
o en trminos trigonomtricos19:
R 2 = cos =
PxY
Y
=1
MxY
Y
Como conclusin de esta seccin podemos decir que nuestro estimador MCO responde a una
necesidad de descomponer en dos conjuntos ortogonales entre s el conjunto en donde est
definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente
as como el coeficiente de determinacin tienen tambin una interpretacin geomtrica. Ser
importante retener estos conceptos porque sern utilizados a lo largo del libro.
3.11
Cuando se estudi la eficiencia del estimador MCO un trmino que forma parte de la
varianza del estimador es 2 la cual es la varianza del trmino de error. Si bien hemos
analizado el impacto que tiene esta expresin en la varianza del estimador hemos estado
hablando siempre del trmino terico y por tanto desconocido. Por tanto, debemos hallar una
forma de estimar esta magnitud a fin de que podamos tambin construir un estimado de la
varianza de los estimadores hallados.
El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que
cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta
el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho
estimador insesgado. Una estrategia utilizada frecuentemente y que aqu vamos a utilizar- es
partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la
esperanza matemtica de esta expresin y veremos que transformacin debemos hacer a la
expresin resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:
SRC = ee = M x = I X ( X X ) 1 X
(3.52)
Es importante expresar la SRC en trminos del error terico porque cuando apliquemos el
operador de esperanza utilizaremos las propiedades del error terico que ya han sido definidas
en el captulo I. Sin embargo, antes de continuar con el anlisis debemos definir algunas
propiedades que sern de mucha utilidad:
Recurdese que el coseno de un ngulo de un tringulo rectngulo, en nuestro caso ( ), es igual al cateto opuesto
entre la hipotenusa.
19
78
Econometra Moderna
1. Si queremos analizar la traza de un producto de matrices, las trazas sern las mismas si
alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo
que se llama la propiedad de las permutaciones cclicas. Formalmente:
Tr(ABC) = Tr(CBA) = Tr(BCA)
2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente:
E[Tr (ABC)] = Tr [ E (ABC)]
Ahora pongamos en accin estas dos propiedades para calcular la esperanza de la SRC:
E ( SRC ) = E [Tr ( M x )] = E [Tr ( M x )]
(3.53)
Tr [E ( M x )] = Tr [M x E ( )] = Tr M x 2 I n = 2Tr [M x ]
(3.54)
Tr [M x ] = Tr I n X ( X X ) 1 X = Tr [I n ] Tr X ( X X ) 1 X
Tr [I n ] = n
] [
]
(3.55)
Tr X ( X X ) X = Tr ( X X ) X X = Tr [I k ] = k
1
(3.56)
2 =
ee
nk
(3.57)
Queda para el lector la comprobacin de que este estimador es insesgado. La mayor parte de
los pasos a realizar ya se han hecho as que no deber haber mucha dificultad en comprobar este
resultado. Algo que debemos notar es que para la obtencin de este estimador no se ha utilizado
ningn criterio de optimizacin como puede ser la minimizacin de la suma de errores al
20
Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal
de esta matriz, siempre y cuando sta sea cuadrada.
79
Econometra Moderna
(3.58)
(3.59)
Esta expresin es la que se utilizar en todos los clculos a realizarse por los paquetes
estadsticos especializados en la estimacin de modelos economtricos.
3.12
A MANERA DE CONCLUSIN
En este captulo hemos presentado el estimador MCO multivariado para el cual se han
utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades
del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto
porque los resultados aqu presentados que son los fundamentos del estimador MCO y del
modelo lineal general- sern la base para entender la lgica y resultados de otro tipos de
modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalas del modelo
lineal general ms adelante se har uso de las propiedades y resultados presentados aqu. Es
importante entender la intuicin y significado del estimador MCO porque los principios
estudiados hasta aqu marcan la pauta para lo que ser analizado ms adelante.
21
Como veremos ms adelante, este ltimo criterio es el que gua al estimador de mxima verosimilitud.
80