Libro Cap 3

CAPITULO 3
EL METODO DE ESTIMACIN DE MNIMOS CUADRADOS

ORIDINARIOS:
MODELO LINEAL GENERAL
3.1. INTRODUCCIN
En la investigacin aplicada buscamos darle contenido emprico a las relaciones que nos
sugiere la teora y la intuicin. En muchos casos lo que buscamos es determinar cules son las
principales variables que explican a otra variable a la cual le hemos dado el nombre de variable
dependiente. En el Captulo precedente se ha limitado el anlisis de regresin al estudio de las
relaciones existentes entre una variable endgena o explicada (Y) y una variable exgena o
explicativa (X). Para tal fin, realizamos la estimacin de los parmetros desconocidos del
modelo de regresin bivariado y posteriormente demostramos sus propiedades por lo que
concluimos que el estimador MCO es MELI. En el presente Captulo, Vamos a generalizar el
anlisis previo incluyendo ms de una variable explicativa (aparte del intercepto) utilizaremos el
mismo criterio de minimizacin (MCO) y presentaremos el modelo de regresin lineal de k
variables (Y y X1, X2,..., Xk) en notacin matricial. Este modelo es conocido como el modelo de
regresin lineal general, pues en l se generaliza el modelo de regresin bivariado estudiado en
el Captulo 2.
Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se
estudiarn a continuacin debe recordar algunos conceptos de lgebra matricial. En este modelo
la funcin de regresin poblacional, definida en el Captulo 1, est compuesta por la variable
endgena (Y) y k variables exgenas (X). Formalmente:
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i
i = 1,2,......n
(3.1)
La ecuacin (3.1) indica que el vector Y observado es la suma del vector de errores ( ) y de
una combinacin lineal de las columnas de X. Ntese que ahora se tienen k pendientes
Econometra Moderna
MCO: El Modelo Lineal General
( 1 ,..... k ) y i el trmino de error correspondiente a la i-sima observacin. Por otro lado, la

inclusin de un intercepto en el modelo hace que X1 represente un vector de unos, si
reemplazamos ste en la expresin (3.1) se obtiene el siguiente conjunto de ecuaciones:
Y1 = 1 + 2 X 21 + 3 X 31 + ... + k X k1 + 1
Y2 = 1 + 2 X 22 + 3 X 32 + ... + k X k 2 + 2
..........................................................................
Yn = 1 + 2 X 2 n + 3 X 3n + ... + k X kn + n
En trminos matriciales:
Y1
Y
2 =
.

Yn
(nx1)
1 X 2 ,1
1 ...
1 ...
1 X 2 ,n
... X k,1
...
...
.
...
...
... X k ,n
1
1

2 + .
.
.

n
k
(nxk)
(kx1)
(nx1)
Y = X +
y en forma compacta:
(3.2)
3.2. LA ESTIMACIN MCO PARA EL MODELO DE REGRESIN LINEAL GENERAL

Con el fin de estimar los coeficientes del modelo de regresin y el intercepto, debemos reescribir la ecuacin (3.1) de modo que para la observacin i tendramos un valor observado de
Y y un valor estimado de la forma:
= + X + ... + X
Y
i
1
2 2i
k ki
Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el

valor observado de la variable endgena resulta un residuo o trmino de error (e):

X ..
X
ei = Yi
1
2 2i
k kt
y, repitiendo este proceso para todas las observaciones muestrales se obtiene:
Y = 1 + 2 X 2 + ... + k X k + e = X + e
(3.3)
En la ecuacin anterior, es un vector de coeficientes de k elementos, e es otro vector de

residuos de n elementos y X representa la matriz de variables explicativas de orden (nxk).
Como se mencion en la introduccin del presente captulo, utilizaremos el criterio del
mtodo de estimacin MCO para obtener los estimadores: minimizar la suma de cuadrados de
los residuos (SRC = ei2 ). Se denota matricialmente como ee :
ee = [e1 e2
e1
e
..... en ]. 2 = e12 + e22 + ... + en2 = ei2
.

e n
52
Econometra Moderna
Por la ecuacin (3.3), se tiene que:

ee = ( Y - X )' ( Y - X )
De esta manera, el problema de minimizacin a resolver es el siguiente:
)' ( Y - X
)
Min ( Y - X
)' ( Y - X
-
' X'Y +
' X'X
) = Y'Y - Y'X
( Y - X
'X'Y +
'X'X
= Y'Y - 2
y
' X'Y son escalares y por tanto son iguales(uno es el
en la expresin anterior Y'X
transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la
. De modo que:
suma de residuos al cuadrado define una funcin del vector de coeficientes
)
e e = f (
son las variables de la ecuacin, por lo que se debe minimizar
donde los elementos del vector
. Para tal fin, es preciso hacer una digresin acerca del lgebra
la misma con respecto a
matricial utilizada para obtener los resultados que a continuacin se detallan:
'X'X
'X'Y +
)
Min (Y'Y - 2
' X' Y +
' X ' X
e' e = Y ' Y 2
e' e
=0
= 2 X ' Y + 2 X ' X
X ' Y = X ' X
(3.4)
Digresin:
!
Se define f (b ) como una funcin de k elementos distintos de bi entonces debemos calcular k
derivadas parciales de dicha funcin con respecto a cada bi. En este sentido, se obtiene el vector
gradiente (primeras derivadas parciales) como definicin general en formas lineales:
!
!
f (b )
f (b ) !
b
!
f (b )
b1
= "!
f (b )
bn
(3.5)
53
Econometra Moderna
Ahora definamos una funcin lineal, donde a es un vector de k elementos constantes

cualesquiera.
!
f ( b ) = ab
!
f ( b ) = a1b1+ a2 b2+.......+ak bk
y, utilizando la expresin(3.5) se obtiene:
a1

(a b) (b a ) a 2
=a
=
=
..
b
b

a k
Ntese la similitud entre la expresin anterior y el problema de minimizacin definido en
(3.4). As, obtenemos las siguientes expresiones:
(X ' ) ( ' X)
=
=X
Asimismo, podemos definir la siguiente forma cuadrtica en b, donde A es una matriz

simtrica de orden (kxk):
g (b) = b' Ab
[b1
b2
A11
A
... bk ] 12
"
A1k
A12
A22
"
A2k
# A1k b1
# A2 k b2
$ " "

# Akk bk
b' Ab = b12 A11 + 2b1b2 A12 + # + 2b1bk A1k

+ b22 A22 + ## + 2b2 bk A2k
"
bk2 Akk
Derivando parcialmente la expresin anterior, obtenemos lo siguiente:

g
b1 2b1A11 + 2b 2 A12 + # + 2b k A1k
2 b A + 2b A + # + 2 b A
g (b) g
2 22
k 2k
b 2 = 1 12
=
"
b
"
g
2b1A1k + 2b 2 A 2k + # + 2b k A kk
b k
54
Econometra Moderna
A11
"
= 2
"
A1k
A12
$
A2k
# A1k
b1
"
" = 2 Ab
$ "
b
# Akk k
Por lo anterior, notemos que:

(b' Ab) ( ' X ' X )
=
= 2(X ' X )
b
Ahora regresemos a la expresin (3.4). Esta representa la simbolizacin compacta de las k

ecuaciones normales del modelo. Ntese que estas ecuaciones pueden reexpresarse en trminos
de sumatorias, de forma similar al Captulo anterior:
+
X + ... +
X = Y
n
1
2 2i
k ki
i
X +
X 2 + ... +
X X =X Y
1
2i
2
2i
2i ki
2i i
k
...............................................................................................................................
X +
X X + ... +
X2 =X Y
1
2
ki
ki 2i
k
ki
ki i
o en trminos matriciales,
n
X
2i
...
X ki
X 2i
2
X 2i
...
X ki X 2i
1
...
X ki
1

... X 2i X ki 2 X 21
=
.
... ...
...
...
2
...
X ki
k X k1
1
X 22
...
X k2
1
1 Y1
... X 2n Y2
.
... ... ..

... X kn Yn
= ( X 'Y )
( X X )
En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la
expresin anterior por ( X ' X )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el
estimador es una funcin de los datos, para ello basta con reemplazarlos en la siguiente
expresin:
= ( X ' X )1 X ' Y
(3.6)
Ntese que en este modelo tambin se verifica que las variables explicativas y el trmino de
error son ortogonales entre s (Cov (X, ) = 0). Para tal fin debemos reordenar la expresin
compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del lgebra
matricial:
X ' (Y X ) = 0
En los casos en que la matriz (X ' X ) no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,
esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Seccin (1.2).
55
Econometra Moderna
X 1e 0
X e
2 0
=0
=
X 'e =
.. ..

X k e 0
(3.7)
X ' e = X ' (Y X ) = X ' Y X ' X ( X ' X ) 1 XY = X ' Y X ' Y = 0

Observamos que el primer elemento de la matriz anterior resulta:
n
ei = 0
i =1
e =0
por lo que, los residuos de la regresin estimada por MCO tienen media igual a cero, siempre
que el investigador incluya un trmino independiente en el modelo2. Por otro lado, los dems
elementos de la matriz muestran que, al igual que en el modelo de regresin lineal simple, el
supuesto de ortogonalidad entre los errores y las variables independientes se cumple.
3.3. UNA ILUSTRACIN

Para ilustrar este mtodo matricial vase el ejemplo (2.1), donde se obtienen los
estimadores de un modelo bivariado por el mtodo MCO. As, obtenemos el modelo de
regresin lineal simple en trminos matriciales:
Y = X + e
Y1 1 X 21
e1
Y 1 X e
22 1
2
2 =
+
.. ..
..
.. 2

Yn 1 X 2 n
e n
y, por el resultado obtenido en (3.4)
( X X ). = ( X Y )
nX
2i
i
=1
n
n
X 2i Yi
i =1
1 = i =1
n
n
2
X 2i Yi
X 2i
i =1
t =1
Ahora, veamos la Tabla (2.1) y reemplacemos en la expresin matricial anterior los valores
correspondientes. As, las matrices que resultan de la aplicacin de este procedimiento son las
siguientes:
2
Ntese que la presencia de un trmino independiente en el modelo implica que la primera fila de X es un vector de
unos.
56
Econometra Moderna
10 20
(XX) =
20 46
80
(XY) =
166
luego la inversa de la matriz (XX) resulta.

0,76666666 - 0,33333333
(XX)-1 =
- 0,33333333 0,16666666
Si aplicamos la frmula del estimador MCO en trminos matriciales (3.6), obtenemos:
0,76666666 - 0,33333333 80 6
= 1 =
=
2 - 0,33333333 0,16666666 166 1

los cuales son los mismos obtenidos en el captulo anterior. Este resultado ilustra el hecho de
que el estimador presentado en esta captulo (y que ser el ms utilizado a lo largo del libro) es
una generalizacin del estimador bivariado (que usualmente se trabaja en trminos de
sumatorias).
3.4. PROPIEDADES DE UN BUEN ESTIMADOR

Todo estimador debe cumplir con ciertas condiciones que nos den cierta seguridad acerca de
su idoneidad. Si un estimador cumple con estas condiciones podr utilizarse con relativa
seguridad de que los resultados obtenidos son equivalentes en trminos estadsticos a los
verdaderos parmetros que siempre sern desconocidos.
Esta propiedades pueden agruparse en dos categoras: i) propiedades exactas (o de muestras
pequeas) y ii) propiedades aproximadas (o de muestras grandes o asintticas).
Las primeras de ellas se refieren a resultados sobre los cuales existe certeza y que pueden
analizarse incluso en un contexto de muestras pequeas. El segundo grupo se refiere a
resultados que no se pueden comprobar en muestras pequeas y que deben analizarse como
aproximaciones. La nica forma de lograr hacer este anlisis es realizando el ejercicio de ir
aumentando el tamao de muestra y observar como se va comportando el estimador3. Las
principales propiedades se pueden resumir de la siguiente forma:
3.4.1 Propiedades de Muestras Pequeas:

Primera propiedad: Insesgamiento
Recurdese que en el Captulo 2 estudiamos esta propiedad y demostramos que el estimador
MCO para un modelo de regresin con dos variables era insesgado. De esta manera, definimos
formalmente un estimador insesgado:
E ( ) =
De all que reciban el nombre de propiedades asintticas. Estas propiedades sern analizadas en profundidad en el
captulo X, dedicado a esta tpico.
57
Econometra Moderna
En promedio, el estimador resulta igual al parmetro desconocido si se repite el experimento

de muestreo varias veces. Grficamente:
Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor
del parmetro, sino que proviene de una distribucin cuya media es igual a dicho valor ( ).
Segunda propiedad: Eficiencia
El estimador debe tener la menor varianza posible con el fin de lograr mayor precisin en sus
aproximaciones. Por lo tanto, un estimador eficiente es aqul que cumple con la primera
propiedad y adems es el que posee la mnima varianza entre todos los dems estimadores
insesgados posibles. As, y como se demostr en la ilustracin del teorema de Gauss-Markov, el
estimador MCO cumple con esta propiedad. Grficamente: (Figura 2.3):
3.4.2 Muestras Grandes: (Propiedades Asintticas)

Primera propiedad: Consistencia
Un parmetro es consistente si se cumple que:
P lim =
n
58
Econometra Moderna
Esta propiedad indica que conforme aumente el tamao de la muestra la media de la

distribucin del estimador se aproximar ms al verdadero valor del parmetro. Es decir, si se
cumple esta propiedad resulta la media de tal distribucin.
Cabe destacar que esta propiedad es de suma importancia pues si un estimador resulta
sesgado utilizando un tamao muestral reducido, el investigador puede eliminar dicho sesgo
aumentando el nmero de observaciones de la muestra. Por lo tanto, para garantizar que el
estimador MCO sea insesgado se debe utilizar muestras grandes (n 60) .
Segunda propiedad: Insesgamiento asinttico
La idea detrs de esta propiedad es analizar si el sesgo tiende a desaparecer en la medida que
el tamao muestral tiende a infinito. Tiene cierta relacin con la propiedad anterior pero no son
equivalentes. En este caso se analiza el comportamiento del sesgo, mientras que en la
consistencia se analiza el punto hacia el cual converge la distribucin del estimador.
Tercera propiedad: Eficiencia Asinttica
Este propiedad est referida al comportamiento de la varianza de la distribucin asinttica
del estimador. La distribucin asinttica es aquella hacia la cual converge la distribucin del
estimador a medida que crece el tamao muestral. La idea es analizar si la varianza de esta
distribucin es menor que cualquier otra proveniente de estimadores alternativos.
3.5. PROPIEDADES DEL ESTIMADOR MCO

1. Insesgamiento
Recordemos que para determinar el insesgamiento debemos reemplazar el modelo
verdadero dentro de la frmula de nuestro estimador:
= ( X ' X ) 1 X 'Y
= ( X X ) 1 X ' ( X + )
= ( X ' X ) 1 X ' X + ( X ' X ) 1 X '
= + ( X ' X ) 1 X '
(3.8)
Tomando esperanzas a la expresin precedente, obtenemos:

E ( ) = + ( X ' X ) 1 X ' E ()
=
E ()
(3.9)
De esta manera se verifica que el estimador MCO, para el modelo de regresin general, es
insesgado. Un resultado fundamental para la comprobacin de esta propiedad es que las X son
fijas o que no estn correlacionadas con el error. La ortogonalidad entre los regresores y el
trminos de error es necesaria para comprobar el insesgamiento.
2. Matriz varianza-covarianza (Eficiencia)
59
Econometra Moderna
Var ( ) = E[( E ( ))( E ( ))' ]

= E[( )( )' ]
Ahora, por la ecuacin (3.8) se obtiene:
Var ( ) = E[( X ' X ) 1 X ' ' X ( X ' X ) 1 ]
= ( X ' X ) 1 X ' E (' ) X ( X ' X ) 1
Recordemos que por el segundo y tercer supuesto del modelo de regresin lineal4
verificamos que: E (' ) = 2 I n . Por consiguiente, la expresin anterior resulta:
Var ( ) = ( X ' X ) 1 X ' 2 I n X ( X ' X ) 1
Var ( ) = 2 ( X ' X ) 1
(3.10)
Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el
estimador de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que
cuando el investigador dispone de varias muestras el mtodo de estimacin de MCO arroja
estimadores que en promedio son idnticos a los verdaderos valores de los parmetros
desconocidos. Sin embargo, en la mayora de los casos cuando corremos una regresin
solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia
entre el estimador y su valor esperado poblacional, es decir tenemos una aproximacin de la
misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras
palabras, de la matriz de varianzas y covarianzas del estimador MCO.
Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende
de la varianza del error. Esto es, si la distribucin poblacional del error presenta una alta
dispersin, la varianza del estimador se comportar de igual forma (existe una relacin directa
entre los dos). Por otro lado, el anlisis del segundo componente es un poco ms complicado,
dado que los elementos de la matriz (XX) estn relacionados directamente con las varianzas y
covarianzas muestrales de las X5. Si analizamos las implicancias de la relacin matemtica
notaremos que a mayor dispersin de las variables independientes, la matriz (XX) es mayor6 y
por tanto su inversa es menor, de modo que la varianza del coeficiente de regresin ser menor.
Es decir, a mayor varianza de las X ganamos precisin en las estimaciones del modelo. Esta
ltima idea la podemos entender de manera utilizando un grfico. En l, ilustraremos el caso de
una regresin bivariada, en el eje de las abcisas tenemos los valores de la variable independiente
y en el eje de las ordenadas, los valores de la variable dependiente:
4
5
Vase la seccin (1.2) del primer captulo

Tomemos en cuenta la frmula de la varianza muestral de una variable:
Var ( x) =
(x
x)2
n 1
2
i
2x
+ nx 2
n 1
Como vemos, si el primer trmino del desarrollo de la sumatoria es mayor, la varianza de la variable x ser mayor.
Ese trmino es precisamente uno de los trminos de la diagonal principal de la matriz XX. De igual manera ocurre
con los elementos fuera de esta diagonal principal que sern los elementos correspondientes de la covarianzas
muestrales de las variables explicativas incluidas en el modelo.
6
Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la
sumatoria de las variables elevadas al cuadrado tendern a ser mayores, como estos son los elementos de la diagonal
principal, sabemos que a mayor la traza de una matriz cuadrada, mayor ser su magnitud.
60
Econometra Moderna
Figura 3.1
La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la
lnea de regresin que muestra dicha caracterstica es LR1. Basta introducir una nueva
observacin (a) para que la lnea de regresin presente un cambio brusco de pendiente (LR2),
por lo que los estimadores MCO pierden precisin en la medida que son muy sensibles.
Figura 3.2
El grfico anterior muestra como a mayor variabilidad de las X es ms fcil identificar la

lnea de regresin. Ahora se verifica que al incluir otra observacin en el modelo la pendiente de
la lnea de regresin no se ve afectada o de lo contrario vara ligeramente. Por lo tanto, se
concluye que la variabilidad en los datos (X) es indispensable para que las predicciones del
modelo estimado sean confiables y por ende los estimadores presenten mayor precisin.
De todo lo discutido hasta el momento, vemos que dos elementos para evaluar la calidad de
un estimador son el sesgo y la varianza. Sin embargo, se pueden presentar casos en donde la
varianza de un estimador sesgado es menor que la de un estimador insesgado. En este caso cul
estimador debemos escoger? La respuesta a esta pregunta encontr una solucin en el
planteamiento de un criterio que nos permita evaluar un estimador tomando en cuenta el sesgo
y la varianza. Este criterio recibe el nombre de Error Cuadrtico Medio (ECM)que se define
como la esperanza matemtica de la diferencia entre el valor estimado del parmetro y su valor
verdadero:
ECM () = E ( ) = Varianza() + ( Sesgo())2
61
Econometra Moderna
Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrtico
medio ser idntico a su varianza, por tanto se deber comparar dicha medida de dispersin con
el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicacin de este criterio es
general y puede aplicarse a cualquier par o ms de estimadores.
Hasta aqu hemos hablado de cmo estimar la varianza y la interpretacin de la misma. Sin
embargo, la estimacin de la varianza es un paso previo a la comprobacin de que sta es la
mnima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el captulo anterior el
teorema de Gauss-Markov en su forma matricial.
Teorema de Gauss-Markov
Aqu extenderemos los resultados encontrados en el captulo 2 a todo un vector de
coeficientes . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una
funcin lineal de la variable endgena (Y). Demostracin:
~ ~
~
Sea = A Y donde A es una matriz de orden (kxT)
Definimos otra matriz A (kxT) a la diferencia:
~
A = A ( X X ) 1 X '
Segn lo anterior:
~
= [ A + ( X ' X ) 1 X ][ X + ]
~
= AX + + [ A + ( X X ) 1 X ' ]
(3.11)
y tomando esperanzas a ambos lados de la ecuacin, obtenemos como resultado:

~
E ( ) = AX +
(3.12)
~
De modo que ser insesgado s y solo s suponemos que AX=0. De esta manera, resulta
til reexpresar la ecuacin (3.11) para el clculo de la varianza del estimador:
~
= + [ A + ( X X ) 1 X ' ]
(3.13)
Ahora reemplacemos la expresin anterior en la definicin de la matriz de covarianzas del

estimador, as obtenemos:
~
~
~
Var ( ) = E[( )( )' ]
= E[[ A + ( X ' X ) 1 X ' ]'[ A'+ X ( X ' X ) 1 ]]
~
Var ( ) = AA' 2 + ( X ' X ) 1 2 + ( X ' X ) 1 X ' A' 2 + AX ( X ' X ) 1 2
= AA' 2 + ( X ' X ) 1 2
matriz
definida positiva
varianza del
estimador MCO
62
Econometra Moderna
La expresin anterior indica que la matriz de covarianzas del estimador alternativo es igual a
la del estimador MCO ms una matriz definida positiva. En este sentido, se verifica que la
varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor
que la varianza del estimador MCO.
3.6 OTROS RESULTADOS REFERIDOS AL ESTIMADOR MATRICIAL DE MNIMOS CUADRADOS
ORDINARIOS
1.El vector de residuos de Mnimos Cuadrados es una transformacin lineal del vector de
errores del modelo terico. Recordemos que:
e = Y X
= [ I n X ( X ' X ) 1 X ' ]Y
= [ I n X ( X ' X ) 1 X ' ][ X + ]
= M x [ X + ]
e = M x = M xY
(3.14)
Este resultado se entender si tomamos en cuenta las propiedades que indicaremos ms

abajo. Definimos la matriz Mx = [ I n X ( X ' X ) 1 X ' ] 7 como la matriz de proyeccin ortogonal
de la variable dependiente en el espacio definido por los errores. Esta matriz cumple con las
siguientes propiedades:
i.) Simtrica e idempotente8:
M x M x = [ I n X ( X ' X ) 1 X ' ] [ I n X ( X ' X ) 1 X ' ]
1
1
1
1
= I n X ( X ' X ) X ' X ( X ' X ) X ' I n + X ( X ' X ) X ' X ( X ' X ) X '
= I n X ( X ' X ) 1 X '
= Mx
ii) Ortogonal a la matriz X
M x X = [ I n X ( X ' X ) 1 X ' ] X
= X X ( X ' X ) 1 X ' X = 0
Si utilizamos esta ltima propiedad obtenemos el resultado presentado en (3.14).
2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en
trminos de los errores tericos del modelo.
Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es
que la suma residual de cuadrados puede expresarse en trminos del verdadero vector de
errores. As, obtenemos:
En realidad, la matriz de proyeccin ortogonal Mx est asociada a otra matriz Px. Esto se explicar detalladamente
en la seccin (3.9).
8
Una matriz simtrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente
es aquella que al ser multiplicada por s misma da como resultado la misma matriz.
63
Econometra Moderna
SRC = e' e = Y ' M x Y

= ( X + )'[ I n X ( X ' X ) 1 X ' ]( X + )
= ' X '[ I n X ( X ' X ) 1 X ' ] X + '[ I n X ( X ' X ) 1 X ' ] + ' X '[ I X ( X ' X ) 1 X ' ]
+ ' [ I n X ( X ' X ) 1 X ' ] X
SRC = e' e = ' M x ' M x = ' M x

SRC = e' e = Y ' M x Y = ' M x
3. Otra forma de expresar la Suma de Cuadrados de los Residuos Mnimo-Cuadrticos.
Recordemos que:
SRC - Suma de Residuos al Cuadrado:
e' e = (Y ' ' X ' )(Y X )

= Y ' Y Y ' X ' X ' Y + ' X ' X
= Y ' Y 2 ' X ' Y + ' X ' X
= Y ' Y 2 ' X ' Y + ' X ' X ( X ' X ) 1 X ' Y

= Y ' Y 2 ' X ' Y + ' X ' Y
e' e = Y ' Y ' X ' Y
(3.15)
4. Se verifica que en trminos probabilsticos la esperanza del error estimado es igual a

cero.(Vase el segundo supuesto del modelo de regresin lineal- Cap 1)
E (e) = E (Y ) E ( X )
= X X
E ( e) = 0
3.7. MEDIDAS DE BONDAD DE AJUSTE

Recordemos que el propsito del anlisis de regresin es explicar el comportamiento de la
variable dependiente (Y). Al disponer de una muestra dada, sabemos que el comportamiento de
Y es aleatorio, es decir puede tomar un valor relativamente bajo para algunas observaciones y
relativamente alto para otras. Dichas variaciones de la variable pueden aproximarse con la
varianza muestral de Y (Var(Y)), Por ello, es importante cuantificar su magnitud.
Para el modelo de regresin lineal simple procuramos explicar la conducta de la variable
dependiente, escogiendo adecuadamente la variable explicativa(X), a travs de la regresin.
Despus de ajustar la regresin somos capaces de separar el valor de Yi para cada observacin
y ei . Es decir:
en sus dos componentes: Y
i
Yi = Yi + ei
(3.16)
64
Econometra Moderna
)y
De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho (Y
i
su valor observado. As, por la ecuacin (3.16) podemos descomponer la varianza de Y de la
siguiente forma9:
Var (Yi ) = Var (Yi ) + Var (ei )
La expresin anterior muestra que es factible descomponer la varianza de la variable
endgena en un componente explicado por el modelo de regresin lineal, en el sentido descrito
anteriormente, y en otro no explicado relacionado a la presencia del residuo.
Recurdese que la bondad de ajuste del modelo nos permite conocer el grado en que la
estructura que gobierna el comportamiento de la variable dependiente, recoge el
comportamiento de tal variable. O en otros trminos, mide cun bien explicado est el
comportamiento de la variable endgena por nuestro modelo.
En consecuencia, definimos formalmente al coeficiente de determinacin:
R2 =
)
Var(Y
i
Var(Yi )
(3.17)
y muestra la proporcin de la varianza explicada por la regresin lineal. Asimismo, podemos

definir formalmente al R2 en trminos de las sumas de cuadrados definidas en la seccin (2.4).
As, resulta:
STC = SEC +SRC
Y
nY 2 + e e
Y Y nY 2 = Y
R2 =
Y
nY 2
Y
Y Y nY
SEC
STC
(3.18)
donde la suma explicada de cuadrados(SEC) se define por:

Y
nY 2 = X X nY 2
Y
= X X (X X )1 X Y nY 2
SEC = X Y nY 2
Debe mencionarse que esta suma explicada de cuadrados est medida alrededor de la media
de la variable dependiente. El trmino nY 2 precisamente resta la media de la variable
dependiente10. Este clculo se puede hacer si es que el modelo contiene un intercepto.
Asimismo, podemos expresar el coeficiente de determinacin en trminos de la suma
residual de cuadrados:
Recurdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:
e = X e = 0 .
Y
10
(y
Recordemos que
y
=y
y) =
2
2
i
2y
2
i
2 yny ny 2 = yy ny 2
+ ny 2
65
Econometra Moderna
R2 = 1
SRC
ee
= 1
STC
Y Y nY 2
(3.19)
y por el resultado obtenido en (3.15), se tiene:

R 2 =1
Y' Y ' X' Y

Y Y nY 2
Algo que debe discutirse a estas alturas es que el R2 estar acotado entre 0 y 1 si es que slo
se incluye un intercepto en el modelo. Esto se concluye porque la inclusin del intercepto
asegura a travs de las ecuaciones normales- que la media de los errores mnimos cuadrticos
(ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados
en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto
asegura que existe ortogonalidad entre las variables explicativas y el trmino de error mnimo
cuadrtico. De no incluir intercepto por construccin- nada asegura que la parte explicada y la
parte no explicada sean ortogonales entre s, por lo que la suma de total de cuadrados podra
incluir un tercer trmino que puede ser negativo o positivo. De ser negativo y mayor que y, el
R2 podra ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no est
acotado por abajo. El valor mximo de 1 se seguir manteniendo.
Debido a que el coeficiente de determinacin mide la bondad de ajuste de los valores
estimados a la lnea de regresin, puede ser utilizado para comparar el grado del poder
explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los
siguientes casos:
i)
En los casos en que el investigador disponga de un modelo que incluya intercepto y otro
que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer
modelo podra resultar negativo, especficamente se haya en el siguiente
intervalo [ ,1] como ya se mencion. En este caso los R2 no son comparables.
ii)
Cuando dos modelos estn especificados con igual nmero de variables explicativas y
tratan de explicar la misma variable endgena pero no incluyen intercepto. Es factible
utilizar al R2 como una medida de comparacin, de esta manera se eligir aqul que
tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.
iii)
El R2 tambin es de mucha utilidad cuando comparamos dos modelos anidados, se

denominan as aquellos modelos cuya estructura consta de una variable endgena y
variables exgenas comunes. Pero, uno de ellos est especificado con un menor nmero
de variables explicativas. En tal sentido, debemos hallar el R2 del modelo que omite
algunas variables para luego incluir una por una las restantes. Con este procedimiento se
verificar que el modelo ampliado disminuir su suma residual conforme se incluya
otra variable, por lo tanto el R2 mejora considerablemente.
iv)
Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos
modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una
medida que tenga mucho sentido comparar, dado que cada R2 mide la explicacin de la
varianza dela variable endgena que en este caso no son las mismas.
Una conclusin lgica que se infiere de lo anterior es que el R2 es una funcin creciente del
nmero de variables explicativas utilizados en el modelo. Es decir, una variable adicional
aumenta la proporcin en que el modelo explica el comportamiento de la variable endgena. Por
ello, es importante que el investigador incluya todos los regresores necesarios para explicar con
mayor precisin a Y.
66
Econometra Moderna
Algo que se deriva de lo discutido en el prrafo anterior es que una forma de elevar cada vez
ms el R2 es incluir nuevas variables. La inclusin de una nueva variable, en el peor de los
casos, no modifica el R2 pero en la mayora de las veces logra aumentarlo11. Sin embargo, si
bien el beneficio de incluir una variable ms est en la elevacin del R2, tiene un costo. Este
viene dado por la prdida de grados de libertad. Recordemos que por la inclusin de una
variable ms, aumenta en igual cantidad el nmero de ecuaciones normales y por lo tanto existe
un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un
valor de tal forma que se cumpla la ecuacin normal. Esto le quita libertad al modelo para captar
la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusin de una
variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que
tome en cuenta estas dos consideraciones, de tal forma de contar con una medida ms confiable.
Este indicador es el estadstico conocido como R2 ajustado o corregido. Formalmente:
R 2 = 1
SRC /( n k )
(n 1)
(1 R 2 )
= 1
STC /( n 1)
(n k )
(3.20)
La interpretacin de este R2 alternativo es similar al anterior pues cumple con las mismas
propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero,
le aade el ajuste por los grados de libertad que se pierden por la inclusin de una variable
adicional en el modelo. De modo que, la fraccin:
(n 1)
aumenta cuando el nmero de
(n k )
variables explicativas (k) se incrementa, mientras que el trmino (1-R2) disminuye. En

consecuencia, se dice que esta nueva medida de bondad de ajuste es relativamente neutral a la
introduccin de variables adicionales.
Un punto importante como resumen de esta seccin es presentar de manera sinttica las
magnitudes involucradas en el clculo de las medidas de bondad de ajuste. Como sabemos, cada
uno de los componentes de la suma total de cuadrados tendr asociados ciertos grados de
libertad, los cuales sern utilizados ms adelante. La formulacin matricial de la
descomposicin de la varianza (tabla ANOVA) para el modelo lineal general es la siguiente:
Fuente de
variacin
Suma de
cuadrados
Total de la
regresin
Debido a la
regresin
YY nY
Debido a los
residuos
Grados de
libertad
n-1
2
X X n Y
k-1
Y' Y ' X' Y
n-k
La prdida de un grado de libertad para la STC proviene del hecho de que para el clculo de
ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo.
Los grados de libertad son k-1 porque el espacio en donde estn definidos los parmetros es kdimensional y se pierde un grado de libertad por el clculo de la media de la variable
dependiente que sabemos es la misma que la media de la variable dependiente estimada a travs
del modelo. Por ltimo, los grados de libertad de la suma residual es la diferencia entre los dos
grados de libertas ya mencionados.
11
Recordemos que la suma explicada de cuadrados est relacionada a la siguiente magnitud:
X X que es una forma cuadrtica. Al incluir una variable ms esta magnitud aumentar o a lo ms no disminuir
debido a que si el efecto de la variable es cero no se modificar esta expresin.
67
Econometra Moderna
3.8 MODELO PARTICIONADO

Cuando los paquetes estadsticos utilizados no eran tan potentes como los de ahora o no
existan, los clculos se complicaban cuando se introducan un nmero alto de variables. Ello
llev a buscar formas de abreviar los clculos. De all surgi lo que ahora se denomina el
modelo particionado. Si bien actualmente los programas estadsticos permiten hacer
estimaciones con gran nmero de observaciones y variables explicativas, este anlisis
permanece relevante dado que permite ilustrar la interpretacin de los parmetros de un modelo.
Podemos plantear entonces nuestro modelo lineal general de la forma tradicional:
Y = X + e
En este caso introduciremos un cambio. Este cambio implica particionar la matriz X en dos
submatrices:
X = [X1 X2]
De modo que, las ecuaciones normales del modelo resultan:
X 1 X 1
X X
2 1
X 1 X 2 1 X 1Y
=
X 2 X 2 2 X 2 Y
Digresin:
Cabe sealar que para hallar la inversa de una matriz particionada se tiene dos
procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz
original. As, para la estimacin de los parmetros del modelo debemos calcular la matriz
inversa de (XX). Se pueden dar dos casos:
i) Se define la matriz particionada P, de orden kxk:
P
P = 11
P21
P12
P22
donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr,
rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de
orden kxk:
F
F = 11
F21
F12
F22
Si bien los elementos de sta matriz no son idnticos a los de la matriz P-1, s guardan una
relacin importante con los elementos de la matriz P:
1
F11 = (P11 P12 P22 P21 ) 1
F12 = P11 P21F22
68
Econometra Moderna

1
F22 = (P22 P21P11 P12 ) 1
F12 = P22 P21F11
ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la
matriz inversa de (XX) es igual al de una matriz cualquiera de orden (2x2).
Dada la digresin anterior, trabajemos con las ecuaciones normales del modelo y hallemos
los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:
X 1 X 1 1 + X 1 X 2 2 = X 1Y
(3.21)
Despejando 1 , obtenemos la siguiente expresin:

1 = ( X 1 X 1 )1 X 1Y ( X 1 X 1 )1 X 1 X 2 2
Factorizando llegamos a:
1 = ( X 1 X 1 )1 X 1 (Y X 2 2 )
(3.22)
Del segundo conjunto de ecuaciones normales tenemos:
(X 2 X 1 ) 1 + X 2 X 2 2 = X 2 Y
(3.23)
reemplazando (3.22) en (3.23):
X 2 X1 (X1 X1 )1 X1 (Y X 2 2 ) + X 2 X 2 2 = X 2 Y
X 2 X 1 (X 1 X 1 )1 X 1Y X 2 X 1 (X 1 X 1 )1 X 1 X 2 2 + X 2 X 2 2 = X 2 Y
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y
(3.24)
La expresin entre corchetes es similar a la matriz Mx definida anteriormente, salvo que en

lugar de X encontramos a una parte de ella que es X1. Recordemos que ella fue definida como
la matriz de proyeccin ortogonal de la variable explicada en el espacio definido por los
errores12. Si recordamos los resultados de la seccin 3.6, especficamente los resultados
contenidos en (3.14), veremos que si aplicamos la matriz Mx al vector de observaciones de la
variable dependiente Y, obtenemos el vector de errores mnimos cuadrticos. Intuitivamente
ello significa que los errores son los valores resultantes cuando limpiamos o filtramos la
variable dependiente de todo efecto que tienen sobre ella las variables independientes. Las
propiedades de M1 son similares a las de la matriz Mx. Manipulando la expresin (3.24)
obtenemos:
X 2 M 1 X 2 2 = X 2 M 1Y
Aplicando las propiedades de M1, llegamos a:
12
La razn del nombre quedara ms clara en la seccin 3.10.
69
Econometra Moderna

( M 1 X 2 )' ( M 1 X 2 ) 2 = ( M 1 X 2 )' ( M 1Y )
2 = ( X 2 M 1 X 2 ) 1 ( X 2 M 1Y )
(3.25)
La expresin precedente, muestra que los efectos que tienen las variables explicativas
incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,
2 mide slo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente
sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parmetro slo
mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la
multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el
modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.
3.9 EL MODELO LINEAL EN FORMA DE DESVIACIONES CON RESPECTO A LA MEDIA

Recordemos que en el Captulo 2 uno de los resultados que estudiamos fue que el modelo de
regresin de dos variables poda ser expresado en forma de desviaciones. Este enfoque mostraba
que los parmetros podan ser estimados en dos pasos: el primero consiste en calcular la
pendiente de X ( 1 ) y el segundo es reemplazar dicho valor en la ecuacin de la lnea de
regresin muestral para hallar el intercepto. Un procedimiento similar puede aplicarse al
modelo lineal general. Partamos de un modelo especificado incluyendo un trmino
independiente o intercepto:
Yi = 1 + 2 X 2i + ... + k X ki + e
(3.26)
Recordemos que podemos expresar al modelo en trminos de los valores medios de las
variables:
Y = 1 + 2 X 2 + ... + k X k
(3.27)
ahora, restando (3.27) de (3.26) obtenemos:
(Yi Y ) = 2 (X 2i X 2 ) + ... + k (X ki X k ) + ei
(3.28)
Ntese que, esta expresin muestra una reparametrizacin del modelo. En sta no se incluye
un intercepto, cada variable est expresada en diferencias con respecto a su promedio muestral y
tanto las pendientes como los residuos son iguales a los del modelo original.
Consideremos al modelo en su forma matricial y planteemos una particin de nuestra matriz
X de tal forma que X1 slo incluya la columna de unos que corresponden al intercepto y X2
contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de
la siguiente forma:
Y = X + e
donde X y representan matrices particionadas de la forma:
X = [1n ;X 2 ]
(3.29)
70
Econometra Moderna

= 1
2
(3.30)
Ntese que, en la ecuacin (3.29) X2 es una matriz de orden nx(k-1) y est formada por las
columnas de observaciones de las variables exgenas del modelo, exceptuando el intercepto.
Por otro lado, la expresin (3.30) muestra que el vector tiene como elementos al intercepto
( 1 ) y al resto de coeficientes estimados (desde 2 hasta k ). De esta manera, el nuevo
modelo particionado resulta:
Y = X 1 1 + X 2 2 + e
(3.31)
Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos
utilizar la expresin (3.24):
X 2 I X1 (X1 X1 )1 X1 X 2 2 = X 2 I X1 (X1 X1 )1 X1 Y
En este caso particular, X1 sera un vector de unos, por lo que la expresin entre corchetes
quedara de la siguiente manera:
[I n (1 / n)(1n1n )] (nxn)
(3.32)
Esta matriz ser denotada desde ahora por M0 y tiene la particularidad de transformar los
datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la
expresin anterior y comprobar esta afirmacin.. Si tomamos el vector de observaciones de la
variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:
Y1 Y
Y Y
2
M 0Y = ..
..
Yn Y
La matriz M0 , al igual que las matrices similares a ella, es simtrica e idempotente. Cabe
mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos sern de
mucha utilidad para las estimaciones que desarrollaremos posteriormente:
M 0 (1n ) = 0 n
(3.33)
(3.34)
M 0e = e
Ntese que la ltima propiedad se cumple porque el valor medio de los errores estimados es
igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.
Ahora, premultipiquemos la expresin (3.31) por la matriz M0 y utilicemos las propiedades
definidas en (3.33) y (3.34). As, obtenemos:
M 0Y = M 0 X 2 2 + e
(3.35)
Ntese que este modelo muestra la notacin matricial del modelo definido en (3.27).
71
Econometra Moderna
Premultipicando por X 2 obtenemos13:

X 2 M 0Y = X 2 M 0 X 2 2
(3.36)
Por ltimo, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a
(3.36) como:
(M 0 X 2 )' M 0Y = (M 0 X 2 )' (M 0 X 2 ) 2
(3.37)
Analicemos ahora la expresin anterior. sta se interpreta como un sistema de (k-1)

ecuaciones normales en trminos de desviaciones. As, definimos las siguientes variables:
M 0 X 2 = x2
M 0Y = y
donde, x2 es una matriz de dimensin n x (k-1) que muestra al conjunto de las variables
explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la
variable endgena y es de dimensin (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:
(x2 y ) = (x2 x 2 ) 2
(3.38)
De esta manera, la expresin (3.38) muestra que cuando transformamos las variables del
modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma
forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite
obtener los estimadores de las pendientes y no del intercepto, ste se obtendr premultipicando
el modelo particionado definido en (3.31), por (1/n)1'n :
1 '
1 '
1n Y = 1n (X + e)
n
n
Y = X = 1 + X 2
Y = [1 X 2
1

X 3 ... X k ] 2
..

k
1 = Y 2 X 2 ... k X k
(3.39)
Ahora tratemos de expresar tanto la SCT como la SEC en trminos del modelo en
diferencias. Premultipliquemos la ecuacin (3.35) por Y' :
13
Recurdese que
expresin (3.7).
X 2 e = 0 por el supuesto de ortogonalidad entre las variables independientes y el error. Vase la
72
Econometra Moderna

Y M 0 Y = Y M 0 X 2 2 + Y e
Y M 0 Y = (X + e)' M 0 X 2 2 + (X + e)' e
Y M 0 Y = X M 0 X 2 2 + X e + e' M 0 X 2 2 + e' e
Y M 0 Y = 2 X 2 M 0 X 2 2 + e' e
donde hemos utilizado:
M 0 X = M 0 (X1
= (O n
(3.40)
X 2 )
M 0 X 2 2 ) = M 0 X 2 2
e M 0 = 0
La ltima expresin se cumple por la condicin de ortogonalidad dada anteriormente. As,

podemos expresar la ecuacin (3.40) como:
STC = Y M 0 Y
SEC = 2 X 2 M 0 X 2 2
SRC = e' e
De esta manera, podemos calcular el coeficiente de determinacin (R2) para este modelo y
notar sus diferencias con el modelo original:
R2 =
SEC
e' e
=1
STC
Y' M 0 Y
X M Y
X M X
= 2 2 0 2 2 = 2 2 0
Y' M 0 Y
Y' M 0 Y
(3.41)
donde la expresin anterior se cumple por el resultado obtenido en (3.36).
3.10
INTERPRETACIN GEOMTRICA DE MCO
Introduccin
Recordemos que el mtodo de estimacin ms comnmente usado y uno de los ms
estudiados en el anlisis economtrico es el de Mnimos Cuadrados Ordinarios. Cabe distinguir
entre dos variantes de tal mtodo: Mnimos Cuadrados Ordinarios (MCO) y Mnimos
Cuadrados no lineales. Por el Captulo 1 sabemos que, la lnea de regresin MCO tiene como
supuesto la linealidad en todos los parmetros. Mientras que en la segunda variante, y tal como
su nombre lo indica, no se cumple tal supuesto. Para fines de este captulo, slo nos interesa
discutir la estimacin MCO de un modelo lineal, ya que la comprensin de la regresin lineal y
del mtodo MCO como mtodo de estimacin de ella es esencial para entender el resto de
Captulos de este libro.
Ntese que existe una distincin importante entre las propiedades numricas y las
estadsticas de los estimadores obtenidos usando MCO. Las propiedades numricas son aquellas
73
Econometra Moderna
que se mantienen como consecuencia del uso de MCO, sin importar la generacin de los datos.
Recordemos que estas propiedades fueron verificadas por reemplazos y clculos directos14. Por
otro lado, las propiedades estadsticas se mantienen slo bajo ciertos supuestos acerca de la
generacin de los datos15.
A continuacin discutiremos la interpretacin geomtrica de las propiedades numricas de
MCO, pues todas estas propiedades pueden interpretarse en trminos de la geometra
Euclideana.16
La Geometra de Mnimos Cuadrados

Recordemos el modelo de regresin lineal general:
Yi = 1 X 1i + 2 X 2i + 3 X 3i + ... + k X ki + i
Y = X +
donde, la variable dependiente representa a un vector de dimensin n y donde los regresores
forman una matriz de dimensin (nxk). Cada columna de X que contienen a las observaciones
correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos
en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente
independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos
formalmente como S(X).
Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por
todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X.
Por otro lado, la dimensin de S(X) es igual al rango de la matriz X17 (( X ) = k ) . De esta
manera, asumimos que k es estrictamente menor que n (k < n).
El complemento ortogonal de S(X) en En , el cual es denotado por S(X), esta formado por
todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez
definidos estos conceptos estamos listos para entender la interpretacin geomtrica del
estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable
dependiente, Y, que es de dimensin n en dos sub-espacios que sean ortogonales entre s.
Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte
que sea explicada por las variables independientes y que esta parte explicada sea construida de
tal manera que implique que se extrae toda la informacin contenida en estas variables. Una
forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto
porque la ortogonalidad entre dos espacios implica que no existe relacin alguna entre ellos. En
otras palabras, no existira forma de explicar aquella parte no explicada a partir de informacin
contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta
condicin el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes:
una predecible y una no predecible.
Teniendo en cuenta lo anterior, pensemos en nuestra descomposicin. Uno de los objetivos
es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos
14
Vase las 4 primeras propiedades de la seccin (2.3).

Una de las propiedades estadsticas ms importante es el insesgamiento, al verificar esta propiedad suponemos que
la distribucin de los errores es normal.
16
Se define un espacio Euclidiano como aqul que cumple con las propiedades de cerradura interna y cerradura
externa.
17
El rango de una matriz es igual al nmero de columnas linealmente independientes.
15
74
Econometra Moderna
un grfico que nos permita ilustrar lo que est en juego. Para simplificar el anlisis supongamos
que n=2 y k=1
Figura 3.3
El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos
los espacios ortogonales (cada uno de dimensin 1). Aquel definido por la variable explicativa
es S(X) y est representado por el eje horizontal y su complemento ortogonal est representado
en el eje vertical. Si queremos que la parte explicada sea la mayor posible, grficamente
debemos encontrar el punto en S(X) que est lo ms cerca posible a Y. Existen diversas
opciones para ello. Sin embargo, sabemos que la distancia ms corta estar representada por una
lnea que sea perpendicular a S(X). El punto que representa esta distancia ms corta ser
~
denotado por X . Existen otras alternativas como puntos tiene S(X). Por ejemplo, X
representa a uno de estos puntos, pero se puede apreciar que X implica una distancia menor y
es posible demostrar que la menor distancia es reflejada por este punto. Entonces X puede
interpretarse como la proyeccin ortogonal de la variable dependiente en el espacio definido por
las X (S(X)).
Por otro lado, sabemos que todos los puntos del espacio S(X) son ortogonales a los puntos
de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los
errores (Y X = e) . Dado que X representa al punto donde la lnea que parte de Y es
perpendicular a S(X), en dicho punto el espacio definido por X deber ser perpendicular al otro
espacio que representa a los errores. Formalmente ello implica que deber cumplirse la siguiente
condicin X ' (Y X ) = 0 . Recordemos que esta es la condicin de ortogonalidad de donde se
obtienen los estimadores MCO. Por tanto el vector de parmetros es aquel que descompone
al espacio en el cual est definido la variable dependiente en dos ub-espacios que son
ortogonales entre s.
Otra forma de abordar el problema y obtener un estimador para es el siguiente. Si nosotros
queremos hallar el punto en S(X) que es ms cercano al vector Y, el problema se cifra en la
solucin de una minimizacin (con respecto a la eleccin de ) de la distancia entre Y y S(X).
El punto en S(X) que representa esto es X . La distancia entre estos puntos est dada por el
error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta
distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el
problema de la siguiente manera:
18
Debemos recordar que en el caso que se utiliz como ejemplo anteriormente se supuso que el nmero de
observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parmetro as que slo se
75
Econometra Moderna
Min Y X
)
) ( Y - X
Min( Y - X
Entonces podemos observar que la minimizacin de la distancia entre Y y S(X) nos lleva al
planteamiento del estimador de mnimos cuadrados ordinarios. De esta manera comprobamos
que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los
cuales se puede descomponer la variable dependiente.
Ahora, reemplacemos el estimador obtenido por el proceso de minimizacin de MCO (3.6)
en el vector de la variable endgena estimada:
Y = X = X ( X ' X ) 1 X ' Y = Px Y
(3.42)
La ecuacin anterior define una matriz Px = X ( X ' X ) 1 X ' , de dimensin (nxn), dicha
matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz
de proyeccin ortogonal.
Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal
de S(X), es decir en S(X):
Y X = Y X ( X ' X ) 1 X ' Y = I X ( X X ) 1 X Y = M xY
(3.43)
La matriz Mx es por tanto la matriz de proyeccin ortogonal de la variable Y en el espacio

definido por los errores del modelo. Recordemos que esta matriz ya ha sido definida y sus
propiedades han sido estudiadas. Ntese, que las matrices definidas lneas arriba son simtricas,
idempotentes y adems cumplen con las siguientes propiedades:
M x + Px = I n
(3.44)
Px M x = 0
(3.45)
Por la ecuacin anterior, se verifica que cualquier punto en En, como X o Y es igual a:
X = M x X + Px X
Y = M xY + PxY
(3.46)
En funcin a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada
uno de los componentes de las expresiones anteriores como:
M x Y = vector de residuos de la regresin.
PxY = vector de valores estimados de Y.

toma en cuenta un error. Sin embargo el anlisis se puede generalizar para un nmero mayor de observaciones.
Recuerdese que el objetivo del estimador MCO es minimizar la suma de errores elevados al cuadrado que es similar
a la minimizacin de la norma de un vector.
76
Econometra Moderna
Ahora, utilizaremos la interpretacin geomtrica de MCO para establecer algunas

propiedades importantes del modelo de regresin lineal. De esta manera, por la la ecuacion
(3.43) y por la descripcin anterior de PxY y MxY, tenemos que:
( Px Y )' ( M x Y ) = 0
(3.47)
por lo que, se verifica que el residuo es ortogonal al valor estimado de Y. Grficamente,

podemos observar la descomposicin ortogonal de la variable explicada (Y):
S(X)
S(X)
Px Y
M xY
Figura 3.4
Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la
estimacin de MCO. As, podemos reexpresar el problema de minimizacin descrito
anteriormente:
) ( Y - X
)=
( Y - X
( M x Y )' ( M x Y )
= ( M x Y )' ( M x Y )
= Y ' M x M xY = Y ' M xY
=
M xY
(3.48)
Asismismo, la suma explicada de cuadrados (SEC) resulta:

( X )' ( X ) = ( Px Y )' ( Px Y )
= Y ' Px Px Y = Y ' Px Y = Px Y
(3.49)
La expresiones (3.46) y (3.47) indican que la suma de residuos al cuadrado y la suma

explicada de cuadrados son simplemente la norma de ciertos vectores denominados las
proyecciones de Y (Mx y Px) sobre los subespacios de S(X) y S(X), respectivamente. Esto se
puede mostrar grficamente en la figura (3.4).
Ahora, notemos que la distancia entre Y y PxY es M x Y , la distancia entre el origen y PxY
es PxY , y la distancia entre el origen e Y es Y . As, resulta til aplicar el teorema de
Pitgoras:
Y
= PxY
+ MxY
(3.50)
77
Econometra Moderna
Esta expresin muestra que la suma total de cuadrados o STC, de la variable dependiente es
igual a la suma explicada de cuadrados (SEC) ms la suma de residual de cuadrados (SRC).
Recordemos que, el coeficiente de determinacin (R2) lo definimos como:
R2 =
SEC
SRC PxY
=1
=
2
STC
STC
Y
=1
MxY
Y
(3.51)
o en trminos trigonomtricos19:
R 2 = cos =
PxY
Y
=1
MxY
Y
Como conclusin de esta seccin podemos decir que nuestro estimador MCO responde a una
necesidad de descomponer en dos conjuntos ortogonales entre s el conjunto en donde est
definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente
as como el coeficiente de determinacin tienen tambin una interpretacin geomtrica. Ser
importante retener estos conceptos porque sern utilizados a lo largo del libro.
3.11
ESTIMACIN MCO DE LA VARIANZA DEL TRMINO DE ERROR
Cuando se estudi la eficiencia del estimador MCO un trmino que forma parte de la
varianza del estimador es 2 la cual es la varianza del trmino de error. Si bien hemos
analizado el impacto que tiene esta expresin en la varianza del estimador hemos estado
hablando siempre del trmino terico y por tanto desconocido. Por tanto, debemos hallar una
forma de estimar esta magnitud a fin de que podamos tambin construir un estimado de la
varianza de los estimadores hallados.
El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que
cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta
el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho
estimador insesgado. Una estrategia utilizada frecuentemente y que aqu vamos a utilizar- es
partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la
esperanza matemtica de esta expresin y veremos que transformacin debemos hacer a la
expresin resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:
SRC = ee = M x = I X ( X X ) 1 X
(3.52)
Es importante expresar la SRC en trminos del error terico porque cuando apliquemos el
operador de esperanza utilizaremos las propiedades del error terico que ya han sido definidas
en el captulo I. Sin embargo, antes de continuar con el anlisis debemos definir algunas
propiedades que sern de mucha utilidad:
Recurdese que el coseno de un ngulo de un tringulo rectngulo, en nuestro caso ( ), es igual al cateto opuesto
entre la hipotenusa.
19
78
Econometra Moderna
1. Si queremos analizar la traza de un producto de matrices, las trazas sern las mismas si
alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo
que se llama la propiedad de las permutaciones cclicas. Formalmente:
Tr(ABC) = Tr(CBA) = Tr(BCA)
2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente:
E[Tr (ABC)] = Tr [ E (ABC)]
Ahora pongamos en accin estas dos propiedades para calcular la esperanza de la SRC:
E ( SRC ) = E [Tr ( M x )] = E [Tr ( M x )]
(3.53)
Aqu, en la ltima transformacin hemos hecho uso de la propiedades de las permutaciones

cclicas. Si hacemos el intercambio cambio de esperanza y traza y recordamos que la matriz Mx
contiene elementos fijos por lo que la esperanza se aplica a la expresin del trminos de error,
obtenemos:
Tr [E ( M x )] = Tr [M x E ( )] = Tr M x 2 I n = 2Tr [M x ]
(3.54)
Estos resultados se obtienen a partir de la segunda propiedad del modelo presentada en el

captulo I que supone que el error no presenta autocorrelacin ni heterocedasticidad. Como la
varianza del error es una constante puede salir fuera de la traza. Ahora lo que nos queda analizar
es la traza de Mx:
Tr [M x ] = Tr I n X ( X X ) 1 X = Tr [I n ] Tr X ( X X ) 1 X
Tr [I n ] = n
] [
]
(3.55)
Tr X ( X X ) X = Tr ( X X ) X X = Tr [I k ] = k
1
Para estos resultados hemos hecho uso nuevamente de la propiedad de permutaciones

cclicas y del hecho de que la traza de una matriz identidad de orden n es igual a n y la traza de
una matriz identidad de orden k es igual a k. Combinando todos los resultados obtenemos lo
siguiente:
E ( SRC ) = 2 (n k )
(3.56)
Si queremos obtener un estimador de la varianza que sea insesgado, la transformacin obvia

que tendramos que hacer a la expresin anterior es dividirla por (n-k). Por lo tanto el estimador
MCO de la varianza del error que se deriva de toda nuestra exposicin sera el siguiente:
2 =
ee
nk
(3.57)
Queda para el lector la comprobacin de que este estimador es insesgado. La mayor parte de
los pasos a realizar ya se han hecho as que no deber haber mucha dificultad en comprobar este
resultado. Algo que debemos notar es que para la obtencin de este estimador no se ha utilizado
ningn criterio de optimizacin como puede ser la minimizacin de la suma de errores al
20
Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal
de esta matriz, siempre y cuando sta sea cuadrada.
79
Econometra Moderna
cuadrado o la maximizacin de la probabilidad de ocurrencia de una muestra21 ni nada parecido.

El estimador ha sido construido de manera ad-hoc para cumplir con la propiedad de
insesgamiento. La razn para ello es que, como veremos ms adelante, no existe ningn
estimador insesgado de la varianza del error que se pueda obtener a travs de un criterio que
busque optimizar alguna expresin. Esto no quiere decir que no se pueda utilizar sino que habr
que analizar sus propiedades asintticas como ya fueron definidas anteriormente. El anlisis de
este tipo de propiedades se ver ms adelante en el captulo 10 del presente libro.
En funcin a las resultados obtenidos podemos ahora definir algunas expresiones que sern
de mucha utilidad y que se utilizan bastante en el anlisis que efectan la mayora de paquetes
economtricos. La primera de ellas es el error estndar de la regresin (standard error of
regresin) que no es otra cosa que la raz cuadrada de la varianza estimada del error 8 es decir la
desviacin estndar).
error estndar de la regresin = = 2
(3.58)
Adicionalmente estamos en condicin ahora de presentar la varianza estimada de los

parmetros estimados por MCO:
Var ( ) estimada = 2 ( X X ) 1
(3.59)
Esta expresin es la que se utilizar en todos los clculos a realizarse por los paquetes
estadsticos especializados en la estimacin de modelos economtricos.
3.12
A MANERA DE CONCLUSIN
En este captulo hemos presentado el estimador MCO multivariado para el cual se han
utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades
del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto
porque los resultados aqu presentados que son los fundamentos del estimador MCO y del
modelo lineal general- sern la base para entender la lgica y resultados de otro tipos de
modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalas del modelo
lineal general ms adelante se har uso de las propiedades y resultados presentados aqu. Es
importante entender la intuicin y significado del estimador MCO porque los principios
estudiados hasta aqu marcan la pauta para lo que ser analizado ms adelante.
21
Como veremos ms adelante, este ltimo criterio es el que gua al estimador de mxima verosimilitud.
80

Libro Cap 3

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Libro Cap 3

Hochgeladen von

Copyright:

Verfügbare Formate

CAPITULO 3

EL METODO DE ESTIMACIN DE MNIMOS CUADRADOS

MCO: El Modelo Lineal General

( 1 ,..... k ) y i el trmino de error correspondiente a la i-sima observacin. Por otro lado, la

3.2. LA ESTIMACIN MCO PARA EL MODELO DE REGRESIN LINEAL GENERAL

Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el

En la ecuacin anterior, es un vector de coeficientes de k elementos, e es otro vector de

MCO: El Modelo Lineal General

Por la ecuacin (3.3), se tiene que:

MCO: El Modelo Lineal General

Ahora definamos una funcin lineal, donde a es un vector de k elementos constantes

Asimismo, podemos definir la siguiente forma cuadrtica en b, donde A es una matriz

b' Ab = b12 A11 + 2b1b2 A12 + # + 2b1bk A1k

Derivando parcialmente la expresin anterior, obtenemos lo siguiente:

b1 2b1A11 + 2b 2 A12 + # + 2b k A1k

MCO: El Modelo Lineal General

Por lo anterior, notemos que:

Ahora regresemos a la expresin (3.4). Esta representa la simbolizacin compacta de las k

MCO: El Modelo Lineal General

X ' e = X ' (Y X ) = X ' Y X ' X ( X ' X ) 1 XY = X ' Y X ' Y = 0

3.3. UNA ILUSTRACIN

MCO: El Modelo Lineal General

luego la inversa de la matriz (XX) resulta.

2 - 0,33333333 0,16666666 166 1

3.4. PROPIEDADES DE UN BUEN ESTIMADOR

3.4.1 Propiedades de Muestras Pequeas:

MCO: El Modelo Lineal General

En promedio, el estimador resulta igual al parmetro desconocido si se repite el experimento

3.4.2 Muestras Grandes: (Propiedades Asintticas)

MCO: El Modelo Lineal General

Esta propiedad indica que conforme aumente el tamao de la muestra la media de la

3.5. PROPIEDADES DEL ESTIMADOR MCO

Tomando esperanzas a la expresin precedente, obtenemos:

MCO: El Modelo Lineal General

Var ( ) = E[( E ( ))( E ( ))' ]

Vase la seccin (1.2) del primer captulo

MCO: El Modelo Lineal General

El grfico anterior muestra como a mayor variabilidad de las X es ms fcil identificar la

MCO: El Modelo Lineal General

y tomando esperanzas a ambos lados de la ecuacin, obtenemos como resultado:

Ahora reemplacemos la expresin anterior en la definicin de la matriz de covarianzas del

MCO: El Modelo Lineal General

Este resultado se entender si tomamos en cuenta las propiedades que indicaremos ms

MCO: El Modelo Lineal General

SRC = e' e = Y ' M x Y

SRC = e' e = ' M x ' M x = ' M x

e' e = (Y ' ' X ' )(Y X )

= Y ' Y 2 ' X ' Y + ' X ' X ( X ' X ) 1 X ' Y

4. Se verifica que en trminos probabilsticos la esperanza del error estimado es igual a

3.7. MEDIDAS DE BONDAD DE AJUSTE

MCO: El Modelo Lineal General

y muestra la proporcin de la varianza explicada por la regresin lineal. Asimismo, podemos

donde la suma explicada de cuadrados(SEC) se define por:

MCO: El Modelo Lineal General

y por el resultado obtenido en (3.15), se tiene:

Y' Y ' X' Y

El R2 tambin es de mucha utilidad cuando comparamos dos modelos anidados, se

MCO: El Modelo Lineal General

variables explicativas (k) se incrementa, mientras que el trmino (1-R2) disminuye. En

Y' Y ' X' Y

Recordemos que la suma explicada de cuadrados est relacionada a la siguiente magnitud:

MCO: El Modelo Lineal General

3.8 MODELO PARTICIONADO