Sie sind auf Seite 1von 12

-1-

CAPITULO 1.- "MODELO LINEAL DE RANGO COMPLETO”

1.1.- INTRODUCCION

Uno de los principales objetivos de la ciencia es describir, explicar y predecir los


fenómenos del mundo real. El procedimiento más ampliamente utilizado para estos efectos
consiste en la elaboración de modelos. Según una definición muy simple, pero
ampliamente aceptada, “un modelo es una representación simplificada (y por tanto
incompleta) de un fenómeno (sistema, proceso, organismo o ente) cualquiera”. De acuerdo
con esta definición resulta claro que existe una amplísima variedad de modelos, por lo que
se han propuesto diversos criterios para su clasificación y estudio. En este curso de
Métodos Multivariantes, nos ocuparemos de modelos matemáticos, modelos abstractos que
utilizan el lenguaje y la simbología de las matemáticas. El propósito fundamental en la
utilización de estos modelos, consiste en extraer conclusiones por analogía: cualquier
resultado del modelo debe tener su análogo en el fenómeno por él representado. En
Estadística, los modelos matemáticos constituyen instrumentos de descripción y predicción
que resultan de suma utilidad en los procesos de toma de decisiones.

La base de un modelo matemático es una ecuación, o conjunto de ellas, que describe


la naturaleza de la relación existente entre una variable y, que define en lo fundamental un
determinado fenómeno, y otro conjunto de variables x1, x2,...,xk, que ayudan a explicar su
comportamiento:

y = g(x1, x2,..., xk) (1)

De esta manera, conocidos los valores de las variables xj (j=1,2,..., k) y la forma específica
de g, será posible estimar el valor correspondiente de la variable y.

En las ciencias exactas, como la física y la química, las relaciones se cumplen de


una manera precisa, es decir, existe una dependencia funcional entre las variables. Ello se
debe a que estas ciencias contemplan relaciones determinísticas del tipo causa-efecto, que
se consideran como leyes. Por consiguiente, al realizar un conjunto de observaciones de las
variables, se encontrará que se ajustan exactamente con las relaciones postuladas por la
teoría, aún cuando cabría esperar pequeñas discrepancias debidas a errores de medición. Se
sabe por ejemplo, que la relación entre velocidad (v) de un móvil, espacio recorrido (e) y
tiempo transcurrido (t) viene dada por:

v = e/t

o que la distancia d que recorre un objeto que cae al vacío, depende de la velocidad inicial
(v) y el tiempo transcurrido (t):

d = (gt2)/2 + vt

siendo g la constante de aceleración.


-2-

En las ciencias sociales en general, ocurre que las relaciones entre las variables
implican una dependencia más amplia que la funcional. Tales relaciones no implican
“causalidad” sino “asociación”. Al realizar un conjunto de observaciones de las variables,
no es de esperar un ajuste exacto con la relación postulada debido a factores que están fuera
del control del investigador. Es muy importante entonces distinguir entre relaciones
determinísticas o funcionales, en las cuales está presente la causalidad, y relaciones
estadísticas o estocásticas, en las cuales está presente la asociación.

Por lo mencionado en el párrafo anterior, se incluye en el modelo un término de


error ε, que contempla todos los posibles factores generadores de discrepancias entre los
valores observados y los valores estimados por el modelo: selección de variables, selección
de individuos, selección de la ecuación, errores de diseño y errores de medición. En
consecuencia, el modelo matemático (1) es redefinido en la forma:

y = g(x1, x2,..., xk) + ε (2)

Este modelo, denominado “modelo estadístico”, incluye una “componente


sistemática” g(X1, X2,..., Xk) que explica el comportamiento de y en función de las k
variables incluidas en el modelo, y una “componente residual” ε, considerada como una
variable aleatoria, que explica la desviación entre los valores observados y los valores
estimados a través de la componente sistemática.

Un problema fundamental en el proceso de modelización consiste en identificar la


forma explícita de la función g, la cual en general puede resultar muy complicada. Por ello,
en aras de la simplicidad, se ha convenido en adoptar una expresión matemáticamente
sencilla, que describe a y como una combinación lineal aproximada de las xj (j=1,2,...k):

y = β1x1 + β2x2 + ... + βkxk + ε (3)

En la mayoría de las situaciones de la realidad, las relaciones entre las variables no


son tan simples como para que puedan expresarse mediante relaciones de tipo lineal. Sin
embargo ocurre, afortunadamente, que en una buena cantidad de situaciones en la práctica,
se obtiene una aproximación satisfactoria a la verdadera relación suponiendo linealidad.
Además, en muchos casos puede lograrse tal aproximación efectuando ciertas
transformaciones sobre las variables originales.

Aunque tal distinción no siempre es clara, suele denominarse a y variable


dependiente, explicada, endógena o respuesta; y a las xj, variables independientes,
explicativas, predictoras, exógenas o factores.

Los parámetros incluidos en el modelo β1, β2, ... , βk, serán estimados a partir de
información reportada por observaciones de las variables, bajo ciertos supuestos que
garanticen estimadores con buenas propiedades.
-3-

Al efectuar n observaciones de las k+1 variables, las relaciones entre ellas quedan
descritas mediante el conjunto de n ecuaciones:

yi = β1xi1 + β2xi2 + ... + βkxik + εi (i = 1,2,...,n)

que en forma matricial pueden escribirse como:

 y1   x 11 x 12 L x 1k   β1   ε1 
       
 y2   x 21 x 22 L x 2k  β2   ε2 
 M  =  M M M   M + M 
       
y
 n  x n1 x n2 L x nk  β k   ε n 
o bien:
ynx1 = Xnxk β kx1 + εnx1
Nota Histórica:
El término “regresión” fue introducido por Francis Galton, quien planteó que, a pesar de la existencia de
una tendencia de los padres de alta estatura a tener hijos altos y los de baja estatura a tener hijos bajos, la
estatura promedio de los hijos tendía (o regresaba) al promedio de la población total. En otras palabras, la
estatura de los hijos de padres muy altos o muy bajos, tiende a la estatura promedio de la población. Esta
“ley de regresión universal” de Galton fue confirmada posteriormente por Karl Pearson.

1.2.- MODELO LINEAL GENERAL

Definición 1.1.- “MODELO LINEAL GENERAL”

Se define como modelo lineal general a la ecuación matricial:

y = Xβ+ ε (4)

donde ynx1 es el vector de valores observados de la variable y, Xnxk es una matriz de


valores conocidos, βkx1 es un vector de parámetros desconocidos y εnx1 es el vector de
errores aleatorios desconocidos.

Es necesario advertir que la condición de linealidad se refiere a los parámetros y no a las


variables, de modo que la relación:

y = β 1 ( logx1) + β2 (1/x2) + ... + βk (exk ) + ε

también da origen a un modelo lineal, en el cual intervienen las variables:


z1 = log x1, z2 = 1/x2, ..., zk = exk

Sin embargo, un modelo como el siguiente:


y = x1log β1 + x21/β2 + ... + logβk xk + ε
es claramente no lineal en los parámetros.
-4-

1.3.- AJUSTE MINIMO CUADRATICO

Se denomina ajuste del modelo lineal y = Xβ + ε a toda ecuación:


~+e
y = Xβ (5)

siendo β~ un estimador del vector de parámetros desconocidos β y e un vector cuyas


componentes constituyen los errores producidos en el ajuste. Debe resaltarse la diferencia
entre el vector ε de errores (no observables) definido a partir del modelo teórico, y el
vector e, también de errores (observables), pero determinados a partir del ajuste, a los
cuales suele denominarse residuos.

El problema del ajuste consiste en encontrar una solución β~ que minimice en algún
sentido los errores e1, e2,..., en. En particular, en el modelo de regresión, el ajuste se
obtiene utilizando el criterio de los “mínimos cuadrados” (least squares), el cual minimiza
la suma de cuadrados de los errores producidos en el ajuste.

Como:
~
e = y- X β (6)

la suma de cuadrados de los errores viene dada por:


n
SCE = ∑e
i =1
2
i = ete

= ~ )t (y- X β
(y- X β ~)

~ + ~ t XtX β
yty- 2ytX β ~
= β

~ e igualamos al
Para hallar el vector que minimiza esta expresión, derivamos respecto de β
vector nulo(1):

∂ SCE ~ = θ
~ = -2 Xty + 2 XtX β
∂β

por consiguiente, los vectores susceptibles de minimizar la suma de cuadrados de los


errores, satisfacen el sistema de ecuaciones:

~ = Xty
XtX β (7)

que es conocido como "sistema de ecuaciones normales".

(1) ∂ ∂
Recuerde que: Ax = At , y que xtAx = 2Ax, siendo xnx1 un vector y Anxn una matriz.
∂x ∂x
-5-

Si adicionalmente se impone la condición de que rango(Xnxk) sea igual a k (k< n), la matriz
XtX será no singular, y por lo tanto el sistema tendrá una única solución. Este supuesto
implica que no existen relaciones de tipo lineal entre las columnas (variables). El modelo
asociado se conoce entonces como “modelo lineal de rango completo”, y en ese caso la
solución al sistema anterior queda:
~ = (XtX)-1Xty
β

Esta solución efectivamente define un mínimo en la función objetivo, ya que la matriz de


segundas derivadas parciales es definida positiva, por ser Xnxk una matriz de rango columna
completo:

∂ 2 SCE ∂ t t ~ t
~ (-2 X y + 2 X X β ) = 2 X X
~ 2 = ∂β
(∂ β )

El estimador obtenido se denomina “estimador mínimo cuadrático de β” y lo denotamos


mediante la letra b:

b = (XtX)-1Xty (8)

Es importante notar que en el caso del ajuste mínimo cuadrático, la suma de cuadrados de
los errores queda(2):

SCE = ete = yty - btXty (9)

El vector de estimaciones de y a través del modelo se denotará por ~


y:

~
y = Xb (10)

y es claro que:

e = y- ~
y (11)

(2)
Véase el ejercicio 1.1.4., pág. 7.
-6-

Interpretación geométrica

e ε

~ =Xb
Y

θ Xβ

R(X)

El vector Y es aproximado a través del vector Y~ , definido como la proyección ortogonal


de Y sobre R(X) ( subespacio generado por las columnas de X).

1.4.- PLANTEAMIENTO TEORICO DEL ANALISIS DE REGRESION

El problema teórico del análisis de regresión no se plantea como un problema de


ajuste, sino en términos probabilísticos. Se asume un conjunto de variables aleatorias y, x1,
x2, ... xk que se distribuyen conjuntamente según una ley normal multivariante, por lo que
la distribución condicional:

y/ x1, x2, ... xk ∼ N ( µ Y / X1 ,... X k , σ 2Y / X1 ,... X k )

es también normal, siendo su esperanza una combinación lineal de las x's:

E(y/x1, x2, ... xk) = βo + β1x1 + β2x2 + ... + β kxk

Es posible entonces modelizar el comportamiento de la variable respuesta y por medio de


una ecuación lineal en las variables explicativas x1, x2, ... xk más un término de error:

y = βo + β1x1 + β2x2 + ... + β kxk + ε


-7-

La representación gráfica para el caso de una sola variable explicativa:

f(y/x')
f(y/x'')

f(y/x''')
x'
x'' µy/x

x'''
X

Ejercicios 1.1.-

1.- Demuestre que Xte = θ

2.- Compruebe que la suma de cuadrados ê t ê correspondiente a cualquier estimador b̂ ,


diferente del estimador mínimo cuadrático, es siempre mayor que la suma de
cuadrados ete.

3.- Sea la matriz Q = I - X (XtX)-1Xt = I - H. Demuestre que:


i.- H es simétrica e idempotente
ii.- HX = X
iii.- Q es simétrica e idempotente
iv.- QX = θ
v.- e = y - Xb = Qy = Qε
vi.- QH = θ
vii.- rango(Q) = n-k
(H suele denominarse matriz “hat” ya que Hy = Xb = ~ y)

4.- Demuestre que :


i.- ete = yty - bt Xty
= yty - bt XtX b
= yt y - ~
yt~
y
ii..- e e = y Qy = εt Q ε
t t

5.- Demuestre que:


i.- ~yt e = 0
ii.- yte = ete
-8-

6.- Considérense dos muestras aleatorias independientes: y11, y12,..., y1n1 y


y21, y22,..., y 2n 2 provenientes de las poblaciones normales N(µ1,σ2) y N(µ2,σ2)
respectivamente. Halle los estimadores mínimo cuadráticos de µ1 y µ2.

7.- Supóngase que en las variables explicativas se produce un cambio de escala, es decir
se consideran las nuevas variables:

wij = cj xij siendo cj una constante (j=1,2,...k)

en lugar de las xij. Demuestre que el vector de estimaciones ~


y no se altera.

8.- Para estimar dos parámetros φ1 y φ2 es posible obtener observaciones de tres tipos:
a.- y1i tales que E(y1i) = φ1
b.- y2i tales que E(y2i) = φ1 + φ2
c.- y3i tales que E(y3i) = φ1 - 2φ2

Si se tienen m observaciones del tipo a, m observaciones del tipo b, y n observaciones


del tipo c, halle los estimadores mínimo cuadráticos de φ1 y φ2.

1.5.- MODELO CON TERMINO CONSTANTE

Nos referiremos ahora al caso particular, de frecuente utilización en la práctica, de


un modelo de regresión lineal múltiple que incluye un término constante βo. En tal
situación, cada observación es de la forma(3):

yi = βo + β1xi1 + β2xi2 + ... + βkxik + εi (i = 1,2,...,n)

Al escribir estas ecuaciones en forma matricial tenemos:

 y1  1  x 11 x 12 L x 1k   β1   ε1 
        
 y2  1  x 21 x 22 L x 2k   β 2   ε 2 
 M  =  M  βo +  M M M  M   M 
+
   
1     
y
 n    x n1 x n2 L x nk   β k   ε n 

o bien:

ynx1 = jnx1 β o + X1β1 + ε (12)

(3)
Es importante advertir que en el MLG el número de parámetros es k, mientras que en el caso del modelo
con término constante es k+1. Para evitar confusión diremos que k es el número de variables explicativas.
-9-

Obsérvese que como:


β 
ynx1 = (jnx1, X1 )  o  + ε
 β1 

= Xnx(k+1) β(k+1)x1 + ε

entonces este modelo puede considerarse como un caso particular del modelo general para
el cual:
β 
Xnx(k+1) = (jnx1, X1nxk) y β(k+1)x1 =  o 
 β1 
donde X1 es la matriz que contiene la información relativa a las k variables explicativas, y
β1 es el vector de coeficientes de regresión correspondientes: β1, β2, ... βk .

Antes de obtener la forma particular de los estimadores mínimo cuadráticos, vamos a


introducir el concepto de matriz de centraje y demostrar algunas de sus propiedades.

Definición 1.2.- “MATRIZ DE CENTRAJE”


Se define como matriz de centraje a la matriz:

jjt 1
Pnxn = In - = In - Jn
n n

siendo jnx1 un vector de unos y Jn una matriz de unos.

Propiedades
1
 
1
a) jtj = (1 1 ... 1)   = n
M
 
1
 

jjt 1
b) jt P = jt (In - ) = jt - (jtj) jt = jt - jt = θt
n n

c) Dado el vector ynx1, entonces:

 y1 
 
y  n
jty = (1 1 ... 1)  2  =
M
∑y i
  i =1
y 
 n
así que la media:
1 t
y= jy
n
-10-

d) Dada la matriz Xnxk, entonces:

 x 11 x 12 L x 1k 
 
 x 21 x 22 L x 2k  n n n
jtX = (1 1 ... 1) 
M M M 
= ( ∑x , ∑xi1 i2 , ... ∑x ik )
  i =1 i =1 i =1
x x L x 
 n1 n2 nk 

así que:
1 t
jX = ( x1 , x2 , ... xk ) = xt
n

 x1 x 2 L x k 
 
 x1 x 2 L x k 
e) j xt = ( j x1 , j x2 , ... j xk ) =  M M M 
 
x x L x 
 1 2 k

f) Dado el vector ynx1, entonces:


jjt
Py = (I - ) y = y - j y = yc
n
denominado vector y centrado, cuya i-ésima componente es igual a (yc)i = yi - y .

g) Dada la matriz Xnxk, entonces:


jjt
PX = (I - ) X = X - j X t = Xc
n
denominada matriz X centrada por columna, cuyo elemento genérico es igual a
Xc(i,j) = xij - x j

h) jt Xc = jt PX = θt

i) La matriz J es tal que(4):


Jt = (jjt)t = jjt = J
JJ = (jjt)(jjt) = njjt = nJ
tr(J) = n

(4)
De aquí se desprende que J no es idempotente, pero (1/n)J sí lo es.
-11-

j) La matriz P es tal que:


1 1
Pt = (I - J )t = (I - J) = P
n n
1 1 1 1 1 1
PP = (I - J)( I - J) = I- J - J + J = I - J = P
n n n n n n
1
rango(P) = tr(P) = tr(I) - tr( J) = n-1
n

Para hallar los estimadores mínimo cuadráticos de βo y β1 sustituimos X por (jnx1,X1 ),


b 
y b por  o  en las ecuaciones normales XtXb = XtY.
 b1 

Por una parte se tiene que:

(XtX) = (j , X1)t (j , X1)

 jt 
=  t  (j , X1)
X 
 1

 jt j jt X 1 
=  t 
 X j Xt X 
 1 1 1

 n jt X 1 
=  t  (13)
 X j Xt X 
 1 1 1
Por otro lado:

 jt 
XtY =  t Y
X 
 1

 jt Y 
=  t 
 X Y
 1 

Sustituyendo:

 n jt X 1   b o   jt Y 
 t   t 
 X j X t X   b  =  X Y
 1 1 1  1   1 
-12-

de donde:
n bo + jt X1 b1 = jt Y

X 1t jbo + X1t X 1 b1 = X1t Y

despejando bo en la primera ecuación:


1 t
bo = ( j Y - jtX1 b1 )
n
= y - X 1t b1

sustituyendo en la segunda:

(j t Y − j t X 1b 1 )
X j t
1 + X1t X 1 b1 = X1t Y ⇒
n

( X 1t jjt X 1 b 1 ) ( X *t jj t Y)
X1t X 1 b1 - = X *t Y - ⇒
n n

jjt jjt
X *t ( I - )X*b* = X *t ( I - )Y ⇒
n n

X *t PtP X* b* = X *t PtPY ⇒

ˆ *t X
X ˆ * b* = ˆ *t Ŷ
X ⇒

b* = ( X̂ *t X̂ * )-1 X̂ *t Ŷ

en conclusión:

bo = y - X *t b*
(14)
b* = ( X̂ *t X̂ * )-1 X̂ *t Ŷ

Es importante resaltar que el término genérico en la posición (j,l) de la matriz


ˆ X
(X ˆ )kxk es de la forma:
t
*

n n
∑ ( x ij − x . j )( x il − x .l ) = (n-1) S(Xj, Xl) = ( ∑ x ij x il - n x .j x .l )
i =1 i =1

siendo S(Xj, Xl) la covarianza entre Xj y Xl estimada a partir de los datos.

Das könnte Ihnen auch gefallen