Regresion Multiple

Regresin Lineal
Mltiple
Santiago de la Fuente
Fernndez
Regresin Lineal
Mltiple
Fernndez
Regresin Lineal
Mltiple
REGRESIN LINEAL MLTIPLE
Las tcnicas de regresin lineal mltiple parten de (k+1) variables cuantitativas,

siendo Y la variable de respuesta y ( X1 , X2 , LL , Xk ) las variables explicativas.
Se trata de extender a las 'k' variables las tcnicas de la regresin lineal
simple. En esta lnea, la variable Y se puede expresar mediante una funcin
lineal de las variables (X1 , X2 , LL , Xk )
Y = 0 + 1 X1 + 2 X2 + L +
k Xk
Para ello, dispondremos de una modelo de probabilidad (la Normal). El
estadstico fija los valores de las variables regresoras X ki y obtiene 'al azar' los
correspondientes valores Yi
Modelo: = 0 + 1 X1 + 2 X2 + L + k Xk + U
Y
Sea la muestra aleatoria: Yi = 0 + 1 X1 i + 2 X2 i +
L + K XK i + ui
2
Yi
+ 1 + 2 + L +
X , )
N(0
X1
independientes,
k
X2
(i = 1,2, L ,n)
(i = 1,2, L ,n)
ui N(0, ) independientes, (i = 1,2, L ,n)

Y
1
Y2
En forma
matricial:
M = M

M

yn
Xk 1 u
0
1
X12
Xk 2 1
u2
L
M L M M + M

X11
L
M L M M

Xk n k
X1n
M
u
n
Y = X + siendo X =' matriz del diseo'.

U
Las hiptesis comunes entre las regresiones lineal y mltiple son:

2
a)
N(0, )
Normalidad: ui
b) Linealidad: E(u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d)
Independencia:
Fernndez
u i son
independientes (i = 1,2, L ,n)
Regresin Lineal
Mltiple
Requisitos adicionales de la regresin mltiple:

a) n > k+1. El modelo depende de (k+2) parmetros. Para que la
regresin tenga significado debe haber un nmero suficiente de datos.
b) Ninguna de las variables explicativas X es combinacin lineal de las
otras (Colinealidad). Si alguna de las Xi es combinacin lineal exacta de
alguna de las otras Xi , el modelo puede simplificarse con menos
variables explicativas. Tambin hay que considerar si alguna de las Xi
est fuertemente correlacionada con otras.
Fernndez
ESTIMACIN DE LOS PARMETROS

Sea la muestra aleatoria: Yi = 0 + 1 X1 i + 2 X2 i +
(i = 1,2, L ,n)
L + K XK i + ui
En forma matricial: Y = X siendo X ='matriz del diseo'.
+U
Datos
X1
X2
X k1
La nube de puntos est

en un espacio de
dimensin (k+1).
X k2
Es difcil de visualizar para k>2
Y1
X 11
X 21
Y2
X 12
X 22
M
n
Yn
n X2
i1
X 1n
XK
X 2n
X kn
Xi1Xi ... Xi1Xik

2
i=1
n
i=1
n
X Xi2
donde X' X = i=1
i1
,
... X Xik
i=1 i2
M
...
Xi2
i=1
M
M
n
X ikX
i=1 i1
Xik X
i=1
Cada uno de los

coeficientes
i=1
n
...
i2
Xik
i=1
= [X'X ]
X' Y
donde X' es la matriz

transpuesta del diseo
n X Y
i1 i
i=1
n
Xi2 Yi
X' Y =
M
i=1
Xik Yi
i=1
i representa el efecto de la variable independiente sobre

la variable
indica la variacin que experimenta la variable
explicada. Es decir, el valor

estimado
i
dependiente cuando la variable independiente X i vara en una unidad y

todas las dems permanecen constantes.
Cuando el modelo tiene trmino independiente, las matrices anteriores se
simplifican con las siguientes expresiones:
n
n
X
X' X = i=1
Xi2
i=1
n
X 2
i2
n
... X ik
i=1
n
n
... X X
i=1 i2
M ...
n
nY
i
ni=1
X
ik Y
,
i2 i=1
X' Y = i=1
Xik
i=1
i
2
Xik X
i=1
i2
... X
ik
i=1
i2
u = Y Y = Y + + + L + X
X 1 1X 2 2
i
i
i
i
0
K
K
Xik Yi
i=1
= S2 =
R
u2
n k 1
i=1
En un principio, para estimar la varianza del error aleatorio U, parece razonable

utilizar la varianza de los errores de prediccin, tambin denominados residuos
del modelo.
Es decir, parece razonable
1
2
utilizar =
2
embargo,
este estimador es sesgado
ui . Sin
2
2
E( ) ,
n
i=1
n
u2 .
por tanto, se utiliza como estimador
1
2
S =
R
n k 1 i=1
i
DEMOSTRACIN ( Y = X
+U
= [X'X ]
X' Y )
Y = X + U . El correspondiente modelo ajustado ser Y = U = Y Y = Y X

X , con lo cual,
Denominando S a la suma de los cuadrados de los residuos:
u 1
u
n
S = U ' = [ u , , LL , ] 2 = i=1
u ( U' matriz transpuesta de U )
1 2
i
U
u n
u

u n
'
S = Y X Y X = Y' Y ' X' Y = Y' Y ' X' Y ' X' Y + Y' Y 2 ' X' Y +
' X' XB
' X' X B =
14444244443
Y' X + ' X' XB
][
un escalar es igual a su
transpuesto
' X'
Y=X' Y
Para minimizar S se aplica el criterio mnimocuadrtico, derivando respecto de :

S = 2 X' Y + 2 X' X B
= 0
X' X B = a [X' X ]1 (X' X ) B = [X'

X' Y
X ]1 X' Y
a B = [X' X ]1 X' Y
DISTRIBUCIN DE
a) Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y
matriz transpuesta del diseo).
(siendo X' la
b) El vector de observaciones Y se distribuye segn una normal multivariante de

media X y de
2
matriz de varianzas y covarianzas I , es decir, Y N( X , I) .

c) es combinacin lineal de las componentes del vector Y, por lo que se
distribuye segn una variable aleatoria normal, donde su media y matriz
de varianzas y covarianzas ser:
E( ) = E [X' X ] X' Y = [X' X ] X'E(Y) = [X'

1
es un estimador insesgado de
X ] X' X =
1
Var ( ) = Var
( [X' X]
X' Y = [X' X ] X' [Var (Y)] X [X' X ] = [X' X ] X' X [X' X ] =

1
[X' X ]
2
de
donde,
N , 2 [X'X ]
u = Y Y = Y + + + L + X
i i i i
0X 1
1X 2
2
K
Ki
Con el ajuste de mnimos

cuadrados:
i N , i +1, i
+1
) , donde
i +1, i
son los elementos de la diagonal principal [X'X ]
+1
Anlogamente, la covarianza
entre i y
j
ser
2 q
i 1,i 1
+
2
2
se hace mediante S = u , pudindose
1
R
i
n k 1
comprobar que el estimador es insesgado:
i=1
R
La estimacin de la varianza
2
residual
[ ]=
2
ES
i +1, i +1
De forma que estimaremos la varianza

de
i
SR
mediant q
e
i +1, i +1
N , q
2
(n k 1) RS
2
Se demuestra
que
nk 1
2
Se
obtiene
i i
N(0,1) .
q i +1, i
+1
Como la variable tStudent con kgrados de libertad

se define: tk =

i
resulta que,
t =
1
k
2
k
q i +1 , i +1
1
N(0,1)
(n k 1)R

tnk1
i i
=
SR q i +1, i
+1
(n k 1)
d) CONTRASTE DE HIPTESIS [tStudent]

Nos planteamos si la variable X i influye sobre la variable de respuesta Y. En
otras palabras, si el valor del parmetro en la poblacin es cero o no.
Para ello, se establece la hiptesis nula
H0 : i = 0
frente a la hiptesis alternativa H1: i 0 .

i i
, bajo la hiptesis nula
El estadstico observado
q i +1, i
resulta, t =
t=
SR +1
estadstico
experimen
tal
64474
48
Se acepta la hiptesis nula H0
cuando
SR qi +1, i
estadsti
co
terico
647
48
t
2
; (nk1)
i
q i +1, i +1
SR
. En caso contrario, se
rechaza.
+1
Si n > 30 , se acepta la hiptesis nula t 2 . En caso contrario, se acepta la

H0 cuando
hiptesis
alternativa H1 , concluyendo que la variable Xi isima influye en la respuesta.
CLCULO DEL COEFICIENTE DE CORRELACIN PARCIAL

En un modelo de regresin lineal
mltiple, Y
= 0 + 1 X1 + 2 X2 + L + k Xk , se puede
calcular
fcilmente el coeficiente de correlacin parcial entre la variable de
respuesta Y y una variable regresora X, controlado por el resto de
variables regresoras. Para ello se utiliza el contraste individual de la t
respecto a la variable X, y que se define como:
ti =
SR qi +1, i +1
2
Y iC
Obtenindose la siguiente
relacin:
R =
i = 1,2,...,k,
ti2
ti2 + n (k +
1)
dond C = {1,2, ... ,i 1,i + 1, ... ,k } conjunto de ndices de todas las variables
e
regresoras excepto el
ndice isimo.
e) INTERVALOS DE CONFIANZA DE LOS
i
PARMETROS
Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y
(siendo X' la
matriz transpuesta del diseo).

n
Por otra parte, N

, 2 q
i
)i 2
(y y
i
), donde la varianza
i +1, i
2
se estima por S =
residual
+1
donde q
i +1,
son los elementos de la diagonal principal [X'X ]
i +1
IC 1 (
i ) =
t / 2 , (nk 1)
i + 1, i +1
SR
CONTRASTE DE HIPTESIS INTERVALOS DE CONFIANZA

Hiptesis nula
Hiptesis
alternativa
H0 : i X i no influye
en Y X i influye
=0
H1: i en Y
0
i=1
n k 1
Se acepta la hiptesis nula H0 , X i no influye en Y, con un nivel de confianza (1

) cuando el
cero se encuentra en el intervalo de confianza.
En caso contrario, cuando el cero no cae en el intervalo de confianza, se
acepta la hiptesis alternativa H1 , y en consecuencia, X i influye en Y.
Este contraste es equivalente al contraste de la tStudent para cada i
f) INTERVALO DE CONFIANZA PARA LA VARIANZA DE LOS RESIDUOS
2
(n
(n k 1) S SC
2 k 1)
S
2R
R
R
;
IC =
=
2
2
2
, (nk1)
, (nk1)
,
2
(nk1)
SCR
, (nk1)
DESCOMPOSICIN DE LA
VARIABILIDAD
n
6447=0 448
i=1
i=1
SCT = ( Yi 2 = ( Yi Y i)+ ( Yi = ( Yi Y 2+ ( Yi Y2 + 2 ( Yi Yi ).( Yi Y )

i=1
i=1
Y)
Y)
)
i)
i=1
2( Y Y
( Y Y ) 2 =
1i=142
43
SC
T
1i=1
4243
SC
E
suma cuadrados
total
(n1) grados
libertad
2
( Y Y )
suma cuadrados
explicada
k grados
libertad
1i=142
43
SC
R
suma cuadrados
residual
(nk1) grados libertad
( Y Y 2) 2 = ( Y Y ) 2 + (
Y Y)
i=1
i=1
i=1
2
( Y Yi )i
1 =
i=1
n
( Yi Y
)2
1i=142
43
SCR /
SCT
2
( Yi Y )
i=1
n
( Yi Y ) 2
1i=14243
R2 =SCE/
SCT
Una vez estimado el modelo es conveniente obtener una medida acerca de la

bondad del ajuste realizado. Un estadstico que facilita esta medida es el
2
Coeficiente de Determinacin ( R ), que se
n
2
( Yi Yi )
SCE
= i=1n
define R 2 =
SC
T
2
( Yi Y )
i=1
El Coeficiente de Determinacin permite, adems, seleccionar entre modelos

clsicos que tengan el mismo nmero de regresores, ya que la capacidad
explicativa de un modelo es mayor cuanto ms elevado sea el valor que tome
este coeficiente.
Por otra parte, el valor coeficiente de determinacin crece con el nmero de

regresores del modelo. Por ello, si los modelos que se comparan tienen distinto
2
nmero de regresores, no puede establecerse comparacin entre sus R .
2
En este caso debe emplearse el coeficiente de determinacin corregido R ,

que depura el incremento que experimenta el coeficiente de determinacin
cuando el nmero de regresores es mayor.
SCR n 1
n
2
2
=1
R =1
[1 R ]
1
k
SCT n 1
n k 1
ANLISIS DE LA VARIANZA: TABLA ANOVA

Variaci
n
Explicad
a
Residual
Suma
n
cuadrados
SCE Y=i)( Yi 2
i=1
Grados
libertad
k
SCR= (Yi Y )2
Media
cuadrtica
SC
E
SCR
n k 1
n k 1
i=1
n
SCT = ( Y Y
i
)2
Total
FSnedecor
F=
SCE / k
SCR / (n k
1)
n
1
CONTRASTE DE HIPTESIS:
Hiptesis
nula
H0 : 1 = = LL = k =
0
2
el modelo no es explicativo
Hiptesis
alternativa
H1: al menos un
i 0
el modelo es explicativo
A un nivel de confianza (1 ) se
rechaza H0 si
F F; k , (nk1)
FSnedecor COEFICIENTE DE
DETERMINACIN
El coeficiente de determinacin se
define: R
2
( Yi Yi )
SCE
i=1
SC
T
( Yi Y )
i=1
De otra parte, la distribucin F

Snedecor:
F
/k
=
SCE
1 nk1
SCE SCT n
nk1 2
1
nk
2
= R2
=
R
1
R
k1
1
2
=
=
=
1
R
k
SCR k
SCT SCE k
SCR / (n k SCT SCR k
1)
SC
SC
T
T
2
R
12
R
n k
1
k
F = R2 n k
1
1
2
k
R
RESUMEN DE CONTRASTES
Contraste Conjunto Contrastes
Individuales
FSnedecor
Modelo explicativo Todas lastStudent
Xi son
Modelo explicativo explicativas
Algunas Xi son
Ninguna Xi es
explicativas
explicativa
Todas las Xi son
explicativas
Algunas Xi son
Conclusin
Tomamos todas las Xi
Nos quedamos con las Xi explicativas
Modelo
explicativo
Modelo
explicativo
Modelo
no
no
Ninguna Xi es
explicativa
Posible Multicolinealidad (revisar el

Modelo)
Posible Multicolinealidad (revisar el
Modelo) Posible Multicolinealidad
(revisar el Modelo) El Modelo no
PREDICCIN EN EL MODELO DE REGRESIN

Una vez estimado y validado el Modelo, una de sus aplicaciones ms
importantes consiste en poder realizar predicciones acerca del valor que tomara
la variable dependiente en el futuro o para una unidad extramuestral.
Esta prediccin se puede realizar tanto para un valor individual como para
un valor medio, o esperado, de la variable dependiente, siendo posible
efectuar una prediccin puntual o por intervalos. Su clculo se realiza
mediante las siguientes expresiones:
Intervalo de confianza para un valor medio de Y para los valores ( X10 , X20
, LL , Xk 0 ) de las variables explicativas.
Y 0 =
+ 1 X10 + 2 X20 + L + K XK 0
IC
E(Y0 )
= Y0 t
SR
/ 2 , (nk 1)
(1
X 10
X 10
X k ) (X'X) 1 20
0
X
XK 0
X 20
L
Intervalo de confianza para un valor individual de Y para los valores ( X

20 , LL , X k 0 ) de las variables explicativas.
IC
Y0
= Y0 t
SR
/ 2 , (nk 1)
1 +
(1
MATRIZ DE COVARIANZAS
La define:
matriz de varianzascovarianzas
se
= Sx y
S2 yx S yx1
= 1
x
S
S
yx Sx2 y
Sy 1
x
VC Sx 1 y x21
S
S
x 2y
,X
X 10
X k ) (X'X) 1 20
0
X
XK 0
X 10 X 20
L
y2
10
x
1
x 22
S
x1 x 2
=S
x
Los coeficientes ( 1 , 2 ) vienen dados, respectivamente, () , por el cociente

con signo negativo
de
2
2
los adjuntos ,
yx1
(S
S yx
) entre el adjunto de 2 :
y
1 = VCyx 1
VCy
2
x1
S1 x 2
donde VC y
Sx 2 x 1 x2 2
,
=
2 = VCyx 2
VCy
=Y
X2
1 X1
0
Sx 1 Sx 1 x
y
VC y1x =
2
Sx 2 y
x2
Sx 1 y
VC y2x =
Sx 2
y
S2x 2 x 1
2
R2 = yx
1
Coeficiente de determinacin
mltiple:
= 1 CV
2
Cy
yy
Coeficientes de correlacin
parcial:
VC 2 =
VC yy
y
VCx =
VC
1
x
1
VCx =
VC
2
yx 1
.x 2
VCyx
VC y VCx 1
y
yx 2
.x 1
VCyx 2
VC y VCx 2 x 2
y
MATRIZ DE CORRELACIONES
La matriz de correlaciones de las variables explicativas Rx est formada por
los coeficientes de correlacin lineal simple:
S
= yx1
r
yx
1
1 ryx ryx
ryx = rx
y
1
2
y
x1
1 1
Rx = rx 1 y 1 rx1 2 donde r yx = rx 2 y
r
r
1
x 2y x 2 x 1
rx
ryx 1 .x 2 =
Coeficientes de correlacin
parcial:
ryx 2.x =
Coeficiente de determinacin
mltiple:
x
2
ryx ryx2 rx1
(1 yx
)(1 x1r 2
2
r 2
ryx2 ryx1 rx2
2
yx1
2
(1 r )(1 r
)
x2 1
r
R = r 1 x =2
2
S yx
2
=
r
yx 2
y
x2
= r1 x
2
yx
2
yx
1
2
+ ryx
2 yx
r 1 ryx 2 rx 1 x 2
2
12
r x 1x
2
Ejercicio 1. Se pretenden estimar los gastos en alimentacin de una familia en

base a la informacin que proporcionan las variables regresoras 'ingresos
mensuales y 'nmero de miembros de la
familia'. Para ello se recoge una muestra aleatoria simple de 15 familias, cuyos
resultados se facilitan en la tabla adjunta. (El gasto e ingreso se expresan en cien
mil euros).
Gasto
Alimentacin
0,4
3
0,3
1
0,3
2
0,4
6
1,2
5
0,4
4
0,5
2
0,2
9
1,2
9
0,3
5
0,3
5
0,7
8
0,4
3
0,4
7
0,3
8
Solucin: En forma
matricial:
Ingresos
2,1
0
1,1
0
0,9
0
1,6
0
6,2
0
2,3
0
1,8
0
1,0
0
8,9
0
2,4
0
1,2
0
4,7
0
3,5
0
2,9
0
1,4
0
Tamao
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
Y = X + = [X' X ] X' Y , donde X' matriz transpuesta

1
U ,
0,43
1 2,1 3
0,31
1 1,1 4
0,32
1 0,9 5
0,46
1 1,6 4
1,25
1 6,2 4
0,44
1 2,3 3
0,52
1 1,8 6 0 u1
Y = 0,29 = X + U =
5 1 + u2
1
1

1,29
1 8,9 3 2 u3
0,35
1 2,4 2
0,35
1 1,2 4
0,78
1 4,7 3
0,43
1 3,5 2
0,47
1 2,9 3
1 1,4 4
0,38
Aplicando el criterio de los mnimos cuadrados ordinarios MCO, la funcin que

mejor se ajusta a los datos es la que minimiza la varianza del error U, lo que
conlleva a un sistema de ecuaciones normales:
15
15 Y = N + 15
X
0
1
1i + 2 X 2i
i=1 i
i=1
i=1
15
15
15
15
2
ecuaciones
Y =
normales MCO
0 X1i+
1 X1i +
2 X1i X2i
X
i=1
i=1
i=1
i=1 1i
15
15 i
15
15
2
X
Y
X
X
X
=
2i i
0
2i
1 1i
2i + 2 X 2i
i=1
i=1
i=1
i=1
Con estos datos, se obtiene:

Yi
X1i
2
X2i
X21i
X2i
X1i
Yi
X1i
X2i
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15
Yi =
8,07
i=1
2,1
1,1
0,9
1,6
6,2
2,3
1,8
1
8,9
2,4
1,2
4,7
3,5
2,9
1,4
15
X1i =
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
4,41
1,21
0,81
2,56
38,44
5,29
3,24
1
79,21
5,76
1,44
22,09
12,25
8,41
1,96
15
15 2
X1i =
i=1 188,08
X2i =
42
55
i=1
i=1
9
16
25
16
16
9
36
25
9
4
16
9
4
9
16
15 2
con lo
cual,
i=1
15
Y =
i=1
1,29
1,24
1,6
1,84
5
1,32
3,12
1,45
3,87
0,7
1,4
2,34
0,86
1,41
1,52
15
Y =
i
X2 28,96
i=1
+
= 8,07
15 +
42 55
15
15
15
+
+
=
2
X
Y
=
0 1i +
1 X
1i +
2 X
1i 2i
X 42
0 188,08 1140,08 2 32,063
i=1 1i
i=1
i=1
i=1
i
550 + 140,081 + 2192 =
15
15
15
15
2
28,96
X
Y
X
X
X
X
=
2i i
0 2i
1 1i
2i
2 2i
15
i=1
i=1
i=1
i=1
en forma
matricial,
[X'X ]
6444447
48
444448
647X'Y
0,092
0,282 8,07

644447
44448
15
42
55
X'X
55 140,
8
0,903
0,341
0,288
0,736
7,750
1,012
0,936
0,29
11,481
0,84
0,42
3,666
1,505
1,363
0,532
i
X1X2i140,8 X1 32,063
i=1
i=1
i=1
15
=
2i
X219
Yi = N0 + 1 X1i + 2 X2i
i=1
6,3
4,4
4,5
6,4
24,8
6,9
10,8
5
26,7
4,8
4,8
14,1
7
8,7
5,6
X2i Yi
21
9
8,07
28,96
1,36
0,282

0,01
3
0,067 28,96
0,16
0

= 0,149 Y = 0,16 + 0,149 X + 0,077 X +
1
2
1
Re siduo

0,077

(Modelo regresin lineal)
Y
i = 0 + 1 X1i se obtienen las predicciones y residuos
A partir de la
ecuacin
asociados
+ 2 X 2i
ui = Yi Yi a las observaciones muestrales. De este modo, para la primera
observacin
( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ), se tiene:
Y = 0,16 + 0,149 (2,1) + 0,077 (3) = 0,3839
u =1 Y 1 Y1 = 0,43 0,3839 = 0,0461

En esta lnea, considerando todos los puntos muestrales, se obtiene:
Predicciones:
Yi
2
i
Residuo ui = Yi i
s:
Y
0,3839
0,046
0,3119
0,3591
0,3864
u
0,002
0,0000
0,039
0,0015
1,3971
0,3516
0,050
0,0025
0,084
0,0071
0,107
0,0115
0,002
0,0000
0,3566
decir, la variabilidad de Y
respecto a la recta
ajustada ser:
15
i=1
0,000
5
0,023
0,7713
0,5031
de donde, la suma
de cuadrados
RESIDUAL, es
SCR
2 = (Y
Y )
0,3268
0,009
0,5155
0,0021
0,005
4
0,031
8
0,000
7
0,178
0,4137
0,374
0,074
1,0718
0,026
0,5702
= (Yi Y )
0,000
1
0,086
0,0073
0,033
0,0011
= 0,0721
SCR
SR =
=
15 2 1
12
0,0721
= 0,006
S = 0,006 = 0,0775
0,0005
15
0,023
2
(Y Y ) =
i=1
0,0721
1
INTERVALOS DE CONFIANZA PARAMTROS DEL MODELO (1 ) = 0,90
Intervalo de confianza para la varianza

2
=
2
=
S
2 = 0,0721
R
0,05,1 21,02
0,95,1 5,226
2
=

=
n
= 12k 1 15 2 1 S
0,006
R
SCR
,
2
(nk1)
2
1
,(nk1)

2
2

(n 1) S
(n
1)
k
k SR
R
IC =
;
=
(nk1)
SC
R
0,0721 0,0721
[
]
;
; 0,0138
= 0,0034
2
5,226

21,026
1 ,(nk1)
2
=
0,0034 0,0138
) La varianza de los estimadores del modelo N , 2 [X' X ] 1 :

q
i +1, i
+1
elemento de
[X'X ]
644474448
1
1
2
2
Var ( ) = [X' X ] S [X' X ]
= (0,006)
i
R
S2 q+1, i +1
i
644444744444
8
R
1,36
0,00816
0,01
0,000096
6
0,067
0,0004
Var(0 ) = 0,00816
0,00816 = 0,0903
=
0,000096 = 0,0098
0
Var( ) = 0,000096
1
1 =
Var( ) = 0,0004
0,0004 = 0,02
2
1
=
de
donde se
deduce,
Intervalo de confianza para los

parmetros:
IC1 (i ) =
t / 2 , (nk1)
q i +1, i +1
SR
0 =
1 =
0,160
0,149
0,077
IC1 () =
0,00816
(1,782)
0,160
IC1 (
0,149
1 ) =
0,000096
0,1665
(1,782)
IC1 () = 0,077 (1,78

2)
] [ 0,321 ; 0,001 ]
] = [ 0,1315 ;
(Ingreso)
[ 0,0414 ;
(Tamao)
0,0004
=
t0 ,05 , 12 = 1,782
0,1126
Contraste de Hiptesis individual para X 2 (tamao familiar)

Nos planteamos si la variable X 2 (tamao) influye sobre la variable de
respuesta Y (gastos). En otras palabras, si el valor del parmetro en la
poblacin es cero o no.
Para ello, se establece la hiptesis nula frente a la hiptesis alternativa H1: 2
H0 : 2 = 0
0.
El estadstico
observado t =
, bajo la hiptesis nula resulta: t =
SR q33
SR q33
Por
tanto,
2 =
SR q33 =
0,0004 =
0,077
(0,0775)
0,00155
t0 ,05 , 12 = 1,782
El estadstico
experimental
t=
2
0,077 = 49,67
=
SR q33 0,0015
5
Siend t > t 0 ,05 , se rechaza la hiptesis nula, afirmando, con un 90% de

o
fiabilidad, que el
12
nmero de miembros de la familia influye en los gastos de alimentacin.

* Obsrvese que en el Intervalo de
IC1 (2 ) = [ 0,0414 ; 0,1126 ] el
Confianza para 2 :
cero no
se encuentra en el intervalo, con lo que se rechaza la hiptesis nula H0 : 2 = 0
, concluyendo que
el nmero de miembros de la familia (tamao) si influye en los gastos de
alimentacin (Y).
MODELO LINEAL DE REGRESIN MLTIPLE: HERRAMIENTAS DE SOFTWARE
EXCEL Y LA REGRESIN MLTIPLE
Se puede utilizar el anlisis de la regresin lineal mltiple para estimar el gasto

de familias en alimentacin (Y) basndose en las variables X1='Ingresos
mensuales' y X2='nmero de miembros de la familia'.
Excel dispone de anlisis de
Regresin para ajustar el modelo
de regresin mltiple,
simultneamente proporciona las
estimaciones de los parmetros, la
contrastacin individual, y el
anlisis de los residuos.
En el men Herramientas, tenemos
el dilogo Anlisis de datos, donde
elegimos Regresin, obtenindose
un cuadro de dilogo que permite
realizar un ajuste para la regresin
mltiple.
Los Campos de Entrada tienen las funcionalidades:

Rango Y de entrada: Introducir la referencia
correspondiente al rango de datos
dependientes. El rango debe estar formado por
una nica columna.
Rango X de entrada: Introducir la referencia
correspondiente al rango de datos
independientes. Excel ordenar las variables
independientes de este rango en orden
ascendente de izquierda a derecha. El nmero
mximo de variables independientes es 16.
Rtulos: Activar esta casilla cuando la primera fila o la primera columna del rango
(o rangos) de entrada tienen rtulos. No activar en el caso de que el rango de
entrada carezca de rtulos. Excel genera los rtulos de datos correspondientes para
la tabla de resultados.
Nivel de confianza: Activar esta para incluir ms niveles de confianza en la
tabla de resmenes de resultados. Introducir el nivel de confianza a aplicar
adems del nivel predeterminado del 95%.
Constante igual a cero: Activar esta casilla para que la lnea de regresin pase por
el origen.
Rango de salida: Introducir la referencia correspondiente a la celda superior
izquierda de la tabla de resultados. Dejar por lo menos siete columnas disponibles
para la tabla de resultados sumarios, donde aparecen: tabla de anlisis, nmero
2
observaciones, coeficientes, error tpico del pronstico Y, valores de R y error tpico
de coeficientes.
En una hoja nueva: Hacer clic en esta opcin para insertar una hoja nueva en el
libro actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de
clculo. Para dar un nombre a la nueva hoja de clculo, anotarlo en el cuadro.
En un libro nuevo: Hacer clic para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. Si desea incorporar la opcin grfica tiene que
teclear esta opcin.
Residuos: Activar esta casilla para incluir los residuos en la tabla de resultados.
Residuos estndares: Activar esta casilla para incluir residuos estndares en la
tabla de resultados de residuos.
Grficos de residuos: Si activa esta casilla se genera un grfico por cada variable
independiente frente al residuo.
Curva de regresin ajustada: Si activa esta casilla se genera un grfico con
los valores pronosticados frente a los valores observados.
Trazado de probabilidad normal: Activando esta casilla se genera un grfico con
probabilidad normal.
Finalmente, con las opciones activadas en la figura anterior, en la tabla de
resultados aparecen los estadsticos de regresin, cuadro de anlisis de la
varianza del modelo, estimadores, contrastes de significacin de FSnedecor y
de tStudent con sus pvalores asociados, intervalos de confianza para los
parmetros y para las predicciones al 90% y 95%, y residuos.
La siguiente figura presenta el grfico de cada variable independiente (X1, X2)

contra los residuos, lo que se utiliza para detectar el problema de no linealidad,
heteroscedasticidad, y autocorrelacin en el modelo del ajuste.
Lo mejor es que todas las grficas presenten una estructura aleatoria de puntos.
La figura adjunta presenta el

grfico para detectar la hiptesis
de normalidad en el modelo.
La grfica ideal es la diagonal
del primer
cuadrant
e.
Las siguientes grficas visualizan cada variable independiente contra los

valores predichos, lo que sirve para detectar problemas de
heteroscedasticidad.
Lo ideal es que todas las grficas presenten una estructura aleatoria de puntos.
SPSS Y LA REGRESIN MLTIPLE

Con datos introducidos en SPSS, intentamos ajustar un modelo mediante Mnimos
Cuadrados
Ordinarios (MCO).
Para ello, se elige en el Men Analizar / Regresin / Lineal, como se indica en la
figura adjunta.
En el cuadro de la Regresin lineal se introduce la variable

dependiente (Y) y las variables independientes ingresos (X1) y tamao
familiar (X2). En el botn [Opciones]:
En las opciones [Estadsticos y Grficos], se procede como aparece en las

selecciones adjuntas.
En el botn [Grficos] se selecciona residuos contra valores predichos. Al pulsar
Aceptar se obtiene el ajuste del modelo.
En el Visor de SPPS, el ajuste del Modelo:
Respecto a la autocorrelacin, el estadstico de DurbinWatson de 1,177 no deja

claro la presencia o
n
(u u ) 2
no de
autocorrelacin:
DW = i=2
i 1
n u)
i
2
i=1
DW
2
2(1 DW
0
DW
4
si = 0
si = 1
si = 1
El anlisis de la varianza indica que el modelo de regresin es significativo (p

valor aproximadamente cero, F2, 12=113,141, pvalor < 0,001). Por tanto, se
rechaza la hiptesis nula de que la variabilidad observada en la variable
respuesta sea explicada por el azar, admitiendo que hay algn tipo de asociacin
entre la variable dependiente y las independientes.
El Modelo estimado
sera:
Y = 0,16 + 0,149 X
+ 0,077 X
En la figura del histograma de

los residuos se observa que se
ajusta bien a una distribucin
normal.
En la figura se presenta el grfico de

normalidad que se ajusta muy bien a la
diagonal del primer cuadrante.
En el grfico de residuos
tipificados contra valores
predichos existen dudas sobre la
aleatoriedad porque los puntos se
concentran siguiendo rectas
paralelas, lo que permite
vislumbrar problemas de
heteroscedasticidad.
Regresin Lineal
Mltiple
ANLISIS DE LA VARIANZA: TABLA ANOVA

n
2
( Y Y ) =
( Y Y
2
)
i
i=1
1424
3
SC
total
T
Descomposicin de la
variabilidad:
i
1424
3 i
SC
E
Explicada
Residual
Suma de
Cuadrados
15
SCE = ( Y Y )
1,3595 i
i=1
15
SCR = ( Y Y )
0,0721
i
i
i=1
15
SCT = ( Y Y )
1,4316 i
Total
Gr.
libertad
2
15 2
1
15 1
(Yi Y)2
Yi
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15
Yi =
8,07
i=1
0,011664
0,051984
0,047524
0,006084
0,506944
0,009604
0,000324
0,061504
0,565504
0,035344
0,035344
0,058564
0,011664
0,004624
0,024964
15
SCT = (Yi Y)
1,4316
suma cuadrados
explicada
k grados
libertad
Media
cuadrtica
SCE
=
suma cuadrados
residual
(nk1) grados libertad
FSnedecor
SCE /
2
F=
=
113,28
SCR /(15 2
1)
0,6797
SCR
=
0,006
SCT
=
0,1023
i=1
Clculo
s
i
1424
i=1
3
SCR
i=1
suma
cuadrados
(n1) grados libertad
Variacin
2
( Y Y )
u2i = (Yi Y2i )
Y)
(Y
i
0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566
0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005
0,0237
0,0511
0,0320
0,0230
0,2849
0,0155
0,0010
0,0269
0,7381
0,0347
0,0446
0,0544
0,0005
0,0012
0,0329
15
Yi
SCR = (Y Y )
0,0721
i=1
i=1
15
(Y Y)
SCE
=
i=1
= 1,3646
A un nivel de confianza (1 ) se rechaza la hiptesis nula, (el modelo no es

H0 : 1 = 2 = 0
explicativo),
Fk , (nk1) F; k , (nk1)
cuando
F2 , 12 =
SCE /
= 113,28 > 3,8853 = F0 ,05; 2 , 12
2
SCR /(15 2
1)
Regresin Lineal
Mltiple
As, pues, se rechaza la hiptesis nula, el contraste conjunto de la FSnedecor

indica claramente la influencia del modelo en la variable respuesta.
Clculo de los coeficientes de correlacin (mltiple y simple)

Estimado el modelo es conveniente obtener una medida acerca de la bondad
del ajuste realizado. Un estadstico que facilita esta medida es el Coeficiente
2
de Determinacin ( R ), que se define:

n
R =
SCE
SCT
2
( Y Y )
=
n
i=1
i
=
i
2( Yi Y
1,3595
= 0,9496
1,4316
i=1
Coeficiente de Correlacin
mltiple: R =
0,9496 = 0,9745
R
Coeficiente de Determinacin
corregido
por el nmero de grados de
libertad
=1
Coeficiente de Correlacin mltiple

corregido: R =
SCR n k 1 0,00 = 0,9413

6
0,102
SCT n 1
3
=1
0,9413 = 0,9702
Coeficiente de correlacin simple

entre las variables (Gasto,
Ingreso):
(Gasto, Ingreso) =
0,9424
Cov(Gasto, Ingreso)
Gasto
Ingreso
Tambin se puede calcular el coeficiente de determinacin de la regresin (Gasto,

Ingreso). La tabla
ANOVA del modelo ser:
SCE 1,272
2
=
= 0,8882
R =
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 =
0,9424
Cov(Gasto, Tamao)
= 0,126
Anlogamente, (Gasto, Tamao) =
Gasto
Tamao
Coeficientes de Correlacin parcial:
Coeficiente de correlacin simple entre

(Gasto, Ingreso):
(Gasto, Ingreso) = 0,942
Regresin Lineal
Mltiple
Coeficiente correlacin parcial entre variables

(Gasto, Ingreso):
mediante la
expresin:
tingreso =
1
2
SR .q
i +1, 1 +1
El coeficiente de determinacin, R
(Gasto,Ingreso; Tamao) =
(Gasto, Ingreso; Tamao) =

0,974
= 15,05
0,149
0,000096
2
2
ingres
o
tingres
o
15,05
2
= 0,9496
+ n (k + = 15,052 +
12
1)
Coeficiente de correlacin. Este coeficiente mide la relacin entre las variables

Gasto e Ingreso libres de la influencia de la variable Tamao.
Anlogamente, el Coeficiente correlacin parcial ente las variables (Gasto,
Tamao):
(Gasto, Tamao; Ingreso) = 0,741
Estimacin de la media condicionada

Supongamos que se trata de estimar el gasto medio de una familia con unos
ingresos de treinta mil
euros (X1 = 3) con cuatro miembros (X2 = 4)
familiares
Aplicando el modelo de
regresin:
IC
E(Y0 )
t
=
Y 0 SR
/ 2 , (nk1)
Y 0 = 0,160 + 0,149(3) + 0,077(4) = 0,595

1

X2 ) (X' X) 11 X

X2
(1
X1
ICE(Y0 )= (0,595) (1,782)

(0,075)
SR = 0,006 =
0,0775
(1
3
t0 ,05; 12 =
1,782
1,36
4)
0,092
0,282
0,09
2
0,01
6
0,01
3
1 = 0,90

0,282 1

0,013
3 = [0,557; 0,633]
0,067 4
Regresin Lineal
Mltiple
15
42
X' X = 188,0
8
42
55 140,
(1
3
55
140,8 [X' X ]
0,092
219
1,36
0,09
2
4)
0,092
0,282
0,01
6
0,01
3
1,36
0,282
0,092
0,282
0,01
6
0,013
0,01
3
0,067
0,282
1
0,013 3 = (
0,044
0,067 4

1

0,00
8
0,025) 3 =
0,08
4

Ejercicio 2. Partiendo de la informacin:

y
x1 j
x2 j
1
3
4
6
7
10
15
16
18
20
2
1
3
4
5
8
7
9
11
12
17
15
13
10
9
8
6
5
3
4
(a) Estimar el modelo de regresin

(b) Obtener una medida de fiabilidad del ajuste lineal
(c) Qu parte de la variabilidad de Y queda explicada a travs del
plano de regresin? (d) Calcular los coeficientes de correlacin lineal
simple
Y = X + = [X' X ] X' Y , donde X matriz transpuesta

1
(a) En forma
matricial:
U ,
1
1 2 17

3
1 1 15
4
1 3 13

6
1 4 10

0 u1
7
1
5
9
+ u
Y= =X+U
1
2
=
10
1 8 8
u

2
3
15
1
7
6
16
1 9 5

18
1 11 3

1 12 4
20
Los coeficientes estimados bajo la condicin mnimo cuadrtica, vienen dados

por:
= [X' X ] X' Y
1
1
1
1
1
1 1 1 1 1 1 1 1 1 1
1
[X' X] = 2 1 3 4 5 8 7 9 11 12
1
17 15 13 10 9 8 6 5 3 4
1
1
2 17
1 15
3 13
4 10
90
10 62
5 9
= 62 51
405 X'0X = 30294
4
8
1
1 12
1
9
1
7
8
6
90
405
1
0
1
3
4
Advirtase que cuando la matriz es singular, es

decir, cuando
X' X = 0 , no existe matriz
inversa y,
En consecuencia, las estimaciones de los coeficientes quedan indeterminadas.
Esto ocurre porque existe multicolinealidad X2 , esto es, que existe una relacin
entre X1 y
lineal
entre estas variables. Para ello se calcula la
regresin de X1
coeficiente de correlacin lineal ser 1.
10
[X' X] =
51
4
62
90 40
5
10
[X'
X]
62
90
90 40
5
62
Adj [X' X ] = Adj 51

4
62
90 40
101
4
5
62
= 62 51
10
sobre
X2
90
21150
357171 26418
1530
405 =
204

0
26418
405
90
=1
101
4
101
4

21150
1 1 1
De otra parte, [X' Y ] = 2 3
1
17 15 13

21150
153
0

21150 11,790
2
1530 =

0,8721
357171 26418
405 =
30294
26418
y su correspondiente
204
0
153
0
129
6

0,6982
1
3

4

6
1 1 1 1 1 1 1
100
7 =
4 5 8 7 9 11 12 843
10 9 8 6
3
10
4 621
15

16
18

20
21150
10,32
357171 26418 100
1
1
= 0,93
1530 843
204
= 1 = [X' X' Y =

0
26418
X]
30294

0,67
153
129 62
0
6
21150
1
2
0
1296
0,8721
0,6982
0,067
3
0,0505
0,050
5
0,0428
El modelo de regresin y = 10,32 + 0,93x1 0,67 x 2

ser:
Tambin se poda haber realizado teniendo en cuenta las ecuaciones normales
mnimo
cuadrticas:
10
10 Y N 10
X
=
+
0
1
1i + 2 X 2i
i=1 i
i=1
i=1
10
10
10
10
2
ecuaciones
normales MCO
Y =
X
0
1i +
1 X1i +
2
X1i X2i
X
i=1
i=1
i=1
i=1 1i
10
10
10
10 i
2
X
Y
X
X
X
=
2i i
0 2i
1 1i
2i + 2 X 2i
i=1
Con estos datos, se obtiene:
i=1
i=1
i=1
Tabla I
Yi
1
3
4
6
7
10
15
16
18
20
X1i
2
1
3
4
5
8
7
9
11
12
X2i
17
15
13
10
9
8
6
5
3
4
Yi
1
9
16
36
49
100
225
256
324
400
X1i
4
1
9
16
25
64
49
81
121
144
X2i
289
225
169
100
81
64
36
25
9
16
X1i X2i
34
15
39
40
45
64
42
45
33
48
X1i Yi
2
3
12
24
35
80
105
144
198
240
X2i Yi
17
45
52
60
63
80
90
80
54
80
100
62
90
1416
514
1014
405
843
621
10
10
10
i=1
i=1
i=1
0
10
10
10
10
2
X Y = 0X1i +
1 X
1i + 2
X1i X
2i
i=1 1i
i=1
i=1
i=1
Yi = N0 + 1 X1i + 2 X2i
con lo
cual,
10
10
10
10
10
+ 62 + 90 = 100
1
2
+
+
=
62
0 514 1 405 2 843
90 0 + 405 1 + 1014 2 = 621
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i

i=1
i=1
i=1
i=1
en forma
matricial,
64447
4448
10 62 90
644444
X'X
62 51
4
90 40
5

405 1 = 843

1014 2
100
621
[X'X 1
]
67X'Y8
44444448
44
7 2641
100
357171 8
21150
26418
30294

21150
204
0
1530 843
153
0
129
6
621
10,32
= 0,93
1

0,67
Y = 10,32 +
0,67 + Re
0,93 X1
X2
siduo
(b) La fiabilidad del ajuste se refleja mediante R coeficiente de determinacin

lineal:
A partir de la
i = 0 + 1 X1i se obtienen las predicciones y residuos
Y
ecuacin
asociados
+ 2 X2i
ui = Yi Yi a las observaciones muestrales.

De este modo, para la primera observacin ( Y1 = 1 ; X11 = 2 ; X21 = 17 ), se tiene:
Y1 = 10,32 + 0,93 (2) 0,67 (17) = 0,79
u =1Y 1 Y1 = 1 0,79 = 0,21

En esta lnea, considerando todos los puntos muestrales, se obtiene:
Yi
Yi
(Yi Y)
ui = Yi Y
i
1
3
4
6
7
10
15
16
18
20
100
0,79
1,2
4,4
7,34
8,94
12,4
12,81
15,34
18,54
18,8
0,21
1,8
0,4
1,34
1,94
2,4
2,19
0,66
0,54
1,2
81
49
36
16
9
0
25
36
64
100
416
ui = (Y
i iY )
0,0441
3,24
0,16
1,7956
3,7636
5,76
4,7961
0,4356
0,2916
1,44
21,7266
(Yi Y)
84,8241
77,44
10
31,36
SCT = (Yi Y) = 416
2
i=1
7,0756
1,1236
10
= 21,7266
SCR = (Y1
5,76
i=1
7,8961
Y1
2
28,5156
)
72,9316
10
77,44
SCE
(Yi Y) = 394,3666
=
394,3666
2
i=1
10
R2 =
SCE
2
( Y Y )
i=1
394,3666
coeficiente de determinacin lineal
0,948
SC
T
10
416
2( Yi Y
)
i=1
Coeficiente de determinacin lineal

corregido por
=1
0,933
el nmero de grados de
libertad
SCR n k 1
SCT n
1
=1
21,7266 / 7
416 / 9
(c) La parte de variabilidad contenida en Y que queda explicada por el mtodo es

precisamente
2
R = 0,948 = 94,8% , que es suficientemente alta.
(d) Para calcular los coeficientes de correlacin lineal simple, se recurre a la
tabla I, para calcular medias, varianzas y covarianzas
10
y=
10
yi 100
i=1
N
10
= 10
y2 =
10
x1 =
= 6,2
10
10
m1y
=9
x2 =
1
x
10
1416
102 = 41,6
10
i=1
10
x2i 90
i=1
=
y2 =
x1i
10
x2 =
i=1
10
x1i 62
i=1
=
yi
x1i yi
2
2
x 21 =
x2i
514
6,22 = 12,96
10
i=1
x 22 =
1014 2
9 = 20,4
10
i=1
x
N
y=
843
(6,2).10 = 22,3
10
10
m2 =
x 2i yi
i=1
x2 y =
621
9.10 = 27,9
10
10
m12 =
x1i x2i
i=1
x 1 x 2=
405
(6,2).9 = 15,3
10
Los coeficientes de correlacin lineal simple sern:

m1y
r1y =
22,
3
x y
12,96
1
m2 y
r2 y =
x y
20,4
2
r
12
m12
x1 x2
Prctica en SPSS
= 0,96
41,6
= 0,96
27,9
41,6
15,
= 0,94
3
12,9 20,4
6
En el Visor de SPSS, se reflejan los resultados:
Ejercicio 3. El gerente de una empresa estudia las posibles relaciones

entre beneficios anuales, gastos en publicidad anuales y horas
extraordinarias anuales de los empleados. Para ello utiliza datos, de estas
tres variables, proporcionadas por algunas empresas del sector. Se desea
saber:
Beneficios
(millones)
1,3
3,5
2,8
3
3,3
4
3,7
Gastos
Publicidad
(millone
0,3
1,5
0,7
1,1
1,2
2
2
Horas
extras
(1004
9
6
7,5
8
7
8
a) Matriz de varianzas
covarianzas. b) Matriz de
correlacin.
c) Qu porcentaje de la varianza de los beneficios explicara una funcin
lineal de los gastos en publicidad?
d) Qu porcentaje de la varianza de los beneficios explicara una funcin lineal
de las horas
extraordinarias anuales de los empleados?
e) Establecer una relacin lineal que explique anualmente los beneficios
mediante los gastos en publicidad y horas extras.
f) Hallar el coeficiente de correlacin mltiple. Qu porcentaje de la varianza de
beneficios queda explicado por el modelo lineal obtenido en el apartado
anterior?
g) Si una empresa destina 900.000 euros a publicidad y sus empleados
realizan 500 horas extraordinarias al ao, cul sera la estimacin de
los beneficios de dicha empresa?

h) Coeficientes de correlacin parcial de beneficios con gastos en publicidad y de
beneficios con
horas extras de los empleados.
g) Coeficiente de correlacin mltiple.
2y
Sy1
x
a) La matriz de varianzas covarianzas viene
definida: VC = Sx 1 y
2x
1
S x y Sx x
2
2
Syx S yx1 = Sx y
2
1
S 2 = S2
yx
x y
Sx 21 x 2
x Sx 1 x 2 = Sx 2 x 1
Yi
X1i
X2i
Yi
X1i
1,3
3,5
2,8
3
3,3
4
3,7
21,6
0,3
1,5
0,7
1,1
1,2
2
2
8,8
4
9
6
7,5
8
7
8
49,5
1,69
12,25
7,84
9
10,89
16
13,69
71,36
0,09
2,25
0,49
1,21
1,44
4
4
13,48
yi 21,6
i=1
=
=
=
y
3,0857
N
7
=
=
=
x
1,2571
1
N
7
y2 =
x2 =
X1i
X1,2
2i
5,25
1,96
3,3
3,96
8
7,4
30,26
31,5
16,8
22,5
26,4
28
29,6
160
13,5
4,2
8,25
9,6
14
16
66,75
Tabla operaciones
i=1
x12 =
13,48
1,25712 = 0,3454
7
x2i
Yi
X5,2
2i
71,36
3,08572 = 0,6727
7
x1i
x2i 49,5
i=1
=
=
x
7,0714
2
N
i=1
Yi
X1i
0,39
yi
y =
x1i 8,8
i=1
X22i
16
81
36
56,25
64
49
64
366,25
i=1
x22 =
366,25
7,07142 = 2,3167
7
S yx =
yi x1i
i=1
y x1 =
30,26
(3,0867).(1,2571) = 0,4438
7
S yx =
yi x2i
i=1
y x2 =
160
(3,0867).(7,0714) = 1,0369
7
Sx 1 x=2
x1i x2i
i=1
x 1 x 2=
66,75
(1,2571).(7,0714) = 0,6462
7
En consecuencia, la matriz de varianzas

covarianzas:
0,672 0,443 1,0369

8
7
0,345 0,6462
VC =
4
0,4438
2,3167
0,646
1,036 2
9
b) La matriz de correlaciones de las variables explicativas Rx est formada

por los coeficientes de correlacin lineal simple:
ryx
Rx = rx 1 y 1
ryx
2
rx1
ryx = rx
1 1
donde r yx = rx 2 y
2
r x
x
1
r
r
1
x
y
x
x
2
2
1
r =
yx
1
S yx1
y
x
=
1
0,443
8
0,672 0,345
7
4
=
0,9207
r =
yx
2
Syx2
y
x
=
2
= rx
1,036
9
= 0,8306
0,672 2,3167
7
r
x
S1
=
1
x x
1
0,646
= 0,7224
2
0,345 2,3167
4
0,9207 0,8306
1
Por tanto, la matriz de las correlaciones ser: Rx =

0,7224
0,9207
1
0,8306 0,7224 1
NOTA. En la regresin lineal mltiple surge el problema de que exista una
correlacin lineal simple perfecta entre dos (o ms variables) explicativas, ya
que esto implica que una (o ms) columna(s) de la matriz X de observaciones
son combinacin lineal de otra(s), con lo que el rango de esta matriz X se
reduce.
En un principio el rango de [X' X ] es p (nmero de variables explicativas), pero si
existe alguna
combinacin lineal entre las columnas de X, entonces el rango es menor que p,
con lo que el
determinante X' X = 0 , lo que impide calcular la matriz inversa [X' X ] 1 , y en
de
consecuencia el
vector de coeficientes = [X' queda indeterminado.
X ] X' Y
1
Analizando la matriz de las correlaciones Rx se decide si existe o no

multicolinealidad:
S Rx = 0
S a
Rx 0
a
Existe multicolinealidad
Existe cuasimulticolinealidad o multicolinealidad imperfecta
En caso de multicolinealidad se requiere modificar el modelo o realizar algn tipo

de transformacin que la elimine.
2
c) Se requiere hallar el coeficiente de determinacin R2yx = ryx
=
= 0,8477
entre (Y, X1 ) :
2
1
1
0,9207
Es decir, el 84,77% de la varianza de los beneficios (Y) queda explicado por
una funcin lineal del gasto en publicidad (X1 )
2
d) Se requiere hallar el coeficiente de determinacin R2yx 2 =22 =
= 0,6899
entre (Y, X 2 ) :
ryx
0,8306
Es decir, el 68,99% de la varianza de los beneficios (Y) queda explicado por una
funcin lineal de las horas extras de los empleados (X2 )
e) Hay que determinar el plano de regresin de los beneficios (Y) sobre el gasto
en publicidad (X1 ) y las horas extras de los empleados (X2 )
=
Y
i
+ 1 X1i + 2 X2i
Se tiene como referencia la matriz de las varianzascovarianzas:

2y
VC = S
Sy
x
S yx
0,672

2
7
= 0,4438
Sx 1 x
x1
x 1y
S x y Sx x 22
2
2
2
0,443
8
0,345
4
0,646
2
1,0369
0,
6462
2,316
Los coeficientes ( 1 , 2 ) , respectivamente,
() , vienen dados por el
con signo negativo
cociente de
los adjuntos ,
yx1
(S
Syx
) entre el adjunto de 2 :
y
1 = VCyx 1
VCy
0,443
8
= ()
1,036
1
9
0,345
4
0,646
2
2 = VCyx 2
VCy
0,646
2
0,3581
=
2,316 =
7
0,9360
0,646 0,3826
2
2,316
7
=Y
X2
2
1 X1
0
0,443
8
= ()
1,036
2
9
0,345
4
0,646
2
0,345
4
0,0714
0,646 = 0,3826 = 0,1866
2
0,646
2
2,316
7
X X = 3,0857 (0,9360)(1,2571) (0,1866)(7,0714) = 0,5895

0 = Y1
1
2
La ecuacin del plano de
regresin es:
Y = 0,5895 + 0,936 X1 + 0,1866 X2
Otra forma de enfocar la situacin, desde la Tabla de operaciones, mediante las

ecuaciones MCO:
N0 + 1 X1i + 2 X2i = Yi
i=1
i=1
i=1
7 + 8,8 + 49,5 = 21,6

0 1
2
7
7
7
7
2
8,8 + 13,48 + 66,75 = 30,26
X +
X +
X X =X
0 1i 1
1i
2 1i
Y 1i i
0
1
2
2i
i=1
i=1
i=1
i=1
=
49,5 0 + 66,75 1 + 366,25
7
7
7
7
2
2
160
0 X 2i + 1 X1i X2i + 2 X2i = X2i Yi
con lo
cual,
i=1
i=1
i=1
i=1
en forma matricial,
7
8,8
8,8
13,4
8
66,7
49,5 5

64444 X'X 4444448

647X'Y48
447
49, 0 21,6
0,618 0,608 21,6
3,668
0

7
5 30,26
5
1
66,7
0,618
0,864
0,2412
5
1
8
1 = 30,26
=
1
366,25 2 160
0,128 160
0,2412
9
0,6085
X'X
644447
44448
0,5895
= 0,9360 Y = 0,5895 +
1
0,936 X

0,1866
+ 0,1866
1 X
2
Con el modelo de regresin, a partir de la ecuacin, Y = 0,5895 + 0,936 X1 + 0,1866

X2 , se obtienen
las predicciones y residuos asociados iu = Y Y a las observaciones muestrales.
i
De este modo, para la primera observacin ( Y1 = 1,3 ; X11 = 0,3 ; X21 = 4 ), se

tiene:
Y1 = 0,5895 + 0,936 (0,3) + 0,1866 (4) = 1,6167
u =1 Y 1 Y1 = 1,3 1,6167 = 0,3167
Considerando todos los puntos muestrales, se obtiene:

Yi
(Y
1,3
3,5
2,8
3
3,3
4
3,7
21,6
X1i X2i
2
0,3
Y)
4
1,5
9
0,7
6
1,1 7,5
1,2
8
2
7
2
8
8,8 49,5
u = Y Y (Y Y)
1,6167
3,6729
2,3643
3,0186
3,2055
3,7677
3,9543
0,3167
0,1729
0,4357
0,0186
0,0945
0,2323
0,2543
3,1887
0,1716
0,0816
0,0073
0,0459
0,8359
0,3774
4,7086
2
u = (Y Y )
0,1003
0,0299
0,1898
0,0003
0,0089
0,0540
0,0647
0,4479
2
2,1580 SCT = (Y
Y) = 4,7086
i
i=1
0,3448
0,5204
7
0,0045 SCR = (Y Y ) 2 = 0,4479
1
i=1 1
0,0144
7
0,4651
Y) 2 = 4,2616
i
0,7545 SCE = (Y
i=1
4,2616
2
( Y Y )
SCE
2
R =
=
0,9051
i=1
i
i
SC
T
4,2616
72( Y Y
coeficiente de determinacin lineal
4,7086
i=1
SC
2
S = R
R
0,4479
=
=
0,112
n k 1
4
varianza residual
Coeficiente de determinacin lineal

corregido
por el nmero de grados de
libertad
SCR n k 1
0,4479 / 4
=1
=1
= 0,8573
SCT n
4,7086 / 6
1
h) El coeficiente de correlacin parcial entre los Beneficios (Y) y el Gasto en

Publicidad (X1 ) se puede obtener mediante la expresin:
r 1 .x 2 =
yx
VC yx1
VC y VCx 1 x 1
y
VCij son los adjuntos de la matriz de las varianzascovarianzas:

2y
Sy
x
2
VC = Sx 1 y x 1
S x y Sx
2
2
x
VC yx
1
VC yy
0,443
8
=
1,036
9
=
0,672 0,443 1,0369

8
7

Sx 1 x 2= 0,4438 0,3454 0,6462

2x 2 1,036 0,646 2,3167
2
9
Syx2
0,646 = 0,3581
2
2,316
7
0,345 4
0,646 2
0,646 2
2,316 =
VCx 1 x 1 0,6727
7
0,382 =
1,0369
6
1,036 2,316 =
9
7
0,48
33
El coeficiente de correlacin parcial

entre Y e X1: r
VC yx 1
=
yx
.x
VC y VCx 1
y
0,358
= 0,833
1
(0,3826)(0,4833)
El coeficiente de correlacin parcial entre los Beneficios (Y) y el Gasto en
Publicidad (X1 ) se puede

obtener tambin mediante la expresin:
2
ryx
.x
ryx
rx
ryx 2 1
2
2
(1 ryx2 )(1 r
)
x1 2
1
1
Donde los rij son los elementos de la
matriz de
correlaciones simples Rx de la variable
explicativa
ryx
ryx
0,920 0,8306
7
1
2

= 0,9207
R = r
0,7224
1 r
1
x
x 1x 2
x 1y
rx y rx
0,7224
1
1
2 1
2
0,8306
ryx ryx
rx x
con lo cual, ryx

.x
1
1
(1 r )(1 r
)
x1
Anlogamente, ryx
.x
2
yx2
=
2
0,9207 (0,8306)
=
(0,7224)
2
(1 0,83062 )(1 0,72242 )
ryx ryx
rx x
2
= 0,833
0,8306 (0,9207)
=
(0,7224)
(1 ryx1 )(1 r
) 1 2x2
2
= 0,613
(1 0,92072 )(1 0,72242 )
# Tambin, los Coeficientes de correlacin parcial se calculan mediante la

expresin:
ti =
2
2
R
S .qi +1 , 1 +1
2
t
R (Y,1 X 2 ; X 2) = i
coeficiente de determinacin parcial
ti + n (k + 1)
se tena:
tgastos _ publi
=
=
SR2 .q i +1, 1 +1
0,936
(0,112)
(0,8648)
= 3,0075
El coeficiente de determinacin parcial:

.x
extras) =
t2gasto _ publi
3,0072
= 0,6933
5
+ n 1)
(k +
2
3,0075 +
2
t
4
gasto _ publi
2
ryx
= R2 (Beneficios ,Gastos _ Publi;Horas
1
El coeficiente de correlacin
parcial:
ryx
1
= R(Beneficios ,Gastos _ Publi;Horas 0,6933 = 0,833

extras) =
Anlogamente,
thoras _ extras =
2
SR .q
i +1, 1 +1
0,186
6
= 1,5530
(0,112) (0,1289)
El coeficiente de determinacin parcial:

t2horas _ extras
2
ryx
= R2 (Beneficios ,Horas extras;Gastos
2
.x
_ Publi) =
+ n (k +
1)
2
horas _ extras
2
1,553
= 0,37615
2
+
1,553
4
El coeficiente de correlacin
parcial:
ryx
x
= R(Beneficios ,Horas extras; Gastos 0,37615 = 0,6133

_ Publi) =
f) El Coeficiente de correlacin mltiple viene definido por:

r21 x 2
yx
= 1 CV
2
C
y
2
R2 = yx
1
x
S yx
0,443
8
0,345
4
0,646
1,036
9
0,646 =
2
2,316
2
CV = 1
0,0245
ryx2 1 x = R = 1 2
(0,6727)
y
2
yy
(0,3826)
R =
2
=
r
yx 1
x
r2 + 2r 2r r
yx 1
yx 2 r
yx 1 yx 2
1
1 x1r 2
1r2
x 1x 2
matriz de varianzascovarianzas: VC =x
1
Sx 1 y
S x y Sx
2
2
yy
2y
0,672
7
CV = 0,443
8
1,036
r + r 2r r
yx 1
yx 2r
yx 1 yx 2
S2 yx 0,672
7
Sx1 x2 =
0,4438
2x 2 1,036
VC yy = 0,345
4
0,646
2
0,443 1,0369
8
0,345 0,6462
4
0,646 2,3167
2
0,646 = 0,3826
2
2,316
7
= 0,905 , o bien,
2
2
+
2. 0,9207. 0,8306. 0,7224
=
= 0,905
x
0,9207 0,8306
1 0,72242
Gua Prctica en SPSS
Estimaciones
Ofrece las estimaciones de los coeficientes de regresin parcial no

estandarizados (B) y estandarizados (Beta), junto con las pruebas de
significacin individuales para contrastar las hiptesis de que el valor
poblacional de esos coeficientes es cero.
En la columna encabezada por [Coeficientes no estandarizados] se encuentran los

coeficientes i
que forman parte de la ecuacin en puntuaciones directas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)
Estos coeficientes no estandarizados se interpretan en los trminos ya
conocidos. Sealar que estos coeficientes no son independientes entre s. De
hecho, reciben el nombre de coeficientes en regresin parcial porque el valor
concreto estimado para coeficiente se ajusta teniendo en cuenta la presencia del
resto de variables independientes. Conviene, por tanto, interpretarlos con
cautela.
El signo del coeficiente de regresin parcial de una variable puede no ser el
mismo que el del coeficiente de correlacin simple entre esa variable y la

dependiente. Esto se produce a los ajustes que se llevan a cabo para obtener la
mejor ecuacin posible. Aunque existen diferentes explicaciones para justificar el
cambio de signo de un coeficiente de regresin, una de las que deben
de ser ms seriamente consideradas es la que se refiere a la presencia de un alto

grado de asociacin entre alguna de las variables independientes (Colinealidad).
# Los Coeficientes Beta estn basados en las puntuaciones tpicas y, por tanto,
son directamente comparables entre s. Indican la cantidad de cambio, en
puntuaciones tpicas, que se producir en la variable dependiente por cada
cambio de una unidad en la correspondiente variable independiente
(manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia
relativa de cada variable independiente en la ecuacin de regresin. En
general, una variable tiene tanto ms peso (importancia) en la ecuacin de
regresin cuanto mayor (en valor absoluto) es su coeficiente de regresin
estandarizado.
Observando los coeficientes Beta del ejercicio, la variable Gastos_Publicidad es la
ms importante.
#
Pruebas de significacin
Las pruebas t y sus niveles crticos (ltimas dos columnas de la tabla) sirven
para contrastar la hiptesis nula de que un coeficiente de regresin vale 0 en
la poblacin. Niveles crticos (Sig) muy pequeos (generalmente menores que
0,05) indican que debemos rechazar la hiptesis nula.
Un coeficiente de cero indica ausencia de relacin lineal, de modo que los
coeficientes significativamente distintos de cero informan sobre qu variables
son relevantes en la ecuacin de regresin.
Observando el nivel crtico asociado a cada prueba t, las dos variables
utilizadas (Gastos_Publicidad, Horas_extras) tienen coeficientes
significativamente distintos de cero (en todas, Sig<0,05). Por tanto, las dos
variables independientes contribuyen significativamente a explicar lo que
ocurre con la variable dependiente (Beneficios).
Ajuste del modelo
Muestra el coeficiente de correlacin mltiple, su cuadrado corregido y no

corregido, y el error tpico de los residuos. Tambin incluye la tabla resumen de
ANOVA, que contiene al estadstico F de Fisher
Snedecor para contrastar la hiptesis nula de que el coeficiente de
yx 1 x 2 = 0
correlacin mltiple R
2
R =
0,905
2
R =
0,905
El estadstico F contrasta la hiptesis

nula de que el valor poblacional de Ryx
1 2
es cero.
coeficiente determinacin
mltiple coeficiente
determinacin mltiple
corregido
En consecuencia, permite decidir si existe relacin lineal significativa entre la

variable dependiente y el conjunto de variables independientes tomadas juntas.
El valor de un nivel crtico (Sig < 0,05) indica que existe relacin lineal
significativa, pudiendo afirmar que el hiperplano definido por la ecuacin de
regresin ofrece un buen ajuste a la nube de puntos.
2 =
i
SCE = (Y
Y)
4,261
i=1
7
2
(Y Y ) =
0,448
En este caso,
SCR
1 1
=
i=1
7
SCT = (Y Y) 2 =
4,709
i=1
gl = k = 2
gl = n k 1 = 7 2 1 = 4
gl = n 1 = 7 1 = 6
2
( Y Y )
SCE
2
R =
=
0,905
SC
T
i=1
4,261
2( Yi Y
)
coeficiente de determinacin mltiple
4,709
i=1
2
0,448
S = SC
=
=
R
R
n k 0,112
4
1
=1
0,857
F=
varianza residual
SCR n k 1
SCT n
1
SCE k
=1
0,448 / 4
= coeficiente de determinacin mltiple

corregido
4,709 / 6
4,261 / 2
=
SCR n k
1
19,023
0,448 / 4
estadstico observado F de FisherSnedecor
Advirtase la relacin entre el coeficiente de determinacin mltiple y el

estadstico F:
F =
2
n k1 R
0,90
= 19,023
= 2 5
2
k
(1 0,905)
1 R
H0 : 1 = 2
Contraste de la Hiptesis
19,023 > 6,9443 = F0 ,05; 2 ,4
nula
=0
Se rechaza H0 si F F; k , (nk1)
Intervalos de confianza
Situados en la tabla [Coeficientes de regresin], permitiendo que adems de
obtener una estimacin puntual de los coeficientes de regresin parcial, se pueda

obtener el intervalo de confianza para estos coeficientes.
Estos intervalos informan sobre los lmites en que se encuentra el valor
poblacional de cada coeficiente. Los lmites se obtienen sumando y restando
1,96 (SPSS trabaja por defecto con un nivel de significacin 0,95) errores tpicos
al valor del correspondiente coeficiente de regresin.
Una amplitud grande en los intervalos de confianza indica que las estimaciones
obtenidas son poco precisas y, probablemente, inestables (coas que puede
ocurrir, por ejemplo, cuando existen problemas de colinealidad).
Matriz de covarianzas
Muestra una matriz con las covarianzas y correlaciones existentes entre los
coeficientes de regresin parcial.
Descriptivos
Ofrece la media y la desviacin tpica de cada variable y el nmero de casos

utilizados en el anlisis.
Adems, ofrece la matriz de correlaciones entre el conjunto de variables
utilizadas en el anlisis, En la matriz de correlaciones, cada coeficiente de
correlacin aparece acompaado de su correspondiente nivel crtico (que
permite decidir sobre la hiptesis de que el coeficiente de correlacin vale 0 en
la poblacin) y del nmero de casos sobre el que se ha calculado cada
coeficiente.
Lgicamente, en la diagonal de la matriz de correlaciones aparecen unos,
pues la relacin entre una variable y ella misma es perfecta.
Correlaciones parcial y semiparcial
Esta opcin permite obtener los coeficientes de correlacin parcial y

semiparcial entre la variable dependiente y cada variable independiente
Un coeficiente de correlacin parcial expresa el grado de relacin existente
entre dos variables tras eliminar de ambas el efecto debido a terceras variables.
Es decir, los coeficientes de correlacin parcial expresan el grado de relacin
existente entre cada variable independiente y la variable dependiente tras
eliminar de ambas el efecto debido al resto de variables independientes
incluidas en la ecuacin.
Un coeficiente de correlacin semiparcial expresa el grado de relacin existente
entre dos variables tras eliminar de una de ellas el efecto debido a terceras
variables. Es decir, estos coeficientes expresan el grado de relacin existente
entre la variable dependiente y la parte de cada variable independiente que no
est explicada por el resto de variables independientes.
Con los coeficientes de correlacin parcial y semiparcial, aparecen las

correlaciones de orden cero, es decir, los coeficientes de correlacin calculados
sin tener en cuenta la presencia de terceras variables (se trata de los mismos
coeficientes que aparecen en la tabla anterior de correlaciones).
Comparando entre s estos coeficientes (de orden cero, parcial y
semiparcial), pueden encontrarse pautas de relacin interesantes: En los
datos de la tabla se observa, por ejemplo:
La relacin entre la variable dependiente Beneficios y la variable
independiente
Gastos_Publicitarios vale 0,921.
Al eliminar de las variables (Beneficios, Gastos_Publicitarios) el
efecto atribuible a las
Horas_extras, la relacin baja a 0,833 (parcial).
Cuando el efecto atribuible a Horas_extras se elimina slo de la variable
Beneficios, la relacin baja a 0,464 (semiparcial).
Anlisis que indica que la relacin entre las variables (Beneficios, Horas_extras)
tiene mucho menor peso en la relacin.
Colinealidad
Existe una colinealidad perfecta cuando una de las variables independientes se

relaciona de forma perfectamente lineal con una o ms del resto de las
variables independientes de la ecuacin.
Se dice que existe una colinealidad parcial, o simplemente, colinealidad, cuando

entre las variables independientes de una ecuacin existen correlaciones altas.
La colinealidad es un problema, porque en el caso de colinealidad perfecta, no

es posible estimar los coeficientes de la ecuacin de regresin; y en el caso de
colinealidad parcial, aumenta el tamao de los residuos tipificados y esto
produce coeficientes de regresin muy inestables (pequeos cambios en los
datos, como quitar o aadir un caso, produce cambios muy grandes en los
coeficientes de regresin). Esta es una de las razones de encontrarse con
coeficientes con signo cambiado:
<correlaciones positivas pueden transformarse en coeficientes de regresin
negativos (incluso significativamente negativos)>. Curiosamente, la medida de
2
ajuste R no se altera por la presencia de colinealidad, pero los efectos
atribuidos a las variables independientes pueden ser engaosos.
Al evaluar la existencia o no de colinealidad, la dificultad estriba en determinar
cul es el grado mximo de relacin permisible entre las variables
independientes. Sobre esta cuestin no existe un consenso generalizado,
aunque puede servir de gua la presencia de indicios que se pueden encontrar
en los resultados de un anlisis de regresin (aunque estos indicios pueden
tener su origen en otras causas):
El estadstico F que evala el ajuste general de la ecuacin de regresin es
significativo, pero no lo es ninguno de los coeficientes de regresin parcial.
Los coeficientes de regresin parcial estandarizados (coeficientes Beta) estn
inflados tanto en positivo como en negativo (al mismo tiempo, adoptan
valores mayores que 1 y menores que 1)
Existen valores de tolerancia pequeos (prximos a 0,01). La tolerancia de
una variable independiente es la proporcin de varianza de esa variable que
no est asociada (que no depende) del resto de variables independientes
incluidas en la ecuacin. Por ejemplo, una variable con una tolerancia de
0,01 es una variable que comparte el 99% de su varianza con el resto de
variables independientes, lo que significa que se trata de una variable
redundante casi por completo.
Los coeficientes de correlacin estimados son muy grandes (por
encima de 0,90 en valor absoluto).
SPSS ofrece la posibilidad de obtener algunos estadsticos que pueden ayudar a
diagnosticar la presencia de colinealidad. Se trata de estadsticos orientativos
que, aunque pueden servir de ayuda para determinar si existe mayor o menor
grado de colinealidad, no permiten tomar una decisin clara sobre la presencia
o no de colinealidad.
Los estadsticos de colinealidad se recogen en la tabla de coeficientes de
regresin parcial ya
analizada anteriormente, pero ahora contienen informacin adicional sobre los
niveles de tolerancia y sus inversos (FIV).
El nivel de tolerancia de una variable se obtiene restando a 1 el coeficiente
de
determinacin
mltiple
(1 R ) que resulta al regresar esa variable sobre
el resto
de variables
independientes.
Valores de tolerancia muy pequeos indican que esa variable puede ser
explicada por una combinacin lineal del resto de variables, lo que
significa que existe colinealidad.
Los factores de inflacin de la varianza (FIV) son los inversos de los niveles de
tolerancia. Reciben este nombre porque son utilizados en el clculo de las
varianzas de los coeficientes de regresin.
Cuanto mayor es el FIV de una variable, mayor es la varianza del
correspondiente coeficiente de regresin. De ah, que uno de los problemas de
la presencia de colinealidad (tolerancias pequeas, FIVs grandes) sea la
inestabilidad de las estimaciones de los coeficientes de regresin.
La siguiente tabla del Visor de SPSS muestra la solucin resultante de
aplicar un anlisis de componentes principales a la matriz estandarizada
no centrada de productos cruzados de las variables independientes:
Los Autovalores informan sobre cuntas dimensiones o factores diferentes

subyacen en el conjunto de variables independientes utilizadas.
La presencia de varios autovalores prximos a cero indica que las variables
independientes estn muy relacionadas entre s (colinealidad). En este caso,
no existe el problema.
Los ndices de condicin son la raz cuadrada del cociente entre el autovalor ms
grande (2,889) y
cada uno del resto de los autovalores (por 2,889 0,097 = 5,453 ).
ejemplo,
En condiciones de nocolinealidad, estos ndices no deben superar el valor de
15. ndices mayores que 15 indican un posible problema, ndices mayores que
30 informan de un serio problema de colinealidad.
Las Proporciones de la varianza recogen la proporcin de varianza de cada
coeficiente de regresin parcial que est explicada por cada dimensin o factor.
En condiciones de nocolinealidad, cada dimensin (factor) suele explicar gran
parte de la varianza de un solo coeficiente (excepto en lo que
se refiere al coeficiente 0 o constante, que siempre aparece asociado a uno de
los otros
coeficientes. En el ejercicio, el trmino constante aparece asociado a las
Horas_extras.
La Colinealidad es un problema cuando una dimensin o factor con un ndice
de condicin alto, contribuye a explicar gran parte de la varianza de los
coeficientes de dos o ms variables.
Cuando en un conjunto de datos se detecta la presencia de colinealidad,
hay que aplicar algn tipo de actuacin:
(a) Aumentar el tamao de la muestra (es til cuando existen pocos casos
en relacin con el nmero de variables).
(b) Crear indicadores mltiples combinando variables (promediando

variables, efectuando un anlisis de componentes principales para reducir
las variables a un conjunto de componentes independientes y aplicar
despus el anlisis de regresin sobre esos componentes.
(c) Excluir variables redundantes (variables que correlacionan muy alto con
otras), quedando con las que se consideran ms importantes.
(d) Utilizar una tcnica de estimacin sesgada, como la regresin ridge.
Residuos: DurbinWatson
El anlisis de los residuos proporciona informacin crucial sobre el cumplimiento

de varios supuestos del modelo de regresin lineal: independencia,
homocedasticidad, normalidad y linealidad.
El estadstico de DurbinWatson (1951) proporciona informacin sobre el grado
de independencia existente entre ellos:
n
DW
si = 1
2(1 ) DW
si = 0
(ui ui1 )2
DW =
2
i=2
n
2
ui
i=1
DW
si = 1
El estadstico de DurbinWatson oscila entre 0 y 4, toma el valor 2 cuando los

residuos son independientes. Los valores menores que 2 indican
autocorrelacin positiva y los mayores que 2
autocorrelacin negativa. Se puede asumir independencia entre los residuos
cuando 1,5 DW 2,5
DW=1,933, valor que se encuentra entre 1,5 y 2,5, se puede asumir

que los residuos son independientes.
Diagnsticos por caso
Valores atpicos a ms de ... Con esta opcin, SPSS indica los valores que
producen un error grande, concretamente a ms de n veces la desviacin tpica
de la variable residuos. En este caso, si introducimos 2 o 3 desviaciones tpicas
no se obtiene ningn valor atpico (pudiera ocurrir que al poner 1,5 desviaciones
tpicas, s existiera).
2
La forma de proceder es seleccionar [Cambio en R ] y [Valores atpicos a ms

de ...], el Modelo indica el nmero de pasos dados para construir el modelo de
regresin (pasos que sean). Tambin indica si en alguno de los pasos se ha
eliminado alguna variable previamente seleccionada; en el ejemplo que nos
ocupa no se elimina ninguna variable.
La tabla recoge el valor de R en cada paso, el cambio experimentado por R en

cada paso, y el estadstico F y su significacin. El estadstico F permite contrastar
2
la hiptesis de que el cambio en R vale cero en la poblacin.
2
Al seleccionar la primera variable (Modelo 1), el valor de R es 0,905.

Lgicamente, en el primer
2
2
es cero se obtiene
paso, cambi = R . Al contrastar la hiptesis de que el valor
o
poblacional de R
cambi
un estadstico F de 19,023 que, con 2 y 4 grados de libertad, tiene una

probabilidad asociada de
0,009 (como este valor es menor que 0,05), pudiendo afirmar que la
proporcin de varianza explicada por la variable Gastos_Publicidad
(variable seleccionada en el primer paso) es significativamente distinta de
cero.
Las variables que aparecen permiten obtener distintos grficos de

dispersin. Las variables precedidas por un asterisco son variables
creadas por SPSS.
Todas las variables pueden crearse en la opcin

[Guardar]
marcando las opciones pertinentes del recuadro
DEPENDNT: Variable dependiente de la ecuacin de regresin.

ZPRED (pronsticos tipificados): pronsticos divididos por su desviacin
tpica. Son pronsticos transformados en puntuaciones z (media cero y
desviacin tpica 1)
ZRESID (residuos tipificados): residuos divididos por su desviacin tpica. El
tamao de cada residuo tipificado indica el nmero de desviaciones tpicas
que se aleja de su media, de modo que, si estn normalmente distribuidos
(cosa que se asume en el anlisis de regresin). El 95% de estos residuos se
encontrar en el rango [1,96, 1,96], lo que permite identificar fcilmente

casos con residuos grandes.
DRESID (residuos eliminados o corregidos): residuos obtenidos al efectuar los

pronsticos
eliminando de la ecuacin de regresin el caso sobre el que se efecta el
pronstico. El residuo correspondiente a cada caso se obtiene a partir del
pronstico efectuado con una ecuacin de regresin en la que no se ha
incluido ese caso. Son muy tiles para detectar puntos de influencia (casos
con gran peso en la ecuacin de regresin).
ADJPRED (pronsticos corregidos): pronsticos efectuados con una ecuacin
de regresin en la que no se incluye el caso pronosticado (ver residuos
eliminados o corregidos). Diferencias importantes entre PRED y ADJPRED
delatan la presencia de puntos de influencia (casos con gran peso en la
ecuacin de regresin).
SRESID (residuos estudentizados): residuos divididos por su desviacin
tpica, basada sta en cmo de prximo se encuentra un caso a su(s)
medias(s) en la(s) variable(s) independiente(s). Al igual que ocurre en los
residuos estandarizados (a los que se parecen mucho), los estudentizados
estn escalados en unidades de desviacin tpica. Se distribuyen segn el
modelo de probabilidad tStudent con (n p 1) grados de libertad (p se
refiere al nmero de variables independientes). Con muestras grandes,
aproximadamente el 95% de estos residuos debera encontrarse en el rango
[2, 2].
SDRESID (residuos corregidos estudentizados): residuos corregidos
divididos por su desviacin tpica. tiles tambin para detectar puntos de
influencia.
Algunas de estas variables permiten detectar puntos de influencia, pero,
entre todas, hay dos variables (ZPRED, ZRESID) cuyo diagrama de
dispersin informa sobre el supuesto de homocedasticidad o igualdad de
varianzas.
El supuesto de igualdad de varianzas implica que la variacin de los residuos
debe de ser uniforme en todo el rango de valores pronosticados. O, lo que es lo
mismo, que el tamao de los residuos es independiente del tamao de los
pronsticos, de donde se desprende que el diagrama de dispersin no debe
mostrar ninguna pauta de asociacin entre los residuos y los pronsticos.
Para obtener un diagrama de dispersin con las variables (ZPRED, ZRESID):
En el diagrama de dispersin se observa que aunque los residuos y los

pronsticos parecen ser independientes (la nube de puntos no sigue ninguna
pauta de asociacin clara, ni lineal ni de ningn otro tipo), no est claro que las
varianzas sean homogneas. Ms bien, parece que a medida que van
aumentando el valor de los pronsticos va disminuyendo la dispersin de los
residuos.
Los pronsticos menores que la media (con puntuacin tpica por debajo de
cero) estn ms concentrados que los pronsticos mayores que la media (con
puntuacin tpica mayor que cero).
Cuando un diagrama de dispersin delata la presencia de varianzas
heterogneas, puede utilizarse una transformacin de la variable dependiente
para resolver el problema (tal como una transformacin logartmica o una
transformacin raz cuadrada). No obstante, al utilizar una transformacin de la
variable dependiente, debe cuidarse el problema de interpretacin que aade el
cambio de escala.
El diagrama de dispersin de las variables (ZPRED, ZRESID) posee la utilidad
adicional de permitir detectar relaciones de tipo no lineal entre las variables.
Cuando la relacin es no lineal, el diagrama puede contener indicios sobre otro
tipo de funcin de ajuste (los residuos estandarizados podran en lugar de estar
homogneamente dispersos seguir un trazado curvilneo).
Normalidad
El recuadro de Grficos de los residuos tipificados contiene dos opciones que

informan sobre el grado en que los residuos tipificados se aproximan a una
distribucin normal: Histograma y Grfico de probabilidad normal.
HISTOGRAMA: Ofrece un histograma de los residuos tipificados con una
curva normal superpuesta. La curva se construye tomando una media de
cero y una desviacin tpica de uno. Es decir, la misma media y la misma
desviacin tpica que los residuos tpicos tipificados.
En el histograma del ejercicio se observa que la parte central acumula ms

casos de los que existen en una curva normal. La distribucin es algo
asimtrica a la derecha. La distribucin de los residuos no parece seguir el
modelo de probabilidad normal, de modo que los resultados del anlisis
deben de interpretarse con cautela.
GRFICOS DE LOS RESIDUOS TIPIFICADOS. Permite obtener un
diagrama de probabilidad normal. En el eje de abscisas esta representada
la probabilidad acumulada que corresponde a cada residuo tipificado. El de
ordenadas representa la probabilidad acumulada terica que corresponde
a cada desviacin tpica en una curva normal N(0, 1).
Los puntos no se encuentran

alineados sobre la diagonal del
grfico, indicando el posible
incumplimiento del supuesto de
normalidad.
En el Grfico de valores observados

frente a los predichos (DEPENDNT,
ZPRED), los valores se deben
alinear en la diagonal del
cuadrante, si hubiera mucha
dispersin,
implicara que no se verifican las
hiptesis de
homocedasticidad.
En este caso existe igualdad de
varianzas.
Seleccionando la opcin Generar todos los

grficos parciales, SPSS muestra la grfica
de la variable dependiente frente a todas las
variables independientes, comprobando si
existe linealidad entre las variables.
Observando los grficos, se podra imaginar un comportamiento lineal.
Pulsando el botn [Guardar] se abre un

abanico de opciones.
Todos los casos contribuyen a la obtencin
de la recta de regresin, pero no todos lo
hacen con la misma fuerza. Los puntos de
influencia son casos que
afectan de forma importante al valor de la
ecuacin
de
regresin.
La presencia de puntos de influencia no
tiene por qu constituir un problema en
regresin, de hecho lo normal es que en un
anlisis de regresin no todos
los casos tengan la misma importancia
(desde el punto de vista estadstico). No
obstante, el analista debe de ser
consciente de tales puntos, porque, entre
otras cosas, podra tratarse de casos con
valores errneos. Siendo conscientes de si
existen o
no puntos de influencia es posible corregir
el anlisis.
Se marcan todas las opciones de los recuadros Distancias y Estadsticos de
influencia (todas estas opciones crean variables nuevas en el archivo de
datos).
Distancias
Este recuadro recoge tres medidas que expresan el grado en que cada caso se
aleja de los dems.
Mahalanobis. Mide el grado de distanciamiento de cada caso respecto de
los promedios del conjunto de variables independientes. En regresin simple,
esta distancia se obtiene elevando al cuadrado la puntuacin tpica de cada
caso en la variable independiente.
En regresin mltiple se obtiene multiplicando por (n 1) el valor de influencia
de cada caso.
Cook. Mide el cambio que se produce en las estimaciones de los

coeficientes de regresin al ir eliminando cada caso de la ecuacin de
regresin. Una distancia de Cook grande indica que ese caso tiene un peso
considerable en la estimacin de los coeficientes de regresin.
Para evaluar estas distancias puede utilizarse la distribucin F con (p+1)
y (np1) grados de libertad, donde p es el nmero de variables
independientes y n el tamao de la muestra.
En general, un caso con una distancia de Cook superior a 1 debe de ser
revisado.
Valores de influencia. Representan una medida de la influencia potencial de

cada caso.
Respecto a las variables independientes, un valor de influencia es una
medida normalizada del grado de distanciamiento de un punto del centro de
su distribucin. Los puntos muy alejados pueden influir de forma muy
importante en la ecuacin de regresin, pero no tienen por qu hacerlo
necesariamente.
Con ms de 6 variables y al menos 20 casos, se considera que un valor de
influencia debe de ser revisados si es mayor que (3p/n). Los valores de
influencia tienen un mximo de (n1)/n.
Como regla general, para orientar decisiones, los valores menores que 0,2 se
consideran poco problemticos; los valores comprendidos entre 0,2 y 0,5 se
consideran arriesgados; y los valores mayores que 0,5 debieran evitarse.
Estadsticos de influencia
Este recuadro contiene varios estadsticos que contribuyen a precisar la posible

presencia de puntos de influencia.
DfBetas (diferencia en las betas). Mide el cambio que se produce en los
coeficientes de regresin estandarizados (betas) como consecuencia de ir
eliminando cada caso de la ecuacin de regresin. SPSS crea en el Editor de
datos tantas variables nuevas como coeficientes beta tiene la ecuacin de
regresin, es decir, tantos como variables independientes ms uno (el
correspondiente a la constante de la ecuacin).
DfBetas tipificadas. Es el cociente entre DfBetas y su error tpico.
Generalmente, un valor
n delata la presencia de un posible punto de
mayor que 2
influencia.
El SPSS crea en el Editor de datos tantas variables nuevas como
coeficientes Beta tiene la ecuacin de regresin.
Df Ajuste (diferencia en el ajuste). Mide el cambio que se produce en el
pronstico de un caso cuando ese caso es eliminado de la ecuacin de
regresin.
Df Ajuste tipificado. Es el cociente entre DfAjuste y su error tpico.
Generalmente, se consideran puntos de influencia los casos en los que
DfAjuste tipificado es
mayor que (p n) , siendo p el nmero de variables independientes y n el
2
tamao de la
muestra.
Razn entre las covarianzas (RV). Indica en qu medida la matriz de
productos cruzados (base
del anlisis de regresin) cambia con la eliminacin de cada caso.
Se considera que un caso es un punto de RV > 3 + p n
influencia si
Crear coeficientes de los estadsticos. El SPSS ofrece una tabla

resumen que incluye, para todos los estadsticos del recuadro Distancias, el
valor mnimo, el mximo la media, la desviacin tpica y el nmero de casos.
La tabla tambin recoge informacin sobre los pronsticos y los residuos.
Sealar que los puntos de influencia no tienen por qu tener residuos

especialmente grandes, el problema que presentan no es precisamente la
falta de ajuste. A pesar de ello, es conveniente
examinarlos por su desproporcionada influencia sobre la ecuacin de regresin.

Como stos puntos son distintos de los dems, conviene precisar en qu son
distintos.
Una vez identificados y examinados, se pueden eliminar del anlisis simplemente
porque entorpecen el ajuste, o porque su presencia produce medidas de ajuste
infladas.
Valores pronosticados
El objetivo principal del anlisis es el de poder efectuar pronsticos en

casos nuevos. Se han utilizado los coeficientes de regresin parcial (B)
para construir la recta de regresin:
Y = 0,5895 + 0,936 X1 + 0,1866 X2
Conocidos los pesos de la ecuacin de regresin, se puede utilizar la opcin del
men Transformar/Calcular variable para obtener los pronsticos que la
ecuacin asigna a cada caso. Pero esto no es necesario porque el subcuadro
Guardar nuevas variables contiene opciones relacionadas con los pronsticos:
Las opciones de este recuadro generan, en el Editor de datos, cuatro nuevas
variables, que reciben automticamente un nombre seguido de un nmero de
serie (nombre_#). Por ejemplo, la primera vez que se solicitan durante una
sesin los pronsticos tipificados, la nueva variable con los pronsticos
tipificados recibe el nombre de zpr_1. Si se vuelven a solicitar pronsticos
tipificados durante la misma sesin, la nueva variable recibe el nombre de
zpr_2, y as sucesivamente.
No tipificados. Pronsticos que se derivan de la ecuacin de regresin en

puntuaciones directas, reciben el nombre: pre_#.
Tipificados. Pronsticos convertidos en puntuaciones tpicas (restando a

cada pronstico la media de los pronsticos y dividiendo la diferencia por la
desviacin tpica de los pronsticos), reciben el nombre: zpr_#.
Corregidos. Pronstico que corresponde a cada caso cuando la ecuacin de

regresin se obtiene sin incluir ese caso, nombre: adj_#.
E.T. del pronstico promedio. Error tpico de los pronsticos

correspondientes a los casos que tienen el mismo valor en las variables
independientes, nombre: sep_#.
Al efectuar un pronstico hay dos situaciones diferentes:

c
d
Efectuar un pronstico individual Y para un caso concreto X

i
i
Pronosticar para cada caso la media de los pronsticos
Y correspondientes
0
a todos los casos con el mismo valor X 0 en las(s) variable(s)
independiente(s). A esta media se llama pronstico
promedio.
Al efectuar un pronstico individual para un determinado valor de Xi , el error de
estimacin o
variacin
residual
(Y Y
i ) puede contener dos fuentes de error:
1. media
La diferencia
entrecorrespondiente
el valor observado
la variable
poblacional
a X en
). dependiente Yi y la
0 (
Y/X
2. La diferencia entre el pronstico para

ese caso (Y
X 0 ( Y0 / X ).
o Y ) y la media poblacional
0
correspondiente a
En un pronstico individual entran en juego las dos fuentes de error, mientras

que en un pronstico promedio slo entra la segunda fuente de error. En
consecuencia, para un valor dado de X 0 , el error tpico del pronstico promedio
ser menor o igual que el error tpico del valor individual.
Por tanto, al construir intervalos de confianza para los pronsticos, la
amplitud del intervalo cambiar dependiendo del error tpico que se tome
como referencia.
Intervalos de pronstico. Las opciones del recuadro permiten obtener

dos tipos de intervalos:
~ Media: Intervalo de confianza basado en los errores tpicos de los
pronsticos promedio.
~ Individuos: Intervalo de confianza basado en los errores tpicos de los
pronsticos individuales. La opcin Intervalo de confianza k% permite
establecer el nivel de confianza con el que se
construyen los intervalos de
confianza.
Cada una de las opciones (media e individuos) genera en el Editor de datos dos
nuevas variables con el lmite inferior y superior del intervalo. Estas nuevas
variables reciben los siguientes nombres:
lmci_#: lmite inferior IC pronstico medio
IC pronstico medio
lici_#: lmite inferior IC pronstico individual
pronstico individual
umci_#: lmite superior

uici_#: lmite superior IC
CRITERIOS DE SELECCIN DE VARIABLES

Los mtodos por pasos que incluye el SPSS para la
seleccin de variables se basan en dos criterios
estadsticos:
1. Criterio de significacin (Probabilidad de F, valor de F)
2. Criterio de tolerancia
1. Criterio de significacin. Slo incorpora al modelo de regresin

aquellas variables que contribuyen de forma significativa al ajuste del
modelo.
La contribucin individual de una variable al ajuste del modelo se establece
contrastando, a partir del coeficiente de correlacin parcial, la hiptesis de
independencia entre esa variable y la variable dependiente. Para decidir si se
mantiene o se rechaza esa hiptesis de independencia, el SPSS incluye dos
criterios de seleccin:
Probabilidad de F. Una variable pasa a formar parte del modelo de
regresin si el nivel crtico asociado a su coeficiente de correlacin parcial al
contrastar la hiptesis de independencia es menor que 0,05 (probabilidad
de entrada). Y queda fuera del modelo de regresin lineal si el nivel crtico
es mayor que 0,10 (probabilidad de salida).
Valor de F. Una variable pasa a formar parte del modelo de regresin lineal
si el valor del estadstico F utilizado para contrastar la hiptesis de
independencia es mayor que 3,84 (valor de entrada). Y queda fuera del
modelo de regresin lineal si el valor del estadstico F es menor que
2,71 (valor de salida).
Las opciones del recuadro Criterios del mtodo por pasos permite
seleccionar uno de los dos criterios de significacin disponibles, as como
modificar las probabilidades de entrada y salida.
2. Criterio de tolerancia. Superado el nivel de significacin, una variable
solo pasa a formar parte del modelo si su nivel de tolerancia es mayor que el
nivel establecido por defecto (este nivel es
mayor que 0,0001, pero puede cambiarse mediante sintaxis) y, si adems, an
correspondindole un coeficiente de correlacin parcial significativamente
distinto de cero, su incorporacin al modelo hace que alguna de las variables
previamente seleccionadas pase a tener un nivel de tolerancia por debajo del
establecido por defecto.
Una forma intuitiva de comprender y valorar el efecto resultante de aplicar
estos criterios de seleccin consiste en observar el cambio que se va
2
produciendo en el coeficiente de determinacin R a medida que se van
incorporando (o eliminando) variables al modelo.
Este cambio
se puede definir
como R2
= R2 R2 , donde R2 se refiere al coeficiente de

cambio
determinacin obtenido con todas las variables independientes excepto la isima.

2
Un cambio grande en R indica que esa variable contribuye de forma

importante a explicar lo que ocurre con la variable dependiente.
Para obtener los valorescambi
de y su significacin (el grado en que el cambio
2
R
observado en
2
R difiere de cero) hay que marcar la opcin Cambio en R cuadrado del botn
[Estadsticos].
MTODOS DE SELECCIN DE
VARIABLES
Existen diferentes mtodos para
seleccionar las variables
independientes que debe incluir un
modelo de regresin, pero los que
mayor aceptacin son los mtodos de
seleccin por pasos (stepwise). Con
estos mtodos, se selecciona en primer
lugar la mejor variable (con algn
criterio estadstico); a continuacin, la
mejor de las restantes; y as
sucesivamente hasta que no queden
variables.
Todas las opciones se encuentran disponibles en el men del botn despegable

Mtodo.
Dos de los mtodos permiten incluir o excluir, en un solo paso, todas las
variables independientes seleccionadas:
Introducir: Construye la ecuacin de regresin utilizando todas las variables

seleccionadas en la lista de Independientes. Es el mtodo utilizado por
defecto.
Eliminar: Elimina en un solo paso todas las variables de la lista de
Independientes y ofrece los coeficientes de regresin que corresponderan
a cada variable en el caso de que pasaran a formar parte de la ecuacin de
regresin.
El resto de seleccin de variables son mtodos por pasos, esto es, mtodos
que van incorporando o eliminando variables paso a paso dependiendo que
stas cumplan o no los criterios de seleccin:
Hacia delante: Las variables se incorporan al modelo de regresin una a una.
En el primer paso se selecciona la variable independiente, que adems de
superar los criterios de entrada, ms alto correlaciona (positiva o
negativamente) con la dependiente.
En los siguientes pasos se utiliza como criterio de seleccin el coeficiente de
correlacin parcial:
<< Van siendo seleccionadas una a una las variables que, adems de superar
los criterios de entrada, poseen el coeficiente de correlacin ms alto en valor
absoluto (la relacin se parcializa controlando el efecto de las variables
independientes previamente seleccionadas).
La seleccin de variables se detiene cuando no quedan variables que superen
el criterio de entrada (utilizar como criterio de entrada el tamao, en valor
absoluto, del coeficiente de correlacin parcial, es equivalente a seleccionar la
variable con menor probabilidad de F o mayor valor de F) >>.
Hacia atrs: Comienza incluyendo en el modelo todas las variables

seleccionadas en la lista
Independientes y luego procede a eliminarlas una a una.
La primera variable eliminada es aquella que, adems de cumplir los
criterios de salida, pose el coeficiente de regresin ms bajo en valor
absoluto.
En cada paso sucesivo se van eliminando las variables con
coeficientes de regresin no significativos, siempre en orden inverso
al tamao de su nivel crtico.
La eliminacin de variables se detiene cuando no quedan variables en el

modelo que cumplan los criterios de salida.
Pasos sucesivos: Es un mtodo mezcla de los mtodos Hacia
delante y Hacia atrs.
Como el mtodo Hacia delante, en el primer paso comienza seleccionando la
variable independiente que, adems de superar los criterios de entrada, ms
alto correlaciona (en valor absoluto) con la variable dependiente.
A continuacin, selecciona la variable independiente que, adems de superar
los criterios de
entrada, posee el coeficiente de correlacin parcial ms alto (en valor
absoluto).
Cada vez que se incorpora una nueva variable al modelo, las variables
previamente seleccionadas son, al igual que en el mtodo Hacia atrs,
evaluadas nuevamente para determinar si siguen cumpliendo o no los
criterios de salida. Si alguna variable seleccionada cumple los criterios de
salida, es eliminada del modelo.
El proceso se detiene cuando no queden variables que superen el
criterio de entrada y las variables seleccionadas no verifiquen los
criterios de salida.

Regresion Multiple

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Regresion Multiple

Hochgeladen von

Copyright:

Verfügbare Formate

Regresin Lineal

REGRESIN LINEAL MLTIPLE

Las tcnicas de regresin lineal mltiple parten de (k+1) variables cuantitativas,

ui N(0, ) independientes, (i = 1,2, L ,n)

Y = X + siendo X =' matriz del diseo'.

Las hiptesis comunes entre las regresiones lineal y mltiple son:

independientes (i = 1,2, L ,n)

Requisitos adicionales de la regresin mltiple:

ESTIMACIN DE LOS PARMETROS

La nube de puntos est

Es difcil de visualizar para k>2

Xi1Xi ... Xi1Xik

Cada uno de los

donde X' es la matriz

i representa el efecto de la variable independiente sobre

explicada. Es decir, el valor

dependiente cuando la variable independiente X i vara en una unidad y

En un principio, para estimar la varianza del error aleatorio U, parece razonable

Y = X + U . El correspondiente modelo ajustado ser Y = U = Y Y = Y X

Para minimizar S se aplica el criterio mnimocuadrtico, derivando respecto de :

X' X B = a [X' X ]1 (X' X ) B = [X'

b) El vector de observaciones Y se distribuye segn una normal multivariante de

matriz de varianzas y covarianzas I , es decir, Y N( X , I) .

E( ) = E [X' X ] X' Y = [X' X ] X'E(Y) = [X'

X' Y = [X' X ] X' [Var (Y)] X [X' X ] = [X' X ] X' X [X' X ] =

Con el ajuste de mnimos

son los elementos de la diagonal principal [X'X ]

De forma que estimaremos la varianza

Como la variable tStudent con kgrados de libertad

d) CONTRASTE DE HIPTESIS [tStudent]

frente a la hiptesis alternativa H1: i 0 .

Si n > 30 , se acepta la hiptesis nula t 2 . En caso contrario, se acepta la

CLCULO DEL COEFICIENTE DE CORRELACIN PARCIAL

matriz transpuesta del diseo).

Por otra parte, N

son los elementos de la diagonal principal [X'X ]

CONTRASTE DE HIPTESIS INTERVALOS DE CONFIANZA

Se acepta la hiptesis nula H0 , X i no influye en Y, con un nivel de confianza (1

f) INTERVALO DE CONFIANZA PARA LA VARIANZA DE LOS RESIDUOS

SCT = ( Yi 2 = ( Yi Y i)+ ( Yi = ( Yi Y 2+ ( Yi Y2 + 2 ( Yi Yi ).( Yi Y )

Una vez estimado el modelo es conveniente obtener una medida acerca de la

El Coeficiente de Determinacin permite, adems, seleccionar entre modelos

Por otra parte, el valor coeficiente de determinacin crece con el nmero de

En este caso debe emplearse el coeficiente de determinacin corregido R ,

ANLISIS DE LA VARIANZA: TABLA ANOVA

De otra parte, la distribucin F

Posible Multicolinealidad (revisar el

PREDICCIN EN EL MODELO DE REGRESIN

Intervalo de confianza para un valor individual de Y para los valores ( X

Los coeficientes ( 1 , 2 ) vienen dados, respectivamente, () , por el cociente

ryx ryx2 rx1

Ejercicio 1. Se pretenden estimar los gastos en alimentacin de una familia en

Y = X + = [X' X ] X' Y , donde X' matriz transpuesta

Aplicando el criterio de los mnimos cuadrados ordinarios MCO, la funcin que

conlleva a un sistema de ecuaciones normales:

Con estos datos, se obtiene:

(Modelo regresin lineal)

u =1 Y 1 Y1 = 0,43 0,3839 = 0,0461

INTERVALOS DE CONFIANZA PARAMTROS DEL MODELO (1 ) = 0,90

Intervalo de confianza para la varianza

) La varianza de los estimadores del modelo N , 2 [X' X ] 1 :

Intervalo de confianza para los

IC1 () = 0,077 (1,78