Sie sind auf Seite 1von 98

Regresin Lineal

Mltiple

Santiago de la Fuente
Fernndez

Regresin Lineal
Mltiple

Santiago de la Fuente
Fernndez

Regresin Lineal
Mltiple

REGRESIN LINEAL MLTIPLE

Las tcnicas de regresin lineal mltiple parten de (k+1) variables cuantitativas,


siendo Y la variable de respuesta y ( X1 , X2 , LL , Xk ) las variables explicativas.
Se trata de extender a las 'k' variables las tcnicas de la regresin lineal
simple. En esta lnea, la variable Y se puede expresar mediante una funcin
lineal de las variables (X1 , X2 , LL , Xk )
Y = 0 + 1 X1 + 2 X2 + L +
k Xk
Para ello, dispondremos de una modelo de probabilidad (la Normal). El
estadstico fija los valores de las variables regresoras X ki y obtiene 'al azar' los
correspondientes valores Yi
Modelo: = 0 + 1 X1 + 2 X2 + L + k Xk + U
Y
Sea la muestra aleatoria: Yi = 0 + 1 X1 i + 2 X2 i +
L + K XK i + ui
2

Yi

+ 1 + 2 + L +

X , )

N(0

X1

independientes,
k

X2

(i = 1,2, L ,n)

(i = 1,2, L ,n)

ui N(0, ) independientes, (i = 1,2, L ,n)


Y
1
Y2
En forma
matricial:

M = M

M

yn

Xk 1 u
0
1
X12
Xk 2 1
u2
L

M L M M + M


X11
L

M L M M

Xk n k
X1n

M
u
n

Y = X + siendo X =' matriz del diseo'.


U

Las hiptesis comunes entre las regresiones lineal y mltiple son:


2
a)
N(0, )
Normalidad: ui
b) Linealidad: E(u i ) = 0

c) Homocedasticidad: Var (u i ) = 0
d)
Independencia:
Santiago de la Fuente
Fernndez

u i son

independientes (i = 1,2, L ,n)

Regresin Lineal
Mltiple

Requisitos adicionales de la regresin mltiple:


a) n > k+1. El modelo depende de (k+2) parmetros. Para que la
regresin tenga significado debe haber un nmero suficiente de datos.
b) Ninguna de las variables explicativas X es combinacin lineal de las
otras (Colinealidad). Si alguna de las Xi es combinacin lineal exacta de
alguna de las otras Xi , el modelo puede simplificarse con menos
variables explicativas. Tambin hay que considerar si alguna de las Xi
est fuertemente correlacionada con otras.

Santiago de la Fuente
Fernndez

ESTIMACIN DE LOS PARMETROS


Sea la muestra aleatoria: Yi = 0 + 1 X1 i + 2 X2 i +

(i = 1,2, L ,n)

L + K XK i + ui
En forma matricial: Y = X siendo X ='matriz del diseo'.
+U
Datos

X1

X2

X k1

La nube de puntos est


en un espacio de
dimensin (k+1).

X k2

Es difcil de visualizar para k>2

Y1

X 11

X 21

Y2

X 12

X 22

M
n

Yn

n X2
i1

X 1n

XK

X 2n

X kn

Xi1Xi ... Xi1Xik


2
i=1
n

i=1
n
X Xi2
donde X' X = i=1
i1
,

... X Xik
i=1 i2
M
...

Xi2
i=1
M

M
n
X ikX
i=1 i1

Xik X
i=1

Cada uno de los


coeficientes

i=1
n

...

i2

Xik
i=1

= [X'X ]

X' Y

donde X' es la matriz


transpuesta del diseo

n X Y
i1 i

i=1

n
Xi2 Yi
X' Y =

M
i=1

Xik Yi
i=1

i representa el efecto de la variable independiente sobre


la variable
indica la variacin que experimenta la variable

explicada. Es decir, el valor


estimado
i

dependiente cuando la variable independiente X i vara en una unidad y


todas las dems permanecen constantes.
Cuando el modelo tiene trmino independiente, las matrices anteriores se
simplifican con las siguientes expresiones:
n
n
X
X' X = i=1

Xi2
i=1
n

X 2

i2

n
... X ik
i=1

n
n
... X X
i=1 i2
M ...
n

nY
i
ni=1
X

ik Y
,
i2 i=1

X' Y = i=1

Xik
i=1

i
2

Xik X
i=1

i2

... X
ik
i=1

i2

u = Y Y = Y + + + L + X

X 1 1X 2 2

i
i
i
i
0
K
K

Xik Yi
i=1

= S2 =
R

u2

n k 1

i=1

En un principio, para estimar la varianza del error aleatorio U, parece razonable


utilizar la varianza de los errores de prediccin, tambin denominados residuos
del modelo.
Es decir, parece razonable
1
2
utilizar =

2
embargo,
este estimador es sesgado
ui . Sin
2
2

E( ) ,
n

i=1
n

u2 .
por tanto, se utiliza como estimador

1
2
S =
R
n k 1 i=1
i

DEMOSTRACIN ( Y = X
+U

= [X'X ]

X' Y )

Y = X + U . El correspondiente modelo ajustado ser Y = U = Y Y = Y X


X , con lo cual,
Denominando S a la suma de los cuadrados de los residuos:
u 1
u
n
S = U ' = [ u , , LL , ] 2 = i=1
u ( U' matriz transpuesta de U )
1 2
i

U
u n
u

u n
'

S = Y X Y X = Y' Y ' X' Y = Y' Y ' X' Y ' X' Y + Y' Y 2 ' X' Y +
' X' XB
' X' X B =

14444244443
Y' X + ' X' XB

][

un escalar es igual a su
transpuesto

' X'
Y=X' Y

Para minimizar S se aplica el criterio mnimocuadrtico, derivando respecto de :


S = 2 X' Y + 2 X' X B
= 0

X' X B = a [X' X ]1 (X' X ) B = [X'


X' Y
X ]1 X' Y

a B = [X' X ]1 X' Y

DISTRIBUCIN DE
a) Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y
matriz transpuesta del diseo).

(siendo X' la

b) El vector de observaciones Y se distribuye segn una normal multivariante de


media X y de
2

matriz de varianzas y covarianzas I , es decir, Y N( X , I) .


c) es combinacin lineal de las componentes del vector Y, por lo que se
distribuye segn una variable aleatoria normal, donde su media y matriz
de varianzas y covarianzas ser:

E( ) = E [X' X ] X' Y = [X' X ] X'E(Y) = [X'


1

es un estimador insesgado de

X ] X' X =
1

Var ( ) = Var

( [X' X]

X' Y = [X' X ] X' [Var (Y)] X [X' X ] = [X' X ] X' X [X' X ] =


1

[X' X ]
2

de
donde,

N , 2 [X'X ]

u = Y Y = Y + + + L + X
i i i i
0X 1
1X 2
2
K
Ki

Con el ajuste de mnimos


cuadrados:

i N , i +1, i
+1

) , donde

i +1, i

son los elementos de la diagonal principal [X'X ]

+1

Anlogamente, la covarianza
entre i y

j
ser

2 q

i 1,i 1
+

2
2
se hace mediante S = u , pudindose
1
R
i
n k 1
comprobar que el estimador es insesgado:
i=1
R

La estimacin de la varianza
2
residual

[ ]=
2

ES

i +1, i +1

De forma que estimaremos la varianza


de
i

SR
mediant q
e

i +1, i +1

N , q
2

(n k 1) RS
2
Se demuestra
que
nk 1
2
Se
obtiene

i i
N(0,1) .
q i +1, i
+1

Como la variable tStudent con kgrados de libertad


se define: tk =

i
resulta que,
t =

1
k

2
k

q i +1 , i +1
1

N(0,1)

(n k 1)R


tnk1
i i
=
SR q i +1, i
+1

(n k 1)

d) CONTRASTE DE HIPTESIS [tStudent]


Nos planteamos si la variable X i influye sobre la variable de respuesta Y. En
otras palabras, si el valor del parmetro en la poblacin es cero o no.
Para ello, se establece la hiptesis nula

H0 : i = 0

frente a la hiptesis alternativa H1: i 0 .


i i
, bajo la hiptesis nula
El estadstico observado
q i +1, i
resulta, t =
t=
SR +1
estadstico
experimen
tal
64474

48
Se acepta la hiptesis nula H0
cuando

SR qi +1, i

estadsti
co
terico
647

48
t
2

; (nk1)

i
q i +1, i +1
SR

. En caso contrario, se
rechaza.

+1

Si n > 30 , se acepta la hiptesis nula t 2 . En caso contrario, se acepta la


H0 cuando
hiptesis
alternativa H1 , concluyendo que la variable Xi isima influye en la respuesta.

CLCULO DEL COEFICIENTE DE CORRELACIN PARCIAL


En un modelo de regresin lineal
mltiple, Y

= 0 + 1 X1 + 2 X2 + L + k Xk , se puede
calcular
fcilmente el coeficiente de correlacin parcial entre la variable de
respuesta Y y una variable regresora X, controlado por el resto de
variables regresoras. Para ello se utiliza el contraste individual de la t
respecto a la variable X, y que se define como:

ti =
SR qi +1, i +1
2
Y iC

Obtenindose la siguiente
relacin:

R =

i = 1,2,...,k,

ti2
ti2 + n (k +
1)

dond C = {1,2, ... ,i 1,i + 1, ... ,k } conjunto de ndices de todas las variables
e
regresoras excepto el
ndice isimo.
e) INTERVALOS DE CONFIANZA DE LOS
i
PARMETROS
Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y

(siendo X' la

matriz transpuesta del diseo).


n

Por otra parte, N


, 2 q
i

)i 2
(y y
i

), donde la varianza
i +1, i

2
se estima por S =

residual

+1

donde q

i +1,

son los elementos de la diagonal principal [X'X ]

i +1

IC 1 (
i ) =

t / 2 , (nk 1)

i + 1, i +1

SR

CONTRASTE DE HIPTESIS INTERVALOS DE CONFIANZA


Hiptesis nula
Hiptesis
alternativa

H0 : i X i no influye
en Y X i influye
=0
H1: i en Y
0

i=1

n k 1

Se acepta la hiptesis nula H0 , X i no influye en Y, con un nivel de confianza (1


) cuando el
cero se encuentra en el intervalo de confianza.
En caso contrario, cuando el cero no cae en el intervalo de confianza, se
acepta la hiptesis alternativa H1 , y en consecuencia, X i influye en Y.
Este contraste es equivalente al contraste de la tStudent para cada i

f) INTERVALO DE CONFIANZA PARA LA VARIANZA DE LOS RESIDUOS

2
(n
(n k 1) S SC
2 k 1)
S
2R
R
R
;
IC =
=
2
2
2
, (nk1)

, (nk1)
,

2
(nk1)

SCR

, (nk1)

DESCOMPOSICIN DE LA
VARIABILIDAD
n

6447=0 448

i=1

i=1

SCT = ( Yi 2 = ( Yi Y i)+ ( Yi = ( Yi Y 2+ ( Yi Y2 + 2 ( Yi Yi ).( Yi Y )


i=1
i=1
Y)
Y)
)
i)
i=1

2( Y Y

( Y Y ) 2 =

1i=142
43
SC
T

1i=1
4243
SC
E

suma cuadrados
total
(n1) grados
libertad

2
( Y Y )

suma cuadrados
explicada
k grados
libertad

1i=142
43
SC
R

suma cuadrados
residual
(nk1) grados libertad

( Y Y 2) 2 = ( Y Y ) 2 + (
Y Y)
i=1

i=1

i=1

2
( Y Yi )i

1 =

i=1
n

( Yi Y

)2
1i=142
43
SCR /
SCT

2
( Yi Y )
i=1
n

( Yi Y ) 2

1i=14243
R2 =SCE/
SCT

Una vez estimado el modelo es conveniente obtener una medida acerca de la


bondad del ajuste realizado. Un estadstico que facilita esta medida es el
2
Coeficiente de Determinacin ( R ), que se
n

2
( Yi Yi )

SCE
= i=1n
define R 2 =

SC
T

2
( Yi Y )
i=1

El Coeficiente de Determinacin permite, adems, seleccionar entre modelos


clsicos que tengan el mismo nmero de regresores, ya que la capacidad
explicativa de un modelo es mayor cuanto ms elevado sea el valor que tome
este coeficiente.

Por otra parte, el valor coeficiente de determinacin crece con el nmero de


regresores del modelo. Por ello, si los modelos que se comparan tienen distinto
2
nmero de regresores, no puede establecerse comparacin entre sus R .
2

En este caso debe emplearse el coeficiente de determinacin corregido R ,


que depura el incremento que experimenta el coeficiente de determinacin
cuando el nmero de regresores es mayor.
SCR n 1
n
2
2
=1
R =1
[1 R ]
1
k
SCT n 1
n k 1

ANLISIS DE LA VARIANZA: TABLA ANOVA


Variaci
n
Explicad
a
Residual

Suma
n
cuadrados
SCE Y=i)( Yi 2
i=1

Grados
libertad
k

SCR= (Yi Y )2

Media
cuadrtica
SC
E
SCR
n k 1

n k 1

i=1
n

SCT = ( Y Y
i
)2

Total

FSnedecor
F=

SCE / k
SCR / (n k
1)

n
1

CONTRASTE DE HIPTESIS:
Hiptesis
nula

H0 : 1 = = LL = k =
0
2

el modelo no es explicativo

Hiptesis
alternativa

H1: al menos un
i 0

el modelo es explicativo

A un nivel de confianza (1 ) se
rechaza H0 si

F F; k , (nk1)

FSnedecor COEFICIENTE DE
DETERMINACIN
El coeficiente de determinacin se
define: R

2
( Yi Yi )
SCE
i=1

SC
T

( Yi Y )

i=1

De otra parte, la distribucin F


Snedecor:
F
/k
=

SCE

1 nk1
SCE SCT n
nk1 2
1
nk
2
= R2
=
R
1
R
k1
1
2
=
=
=
1

R
k
SCR k
SCT SCE k
SCR / (n k SCT SCR k
1)
SC
SC
T
T
2

R
12
R

n k
1
k

F = R2 n k
1
1
2
k
R

RESUMEN DE CONTRASTES
Contraste Conjunto Contrastes
Individuales
FSnedecor
Modelo explicativo Todas lastStudent
Xi son
Modelo explicativo explicativas
Algunas Xi son
Ninguna Xi es
explicativas
explicativa
Todas las Xi son
explicativas
Algunas Xi son

Conclusin
Tomamos todas las Xi
Nos quedamos con las Xi explicativas

Modelo
explicativo
Modelo
explicativo
Modelo

no
no

Ninguna Xi es
explicativa

Posible Multicolinealidad (revisar el


Modelo)
Posible Multicolinealidad (revisar el
Modelo) Posible Multicolinealidad
(revisar el Modelo) El Modelo no

PREDICCIN EN EL MODELO DE REGRESIN


Una vez estimado y validado el Modelo, una de sus aplicaciones ms
importantes consiste en poder realizar predicciones acerca del valor que tomara
la variable dependiente en el futuro o para una unidad extramuestral.
Esta prediccin se puede realizar tanto para un valor individual como para
un valor medio, o esperado, de la variable dependiente, siendo posible
efectuar una prediccin puntual o por intervalos. Su clculo se realiza
mediante las siguientes expresiones:

Intervalo de confianza para un valor medio de Y para los valores ( X10 , X20
, LL , Xk 0 ) de las variables explicativas.
Y 0 =

+ 1 X10 + 2 X20 + L + K XK 0

IC

E(Y0 )

= Y0 t

SR

/ 2 , (nk 1)

(1
X 10

X 10
X k ) (X'X) 1 20

0
X

XK 0

X 20
L

Intervalo de confianza para un valor individual de Y para los valores ( X


20 , LL , X k 0 ) de las variables explicativas.

IC

Y0

= Y0 t

SR

/ 2 , (nk 1)

1 +
(1

MATRIZ DE COVARIANZAS
La define:
matriz de varianzascovarianzas
se

= Sx y
S2 yx S yx1
= 1

x
S
S
yx Sx2 y

Sy 1
x

VC Sx 1 y x21
S
S

x 2y

,X

X 10
X k ) (X'X) 1 20

0
X

XK 0

X 10 X 20
L

y2

10

x
1

x 22

S
x1 x 2

=S
x

Los coeficientes ( 1 , 2 ) vienen dados, respectivamente, () , por el cociente


con signo negativo

de
2
2

los adjuntos ,
yx1
(S
S yx

) entre el adjunto de 2 :
y

1 = VCyx 1

VCy
2

x1

S1 x 2

donde VC y
Sx 2 x 1 x2 2
,
=

2 = VCyx 2

VCy

=Y
X2

1 X1
0

Sx 1 Sx 1 x
y

VC y1x =
2
Sx 2 y
x2

Sx 1 y
VC y2x =
Sx 2
y

S2x 2 x 1

2
R2 = yx
1

Coeficiente de determinacin
mltiple:

= 1 CV
2
Cy
yy

Coeficientes de correlacin
parcial:
VC 2 =
VC yy
y

VCx =
VC
1

x
1

VCx =
VC
2

yx 1
.x 2

VCyx

VC y VCx 1
y

yx 2
.x 1

VCyx 2

VC y VCx 2 x 2
y

MATRIZ DE CORRELACIONES
La matriz de correlaciones de las variables explicativas Rx est formada por
los coeficientes de correlacin lineal simple:
S

= yx1
r
yx

1
1 ryx ryx
ryx = rx

y
1
2
y
x1

1 1
Rx = rx 1 y 1 rx1 2 donde r yx = rx 2 y

r
r
1

x 2y x 2 x 1

rx

ryx 1 .x 2 =

Coeficientes de correlacin

parcial:

ryx 2.x =

Coeficiente de determinacin
mltiple:

x
2

ryx ryx2 rx1

(1 yx
)(1 x1r 2
2
r 2
ryx2 ryx1 rx2

2
yx1

2
(1 r )(1 r
)
x2 1

r
R = r 1 x =2
2

S yx
2
=
r
yx 2
y

x2

= r1 x

2
yx

2
yx
1

2
+ ryx
2 yx
r 1 ryx 2 rx 1 x 2
2
12
r x 1x
2

Ejercicio 1. Se pretenden estimar los gastos en alimentacin de una familia en


base a la informacin que proporcionan las variables regresoras 'ingresos
mensuales y 'nmero de miembros de la
familia'. Para ello se recoge una muestra aleatoria simple de 15 familias, cuyos
resultados se facilitan en la tabla adjunta. (El gasto e ingreso se expresan en cien
mil euros).
Gasto
Alimentacin
0,4
3
0,3
1
0,3
2
0,4
6
1,2
5
0,4
4
0,5
2
0,2
9
1,2
9
0,3
5
0,3
5
0,7
8
0,4
3
0,4
7
0,3
8
Solucin: En forma
matricial:

Ingresos
2,1
0
1,1
0
0,9
0
1,6
0
6,2
0
2,3
0
1,8
0
1,0
0
8,9
0
2,4
0
1,2
0
4,7
0
3,5
0
2,9
0
1,4
0

Tamao
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4

Y = X + = [X' X ] X' Y , donde X' matriz transpuesta


1

U ,
0,43
1 2,1 3

0,31
1 1,1 4
0,32

1 0,9 5
0,46
1 1,6 4
1,25
1 6,2 4

0,44
1 2,3 3

0,52
1 1,8 6 0 u1
Y = 0,29 = X + U =
5 1 + u2
1
1


1,29
1 8,9 3 2 u3
0,35
1 2,4 2

0,35
1 1,2 4
0,78
1 4,7 3

0,43
1 3,5 2

0,47
1 2,9 3

1 1,4 4
0,38

Aplicando el criterio de los mnimos cuadrados ordinarios MCO, la funcin que


mejor se ajusta a los datos es la que minimiza la varianza del error U, lo que

conlleva a un sistema de ecuaciones normales:

15
15 Y = N + 15
X

0
1
1i + 2 X 2i
i=1 i
i=1
i=1

15
15
15
15
2
ecuaciones
Y =
normales MCO

0 X1i+
1 X1i +
2 X1i X2i
X
i=1
i=1
i=1
i=1 1i
15
15 i
15
15

2
X
Y
X
X
X
=

2i i
0
2i
1 1i
2i + 2 X 2i
i=1

i=1

i=1

i=1

Con estos datos, se obtiene:


Yi

X1i

2
X2i

X21i

X2i

X1i
Yi

X1i

X2i
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15

Yi =
8,07
i=1

2,1
1,1
0,9
1,6
6,2
2,3
1,8
1
8,9
2,4
1,2
4,7
3,5
2,9
1,4
15

X1i =

3
4
5
4
4
3
6
5
3
2
4
3
2
3
4

4,41
1,21
0,81
2,56
38,44
5,29
3,24
1
79,21
5,76
1,44
22,09
12,25
8,41
1,96

15

15 2
X1i =
i=1 188,08

X2i =

42

55

i=1

i=1

9
16
25
16
16
9
36
25
9
4
16
9
4
9
16
15 2

con lo
cual,

i=1

15

Y =

i=1

1,29
1,24
1,6
1,84
5
1,32
3,12
1,45
3,87
0,7
1,4
2,34
0,86
1,41
1,52
15

Y =

i
X2 28,96
i=1

+
= 8,07
15 +
42 55

15
15
15

+
+
=
2
X
Y
=

0 1i +
1 X
1i +
2 X
1i 2i
X 42
0 188,08 1140,08 2 32,063

i=1 1i
i=1
i=1
i=1

i
550 + 140,081 + 2192 =
15
15
15
15
2
28,96

X
Y
X
X
X
X
=

2i i
0 2i
1 1i
2i
2 2i
15

i=1

i=1

i=1

i=1

en forma
matricial,

[X'X ]
6444447
48
444448

647X'Y

0,092

0,282 8,07

644447
44448
15
42
55

X'X

55 140,
8

0,903
0,341
0,288
0,736
7,750
1,012
0,936
0,29
11,481
0,84
0,42
3,666
1,505
1,363
0,532

i
X1X2i140,8 X1 32,063

i=1

i=1

i=1

15

=
2i
X219

Yi = N0 + 1 X1i + 2 X2i
i=1

6,3
4,4
4,5
6,4
24,8
6,9
10,8
5
26,7
4,8
4,8
14,1
7
8,7
5,6

X2i Yi

21
9

8,07

28,96

1,36

0,282


0,01
3

0,067 28,96

0,16
0

= 0,149 Y = 0,16 + 0,149 X + 0,077 X +

1
2
1
Re siduo

0,077

(Modelo regresin lineal)

Y
i = 0 + 1 X1i se obtienen las predicciones y residuos
A partir de la
ecuacin
asociados
+ 2 X 2i
ui = Yi Yi a las observaciones muestrales. De este modo, para la primera
observacin
( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ), se tiene:
Y = 0,16 + 0,149 (2,1) + 0,077 (3) = 0,3839

u =1 Y 1 Y1 = 0,43 0,3839 = 0,0461


En esta lnea, considerando todos los puntos muestrales, se obtiene:
Predicciones:
Yi

2
i

Residuo ui = Yi i
s:
Y

0,3839
0,046
0,3119
0,3591
0,3864

u
0,002
0,0000
0,039
0,0015

1,3971
0,3516

0,050
0,0025
0,084
0,0071
0,107
0,0115
0,002
0,0000

0,3566

decir, la variabilidad de Y
respecto a la recta
ajustada ser:

15

i=1

0,000
5

0,023
0,7713

0,5031

de donde, la suma
de cuadrados
RESIDUAL, es

SCR
2 = (Y
Y )

0,3268

0,009
0,5155

0,0021

0,005
4
0,031
8
0,000
7

0,178
0,4137

0,374

0,074
1,0718

0,026
0,5702

= (Yi Y )

0,000
1
0,086
0,0073
0,033
0,0011

= 0,0721

SCR
SR =
=
15 2 1
12

0,0721
= 0,006

S = 0,006 = 0,0775
0,0005
15

0,023

2
(Y Y ) =
i=1

0,0721
1

INTERVALOS DE CONFIANZA PARAMTROS DEL MODELO (1 ) = 0,90

Intervalo de confianza para la varianza


2
=
2
=
S
2 = 0,0721

R
0,05,1 21,02
0,95,1 5,226

2
=

=
n
= 12k 1 15 2 1 S
0,006
R

SCR

,
2
(nk1)

2
1

,(nk1)


2
2

(n 1) S
(n
1)
k
k SR
R
IC =
;
=

(nk1)

SC
R

0,0721 0,0721
[
]
;
; 0,0138
= 0,0034
2
5,226

21,026
1 ,(nk1)

2
=

0,0034 0,0138

) La varianza de los estimadores del modelo N , 2 [X' X ] 1 :


q

i +1, i

+1

elemento de

[X'X ]

644474448
1
1
2
2
Var ( ) = [X' X ] S [X' X ]
= (0,006)
i
R

S2 q+1, i +1
i

644444744444
8
R
1,36

0,00816
0,01

0,000096
6

0,067
0,0004

Var(0 ) = 0,00816

0,00816 = 0,0903

=
0,000096 = 0,0098
0

Var( ) = 0,000096
1
1 =
Var( ) = 0,0004
0,0004 = 0,02
2
1
=

de
donde se
deduce,

Intervalo de confianza para los


parmetros:

IC1 (i ) =

t / 2 , (nk1)

q i +1, i +1

SR

0 =

1 =

0,160

0,149

0,077

IC1 () =

0,00816

(1,782)

0,160

IC1 (
0,149
1 ) =

0,000096

0,1665

(1,782)

IC1 () = 0,077 (1,78


2)

] [ 0,321 ; 0,001 ]
] = [ 0,1315 ;

(Ingreso)

[ 0,0414 ;

(Tamao)

0,0004
=

t0 ,05 , 12 = 1,782

0,1126

Contraste de Hiptesis individual para X 2 (tamao familiar)


Nos planteamos si la variable X 2 (tamao) influye sobre la variable de
respuesta Y (gastos). En otras palabras, si el valor del parmetro en la
poblacin es cero o no.
Para ello, se establece la hiptesis nula frente a la hiptesis alternativa H1: 2
H0 : 2 = 0
0.
El estadstico
observado t =

, bajo la hiptesis nula resulta: t =

SR q33

SR q33

Por
tanto,
2 =

SR q33 =

0,0004 =

0,077

(0,0775)

0,00155

t0 ,05 , 12 = 1,782

El estadstico
experimental

t=

2
0,077 = 49,67

=
SR q33 0,0015
5

Siend t > t 0 ,05 , se rechaza la hiptesis nula, afirmando, con un 90% de


o
fiabilidad, que el
12

nmero de miembros de la familia influye en los gastos de alimentacin.


* Obsrvese que en el Intervalo de

IC1 (2 ) = [ 0,0414 ; 0,1126 ] el

Confianza para 2 :
cero no
se encuentra en el intervalo, con lo que se rechaza la hiptesis nula H0 : 2 = 0
, concluyendo que
el nmero de miembros de la familia (tamao) si influye en los gastos de
alimentacin (Y).

MODELO LINEAL DE REGRESIN MLTIPLE: HERRAMIENTAS DE SOFTWARE

EXCEL Y LA REGRESIN MLTIPLE

Se puede utilizar el anlisis de la regresin lineal mltiple para estimar el gasto


de familias en alimentacin (Y) basndose en las variables X1='Ingresos
mensuales' y X2='nmero de miembros de la familia'.
Excel dispone de anlisis de
Regresin para ajustar el modelo
de regresin mltiple,
simultneamente proporciona las
estimaciones de los parmetros, la
contrastacin individual, y el
anlisis de los residuos.
En el men Herramientas, tenemos
el dilogo Anlisis de datos, donde
elegimos Regresin, obtenindose
un cuadro de dilogo que permite
realizar un ajuste para la regresin
mltiple.

Los Campos de Entrada tienen las funcionalidades:


Rango Y de entrada: Introducir la referencia
correspondiente al rango de datos
dependientes. El rango debe estar formado por
una nica columna.
Rango X de entrada: Introducir la referencia
correspondiente al rango de datos
independientes. Excel ordenar las variables
independientes de este rango en orden
ascendente de izquierda a derecha. El nmero
mximo de variables independientes es 16.

Rtulos: Activar esta casilla cuando la primera fila o la primera columna del rango
(o rangos) de entrada tienen rtulos. No activar en el caso de que el rango de
entrada carezca de rtulos. Excel genera los rtulos de datos correspondientes para
la tabla de resultados.
Nivel de confianza: Activar esta para incluir ms niveles de confianza en la
tabla de resmenes de resultados. Introducir el nivel de confianza a aplicar
adems del nivel predeterminado del 95%.
Constante igual a cero: Activar esta casilla para que la lnea de regresin pase por
el origen.
Rango de salida: Introducir la referencia correspondiente a la celda superior
izquierda de la tabla de resultados. Dejar por lo menos siete columnas disponibles
para la tabla de resultados sumarios, donde aparecen: tabla de anlisis, nmero
2
observaciones, coeficientes, error tpico del pronstico Y, valores de R y error tpico
de coeficientes.
En una hoja nueva: Hacer clic en esta opcin para insertar una hoja nueva en el
libro actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de
clculo. Para dar un nombre a la nueva hoja de clculo, anotarlo en el cuadro.
En un libro nuevo: Hacer clic para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. Si desea incorporar la opcin grfica tiene que
teclear esta opcin.
Residuos: Activar esta casilla para incluir los residuos en la tabla de resultados.
Residuos estndares: Activar esta casilla para incluir residuos estndares en la
tabla de resultados de residuos.
Grficos de residuos: Si activa esta casilla se genera un grfico por cada variable
independiente frente al residuo.
Curva de regresin ajustada: Si activa esta casilla se genera un grfico con
los valores pronosticados frente a los valores observados.
Trazado de probabilidad normal: Activando esta casilla se genera un grfico con
probabilidad normal.
Finalmente, con las opciones activadas en la figura anterior, en la tabla de
resultados aparecen los estadsticos de regresin, cuadro de anlisis de la
varianza del modelo, estimadores, contrastes de significacin de FSnedecor y
de tStudent con sus pvalores asociados, intervalos de confianza para los
parmetros y para las predicciones al 90% y 95%, y residuos.

La siguiente figura presenta el grfico de cada variable independiente (X1, X2)


contra los residuos, lo que se utiliza para detectar el problema de no linealidad,
heteroscedasticidad, y autocorrelacin en el modelo del ajuste.
Lo mejor es que todas las grficas presenten una estructura aleatoria de puntos.

La figura adjunta presenta el


grfico para detectar la hiptesis
de normalidad en el modelo.
La grfica ideal es la diagonal
del primer
cuadrant
e.

Las siguientes grficas visualizan cada variable independiente contra los


valores predichos, lo que sirve para detectar problemas de
heteroscedasticidad.
Lo ideal es que todas las grficas presenten una estructura aleatoria de puntos.

SPSS Y LA REGRESIN MLTIPLE


Con datos introducidos en SPSS, intentamos ajustar un modelo mediante Mnimos
Cuadrados
Ordinarios (MCO).
Para ello, se elige en el Men Analizar / Regresin / Lineal, como se indica en la
figura adjunta.

En el cuadro de la Regresin lineal se introduce la variable


dependiente (Y) y las variables independientes ingresos (X1) y tamao
familiar (X2). En el botn [Opciones]:

En las opciones [Estadsticos y Grficos], se procede como aparece en las


selecciones adjuntas.
En el botn [Grficos] se selecciona residuos contra valores predichos. Al pulsar
Aceptar se obtiene el ajuste del modelo.

En el Visor de SPPS, el ajuste del Modelo:

Respecto a la autocorrelacin, el estadstico de DurbinWatson de 1,177 no deja


claro la presencia o
n

(u u ) 2
no de
autocorrelacin:

DW = i=2

i 1

n u)
i
2

i=1

DW
2

2(1 DW
0
DW
4

si = 0
si = 1
si = 1

El anlisis de la varianza indica que el modelo de regresin es significativo (p


valor aproximadamente cero, F2, 12=113,141, pvalor < 0,001). Por tanto, se
rechaza la hiptesis nula de que la variabilidad observada en la variable
respuesta sea explicada por el azar, admitiendo que hay algn tipo de asociacin
entre la variable dependiente y las independientes.

El Modelo estimado
sera:

Y = 0,16 + 0,149 X

+ 0,077 X

En la figura del histograma de


los residuos se observa que se
ajusta bien a una distribucin
normal.

En la figura se presenta el grfico de


normalidad que se ajusta muy bien a la
diagonal del primer cuadrante.

En el grfico de residuos
tipificados contra valores
predichos existen dudas sobre la
aleatoriedad porque los puntos se
concentran siguiendo rectas
paralelas, lo que permite
vislumbrar problemas de
heteroscedasticidad.

Regresin Lineal
Mltiple

ANLISIS DE LA VARIANZA: TABLA ANOVA


n

2
( Y Y ) =

( Y Y

2
)

i
i=1
1424
3
SC
total
T

Descomposicin de la
variabilidad:

i
1424
3 i
SC
E

Explicada
Residual

Suma de
Cuadrados
15
SCE = ( Y Y )
1,3595 i
i=1
15

SCR = ( Y Y )
0,0721
i
i
i=1
15

SCT = ( Y Y )
1,4316 i

Total

Gr.
libertad
2
15 2
1
15 1

(Yi Y)2

Yi
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15

Yi =
8,07
i=1

0,011664
0,051984
0,047524
0,006084
0,506944
0,009604
0,000324
0,061504
0,565504
0,035344
0,035344
0,058564
0,011664
0,004624
0,024964
15

SCT = (Yi Y)
1,4316

suma cuadrados
explicada
k grados
libertad

Media
cuadrtica
SCE
=

suma cuadrados
residual
(nk1) grados libertad

FSnedecor
SCE /
2
F=
=
113,28
SCR /(15 2
1)

0,6797
SCR
=
0,006
SCT
=
0,1023

i=1

Clculo
s

i
1424
i=1
3
SCR

i=1

suma
cuadrados
(n1) grados libertad

Variacin

2
( Y Y )

u2i = (Yi Y2i )

Y)
(Y
i

0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566

0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005

0,0237
0,0511
0,0320
0,0230
0,2849
0,0155
0,0010
0,0269
0,7381
0,0347
0,0446
0,0544
0,0005
0,0012
0,0329

15

Yi

SCR = (Y Y )
0,0721

i=1

i=1

15

(Y Y)

SCE
=

i=1

= 1,3646

A un nivel de confianza (1 ) se rechaza la hiptesis nula, (el modelo no es


H0 : 1 = 2 = 0
explicativo),
Fk , (nk1) F; k , (nk1)
cuando
F2 , 12 =

SCE /
= 113,28 > 3,8853 = F0 ,05; 2 , 12
2
SCR /(15 2
1)

Regresin Lineal
Mltiple

As, pues, se rechaza la hiptesis nula, el contraste conjunto de la FSnedecor


indica claramente la influencia del modelo en la variable respuesta.

Clculo de los coeficientes de correlacin (mltiple y simple)


Estimado el modelo es conveniente obtener una medida acerca de la bondad
del ajuste realizado. Un estadstico que facilita esta medida es el Coeficiente
2

de Determinacin ( R ), que se define:


n

R =

SCE

SCT

2
( Y Y )

=
n

i=1
i

=
i

2( Yi Y

1,3595

= 0,9496

1,4316

i=1

Coeficiente de Correlacin
mltiple: R =

0,9496 = 0,9745
R

Coeficiente de Determinacin
corregido
por el nmero de grados de
libertad

=1

Coeficiente de Correlacin mltiple


corregido: R =

SCR n k 1 0,00 = 0,9413


6
0,102
SCT n 1
3

=1

0,9413 = 0,9702

Coeficiente de correlacin simple


entre las variables (Gasto,
Ingreso):
(Gasto, Ingreso) =
0,9424

Cov(Gasto, Ingreso)

Gasto
Ingreso

Tambin se puede calcular el coeficiente de determinacin de la regresin (Gasto,


Ingreso). La tabla
ANOVA del modelo ser:
SCE 1,272
2
=
= 0,8882
R =
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 =
0,9424
Cov(Gasto, Tamao)
= 0,126
Anlogamente, (Gasto, Tamao) =
Gasto
Tamao

Coeficientes de Correlacin parcial:

Coeficiente de correlacin simple entre


(Gasto, Ingreso):

(Gasto, Ingreso) = 0,942

Regresin Lineal
Mltiple

Coeficiente correlacin parcial entre variables


(Gasto, Ingreso):

mediante la
expresin:

tingreso =

1
2
SR .q
i +1, 1 +1

El coeficiente de determinacin, R
(Gasto,Ingreso; Tamao) =

(Gasto, Ingreso; Tamao) =


0,974
= 15,05

0,149
0,000096

2
2
ingres
o

tingres
o

15,05
2

= 0,9496

+ n (k + = 15,052 +
12
1)

Coeficiente de correlacin. Este coeficiente mide la relacin entre las variables


Gasto e Ingreso libres de la influencia de la variable Tamao.
Anlogamente, el Coeficiente correlacin parcial ente las variables (Gasto,
Tamao):
(Gasto, Tamao; Ingreso) = 0,741

Estimacin de la media condicionada


Supongamos que se trata de estimar el gasto medio de una familia con unos
ingresos de treinta mil
euros (X1 = 3) con cuatro miembros (X2 = 4)
familiares
Aplicando el modelo de
regresin:

IC
E(Y0 )

t
=

Y 0 SR

/ 2 , (nk1)

Y 0 = 0,160 + 0,149(3) + 0,077(4) = 0,595


1

X2 ) (X' X) 11 X

X2

(1
X1

ICE(Y0 )= (0,595) (1,782)


(0,075)

SR = 0,006 =
0,0775

(1
3

t0 ,05; 12 =
1,782

1,36
4)
0,092

0,282

0,09
2
0,01
6
0,01
3

1 = 0,90


0,282 1

0,013
3 = [0,557; 0,633]

0,067 4

Regresin Lineal
Mltiple

15

42

X' X = 188,0
8
42
55 140,

(1
3

55

140,8 [X' X ]
0,092
219

1,36

0,09
2

4)
0,092

0,282

0,01
6
0,01
3

1,36

0,282

0,092

0,282

0,01
6

0,013

0,01
3

0,067

0,282
1

0,013 3 = (
0,044
0,067 4

1

0,00
8

0,025) 3 =
0,08
4

Ejercicio 2. Partiendo de la informacin:


y

x1 j

x2 j

1
3
4
6
7
10
15
16
18
20

2
1
3
4
5
8
7
9
11
12

17
15
13
10
9
8
6
5
3
4

(a) Estimar el modelo de regresin


(b) Obtener una medida de fiabilidad del ajuste lineal
(c) Qu parte de la variabilidad de Y queda explicada a travs del
plano de regresin? (d) Calcular los coeficientes de correlacin lineal
simple

Y = X + = [X' X ] X' Y , donde X matriz transpuesta


1

(a) En forma
matricial:

U ,
1
1 2 17

3
1 1 15
4
1 3 13

6
1 4 10

0 u1
7
1
5
9
+ u
Y= =X+U
1
2
=
10
1 8 8
u

2
3
15
1
7
6

16
1 9 5

18
1 11 3

1 12 4
20

Los coeficientes estimados bajo la condicin mnimo cuadrtica, vienen dados


por:

= [X' X ] X' Y
1

1
1

1
1

1 1 1 1 1 1 1 1 1 1
1
[X' X] = 2 1 3 4 5 8 7 9 11 12
1

17 15 13 10 9 8 6 5 3 4
1
1

2 17
1 15

3 13

4 10
90
10 62
5 9

= 62 51
405 X'0X = 30294
4
8
1
1 12
1
9
1
7

8
6

90

405

1
0
1
3
4

Advirtase que cuando la matriz es singular, es


decir, cuando

X' X = 0 , no existe matriz

inversa y,
En consecuencia, las estimaciones de los coeficientes quedan indeterminadas.
Esto ocurre porque existe multicolinealidad X2 , esto es, que existe una relacin
entre X1 y
lineal
entre estas variables. Para ello se calcula la
regresin de X1
coeficiente de correlacin lineal ser 1.
10

[X' X] =

51
4

62

90 40
5
10

[X'
X]

62

90

90 40
5

62

Adj [X' X ] = Adj 51



4
62

90 40
101
4
5

62

= 62 51

10

sobre
X2

90
21150

357171 26418

1530
405 =
204


0
26418

405

90
=1

101
4

101
4


21150

1 1 1
De otra parte, [X' Y ] = 2 3

1
17 15 13


21150

153
0


21150 11,790
2
1530 =

0,8721

357171 26418

405 =

30294
26418

y su correspondiente

204
0
153
0

129
6


0,6982

1
3

4

6

1 1 1 1 1 1 1
100
7 =

4 5 8 7 9 11 12 843
10 9 8 6
3

10
4 621
15

16
18

20

21150

10,32
357171 26418 100
1
1

= 0,93
1530 843
204
= 1 = [X' X' Y =


0
26418
X]
30294


0,67
153
129 62
0
6
21150
1
2
0

1296

0,8721

0,6982

0,067
3

0,0505

0,050
5

0,0428

El modelo de regresin y = 10,32 + 0,93x1 0,67 x 2


ser:
Tambin se poda haber realizado teniendo en cuenta las ecuaciones normales
mnimo
cuadrticas:
10
10 Y N 10
X
=
+

0
1
1i + 2 X 2i
i=1 i
i=1
i=1

10
10
10
10
2
ecuaciones
normales MCO
Y =
X

0
1i +
1 X1i +
2
X1i X2i
X
i=1
i=1
i=1
i=1 1i
10
10
10
10 i
2
X
Y
X
X
X
=

2i i
0 2i
1 1i
2i + 2 X 2i
i=1

Con estos datos, se obtiene:

i=1

i=1

i=1

Tabla I
Yi
1
3
4
6
7
10
15
16
18
20

X1i
2
1
3
4
5
8
7
9
11
12

X2i
17
15
13
10
9
8
6
5
3
4

Yi
1
9
16
36
49
100
225
256
324
400

X1i
4
1
9
16
25
64
49
81
121
144

X2i
289
225
169
100
81
64
36
25
9
16

X1i X2i
34
15
39
40
45
64
42
45
33
48

X1i Yi
2
3
12
24
35
80
105
144
198
240

X2i Yi
17
45
52
60
63
80
90
80
54
80

100

62

90

1416

514

1014

405

843

621

10

10

10

i=1
i=1
i=1

0
10
10
10
10

2
X Y = 0X1i +
1 X
1i + 2
X1i X

2i
i=1 1i
i=1
i=1
i=1

Yi = N0 + 1 X1i + 2 X2i
con lo
cual,

10

10

10

10

10

+ 62 + 90 = 100
1
2

+
+
=
62
0 514 1 405 2 843

90 0 + 405 1 + 1014 2 = 621

X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i


i=1

i=1

i=1

i=1

en forma
matricial,
64447
4448
10 62 90

644444

X'X

62 51
4

90 40
5

405 1 = 843

1014 2

100

621

[X'X 1
]

67X'Y8

44444448
44
7 2641
100
357171 8
21150

26418
30294

21150

204
0

1530 843

153
0

129
6

621

10,32

= 0,93
1


0,67

Y = 10,32 +

0,67 + Re

0,93 X1

X2

(Modelo regresin lineal)

siduo

(b) La fiabilidad del ajuste se refleja mediante R coeficiente de determinacin


lineal:

A partir de la
i = 0 + 1 X1i se obtienen las predicciones y residuos
Y
ecuacin
asociados
+ 2 X2i

ui = Yi Yi a las observaciones muestrales.


De este modo, para la primera observacin ( Y1 = 1 ; X11 = 2 ; X21 = 17 ), se tiene:
Y1 = 10,32 + 0,93 (2) 0,67 (17) = 0,79

u =1Y 1 Y1 = 1 0,79 = 0,21


En esta lnea, considerando todos los puntos muestrales, se obtiene:

Yi

Yi

(Yi Y)
ui = Yi Y
i

1
3
4
6
7
10
15
16
18
20
100

0,79
1,2
4,4
7,34
8,94
12,4
12,81
15,34
18,54
18,8

0,21
1,8
0,4
1,34
1,94
2,4
2,19
0,66
0,54
1,2

81
49
36
16
9
0
25
36
64
100
416

ui = (Y
i iY )

0,0441
3,24
0,16
1,7956
3,7636
5,76
4,7961
0,4356
0,2916
1,44
21,7266

(Yi Y)
84,8241
77,44
10
31,36
SCT = (Yi Y) = 416
2
i=1
7,0756
1,1236
10
= 21,7266
SCR = (Y1
5,76
i=1
7,8961
Y1
2
28,5156
)
72,9316
10
77,44
SCE
(Yi Y) = 394,3666
=

394,3666
2

i=1

10

R2 =

SCE

2
( Y Y )
i=1

394,3666

coeficiente de determinacin lineal

0,948
SC
T

10

416

2( Yi Y
)
i=1

Coeficiente de determinacin lineal


corregido por

=1

0,933

el nmero de grados de
libertad

SCR n k 1

SCT n
1

=1

21,7266 / 7

416 / 9

(c) La parte de variabilidad contenida en Y que queda explicada por el mtodo es


precisamente
2
R = 0,948 = 94,8% , que es suficientemente alta.
(d) Para calcular los coeficientes de correlacin lineal simple, se recurre a la
tabla I, para calcular medias, varianzas y covarianzas
10

y=

10

yi 100
i=1
N

10

= 10

y2 =

10

x1 =

= 6,2
10

10

m1y

=9

x2 =
1

x
10

1416
102 = 41,6
10

i=1

10

x2i 90
i=1
=

y2 =

x1i

10

x2 =

i=1

10

x1i 62
i=1
=

yi

x1i yi

2
2

x 21 =

x2i

514
6,22 = 12,96
10

i=1

x 22 =

1014 2
9 = 20,4
10

i=1

x
N

y=

843
(6,2).10 = 22,3
10

10

m2 =

x 2i yi
i=1

x2 y =

621
9.10 = 27,9
10

10

m12 =

x1i x2i
i=1

x 1 x 2=

405
(6,2).9 = 15,3
10

Los coeficientes de correlacin lineal simple sern:


m1y

r1y =

22,
3

x y
12,96
1
m2 y

r2 y =

x y
20,4
2
r
12

m12

x1 x2

Prctica en SPSS

= 0,96
41,6

= 0,96
27,9
41,6
15,
= 0,94
3
12,9 20,4
6

En el Visor de SPSS, se reflejan los resultados:

Ejercicio 3. El gerente de una empresa estudia las posibles relaciones


entre beneficios anuales, gastos en publicidad anuales y horas
extraordinarias anuales de los empleados. Para ello utiliza datos, de estas
tres variables, proporcionadas por algunas empresas del sector. Se desea
saber:
Beneficios
(millones)
1,3
3,5
2,8
3
3,3
4
3,7

Gastos
Publicidad
(millone
0,3
1,5
0,7
1,1
1,2
2
2

Horas
extras
(1004
9
6
7,5
8
7
8

a) Matriz de varianzas
covarianzas. b) Matriz de
correlacin.
c) Qu porcentaje de la varianza de los beneficios explicara una funcin
lineal de los gastos en publicidad?
d) Qu porcentaje de la varianza de los beneficios explicara una funcin lineal
de las horas
extraordinarias anuales de los empleados?
e) Establecer una relacin lineal que explique anualmente los beneficios
mediante los gastos en publicidad y horas extras.
f) Hallar el coeficiente de correlacin mltiple. Qu porcentaje de la varianza de
beneficios queda explicado por el modelo lineal obtenido en el apartado
anterior?
g) Si una empresa destina 900.000 euros a publicidad y sus empleados
realizan 500 horas extraordinarias al ao, cul sera la estimacin de

los beneficios de dicha empresa?


h) Coeficientes de correlacin parcial de beneficios con gastos en publicidad y de
beneficios con
horas extras de los empleados.
g) Coeficiente de correlacin mltiple.

2y

Sy1
x

a) La matriz de varianzas covarianzas viene

definida: VC = Sx 1 y
2x
1
S x y Sx x
2
2

Syx S yx1 = Sx y
2
1

S 2 = S2
yx
x y

Sx 21 x 2
x Sx 1 x 2 = Sx 2 x 1

Yi

X1i

X2i

Yi

X1i

1,3
3,5
2,8
3
3,3
4
3,7
21,6

0,3
1,5
0,7
1,1
1,2
2
2
8,8

4
9
6
7,5
8
7
8
49,5

1,69
12,25
7,84
9
10,89
16
13,69
71,36

0,09
2,25
0,49
1,21
1,44
4
4
13,48

yi 21,6
i=1

=
=
=
y
3,0857
N
7

=
=
=
x
1,2571
1
N
7

y2 =

x2 =

X1i
X1,2
2i

5,25
1,96
3,3
3,96
8
7,4
30,26

31,5
16,8
22,5
26,4
28
29,6
160

13,5
4,2
8,25
9,6
14
16
66,75

Tabla operaciones

i=1

x12 =

13,48
1,25712 = 0,3454
7

x2i

Yi
X5,2
2i

71,36
3,08572 = 0,6727
7

x1i

x2i 49,5
i=1

=
=
x
7,0714
2
N

i=1

Yi
X1i
0,39

yi

y =

x1i 8,8
i=1

X22i
16
81
36
56,25
64
49
64
366,25

i=1

x22 =

366,25
7,07142 = 2,3167
7

S yx =

yi x1i
i=1

y x1 =

30,26
(3,0867).(1,2571) = 0,4438
7

S yx =

yi x2i
i=1

y x2 =

160
(3,0867).(7,0714) = 1,0369
7

Sx 1 x=2

x1i x2i
i=1

x 1 x 2=

66,75
(1,2571).(7,0714) = 0,6462
7

En consecuencia, la matriz de varianzas


covarianzas:

0,672 0,443 1,0369


8
7

0,345 0,6462
VC =

4
0,4438
2,3167
0,646
1,036 2
9

b) La matriz de correlaciones de las variables explicativas Rx est formada


por los coeficientes de correlacin lineal simple:

ryx

Rx = rx 1 y 1

ryx
2
rx1

ryx = rx

1 1
donde r yx = rx 2 y
2

r x
x
1

r
r
1
x
y
x
x
2

2
1
r =
yx
1

S yx1
y
x

=
1

0,443
8
0,672 0,345
7
4

=
0,9207

r =
yx
2

Syx2
y
x

=
2

= rx

1,036
9

= 0,8306

0,672 2,3167
7

r
x

S1

=
1

x x
1

0,646
= 0,7224
2
0,345 2,3167
4

0,9207 0,8306
1

Por tanto, la matriz de las correlaciones ser: Rx =


0,7224

0,9207
1

0,8306 0,7224 1
NOTA. En la regresin lineal mltiple surge el problema de que exista una
correlacin lineal simple perfecta entre dos (o ms variables) explicativas, ya
que esto implica que una (o ms) columna(s) de la matriz X de observaciones
son combinacin lineal de otra(s), con lo que el rango de esta matriz X se
reduce.
En un principio el rango de [X' X ] es p (nmero de variables explicativas), pero si
existe alguna
combinacin lineal entre las columnas de X, entonces el rango es menor que p,
con lo que el
determinante X' X = 0 , lo que impide calcular la matriz inversa [X' X ] 1 , y en
de
consecuencia el
vector de coeficientes = [X' queda indeterminado.
X ] X' Y
1

Analizando la matriz de las correlaciones Rx se decide si existe o no


multicolinealidad:
S Rx = 0
S a
Rx 0
a

Existe multicolinealidad
Existe cuasimulticolinealidad o multicolinealidad imperfecta

En caso de multicolinealidad se requiere modificar el modelo o realizar algn tipo


de transformacin que la elimine.
2
c) Se requiere hallar el coeficiente de determinacin R2yx = ryx
=
= 0,8477
entre (Y, X1 ) :
2
1
1
0,9207
Es decir, el 84,77% de la varianza de los beneficios (Y) queda explicado por
una funcin lineal del gasto en publicidad (X1 )

2
d) Se requiere hallar el coeficiente de determinacin R2yx 2 =22 =
= 0,6899
entre (Y, X 2 ) :
ryx
0,8306

Es decir, el 68,99% de la varianza de los beneficios (Y) queda explicado por una
funcin lineal de las horas extras de los empleados (X2 )

e) Hay que determinar el plano de regresin de los beneficios (Y) sobre el gasto
en publicidad (X1 ) y las horas extras de los empleados (X2 )
=
Y
i

+ 1 X1i + 2 X2i

Se tiene como referencia la matriz de las varianzascovarianzas:


2y

VC = S

Sy
x

S yx
0,672

2

7
= 0,4438

Sx 1 x

x1
x 1y
S x y Sx x 22
2
2
2

0,443
8
0,345
4
0,646
2

1,0369

0,
6462
2,316

Los coeficientes ( 1 , 2 ) , respectivamente,

() , vienen dados por el

con signo negativo

cociente de

los adjuntos ,
yx1
(S
Syx

) entre el adjunto de 2 :
y

1 = VCyx 1

VCy
0,443
8
= ()
1,036

1
9
0,345
4
0,646
2

2 = VCyx 2

VCy

0,646
2
0,3581
=
2,316 =
7
0,9360
0,646 0,3826
2
2,316
7

=Y
X2

2
1 X1
0
0,443
8
= ()
1,036

2
9
0,345
4
0,646
2

0,345
4
0,0714
0,646 = 0,3826 = 0,1866
2
0,646
2
2,316
7

X X = 3,0857 (0,9360)(1,2571) (0,1866)(7,0714) = 0,5895


0 = Y1
1
2
La ecuacin del plano de
regresin es:

Y = 0,5895 + 0,936 X1 + 0,1866 X2

Otra forma de enfocar la situacin, desde la Tabla de operaciones, mediante las


ecuaciones MCO:

N0 + 1 X1i + 2 X2i = Yi
i=1
i=1
i=1

7 + 8,8 + 49,5 = 21,6


0 1
2
7
7
7
7

2
8,8 + 13,48 + 66,75 = 30,26
X +
X +
X X =X

0 1i 1

1i
2 1i
Y 1i i
0
1
2
2i
i=1
i=1
i=1
i=1

=
49,5 0 + 66,75 1 + 366,25
7
7
7
7
2

2
160
0 X 2i + 1 X1i X2i + 2 X2i = X2i Yi

con lo
cual,

i=1

i=1

i=1

i=1

en forma matricial,
7

8,8

8,8
13,4
8

66,7

49,5 5

64444 X'X 4444448


647X'Y48
447

49, 0 21,6
0,618 0,608 21,6
3,668
0

7
5 30,26
5
1
66,7
0,618
0,864
0,2412
5
1
8
1 = 30,26

=
1

366,25 2 160
0,128 160
0,2412
9

0,6085

X'X
644447
44448

0,5895

= 0,9360 Y = 0,5895 +
1
0,936 X



0,1866

+ 0,1866
1 X
2

(Modelo regresin lineal)

Con el modelo de regresin, a partir de la ecuacin, Y = 0,5895 + 0,936 X1 + 0,1866


X2 , se obtienen
las predicciones y residuos asociados iu = Y Y a las observaciones muestrales.
i

De este modo, para la primera observacin ( Y1 = 1,3 ; X11 = 0,3 ; X21 = 4 ), se


tiene:
Y1 = 0,5895 + 0,936 (0,3) + 0,1866 (4) = 1,6167

u =1 Y 1 Y1 = 1,3 1,6167 = 0,3167

Considerando todos los puntos muestrales, se obtiene:


Yi
(Y
1,3
3,5
2,8
3
3,3
4
3,7
21,6

X1i X2i
2
0,3
Y)
4
1,5
9
0,7
6
1,1 7,5
1,2
8
2
7
2
8
8,8 49,5

u = Y Y (Y Y)

1,6167
3,6729
2,3643
3,0186
3,2055
3,7677
3,9543

0,3167
0,1729
0,4357
0,0186
0,0945
0,2323
0,2543

3,1887
0,1716
0,0816
0,0073
0,0459
0,8359
0,3774
4,7086

2
u = (Y Y )

0,1003
0,0299
0,1898
0,0003
0,0089
0,0540
0,0647
0,4479

2
2,1580 SCT = (Y
Y) = 4,7086
i
i=1
0,3448
0,5204
7
0,0045 SCR = (Y Y ) 2 = 0,4479
1
i=1 1
0,0144
7
0,4651
Y) 2 = 4,2616
i
0,7545 SCE = (Y
i=1
4,2616

2
( Y Y )

SCE
2
R =
=
0,9051

i=1

i
i

SC
T

4,2616

72( Y Y

coeficiente de determinacin lineal

4,7086

i=1

SC
2
S = R
R

0,4479
=
=
0,112
n k 1
4

varianza residual

Coeficiente de determinacin lineal


corregido
por el nmero de grados de
libertad

SCR n k 1
0,4479 / 4
=1
=1
= 0,8573
SCT n
4,7086 / 6
1

h) El coeficiente de correlacin parcial entre los Beneficios (Y) y el Gasto en


Publicidad (X1 ) se puede obtener mediante la expresin:
r 1 .x 2 =

yx

VC yx1
VC y VCx 1 x 1
y

VCij son los adjuntos de la matriz de las varianzascovarianzas:


2y

Sy
x

2
VC = Sx 1 y x 1
S x y Sx
2
2
x

VC yx
1

VC yy

0,443
8
=
1,036
9
=

0,672 0,443 1,0369


8
7

Sx 1 x 2= 0,4438 0,3454 0,6462


2x 2 1,036 0,646 2,3167

2
9
Syx2

0,646 = 0,3581
2
2,316
7

0,345 4

0,646 2

0,646 2

2,316 =
VCx 1 x 1 0,6727
7
0,382 =
1,0369
6

1,036 2,316 =
9
7
0,48
33

El coeficiente de correlacin parcial


entre Y e X1: r

VC yx 1

=
yx

.x

VC y VCx 1
y

0,358
= 0,833
1
(0,3826)(0,4833)

El coeficiente de correlacin parcial entre los Beneficios (Y) y el Gasto en

Publicidad (X1 ) se puede


obtener tambin mediante la expresin:
2

ryx

.x

ryx

rx

ryx 2 1
2
2
(1 ryx2 )(1 r
)
x1 2
1

1
Donde los rij son los elementos de la
matriz de
correlaciones simples Rx de la variable
explicativa

ryx

ryx

0,920 0,8306
7

1
2

= 0,9207
R = r
0,7224
1 r
1

x
x 1x 2
x 1y

rx y rx

0,7224
1
1

2 1
2

0,8306
ryx ryx
rx x

con lo cual, ryx


.x

1
1

(1 r )(1 r
)
x1

Anlogamente, ryx
.x

2
yx2

=
2

0,9207 (0,8306)
=
(0,7224)
2

(1 0,83062 )(1 0,72242 )

ryx ryx
rx x
2

= 0,833

0,8306 (0,9207)
=
(0,7224)

(1 ryx1 )(1 r
) 1 2x2
2

= 0,613

(1 0,92072 )(1 0,72242 )

# Tambin, los Coeficientes de correlacin parcial se calculan mediante la


expresin:

ti =
2

2
R

S .qi +1 , 1 +1

2
t
R (Y,1 X 2 ; X 2) = i
coeficiente de determinacin parcial
ti + n (k + 1)

se tena:

tgastos _ publi
=
=
SR2 .q i +1, 1 +1

0,936
(0,112)
(0,8648)

= 3,0075

El coeficiente de determinacin parcial:


.x

extras) =

t2gasto _ publi

3,0072
= 0,6933
5
+ n 1)
(k +
2
3,0075 +
2
t
4
gasto _ publi

2
ryx
= R2 (Beneficios ,Gastos _ Publi;Horas
1

El coeficiente de correlacin
parcial:
ryx
1

= R(Beneficios ,Gastos _ Publi;Horas 0,6933 = 0,833


extras) =

Anlogamente,

thoras _ extras =

2
SR .q
i +1, 1 +1

0,186
6

= 1,5530

(0,112) (0,1289)

El coeficiente de determinacin parcial:


t2horas _ extras

2
ryx
= R2 (Beneficios ,Horas extras;Gastos
2
.x

_ Publi) =

+ n (k +
1)

2
horas _ extras

2
1,553
= 0,37615
2
+
1,553
4

El coeficiente de correlacin
parcial:
ryx
x

= R(Beneficios ,Horas extras; Gastos 0,37615 = 0,6133


_ Publi) =

f) El Coeficiente de correlacin mltiple viene definido por:


r21 x 2

yx

= 1 CV
2
C
y

2
R2 = yx
1
x

S yx

0,443
8
0,345
4
0,646

1,036
9
0,646 =
2
2,316

2
CV = 1
0,0245
ryx2 1 x = R = 1 2

(0,6727)
y
2
yy
(0,3826)

R =
2
=
r
yx 1
x

r2 + 2r 2r r
yx 1
yx 2 r
yx 1 yx 2
1

1 x1r 2

1r2
x 1x 2

matriz de varianzascovarianzas: VC =x
1
Sx 1 y
S x y Sx
2
2

yy

2y

0,672
7
CV = 0,443
8
1,036

r + r 2r r
yx 1
yx 2r
yx 1 yx 2

S2 yx 0,672
7

Sx1 x2 =
0,4438
2x 2 1,036

VC yy = 0,345
4
0,646
2

0,443 1,0369

8
0,345 0,6462
4
0,646 2,3167
2

0,646 = 0,3826
2
2,316
7

= 0,905 , o bien,

2
2
+
2. 0,9207. 0,8306. 0,7224
=
= 0,905
x
0,9207 0,8306
1 0,72242

Gua Prctica en SPSS

Estimaciones

Ofrece las estimaciones de los coeficientes de regresin parcial no


estandarizados (B) y estandarizados (Beta), junto con las pruebas de
significacin individuales para contrastar las hiptesis de que el valor
poblacional de esos coeficientes es cero.

En la columna encabezada por [Coeficientes no estandarizados] se encuentran los


coeficientes i
que forman parte de la ecuacin en puntuaciones directas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)
Estos coeficientes no estandarizados se interpretan en los trminos ya
conocidos. Sealar que estos coeficientes no son independientes entre s. De
hecho, reciben el nombre de coeficientes en regresin parcial porque el valor
concreto estimado para coeficiente se ajusta teniendo en cuenta la presencia del
resto de variables independientes. Conviene, por tanto, interpretarlos con
cautela.
El signo del coeficiente de regresin parcial de una variable puede no ser el

mismo que el del coeficiente de correlacin simple entre esa variable y la


dependiente. Esto se produce a los ajustes que se llevan a cabo para obtener la
mejor ecuacin posible. Aunque existen diferentes explicaciones para justificar el
cambio de signo de un coeficiente de regresin, una de las que deben

de ser ms seriamente consideradas es la que se refiere a la presencia de un alto


grado de asociacin entre alguna de las variables independientes (Colinealidad).
# Los Coeficientes Beta estn basados en las puntuaciones tpicas y, por tanto,
son directamente comparables entre s. Indican la cantidad de cambio, en
puntuaciones tpicas, que se producir en la variable dependiente por cada
cambio de una unidad en la correspondiente variable independiente
(manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia
relativa de cada variable independiente en la ecuacin de regresin. En
general, una variable tiene tanto ms peso (importancia) en la ecuacin de
regresin cuanto mayor (en valor absoluto) es su coeficiente de regresin
estandarizado.
Observando los coeficientes Beta del ejercicio, la variable Gastos_Publicidad es la
ms importante.
#

Pruebas de significacin

Las pruebas t y sus niveles crticos (ltimas dos columnas de la tabla) sirven
para contrastar la hiptesis nula de que un coeficiente de regresin vale 0 en
la poblacin. Niveles crticos (Sig) muy pequeos (generalmente menores que
0,05) indican que debemos rechazar la hiptesis nula.
Un coeficiente de cero indica ausencia de relacin lineal, de modo que los
coeficientes significativamente distintos de cero informan sobre qu variables
son relevantes en la ecuacin de regresin.
Observando el nivel crtico asociado a cada prueba t, las dos variables
utilizadas (Gastos_Publicidad, Horas_extras) tienen coeficientes
significativamente distintos de cero (en todas, Sig<0,05). Por tanto, las dos
variables independientes contribuyen significativamente a explicar lo que
ocurre con la variable dependiente (Beneficios).

Ajuste del modelo

Muestra el coeficiente de correlacin mltiple, su cuadrado corregido y no


corregido, y el error tpico de los residuos. Tambin incluye la tabla resumen de
ANOVA, que contiene al estadstico F de Fisher
Snedecor para contrastar la hiptesis nula de que el coeficiente de
yx 1 x 2 = 0
correlacin mltiple R
2

R =
0,905
2

R =
0,905

El estadstico F contrasta la hiptesis


nula de que el valor poblacional de Ryx
1 2
es cero.

coeficiente determinacin
mltiple coeficiente
determinacin mltiple
corregido

En consecuencia, permite decidir si existe relacin lineal significativa entre la


variable dependiente y el conjunto de variables independientes tomadas juntas.
El valor de un nivel crtico (Sig < 0,05) indica que existe relacin lineal
significativa, pudiendo afirmar que el hiperplano definido por la ecuacin de
regresin ofrece un buen ajuste a la nube de puntos.

2 =
i
SCE = (Y
Y)
4,261

i=1
7

2
(Y Y ) =
0,448
En este caso,
SCR
1 1

=
i=1

7
SCT = (Y Y) 2 =
4,709
i=1

gl = k = 2
gl = n k 1 = 7 2 1 = 4

gl = n 1 = 7 1 = 6

2
( Y Y )

SCE
2
R =
=
0,905
SC
T

i=1

4,261

2( Yi Y
)

coeficiente de determinacin mltiple

4,709

i=1

2
0,448
S = SC
=
=
R
R
n k 0,112
4
1

=1

0,857

F=

varianza residual

SCR n k 1

SCT n
1

SCE k

=1

0,448 / 4

= coeficiente de determinacin mltiple


corregido

4,709 / 6

4,261 / 2

=
SCR n k
1
19,023
0,448 / 4

estadstico observado F de FisherSnedecor

Advirtase la relacin entre el coeficiente de determinacin mltiple y el


estadstico F:

F =

2
n k1 R
0,90
= 19,023
= 2 5

2
k
(1 0,905)
1 R

H0 : 1 = 2

Contraste de la Hiptesis
19,023 > 6,9443 = F0 ,05; 2 ,4
nula
=0
Se rechaza H0 si F F; k , (nk1)

Intervalos de confianza

Situados en la tabla [Coeficientes de regresin], permitiendo que adems de

obtener una estimacin puntual de los coeficientes de regresin parcial, se pueda


obtener el intervalo de confianza para estos coeficientes.
Estos intervalos informan sobre los lmites en que se encuentra el valor
poblacional de cada coeficiente. Los lmites se obtienen sumando y restando
1,96 (SPSS trabaja por defecto con un nivel de significacin 0,95) errores tpicos
al valor del correspondiente coeficiente de regresin.
Una amplitud grande en los intervalos de confianza indica que las estimaciones
obtenidas son poco precisas y, probablemente, inestables (coas que puede
ocurrir, por ejemplo, cuando existen problemas de colinealidad).

Matriz de covarianzas

Muestra una matriz con las covarianzas y correlaciones existentes entre los
coeficientes de regresin parcial.

Descriptivos

Ofrece la media y la desviacin tpica de cada variable y el nmero de casos


utilizados en el anlisis.
Adems, ofrece la matriz de correlaciones entre el conjunto de variables
utilizadas en el anlisis, En la matriz de correlaciones, cada coeficiente de
correlacin aparece acompaado de su correspondiente nivel crtico (que
permite decidir sobre la hiptesis de que el coeficiente de correlacin vale 0 en
la poblacin) y del nmero de casos sobre el que se ha calculado cada
coeficiente.
Lgicamente, en la diagonal de la matriz de correlaciones aparecen unos,
pues la relacin entre una variable y ella misma es perfecta.

Correlaciones parcial y semiparcial

Esta opcin permite obtener los coeficientes de correlacin parcial y


semiparcial entre la variable dependiente y cada variable independiente
Un coeficiente de correlacin parcial expresa el grado de relacin existente
entre dos variables tras eliminar de ambas el efecto debido a terceras variables.
Es decir, los coeficientes de correlacin parcial expresan el grado de relacin
existente entre cada variable independiente y la variable dependiente tras
eliminar de ambas el efecto debido al resto de variables independientes
incluidas en la ecuacin.
Un coeficiente de correlacin semiparcial expresa el grado de relacin existente
entre dos variables tras eliminar de una de ellas el efecto debido a terceras
variables. Es decir, estos coeficientes expresan el grado de relacin existente
entre la variable dependiente y la parte de cada variable independiente que no
est explicada por el resto de variables independientes.

Con los coeficientes de correlacin parcial y semiparcial, aparecen las


correlaciones de orden cero, es decir, los coeficientes de correlacin calculados
sin tener en cuenta la presencia de terceras variables (se trata de los mismos
coeficientes que aparecen en la tabla anterior de correlaciones).
Comparando entre s estos coeficientes (de orden cero, parcial y
semiparcial), pueden encontrarse pautas de relacin interesantes: En los
datos de la tabla se observa, por ejemplo:
La relacin entre la variable dependiente Beneficios y la variable
independiente
Gastos_Publicitarios vale 0,921.
Al eliminar de las variables (Beneficios, Gastos_Publicitarios) el
efecto atribuible a las
Horas_extras, la relacin baja a 0,833 (parcial).
Cuando el efecto atribuible a Horas_extras se elimina slo de la variable
Beneficios, la relacin baja a 0,464 (semiparcial).
Anlisis que indica que la relacin entre las variables (Beneficios, Horas_extras)
tiene mucho menor peso en la relacin.

Colinealidad

Existe una colinealidad perfecta cuando una de las variables independientes se


relaciona de forma perfectamente lineal con una o ms del resto de las
variables independientes de la ecuacin.

Se dice que existe una colinealidad parcial, o simplemente, colinealidad, cuando


entre las variables independientes de una ecuacin existen correlaciones altas.

La colinealidad es un problema, porque en el caso de colinealidad perfecta, no


es posible estimar los coeficientes de la ecuacin de regresin; y en el caso de
colinealidad parcial, aumenta el tamao de los residuos tipificados y esto
produce coeficientes de regresin muy inestables (pequeos cambios en los
datos, como quitar o aadir un caso, produce cambios muy grandes en los
coeficientes de regresin). Esta es una de las razones de encontrarse con
coeficientes con signo cambiado:
<correlaciones positivas pueden transformarse en coeficientes de regresin
negativos (incluso significativamente negativos)>. Curiosamente, la medida de
2
ajuste R no se altera por la presencia de colinealidad, pero los efectos
atribuidos a las variables independientes pueden ser engaosos.
Al evaluar la existencia o no de colinealidad, la dificultad estriba en determinar
cul es el grado mximo de relacin permisible entre las variables
independientes. Sobre esta cuestin no existe un consenso generalizado,
aunque puede servir de gua la presencia de indicios que se pueden encontrar
en los resultados de un anlisis de regresin (aunque estos indicios pueden
tener su origen en otras causas):
El estadstico F que evala el ajuste general de la ecuacin de regresin es
significativo, pero no lo es ninguno de los coeficientes de regresin parcial.
Los coeficientes de regresin parcial estandarizados (coeficientes Beta) estn
inflados tanto en positivo como en negativo (al mismo tiempo, adoptan
valores mayores que 1 y menores que 1)
Existen valores de tolerancia pequeos (prximos a 0,01). La tolerancia de
una variable independiente es la proporcin de varianza de esa variable que
no est asociada (que no depende) del resto de variables independientes
incluidas en la ecuacin. Por ejemplo, una variable con una tolerancia de
0,01 es una variable que comparte el 99% de su varianza con el resto de
variables independientes, lo que significa que se trata de una variable
redundante casi por completo.
Los coeficientes de correlacin estimados son muy grandes (por
encima de 0,90 en valor absoluto).
SPSS ofrece la posibilidad de obtener algunos estadsticos que pueden ayudar a
diagnosticar la presencia de colinealidad. Se trata de estadsticos orientativos
que, aunque pueden servir de ayuda para determinar si existe mayor o menor
grado de colinealidad, no permiten tomar una decisin clara sobre la presencia
o no de colinealidad.
Los estadsticos de colinealidad se recogen en la tabla de coeficientes de
regresin parcial ya
analizada anteriormente, pero ahora contienen informacin adicional sobre los
niveles de tolerancia y sus inversos (FIV).

El nivel de tolerancia de una variable se obtiene restando a 1 el coeficiente

de
determinacin
mltiple
(1 R ) que resulta al regresar esa variable sobre
el resto
de variables
independientes.
Valores de tolerancia muy pequeos indican que esa variable puede ser
explicada por una combinacin lineal del resto de variables, lo que
significa que existe colinealidad.

Los factores de inflacin de la varianza (FIV) son los inversos de los niveles de
tolerancia. Reciben este nombre porque son utilizados en el clculo de las
varianzas de los coeficientes de regresin.
Cuanto mayor es el FIV de una variable, mayor es la varianza del
correspondiente coeficiente de regresin. De ah, que uno de los problemas de
la presencia de colinealidad (tolerancias pequeas, FIVs grandes) sea la
inestabilidad de las estimaciones de los coeficientes de regresin.
La siguiente tabla del Visor de SPSS muestra la solucin resultante de
aplicar un anlisis de componentes principales a la matriz estandarizada
no centrada de productos cruzados de las variables independientes:

Los Autovalores informan sobre cuntas dimensiones o factores diferentes


subyacen en el conjunto de variables independientes utilizadas.
La presencia de varios autovalores prximos a cero indica que las variables
independientes estn muy relacionadas entre s (colinealidad). En este caso,
no existe el problema.
Los ndices de condicin son la raz cuadrada del cociente entre el autovalor ms
grande (2,889) y
cada uno del resto de los autovalores (por 2,889 0,097 = 5,453 ).
ejemplo,
En condiciones de nocolinealidad, estos ndices no deben superar el valor de
15. ndices mayores que 15 indican un posible problema, ndices mayores que
30 informan de un serio problema de colinealidad.
Las Proporciones de la varianza recogen la proporcin de varianza de cada
coeficiente de regresin parcial que est explicada por cada dimensin o factor.
En condiciones de nocolinealidad, cada dimensin (factor) suele explicar gran
parte de la varianza de un solo coeficiente (excepto en lo que
se refiere al coeficiente 0 o constante, que siempre aparece asociado a uno de
los otros
coeficientes. En el ejercicio, el trmino constante aparece asociado a las
Horas_extras.
La Colinealidad es un problema cuando una dimensin o factor con un ndice
de condicin alto, contribuye a explicar gran parte de la varianza de los
coeficientes de dos o ms variables.
Cuando en un conjunto de datos se detecta la presencia de colinealidad,
hay que aplicar algn tipo de actuacin:
(a) Aumentar el tamao de la muestra (es til cuando existen pocos casos
en relacin con el nmero de variables).

(b) Crear indicadores mltiples combinando variables (promediando


variables, efectuando un anlisis de componentes principales para reducir
las variables a un conjunto de componentes independientes y aplicar
despus el anlisis de regresin sobre esos componentes.
(c) Excluir variables redundantes (variables que correlacionan muy alto con
otras), quedando con las que se consideran ms importantes.
(d) Utilizar una tcnica de estimacin sesgada, como la regresin ridge.

Residuos: DurbinWatson

El anlisis de los residuos proporciona informacin crucial sobre el cumplimiento


de varios supuestos del modelo de regresin lineal: independencia,
homocedasticidad, normalidad y linealidad.
El estadstico de DurbinWatson (1951) proporciona informacin sobre el grado
de independencia existente entre ellos:
n

DW

si = 1

2(1 ) DW

si = 0

(ui ui1 )2
DW =
2

i=2
n
2
ui

i=1

DW

si = 1

El estadstico de DurbinWatson oscila entre 0 y 4, toma el valor 2 cuando los


residuos son independientes. Los valores menores que 2 indican
autocorrelacin positiva y los mayores que 2
autocorrelacin negativa. Se puede asumir independencia entre los residuos
cuando 1,5 DW 2,5

DW=1,933, valor que se encuentra entre 1,5 y 2,5, se puede asumir


que los residuos son independientes.

Diagnsticos por caso

Valores atpicos a ms de ... Con esta opcin, SPSS indica los valores que
producen un error grande, concretamente a ms de n veces la desviacin tpica
de la variable residuos. En este caso, si introducimos 2 o 3 desviaciones tpicas
no se obtiene ningn valor atpico (pudiera ocurrir que al poner 1,5 desviaciones
tpicas, s existiera).
2

La forma de proceder es seleccionar [Cambio en R ] y [Valores atpicos a ms


de ...], el Modelo indica el nmero de pasos dados para construir el modelo de
regresin (pasos que sean). Tambin indica si en alguno de los pasos se ha
eliminado alguna variable previamente seleccionada; en el ejemplo que nos
ocupa no se elimina ninguna variable.

La tabla recoge el valor de R en cada paso, el cambio experimentado por R en


cada paso, y el estadstico F y su significacin. El estadstico F permite contrastar
2
la hiptesis de que el cambio en R vale cero en la poblacin.
2

Al seleccionar la primera variable (Modelo 1), el valor de R es 0,905.


Lgicamente, en el primer
2
2
es cero se obtiene
paso, cambi = R . Al contrastar la hiptesis de que el valor
o

poblacional de R

cambi

un estadstico F de 19,023 que, con 2 y 4 grados de libertad, tiene una


probabilidad asociada de
0,009 (como este valor es menor que 0,05), pudiendo afirmar que la
proporcin de varianza explicada por la variable Gastos_Publicidad
(variable seleccionada en el primer paso) es significativamente distinta de
cero.

Las variables que aparecen permiten obtener distintos grficos de


dispersin. Las variables precedidas por un asterisco son variables
creadas por SPSS.

Todas las variables pueden crearse en la opcin


[Guardar]
marcando las opciones pertinentes del recuadro

DEPENDNT: Variable dependiente de la ecuacin de regresin.


ZPRED (pronsticos tipificados): pronsticos divididos por su desviacin
tpica. Son pronsticos transformados en puntuaciones z (media cero y
desviacin tpica 1)
ZRESID (residuos tipificados): residuos divididos por su desviacin tpica. El
tamao de cada residuo tipificado indica el nmero de desviaciones tpicas
que se aleja de su media, de modo que, si estn normalmente distribuidos
(cosa que se asume en el anlisis de regresin). El 95% de estos residuos se

encontrar en el rango [1,96, 1,96], lo que permite identificar fcilmente


casos con residuos grandes.

DRESID (residuos eliminados o corregidos): residuos obtenidos al efectuar los


pronsticos
eliminando de la ecuacin de regresin el caso sobre el que se efecta el
pronstico. El residuo correspondiente a cada caso se obtiene a partir del
pronstico efectuado con una ecuacin de regresin en la que no se ha
incluido ese caso. Son muy tiles para detectar puntos de influencia (casos
con gran peso en la ecuacin de regresin).
ADJPRED (pronsticos corregidos): pronsticos efectuados con una ecuacin
de regresin en la que no se incluye el caso pronosticado (ver residuos
eliminados o corregidos). Diferencias importantes entre PRED y ADJPRED
delatan la presencia de puntos de influencia (casos con gran peso en la
ecuacin de regresin).
SRESID (residuos estudentizados): residuos divididos por su desviacin
tpica, basada sta en cmo de prximo se encuentra un caso a su(s)
medias(s) en la(s) variable(s) independiente(s). Al igual que ocurre en los
residuos estandarizados (a los que se parecen mucho), los estudentizados
estn escalados en unidades de desviacin tpica. Se distribuyen segn el
modelo de probabilidad tStudent con (n p 1) grados de libertad (p se
refiere al nmero de variables independientes). Con muestras grandes,
aproximadamente el 95% de estos residuos debera encontrarse en el rango
[2, 2].
SDRESID (residuos corregidos estudentizados): residuos corregidos
divididos por su desviacin tpica. tiles tambin para detectar puntos de
influencia.
Algunas de estas variables permiten detectar puntos de influencia, pero,
entre todas, hay dos variables (ZPRED, ZRESID) cuyo diagrama de
dispersin informa sobre el supuesto de homocedasticidad o igualdad de
varianzas.
El supuesto de igualdad de varianzas implica que la variacin de los residuos
debe de ser uniforme en todo el rango de valores pronosticados. O, lo que es lo
mismo, que el tamao de los residuos es independiente del tamao de los
pronsticos, de donde se desprende que el diagrama de dispersin no debe
mostrar ninguna pauta de asociacin entre los residuos y los pronsticos.
Para obtener un diagrama de dispersin con las variables (ZPRED, ZRESID):

En el diagrama de dispersin se observa que aunque los residuos y los


pronsticos parecen ser independientes (la nube de puntos no sigue ninguna
pauta de asociacin clara, ni lineal ni de ningn otro tipo), no est claro que las
varianzas sean homogneas. Ms bien, parece que a medida que van
aumentando el valor de los pronsticos va disminuyendo la dispersin de los
residuos.

Los pronsticos menores que la media (con puntuacin tpica por debajo de
cero) estn ms concentrados que los pronsticos mayores que la media (con
puntuacin tpica mayor que cero).
Cuando un diagrama de dispersin delata la presencia de varianzas
heterogneas, puede utilizarse una transformacin de la variable dependiente
para resolver el problema (tal como una transformacin logartmica o una
transformacin raz cuadrada). No obstante, al utilizar una transformacin de la
variable dependiente, debe cuidarse el problema de interpretacin que aade el
cambio de escala.
El diagrama de dispersin de las variables (ZPRED, ZRESID) posee la utilidad
adicional de permitir detectar relaciones de tipo no lineal entre las variables.
Cuando la relacin es no lineal, el diagrama puede contener indicios sobre otro
tipo de funcin de ajuste (los residuos estandarizados podran en lugar de estar
homogneamente dispersos seguir un trazado curvilneo).

Normalidad

El recuadro de Grficos de los residuos tipificados contiene dos opciones que


informan sobre el grado en que los residuos tipificados se aproximan a una
distribucin normal: Histograma y Grfico de probabilidad normal.
HISTOGRAMA: Ofrece un histograma de los residuos tipificados con una
curva normal superpuesta. La curva se construye tomando una media de
cero y una desviacin tpica de uno. Es decir, la misma media y la misma
desviacin tpica que los residuos tpicos tipificados.

En el histograma del ejercicio se observa que la parte central acumula ms


casos de los que existen en una curva normal. La distribucin es algo
asimtrica a la derecha. La distribucin de los residuos no parece seguir el
modelo de probabilidad normal, de modo que los resultados del anlisis
deben de interpretarse con cautela.
GRFICOS DE LOS RESIDUOS TIPIFICADOS. Permite obtener un
diagrama de probabilidad normal. En el eje de abscisas esta representada
la probabilidad acumulada que corresponde a cada residuo tipificado. El de
ordenadas representa la probabilidad acumulada terica que corresponde
a cada desviacin tpica en una curva normal N(0, 1).

Los puntos no se encuentran


alineados sobre la diagonal del
grfico, indicando el posible
incumplimiento del supuesto de
normalidad.

En el Grfico de valores observados


frente a los predichos (DEPENDNT,
ZPRED), los valores se deben
alinear en la diagonal del
cuadrante, si hubiera mucha
dispersin,
implicara que no se verifican las
hiptesis de
homocedasticidad.
En este caso existe igualdad de
varianzas.

Seleccionando la opcin Generar todos los


grficos parciales, SPSS muestra la grfica
de la variable dependiente frente a todas las
variables independientes, comprobando si
existe linealidad entre las variables.

Observando los grficos, se podra imaginar un comportamiento lineal.

Pulsando el botn [Guardar] se abre un


abanico de opciones.
Todos los casos contribuyen a la obtencin
de la recta de regresin, pero no todos lo
hacen con la misma fuerza. Los puntos de
influencia son casos que
afectan de forma importante al valor de la
ecuacin
de
regresin.
La presencia de puntos de influencia no
tiene por qu constituir un problema en
regresin, de hecho lo normal es que en un
anlisis de regresin no todos
los casos tengan la misma importancia
(desde el punto de vista estadstico). No
obstante, el analista debe de ser
consciente de tales puntos, porque, entre
otras cosas, podra tratarse de casos con
valores errneos. Siendo conscientes de si
existen o
no puntos de influencia es posible corregir
el anlisis.
Se marcan todas las opciones de los recuadros Distancias y Estadsticos de
influencia (todas estas opciones crean variables nuevas en el archivo de
datos).
Distancias

Este recuadro recoge tres medidas que expresan el grado en que cada caso se
aleja de los dems.
Mahalanobis. Mide el grado de distanciamiento de cada caso respecto de
los promedios del conjunto de variables independientes. En regresin simple,
esta distancia se obtiene elevando al cuadrado la puntuacin tpica de cada
caso en la variable independiente.
En regresin mltiple se obtiene multiplicando por (n 1) el valor de influencia
de cada caso.

Cook. Mide el cambio que se produce en las estimaciones de los


coeficientes de regresin al ir eliminando cada caso de la ecuacin de
regresin. Una distancia de Cook grande indica que ese caso tiene un peso
considerable en la estimacin de los coeficientes de regresin.
Para evaluar estas distancias puede utilizarse la distribucin F con (p+1)
y (np1) grados de libertad, donde p es el nmero de variables
independientes y n el tamao de la muestra.
En general, un caso con una distancia de Cook superior a 1 debe de ser
revisado.

Valores de influencia. Representan una medida de la influencia potencial de


cada caso.
Respecto a las variables independientes, un valor de influencia es una
medida normalizada del grado de distanciamiento de un punto del centro de
su distribucin. Los puntos muy alejados pueden influir de forma muy
importante en la ecuacin de regresin, pero no tienen por qu hacerlo
necesariamente.
Con ms de 6 variables y al menos 20 casos, se considera que un valor de
influencia debe de ser revisados si es mayor que (3p/n). Los valores de
influencia tienen un mximo de (n1)/n.
Como regla general, para orientar decisiones, los valores menores que 0,2 se
consideran poco problemticos; los valores comprendidos entre 0,2 y 0,5 se
consideran arriesgados; y los valores mayores que 0,5 debieran evitarse.

Estadsticos de influencia

Este recuadro contiene varios estadsticos que contribuyen a precisar la posible


presencia de puntos de influencia.
DfBetas (diferencia en las betas). Mide el cambio que se produce en los
coeficientes de regresin estandarizados (betas) como consecuencia de ir
eliminando cada caso de la ecuacin de regresin. SPSS crea en el Editor de
datos tantas variables nuevas como coeficientes beta tiene la ecuacin de
regresin, es decir, tantos como variables independientes ms uno (el
correspondiente a la constante de la ecuacin).
DfBetas tipificadas. Es el cociente entre DfBetas y su error tpico.
Generalmente, un valor
n delata la presencia de un posible punto de
mayor que 2
influencia.
El SPSS crea en el Editor de datos tantas variables nuevas como
coeficientes Beta tiene la ecuacin de regresin.
Df Ajuste (diferencia en el ajuste). Mide el cambio que se produce en el
pronstico de un caso cuando ese caso es eliminado de la ecuacin de
regresin.
Df Ajuste tipificado. Es el cociente entre DfAjuste y su error tpico.
Generalmente, se consideran puntos de influencia los casos en los que
DfAjuste tipificado es
mayor que (p n) , siendo p el nmero de variables independientes y n el
2
tamao de la
muestra.
Razn entre las covarianzas (RV). Indica en qu medida la matriz de
productos cruzados (base
del anlisis de regresin) cambia con la eliminacin de cada caso.
Se considera que un caso es un punto de RV > 3 + p n
influencia si

Crear coeficientes de los estadsticos. El SPSS ofrece una tabla


resumen que incluye, para todos los estadsticos del recuadro Distancias, el
valor mnimo, el mximo la media, la desviacin tpica y el nmero de casos.
La tabla tambin recoge informacin sobre los pronsticos y los residuos.

Sealar que los puntos de influencia no tienen por qu tener residuos


especialmente grandes, el problema que presentan no es precisamente la
falta de ajuste. A pesar de ello, es conveniente

examinarlos por su desproporcionada influencia sobre la ecuacin de regresin.


Como stos puntos son distintos de los dems, conviene precisar en qu son
distintos.
Una vez identificados y examinados, se pueden eliminar del anlisis simplemente
porque entorpecen el ajuste, o porque su presencia produce medidas de ajuste
infladas.

Valores pronosticados

El objetivo principal del anlisis es el de poder efectuar pronsticos en


casos nuevos. Se han utilizado los coeficientes de regresin parcial (B)
para construir la recta de regresin:
Y = 0,5895 + 0,936 X1 + 0,1866 X2
Conocidos los pesos de la ecuacin de regresin, se puede utilizar la opcin del
men Transformar/Calcular variable para obtener los pronsticos que la
ecuacin asigna a cada caso. Pero esto no es necesario porque el subcuadro
Guardar nuevas variables contiene opciones relacionadas con los pronsticos:
Las opciones de este recuadro generan, en el Editor de datos, cuatro nuevas
variables, que reciben automticamente un nombre seguido de un nmero de
serie (nombre_#). Por ejemplo, la primera vez que se solicitan durante una
sesin los pronsticos tipificados, la nueva variable con los pronsticos
tipificados recibe el nombre de zpr_1. Si se vuelven a solicitar pronsticos
tipificados durante la misma sesin, la nueva variable recibe el nombre de
zpr_2, y as sucesivamente.

No tipificados. Pronsticos que se derivan de la ecuacin de regresin en


puntuaciones directas, reciben el nombre: pre_#.

Tipificados. Pronsticos convertidos en puntuaciones tpicas (restando a


cada pronstico la media de los pronsticos y dividiendo la diferencia por la
desviacin tpica de los pronsticos), reciben el nombre: zpr_#.

Corregidos. Pronstico que corresponde a cada caso cuando la ecuacin de


regresin se obtiene sin incluir ese caso, nombre: adj_#.

E.T. del pronstico promedio. Error tpico de los pronsticos


correspondientes a los casos que tienen el mismo valor en las variables
independientes, nombre: sep_#.

Al efectuar un pronstico hay dos situaciones diferentes:


c
d

Efectuar un pronstico individual Y para un caso concreto X


i
i
Pronosticar para cada caso la media de los pronsticos
Y correspondientes
0
a todos los casos con el mismo valor X 0 en las(s) variable(s)
independiente(s). A esta media se llama pronstico
promedio.

Al efectuar un pronstico individual para un determinado valor de Xi , el error de

estimacin o
variacin
residual

(Y Y
i ) puede contener dos fuentes de error:

1. media
La diferencia
entrecorrespondiente
el valor observado
la variable
poblacional
a X en
). dependiente Yi y la
0 (
Y/X

2. La diferencia entre el pronstico para


ese caso (Y
X 0 ( Y0 / X ).

o Y ) y la media poblacional
0
correspondiente a

En un pronstico individual entran en juego las dos fuentes de error, mientras


que en un pronstico promedio slo entra la segunda fuente de error. En
consecuencia, para un valor dado de X 0 , el error tpico del pronstico promedio
ser menor o igual que el error tpico del valor individual.
Por tanto, al construir intervalos de confianza para los pronsticos, la
amplitud del intervalo cambiar dependiendo del error tpico que se tome
como referencia.

Intervalos de pronstico. Las opciones del recuadro permiten obtener


dos tipos de intervalos:
~ Media: Intervalo de confianza basado en los errores tpicos de los
pronsticos promedio.
~ Individuos: Intervalo de confianza basado en los errores tpicos de los
pronsticos individuales. La opcin Intervalo de confianza k% permite
establecer el nivel de confianza con el que se
construyen los intervalos de
confianza.
Cada una de las opciones (media e individuos) genera en el Editor de datos dos
nuevas variables con el lmite inferior y superior del intervalo. Estas nuevas
variables reciben los siguientes nombres:
lmci_#: lmite inferior IC pronstico medio
IC pronstico medio
lici_#: lmite inferior IC pronstico individual
pronstico individual

umci_#: lmite superior


uici_#: lmite superior IC

CRITERIOS DE SELECCIN DE VARIABLES


Los mtodos por pasos que incluye el SPSS para la
seleccin de variables se basan en dos criterios
estadsticos:
1. Criterio de significacin (Probabilidad de F, valor de F)
2. Criterio de tolerancia

1. Criterio de significacin. Slo incorpora al modelo de regresin


aquellas variables que contribuyen de forma significativa al ajuste del
modelo.
La contribucin individual de una variable al ajuste del modelo se establece
contrastando, a partir del coeficiente de correlacin parcial, la hiptesis de
independencia entre esa variable y la variable dependiente. Para decidir si se
mantiene o se rechaza esa hiptesis de independencia, el SPSS incluye dos
criterios de seleccin:
Probabilidad de F. Una variable pasa a formar parte del modelo de
regresin si el nivel crtico asociado a su coeficiente de correlacin parcial al
contrastar la hiptesis de independencia es menor que 0,05 (probabilidad
de entrada). Y queda fuera del modelo de regresin lineal si el nivel crtico
es mayor que 0,10 (probabilidad de salida).
Valor de F. Una variable pasa a formar parte del modelo de regresin lineal
si el valor del estadstico F utilizado para contrastar la hiptesis de
independencia es mayor que 3,84 (valor de entrada). Y queda fuera del
modelo de regresin lineal si el valor del estadstico F es menor que
2,71 (valor de salida).
Las opciones del recuadro Criterios del mtodo por pasos permite
seleccionar uno de los dos criterios de significacin disponibles, as como
modificar las probabilidades de entrada y salida.
2. Criterio de tolerancia. Superado el nivel de significacin, una variable
solo pasa a formar parte del modelo si su nivel de tolerancia es mayor que el
nivel establecido por defecto (este nivel es
mayor que 0,0001, pero puede cambiarse mediante sintaxis) y, si adems, an
correspondindole un coeficiente de correlacin parcial significativamente
distinto de cero, su incorporacin al modelo hace que alguna de las variables
previamente seleccionadas pase a tener un nivel de tolerancia por debajo del
establecido por defecto.
Una forma intuitiva de comprender y valorar el efecto resultante de aplicar
estos criterios de seleccin consiste en observar el cambio que se va
2
produciendo en el coeficiente de determinacin R a medida que se van
incorporando (o eliminando) variables al modelo.
Este cambio
se puede definir
como R2

= R2 R2 , donde R2 se refiere al coeficiente de


cambio

determinacin obtenido con todas las variables independientes excepto la isima.


2

Un cambio grande en R indica que esa variable contribuye de forma


importante a explicar lo que ocurre con la variable dependiente.
Para obtener los valorescambi
de y su significacin (el grado en que el cambio
2
R
observado en
2

R difiere de cero) hay que marcar la opcin Cambio en R cuadrado del botn
[Estadsticos].

MTODOS DE SELECCIN DE
VARIABLES
Existen diferentes mtodos para
seleccionar las variables
independientes que debe incluir un
modelo de regresin, pero los que
mayor aceptacin son los mtodos de
seleccin por pasos (stepwise). Con
estos mtodos, se selecciona en primer
lugar la mejor variable (con algn
criterio estadstico); a continuacin, la
mejor de las restantes; y as
sucesivamente hasta que no queden
variables.

Todas las opciones se encuentran disponibles en el men del botn despegable


Mtodo.
Dos de los mtodos permiten incluir o excluir, en un solo paso, todas las
variables independientes seleccionadas:

Introducir: Construye la ecuacin de regresin utilizando todas las variables


seleccionadas en la lista de Independientes. Es el mtodo utilizado por
defecto.
Eliminar: Elimina en un solo paso todas las variables de la lista de
Independientes y ofrece los coeficientes de regresin que corresponderan
a cada variable en el caso de que pasaran a formar parte de la ecuacin de
regresin.

El resto de seleccin de variables son mtodos por pasos, esto es, mtodos
que van incorporando o eliminando variables paso a paso dependiendo que
stas cumplan o no los criterios de seleccin:
Hacia delante: Las variables se incorporan al modelo de regresin una a una.
En el primer paso se selecciona la variable independiente, que adems de
superar los criterios de entrada, ms alto correlaciona (positiva o
negativamente) con la dependiente.
En los siguientes pasos se utiliza como criterio de seleccin el coeficiente de
correlacin parcial:
<< Van siendo seleccionadas una a una las variables que, adems de superar
los criterios de entrada, poseen el coeficiente de correlacin ms alto en valor
absoluto (la relacin se parcializa controlando el efecto de las variables
independientes previamente seleccionadas).
La seleccin de variables se detiene cuando no quedan variables que superen
el criterio de entrada (utilizar como criterio de entrada el tamao, en valor
absoluto, del coeficiente de correlacin parcial, es equivalente a seleccionar la
variable con menor probabilidad de F o mayor valor de F) >>.

Hacia atrs: Comienza incluyendo en el modelo todas las variables


seleccionadas en la lista
Independientes y luego procede a eliminarlas una a una.
La primera variable eliminada es aquella que, adems de cumplir los
criterios de salida, pose el coeficiente de regresin ms bajo en valor
absoluto.
En cada paso sucesivo se van eliminando las variables con
coeficientes de regresin no significativos, siempre en orden inverso
al tamao de su nivel crtico.

La eliminacin de variables se detiene cuando no quedan variables en el


modelo que cumplan los criterios de salida.
Pasos sucesivos: Es un mtodo mezcla de los mtodos Hacia
delante y Hacia atrs.
Como el mtodo Hacia delante, en el primer paso comienza seleccionando la
variable independiente que, adems de superar los criterios de entrada, ms
alto correlaciona (en valor absoluto) con la variable dependiente.
A continuacin, selecciona la variable independiente que, adems de superar
los criterios de
entrada, posee el coeficiente de correlacin parcial ms alto (en valor
absoluto).
Cada vez que se incorpora una nueva variable al modelo, las variables
previamente seleccionadas son, al igual que en el mtodo Hacia atrs,
evaluadas nuevamente para determinar si siguen cumpliendo o no los
criterios de salida. Si alguna variable seleccionada cumple los criterios de
salida, es eliminada del modelo.
El proceso se detiene cuando no queden variables que superen el
criterio de entrada y las variables seleccionadas no verifiquen los
criterios de salida.

Das könnte Ihnen auch gefallen