Beruflich Dokumente
Kultur Dokumente
Mltiple
Santiago de la Fuente
Fernndez
Regresin Lineal
Mltiple
Santiago de la Fuente
Fernndez
Regresin Lineal
Mltiple
Yi
+ 1 + 2 + L +
X , )
N(0
X1
independientes,
k
X2
(i = 1,2, L ,n)
(i = 1,2, L ,n)
M = M
M
yn
Xk 1 u
0
1
X12
Xk 2 1
u2
L
M L M M + M
X11
L
M L M M
Xk n k
X1n
M
u
n
c) Homocedasticidad: Var (u i ) = 0
d)
Independencia:
Santiago de la Fuente
Fernndez
u i son
Regresin Lineal
Mltiple
Santiago de la Fuente
Fernndez
(i = 1,2, L ,n)
L + K XK i + ui
En forma matricial: Y = X siendo X ='matriz del diseo'.
+U
Datos
X1
X2
X k1
X k2
Y1
X 11
X 21
Y2
X 12
X 22
M
n
Yn
n X2
i1
X 1n
XK
X 2n
X kn
i=1
n
X Xi2
donde X' X = i=1
i1
,
... X Xik
i=1 i2
M
...
Xi2
i=1
M
M
n
X ikX
i=1 i1
Xik X
i=1
i=1
n
...
i2
Xik
i=1
= [X'X ]
X' Y
n X Y
i1 i
i=1
n
Xi2 Yi
X' Y =
M
i=1
Xik Yi
i=1
Xi2
i=1
n
X 2
i2
n
... X ik
i=1
n
n
... X X
i=1 i2
M ...
n
nY
i
ni=1
X
ik Y
,
i2 i=1
X' Y = i=1
Xik
i=1
i
2
Xik X
i=1
i2
... X
ik
i=1
i2
u = Y Y = Y + + + L + X
X 1 1X 2 2
i
i
i
i
0
K
K
Xik Yi
i=1
= S2 =
R
u2
n k 1
i=1
2
embargo,
este estimador es sesgado
ui . Sin
2
2
E( ) ,
n
i=1
n
u2 .
por tanto, se utiliza como estimador
1
2
S =
R
n k 1 i=1
i
DEMOSTRACIN ( Y = X
+U
= [X'X ]
X' Y )
U
u n
u
u n
'
S = Y X Y X = Y' Y ' X' Y = Y' Y ' X' Y ' X' Y + Y' Y 2 ' X' Y +
' X' XB
' X' X B =
14444244443
Y' X + ' X' XB
][
un escalar es igual a su
transpuesto
' X'
Y=X' Y
a B = [X' X ]1 X' Y
DISTRIBUCIN DE
a) Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y
matriz transpuesta del diseo).
(siendo X' la
es un estimador insesgado de
X ] X' X =
1
Var ( ) = Var
( [X' X]
[X' X ]
2
de
donde,
N , 2 [X'X ]
u = Y Y = Y + + + L + X
i i i i
0X 1
1X 2
2
K
Ki
i N , i +1, i
+1
) , donde
i +1, i
+1
Anlogamente, la covarianza
entre i y
j
ser
2 q
i 1,i 1
+
2
2
se hace mediante S = u , pudindose
1
R
i
n k 1
comprobar que el estimador es insesgado:
i=1
R
La estimacin de la varianza
2
residual
[ ]=
2
ES
i +1, i +1
SR
mediant q
e
i +1, i +1
N , q
2
(n k 1) RS
2
Se demuestra
que
nk 1
2
Se
obtiene
i i
N(0,1) .
q i +1, i
+1
i
resulta que,
t =
1
k
2
k
q i +1 , i +1
1
N(0,1)
(n k 1)R
tnk1
i i
=
SR q i +1, i
+1
(n k 1)
H0 : i = 0
48
Se acepta la hiptesis nula H0
cuando
SR qi +1, i
estadsti
co
terico
647
48
t
2
; (nk1)
i
q i +1, i +1
SR
. En caso contrario, se
rechaza.
+1
= 0 + 1 X1 + 2 X2 + L + k Xk , se puede
calcular
fcilmente el coeficiente de correlacin parcial entre la variable de
respuesta Y y una variable regresora X, controlado por el resto de
variables regresoras. Para ello se utiliza el contraste individual de la t
respecto a la variable X, y que se define como:
ti =
SR qi +1, i +1
2
Y iC
Obtenindose la siguiente
relacin:
R =
i = 1,2,...,k,
ti2
ti2 + n (k +
1)
dond C = {1,2, ... ,i 1,i + 1, ... ,k } conjunto de ndices de todas las variables
e
regresoras excepto el
ndice isimo.
e) INTERVALOS DE CONFIANZA DE LOS
i
PARMETROS
Las estimaciones de los parmetros vienen dada por la
expresin = [X' X ] 1 X' Y
(siendo X' la
)i 2
(y y
i
), donde la varianza
i +1, i
2
se estima por S =
residual
+1
donde q
i +1,
i +1
IC 1 (
i ) =
t / 2 , (nk 1)
i + 1, i +1
SR
H0 : i X i no influye
en Y X i influye
=0
H1: i en Y
0
i=1
n k 1
2
(n
(n k 1) S SC
2 k 1)
S
2R
R
R
;
IC =
=
2
2
2
, (nk1)
, (nk1)
,
2
(nk1)
SCR
, (nk1)
DESCOMPOSICIN DE LA
VARIABILIDAD
n
6447=0 448
i=1
i=1
2( Y Y
( Y Y ) 2 =
1i=142
43
SC
T
1i=1
4243
SC
E
suma cuadrados
total
(n1) grados
libertad
2
( Y Y )
suma cuadrados
explicada
k grados
libertad
1i=142
43
SC
R
suma cuadrados
residual
(nk1) grados libertad
( Y Y 2) 2 = ( Y Y ) 2 + (
Y Y)
i=1
i=1
i=1
2
( Y Yi )i
1 =
i=1
n
( Yi Y
)2
1i=142
43
SCR /
SCT
2
( Yi Y )
i=1
n
( Yi Y ) 2
1i=14243
R2 =SCE/
SCT
2
( Yi Yi )
SCE
= i=1n
define R 2 =
SC
T
2
( Yi Y )
i=1
Suma
n
cuadrados
SCE Y=i)( Yi 2
i=1
Grados
libertad
k
SCR= (Yi Y )2
Media
cuadrtica
SC
E
SCR
n k 1
n k 1
i=1
n
SCT = ( Y Y
i
)2
Total
FSnedecor
F=
SCE / k
SCR / (n k
1)
n
1
CONTRASTE DE HIPTESIS:
Hiptesis
nula
H0 : 1 = = LL = k =
0
2
el modelo no es explicativo
Hiptesis
alternativa
H1: al menos un
i 0
el modelo es explicativo
A un nivel de confianza (1 ) se
rechaza H0 si
F F; k , (nk1)
FSnedecor COEFICIENTE DE
DETERMINACIN
El coeficiente de determinacin se
define: R
2
( Yi Yi )
SCE
i=1
SC
T
( Yi Y )
i=1
SCE
1 nk1
SCE SCT n
nk1 2
1
nk
2
= R2
=
R
1
R
k1
1
2
=
=
=
1
R
k
SCR k
SCT SCE k
SCR / (n k SCT SCR k
1)
SC
SC
T
T
2
R
12
R
n k
1
k
F = R2 n k
1
1
2
k
R
RESUMEN DE CONTRASTES
Contraste Conjunto Contrastes
Individuales
FSnedecor
Modelo explicativo Todas lastStudent
Xi son
Modelo explicativo explicativas
Algunas Xi son
Ninguna Xi es
explicativas
explicativa
Todas las Xi son
explicativas
Algunas Xi son
Conclusin
Tomamos todas las Xi
Nos quedamos con las Xi explicativas
Modelo
explicativo
Modelo
explicativo
Modelo
no
no
Ninguna Xi es
explicativa
Intervalo de confianza para un valor medio de Y para los valores ( X10 , X20
, LL , Xk 0 ) de las variables explicativas.
Y 0 =
+ 1 X10 + 2 X20 + L + K XK 0
IC
E(Y0 )
= Y0 t
SR
/ 2 , (nk 1)
(1
X 10
X 10
X k ) (X'X) 1 20
0
X
XK 0
X 20
L
IC
Y0
= Y0 t
SR
/ 2 , (nk 1)
1 +
(1
MATRIZ DE COVARIANZAS
La define:
matriz de varianzascovarianzas
se
= Sx y
S2 yx S yx1
= 1
x
S
S
yx Sx2 y
Sy 1
x
VC Sx 1 y x21
S
S
x 2y
,X
X 10
X k ) (X'X) 1 20
0
X
XK 0
X 10 X 20
L
y2
10
x
1
x 22
S
x1 x 2
=S
x
de
2
2
los adjuntos ,
yx1
(S
S yx
) entre el adjunto de 2 :
y
1 = VCyx 1
VCy
2
x1
S1 x 2
donde VC y
Sx 2 x 1 x2 2
,
=
2 = VCyx 2
VCy
=Y
X2
1 X1
0
Sx 1 Sx 1 x
y
VC y1x =
2
Sx 2 y
x2
Sx 1 y
VC y2x =
Sx 2
y
S2x 2 x 1
2
R2 = yx
1
Coeficiente de determinacin
mltiple:
= 1 CV
2
Cy
yy
Coeficientes de correlacin
parcial:
VC 2 =
VC yy
y
VCx =
VC
1
x
1
VCx =
VC
2
yx 1
.x 2
VCyx
VC y VCx 1
y
yx 2
.x 1
VCyx 2
VC y VCx 2 x 2
y
MATRIZ DE CORRELACIONES
La matriz de correlaciones de las variables explicativas Rx est formada por
los coeficientes de correlacin lineal simple:
S
= yx1
r
yx
1
1 ryx ryx
ryx = rx
y
1
2
y
x1
1 1
Rx = rx 1 y 1 rx1 2 donde r yx = rx 2 y
r
r
1
x 2y x 2 x 1
rx
ryx 1 .x 2 =
Coeficientes de correlacin
parcial:
ryx 2.x =
Coeficiente de determinacin
mltiple:
x
2
(1 yx
)(1 x1r 2
2
r 2
ryx2 ryx1 rx2
2
yx1
2
(1 r )(1 r
)
x2 1
r
R = r 1 x =2
2
S yx
2
=
r
yx 2
y
x2
= r1 x
2
yx
2
yx
1
2
+ ryx
2 yx
r 1 ryx 2 rx 1 x 2
2
12
r x 1x
2
Ingresos
2,1
0
1,1
0
0,9
0
1,6
0
6,2
0
2,3
0
1,8
0
1,0
0
8,9
0
2,4
0
1,2
0
4,7
0
3,5
0
2,9
0
1,4
0
Tamao
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
U ,
0,43
1 2,1 3
0,31
1 1,1 4
0,32
1 0,9 5
0,46
1 1,6 4
1,25
1 6,2 4
0,44
1 2,3 3
0,52
1 1,8 6 0 u1
Y = 0,29 = X + U =
5 1 + u2
1
1
1,29
1 8,9 3 2 u3
0,35
1 2,4 2
0,35
1 1,2 4
0,78
1 4,7 3
0,43
1 3,5 2
0,47
1 2,9 3
1 1,4 4
0,38
15
15 Y = N + 15
X
0
1
1i + 2 X 2i
i=1 i
i=1
i=1
15
15
15
15
2
ecuaciones
Y =
normales MCO
0 X1i+
1 X1i +
2 X1i X2i
X
i=1
i=1
i=1
i=1 1i
15
15 i
15
15
2
X
Y
X
X
X
=
2i i
0
2i
1 1i
2i + 2 X 2i
i=1
i=1
i=1
i=1
X1i
2
X2i
X21i
X2i
X1i
Yi
X1i
X2i
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15
Yi =
8,07
i=1
2,1
1,1
0,9
1,6
6,2
2,3
1,8
1
8,9
2,4
1,2
4,7
3,5
2,9
1,4
15
X1i =
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
4,41
1,21
0,81
2,56
38,44
5,29
3,24
1
79,21
5,76
1,44
22,09
12,25
8,41
1,96
15
15 2
X1i =
i=1 188,08
X2i =
42
55
i=1
i=1
9
16
25
16
16
9
36
25
9
4
16
9
4
9
16
15 2
con lo
cual,
i=1
15
Y =
i=1
1,29
1,24
1,6
1,84
5
1,32
3,12
1,45
3,87
0,7
1,4
2,34
0,86
1,41
1,52
15
Y =
i
X2 28,96
i=1
+
= 8,07
15 +
42 55
15
15
15
+
+
=
2
X
Y
=
0 1i +
1 X
1i +
2 X
1i 2i
X 42
0 188,08 1140,08 2 32,063
i=1 1i
i=1
i=1
i=1
i
550 + 140,081 + 2192 =
15
15
15
15
2
28,96
X
Y
X
X
X
X
=
2i i
0 2i
1 1i
2i
2 2i
15
i=1
i=1
i=1
i=1
en forma
matricial,
[X'X ]
6444447
48
444448
647X'Y
0,092
0,282 8,07
644447
44448
15
42
55
X'X
55 140,
8
0,903
0,341
0,288
0,736
7,750
1,012
0,936
0,29
11,481
0,84
0,42
3,666
1,505
1,363
0,532
i
X1X2i140,8 X1 32,063
i=1
i=1
i=1
15
=
2i
X219
Yi = N0 + 1 X1i + 2 X2i
i=1
6,3
4,4
4,5
6,4
24,8
6,9
10,8
5
26,7
4,8
4,8
14,1
7
8,7
5,6
X2i Yi
21
9
8,07
28,96
1,36
0,282
0,01
3
0,067 28,96
0,16
0
= 0,149 Y = 0,16 + 0,149 X + 0,077 X +
1
2
1
Re siduo
0,077
Y
i = 0 + 1 X1i se obtienen las predicciones y residuos
A partir de la
ecuacin
asociados
+ 2 X 2i
ui = Yi Yi a las observaciones muestrales. De este modo, para la primera
observacin
( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ), se tiene:
Y = 0,16 + 0,149 (2,1) + 0,077 (3) = 0,3839
2
i
Residuo ui = Yi i
s:
Y
0,3839
0,046
0,3119
0,3591
0,3864
u
0,002
0,0000
0,039
0,0015
1,3971
0,3516
0,050
0,0025
0,084
0,0071
0,107
0,0115
0,002
0,0000
0,3566
decir, la variabilidad de Y
respecto a la recta
ajustada ser:
15
i=1
0,000
5
0,023
0,7713
0,5031
de donde, la suma
de cuadrados
RESIDUAL, es
SCR
2 = (Y
Y )
0,3268
0,009
0,5155
0,0021
0,005
4
0,031
8
0,000
7
0,178
0,4137
0,374
0,074
1,0718
0,026
0,5702
= (Yi Y )
0,000
1
0,086
0,0073
0,033
0,0011
= 0,0721
SCR
SR =
=
15 2 1
12
0,0721
= 0,006
S = 0,006 = 0,0775
0,0005
15
0,023
2
(Y Y ) =
i=1
0,0721
1
R
0,05,1 21,02
0,95,1 5,226
2
=
=
n
= 12k 1 15 2 1 S
0,006
R
SCR
,
2
(nk1)
2
1
,(nk1)
2
2
(n 1) S
(n
1)
k
k SR
R
IC =
;
=
(nk1)
SC
R
0,0721 0,0721
[
]
;
; 0,0138
= 0,0034
2
5,226
21,026
1 ,(nk1)
2
=
0,0034 0,0138
i +1, i
+1
elemento de
[X'X ]
644474448
1
1
2
2
Var ( ) = [X' X ] S [X' X ]
= (0,006)
i
R
S2 q+1, i +1
i
644444744444
8
R
1,36
0,00816
0,01
0,000096
6
0,067
0,0004
Var(0 ) = 0,00816
0,00816 = 0,0903
=
0,000096 = 0,0098
0
Var( ) = 0,000096
1
1 =
Var( ) = 0,0004
0,0004 = 0,02
2
1
=
de
donde se
deduce,
IC1 (i ) =
t / 2 , (nk1)
q i +1, i +1
SR
0 =
1 =
0,160
0,149
0,077
IC1 () =
0,00816
(1,782)
0,160
IC1 (
0,149
1 ) =
0,000096
0,1665
(1,782)
] [ 0,321 ; 0,001 ]
] = [ 0,1315 ;
(Ingreso)
[ 0,0414 ;
(Tamao)
0,0004
=
t0 ,05 , 12 = 1,782
0,1126
SR q33
SR q33
Por
tanto,
2 =
SR q33 =
0,0004 =
0,077
(0,0775)
0,00155
t0 ,05 , 12 = 1,782
El estadstico
experimental
t=
2
0,077 = 49,67
=
SR q33 0,0015
5
Confianza para 2 :
cero no
se encuentra en el intervalo, con lo que se rechaza la hiptesis nula H0 : 2 = 0
, concluyendo que
el nmero de miembros de la familia (tamao) si influye en los gastos de
alimentacin (Y).
Rtulos: Activar esta casilla cuando la primera fila o la primera columna del rango
(o rangos) de entrada tienen rtulos. No activar en el caso de que el rango de
entrada carezca de rtulos. Excel genera los rtulos de datos correspondientes para
la tabla de resultados.
Nivel de confianza: Activar esta para incluir ms niveles de confianza en la
tabla de resmenes de resultados. Introducir el nivel de confianza a aplicar
adems del nivel predeterminado del 95%.
Constante igual a cero: Activar esta casilla para que la lnea de regresin pase por
el origen.
Rango de salida: Introducir la referencia correspondiente a la celda superior
izquierda de la tabla de resultados. Dejar por lo menos siete columnas disponibles
para la tabla de resultados sumarios, donde aparecen: tabla de anlisis, nmero
2
observaciones, coeficientes, error tpico del pronstico Y, valores de R y error tpico
de coeficientes.
En una hoja nueva: Hacer clic en esta opcin para insertar una hoja nueva en el
libro actual y pegar los resultados, comenzando por la celda A1 de la nueva hoja de
clculo. Para dar un nombre a la nueva hoja de clculo, anotarlo en el cuadro.
En un libro nuevo: Hacer clic para crear un nuevo libro y pegar los resultados en
una hoja nueva del libro creado. Si desea incorporar la opcin grfica tiene que
teclear esta opcin.
Residuos: Activar esta casilla para incluir los residuos en la tabla de resultados.
Residuos estndares: Activar esta casilla para incluir residuos estndares en la
tabla de resultados de residuos.
Grficos de residuos: Si activa esta casilla se genera un grfico por cada variable
independiente frente al residuo.
Curva de regresin ajustada: Si activa esta casilla se genera un grfico con
los valores pronosticados frente a los valores observados.
Trazado de probabilidad normal: Activando esta casilla se genera un grfico con
probabilidad normal.
Finalmente, con las opciones activadas en la figura anterior, en la tabla de
resultados aparecen los estadsticos de regresin, cuadro de anlisis de la
varianza del modelo, estimadores, contrastes de significacin de FSnedecor y
de tStudent con sus pvalores asociados, intervalos de confianza para los
parmetros y para las predicciones al 90% y 95%, y residuos.
(u u ) 2
no de
autocorrelacin:
DW = i=2
i 1
n u)
i
2
i=1
DW
2
2(1 DW
0
DW
4
si = 0
si = 1
si = 1
El Modelo estimado
sera:
Y = 0,16 + 0,149 X
+ 0,077 X
En el grfico de residuos
tipificados contra valores
predichos existen dudas sobre la
aleatoriedad porque los puntos se
concentran siguiendo rectas
paralelas, lo que permite
vislumbrar problemas de
heteroscedasticidad.
Regresin Lineal
Mltiple
2
( Y Y ) =
( Y Y
2
)
i
i=1
1424
3
SC
total
T
Descomposicin de la
variabilidad:
i
1424
3 i
SC
E
Explicada
Residual
Suma de
Cuadrados
15
SCE = ( Y Y )
1,3595 i
i=1
15
SCR = ( Y Y )
0,0721
i
i
i=1
15
SCT = ( Y Y )
1,4316 i
Total
Gr.
libertad
2
15 2
1
15 1
(Yi Y)2
Yi
0,43
0,31
0,32
0,46
1,25
0,44
0,52
0,29
1,29
0,35
0,35
0,78
0,43
0,47
0,38
15
Yi =
8,07
i=1
0,011664
0,051984
0,047524
0,006084
0,506944
0,009604
0,000324
0,061504
0,565504
0,035344
0,035344
0,058564
0,011664
0,004624
0,024964
15
SCT = (Yi Y)
1,4316
suma cuadrados
explicada
k grados
libertad
Media
cuadrtica
SCE
=
suma cuadrados
residual
(nk1) grados libertad
FSnedecor
SCE /
2
F=
=
113,28
SCR /(15 2
1)
0,6797
SCR
=
0,006
SCT
=
0,1023
i=1
Clculo
s
i
1424
i=1
3
SCR
i=1
suma
cuadrados
(n1) grados libertad
Variacin
2
( Y Y )
Y)
(Y
i
0,3839
0,3119
0,3591
0,3864
1,0718
0,4137
0,5702
0,374
1,3971
0,3516
0,3268
0,7713
0,5155
0,5031
0,3566
0,0021
0,0000
0,0015
0,0054
0,0318
0,0007
0,0025
0,0071
0,0115
0,0000
0,0005
0,0001
0,0073
0,0011
0,0005
0,0237
0,0511
0,0320
0,0230
0,2849
0,0155
0,0010
0,0269
0,7381
0,0347
0,0446
0,0544
0,0005
0,0012
0,0329
15
Yi
SCR = (Y Y )
0,0721
i=1
i=1
15
(Y Y)
SCE
=
i=1
= 1,3646
SCE /
= 113,28 > 3,8853 = F0 ,05; 2 , 12
2
SCR /(15 2
1)
Regresin Lineal
Mltiple
R =
SCE
SCT
2
( Y Y )
=
n
i=1
i
=
i
2( Yi Y
1,3595
= 0,9496
1,4316
i=1
Coeficiente de Correlacin
mltiple: R =
0,9496 = 0,9745
R
Coeficiente de Determinacin
corregido
por el nmero de grados de
libertad
=1
=1
0,9413 = 0,9702
Cov(Gasto, Ingreso)
Gasto
Ingreso
Regresin Lineal
Mltiple
mediante la
expresin:
tingreso =
1
2
SR .q
i +1, 1 +1
El coeficiente de determinacin, R
(Gasto,Ingreso; Tamao) =
0,149
0,000096
2
2
ingres
o
tingres
o
15,05
2
= 0,9496
+ n (k + = 15,052 +
12
1)
IC
E(Y0 )
t
=
Y 0 SR
/ 2 , (nk1)
(1
X1
SR = 0,006 =
0,0775
(1
3
t0 ,05; 12 =
1,782
1,36
4)
0,092
0,282
0,09
2
0,01
6
0,01
3
1 = 0,90
0,282 1
0,013
3 = [0,557; 0,633]
0,067 4
Regresin Lineal
Mltiple
15
42
X' X = 188,0
8
42
55 140,
(1
3
55
140,8 [X' X ]
0,092
219
1,36
0,09
2
4)
0,092
0,282
0,01
6
0,01
3
1,36
0,282
0,092
0,282
0,01
6
0,013
0,01
3
0,067
0,282
1
0,013 3 = (
0,044
0,067 4
1
0,00
8
0,025) 3 =
0,08
4
x1 j
x2 j
1
3
4
6
7
10
15
16
18
20
2
1
3
4
5
8
7
9
11
12
17
15
13
10
9
8
6
5
3
4
(a) En forma
matricial:
U ,
1
1 2 17
3
1 1 15
4
1 3 13
6
1 4 10
0 u1
7
1
5
9
+ u
Y= =X+U
1
2
=
10
1 8 8
u
2
3
15
1
7
6
16
1 9 5
18
1 11 3
1 12 4
20
= [X' X ] X' Y
1
1
1
1
1
1 1 1 1 1 1 1 1 1 1
1
[X' X] = 2 1 3 4 5 8 7 9 11 12
1
17 15 13 10 9 8 6 5 3 4
1
1
2 17
1 15
3 13
4 10
90
10 62
5 9
= 62 51
405 X'0X = 30294
4
8
1
1 12
1
9
1
7
8
6
90
405
1
0
1
3
4
inversa y,
En consecuencia, las estimaciones de los coeficientes quedan indeterminadas.
Esto ocurre porque existe multicolinealidad X2 , esto es, que existe una relacin
entre X1 y
lineal
entre estas variables. Para ello se calcula la
regresin de X1
coeficiente de correlacin lineal ser 1.
10
[X' X] =
51
4
62
90 40
5
10
[X'
X]
62
90
90 40
5
62
90 40
101
4
5
62
= 62 51
10
sobre
X2
90
21150
357171 26418
1530
405 =
204
0
26418
405
90
=1
101
4
101
4
21150
1 1 1
De otra parte, [X' Y ] = 2 3
1
17 15 13
21150
153
0
21150 11,790
2
1530 =
0,8721
357171 26418
405 =
30294
26418
y su correspondiente
204
0
153
0
129
6
0,6982
1
3
4
6
1 1 1 1 1 1 1
100
7 =
4 5 8 7 9 11 12 843
10 9 8 6
3
10
4 621
15
16
18
20
21150
10,32
357171 26418 100
1
1
= 0,93
1530 843
204
= 1 = [X' X' Y =
0
26418
X]
30294
0,67
153
129 62
0
6
21150
1
2
0
1296
0,8721
0,6982
0,067
3
0,0505
0,050
5
0,0428
0
1
1i + 2 X 2i
i=1 i
i=1
i=1
10
10
10
10
2
ecuaciones
normales MCO
Y =
X
0
1i +
1 X1i +
2
X1i X2i
X
i=1
i=1
i=1
i=1 1i
10
10
10
10 i
2
X
Y
X
X
X
=
2i i
0 2i
1 1i
2i + 2 X 2i
i=1
i=1
i=1
i=1
Tabla I
Yi
1
3
4
6
7
10
15
16
18
20
X1i
2
1
3
4
5
8
7
9
11
12
X2i
17
15
13
10
9
8
6
5
3
4
Yi
1
9
16
36
49
100
225
256
324
400
X1i
4
1
9
16
25
64
49
81
121
144
X2i
289
225
169
100
81
64
36
25
9
16
X1i X2i
34
15
39
40
45
64
42
45
33
48
X1i Yi
2
3
12
24
35
80
105
144
198
240
X2i Yi
17
45
52
60
63
80
90
80
54
80
100
62
90
1416
514
1014
405
843
621
10
10
10
i=1
i=1
i=1
0
10
10
10
10
2
X Y = 0X1i +
1 X
1i + 2
X1i X
2i
i=1 1i
i=1
i=1
i=1
Yi = N0 + 1 X1i + 2 X2i
con lo
cual,
10
10
10
10
10
+ 62 + 90 = 100
1
2
+
+
=
62
0 514 1 405 2 843
i=1
i=1
i=1
en forma
matricial,
64447
4448
10 62 90
644444
X'X
62 51
4
90 40
5
405 1 = 843
1014 2
100
621
[X'X 1
]
67X'Y8
44444448
44
7 2641
100
357171 8
21150
26418
30294
21150
204
0
1530 843
153
0
129
6
621
10,32
= 0,93
1
0,67
Y = 10,32 +
0,67 + Re
0,93 X1
X2
siduo
A partir de la
i = 0 + 1 X1i se obtienen las predicciones y residuos
Y
ecuacin
asociados
+ 2 X2i
Yi
Yi
(Yi Y)
ui = Yi Y
i
1
3
4
6
7
10
15
16
18
20
100
0,79
1,2
4,4
7,34
8,94
12,4
12,81
15,34
18,54
18,8
0,21
1,8
0,4
1,34
1,94
2,4
2,19
0,66
0,54
1,2
81
49
36
16
9
0
25
36
64
100
416
ui = (Y
i iY )
0,0441
3,24
0,16
1,7956
3,7636
5,76
4,7961
0,4356
0,2916
1,44
21,7266
(Yi Y)
84,8241
77,44
10
31,36
SCT = (Yi Y) = 416
2
i=1
7,0756
1,1236
10
= 21,7266
SCR = (Y1
5,76
i=1
7,8961
Y1
2
28,5156
)
72,9316
10
77,44
SCE
(Yi Y) = 394,3666
=
394,3666
2
i=1
10
R2 =
SCE
2
( Y Y )
i=1
394,3666
0,948
SC
T
10
416
2( Yi Y
)
i=1
=1
0,933
el nmero de grados de
libertad
SCR n k 1
SCT n
1
=1
21,7266 / 7
416 / 9
y=
10
yi 100
i=1
N
10
= 10
y2 =
10
x1 =
= 6,2
10
10
m1y
=9
x2 =
1
x
10
1416
102 = 41,6
10
i=1
10
x2i 90
i=1
=
y2 =
x1i
10
x2 =
i=1
10
x1i 62
i=1
=
yi
x1i yi
2
2
x 21 =
x2i
514
6,22 = 12,96
10
i=1
x 22 =
1014 2
9 = 20,4
10
i=1
x
N
y=
843
(6,2).10 = 22,3
10
10
m2 =
x 2i yi
i=1
x2 y =
621
9.10 = 27,9
10
10
m12 =
x1i x2i
i=1
x 1 x 2=
405
(6,2).9 = 15,3
10
r1y =
22,
3
x y
12,96
1
m2 y
r2 y =
x y
20,4
2
r
12
m12
x1 x2
Prctica en SPSS
= 0,96
41,6
= 0,96
27,9
41,6
15,
= 0,94
3
12,9 20,4
6
Gastos
Publicidad
(millone
0,3
1,5
0,7
1,1
1,2
2
2
Horas
extras
(1004
9
6
7,5
8
7
8
a) Matriz de varianzas
covarianzas. b) Matriz de
correlacin.
c) Qu porcentaje de la varianza de los beneficios explicara una funcin
lineal de los gastos en publicidad?
d) Qu porcentaje de la varianza de los beneficios explicara una funcin lineal
de las horas
extraordinarias anuales de los empleados?
e) Establecer una relacin lineal que explique anualmente los beneficios
mediante los gastos en publicidad y horas extras.
f) Hallar el coeficiente de correlacin mltiple. Qu porcentaje de la varianza de
beneficios queda explicado por el modelo lineal obtenido en el apartado
anterior?
g) Si una empresa destina 900.000 euros a publicidad y sus empleados
realizan 500 horas extraordinarias al ao, cul sera la estimacin de
2y
Sy1
x
definida: VC = Sx 1 y
2x
1
S x y Sx x
2
2
Syx S yx1 = Sx y
2
1
S 2 = S2
yx
x y
Sx 21 x 2
x Sx 1 x 2 = Sx 2 x 1
Yi
X1i
X2i
Yi
X1i
1,3
3,5
2,8
3
3,3
4
3,7
21,6
0,3
1,5
0,7
1,1
1,2
2
2
8,8
4
9
6
7,5
8
7
8
49,5
1,69
12,25
7,84
9
10,89
16
13,69
71,36
0,09
2,25
0,49
1,21
1,44
4
4
13,48
yi 21,6
i=1
=
=
=
y
3,0857
N
7
=
=
=
x
1,2571
1
N
7
y2 =
x2 =
X1i
X1,2
2i
5,25
1,96
3,3
3,96
8
7,4
30,26
31,5
16,8
22,5
26,4
28
29,6
160
13,5
4,2
8,25
9,6
14
16
66,75
Tabla operaciones
i=1
x12 =
13,48
1,25712 = 0,3454
7
x2i
Yi
X5,2
2i
71,36
3,08572 = 0,6727
7
x1i
x2i 49,5
i=1
=
=
x
7,0714
2
N
i=1
Yi
X1i
0,39
yi
y =
x1i 8,8
i=1
X22i
16
81
36
56,25
64
49
64
366,25
i=1
x22 =
366,25
7,07142 = 2,3167
7
S yx =
yi x1i
i=1
y x1 =
30,26
(3,0867).(1,2571) = 0,4438
7
S yx =
yi x2i
i=1
y x2 =
160
(3,0867).(7,0714) = 1,0369
7
Sx 1 x=2
x1i x2i
i=1
x 1 x 2=
66,75
(1,2571).(7,0714) = 0,6462
7
0,345 0,6462
VC =
4
0,4438
2,3167
0,646
1,036 2
9
ryx
Rx = rx 1 y 1
ryx
2
rx1
ryx = rx
1 1
donde r yx = rx 2 y
2
r x
x
1
r
r
1
x
y
x
x
2
2
1
r =
yx
1
S yx1
y
x
=
1
0,443
8
0,672 0,345
7
4
=
0,9207
r =
yx
2
Syx2
y
x
=
2
= rx
1,036
9
= 0,8306
0,672 2,3167
7
r
x
S1
=
1
x x
1
0,646
= 0,7224
2
0,345 2,3167
4
0,9207 0,8306
1
0,9207
1
0,8306 0,7224 1
NOTA. En la regresin lineal mltiple surge el problema de que exista una
correlacin lineal simple perfecta entre dos (o ms variables) explicativas, ya
que esto implica que una (o ms) columna(s) de la matriz X de observaciones
son combinacin lineal de otra(s), con lo que el rango de esta matriz X se
reduce.
En un principio el rango de [X' X ] es p (nmero de variables explicativas), pero si
existe alguna
combinacin lineal entre las columnas de X, entonces el rango es menor que p,
con lo que el
determinante X' X = 0 , lo que impide calcular la matriz inversa [X' X ] 1 , y en
de
consecuencia el
vector de coeficientes = [X' queda indeterminado.
X ] X' Y
1
Existe multicolinealidad
Existe cuasimulticolinealidad o multicolinealidad imperfecta
2
d) Se requiere hallar el coeficiente de determinacin R2yx 2 =22 =
= 0,6899
entre (Y, X 2 ) :
ryx
0,8306
Es decir, el 68,99% de la varianza de los beneficios (Y) queda explicado por una
funcin lineal de las horas extras de los empleados (X2 )
e) Hay que determinar el plano de regresin de los beneficios (Y) sobre el gasto
en publicidad (X1 ) y las horas extras de los empleados (X2 )
=
Y
i
+ 1 X1i + 2 X2i
VC = S
Sy
x
S yx
0,672
2
7
= 0,4438
Sx 1 x
x1
x 1y
S x y Sx x 22
2
2
2
0,443
8
0,345
4
0,646
2
1,0369
0,
6462
2,316
cociente de
los adjuntos ,
yx1
(S
Syx
) entre el adjunto de 2 :
y
1 = VCyx 1
VCy
0,443
8
= ()
1,036
1
9
0,345
4
0,646
2
2 = VCyx 2
VCy
0,646
2
0,3581
=
2,316 =
7
0,9360
0,646 0,3826
2
2,316
7
=Y
X2
2
1 X1
0
0,443
8
= ()
1,036
2
9
0,345
4
0,646
2
0,345
4
0,0714
0,646 = 0,3826 = 0,1866
2
0,646
2
2,316
7
N0 + 1 X1i + 2 X2i = Yi
i=1
i=1
i=1
2
8,8 + 13,48 + 66,75 = 30,26
X +
X +
X X =X
0 1i 1
1i
2 1i
Y 1i i
0
1
2
2i
i=1
i=1
i=1
i=1
=
49,5 0 + 66,75 1 + 366,25
7
7
7
7
2
2
160
0 X 2i + 1 X1i X2i + 2 X2i = X2i Yi
con lo
cual,
i=1
i=1
i=1
i=1
en forma matricial,
7
8,8
8,8
13,4
8
66,7
49,5 5
49, 0 21,6
0,618 0,608 21,6
3,668
0
7
5 30,26
5
1
66,7
0,618
0,864
0,2412
5
1
8
1 = 30,26
=
1
366,25 2 160
0,128 160
0,2412
9
0,6085
X'X
644447
44448
0,5895
= 0,9360 Y = 0,5895 +
1
0,936 X
0,1866
+ 0,1866
1 X
2
X1i X2i
2
0,3
Y)
4
1,5
9
0,7
6
1,1 7,5
1,2
8
2
7
2
8
8,8 49,5
u = Y Y (Y Y)
1,6167
3,6729
2,3643
3,0186
3,2055
3,7677
3,9543
0,3167
0,1729
0,4357
0,0186
0,0945
0,2323
0,2543
3,1887
0,1716
0,0816
0,0073
0,0459
0,8359
0,3774
4,7086
2
u = (Y Y )
0,1003
0,0299
0,1898
0,0003
0,0089
0,0540
0,0647
0,4479
2
2,1580 SCT = (Y
Y) = 4,7086
i
i=1
0,3448
0,5204
7
0,0045 SCR = (Y Y ) 2 = 0,4479
1
i=1 1
0,0144
7
0,4651
Y) 2 = 4,2616
i
0,7545 SCE = (Y
i=1
4,2616
2
( Y Y )
SCE
2
R =
=
0,9051
i=1
i
i
SC
T
4,2616
72( Y Y
4,7086
i=1
SC
2
S = R
R
0,4479
=
=
0,112
n k 1
4
varianza residual
SCR n k 1
0,4479 / 4
=1
=1
= 0,8573
SCT n
4,7086 / 6
1
yx
VC yx1
VC y VCx 1 x 1
y
Sy
x
2
VC = Sx 1 y x 1
S x y Sx
2
2
x
VC yx
1
VC yy
0,443
8
=
1,036
9
=
2
9
Syx2
0,646 = 0,3581
2
2,316
7
0,345 4
0,646 2
0,646 2
2,316 =
VCx 1 x 1 0,6727
7
0,382 =
1,0369
6
1,036 2,316 =
9
7
0,48
33
VC yx 1
=
yx
.x
VC y VCx 1
y
0,358
= 0,833
1
(0,3826)(0,4833)
ryx
.x
ryx
rx
ryx 2 1
2
2
(1 ryx2 )(1 r
)
x1 2
1
1
Donde los rij son los elementos de la
matriz de
correlaciones simples Rx de la variable
explicativa
ryx
ryx
0,920 0,8306
7
1
2
= 0,9207
R = r
0,7224
1 r
1
x
x 1x 2
x 1y
rx y rx
0,7224
1
1
2 1
2
0,8306
ryx ryx
rx x
1
1
(1 r )(1 r
)
x1
Anlogamente, ryx
.x
2
yx2
=
2
0,9207 (0,8306)
=
(0,7224)
2
ryx ryx
rx x
2
= 0,833
0,8306 (0,9207)
=
(0,7224)
(1 ryx1 )(1 r
) 1 2x2
2
= 0,613
ti =
2
2
R
S .qi +1 , 1 +1
2
t
R (Y,1 X 2 ; X 2) = i
coeficiente de determinacin parcial
ti + n (k + 1)
se tena:
tgastos _ publi
=
=
SR2 .q i +1, 1 +1
0,936
(0,112)
(0,8648)
= 3,0075
extras) =
t2gasto _ publi
3,0072
= 0,6933
5
+ n 1)
(k +
2
3,0075 +
2
t
4
gasto _ publi
2
ryx
= R2 (Beneficios ,Gastos _ Publi;Horas
1
El coeficiente de correlacin
parcial:
ryx
1
Anlogamente,
thoras _ extras =
2
SR .q
i +1, 1 +1
0,186
6
= 1,5530
(0,112) (0,1289)
2
ryx
= R2 (Beneficios ,Horas extras;Gastos
2
.x
_ Publi) =
+ n (k +
1)
2
horas _ extras
2
1,553
= 0,37615
2
+
1,553
4
El coeficiente de correlacin
parcial:
ryx
x
yx
= 1 CV
2
C
y
2
R2 = yx
1
x
S yx
0,443
8
0,345
4
0,646
1,036
9
0,646 =
2
2,316
2
CV = 1
0,0245
ryx2 1 x = R = 1 2
(0,6727)
y
2
yy
(0,3826)
R =
2
=
r
yx 1
x
r2 + 2r 2r r
yx 1
yx 2 r
yx 1 yx 2
1
1 x1r 2
1r2
x 1x 2
matriz de varianzascovarianzas: VC =x
1
Sx 1 y
S x y Sx
2
2
yy
2y
0,672
7
CV = 0,443
8
1,036
r + r 2r r
yx 1
yx 2r
yx 1 yx 2
S2 yx 0,672
7
Sx1 x2 =
0,4438
2x 2 1,036
VC yy = 0,345
4
0,646
2
0,443 1,0369
8
0,345 0,6462
4
0,646 2,3167
2
0,646 = 0,3826
2
2,316
7
= 0,905 , o bien,
2
2
+
2. 0,9207. 0,8306. 0,7224
=
= 0,905
x
0,9207 0,8306
1 0,72242
Estimaciones
Pruebas de significacin
Las pruebas t y sus niveles crticos (ltimas dos columnas de la tabla) sirven
para contrastar la hiptesis nula de que un coeficiente de regresin vale 0 en
la poblacin. Niveles crticos (Sig) muy pequeos (generalmente menores que
0,05) indican que debemos rechazar la hiptesis nula.
Un coeficiente de cero indica ausencia de relacin lineal, de modo que los
coeficientes significativamente distintos de cero informan sobre qu variables
son relevantes en la ecuacin de regresin.
Observando el nivel crtico asociado a cada prueba t, las dos variables
utilizadas (Gastos_Publicidad, Horas_extras) tienen coeficientes
significativamente distintos de cero (en todas, Sig<0,05). Por tanto, las dos
variables independientes contribuyen significativamente a explicar lo que
ocurre con la variable dependiente (Beneficios).
R =
0,905
2
R =
0,905
coeficiente determinacin
mltiple coeficiente
determinacin mltiple
corregido
2 =
i
SCE = (Y
Y)
4,261
i=1
7
2
(Y Y ) =
0,448
En este caso,
SCR
1 1
=
i=1
7
SCT = (Y Y) 2 =
4,709
i=1
gl = k = 2
gl = n k 1 = 7 2 1 = 4
gl = n 1 = 7 1 = 6
2
( Y Y )
SCE
2
R =
=
0,905
SC
T
i=1
4,261
2( Yi Y
)
4,709
i=1
2
0,448
S = SC
=
=
R
R
n k 0,112
4
1
=1
0,857
F=
varianza residual
SCR n k 1
SCT n
1
SCE k
=1
0,448 / 4
4,709 / 6
4,261 / 2
=
SCR n k
1
19,023
0,448 / 4
F =
2
n k1 R
0,90
= 19,023
= 2 5
2
k
(1 0,905)
1 R
H0 : 1 = 2
Contraste de la Hiptesis
19,023 > 6,9443 = F0 ,05; 2 ,4
nula
=0
Se rechaza H0 si F F; k , (nk1)
Intervalos de confianza
Matriz de covarianzas
Muestra una matriz con las covarianzas y correlaciones existentes entre los
coeficientes de regresin parcial.
Descriptivos
Colinealidad
de
determinacin
mltiple
(1 R ) que resulta al regresar esa variable sobre
el resto
de variables
independientes.
Valores de tolerancia muy pequeos indican que esa variable puede ser
explicada por una combinacin lineal del resto de variables, lo que
significa que existe colinealidad.
Los factores de inflacin de la varianza (FIV) son los inversos de los niveles de
tolerancia. Reciben este nombre porque son utilizados en el clculo de las
varianzas de los coeficientes de regresin.
Cuanto mayor es el FIV de una variable, mayor es la varianza del
correspondiente coeficiente de regresin. De ah, que uno de los problemas de
la presencia de colinealidad (tolerancias pequeas, FIVs grandes) sea la
inestabilidad de las estimaciones de los coeficientes de regresin.
La siguiente tabla del Visor de SPSS muestra la solucin resultante de
aplicar un anlisis de componentes principales a la matriz estandarizada
no centrada de productos cruzados de las variables independientes:
Residuos: DurbinWatson
DW
si = 1
2(1 ) DW
si = 0
(ui ui1 )2
DW =
2
i=2
n
2
ui
i=1
DW
si = 1
Valores atpicos a ms de ... Con esta opcin, SPSS indica los valores que
producen un error grande, concretamente a ms de n veces la desviacin tpica
de la variable residuos. En este caso, si introducimos 2 o 3 desviaciones tpicas
no se obtiene ningn valor atpico (pudiera ocurrir que al poner 1,5 desviaciones
tpicas, s existiera).
2
poblacional de R
cambi
Los pronsticos menores que la media (con puntuacin tpica por debajo de
cero) estn ms concentrados que los pronsticos mayores que la media (con
puntuacin tpica mayor que cero).
Cuando un diagrama de dispersin delata la presencia de varianzas
heterogneas, puede utilizarse una transformacin de la variable dependiente
para resolver el problema (tal como una transformacin logartmica o una
transformacin raz cuadrada). No obstante, al utilizar una transformacin de la
variable dependiente, debe cuidarse el problema de interpretacin que aade el
cambio de escala.
El diagrama de dispersin de las variables (ZPRED, ZRESID) posee la utilidad
adicional de permitir detectar relaciones de tipo no lineal entre las variables.
Cuando la relacin es no lineal, el diagrama puede contener indicios sobre otro
tipo de funcin de ajuste (los residuos estandarizados podran en lugar de estar
homogneamente dispersos seguir un trazado curvilneo).
Normalidad
Este recuadro recoge tres medidas que expresan el grado en que cada caso se
aleja de los dems.
Mahalanobis. Mide el grado de distanciamiento de cada caso respecto de
los promedios del conjunto de variables independientes. En regresin simple,
esta distancia se obtiene elevando al cuadrado la puntuacin tpica de cada
caso en la variable independiente.
En regresin mltiple se obtiene multiplicando por (n 1) el valor de influencia
de cada caso.
Estadsticos de influencia
Valores pronosticados
estimacin o
variacin
residual
(Y Y
i ) puede contener dos fuentes de error:
1. media
La diferencia
entrecorrespondiente
el valor observado
la variable
poblacional
a X en
). dependiente Yi y la
0 (
Y/X
o Y ) y la media poblacional
0
correspondiente a
R difiere de cero) hay que marcar la opcin Cambio en R cuadrado del botn
[Estadsticos].
MTODOS DE SELECCIN DE
VARIABLES
Existen diferentes mtodos para
seleccionar las variables
independientes que debe incluir un
modelo de regresin, pero los que
mayor aceptacin son los mtodos de
seleccin por pasos (stepwise). Con
estos mtodos, se selecciona en primer
lugar la mejor variable (con algn
criterio estadstico); a continuacin, la
mejor de las restantes; y as
sucesivamente hasta que no queden
variables.
El resto de seleccin de variables son mtodos por pasos, esto es, mtodos
que van incorporando o eliminando variables paso a paso dependiendo que
stas cumplan o no los criterios de seleccin:
Hacia delante: Las variables se incorporan al modelo de regresin una a una.
En el primer paso se selecciona la variable independiente, que adems de
superar los criterios de entrada, ms alto correlaciona (positiva o
negativamente) con la dependiente.
En los siguientes pasos se utiliza como criterio de seleccin el coeficiente de
correlacin parcial:
<< Van siendo seleccionadas una a una las variables que, adems de superar
los criterios de entrada, poseen el coeficiente de correlacin ms alto en valor
absoluto (la relacin se parcializa controlando el efecto de las variables
independientes previamente seleccionadas).
La seleccin de variables se detiene cuando no quedan variables que superen
el criterio de entrada (utilizar como criterio de entrada el tamao, en valor
absoluto, del coeficiente de correlacin parcial, es equivalente a seleccionar la
variable con menor probabilidad de F o mayor valor de F) >>.