Beruflich Dokumente
Kultur Dokumente
ANLISIS DE REGRESIN.
Examen
1
1
Prueba 1
ID 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
Ejemplo
a) Encuentre el estudiante nmero 19 en el grfico.
b) Suponga que otro estudiante tuvo un 5,0 en la primera prueba y un 5,5 en la prueba final
acumulativa o Examen. Agregue este punto en el grfico.
Pgina 2 de 43
Al igual que cuando estudiamos los histogramas, tallos y hojas y otros grficos, ahora nos va
interesar describir la forma del grfico. Especficamente en este caso particular de grficos de
dispersin, nos va a interesar la direccin, forma y grado de asociacin entre dos variables
cuantitativas. Por direccin, diremos que dos variables estn asociadas positivamente cuando a
mayor valor de una variable el valor de la otra variable tambin aumenta, como se muestra en la
figura A. Dos variables estarn negativamente asociadas cuando a mayor valor de una variable el
valor de la otra variable disminuye, como se muestra en la figura B.
La forma de una asociacin puede ser adems lineal, curva, cuadrtica, estacional o cclica, o
quizs no tenga una forma definida. En la figura A podemos decir que la relacin es lineal. En
cambio en las figuras B y D parece no lineal. Por ltimo la figura C muestra que no hay
asociacin.
Por el grado de asociacin entendemos cun cerca estn los datos de una forma dada. Por
ejemplo, en la figura B se ve que existe un alto grado de asociacin no lineal entre los datos. En
este punto debemos tener cuidado, porque cambios de escala pueden cambiar la figura y nos
pueden llevar a conclusiones errneas.
Ms adelante discutiremos sobre una medida de
asociacin llamada el coeficiente de correlacin.
Por ltimo, al mirar un grfico de dispersin nos van a interesar puntos que aparecen lejos o
desviados del patrn general del grfico. En la figura A, el punto (21, 39) est lejos del resto de
los puntos, sin embargo parece seguir el patrn general del grfico.
Como resumen de las figuras tenemos lo siguiente:
Figura
Figura
Figura
Figura
100
90
80
70
60
50
40
10
20
30
40
50
30
10
20
30
40
50
40
30
10
20
30
40
50
100
90
80
70
60
50
40
30
10
20
30
40
50
Pgina 3 de 43
Ejemplo
Interprete el grfico de las notas anterior.
Correlacin: Cun fuerte es la relacin lineal?
Definicin:
El coeficiente de correlacin muestral r mide el grado de asociacin lineal entre dos variables
cuantitativas. Describe la direccin de la asociacin lineal e indica cun cerca estn los puntos a
una lnea recta en el diagrama de dispersin.
(1 r +1) .
x
x
x
x
x
x
r 0,2
x
x
x
r 0,8
r =0
Pgina 4 de 43
Ejemplo
Asigne un posible valor de r para cada grfico:
Graph A: ___________
Graph B: ___________
Graph C: ___________
Graph D: ___________
r=0
r = +1
r = -1
r = 0,6
r = -0,2
r =
1
(n 1)
x x y y
s X sY
r = -0,8
r = 0,1
Pgina 5 de 43
Ejemplo
Correlacin entre Test 1 y Test 2:
20
Test 2
9
13
14
15
19
18
16
Test 2
Test 1
8
10
12
14
16
14
12
10
8
8
10
12
Test 1
En SPSS
Analizar > Correlaciones > Bivariadas.
Correlaciones
Test 1
Test 1
Test 2
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
1
5
.965**
.008
5
Test 2
.965**
.008
5
1
5
14
16
Pgina 6 de 43
Ejemplo
La Tabla adjunta presenta 4 bases de datos preparadas por el estadstico Frank Ascombe*
x 10
8
y1 8.04 6.95
13
7.58
9
11
14
6
4
12
7
5
8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68
x 10
8
y2 9.14 8.14
13
8.74
9
11
14
6
4
8.77 9.26 8.1 6.13 3.1
12
7
5
9.13 7.26 4.74
x 10
8
13
9
11
14
6
4
12
7
5
y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73
x4 8
8
y4 6.58 5.76
8
7.71
8
8
8
8
8
8
8
19
8.84 8.47 7.04 5.25 5.56 7.91 6.89 12.5
En la salida de SPSS adjunta, encuentre los coeficientes de correlacin para los pares de variables
preparadas por Ascombe. Cules son sus conclusiones?
Correlaciones
X
X
Y1
Y2
Y3
X4
Y4
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
1
.
11
.816**
.002
11
.816**
.002
11
.816**
.002
11
-.400
.223
11
.003
.993
11
Y1
.816**
.002
11
1
.
11
.750**
.008
11
.469
.146
11
-.297
.375
11
.065
.849
11
Y2
.816**
.002
11
.750**
.008
11
1
.
11
.588
.057
11
-.451
.164
11
-.014
.966
11
Y3
.816**
.002
11
.469
.146
11
.588
.057
11
1
.
11
-.289
.389
11
.023
.947
11
X4
-.400
.223
11
-.297
.375
11
-.451
.164
11
-.289
.389
11
1
.
11
.817**
.002
11
Anscombe, F. (1973) "Graphs in statistical analysis", The American Statistician, 27: 17-21.
Y4
.003
.993
11
.065
.849
11
-.014
.966
11
.023
.947
11
.817**
.002
11
1
.
11
11
10
10
Y2
Y1
Pgina 7 de 43
4
2
10
12
14
3
2
16
14
12
12
10
10
Y4
Y3
14
10
12
14
16
10
12
14
16
18
20
10
12
14
16
4
6
X4
Pgina 8 de 43
Regresin Lineal Simple.
Como ya hemos visto muchos estudios son diseados para investigar la asociacin entre dos o
ms variables. Muchas veces intentamos relacionar una variable explicativa con una variable
respuesta. Los datos que se usan para estudiar la relacin entre dos variables se llaman datos
bivariados. Datos bivariados se obtienen cuando medimos ambas variables en el mismo
individuo. Suponga que est interesado en estudiar la relacin entre las notas de la primera
prueba y las notas finales. Entonces las notas en la primera prueba corresponderan a la variable
explicativa o independiente X y las notas finales sera la variable respuesta o dependiente Y.
Estas dos variables son de tipo cuantitativo.Si el grfico de dispersin nos muestra una asociacin
lineal entre dos variables de inters, entonces buscaremos una lnea recta que describa la
relacin, la llamaremos recta de regresin.
Un poco de historia.
El nombre de regresin deriva de los estudios de herencia de Francis Galton, quien en 1886* publica
la ley de la "regresin universal". En sus estudios Galton encontr que haba una relacin directa
entre la estatura de padres e hijos. Sin embargo, el promedio de estatura de hijos de padres muy
altos era inferior al de sus padres y, el de hijos de padres muy bajos, era superior al de los padres,
regresando a una media poblacional. De ah viene el nombre de regresin.
Ejemplo
Se seleccion a 7 alumnas de la carrera de Psicologa del ao 2003 que nos dieron sus datos de
estatura (en cms) y de peso (en kilos).
Estatura
Peso
155
48
157
48
159
51
162
55
165
53
168
55
169
57
Pgina 9 de 43
58
56
peso
54
52
50
48
154
156
158
160
162
164
estatura
166
168
170
b=0
b negativo
b positivo
a
a
b=0
a
1
Si queremos relacionar al peso con la estatura entonces la lnea recta ser: peso = a + b estatura .
La recta de regresin que resume el peso con la estatura es: peso = 45,276 + 0,603 estatura .
Pgina 10 de 43
58
56
peso
54
52
50
48
154
156
158
160
162
164
estatura
166
168
170
La figura muestra que la lnea ajusta ms o menos bien a los datos. La pendiente b = 0,603 nos
dice que el peso de este grupo aumenta en 0,603 kilos por cada centmetro que aumente de
estatura. La pendiente b es la tasa de cambio en la respuesta Y cuando X cambia. La pendiente
de la recta de regresin es una descripcin numrica importante de la relacin entre dos
variables. El intercepto es a = 45,276 , que sera el peso si la estatura fuera cero. En este caso,
el cero de estatura no tiene sentido, as es que tomaremos al intercepto slo como parte de la
ecuacin.
Regresin de mnimos cuadrados
Necesitamos una forma objetiva de obtener una recta y que esta pase por la mayora de los
puntos.
Definicin:
La recta de regresin de mnimos cuadrados, dada por Y = a + bX , es la recta que hace mnima
la suma de los cuadrados de las desviaciones verticales de los datos a la recta, donde
b=
(x x )(y y )
(x x )
i
a = y bx
sY
donde s y es la desviacin estndar de las
sX
El mtodo de mnimos cuadrados fue publicado por el matemtico francs Adrien Legendre (1752-1833) en 1805. Este
mtodo es una de las herramientas estadsticas ms usadas.
Pgina 11 de 43
Ejemplo
Test 1 vs Test 2.
Test 2
9
13
14
15
19
20
18
16
Test 2
Test 1
8
10
12
14
16
14
12
10
8
8
10
12
14
16
Test 1
estos
valores
podemos
construir
la
recta
de
regresin
de
mnimos
cuadrados:
Y = 0,8 + 1,1X .
Interpretacin de los coeficientes de regresin:
Pendiente: b = 1,1 ==> cada punto adicional en el test 1, significa un aumento de 1,1 puntos
en el test 2 en promedio.
Intercepto: a = 0,8 ==> Si asignamos el valor cero puntos al test 1, el test 2 tendra un valor
de 0,8 puntos.
Si usamos la recta de regresin, podemos predecir que un estudiante que tiene 15 puntos en el
test 1 tendr Y = 0,8 + 1,1(15) = 17,3 puntos en el test 2.
Definicin:
Un residuo es la diferencia entre la respuesta observada, Y, y la respuesta que predice la recta
de regresin, Y . Cada par de observaciones (X i , Y i ) , es decir, cada punto en el grfico de
dispersin, genera un residuo:
Pgina 12 de 43
Prediccin:
Podemos usar la recta de regresin para prediccin substituyendo el valor de X en la ecuacin y
calculando el valor Y resultante. En el ejemplo de las estaturas:
Y = 45,276 + 0,603 X .
La exactitud de las predicciones de la recta de regresin depende de que tan dispersos estn las
observaciones alrededor de la recta (ajuste).
Extrapolacin:
Extrapolacin es el uso de la recta de regresin para predecir fuera del rango de valores de la
variable explicativa X. Este tipo de predicciones son a menudo poco precisas.
Por ejemplo los datos de peso y estatura fueron tomados de un grupo de alumnas de Psicologa
del ao 2003 que tenan entre 18 y 23 aos. Cunto debe haber pesado una persona si al nacer
midi 45 centmetros?
"No deje que los clculos invadan su sentido comn". (Moore, 1989).
Tarea: Calcular los residuos de la regresin, Cunto vale la suma de los residuos?
Los residuos muestran cun lejos estn los datos de la lnea de regresin ajustada, examinar los
residuos nos ayuda a saber qu tan bien describe la recta a los datos. Los residuos que se
generan a partir del mtodo de mnimos cuadrados tienen una propiedad bsica: el promedio de
los residuos es siempre cero.
Ejemplo
Volvamos al ejercicio con las estaturas y pesos de 7 alumnas. La recta de regresin la podemos
calcular usando el SPSS con la salida:
En SPSS
Analizar > Regresin > Lineal.
Coeficientes(a)
Coeficientes no
Coeficientes
estandarizados
estandarizados
Modelo
(Constante)
estatura
B
-45.276
.603
Error tp.
18.496
.114
Sig.
Beta
.921
-2.448
5.285
.058
.003
Pgina 13 de 43
lo tanto una lnea recta no es buena descripcin de la asociacin. La figura C muestra residuos en
forma de embudo, donde la variacin de Y alrededor de X aumenta cuando X aumenta.
Figura A:
Figura B:
Figura C:
Ejemplo
Los estudiantes de una clase de Fsica estn estudiando la cada libre para determinar la relacin
entre la distancia desde que un objeto cae y el tiempo que demora en caer. Se muestra el grfico
de dispersin de los datos obtenidos, y el grfico de residuos. Basado en estos grficos, Le
parece apropiado un modelo de regresin lineal?
Pgina 14 de 43
Y
1
2
1.5
2.5
3
3
3.5
4
4
5
6
6
6
Punto A
X
1
1
2
2.5
3
3.5
4
4
4.5
5
5
5.5
2
Coeficientesa
Modelo
1
(Constante)
x
Coeficientes no
estandarizados
B
Error tp.
.958
.847
.815
.234
Coeficientes
estandarizad
os
Beta
.724
t
1.131
3.482
Sig.
.282
.005
Sig.
.932
.000
a. Variable dependiente: y
Coeficientesa
Modelo
1
(Constante)
x
Coeficientes no
estandarizados
B
Error tp.
.036
.415
1.002
.112
a. Variable dependiente: y
Coeficientes
estandarizad
os
Beta
.943
.087
8.973
Pgina 15 de 43
7
Punto A
3
Recta con A
Y = 0,958+0,815X
Recta sin A
Y = 0,036+1,002X
0
0
Y
3
2
3
4
1
2
1
2
3
2
1
7
Punto B
X
1
1.5
2
2
2.5
2.5
3
3
3
3.5
4
7
Pgina 16 de 43
Coeficientesa
Modelo
1
Coeficientes no
estandarizados
B
Error tp.
.886
.955
.582
.292
(Constante)
x
Coeficientes
estandarizad
os
Beta
.533
.928
1.991
Sig.
.375
.074
t
4.373
-1.885
Sig.
.002
.092
a. Variable dependiente: y
Coeficientesa
Modelo
1
Coeficientes no
estandarizados
B
Error tp.
3.694
.845
-.594
.315
(Constante)
x
Coeficientes
estandarizad
os
Beta
-.532
a. Variable dependiente: y
8
Punto B
Recta con B
Y=0,886+0,882X
4
Recta sin B
Y=3,694-0,594X
0
0
4
X
Pgina 17 de 43
Sin embargo, el punto B es muy influyente ya que la sacarlo del anlisis la lnea recta cambia
totalmente.
El Punto B es influyente, pero no extremo.
Notas:
a)
La asociacin entre una variable explicativa X y una variable respuesta Y, aunque sea muy
fuerte, no es por s sola evidencia de que los cambios en X causan cambios en Y.
b)
Un coeficiente de correlacin es el resumen de la relacin presente en un grfico de
dispersin. Conviene, pues, asegurarse mirando este grfico que el coeficiente es un buen
resumen del mismo. Tratar de interpretar un coeficiente de correlacin sin haber visto
previamente el grfico de las variables puede ser muy peligroso (Pea, Romo, p.129).
c)
Como hemos visto el coeficiente de correlacin es un resumen del grfico de dispersin
entre dos variables. La recta de regresin es otra manera de resumir esta informacin, y su
parmetro fundamental, la pendiente, est relacionado con el coeficiente de correlacin por la
ecuacin: b = r
sY
.
sX
Pgina 18 de 43
yi = + xi + i , donde:
yi
(i = 1, 2,K , n)
es
cero.
- es la pendiente asociada a la variable explicatoria
respuesta
i son
estndar : i ~ N (0, )
Las desviaciones
y = E (Y )
y = + x .
Los parmetros del modelo son:
variabilidad.
El modelo estadstico de regresin lineal simple asume que para cada valor de X, los valores de la
respuesta Y son normales con media (que depende de X) y desviacin estndar que no
depende de X. Esta desviacin estndar es la desviacin estndar de todos los valores de Y en
la poblacin para un mismo valor de X.
Estos supuestos se pueden resumir como: Para cada X, Y ~ N( y , ) donde
Pgina 19 de 43
y = a + bx
= a
=b
El estimador de la pendiente es:
El estimador de la desviacin estndar est dado por:
(y
y i )
n2
n2
constante E(Y) =
.
E(Y) =
Pgina 20 de 43
Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:
H0 : = 0
H1 : 0
Existen hiptesis de una cola, donde H1 :
bilateral.
Para docimar la hiptesis podemos usar el test t de la forma:
t =
EE(b) =
(x
x)
t=
Bajo
H0
b
~ t ( n 2)
EE (b)
donde t n 2 ;1 2
b t ( n 2 ;1 2 )[EE(b)]
es el percentil apropiado de la distribucin t de Student con (n-2)
grados de libertad.
Suponga que se rechaza al 5% la hiptesis nula del test t:
H0 : = 0
H1 : 0
El intervalo del 95% de confianza para la verdadera pendiente contiene el cero?
Pgina 21 de 43
Test 2
9
13
14
15
19
Analizar > Regresin > Lineal > En Estadsticos > Seleccionar Intervalos de Confianza.
Resumen del modelo
Modelo
1
R
R cuadrado
,965a
,931
R cuadrado
corregida
,908
Error tp. de la
estimacin
1,095
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
48,400
3,600
52,000
gl
1
3
4
Media
cuadrtica
48,400
1,200
F
40,333
Sig.
,008a
Coeficientes a
Coeficientes no
estandarizados
Modelo
1
(Constante)
Test 1
B
,800
1,100
Error tp.
2,135
,173
Coeficientes
estandarizad
os
Beta
,965
t
,375
6,351
Sig.
,733
,008
Pgina 22 de 43
a) Normalidad.
Para verificar normalidad haga el histograma de los residuos, este debera aparecer como
normal sin valores extremos. En el caso de tener pocas observaciones puede hacer un grfico
de tallo y hoja y verificar que no haya observaciones extremas.
Pgina 23 de 43
Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) est
relacionada con el tiempo de reaccin a un estmulo en segundos.
Droga (ml)
Tiempo (segs)
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9
Mnimo
Mximo
Media
Desv. tp.
12
,80
4,90
2,4042
1,21925
12
1,00
6,50
3,7500
1,80278
12
Correlacin de Pearson
N
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
N
Dosis de
Droga (ml)
,939(**)
,000
12
12
,939(**)
,000
12
12
Pgina 24 de 43
Grficos > Generador de Grficos > Elija Dispersin/Puntos > Doble clic en el grfico, en ventana de
Editor de Grficos > Opciones > Elementos > Lnea de Ajuste Total > Lineal.
Grfico de dispersin del tiempo de reaccin a estmulo versus dosis de droga:
5,00
4,00
3,00
2,00
1,00
Sq r lineal = 0,882
0,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
Linealidad?
Analizar > Regresin > Lineal
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
1
Coeficientes
estandarizados
Error tp.
(Constante)
,022
,303
,635
,073
Beta
t
,939
Sig.
,072
,944
8,663
,000
Pgina 25 de 43
ANOVAb
Modelo
1
Suma de
cuadrados
14.430
1.923
16.352
Regresin
Residual
Total
Media
cuadrtica
14.430
.192
gl
1
10
11
F
75.048
Sig.
.000a
R
.939a
R cuadrado
.882
R cuadrado
corregida
.871
Error tp. de la
estimacin
.43849
Coeficiente de determinacin?
Analizar > Regresin > Lineal > Guardar > en Residuos seleccione No Tipificados. Luego, Grficos
> Generador de Grficos > seleccione Dispersin/Puntos > doble clic en el grfico, en Editor de Grficos >
Opciones > Lnea de Referencia del eje Y.
Grfico de residuos de la regresin versus dosis de droga:
Unstandardized Residual
0,6
0,3
0,0
-0,3
-0,6
1
Homocedasticidad?
Pgina 26 de 43
Pruebas de normalidad
Unstandardized Residual
Kolmogorov-Smirnov a
Estadstico
gl
Sig.
,162
12
,200*
Shapiro-Wilk
Estadstico
gl
,933
12
Sig.
,413
Pgina 27 de 43
1
2
:
n
x1p y1
x2p y2
xnp yn
yi = 0 + 1 xi1 + 2 xi 2 + L + p xip + i
donde:
-
yi
0 es
(i = 1, 2,K , n)
y cuando
explicativas
xij
son cero.
y por
xj
y representan el cambio en la
xj
(manteniendo
i son
estndar : i ~ N (0, )
Las desviaciones
la
Si suponemos que la respuesta media est relacionada con los parmetros a travs de la
ecuacin: y = 0 + 1 x 1 + 2 x 2 + L + p x p , esto quiere decir que podemos estimar la
media de la variable respuesta a travs de la estimacin de los parmetros de regresin. Si
Pgina 28 de 43
esta ecuacin se ajusta a la realidad entonces tenemos una forma de describir cmo la media de
la variable respuesta y vara con las variables explicatorias x1, x2 , L , x p .
0 , 1 , L , p
i = b0 + b1 x i1 + b2 x i 2 + L + bp x ip
y
El i-simo residuo es la diferencia entre la respuesta observada y la predicha:
estimado
residuo = y observado y
i
El i-simo residuo = e i = y i y
e i = y i b0 + b1 x i1 + b2 x i 2 + L + b p x ip
(y
i
y
)2 .
La frmula de los estimadores de mnimos cuadrados para regresin mltiple se complica porque
necesitamos notacin matricial, sin embargo estamos a salvo si entendemos el concepto y
dejaremos a SPSS hacer los clculos.
j :
H0 : j = 0
H1 : j 0
se usa el test t:
Pgina 29 de 43
t =
bj
EE(b j )
~ t(n p 1)
Notas:
- Vamos a dejar a SPSS el clculo del error estndar de bj .
-
j :
donde t ( n p 1 ;1 2
b j t ( n p 1;1 2 ) EE (b j )
gl
SC
Fuente de variacin Grados de libertad Suma de Cuadrados
Modelo
SCMod =
(y y )
n p 1
SC Re s =
(y
Residuo
n 1
i )2
y
i =1
Total
SCT =
(y
CM
Cuadrados
Medios
SCMod
p
SC Re s
n p 1
y)
i =1
La tabla ANOVA es similar a la de regresin simple. Los grados de libertad del modelo son ahora p
en vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de slo una. Las
sumas de cuadrados representan las fuentes de variacin. Recordemos que la suma de cuadrados
total es igual a la suma de los cuadrados del modelo de regresin ms la suma de los cuadrados
del residuo:
SCT = SCMod + SCRes
Pgina 30 de 43
Estadstico F.
La razn entre el cuadrado medio del modelo y el residuo F = MCMod MC Re s , permite estimar si
la relacin entre las variables explicatorias y la respuesta es significativa. La hiptesis que docima
el test F es:
H0 : 1 = 2 = L = p = 0
H1 : al menos un j no es cero
La hiptesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hiptesis alternativa dice que al menos una de las variables explicatorias est
linealmente relacionada con la respuesta. Como en regresin simple, valores grandes de F nos
dan evidencia en contra de hiptesis nula. Cuando H0 es verdadera, el estadstico F tiene
distribucin F de Fisher con (p, n-p-1) grados de libertad. Los grados de libertad estn asociados
a los grados de libertad del modelo y del residuo en la tabla ANOVA.
Recordemos que en regresin lineal simple el test F de la tabla ANOVA es equivalente al test t
bilateral para la hiptesis de que la pendiente es cero. Ahora, el test F de regresin mltiple docima
la hiptesis de que todos los coeficientes de regresin (con excepcin del intercepto) son cero,
hiptesis que no es de mucho inters. En el problema de regresin mltiple interesan ms las
hiptesis individuales para cada parmetro asociado a cada variable explicatoria.
En regresin lineal simple vimos que el cuadrado del coeficiente de correlacin era r 2 =
SC Mod
=
=
SC Total
(y y )
(y y )
2
2
y i .
Ra2 = 1
n 1
1 R2
n (p + 1)
Pgina 31 de 43
Ejemplo:
Nos interesa analizar la relacin entre las notas de Enseanza Media y la Prueba de Aptitud
Acadmica (PAA). Se tienen datos de la PAA del 2001 de la regin del Maule. Queremos analizar
si podemos explicar las notas de enseanza media (NEM) con las pruebas de Matemtica (PAM),
Verbal (PAV) e Historia y Geografa (PHG).
y i = 0 + 1 xi 1 + 2 x i 2 + 3 x i 3 + 4 xi 4 + i
En forma abreviada:
Analizar > Regresin > Lineal > En Estadsticos > Seleccionar Intervalos de Confianza.
Resumen del modelo
Modelo
1
R
.578a
R cuadrado
.334
R cuadrado
corregida
.334
Error tp. de la
estimacin
81.25283
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
16400316
32660205
49060521
gl
3
4947
4950
Media
cuadrtica
5466772.0
6602.023
F
828.045
Sig.
.000a
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa
B
312.088
.153
Error tp.
5.656
.019
.275
.096
Coeficientes
estandarizad
os
Beta
.176
t
55.179
7.993
Sig.
.000
.000
.015
.349
18.133
.000
.245
.304
.019
.098
5.049
.000
.059
.133
Pgina 32 de 43
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Prueba
Prueba
NEM Notas
Prueba
Aptitud
Historia y
Ens Media
Aptitud Verbal
Matemtica
Geografa
1
.526**
.556**
.485**
.
.000
.000
.000
.526**
1
.783**
.789**
.000
.
.000
.000
.556**
.783**
1
.711**
.000
.000
.
.000
.485**
.789**
.711**
1
.000
.000
.000
.
Pgina 33 de 43
Grficos > Cuadros de dilogo antiguos > Dispersin/Puntos > seleccione Dispersin Matricial > Definir.
2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos
deben ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar
. Para verificar normalidad grafique el histograma de los residuos, este debera aparecer
como normal sin valores extremos. Adems debemos revisar los residuos individuales para
detectar valores extremos y/o influyentes. Por ltimo debemos detectar si la distribucin de
los residuos es al azar y no hay formas que muestren un problema en el ajuste, o que la
varianza no sea constante.
Histograma de residuos
1.00
500
400
.75
Frecuencia
200
100
Media = 0.00
N = 4951.00
00
3.
50
2.
00
2.
50
1.
00
1.
0
.5
00
0.
0
-.5
0
.0
-1
0
.5
-1
0
.0
-2
0
.5
-2
0
.0
-3
300
.50
.25
0.00
0.00
.25
.50
.75
1.00
Pgina 34 de 43
Diagnsticos por casoa
Nmero de caso
91
627
683
Residuo tip.
3.005
3.066
-3.035
NEM Notas
Ens Media
760
781
373
Valor
pronosticado
515.8015
531.8782
619.6385
Residuo bruto
244.1985
249.1218
-246.6385
Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o
2
1
0
-1
-2
-3
-4
400
500
600
700
800
Ejemplo:
Usando la salida de SPSS para la regresin mltiple sin la Prueba de Historia y Geografa, analice
como cambia el R2.
Resumen del modelob
Modelo
1
R
.575a
R cuadrado
.331
R cuadrado
corregida
.331
Error tp. de la
estimacin
81.439
Colinealidad.
Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de
colinealidad. La colinealidad ocurre cuando dos o ms variables explicativas se relacionan entre s,
hasta el punto de que comunican esencialmente la misma informacin sobre la variacin
observada en Y. Un sntoma de la existencia de colinealidad es la inestabilidad de los coeficientes
calculados y sus errores estndares. En particular los errores estndares a menudo se tornan muy
grandes; esto implica que hay un alto grado de variabilidad de muestreo en los coeficientes
calculados.
Pgina 35 de 43
Ejemplo:
yi = 0 + 1 xi1 + 2 xi 2 + 3 xi 3 + i
En forma abreviada:
CO = Alquitrn + Nicotina + Peso
El modelo se ajust a los 25 puntos de datos y se adjunta las salidas de SPSS:
Resumen del modelob
Modelo
1
R
.958a
R cuadrado
.919
R cuadrado
corregida
.907
Error tp. de la
estimacin
1.4457
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Alquitrn
Nicotina
Peso
B
3.202
.963
-2.632
-.130
Coeficientes
estandarizad
os
Error tp.
3.462
.242
3.901
3.885
Beta
1.151
-.197
-.002
t
.925
3.974
-.675
-.034
Sig.
.365
.001
.507
.974
Pgina 36 de 43
CO
Alquitrn
Nicotina
Peso
Correlacionesa
CO
CO
Alquitrn
Nicotina
Peso
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
1
.
.957**
.000
.926**
.000
.464*
.019
Alquitrn
Nicotina
.957**
.926**
.000
.000
1
.977**
.
.000
.977**
1
.000
.
.491*
.500*
.013
.011
Peso
.464*
.019
.491*
.013
.500*
.011
1
.
R
R cuadrado
.958a
.917
R cuadrado
corregida
.909
Error tp. de la
estimacin
1.4277
Pgina 37 de 43
Coeficientesa
Coeficientes
estandarizad
os
Coeficientes no
estandarizados
Modelo
1
(Constante)
Alquitrn
Peso
B
3.114
.804
-.423
Error tp.
3.416
.059
3.813
Beta
t
.912
13.622
-.111
.961
-.008
Sig.
.372
.000
.913
R
R cuadrado
.926a
.857
R cuadrado
corregida
.844
Error tp. de la
estimacin
1.8695
Coeficientesa
Coeficientes
estandarizad
os
Coeficientes no
estandarizados
Modelo
1
(Constante)
Nicotina
Peso
B
1.614
12.388
.059
Error tp.
4.447
1.245
5.024
Beta
.925
.001
t
.363
9.952
.012
Sig.
.720
.000
.991
Modelo: CO = Alquitrn
Resumen del modelo
Modelo
1
R
.957a
R cuadrado
.917
R cuadrado
corregida
.913
Error tp. de la
estimacin
1.3967
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Alquitrn
B
2.743
.801
Coeficientes
estandarizad
os
Error tp.
.675
.050
Beta
.957
t
4.063
15.918
Sig.
.000
.000
Pgina 38 de 43
Tabla resumen:
Modelos
para CO
Alquitrn
Nicotina
Peso
R2
Coeficiente
Intervalo de confianza
90,7%
0,963
-2,632
-0,130
(0,459; 1,466)
(-10,743; 5,480)
(-8,210; 7,950)
Alquitrn
Peso
90,9%
0,804
-0,423
(0,682; 0,927)
(-8,331; 7,485)
Nicotina
Peso
84,4%
12,388
0,059
(9,807; 14,970)
(-10,360; 10,478)
Alquitrn
91,3%
0,801
(0,697; 0,905)
Residuos
Seleccin de modelos.
Como regla general, normalmente es preferible incluir en un modelo de regresin slo las
variables explicativas que ayudan a predecir o explicar la variabilidad de la respuesta Y, a este
modelo lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas
potenciales, cmo decidir cules deben quedar en el modelo y cules dejar fuera? Por lo general,
la decisin se toma en base a una combinacin de consideraciones estadsticas y no estadsticas.
Es fundamental identificar o conocer cules variables podran ser importantes. Sin embargo, para
estudiar cabalmente el efecto de cada una de estas variables explicativas, sera necesario llevar a
cabo anlisis por separado de cada posible combinacin de variables. Los modelos resultantes
podran evaluarse enseguida de acuerdo con algn criterio estadstico. Este es el mtodo ms
completo, pero tambin el que ocupa ms tiempo. Si tenemos una gran cantidad de variables
explicativas el procedimiento podra no ser factible. Existen otros mtodos paso a paso (stepwise
en ingls) que son tiles, pero que hay que usarlos con cautela porque los resultados pudieran ser
dependientes de los datos (la muestra) ms que basados en el conocimiento del problema que
estamos estudiando. La recomendacin es buscar un equilibrio entre el uso de mtodos
computacionales, el conocimiento que tenemos de las variables y los resultados de la muestra.
Pgina 39 de 43
Variables indicadoras.
Las variables explicativas que hemos considerado hasta este momento se midieron en escala
cuantitativa. Sin embargo, el anlisis de regresin puede generalizarse para incluir, asimismo,
variables explicativas cualitativas.
Supongamos que sexo es una variable explicativa en un modelo de regresin mltiple.
Normalmente en las bases de datos se codifica con 1 a los hombres y 2 a las mujeres. Las
variables cualitativas deben ser ingresadas al modelo en SPSS por medio de variable indicadoras.
Las variables indicadoras (dummy en ingls) son variables codificadas como 1 y 0.
1 hom bres
0 mujeres
Datos > Recodificar > En distintas variables > valores antiguos y nuevos > 1 1 > 2 0
Ejemplo:
Queremos encontrar un modelo que explique el puntaje promedio en la PSU. Entre las
variables independientes considere las notas en la enseanza media (NEM) y el sexo. Para
esto usaremos los datos de la Prueba de Seleccin Universitaria (PSU) rendida el ao 2004 en la
regin del Maule. Usaremos los egresados en el ao 2003, es decir los que rinden por primera vez
la PSU.
Pgina 40 de 43
Variable
Promedio Desviacin estndar Mediana Mnimo Mximo
Prom. PSU
478,50
219
826
486,35
104,24
NEM
580,00
270
826
586,91
99,45
Sexo
Masculino
Frecuencia
Porcentaje
2106
46.1
Femenino
2460
53.9
Total
4566
100.0
Pgina 41 de 43
Descripcin grfica:
900
800
Promedio PSU
700
600
500
400
300
200
Masculino
Femenino
Sexo
Estadsticos de grupo
Sexo
Masculino
Femenino
Promedio PSU
N
2106
2460
Media
495.30
478.69
Desviacin
tp.
106.388
101.758
Error tp. de
la media
2.318
2.052
3. Bsqueda del mejor modelo (R2 y test de hiptesis de los coeficientes de regresin).
Resumen del modelo
Modelo
1
R
.610a
R cuadrado
.372
R cuadrado
corregida
.372
Error tp. de la
estimacin
82.611
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
NEM: Notas en
Enseanza Media
Sexo
B
93.167
Error tp.
7.660
.642
.012
36.158
2.482
Coeficientes
estandarizad
os
Beta
t
12.163
Sig.
.000
.612
51.565
.000
.617
.666
.173
14.570
.000
31.293
41.023
Pgina 42 de 43
Pgina 43 de 43
7. Anlisis de modelo final
Podemos interpretar los coeficientes de regresin como siempre:
-
intercepto: si las notas fueran cero en la mujeres (sexo=0), la PSU sera de 93,167
puntos.
Pendiente NEM: por cada punto de notas de enseanza media aumenta la PSU promedio
en 0,642 puntos.
Pendiente sexo: los hombres tienen el promedio 36,158 puntos ms que las mujeres en la
PSU