Beruflich Dokumente
Kultur Dokumente
FIMCP-ESPOL
Estadstica Gerencial
Guayaquil, Ecuador
Agosto, 2016
Objetivos de Aprendizaje
En este captulo aprender:
Usar el anlisis de regresin para predecir el valor de
una variable dependiente basado en una variable
independiente
Conocer el significado de los coeficientes b0 y b1
Evluar los supuestos del anlisis de regression y sabra
qu hacer si los supuestos no son respetados
Har inferencias sobre el coeficiente de correlacin
Estimar el valor promedio y predecir valores
individuales
Correlacin vs Regresin
Un diagram de dispersion puede ser utilizado para
Anlisis de Regresin
Anlisis de Regresin es utilizado para:
Predecir el valor de una variable dependiente
lineal
Cambios en Y estn relacionados con cambios
en X
Tipos de Relaciones
Relaciones lineales
Relaciones curvilneas
X
Y
X
Y
X
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
X
6
Tipos de Relaciones
Relaciones fuertes
Relaciones dbiles
X
Y
X
Y
X
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
X
7
Tipos de Relaciones
Y
Ninguna relacin
Y
X
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
Coeficiente
de
pendiente
poblacional
Variable
Independiente
Error
aleatorio
Yi 0 1X i i
Componente lineal
Componente aleatorio
Yi 0 1X i i
Valor observado
de Y para Xi
i
Valor predicho
de Y para Xi
Pendiente = 1
Error aleatorio
para el valor de Xi
Intercepto = 0
Xi
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
X
10
Estimacin del
intercepto de la
regresin
Estimacin de la
pendiente de la
regresin
Yi b 0 b1X i
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
Valor de X
para
observacin i
11
12
13
$1000s
Variable independiente (X) = pies cuadrados
14
Pies cuadrados
(X)
245
1400
312
1600
279
1700
308
1875
199
1100
219
1550
405
2350
324
2450
319
1425
255
1700
15
dispersin
450
400
350
300
250
200
150
100
50
0
1000
2000
3000
Square Feet
16
17
Regression Statistics
Multiple R
0.76211
R Square
0.58082
Adjusted R Square
0.52842
Standard Error
41.33032
Observations
10
ANOVA
df
SS
MS
Regression
18934.9348
18934.9348
Residual
13665.5652
1708.1957
Total
32600.5000
Coefficients
Intercept
Square Feet
Standard Error
t Stat
F
11.0848
P-value
Significance F
0.01039
Lower 95%
Upper 95%
98.24833
58.03348
1.69296
0.12892
-35.57720
232.07386
0.10977
0.03297
3.32938
0.01039
0.03374
0.18580
18
y linea de regresin
Intercepto
= 98.248
450
400
350
300
250
200
150
100
50
0
Pendiente
= 0.10977
1000
2000
3000
Square Feet
19
de X
Debido a que los pies cuadrado no pueden ser
20
21
22
450
400
350
300
250
200
150
100
50
0
No extrapole fuera
de el rango de
valores observados
de Xs
0
1000
2000
3000
Square Feet
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
23
Medidas de Variacin
La variacin total est compuesta de dos partes:
SST
Total Sum of
Squares
SST ( Yi Y )2
SSR
Regression Sum of
Squares
SSE
Error Sum of
Squares
2
Y)2 SSE ( Y Y
SSR ( Y
)
i
i i
donde:
24
Medidas de Variacin
SST = total sum of squares
Mide la variacin de los valores Yi alrededor de su
media Y
SSR = regression sum of squares
Variacin explicada atribuida a la relacin entre X y Y
entre X y Y
25
Medidas de Variacin
Y
Yi
2
SSE = (Yi - Yi )
_
SSR = (Yi - Y)2
_
Y
Xi
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
_
Y
X
26
Coeficiente de Determinacin, r2
El coeficiente de determinacin es la porcin de
SST
total sum of squares
2
0 r 1
2
27
Coeficiente de Determinacin, r2
Y
r2 = 1
r2 = -1
100% de la variacin de Y es
explicada por la variable X
r2
=1
28
Coeficiente de Determinacin, r2
Y
0 < r2 < 1
X
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
29
Coeficiente de Determinacin, r2
r2 = 0
r2 = 0
30
0.58082
SST 32600.5000
Regression Statistics
Multiple R
0.76211
R Square
0.58082
Adjusted R Square
0.52842
Standard Error
41.33032
Observations
10
ANOVA
df
SS
MS
Regression
18934.9348
18934.9348
Residual
13665.5652
1708.1957
Total
32600.5000
Coefficients
Intercept
Square Feet
Standard Error
t Stat
F
11.0848
P-value
Significance F
0.01039
Lower 95%
Upper 95%
98.24833
58.03348
1.69296
0.12892
-35.57720
232.07386
0.10977
0.03297
3.32938
0.01039
0.03374
0.18580
31
SYX
SSE
n2
(
Y
Y
)
i i
i 1
n2
Donde
SSE = error sum of squares
n = tamao de la muestra
32
0.76211
R Square
0.58082
Adjusted R Square
0.52842
Standard Error
SYX 41.33032
41.33032
Observations
10
ANOVA
df
SS
MS
Regression
18934.9348
18934.9348
Residual
13665.5652
1708.1957
Total
32600.5000
Coefficients
Intercept
Square Feet
Standard Error
t Stat
F
11.0848
P-value
Significance F
0.01039
Lower 95%
Upper 95%
98.24833
58.03348
1.69296
0.12892
-35.57720
232.07386
0.10977
0.03297
3.32938
0.01039
0.03374
0.18580
33
pequeo sYX
grande sYX
34
independiente
Normalidad de los errores
Los valores de los errores siguen una distribucin
normal para cualquier valor dado de X
Varianzas iguales (tambin llamado homocedasticidad)
La distribucin de probabilidad de los errores tiene
varianza constante
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
35
Anlisis Residual
ei Yi Yi
El residuo de una observacin i, ei, es la diferencia entre
36
x
No Lineal
residuals
residuals
x
Lineal
37
residuals
residuals
Independiente
residuals
No Independiente
38
Comprobando Normalidad
Examine el diagram de Tallo-hoja de los
residuos
Examine el diagram Box-and-Whisker de los
Residuos
Examine el Histograms de los Residuos
Constriya un Plot de probabilidad normal de
los Residuos
39
Varianzas desiguales
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
residuals
residuals
Varianzas iguales
40
RESIDUAL OUTPUT
Predicted
House Price
80
Residuals
251.92316
-6.923162
60
273.87671
38.12329
40
284.85348
-5.853484
304.06284
3.937162
218.99284
-19.99284
-20
268.38832
-49.38832
-40
356.20251
48.79749
-60
367.17929
-43.17929
254.6674
64.33264
10
284.85348
-29.85348
Residuals
20
0
1000
2000
3000
Square Feet
41
Midiendo la Autocorrelacin:
El Estadstico Durbin-Watson
Utilizado cuando los datos han sido
42
Autocorrelacin
Autocorrelacin es la correlacin de los errores
15
Residuals
10
5
0
-5 0
-10
-15
Time (t)
43
El Estadstico Durbin-Watson
El estadstico Durbin-Watson es utilizado para probar la
existencia de autocorrelacin
H0: residuos no estn autocorrelacionados
H1: hay autocorrelacin presente
n
2
(
e
e
)
i i1
i2
2
e
i
i 1
El rango posible es 0 D 4
D debe estar cercano a 2 si H0 es
verdadera
El Estadstico Durbin-Watson
H0: no existe autocorrelacin positiva
H1: est presente autocorrelacin positiva
Calcule el estadstico de la prueba Durbin-Watson = D
(El estadstico Durbin-Watson puede ser encontrado en Excel)
No se concluye
dL
No rechace H0
dU
2
45
El Estadstico Durbin-Watson
Ejemplo con n = 25:
160
140
Excel:
120
Durbin-Watson Calculations
Sales
100
y = 30.65 + 4.7038x
R2 = 0.8976
80
Sum of Squared
Difference of Residuals
3296.18
60
3279.98
40
Durbin-Watson Statistic
1.00494
20
0
0
10
15
20
25
30
Time
(e
i 2
ei1 )2
ei
3296.18
1.00494
3279.98
i1
46
El Estadstico Durbin-Watson
Aqu, n = 25 y hay k = 1 variables independientes
Utilice la tabla Durbin-Watson, dL = 1.29 y dU = 1.45
No se concluye
dL=1.29
No rechace H0
dU=1.45
2
47
H0: 1 = 0
H1: 1 0
Estadstico de la prueba
b1 1
t
Sb1
d.f. n 2
donde:
b1 = coeficiente de pendiente de
la regression
1 = pendiente hipotetizada
Sb1 = error standard de la
pendiente
48
Pies cuadrados
(x)
245
1400
312
1600
279
1700
308
1875
199
1100
219
1550
405
2350
324
2450
319
1425
255
1700
49
b1
De Excel:
H1: 1 0
Coefficients
Intercept
Square Feet
Standard Error
Sb1
t Stat
P-value
98.24833
58.03348
1.69296
0.12892
0.10977
0.03297
3.32938
0.01039
b1 1 0.10977 0
t
3.32938
t
Sb1
0.03297
50
H0: 1 = 0
H1: 1 0
d.f. = 10- 2 = 8
a/2=.025
Reject H0
a/2=.025
Do not reject H0
-t/2
-2.3060
Reject H
0
t/2
2.3060 3.329
Decisin: Rechace H0
Hay suficiente evidencia de
que los pies cuadrados
afectan el precio
51
De Excel:
Coefficients
Intercept
H0: 1 = 0
H1: 1 0
Square Feet
Standard Error
t Stat
P-value
98.24833
58.03348
1.69296
0.12892
0.10977
0.03297
3.32938
0.01039
52
de prueba F:
donde
MSR
F
MSE
SSR
MSR
k
SSE
MSE
n k 1
F sigue una distribucin F con k grados de libertad en el numerador y (n k - 1) grados de libertad en el denominador
(k = el nmero de variables independientes en el modelo de regresin)
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
53
0.76211
R Square
0.58082
Adjusted R Square
0.52842
Standard Error
MSR 18934.9348
F
11.0848
MSE 1708.1957
41.33032
Observations
10
Valor-p para
la prueba F
Con 1 y 8 grados de
libertad
ANOVA
df
SS
MS
Regression
18934.9348
18934.9348
Residual
13665.5652
1708.1957
Total
32600.5000
F
11.0848
Significance F
0.01039
54
H0: 1 = 0
H1: 1 0
MSR
F
11.08
MSE
a = .05
df1= 1
df2 = 8
Decisin:
Reject H0 at a = 0.05
Conclusin:
Valor crtico:
Fa = 5.32
a = .05
Do not
reject H0
Reject H0
F.05 = 5.32
Estimacin de Intervalos de
Confianza para la Pendiente
Estimacin del interval de confianza de la
pendiente:
b1 t n2Sb1
d.f. = n - 2
Excel:
Coefficients
Intercept
Square Feet
Standard Error
t Stat
P-value
Lower 95%
Upper 95%
98.24833
58.03348
1.69296
0.12892
-35.57720
232.07386
0.10977
0.03297
3.32938
0.01039
0.03374
0.18580
56
Estimacin de Intervalos de
Confianza para la Pendiente
Coefficients
Intercept
Square Feet
Standard Error
t Stat
P-value
Lower 95%
Upper 95%
98.24833
58.03348
1.69296
0.12892
-35.57720
232.07386
0.10977
0.03297
3.32938
0.01039
0.03374
0.18580
57
H0: = 0
H1: 0
Estadstico de la prueba
r -
1 r
n2
2
donde
r r 2 si b1 0
r r 2 si b1 0
58
a =.05 , df = 10 - 2 = 8
r
1 r2
n2
.762 0
1 .762 2
10 2
3.329
59
d.f. = 10- 2 = 8
a/2=.025
Reject H0
a/2=.025
-t/2
-2.3060
Do not reject H0
Reject H0
t/2
2.3060
3.329
Conclusin:
Hay evidencia de
asociacin lineal al
nivel de
significancia del
5%
60
Y = b0+b1Xi
Intervalos de prediccin
para un valor individual
de Y, dado Xi
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
Xi
X
61
1 (X i X) 2 1
(X i X) 2
hi
n
SSX
n (X i X) 2
ESCUELA SUPERIOR POLITECNICA DEL LITORAL, Guayaquil, Ecuador
62
63
t S
Y
n-2 YX
1
(Xi X)2
317.85 37.12
2
n (Xi X)
64
t S
Y
n-1 YX
1
(Xi X)2
1
317.85 102.28
2
n (Xi X)
65
mnimos cuadrados
Desconocer como evaluar los supuestos
Desconocer las alternativas para la regression de
mnimos cuadrados cuando los supuestos son
irrespetados
Usar un modelo de regresin sin conocer
caractersticas importantes de su aplicacin
Extrapolar fuera del rango de relevancia
66
supuesto es irrespetado
Como el de varianzas iguales
67
68
69
asociacin
Estimado el valor promedio y predicciones de
valores individuales
Discutido posibles errores de regresin y
recomendado estrategas para evitarlos
70