Sie sind auf Seite 1von 10

INSTITUTO TECNOLGICO DE CAMPECHE

INGENIERA INDUSTRIAL

INVESTIGACIN CONCEPTUAL
UNIDAD 1 - REGRESION LINEAL MULTIPLE
TRABAJO # 3

JOSU DANIEL CASTILLO MOO


ESTADISTICA INFERENCIAL 2
GRUPO. VI4

SAN FRANCISCO DE CAMPECHE A 08 DE MARZO DE 2015

UNIDAD I.- (2 a parte) REGRESIN LINEAL SIMPLE

INSTITUTO TECNOLGICO DE CAMPECHE


ndice

Competencias especficas a desarrollar:


- Identificar y aplicar los conceptos bsicos del modelo de regresin mltiple.
1|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE


- Identificar y aplicar los conceptos bsicos del modelo de regresin no lineal.

INTRODUCCION
Regresin lineal mltiple
El procedimiento de Regresin Mltiple est diseado para construir un modelo
estadstico describiendo el impacto de dos o ms factores cuantitativos X sobre
una variable dependiente Y. El modelo colocado puede ser usado para hacer
predicciones, incluyendo lmites de confianza y lmites de prediccin. Los residuos
pueden tambin ser graficados observando la manera en que influyen.

2|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE


El archivo 93cars.sf3 contiene informacin sobre 26 variables por n = 93 marcas y
modelos de automviles, tomadas de Lock (1993). La tabla a continuacin
muestra una lista parcial de 4 columnas de ese archivo:

REGRESION MULTIPLE
Si se desea que un modelo de regresin pueda predecir horsepower
(caballos de fuerza) a partir de cylinders (cilindros), revoluciones por
minuto, revoluciones por milla utilizamos un programa estadstico, como
statgraphics y corremos la prueba de regresin multiple.

RESULTADOS DEL PROGRAMA


Variable dependiente: Horsepower (maximum)
Variables independientes:
Cylinders
RPM (revs per minute at maximum horsepower)
Revs per Mile (revs per mile in highest gear)
Parmetro
CONSTANTE
Cylinders
RPM
Revs per Mile

Estimacin
-144.988
30.6075
0.0368892
-0.0251865

Error
Estndar
38.4743
3.08652
0.00526538
0.00858995

Estadstico
T
-3.76844
9.91652
7.00601
-2.93209

Valor-P
0.0003
0.0000
0.0000
0.0043

3|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE


Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
183247.
Residuo
56622.7
Total (Corr.)
239870.

Gl
3
88
91

Cuadrado Medio
61082.3
643.44

Razn-F
94.93

Valor-P
0.0000

R-cuadrada = 76.3944 porciento


R-cuadrado (ajustado para g.l.) = 75.5896 porciento
Error estndar del est. = 25.3661
Error absoluto medio = 18.8363
Estadstico Durbin-Watson = 2.53154 (P=0.9949)
Autocorrelacin de residuos en retraso 1 = -0.266836
La salida muestra los resultados de ajustar un modelo de regresin lineal mltiple para
describir la relacin entre Horsepower y 3 variables independientes. La ecuacin del
modelo ajustado es
Horsepower = -144.988 + 30.6075*Cilindros + 0.0368892*RPM - 0.0251865*Rev por Milla
Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una relacin
estadsticamente significativa entre las variables con un nivel de confianza del 95.0%.
El estadstico R-Cuadrada indica que el modelo as ajustado explica 76.3944% de la
variabilidad en Horsepower. El estadstico R-Cuadrada ajustada, que es ms apropiada
para comparar modelos con diferente nmero de variables independientes, es 75.5896%.
El error estndar del estimado muestra que la desviacin estndar de los residuos es
25.3661. Este valor puede usarse para construir lmites para nuevas observaciones,
seleccionando la opcin de Reportes del men de texto. El error absoluto medio (MAE)
de 18.8363 es el valor promedio de los residuos. El estadstico de Durbin-Watson (DW)
examina los residuos para determinar si hay alguna correlacin significativa basada en el
orden en el que se presentan en el archivo de datos. Puesto que el valor-P es mayor que
0.05, no hay indicacin de una autocorrelacin serial en los residuos con un nivel de
confianza del 95.0%.
Para determinar si el modelo puede simplificarse, note que el valor-P ms alto de las
variables independientes es 0.0043, que corresponde a Revs per Mile. Puesto que el
valor-P es menor que 0.05, ese trmino es estadsticamente significativo con un nivel de
confianza del 95.0%. Consecuentemente, probablemente no quisiera eliminar ninguna
variable del modelo.

4|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE


GRAFICO DE EFECTO DE COMPONENTES
Grfico Componente+Residuo para Horsepower

efecto de componente

160
120
80
40
0
-40
-80
3

Cylinders

Esta grfica muestra la parte del modelo ajustado que relaciona a Horsepower con Cylinders. La ecuacin de la lnea en la
grfica es
Horsepower = 30.6075*(Cylinders-4.96739)
La lnea muestra el cambio relativo que ocurre en los valores predichos de Horsepower cuando cambia Cylinders a lo
largo del rango de los valores observados. Cada punto se grafica entonces agregando su residuo a la lnea. Al examinar la
magnitud de los residuos en relacin al cambio en los valores predichos de la respuesta, se puede juzgar la importancia de
la variable independiente seleccionada.

SUMA DE CUADRADOS CONDICIONALES


ANOVA adicional para Variables en el Orden Ajustado
Fuente
Suma de Cuadrados
Gl Cuadrado Medio
Cylinders
151470.
1
151470.
RPM
26245.6
1
26245.6
Revs per Mile
5531.75
1
5531.75
Modelo
183247.
3

Razn-F
235.41
40.79
8.60

Valor-P
0.0000
0.0000
0.0043

El StatAdvisor
Esta tabla muestra la significancia estadstica de cada variable conforme fue agregada al modelo. Puede utilizar esta tabla
para ayudarse a determinar si el modelo puede ser simplificado, especialmente si se est ajustando un polinomio.

Intervalos de confianza del 95.0% para las estimaciones de los coeficientes


Parmetro
CONSTANTE
Cylinders
RPM
Revs per Mile

Estimacin
-144.988
30.6075
0.0368892
-0.0251865

Error
Estndar
38.4743
3.08652
0.00526538
0.00858995

Lmite Inferior
-221.448
24.4737
0.0264254
-0.0422573

Lmite Superior
-68.5282
36.7413
0.0473531
-0.00811576

El StatAdvisor
Esta tabla muestra intervalos de confianza del 95.0% para los coeficientes en el modelo. Los intervalos de confianza
muestran con qu precisin pueden estimarse los coeficientes dados la cantidad de datos disponibles, y el nivel de ruido
que est presente.

5|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE


Matriz de Correlacin para las estimaciones de los coeficientes
CONSTANTE
Cylinders
RPM
Revs per Mile

CONSTANTE
1.0000
-0.7806
-0.5526
-0.5490

Cylinders
-0.7806
1.0000
0.0283
0.6947

RPM
-0.5526
0.0283
1.0000
-0.3448

Revs per Mile


-0.5490
0.6947
-0.3448
1.0000

El StatAdvisor
Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas correlaciones pueden
usarse para detectar la presencia de de multicolinearidad severa, es decir, correlacin entre las variables predictoras. En
este caso, hay 1 correlacin con valor absoluto mayor que 0.5 (sin incluir el trmino constante).

Residuos Atpicos
Y
Fila Y
Predicha
5
208.0 123.611
18
170.0 220.805
19
300.0 247.798
28
300.0 206.597

Residuo
84.3889
-50.8052
52.2021
93.4028

Residuo
Estudentizado
3.58
-2.13
2.18
4.11

El StatAdvisor
La tabla de residuos atpicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor
absoluto. Los residuos Estudentizados miden cuntas desviaciones estndar se desva cada valor observado de
Horsepower del modelo ajustado, utilizando todos los datos excepto esa observacin. En este caso, hay 4 residuos
Estudentizados mayores que 2, 2 mayores que 3. Es conveniente examinar detenidamente las observaciones con residuos
mayores a 3 para determinar si son valores aberrantes que debieran ser eliminados del modelo y tratados por separado.
Residuos Atpicos
Y
Fila Y
Predicha
18
170.0 220.699
19
300.0 244.05
41
160.0 116.419
55
164.0 117.967

Residuo
-50.6989
55.9505
43.5812
46.0331

Residuo
Estudentizado
-2.53
2.81
2.09
2.21

El StatAdvisor
La tabla de residuos atpicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor
absoluto. Los residuos Estudentizados miden cuntas desviaciones estndar se desva cada valor observado de
Horsepower del modelo ajustado, utilizando todos los datos excepto esa observacin. En este caso, hay 4 residuos
Estudentizados mayores que 2, pero ninguno mayor que 3.

Pruebas de Bondad-de-Ajuste para SRESIDUOS


Prueba de Kolmogorov-Smirnov
Normal
DMAS
0.0795629
DMENOS
0.0657591
DN
0.0795629
Valor-P
0.605097
Anderson-Darling A^2
A^2
Forma Modificada
Valor-P

Normal
0.869488
0.869488
>=0.10

6|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE

El StatAdvisor
Esta ventana muestra los resultados de diversas pruebas realizadas para determinar si SRESIDUOS puede modelarse
adecuadamente con una distribucin normal.
Debido a que el valor-P ms pequeo de las pruebas realizadas es mayor igual a 0.05, no se puede rechazar la idea de
que SRESIDUOS proviene de una distribucin normal con 95% de confianza.

Correlaciones
Horsepower
Horsepower

Cylinders

RPM

Revs per Mile

0.7946
(92)
0.0000
-0.0115
(92)
0.9132
-0.6154
(92)
0.0000

Cylinders
0.7946
(92)
0.0000

-0.3966
(92)
0.0001
-0.7507
(92)
0.0000

RPM
-0.0115
(92)
0.9132
-0.3966
(92)
0.0001

Revs per Mile


-0.6154
(92)
0.0000
-0.7507
(92)
0.0000
0.5069
(92)
0.0000

0.5069
(92)
0.0000

Correlacin
(Tamao de Muestra)
Valor-P
El StatAdvisor
Esta tabla muestra las correlaciones momento producto de Pearson, entre cada par de variables. El rango de estos
coeficientes de correlacin va de -1 a +1, y miden la fuerza de la relacin lineal entre las variables. Tambin se muestra,
entre parntesis, el nmero de pares de datos utilizados para calcular cada coeficiente. El tercer nmero en cada bloque de
la tabla es un valor-P que prueba la significancia estadstica de las correlaciones estimadas. Valores-P abajo de 0.05
indican correlaciones significativamente diferentes de cero, con un nivel de confianza del 95.0%. Los siguientes pares de
variables tienen valores-P por debajo de 0.05:
Horsepower y Cylinders
Horsepower y Revs per Mile
Cylinders y RPM
Cylinders y Revs per Mile
RPM y Revs per Mile

7|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE

Grfico de Horsepower
300

observado

250
200
150
100
50
0
0

50

100

150
predicho

200

250

300

Esta grfica despliega los valores observados de Horsepower versus los valores predichos por el modelo ajustado. Entre
ms prximos se encuentren los puntos a la lnea diagonal, mejor es el modelo para predecir los valores observados.

Grfico de Residuos

Rediduo Estudentizado

3.1
2.1
1.1
0.1
-0.9
-1.9
-2.9
3

Cylinders

Esta grfica despliega los residuos Estudentizados versus los valores de Cylinders. Cualquier patrn no aleatorio indicara
que el modelo seleccionado no es adecuado para describir los datos observados. Adems, cualquier valor fuera del rango
de -3 a +3 bien podra ser un dato aberrante (outlier).

8|Pgina

INSTITUTO TECNOLGICO DE CAMPECHE

9|Pgina