You are on page 1of 6

EJERCICIO DE REGRESION LINEAL MULTIPLE

El gerente de ventas de una compañía de refacciones para automóviles, quiere


desarrollar un modelo para predecir, en el mes de junio, las ventas anuales totales para
una región. Si las ventas regionales se pueden predecir, entonces se podrán estimar las
ventas totales de la compañía. El número de distribuidoras de la región que mantiene en
inventario las refacciones de la compañía y el número de automóviles registrados para
cada región, desde el primero de junio, son las dos variables de predicción que el gerente
quiere investigar. Este obtiene los siguientes datos.

Región Ventas (millones) Número de Número de


y distribuidoras automóviles reg.
1 52.3 2011 24.6
2 26.0 2850 22.1
3 20.2 650 7.9
4 16.0 480 12.5
5 30.0 1694 9.0
6 46.2 2302 11.5
7 35.0 2214 20.5
8 3.5 125 4.1
9 33.1 1840 8.9
10 25.2 1233 6.1
11 38.2 1699 9.5

a) Analice la matriz de correlación b) ¿Son válidos los coeficientes de regresión? c)


¿Cuál es el error involucrado en el pronóstico para región 1 d) Indique cómo se calculó el
error estándar de la estimación e) ¿Cómo puede mejorar esta ecuación de regresión?
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Y
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE 10,1093 7,21956 1,40026 0,1990
X2 0,0109889 0,00520014 2,11319 0,0675
X3 0,19466 0,639844 0,304231 0,7687
-----------------------------------------------------------------------------

Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 1043,66 2 521,832 4,91 0,0405
Residuo 849,564 8 106,196
-----------------------------------------------------------------------------
Total (Corr.) 1893,23 10

R-cuadrado = 55,1262 porcentaje


R-cuadrado (ajustado para g.l.) = 43,9077 porcentaje
Error estándar de est. = 10,3051
Error absoluto medio = 6,22424
Estadístico de Durbin-Watson = 2,45921 (P=0,1735)
Autocorrelación residual en Lag 1 = -0,401176

Y = 10,1093 + 0,0109889*X2 + 0,19466*X3


Matriz de correlación de los estimadores de los coeficientes
-----------------------------------------------------------------------------
CONSTANTE X2 X3
CONSTANTE 1,0000 0,7390 0,5480
X2 0.7390 1,0000 0.6700
X3 0.5480 0.6700 1,0000
-----------------------------------------------------------------------------

y X2 X3 Pronóstico ME
52,3 2011 24,6 36,51 15,79
26 2850 22,1 36,51 -10,51
20,2 650 7,9 36,51 -16,31
16 480 12,5 36,51 -20,51
30 1694 9 36,51 -6,51
46,2 2302 11,5 36,51 9,69
35 2214 20,5 36,51 -1,51
3,5 125 4,1 36,51 -33,01
33,1 1840 8,9 36,51 -3,41
25,2 1233 6,1 36,51 -11,31
38,2 1699 9,5 36,51 1,69

a) El número de distribuidoras se relaciona con las ventas anuales y es una


buena variable de predicción potencial. El número de automóviles registrados tiene una
relación moderada con las ventas anuales y, debido a la multicolinealidad
, no será un buen predictor junto con el número de distribuidoras

b) NO, la multicolinealidad está presente y causa que los coeficientes de regresión no


sean confiables.

c) el error involucrado en el pronóstico para la región 1 es 15.79

d) Del análisis de varianza obtenemos el valor de residuo

=10.3

e) Se deben probar nuevas variables de predicción

El gerente decide investigar una nueva variable de predicción: el ingreso personal en la


región. Los datos para esta nueva variable son:

Ingreso
Personal
Región (miles de
millones)
1 98.5
2 31.1
3 34.8
4 32.7
5 68.8
6 94.7
7 67.6
8 19.7
9 67.9
10 61.4
11 85.6

f) ¿Es el ingreso personal por región una buena variable de predicción potencial?
g) ¿Qué porcentaje de la varianza en las ventas se explicará usando solamente el ingreso
personal como variable de predicción? h) ¿Qué porcentaje de la varianza en las ventas
se explicará usando las tres variables de predicción? i) ¿Explica la ecuación de
predicción de la ejecución número 1 un porcentaje significativo de la varianza en las
ventas? Pruebe a un nivel de significancia del 5% j) Realice una prueba con un nivel de
significancia del 5% para determinar si se debe usar cada una de las tres variables de
predicción k) Realice una prueba con un nivel de significancia del 5% para determinar si
el ingreso personal y el número de distribuidoras deben usarse para predecir las
ventas. l) realice una prueba con un nivel de significancia del 5% para determinar si el
ingreso personal y el número de automóviles registrados deben usarse para
predecir las vetas m) ¿Qué modelo debe usar el gerente? n) Interprete el coeficiente de
regresión estimados para la ecuación del punto j o) ¿Son válidos estos coeficientes de
regresión? p) Analice la exactitud de este modelo

Ejecución 1
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Y
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE -3,9177 2,29017 -1,71066 0,1309
X2 0,00238409 0,00157212 1,51648 0,1732
X3 0,457426 0,167499 2,73091 0,0293
X4 0,400576 0,0377914 10,5996 0,0000
-----------------------------------------------------------------------------

Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 1843,4 3 614,467 86,32 0,0000
Residuo 49,8268 7 7,11812
-----------------------------------------------------------------------------
Total (Corr.) 1893,23 10

R-cuadrado = 97,3682 porcentaje


R-cuadrado (ajustado para g.l.) = 96,2402 porcentaje
Error estándar de est. = 2,66798
Error absoluto medio = 1,65087
Estadístico de Durbin-Watson = 2,01049 (P=0,4483)
Autocorrelación residual en Lag 1 = -0,013595
Ejecución 2
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Y
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE -4,0269 2,46799 -1,63165 0,1414
X3 0,620922 0,13821 4,49259 0,0020
X4 0,430169 0,0348932 12,3281 0,0000
-----------------------------------------------------------------------------

Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 1827,03 2 913,516 110,40 0,0000
Residuo 66,1964 8 8,27455
-----------------------------------------------------------------------------
Total (Corr.) 1893,23 10

R-cuadrado = 96,5035 porcentaje


R-cuadrado (ajustado para g.l.) = 95,6294 porcentaje
Error estándar de est. = 2,87655
Error absoluto medio = 2,18538
Estadístico de Durbin-Watson = 2,17004 (P=0,2940)
Autocorrelación residual en Lag 1 = -0,100016

Ejecución 3
Análisis de Regresión Múltiple
-----------------------------------------------------------------------------
Variable dependiente: Y
-----------------------------------------------------------------------------
Error Estadístico
Parámetro Estimación estándar T P-Valor
-----------------------------------------------------------------------------
CONSTANTE -1,60819 2,86116 -0,562076 0,5895
X2 0,00514754 0,00161745 3,1825 0,0129
X4 0,385301 0,0502448 7,66847 0,0001
-----------------------------------------------------------------------------

Análisis de Varianza
-----------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor
-----------------------------------------------------------------------------
Modelo 1790,32 2 895,158 69,59 0,0000
Residuo 102,913 8 12,8641
-----------------------------------------------------------------------------
Total (Corr.) 1893,23 10

R-cuadrado = 94,5642 porcentaje


R-cuadrado (ajustado para g.l.) = 93,2052 porcentaje
Error estándar de est. = 3,58666
Error absoluto medio = 2,57292
Estadístico de Durbin-Watson = 1,0611 (P=0,0568)
Autocorrelación residual en Lag 1 = 0,298956

Matriz de correlación de los estimadores de los coeficientes


-----------------------------------------------------------------------------
CONSTANTE X2 X3 X4
CONSTANTE 1,0000 0,739 0.548 0.936
X2 0.739 1,0000 0.670 0.556
X3 0.548 0.670 1,0000 0.281
X4 0.936 0.556 0.281 1,0000
-----------------------------------------------------------------------------
f) Si, el ingreso personal tiene una fuerte relación con las ventas anuales

g)

h)

i) Las hipótesis nula y alternativa son:

En la salida del análisis de varianza de la ejecución 1, se observa que el p-valor del


modelo es 0.000 y como , por tanto se rechaza la hipótesis nula y el gerente
concluye que la ecuación de regresión muestral explica un porcentaje significativo de la
varianza en las ventas

j) Las hipótesis adecuadas son:

El ingreso personal ( es una variable significativa, lo mismo que el número de registros


( ya que el p-valor es 0.000 y 0.0293 por el contrario el número de distribuidoras
no es una variable significativa

k) Las variables que deben probarse están en la ejecución número 3. Las hipótesis
adecuadas son:

La hipótesis nula se rechaza de acuerdo con los p-valores 0.0129 y 0.0001


respectivamente, por tanto el gerente concluye que ambas variables explican una parte
significativa de la varianza en las ventas.

l) Las variables que deben probarse están en la ejecución número 2. Las hipótesis
adecuadas son:

La hipótesis nula se rechaza de acuerdo con los p-valores 0.0020 y 0.000


respectivamente, el gerente concluye que ambas variables explican una porción
significativa de la varianza en las ventas.
m) El gerente de ventas debe elegir el modelo que incluye a los automóviles registrados y
al ingreso personal por que explican un mayor porcentaje de la varianza

n) La ecuación es . Si el número de automóviles


registrados en la región aumenta en un millón, mientras que el ingreso personal se
mantiene constante, las ventas aumentarán en un promedio de 620.920. Si el ingreso
personal aumenta en mil millones, mientras que el número de automóviles registrados se
deja constante, las ventas aumentarán en promedio de 430.170

o) Los coeficientes de regresión deben ser válidos, ya que las variables 3 y 4 tiene una
relación muy fuerte entre ellas ( de manera que la multicolinealidad no es un
problema.

p) El modelo explica el 96.5% de la varianza en las ventas y debe ser bastante adecuado.
Cada pronóstico se aleja alrededor de 2.877 millones (el valor de la desviación estándar
de la estimación) (Ejecución número 2)