Sie sind auf Seite 1von 22

UIVERSIDAD DEL ATLANTICO EVALUACION DE MODELOS DE REGRESION

DOCENTE MARGARITA BARRAZA RODRIGUEZ

NOMBRE :Diego Armando Ramírez Hernández

1. EJERCICIO 1

La compañía pinter analiza sus gastos de publicidad en miles de euros (X) y sus ventas
en miles de euros (Y) en los últimos años
Gastos en publicidad (X) Ventas en miles de euros (Y)
21 180,2
22 190,5
22 200,0
25 201,9
26 220,2
27 230,5
29 240,4
30 260,3
32 280,8

que las ventas


de la empresa dependen
linealmente de la inversión en
gastos de publicidad
efectuados.
Nos piden la realización de un
análisis que ponga de
manifiesto si la hipótesis,
hasta
ahora mantenida, se puede
seguir sosteniendo en función
de los datos que tenemos en
los últimos 9 años:
Años Gastos de
Publicidad
(en miles de euros)
Ventas
(en miles
de euros)
2004
2005
2006
2007
2008
2009
2010
2011
2012
21
22
22
25
26
27
29
30
32
180,2
190,5
200,0
201,9
220,2
230,5
240,4
260,3
280,8
que las ventas
de la empresa dependen
linealmente de la inversión en
gastos de publicidad
efectuados.
Nos piden la realización de un
análisis que ponga de
manifiesto si la hipótesis,
hasta
ahora mantenida, se puede
seguir sosteniendo en función
de los datos que tenemos en
los últimos 9 años:
Años Gastos de
Publicidad
(en miles de euros)
Ventas
(en miles
de euros)
2004
2005
2006
2007
2008
2009
2010
2011
2012
21
22
22
25
26
27
29
30
32
180,2
190,5
200,0
201,9
220,2
230,5
240,4
260,3
280,8
que las ventas
de la empresa dependen
linealmente de la inversión en
gastos de publicidad
efectuados.
Nos piden la realización de un
análisis que ponga de
manifiesto si la hipótesis,
hasta
ahora mantenida, se puede
seguir sosteniendo en función
de los datos que tenemos en
los últimos 9 años:
Años Gastos de
Publicidad
(en miles de euros)
Ventas
(en miles
de euros)
2004
2005
2006
2007
2008
2009
2010
2011
2012
21
22
22
25
26
27
29
30
32
180,2
190,5
200,0
201,9
220,2
230,5
240,4
260,3
280,8
que las ventas
de la empresa dependen
linealmente de la inversión en
gastos de publicidad
efectuados.
Nos piden la realización de un
análisis que ponga de
manifiesto si la hipótesis,
hasta
ahora mantenida, se puede
seguir sosteniendo en función
de los datos que tenemos en
los últimos 9 años:
Años Gastos de
Publicidad
(en miles de euros)
Ventas
(en miles
de euros)
2004
2005
2006
2007
2008
2009
2010
2011
2012
21
22
22
25
26
27
29
30
32
180,2
190,5
200,0
201,9
220,2
230,5
240,4
260,3
280,8
1. Construye el grafico de dispersión
Gráfi co de Dispersión
290

270

250

230

210

190

170

150
20 22 24 26 28 30 32 34

2. Obtén la recta de regresión que expresa las ventas en términos de los gastos de
publicidad.

Gráfico de Dispersión
290

270

250

230

210

190

170

150
20 22 24 26 28 30 32 34

3. ¿Es significativa la dependencia lineal entre las variables? tomar α=0.05

Los datos nos arrojan el siguiente análisis:


Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 3,31556 18,4034 0,18016 0,8621
Pendiente 8,44 0,700943 12,0409 0,0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 8548,03 1 8548,03 144,98 0,0000
Residuo 412,71 7 58,9586
Total (Corr.) 8960,74 8

Coeficiente de Correlación = 0,9767


R-cuadrada = 95,3942 porciento

Con base en esto, podemos decir que el modelo lineal tiene un alto grado de ajuste con un
Valor P menor de 0,05, no obstante también observamos que la Variable Dependiente
tiene poca significancia para el modelo, esto nos indica que debemos revisar cuál modelo
se ajusta mejor a la distribución de los datos, así:

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Raíz Cuadrada-X Cuadrado-X 0,9836 96,75%
Log-Y Cuadrado-X 0,9832 96,66%
Cuadrado de X 0,9830 96,63%
Exponencial 0,9804 96,11%
Inversa de Y -0,9798 96,01%
Inversa-Y Cuadrado-X -0,9791 95,87%
Raíz Cuadrada de Y 0,9791 95,86%
Inversa-Y Raíz Cuadrada-X -0,9790 95,84%
Cuadrado Doble 0,9787 95,78%
Logarítmico-Y Raíz Cuadrada-X 0,9778 95,60%
Inversa-Y Log-X -0,9773 95,51%
Lineal 0,9767 95,39%
Raíz Cuadrada Doble 0,9756 95,18%
Multiplicativa 0,9744 94,94%
Raíz Cuadrada deX 0,9723 94,55%
Doble Inverso 0,9718 94,44%
Raíz Cuadrada-Y Log-X 0,9713 94,35%
Cuadrado de Y 0,9689 93,88%
Logaritmo de X 0,9673 93,56%
Curva S -0,9655 93,22%
Cuadrado-Y Raíz Cuadrada-X 0,9629 92,71%
Raíz Cuadrada-Y Inversa de X -0,9608 92,32%
Cuadrado-Y Log-X 0,9561 91,42%
Inversa de X -0,9551 91,22%
Cuadrado-Y Inversa de X -0,9407 88,50%

Así, encontramos que el mejor modelo está determinado por la ecuación: Ŷ =(∝+ β X 2)2

Ŷ =(11,1901+0,00536491 X 2 )2
Con la siguiente información que demuestra mayor correlación, fuerza y significancia en el modelo
predictivo así:

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 11,1901 0,265895 42,0845 0,0000
Pendiente 0,00536491 0,000371604 14,4372 0,0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 9,53465 1 9,53465 208,43 0,0000
Residuo 0,320213 7 0,0457447
Total (Corr.) 9,85487 8

Coeficiente de Correlación = 0,983619


R-cuadrada = 96,7507 porciento

4. Predice linealmente las ventas si los gastos de publicidad son de 28 y 31 ¿En qué
medida es fiable esta predicción?

El modelo lineal está dado por la función: Ŷ =3,31556+8,44 X


Este modelo predice los valores Ŷ / X =28 y Ŷ / X =31 de la siguiente forma:

 Ŷ / X =28=3,31556+ 8,44 ( 28 )=239,636


 Ŷ / X =31=3,31556+ 8,44 ( 31 )=264,956

Dados los valores r = 0,9767, R2=¿95,3942 y el Valor p < 0,05, sabemos que la predicción
es altamente significativa.

5. Determina el intervalo en el que se encuentra el 95% de confianza de las ventas


media para los gastos de publicidad de 28 y 31.
Así las cosas tenemos que:

 Ŷ / X =28 Tendrá el siguiente intervalo de confianza (220,212, 259,059).


 Ŷ / X =31 El intervalo de confianza (244,099, 285,812)
6. Construya la tabla anova de la regresión

Fuente Suma de Gl Cuadrado Razón-F Valor-P


Cuadrados Medio
SSR 8548,03 1 8548,03 144,98 0,0000
SSE 412,71 7 58,9586
SST 8960,74 8

2. EJERCICIO 2

Los investigadores están interesados en conocer la relación entre el tiempo de


congestionamiento (Y) y el número de vehículos (X)

El número de vehículos (X) El tiempo de congestionamiento (Y)


1 0
2 0
2 0.02
4 0.01
5 0.01
6 0.01
7 0.03
8 0.03
9 0.02
10 0.04

1. Construye el grafico de dispersión

Gráfica de Dispersión
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
0 2 4 6 8 10 12

2. Obtén la recta de regresión que expresa el tiempo de congestión en función del


número de vehículos.
Gráfi ca de Dispersión
0.05

0.04

0.04

0.03

0.03

0.02

0.02

0.01

0.01

0
0 2 4 6 8 10 12

3. ¿Es significativa la dependencia lineal entre las variables? tomar α=0.05

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto -0,00144796 0,0055743 -0,259757 0,8016
Pendiente 0,00341629 0,00090427 3,77795 0,0054

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0,00103172 1 0,00103172 14,27 0,0054
Residuo 0,000578281 8 0,0000722851
Total 0,00161 9
(Corr.)

Coeficiente de Correlación = 0,800512


R-cuadrada = 64,082 porciento

Dando como resultado la siguiente ecuación:

Ŷ =−0,00144796+0,00341629 X

Con base en esta información, podemos concluir que el modelo, a pesar de tener un buen
coeficiente de correlación r, no es significativo en virtud que el Coeficiente de
Determinación o R – cuadrada, es bajo y el Valor p > 0,05, aunque sea por poco.
Así las cosas procedemos a realizar el comparativo para determinar el mejor modelo así:

Comparación de Modelos Alternos


Modelo Correlación R-Cuadrada
Cuadrado de X 0,8143 66,31%
Raíz Cuadrada Doble 0,8126 66,03%
Raíz Cuadrada-Y Log-X 0,8108 65,74%
Cuadrado Doble 0,8039 64,63%
Raíz Cuadrada de Y 0,8028 64,45%
Lineal 0,8005 64,08%
Raíz Cuadrada deX 0,7774 60,43%
Raíz Cuadrada-Y Inversa de X -0,7670 58,82%
Raíz Cuadrada-X Cuadrado-X 0,7638 58,34%
Cuadrado de Y 0,7459 55,64%
Logaritmo de X 0,7421 55,07%
Cuadrado-Y Raíz Cuadrada-X 0,6976 48,66%
Inversa de X -0,6474 41,92%
Cuadrado-Y Log-X 0,6377 40,66%
Cuadrado-Y Inversa de X -0,5071 25,71%

Con la siguiente Tabla ANOVA y valores r y R – cuadrada:

Coeficientes
Mínimos Cuadrados Estándar Estadístico
Parámetro Estimado Error T Valor-P
Intercepto 0,00506797 0,00397764 1,27412 0,2384
Pendiente 0,000314001 0,0000791297 3,96818 0,0041

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 0,0010676 1 0,0010676 15,75 0,0041
Residuo 0,000542397 8 0,0000677997
Total 0,00161 9
(Corr.)

Coeficiente de Correlación = 0,814314


R-cuadrada = 66,3107 porciento

Vemos un aumento en los Coeficientes de Correlación y Determinación y un Valor P más


significativo, quedando con la ecuación: Ŷ =0,00506797+0,000314001 X 2
4. Predice linealmente el tiempo de congestión cuando el número de vehículos es 12 ¿En
que medida es fiable esta predicción?

Utilizamos para realizar la predicción la ecuación del modelo lineal así:

Ŷ =−0,00144796+0,00341629 X

Ŷ / X =12 = 0,0395475

Con valores Coeficiente de Correlación = 0,800512 R-cuadrada = 64,082% y Valor P > 0,05,
podemos decir que el modelo es medianamente significativo en virtud que la diferencia
del Valor P con el teórico es muy poca y además que el Coeficiente de Correlación es
bueno.

5. Determina el intervalo en el que se encuentra el 95%de confianza el tiempo medio de


congestión para un número de 12 vehículos.

Ŷ / X =12 = (0,014804, 0,064291) para un 95% de Nivel de Confianza.

6. Construya la tabla anova de la regresión

Tabla ANOVA

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P


Modelo 0,00103172 1 0,00103172 14,27 0,0054
Residuo 0,000578281 8 0,0000722851
Total (Corr.) 0,00161 9

3. EJERCICIO 3

En un estudio de microbiología sobre la población de parásitos se hizo un recuento de


estos en 15 muestras con diversas condiciones ambientales los datos obtenidos son:
RECUENTO PARASITOS TEMPERATURA HUMEDAD
X1 X2
156 15 70
157 16 65
177 24 71
145 13 64
197 21 84
184 16 86
172 22 72
187 18 84
157 20 71
169 16 75
200 28 84
193 27 79
167 13 80
170 22 76
192 23 88

1. Encuentre la ecuación de regresión para el recuento de parásitos.

Recuento de Parásitos = 25,7115 + 1,58182( X 1 ) + 1,54245( X 2 )

2. ¿Es significativa la dependencia lineal entre las variables? tomar α=0.05

Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 25,7115 14,3725 1,78894 0,0989
Temperatura 1,58182 0,320263 4,93912 0,0003
Humedad 1,54245 0,199504 7,73141 0,0000

Análisis de Varianza
Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F Valor-P
Modelo 3650,19 2 1825,1 63,75 0,0000
Residuo 343,542 12 28,6285
Total (Corr.) 3993,73 14

R-cuadrada = 91,398 porciento


R-cuadrado (ajustado para g.l.) = 89,9643 porciento

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación
estadísticamente significativa entre las variables con un nivel de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 91,398% de la
variabilidad en Recuento de Parásitos. El estadístico R-Cuadrada ajustada, que es más
apropiada para comparar modelos con diferente número de variables independientes, es
89,9643%. El error estándar del estimado muestra que la desviación estándar de los
residuos es 5,35056.

3. Verifique el sistema si es posible obtener otras opciones.

Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las
variables independientes es 0,0003, que corresponde a Temperatura. Puesto que el valor-
P es menor que 0,05, ese término es estadísticamente significativo con un nivel de
confianza del 95,0%. Consecuentemente, probablemente no quisiera eliminar ninguna
variable del modelo.

Dado lo expuesto anteriormente y lo expresado en el punto 2, podemos concluir que no


existen otras opciones pues el modelo es significativamente confiable para predecir o
estimar el Recuento de Parásitos.

Das könnte Ihnen auch gefallen