Sie sind auf Seite 1von 6

ESTADISTICA INFERENCIAL

CLASE COMPLEMENTARIA. ANALISIS DE VARIANZA-REGRESION


1. En un experimento se evaluó la textura de un alimento manufacturado, el cual fue procesado a cinco temperaturas
diferentes. En este experimento se tomo igual número de observaciones por tratamiento y se dispone de la tabla de análisis
de varianza siguiente.

Fuente de Suma de Grados de Cuadrado medio f calculada


variación cuadrados libertad
(2) (4) (6)
Tratamiento 9.836
(1) (5)
Error 20
(3)
Total 11.05

A. Los valores de las celdas (1) , (2) y (3)


son respectivamente:
a. 20.886 , 5 y 15
b. 1.214 , 5 y 25
c. 108.6878 4 y 16
d. 1.214 , 4 y 24
e. 20.886 , 4 y 16
B. Los valores de las celdas (4) , (5) y (6)
son respectivamente:
a. 2.459 , 1.0443 y 2.5679
b. 1.9672 , 1.0443 y 2.05435
c. 2.459 , 0.0607 y 40.5107
d. 39.344 , 24.28 y 955.27232
e. 39.344 , 24.28 y 1.6204

2. Un grupo de 25 estudiantes de universidad se separaron aleatoriamente en cinco grupos iguales. A cada grupo le fue
enseñado un concepto matemático usando un método diferente de enseñanza, evaluando el progreso mediante una prueba
unificada aplicada al final del periodo de enseñanza.
A. Complete la tabla de análisis de varianza.

--------------------------------------------------------------------------------------
Fuente Sumas de cuad. Gl Cuadrado Medio Cociente-F valor-p
--------------------------------------------------------------------------------------
Método 1218.4 4 304.6 1.863 0.1564829
Error (residual) 3270.4 20 163.52
--------------------------------------------------------------------------------------
Total 4488.8 24

B. Los datos dan evidencia suficiente para pensar en una diferencia en el promedio de calificaciones entre los cuatro
métodos de enseñanza?
Planteamiento de hipótesis:

Establezca la decisión usando el valor-p que calculo en la tabla ANOVA

Puesto que entonces no se rechaza Ho.

Que puede concluir al respecto de la hipótesis.


Al nivel de significancia del 5% no hay evidencia que conduzca a pensar que alguno de los cinco métodos de enseñanza
produce resultados diferentes en la prueba unificada.
Los resultados promedio de la prueba no presentan diferencias significativas según el método de enseñanza, es decir el
método no afecta significativamente la nota del examen.
3. ¿Qué tipo de comerciales de televisión captan mejor la atención de los niños? Para dar respuesta a la pregunta anterior, se
observo la actitud de 15 niños; 5 niños fueron observados mientras veían comerciales de juguetes y juegos, 5 mientras veían
comerciales sobre comida y goma de mascar y 5 mientras veían comerciales relacionados con ropa para niños. Todos los
comerciales tenían 60 segundos de duración. En la siguiente tabla aparecen los tiempos de atención a los comerciales para
los 15 niños:
TIEMPO DE ATENCION
JUGUETES 45 40 30 25 45
COMIDA 50 25 55 45 50
ROPA 25 15 22 27 35
Se desea probar si existe diferencia entre los tiempos medios de atención de los niños a las tres clases de comerciales.

A. Pruebe el supuesto de homocedasticidad.

Transcriba la tabla de la prueba de Levene Decisión y conclusión


Analysis of Variance Table Puesto que entonces no se
rechaza Ho.
Response: aresid Al nivel de significancia del 5% no hay evidencia que
Df Sum Sq Mean Sq F value Pr(>F)
articulo 2 13.33 6.667 0.1235 0.885
indique una diferencia significativa en la variabilidad de los
Residuals 12 648.00 54.000 tiempos de atención a los comerciales, entre los diferentes
artículos presentados a los niños, por lo tanto se cumple el
supuesto de homocedasticidad.

B. Pruebe el supuesto de normalidad de errores (residuales) con la prueba de Shapiro-Wilks.

Transcriba los resultados del software. Decisión y conclusión


Shapiro-Wilk normality test Puesto que entonces no se
rechaza Ho.
data: residuals(g.lm) Al nivel de significancia del 5% no hay evidencia para
W = 0.9196, p-value = 0.1901
pensar que los residuales tengan distribución
significativamente diferente a la normal, por lo tanto se
cumple el supuesto de normalidad de errores (residuales)

C. Halle la tabla ANOVA y Pruebe la hipótesis apropiada. (=0.05)


Analysis of Variance Table

Response: atencion
Df Sum Sq Mean Sq F value Pr(>F)
articulo 2 1034.8 517.40 5.6816 0.01836 *
Residuals 12 1092.8 91.07
---

Región de rechazo (punto crítico) Decisión y conclusión.


Puesto que se rechaza Ho.
Puesto que entonces se
0.05 rechaza Ho.
Al nivel de significancia del 5% hay evidencia para pensar
que por lo menos uno de los promedios de atención a los
comerciales de los tres artículos es diferente.
F2,12
3.8852 5.6816

> qf(0.05,2,12,lower.tail=F)
[1] 3.885294
D. Establezca las comparaciones múltiples con intervalos y valores-p mediante la prueba de TUKEY.
Salida del software Análisis de las comparaciones
No hay deferencia en los tiempos de atención cuando los
> tapply(atencion,articulo,mean) niños ven comerciales de Juguetes y Comida, así como de
C J R Ropa y Juguetes, debido a que los respectivos intervalos
45.0 37.0 24.8
> TukeyHSD(unifact) Tukey multiple
contienen al valor cero.
comparisons of means Se presenta una diferencia significativa en los periodos de
95% family-wise confidence level atención cuando se muestran a los niños comerciales de
Ropa y Comida, prestando más atención a los comerciales
Fit: aov(formula = atencion ~ articulo) de comida.
Con un 95% de confianza se estima que en promedio
$articulo prestan entre 4.09 a 36.30 segundos más de atención a los
diff lwr upr p adj comerciales de Comida respecto a los de Ropa.
J-C -8.0 -24.10176 8.10176 0.4086297
Tratamiento(Nivel) Promedio Grupos Homogéneos
R-C -20.2 -36.30176 -4.09824 0.0148731
R-J -12.2 -28.30176 3.90176 0.1493772 Ropa 24.8 X
Juguetes 37.0 X X
Comida 45.0 X

Código en R.
#DATOS
atencion <- c(45,40,30,25,45, 50,25,55,45,50, 25,15,22,27,35)
articulo <- c("J","J","J","J","J", "C","C","C","C","C",
"R","R","R","R","R")
articulo <- factor(articulo)
articulo

#TABLA ANOVA
unifact <- aov(atencion~articulo)
summary(unifact)

qf(0.05,2,12,lower.tail=F)

#NORMALIDAD DE RESIDUALES (Graficos y prueba de shapiro)


g.lm <- lm(atencion~articulo)
anova(g.lm)
plot(articulo, residuals(g.lm), ylab = "residuos")
abline(h = 0)

qqnorm(residuals(g.lm));qqline(residuals(g.lm))
shapiro.test(residuals(g.lm))

#PRUEBA DE LEVENE (Supuesto homocedasticidad)


y <- atencion
med <- tapply(y, articulo, median)
med
aresid <- abs(y - med[articulo])
anova(lm(aresid ~ articulo))

#COMPARACIONES MULTIPLES
tapply(atencion,articulo,mean)
TukeyHSD(unifact)
1. El jefe de personal de una empresa cree que existe una relación entre la ausencia al trabajo y la edad del empleado. Con el
propósito de estudiar el problema tomó en cuenta la edad de diez trabajadores escogidos al azar y contabilizó los días de
ausencia durante el año. Los resultados fueron como se observa en la tabla que sigue:
X: Edad (años) Y: Ausencia (días)
25 20
50 5
35 10
20 20
45 8
50 2
30 15
40 12
62 1
40 8

1) Según el contexto propuesto, defina cual es la variable dependiente y la variable predictora en esta
situación.
X: Edad (años) del trabajador
Y: Dias/años que falta al trabajo
2) Especifique la recta de regresión.

3) Intérprete los coeficientes estimados.


Interpretación del intercepto Interpretación de la pendiente
Si el trabajador tiene cero años (es decir, edad =0) se Por cada año que se incrementa la edad del trabajador,
estima que faltara 30.18552 días/año. Carece de se espera que el número de días/año que falta al trabajo
sentido, no se interpreta. se reduzca en 0.50593.
4) A un nivel de significancia de 10%, estos datos apoyan la idea que las variables está relacionadas
significativamente?

Conclusión.
Puesto que valor-p= se rechaza Ho. Al nivel de significancia del 10%, hay evidencia para
pensar que la edad del trabajador y su número de ausencias (días/año) están relacionados.
5) Interprete un intervalo de confianza del 90% para la pendiente del modelo de regresión.
Intervalo: [-0.6058436 ; -0.4060212]
Interpretación:
Con una confianza del 90%, se estima que la real reducción en el número de días al año de ausencias al trabajo,
por cada año de más en la edad del trabajador, se encuentra entre 0.4060212 y 0.6058436.
6) A partir de la tabla ANOVA para la regresión, calcule e interprete el coeficiente de determinación.
Tabla ANOVA (transcribir del procesamiento de R) Calculo e interpretación de r2
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F) El 91.72% de la variabilidad en el número de
x 1 373.23 373.23 88.669 1.327e-05 *** días/año que falta el trabajador se explica por la
Residuals 8 33.67 4.21 relación lineal con la edad.
---
7) Use la prueba de Shapiro-Wilks para determinar si los residuales cumplen el supuesto de normalidad.

Conclusión.
Puesto que valor-p= no se rechaza Ho. Al nivel de significancia del 5%, no hay evidencia para
pensar que los residuales tengan distribución diferente a la normal. Se cumple el supuesto de normalidad de
residuales.
8) Pruebe el supuesto de homocedasticidad de residuales
Transcriba los resultados del Software
> median(x)
[1] 40
> var.test(residuals(regresion)[x > Puesto que valor-p= no se rechaza
median(x)],residuals(regresion)[x < median(x)]) Ho. Al nivel de significancia del 5%, no hay
F test to compare two variances
evidencia para pensar que los residuales tengan
variabilidad diferente. Se cumple el supuesto de
data: residuals(regresion)[x > median(x)] and homocedasticidad de residuales.
residuals(regresion)[x < median(x)]
F = 1.1025, num df = 3, denom df = 3, p-value = 0.938
alternative hypothesis: true ratio of variances is
not equal to 1
95 percent confidence interval:
0.07140611 17.02095581
sample estimates:
ratio of variances
1.102452

Código en R.
#EJERCICIO1 REGRESION
#DATOS
x<-c(25,50,35,20,45,50,30,40,62,40)
y<-c(20,5,10,20,8,2,15,12,1,8)

#DIAGRAMA DE DISPERSION
etiquetaY<-"Ausencia(días)"
etiquetaX<-"Edad(años)"
plot(x, y, main="Diagrama de
Dispersión",xlim=c(0,65),ylim=c(0,35),xlab=etiquetaX,ylab=etiquetaY)
abline(h=0,v=0,col="gray")

#ECUACION DE REGRESION
regresion <- lm(y ~ x)
summary(regresion)
abline(regresion, col=2)

#INTERVALO DE CONFIANZA COEFICIENTES


confint(regresion,level = 0.90)

#COEFICIENTE DE CORRELACION
cor(x, y)

#TABLA ANOVA EN REGRESION


anova(regresion)

#GRAFICA DE RESIDUALES
valores.ajustados <- fitted(regresion)
residuos <- rstandard(regresion)
plot(valores.ajustados, residuos)
abline(h=0)

#GRAFICO Q-Qplot residuales


plot(y , valores.ajustados)
abline(0,1)
qqnorm(residuos)
qqline(residuos)

#HISTOGRAMA RESIDUALES
par(mfrow=c(2,1))
hist(residuos)
plot(density(residuos))
dev.off()
#PRUEBA NORMALIDAD DE RESIDUALES
shapiro.test(residuos) #Prueba de Shapiro-Wilks
#install.packages("nortest") #Instalar paquete nortest
library(nortest) #Prueba de Anderson-Darling
ad.test(residuos)$p.value
cvm.test(residuos)$p.value #Prueba de Cramer-von Mises
lillie.test(residuos)$p.value #Prueba de Kolmogorov-Smirnov
pearson.test(residuos)$p.value #Prueba de Pearson
sf.test(residuos)$p.value #Prueba de Shapiro-Francia

###HOMOGENEIDAD DE VARIANZAS
summary(x)
median(x)
plot(x,y,main="Diagrama de Dispersión(Homogeneidad
Varianzas)",xlim=c(0,65),ylim=c(0,35),xlab=etiquetaX,ylab=etiquetaY)
abline(h=0,v=0,col="gray")
abline(regresion);abline(v=median(x), col=3)
var.test(residuals(regresion)[x > median(x)],residuals(regresion)[x < median(x)])

Das könnte Ihnen auch gefallen