Sie sind auf Seite 1von 155

MÉTODOS ESTADÍSTICOS

Grado en Ingeniería Informática


Lectura 8

Tema 7. Contrastes de Hipótesis


Paramétricos

Métodos Estadísticos
I+D+i

Módulo 3: MUESTREO E INFERENCIA ESTADÍSTICA

• Tema 7. Contrastes de Hipótesis Paramétricos (4h)


1. Conceptos básicos. Hipótesis estadísticas y errores asociados.

2. Contrastes unilaterales y bilaterales asociados a los principales


estadísticos.

3. Determinación del tamaño de la muestra.


Hipótesis estadísticas: conceptos generales
I+D+i

• Se postula o conjetura algo acerca de un sistema, de un experimento o de una


población
• La conjetura se puede expresar en forma de hipótesis estadística.

• Una hipótesis estadística es una aseveración o conjetura respecto a una o más


poblaciones

• Se toma una muestra aleatoria de la población de interés y se utilizan los datos


contenidos en ella para proporcionar evidencia que respalde o no la hipótesis

• La evidencia de que la muestra es inconsistente con la hipótesis planteada


conduce al rechazo de la misma

• El rechazo significa que existe una pequeña probabilidad de obtener la


información muestral observada cuando, de hecho, la hipótesis es verdadera
Hipótesis estadísticas
I+D+i
La Hipótesis Nula y la Hipótesis Alternativa

• La estructura de la prueba de hipótesis se establece usando el término hipótesis


nula, el cual se refiere a cualquier hipótesis que se desea probar y se denota
con H0

• El rechazo de H0 conduce a la aceptación de una hipótesis alternativa, que se


denota con H1.

• La hipótesis alternativa H1 por lo general representa la pregunta que se


responderá o la teoría que se probará

• La hipótesis nula H0 anula o se opone a H1 y a menudo es el complemento lógico


de H1

• Rechazar H0 a favor de H1 debido a


evidencia suficiente en los datos
Conclusiones
• No Rechazar H0 debido a evidencia
insuficiente en los datos.
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Error Tipo I: Es el error que se comete con el rechazo de la hipótesis nula H0


cuando es verdadera
• Error Tipo II: Es el error que se comete con el rechazo de la hipótesis nula H0
cuando es falsa
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II

Rechazar H0 Error Tipo I Decisión correcta

H0 : μ = μ 0
H1 : μ ≠ μ 0

μ0 μ1
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i
• Error Tipo I: Es el error que se comete • Error Tipo II: Es el error que se
con el rechazo de la hipótesis nula H0 comete con el rechazo de la
cuando es verdadera (Falso Positivo) hipótesis nula H0 cuando es falsa
(Falso Negativo)

No está
Embarazada

Está
Embarazado
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)

Rechazar H0 Error Tipo I (α) Decisión correcta

• La probabilidad de cometer un error tipo I, también llamada nivel de significancia


o de significación, se denota con la letra griega α (tamaño de la prueba)
• La probabilidad de cometer un error tipo II, que se denota con β, es imposible de
calcular a menos que tengamos una hipótesis alternativa específica
• la probabilidad de cometer ambos tipos de errores se puede reducir aumentando el
tamaño de la muestra

• La potencia de una prueba es la probabilidad de rechazar H0 dado que una alternativa


específica es verdadera.
• La potencia de una prueba se puede calcular como 1 – β. A menudo diferentes tipos de
pruebas se comparan contrastando propiedades de potencia.
Hipótesis estadísticas
Potencia de una prueba y nivel de significancia I+D+i

H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)

Rechazar H0 Error Tipo I (α) Decisión correcta

Potencia de la prueba
1–β
Hipótesis estadísticas
Región Crítica I+D+i

H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II (β)

Rechazar H0 Error Tipo I (α) Decisión correcta

• Se establece un criterio llamado contraste o regla de decisión para decidir si el


colectivo generador de una muestra cumple o no la hipótesis H0

• Se suele establecer el criterio adoptando una región crítica y comprobar si un


cierto estadístico Z, evaluado sobre la muestra está o no en la región crítica.

Si Z ∈ RC se rechaza H0
Si Z ∉ RC se acepta H0

• Se suele definir la región crítica mediante el nivel de significación α

• Entre las distintas pruebas estadísticas y para un nivel dado de significación α el


mejor contraste para H0 es siempre el de mayor potencia 1 – β.
Hipótesis estadísticas
Prueba de una hipótesis estadística
I+D+i
H0 es verdadera H0 es falsa
No rechazar H0 Decisión correcta Error Tipo II

Rechazar H0 Error Tipo I Decisión correcta


Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Ejemplo: Considerar la hipótesis nula de que el peso promedio de estudiantes


hombres en Métodos Estadísticos es de 68 kilos, contra la hipótesis alternativa
de que es diferente a 68 (Considerar la desviación estándar de la población de
pesos como σ = 3.6 y un tamaño n de la posible muestra de 36 estudiantes)

H0 : μ = 68
H1 : μ ≠ 68

• Usaremos cómo estadístico de prueba la media muestral


• Una media muestral que caiga cerca del valor hipotético de 68 se consideraría como
evidencia a favor de H0

Región de no rechazo
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Nuestro estadístico de decisión, que se basa en una muestra aleatoria de tamaño


� , estimador de μ.
n=36, será 𝐗𝐗

• La distribución muestral de 𝐗𝐗 � es aproximadamente normal con desviación estándar


𝝈𝝈𝑿𝑿� = 𝝈𝝈� 𝒏𝒏 = 𝟑𝟑.𝟔𝟔⁄𝟔𝟔 = 𝟎𝟎. 𝟔𝟔

• La probabilidad de cometer un error tipo I,


(nivel de significancia) ,α
H0 : μ = 68
H1 : μ ≠ 68

Región de no rechazo
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Los valores z correspondientes a 𝒙𝒙 �𝟐𝟐 = 69 cuando H0 es verdadera son


�𝟏𝟏 = 67 y 𝒙𝒙

H0 : μ = 68
H1 : μ ≠ 68
• El 9.5% de todas las muestras de tamaño 36
nos conducirían a rechazar μ = 68 kilogramos
cuando ésta es verdadera

Región de no rechazo
PT<-seq(66,70,0.1)
Hipótesis estadísticas n1<-36
sigma<-3.6
Prueba de una hipótesis sigma0<-sigma/sqrt(n1)
I+D+i
estadística mu0<-68
mu1<-70
DP0<-dnorm(PT, mu0,sigma0)
H0 : μ = 68 plot(PT,DP0, type = "l", col="brown",
H1 : μ ≠ 68 ylab = "Densidad de Probabilidad", xlab
= "Kilos")
abline(v=mu0, col="green")
PErrorTipoI<-pnorm(67,mu0,sigma0)+
(1-pnorm(69,mu0,sigma0))
PErrorTipoI
[1] 0.0955807
Región de no rechazo

# Región Error tipo I


Fliminf<-0
Flimsup<-67
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Fliminf<-69
Flimsup<-85
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Para reducir α tenemos que elegir entre aumentar el tamaño de la


muestra o ampliar la región de no rechazo

• Aumentamos el tamaño de la muestra a n = 64 𝝈𝝈𝑿𝑿 𝝈𝝈


� = � 𝒏𝒏 =
𝟑𝟑.𝟔𝟔⁄ = 𝟎𝟎. 𝟒𝟒𝟒𝟒
𝟖𝟖

H0 : μ = 68
H1 : μ ≠ 68

• La reducción de α no es suficiente por sí misma para garantizar


un buen procedimiento de prueba. Debemos evaluar β para
varias hipótesis alternativas
PT<-seq(66,70,0.1)
Hipótesis estadísticas n1<-64
sigma<-3.6
Prueba de una hipótesis I+D+i
sigma0<-sigma/sqrt(n1)
estadística mu0<-68
mu1<-70
DP0<-dnorm(PT, mu0,sigma0)
H0 : μ = 68
plot(PT,DP0, type = "l", col="brown",
H1 : μ ≠ 68 ylab = "Densidad de Probabilidad", xlab
= "Kilos")
abline(v=mu0, col="green")
PErrorTipoI<-pnorm(67,mu0,sigma0)+
(1-pnorm(69,mu0,sigma0))
PErrorTipoI
[1] 0.02626829
Región de no rechazo

Fliminf<-0
Flimsup<-67
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Fliminf<-69
Flimsup<-85
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Supongamos que es importante rechazar H0 cuando la media verdadera sea


algún valor μ ≥ 70 o μ ≤ 66, entonces se debería calcular y examinar la
probabilidad de cometer un error tipo II para las alternativas μ = 66 y μ = 70

• La probabilidad de no rechazar la hipótesis


nula μ = 68 cuando la alternativa μ = 70 es
verdadera.
H0 : μ = 68 • Cuando la media muestral 𝒙𝒙 � caiga entre
H1 : μ = 70 67 y 69, cuando H1 sea verdadera,
resultará un Error Tipo II.
Hipótesis estadísticas
Prueba de una hipótesis I+D+i
estadística PT<-seq(66,70,0.1)
n1<-64
sigma<-3.6
H0 : μ = 68 sigma0<-sigma/sqrt(n1)
H1 : μ = 70 mu0<-68
mu1<-70
DP0<-dnorm(PT, mu0,sigma0)
plot(PT,DP0, type = "l", col="brown",
ylab = "Densidad de Probabilidad", xlab =
"Kilos")
abline(v=mu0, col="green")
PErrorTipoI<-pnorm(67,mu0,sigma0)+
(1-pnorm(69,mu0,sigma0))
PErrorTipoI
[1] 0.02626829
DP1<-dnorm(PT, mu1,sigma0)
points(PT,DP1, type = "l", col="brown")
abline(v=mu1, col="blue")
PErrorTipoII<-(pnorm(69,mu1,sigma0))-
pnorm(67,mu1,sigma0)
PErrorTipoII
[1] 0.01313415
Región de rechazo con
H1 verdadera
Hipótesis estadísticas
Prueba de una hipótesis # Región Error tipo II I+D+i
estadística Fliminf<-67
Flimsup<-69
xv<-PT[PT>=Fliminf & PT<=Flimsup]
H0 : μ = 68 yv<-DP1[PT>=Fliminf & PT<=Flimsup]
H1 : μ = 70 xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP1[1],DP1[1])
polygon(xv,yv,col = "gray")

Región de rechazo con


H1 verdadera
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Los valores z correspondientes a 𝒙𝒙 �𝟐𝟐 = 69 cuando H1 es verdadera son


�𝟏𝟏 = 67 y 𝒙𝒙

H0 : μ = 68
H1 : μ = 70
• El valor de β será incluso más pequeño
cuando n = 64 y, en consecuencia, habrá
poca oportunidad de no rechazar H0
cuando sea falsa
Prueba de una hipótesis estadística
Propiedades y Conclusiones

• Los errores tipo I y tipo II están relacionados. Por lo general una disminución en la
probabilidad de cometer uno da como resultado un incremento en la probabilidad de
cometer el otro.

• El tamaño de la región crítica y, por lo tanto, la probabilidad de cometer un error tipo I,


siempre se puede reducir ajustando el (los) valor(es) crítico(s).

• Un aumento en el tamaño de la muestra n reducirá α y β de forma simultánea.

• Si la hipótesis nula es falsa, β es un máximo cuando el valor verdadero de un parámetro


se aproxima al valor hipotético. Cuanto más grande sea la distancia entre el valor
verdadero y el valor hipotético, más pequeña será β.

• La potencia de una prueba se puede calcular como 1 – β. A menudo diferentes tipos


de pruebas se comparan contrastando propiedades de potencia.
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Ejemplo: Considérese una población cuya variable X se distribuye


normalmente y con desviación típica σ = 15. De ella se extrae una muestra
aleatoria simple de tamaño n = 100, que presenta una media muestral en
� = 111. Se quiere realizar el siguiente contraste para un
la variable de 𝒙𝒙
error tipo I con α = 0.05 :
H0 : μ = 110
H1 : μ = 115

• En este caso:
152
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 )
152
Bajo H1 : 𝑥𝑥̅ ∈ 𝑁𝑁(115, 𝑛𝑛 )

• La muestra proporciona un valor del estadístico (media muestral) de


� = 111 ¿Cuál es la decisión?
𝒙𝒙

� ∈ RC se rechaza H0
Si 𝒙𝒙
� ∉ RC se acepta H0
Si 𝒙𝒙
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

152 � ∈ RC se rechaza H0
Si 𝒙𝒙
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 )
� ∉ RC se acepta H0
Si 𝒙𝒙

𝑃𝑃 𝑥𝑥̅ ∈ 𝑹𝑹𝑹𝑹 = 0.05

1 − 𝑃𝑃 𝑧𝑧𝛼𝛼 = 0.05
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
qnorm(0.95) 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 1.645 =
[1] 1.644854 𝑧𝑧𝛼𝛼 = 1.645 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 100

• En este caso: 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 = 112.49 RC= (112.4, ∞)

• � = 111 no está en la región crítica


Cómo el valor del estadístico (media muestral) 𝒙𝒙
RC, se acepta H0
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Pero podría ser que en realidad la media de la población fuese de μ = 115


� = 111 ¿ Cuál sería la
y que se obtuviera una media muestral 𝒙𝒙
probabilidad de cometer un error tipo II?

152 𝑃𝑃 𝑥𝑥̅ ∉ 𝑹𝑹𝑹𝑹 = 𝑃𝑃𝐻𝐻1 (112.49)


Bajo H1 : 𝑥𝑥̅ ∈ 𝑁𝑁(115, 𝑛𝑛 )

𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 112.49 − 115


𝑧𝑧 = 𝜎𝜎 z= = −1.673
� 𝑛𝑛 15�
100

pnorm((112.49-115)/((15/sqrt(100))))
• En este caso: [1] 0.04713085 𝜷𝜷 = 𝑃𝑃 −1.673 = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎

• Los valores de α y β mantienen entre sí una relación inversa, la única manera de bajar
ambos es subir el tamaño muestral
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Ejemplo: …. Veamos que ocurre si variamos α. Considérese los casos α = 0.1


y α = 0.01 :
152 � ∈ RC se rechaza H0
Si 𝒙𝒙
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 )
� ∉ RC se acepta H0
Si 𝒙𝒙

𝑃𝑃 𝑥𝑥̅ ∈ 𝑹𝑹𝑹𝑹 = 0.1 1 − 𝑃𝑃 𝑧𝑧𝛼𝛼 = 0.1

𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110


𝑧𝑧𝛼𝛼 = 1.28 𝑧𝑧𝛼𝛼 = 𝜎𝜎 1.28 =
15�
� 𝑛𝑛 100
• En este caso: 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 = 111.92 RC= (111.92, ∞)

• � = 111 no está en la región crítica


Cómo el valor del estadístico (media muestral) 𝒙𝒙
RC, se acepta H0
111.92 − 115
𝜷𝜷 = 𝑃𝑃 = 𝑃𝑃 −2.05 = 𝟎𝟎. 𝟎𝟎𝟎𝟎
15�
100
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Ejemplo: …. Veamos que ocurre si variamos α. Considérese los casos α = 0.1


y α = 0.01 :
� ∈ RC se rechaza H0
Si 𝒙𝒙
152
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, ) � ∉ RC se acepta H0
Si 𝒙𝒙
𝑛𝑛

𝑃𝑃 𝑥𝑥̅ ∈ 𝑹𝑹𝑹𝑹 = 0.01 1 − 𝑃𝑃 𝑧𝑧𝛼𝛼 = 0.01

𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 2.33 =
𝑧𝑧𝛼𝛼 = 2.33 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 100

• En este caso: 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 = 113.495 RC= (113.495, ∞)

• Cómo el valor del estadístico (media muestral) 𝒙𝒙� = 111 no está en la región crítica
RC, se acepta H0
113.495 − 115
𝜷𝜷 = 𝑃𝑃 = 𝑃𝑃 −1.003 = 𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏
15�
100
Hipótesis estadísticas
Prueba de una hipótesis estadística I+D+i

• Ejemplo: …. Veamos que ocurre si variamos n. Considérese el caso n = 1000


y α = 0.05 :
152 � ∈ RC se rechaza H0
Si 𝒙𝒙
Bajo H0 : 𝑥𝑥̅ ∈ 𝑁𝑁(110, 𝑛𝑛 ) � ∉ RC se acepta H0
Si 𝒙𝒙

𝑃𝑃 𝑥𝑥̅ ∈ 𝑹𝑹𝑹𝑹 = 0.05 1 − 𝑃𝑃 𝑧𝑧𝛼𝛼 = 0.05

𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 110
𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 − 𝜇𝜇 1.64 =
𝑧𝑧𝛼𝛼 = 1.64 𝑧𝑧𝛼𝛼 = 𝜎𝜎 15�
� 𝑛𝑛 1000

• En este caso: 𝑥𝑥𝑙𝑙𝑙𝑙𝑙𝑙 = 110.78 RC= (110.78, ∞)

• � = 111 está en la región crítica


Cómo el valor del estadístico (media muestral) 𝒙𝒙
RC, no se acepta H0
110.78 − 115
𝜷𝜷 = 𝑃𝑃 = 𝟎𝟎. 𝟎𝟎
15�
1000
DP0<-dnorm(PT, mu0,sigma0)
plot(PT,DP0, type = "l", col="brown", ylab = "Densidad de Probabilidad", xlab = "X")
grid()
abline(v=mu0, col="green")
#Error tipo I
PErrorTipoI<-alfa
PErrorTipoI
[1] 0.05
Xlimite<-qnorm(1-alfa)*sigma0+mu0
Xlimite
[1] 112.4673
# Región Error tipo I Hipótesis estadísticas
Fliminf<-Xlimite
PT<-seq(100,120,0.1)
Flimsup<-120 Prueba de una hipótesis
n1<-100 xv<-PT[PT>=Fliminf & PT<=Flimsup] estadística
sigma<-15 yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
sigma0<-sigma/sqrt(n1)
yv<-c(yv,DP0[1],DP0[1])
mu0<-110 polygon(xv,yv,col = "grey", density = 15, border = "brown")
mu1<-115 DP1<-dnorm(PT, mu1,sigma0)
points(PT,DP1, type = "l", col="brown")
alfa<-0.05
abline(v=mu1, col="blue")
media_muestral<-111 PErrorTipoII<-pnorm((Xlimite-mu1)/sigma0)
PErrorTipoII
[1] 0.04565959
# Región Error tipo II
Fliminf<-100
Flimsup<-Xlimite
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP1[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP1[1],DP1[1])
polygon(xv,yv,col = "red", density = 15, border = "brown")
abline(v=media_muestral, col="black", lty=2)
Hipótesis estadísticas
Prueba de una hipótesis estadística

n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.05
media_muestral<-111
PErrorTipoI
[1] 0.05
Xlimite
[1] 112.4673
PErrorTipoII
[1] 0.04565959
Hipótesis estadísticas
Prueba de una hipótesis estadística

n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.1
media_muestral<-111
PErrorTipoI
[1] 0.1
Xlimite
[1] 111.9223
PErrorTipoII
[1] 0.02009544
Hipótesis estadísticas
Prueba de una hipótesis estadística

n1<-100
sigma<-15
mu0<-110
mu1<-115
alfa<-0.01
media_muestral<-111
PErrorTipoI
[1] 0.01
Xlimite
[1] 113.4895
PErrorTipoII
[1] 0.1569709
Hipótesis estadísticas
Prueba de una hipótesis estadística

n1<-1000
sigma<-15
mu0<-110
mu1<-115
alfa<-0.05
media_muestral<-111
PErrorTipoI
[1] 0.05
Xlimite
[1] 110.7802
PErrorTipoII
[1] 2.892905e-19
Potencia de una Prueba en R

• Para calcular la potencia del test t de una o dos muestras, o determinar


alguno sus parámetros conocidos los demás, puede utilizarse la función
pwr.t.test () de la librería pwr().
• Sintaxis:
pwr.t.test(n = NULL, d = NULL, sig.level = 0.05, power = NULL,
type = c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "less", "greater")
• Argumentos:

n Number of observations (per sample)


d Effect size
sig.level Significance level (Type I error probability)
power Power of test (1 minus Type II error probability)
type Type of t test : one- two- or paired-samples
a character string specifying the alternative hypothesis, must be one of
alternative
"two.sided" (default), "greater" or "less"
Hipótesis estadísticas
Potencia de una prueba I+D+i

Efecto tamaño estándar Potencia de la prueba


d 1–β

Nivel de Significancia
α
Hipótesis estadísticas
Prueba de una hipótesis estadística

Potencia de una Prueba en R

n1<-100
pwr.t.test(n=n1,d= (mu1-mu0)/sigma, sig.level = alfa,
sigma<-15
type = "one.sample", alternative= "greater")
mu0<-110
mu1<-115
One-sample t test power calculation
alfa<-0.05
media_muestral<-111
n = 100
PErrorTipoI
d = 0.3333333
[1] 0.05
sig.level = 0.05
Xlimite
power = 0.9521004
[1] 112.4673
alternative = greater
PErrorTipoII
[1] 0.04565959
potencia<-1-PErrorTipoII;potencia
[1] 0.9543404
Hipótesis estadísticas
Prueba de una hipótesis estadística

Potencia de una Prueba en R

n1<-1000
sigma<-15 pwr.t.test(n=n1,d= (mu1-mu0)/sigma, sig.level = alfa,
mu0<-110 type = "one.sample", alternative= "greater")
mu1<-115
alfa<-0.05 One-sample t test power calculation
media_muestral<-111
PErrorTipoI n = 1000
[1] 0.05 d = 0.3333333
Xlimite sig.level = 0.05
[1] 110.7802 power = 1
PErrorTipoII alternative = greater
[1] 2.892905e-19
potencia<-1-PErrorTipoII;potencia
[1] 1
Hipótesis estadísticas
Prueba de una hipótesis estadística
Potencia de una Prueba en R
• Puede utilizarse pwr para calcular cualquier parámetro dados los demás.
potencia<-1-beta
potencia
n1<-¿?
[1] 0.9
sigma<-15
pwr.t.test(d= (mu1-mu0)/sigma, sig.level = alfa, power= potencia, type = "one.sample",
mu0<-110 alternative= "greater")
mu1<-115
alfa<-0.05 One-sample t test power calculation
beta<-0.1
n = 78.44742
d = 0.3333333
sig.level = 0.05
power = 0.9
alternative = greater

• En este caso tomamos n=79 para tener unos valores de α y (1- β )


determinados (0.05 y 0.9)
Hipótesis estadísticas
Prueba de una hipótesis estadística

Potencia de una Prueba en R


n1<-10:250
sigma<-15
sigma0<-sigma/sqrt(n1)
mu0<-110
mu1<-115
alfa<-c(0.01,0.05, 0.1, 0.15, 0.20)
plot(n1, xlim=c(10,250), ylim=c(0,1), xlab= "tamaño de la muestra",
ylab="Potencia Prueba", axes=TRUE, type = "n")
grid()
for(i in 1:5) {
Xlimite<-qnorm(1-alfa[i])*sigma0+mu0
PErrorTipoII<-pnorm((Xlimite-mu1)/sigma0)
potencia<-1-PErrorTipoII
points(n1,potencia, type = "l", col=i)
text(n1[7],potencia[1], labels = paste("alfa=",alfa[i]), col=i, cex = 1)
}
Hipótesis estadísticas
Prueba de una hipótesis estadística

Potencia de una Prueba en R


Potencia de una Prueba en R

• Funciones de la librería pwr() para encontrar los parámetros relacionados con


la potencia de la prueba.
• Funciones:

function power calculations for


pwr.2p.test two proportions (equal n)
pwr.2p2n.test two proportions (unequal n)
pwr.anova.test balanced one way ANOVA
pwr.chisq.test chi-square test
pwr.f2.test general linear model
pwr.p.test proportion (one sample)
pwr.r.test correlation
pwr.t.test t-tests (one sample, 2 sample, paired)
pwr.t2n.test t-test (two samples with unequal n)
Hipótesis Unilaterales y Bilaterales. I+D+i

• Se denomina prueba de una sola cola prueba de cualquier hipótesis estadística


donde la alternativa es unilateral

• La región crítica RC solo está en una parte -derecha o izquierda-

• Se denomina prueba de dos cola prueba de cualquier hipótesis estadística


donde la alternativa es bilateral

• La región crítica RC se divide en dos partes, a menudo con probabilidades


iguales en cada cola de la distribución del estadístico de prueba
Hipótesis Unilaterales y Bilaterales. I+D+i

RC RC

RC RC
Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)

• Considérese un experimento con X1, X2,..., Xn, que representan una muestra
aleatoria de una distribución con media μ y varianza σ2 > 0
• Hipótesis:

• � tiene una distribución casi normal con


Estadístico: La variable aleatoria 𝑿𝑿
media μ y varianza σ2/n para muestras de tamaño razonablemente grande

• Podemos determinar una región crítica RC basada en el promedio muestral


calculado �
𝒙𝒙
• � incluir de manera formal la variable aleatoria
Es conveniente estandarizar 𝑿𝑿
normal estándar Z,
𝑋𝑋� − 𝜇𝜇
𝑍𝑍 = 𝜎𝜎
� 𝑛𝑛
Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)
• �,
En términos del promedio calculado 𝒙𝒙

• Rechazar H0 si :
Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)
• Ejemplo Hipótesis Unilateral: Una muestra aleatoria de 100 muertes registradas
en Las Palmas de Gran Canaria el año pasado reveló una vida promedio de 71.8
años. Si se supone una desviación estándar de la población de 8.9 años, ¿Se
puede decir que que la vida media actual es mayor que 70 años? Utilizar un nivel
de significancia de 0.05.
H0 : μ = μ0 = 70 años
H1 : μ > 70 años

qnorm(0.95,0,1)
• α = 0.05 [1] 1.644854


𝒙𝒙−𝝁𝝁𝟎𝟎
• Región critica: z > 1.645, donde 𝒛𝒛 = 𝝈𝝈
� 𝒏𝒏

•μ 0 �= 71.8 años, σ= 8.9, 𝒛𝒛 =


= 70 años, 𝒙𝒙
𝟕𝟕𝟕𝟕.𝟖𝟖−𝟕𝟕𝟕𝟕
𝟖𝟖.𝟗𝟗
� 𝟏𝟏𝟏𝟏𝟏𝟏
=2.02

• Decisión: rechazar H0 y concluir que la vida media actual es


mayor que 70 años
PT<-seq(67,73,0.01)
Hipótesis estadísticas n1<-100
sigma<-8.9
Prueba de una hipótesis sigma0<-sigma/sqrt(n1)
I+D+i
estadística mu0<-70
media_muestra<-71.8
DP0<-dnorm(PT, mu0,sigma0)
H0 : μ = 70 plot(PT,DP0, type = "l", col="brown",
H1 : μ > 70 ylab = "Densidad de Probabilidad", xlab
= "Años")
abline(v=mu0, col="green")
abline(v=media_muestra, col="blue")
alfa<-0.05
Edad_critica<-qnorm((1-
alfa),mu0,sigma0)
Edad_critica
[1] 71.46392
Región de no rechazo

PErrorTipoI<- (1-
pnorm(Edad_critica,mu0,sigma0))
PErrorTipoI
[1] 0.05
# Región Error tipo I
Fliminf<-Edad_critica
Flimsup<-73
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
� − 𝝁𝝁
𝒙𝒙
Una sola muestra 𝒛𝒛 = 𝝈𝝈
Pruebas respecto a una sola media � 𝒏𝒏
(Varianza Conocida)
• Ejemplo Hipótesis Bilateral: Un fabricante de cables desarrolló un nuevo producto
que, según afirma, tiene una resistencia media a la rotura de 8 kilogramos con una
desviación estándar de 0.5 kilogramos. Pruebe la hipótesis de que μ = 8 kilogramos
contra la alternativa de que μ ≠ 8 kilogramos si se prueba una muestra aleatoria de
50 cables y se encuentra que tienen una resistencia media a la rotura de 7.8
kilogramos. Utilice un nivel de significancia de 0.01.

H0 : μ = μ0 = 8 Kgs.
H1 : μ ≠ 8 Kgs.

• α = 0.01 qnorm(0.995,0,1)
[1] 2.575829

• Región critica RC: z <-2.575 y z > 2.575, donde 𝒛𝒛 = �𝒙𝒙−𝝁𝝁



𝝈𝝈
𝟎𝟎

𝒏𝒏

•μ �= 7.8 años, σ= 0.5, 𝒛𝒛 =


0 = 8 Kgs , 𝒙𝒙
𝟕𝟕.𝟖𝟖−𝟖𝟖
𝟎𝟎.𝟓𝟓
� 𝟓𝟓𝟓𝟓
=-2.83

• Decisión: rechazar H0 y concluir que la resistencia


promedio a la rotura no es igual a 8 (de hecho, es menor
que 8 kilogramos)
Hipótesis estadísticas
Prueba de una hipótesis I+D+i
PT<-seq(7.75,8.25,0.0001)
n1<-50
estadística
sigma<-0.5
sigma0<-sigma/sqrt(n1)
mu0<-8
media_muestra<-7.8
H0 : μ = 8 DP0<-dnorm(PT, mu0,sigma0)
plot(PT,DP0, type = "l", col="brown",
H1 : μ ≠ 8 ylab = "Densidad de Probabilidad", xlab
= "Resistencia en Kgs.")
abline(v=mu0, col="green")
abline(v=media_muestra, col="blue")
alfa<-0.01
# Intevalo de decision
Región de no rechazo

Zona_critica1<-qnorm((1-
alfa/2),mu0,sigma0)
Zona_critica2<-
qnorm(alfa/2,mu0,sigma0)
Zona_critica1
[1] 8.182139
Zona_critica2
[1] 7.817861

# Región Error tipo I


…………
Hipótesis estadísticas
Prueba de una hipótesis # Región Error tipo I I+D+i
estadística
Fliminf<-7.6
Flimsup<-Zona_critica2
xv<-PT[PT>=Fliminf & PT<=Flimsup]
H0 : μ = 8 yv<-DP0[PT>=Fliminf & PT<=Flimsup]
H1 : μ ≠ 8 xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")

Fliminf<-Zona_critica1
Flimsup<-8.4
xv<-PT[PT>=Fliminf & PT<=Flimsup]
Región de no rechazo

yv<-DP0[PT>=Fliminf & PT<=Flimsup]


xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
Equivalencia de la estimación del intervalo
de confianza con la prueba de hipótesis

• Para el caso de una sola media de la población con media μ y varianza σ2


conocida, la estructura tanto de la prueba de hipótesis como de la estimación del
intervalo de confianza se basa en la variable aleatoria

𝑋𝑋−𝝁𝝁
𝑧𝑧 = 𝝈𝝈
� 𝑛𝑛

• Resulta que la prueba de H0 : μ = μ0 contra H1 : μ ≠ μ0 a un nivel de significancia


α es equivalente a calcular un intervalo de confianza del 100(1 –α)% sobre μ y
rechazar H0, si μ0 está fuera del intervalo de confianza no se rechaza la hipótesis

• La equivalencia de la estimación del intervalo de confianza con la prueba de


hipótesis se extiende a las diferencias entre dos medias, varianzas, cocientes de
varianzas, ….
Una sola muestra
Pruebas respecto a una sola media
(Varianza Desconocida)

• Considérese un experimento con X1, X2,..., Xn, que representan una muestra
aleatoria de una distribución con media μ y varianza σ2 desconocidas

� −𝝁𝝁𝒐𝒐
𝒏𝒏 𝑿𝑿
• Estadístico: La variable aleatoria
𝑺𝑺
tiene una distribución t de Student
con n – 1 grados de libertad

• La estructura de la prueba es idéntica a la del caso en el que se conoce σ,


excepto que el valor σ en el estadístico de prueba se reemplaza con el estimado
calculado de S y la distribución normal estándar se reemplaza con una
distribución t

Hipótesis Bilateral

• Rechazamos H0 a un nivel de significancia α cuando el estadístico t calculado

excede a tα/2,n - 1 o es menor que –tα/2,n - 1


Una sola muestra
Pruebas respecto a una sola media
(Varianza Conocida)
• Ejemplo Hipótesis Unilateral: El ITC publica cifras del número de Kw-h que
consumen anualmente varios aparatos electrodomésticos. Se afirma que una
aspiradora gasta un promedio de 46 Kw-h al año. Si una muestra aleatoria de 12
hogares, indica que las aspiradoras gastan un promedio de 42 Kw-h con una
desviación estándar de 11.9 Kw-h, ¿esto sugiere que las aspiradoras gastan, en
promedio, menos de 46 kilowatts-hora al año a un nivel de significancia de 0.05?
(considerar la población de Kw-h normal).

H0 : μ = μ0 = 46 Kw-h.
H1 : μ < 46 Kw-h.

qt(0.05,12-1)
• α = 0.05
[1] -1.795885

𝒙𝒙−𝝁𝝁𝟎𝟎
• Región critica RC: t < -1.796, donde t= 𝒔𝒔
� 𝒏𝒏

•μ �= 42 Kw-h, s= 11.9 Kw-h, n=12, 𝒕𝒕 =


0 = 46 Kw-h , 𝒙𝒙
𝟒𝟒𝟒𝟒−𝟒𝟒𝟒𝟒
𝟏𝟏𝟏𝟏
� 𝟏𝟏𝟏𝟏
=-1.16

• Decisión: no rechazar H0 y concluir que el número


promedio de Kw-h que gastan al año las aspiradoras no es
significativamente menor que 46
PT<-seq(35,65,0.001)
Hipótesis estadísticas n1<-12
Prueba de una hipótesis sigma_muestra<-11.9 I+D+i
estadística mu<-46
media_muestra<-42
tmedia_muestra<-(media_muestra-
mu)/(sigma_muestra/sqrt(n1-1))
tmu<-(mu-mu)/(sigma_muestra/sqrt(n1-1))
H0 : μ = 46 TPT<-(PT-mu)/(sigma_muestra/sqrt(n1-1))
DP0<-dt(TPT, n1-1)
H1 : μ < 46
plot(PT,DP0, type = "l", col="brown", ylab =
"Densidad de Probabilidad", xlab =
"Estadístico t (Consumo Kw-h)")
abline(v=mu, col="green")
abline(v=media_muestra, col="blue")

alfa<-0.05
# Intevalo de decision
Zona_critica1<-qt(alfa,n1-
1)*(sigma_muestra/sqrt(n1-1))+mu
Zona_critica1
Región de no rechazo
[1] 39.55639

# Región Error tipo I


…………
Hipótesis estadísticas
Prueba de una hipótesis I+D+i
estadística

H0 : μ = 46 # Región Error tipo I


Fliminf<-35
H1 : μ < 46 Flimsup<-Zona_critica1
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")

Región de no rechazo
Dos muestras: Pruebas sobre dos Medias
(Varianza desconocidas pero Iguales)

• Se extraen dos muestras aleatorias independientes de tamaños n1 y n2,


respectivamente, de dos poblaciones con medias μ1 y μ2, y varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 .

• Estadístico: La variable aleatoria:

Sigue una distribución normal estándar

Si podemos suponer que 𝝈𝝈𝟏𝟏 = 𝝈𝝈𝟐𝟐 = 𝝈𝝈 ->

• Hipótesis bilateral sobre dos medias (general):


Dos muestras: Pruebas sobre dos Medias
(Varianza desconocidas pero Iguales)

Procedimiento (1)

𝝈𝝈𝟏𝟏 = 𝝈𝝈𝟐𝟐 = 𝝈𝝈

• Se establece la hipótesis bilateral sobre dos medias

• Estadístico: Rechazamos H0 al nivel de significancia α cuando el estadístico t


calculado

Con:

n1 + n2 -2 grados de libertad

• Excede a tα/2,n1 + n2 -2 o es menor que –tα/2,n1 + n2 -2


Dos muestras: Pruebas sobre dos Medias
(Varianza conocidas)

Procedimiento General

• Se establece la hipótesis bilateral sobre dos medias

• �𝟏𝟏 y 𝒙𝒙
Se calculan los valores 𝒙𝒙 �𝟐𝟐 , y 𝝈𝝈𝟏𝟏 y 𝝈𝝈𝟐𝟐

• Estadístico:

• Se rechaza H0 a favor de H1: μ1 - μ2 ≠ d0, si

z > zα/2 ó z < –zα/2


Dos muestras: Pruebas sobre dos Medias
(Varianza desconocidas pero Iguales)

• Ejemplo: Se llevó a cabo un experimento para comparar el efecto de utilizar un material


en la fabricación de producto. Se probaron 12 piezas del material 1 y se probó cada pieza
en una máquina de medir la calidad del producto. Se probaron 10 piezas del material 2 de
manera similar. En cada caso se observó la calidad del producto. Las muestras del
material 1 revelaron una calidad promedio (codificado) de 85 unidades con una desviación
estándar muestral de 4. Las muestras del material 2 revelaron un promedio de 81 y una
desviación estándar muestral de 5. ¿Podríamos concluir, a un nivel de significancia de
0.05, que la calidad del producto fabricado con el material 1 excede al del material 2 en
más de 2 unidades?. Asumir que las poblaciones son normales con varianzas iguales.

H0 : μ1 - μ2 = 2 Unidades
H1 : μ1 - μ2 > 2 Unidades
qt(0.95,12+10-2)
• α = 0.05 [1] 1.724718

𝒙𝒙𝟏𝟏 −�
𝒙𝒙𝟐𝟐 −𝒅𝒅𝟎𝟎
• Región critica RC: t > 1.725, donde t=
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 +𝟏𝟏�𝒏𝒏𝟐𝟐

n1 + n2 -2=12+10-2 grados de libertad


Dos muestras: Pruebas sobre dos Medias
(Varianza desconocidas pero Iguales)

H0 : μ1 - μ2 = 2 �𝟐𝟐 = 81, s1 = 4, s2 = 5, n1 =12, n2 =10


�𝟏𝟏 = 85, 𝒙𝒙
𝒙𝒙
H1 : μ1 - μ2 > 2
𝒔𝒔𝟐𝟐𝟏𝟏 𝒏𝒏𝟏𝟏 −𝟏𝟏 +𝒔𝒔𝟐𝟐𝟐𝟐 𝒏𝒏𝟐𝟐 −𝟐𝟐
qt(0.95,12+10-2) 𝒔𝒔𝟐𝟐𝒑𝒑 =
𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐 −𝟐𝟐
[1] 1.724718
�𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐 − 𝒅𝒅𝟎𝟎
𝒕𝒕 =
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 + 𝟏𝟏�𝒏𝒏𝟐𝟐 n1 + n2 -2 grados de libertad

• Decisión: no rechazar H0 no podemos concluir que la


calidad del producto con el material 1 excede a la de con
el material 2 en más de 2 unidades.
Dos muestras: pruebas sobre dos medias
(Varianza desconocidas pero diferentes)

• Hay situaciones donde al analista no le es posible suponer que 𝝈𝝈𝟏𝟏 = 𝝈𝝈𝟐𝟐

• Si las poblaciones son normales

Estadístico:

Que tiene una distribución t aproximada con grados de libertad aproximados

El procedimiento de prueba consiste en no rechazar H0 cuando


Pruebas relacionadas con Medias
Comparación de dos Medias
• Ejemplo: Se quieren comparar los pesos de machos y hembras de
ejemplares de pulpos adultos. Se dispone de los datos del fichero
“Octopus.csv” que contiene los datos del peso de 15 ejemplares machos
y 13 hembras capturados en las costas de Mauritania. Se quiere probar la
igualdad de las medias teóricas ( μ1 ) de los pesos de las hembras con
( μ2 ) de los pesos de los machos con un error del 5%. (Usar R)

H0 : μ1 = μ2
H1 : μ1 ≠ μ2
• α = 0.05

octopus <- read.table("Octopus.csv",header=T,sep=";")


summary(octopus)

Weight Sex
Min. : 300 Female:13
1st Qu.:1480 Male :15
Median :1800
Mean :2099
3rd Qu.:2750
Max. :5400

attach(octopus)
names(octopus)
[1] "Weight" "Sex"
Comparación de dos Medias
H0 : μ1 = μ2
• Ejemplo: ….. H1 : μ1 ≠ μ2

# Comparación gráfica de las dos poblaciones


boxplot(Weight ~ Sex, ylab="Peso", xlab="Sexo", data=octopus, col="grey")
grid()
Comparación de dos Medias
H0 : μ1 = μ2
• Ejemplo: ….. H1 : μ1 ≠ μ2

# Calculos Estadísticos descriptivos de cada sub-población

tapply(Weight, Sex, mean, na.rm=TRUE)


Female Male
1405.385 2700.000
tapply(Weight, Sex, sd, na.rm=TRUE)
Female Male
621.9943 1158.3547
tapply(Weight, Sex,quantile,na.rm=TRUE)
$Female
0% 25% 50% 75% 100%
300 900 1500 1800 2400

$Male
0% 25% 50% 75% 100%
1150 1800 2700 3300 5400
H0 : μ1 = μ2
Comparación de dos Medias
H1 : μ1 ≠ μ2
• Ejemplo: Como n<30 se deben testear la normalidad de las poblaciones
para poder aplicar los diferentes test que la necesitan

# Test de la normalidad de la población

select.males <- octopus[,"Sex"]=="Male“

qqnorm(octopus[select.males,"Weight"])
qqline(octopus[select.males,"Weight"],
col="grey")

shapiro.test(octopus[select.males,"Weight"])

Shapiro-Wilk normality test

data: octopus[select.males, "Weight"]


W = 0.93501, p-value = 0.3238

• Al ser p= 32.38% > 5% aceptamos la hipótesis de normalidad. En caso de que


fuera rechazada, tendríamos que utilizar los test no paramétricos (Cómo el test
de Wilconxon –wilcox.test- o el test de Kruskal-Wallis –kruskal.test-)
H0 : μ1 = μ2
Comparación de dos Medias
H1 : μ1 ≠ μ2
• Ejemplo: …. Comprobamos la igualdad de medias para varianzas distintas …

# Test para la igualdad de las medias

t.test(Weight~Sex, alternative='two.sided’,
conf.level=.95,var.equal=FALSE, data=octopus)

Welch Two Sample t-test

data: Weight by Sex


t = -3.7496, df = 22.021, p-value = 0.001107
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2010.624 -578.607
sample estimates:
mean in group Female mean in group Male
1405.385 2700.000

• Al ser p= 0.001107 podemos considerar que las medias difieren


significativamente.
H0 : μ1 = μ2
Comparación de dos Medias
H1 : μ1 ≠ μ2
• Ejemplo: …. Comprobamos la igualdad de varianzas con el estadístico F …

# Test de la igualdad de varianzas

var.test(Weight ~ Sex, conf.level=.95,data=octopus)

F test to compare two variances

data: Weight by Sex


F = 0.28833, num df = 12, denom df = 14, p-value = 0.03713
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.09452959 0.92444666
sample estimates:
ratio of variances
0.2883299

• Al ser p= 0.03713 < 5% podemos considerar que las varianzas difieren


significativamente. Además el cociente entre ambas es 0.2883299
Elección del tamaño de la muestra para la
prueba de medias

• Se puede explotar las relaciones entre el tamaño de la muestra, el nivel de


significancia α y la potencia de la prueba 1 – β para alcanzar cierto estándar de
calidad

• Elegir el tamaño de la muestra antes del proceso de recolección de datos

• El tamaño de la muestra se determina de modo que permita lograr una buena


potencia 1 – β para una α fija y una alternativa específica fija.

• Esta alternativa fija puede estar en la forma de μ - μ0 en el caso de una


hipótesis que incluya una sola media o μ1 - μ2 en el caso de un problema que
implique dos medias
Elección del tamaño de la muestra para la
prueba de medias (una muestra)

• Suponga que deseamos probar la hipótesis:

• Con un nivel de significancia α, cuando se conoce la varianza σ2. Para una


alternativa específica, μ = μ0 + δ,
Elección del tamaño de la muestra para la
prueba de medias (una muestra)

• Bajo la hipótesis alternativa μ = μ0 + δ, el estadístico:

• Es variable normal estándar Z

• Elección del tamaño de la muestra (unilateral):

• Elección del tamaño de la muestra (bilateral):


Elección del tamaño de la muestra para la
prueba de medias (dos muestras)

• Suponga (n = n = n ) que deseamos probar la hipótesis:


1 2

• Con un nivel de significancia α, cuando se conocen las varianzas σ 1 y σ2. Para


una alternativa específica, μ1 - μ2 = d0 + δ,
Elección del tamaño de la muestra para la
prueba de medias (dos muestras)

• Bajo la hipótesis alternativa μ1 - μ2 = d0 + δ,, el estadístico:

• Sigue una normal estándar Z


Elección del tamaño de la muestra para la
prueba de medias (dos muestras)

• Elección del tamaño de la muestra (bilateral):

• Elección del tamaño de la muestra (unilateral):


Elección del tamaño de la muestra para la
prueba de medias (dos muestras)

• Para calcular la potencia del test t de una o dos muestras, o determinar sus
parámetros (cómo el tamaño de la mestra adecuado), puede utilizarse la
función pwr.t.test () de la librería pwr().
• Sintaxis:
pwr.t.test(n = NULL, d = NULL, sig.level = 0.05, power = NULL,
type = c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "less", "greater")
• Argumentos:

n Number of observations (per sample)


d Effect size
sig.level Significance level (Type I error probability)
power Power of test (1 minus Type II error probability)
type Type of t test : one- two- or paired-samples
a character string specifying the alternative hypothesis, must be one of
alternative
"two.sided" (default), "greater" or "less"
Potencia de una Prueba ( 1 – β )

• Para calcular la potencia del test t de una o dos muestras, o determinar sus
parámetros, puede utilizarse también la función power.t.test ()
• Sintaxis:
power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05,
power = NULL, type = c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "one.sided"),
strict = FALSE, tol = .Machine$double.eps^0.25
• Argumentos:

n number of observations (per group)


delta true difference in means
sd standard deviation
sig.level significance level (Type I error probability)
power power of test (1 minus Type II error probability)
type string specifying the type of t test. Can be abbreviated.
alternative one- or two-sided test. Can be abbreviated.
strict use strict interpretation in two-sided case
tol numerical tolerance used in root finding,
Potencia de una Prueba ( 1 – β )

• Ejemplo: Se seleccionan genéticamente dos tipos de vacas lecheras en función del


volumen de leche producido (A y B). El objetivo es detectar una diferencia
potencial en los niveles de proteína en la leche producida por estas sub-
poblaciones.
• Durante el estudio previo de una de estas sub-poblaciones (A), la desviación
estándar de los niveles de proteína en la leche era de 1,7 g/Kg de leche.

• Cómo aproximación se toma σ = 1.7 y α = 5% . El objetivo es tener una potencia


1- β = 80 % de posibilidades de detectar una diferencia de media en los niveles de
proteína de δ = 1g/Kg de leche entre las dos poblaciones.

• Determinar el número de vacas lecheras necesaria para alcanzar una potencia del
80%

• Usar R
Potencia de una Prueba ( 1 – β )

• Ejemplo:… Determinar el número de vacas lecheras necesaria para alcanzar una


potencia del 80%...

power.t.test ( delta = 1, sd=1.7, sig.level = 0.05, power = 0.8)

Two-sample t test power calculation

n = 46.34674
delta = 1
sd = 1.7
sig.level = 0.05
power = 0.8
alternative = two.sided

NOTE: n is number in *each* group

• En este caso tomaremos n=47, que nos garantiza alcanzar una potencia del 80%
Potencia de una Prueba ( 1 – β )

• Ejemplo (parte 2): Calcular la potencia de la prueba para n=20 individuos por grupo.

power.t.test ( n=20, delta = 1, sd=1.7, sig.level = 0.05)

Two-sample t test power calculation

n = 20
delta = 1
sd = 1.7
sig.level = 0.05
power = 0.4416243
alternative = two.sided

NOTE: n is number in *each* group

• Para n=20, se tiene una potencia del 44.16%, esto es de probabilidad de detectar
diferencias entre las medias de niveles de proteína de δ = 1g/Kg de leche.
Potencia de una Prueba ( 1 – β )

• Ejemplo (parte 3): Calcular las diferencias detectables (δ ) si la potencia de la


prueba es del 80% y n=20 el número de individuos por grupo.

power.t.test ( n=20, sd=1.7, sig.level = 0.05, power = 0.8)

Two-sample t test power calculation

n = 20
delta = 1.545522
sd = 1.7
sig.level = 0.05
power = 0.8
alternative = two.sided

NOTE: n is number in *each* group

• Para n=20 y 1- β = 80 % se pueden detectar sólo diferencias significativas de los


niveles de proteína de 1.54 g/Kg de leche.
Una muestra: prueba sobre una sola
proporción
• Las pruebas de hipótesis que se relacionan con proporciones se requieren en
muchas áreas
• Consideramos el problema de probar la hipótesis de que la proporción de
éxitos en un experimento binomial es igual a algún valor específico

• Hipótesis nula H0: p = p0, donde p es el parámetro de la distribución


binomial.

• Hipótesis Alternativa: (Unilateral o Bilateral): p < p0 , p > p0 , p ≠ p0

• La variable aleatoria es la variable aleatoria binomial X (aunque también podríamos


� = 𝑿𝑿⁄𝒏𝒏 que es un estimador puntual de la proporción p de una
usar el estadístico 𝒑𝒑
población.

• Los valores de X que están lejos de la media μ = np0 conducirán al rechazo de la


hipótesis nula H0

• Como X es una variable binomial discreta, es poco probable que se pueda establecer
una región crítica de tamaño exacto α.
Una muestra: prueba sobre una sola
proporción

• Hipótesis

• Estadístico: la distribución binomial para calcular el valor P con p = p0

• El valor x es el número de éxitos en nuestra muestra de tamaño n. Si


este valor P es menor o igual que α, la prueba es significativa al nivel α
y rechazamos H0 a favor de H1.
Una muestra: prueba sobre una sola
proporción

• Hipótesis (nivel de significancia α)

• Utilizamos la distribución binomial para calcular el valor P

• Rechazamos H0 a favor de H1 si este valor P es menor o igual que α.

• Hipótesis (nivel de significancia α)

• Utilizamos la distribución binomial para calcular el valor P

• Rechazamos H0 a favor de H1 si este valor P es menor o igual que α.


Una muestra: prueba sobre una sola
proporción

• Ejemplo: Un constructor afirma que en el


70% de los apartamentos que se construyen
actualmente en el sur de la isla se instalan
aparatos de aire acondicionado. ¿Estaría de
acuerdo con esta afirmación si una encuesta
aleatoria de nuevos apartamentos revelara
que 8 de 15 tienen aire acondicionado?
Utilizar un nivel de significancia de 0.1

• 1. H0 : p=0.7
• 2. H1 : p≠0.7
• 3. α = 0.1
• 4. Estadístico de prueba: Variable binomial X con p = 0.7 y n = 15.
• 5. Cálculos: x = 8 y np0 = (15)(0.7) = 10.5. el valor P calculado es

2*pbinom(8,size=15,prob=0.7)
[1] 0.2622851
• 6. Decisión: No rechazar H0
Contraste para la proporción en una población

• La función binom.test ()
• Sintaxis:
binom.test(x,n,p=0.5,alternative=c("two.sided","less","greater"),
conf.level=0.95)

• Argumentos:

• x puede especificar dos cosas. O bien simplemente el número de éxitos, o bien,


mediante una matriz de dos columnas, el número de éxitos y de fracasos en
cada muestra.
• n especifica el número de datos de la muestra en el caso en que x sea el
número de éxitos, y es ignorado en el caso en que x proporcione también el
número de fracasos.
• alternative especifica la dirección de la hipótesis alternativa, tomando los
valores "two.sided", "greater" o "less".
• conf.level es el nivel de confianza de los intervalos que se muestran entre los
resultados.
Una muestra: prueba sobre una sola
proporción
• Ejemplo: Estamos interesados en la intención de votos de un candidato
A en las elecciones municipales. En un “poll” de 1040 votantes el
candidato A obtiene el 52.4% de los votos. ¿Podemos considerar con un
umbral del 95% que este candidato ganará la elección? (Usar R)
num.vot.A <- round(0.524 * 1040,0)
• 1. H0 : p=0.5 num.vot.A
• 2. H1 : p≠0.5
[1] 545
binom.test(num.vot.A, n=1040, p=0.5, alternative="greater")

Exact binomial test

data: num.vot.A and 1040


number of successes = 545, number of trials = 1040, p-value = 0.06431

alternative hypothesis: true probability of success is greater than 0.5


95 percent confidence interval:
0.4980579 1.0000000
sample estimates:
probability of success
0.5240385
• Cómo p > 5% aceptamos la hipótesis que la proporción es igual al 50%, en consecuencia
no podemos afirmar que el candidato A con este “pool” ganará las elecciones.
Una muestra: prueba sobre una sola
proporción

• Ejemplo: Establezcamos la hipótesis bilateral con 0.95, 0.025 y 0.975


• 1. H0 : p=0.5
• 2. H1 : p≠0.5 num.vot.A <- round(0.524 * 1040,0)
num.vot.A
[1] 545
binom.test(nbr.vot.A,n=1040)

Exact binomial test

data: nbr.vot.A and 1040


number of successes = 545, number of trials = 1040, p-value = 0.1286
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.4931733 0.5547673
sample estimates:
probability of success
0.5240385

• Cómo p > 5% aceptamos la hipótesis que la proporción es igual al 50% también, pero al
ser bilateral podemos decir que el porcentaje de intención de voto está entre 49.31% y
55.47%
Una muestra: prueba sobre una sola
proporción (n grande)

• Para n grande es preferible la aproximación de la curva normal, con


los parámetros μ = np0 y σ 2 = np0q0,

• Siempre y cuando p0 no esté demasiado cerca de 0 o de 1


• El valor z para probar p = p0 es

• Para una prueba bilateral al nivel de significancia α, la región crítica es


z < –zα/2 o z > zα/2

• Para la alternativa unilateral p < p0 , la región crítica es z < –zα

• Para la alternativa p > p0 , la región crítica es z > zα

• Para aplicar esta aproximación se necesita que np0 y np0q0 sean mayores o
iguales a 5
Una muestra: prueba sobre una sola
proporción (n grande)

• Prueba bilateral al nivel de significancia α,


la región crítica RC es z < –zα/2 o z > zα/2

• Alternativa unilateral p < p0 , la región


crítica RC es z < –zα

• Alternativa unilateral p > p0 , la región


crítica RC es z > zα
Una muestra: prueba sobre una sola
proporción (n grande)

• Ejemplo: Se considera que un medicamento que se prescribe comúnmente


para aliviar la tensión nerviosa tiene una eficacia de tan sólo 60%. Los
resultados experimentales de un nuevo fármaco administrado a una muestra
aleatoria de 100 adultos que padecían tensión nerviosa revelaron que 70
de ellos sintieron alivio. ¿Esta evidencia es suficiente para concluir que el
nuevo medicamento es mejor que el que se prescribe comúnmente? Utilizar
un nivel de significancia de 0.05.

• 1. H0 : p=0.6
• 2. H1 : p > 0.6
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica z > 1.645
• 5. Cálculos: x = 70 n = 100, 𝒑𝒑�= 70/100=0.7

• 6. Decisión: rechazar H0 y concluir que el nuevo fármaco es mejor


Una muestra: prueba sobre una sola
proporción
Intervalo de Confianza Hipótesis Bilateral

𝒙𝒙
• �=
En general para 𝒑𝒑
𝒏𝒏
la esperanza matemática del estimador es

� = 𝒑𝒑𝒐𝒐
𝐸𝐸 𝒑𝒑

• El estimador de la desviación del estimador (para una población de


tamaño N y un tamaño de muestra de n suficientemente grande):

𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛
𝜎𝜎� =
𝑛𝑛 − 1 𝑁𝑁

• El intervalo de confianza (1-α ): 𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛


𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛 − 1 𝑁𝑁

• El intervalo de confianza (1-α ) para N,n grandes e hipótesis bilateral:

𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
Una muestra: prueba sobre una sola
proporción
Intervalos de Confianza Hipótesis laterales
𝑝𝑝̂ 1 − 𝑝𝑝̂
• Se puede realizar una aproximación simple de 𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
Para contemplar el caso de intervalos de confianza de una cola

• El intervalo de confianza inferior (1-α ) para N,n grandes

𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝̂ − 𝑧𝑧𝛼𝛼 ≤ 𝑝𝑝
𝑛𝑛

• El intervalo de confianza superior (1-α ) para N,n grandes

𝑝𝑝̂ 1 − 𝑝𝑝̂
𝑝𝑝 ≥ 𝑝𝑝̂ + 𝑧𝑧𝛼𝛼
𝑛𝑛
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra

• Consideremos la hipótesis bilateral:

•H 0 : p = p0
•H 1 : p ≠ p0

𝑝𝑝0 + δ

• Si p es el valor verdadero de la proporción de la población es posible


calcular aproximadamente el error β de la hipótesis alternativa H1
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra

•H 0 : p = p0
•H 1 : p ≠ p0

𝑝𝑝0 + δ

𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 � 𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �


𝑝𝑝𝑜𝑜 − 𝑝𝑝 − 𝑧𝑧𝛼𝛼� 𝑛𝑛 𝑝𝑝𝑜𝑜 − 𝑝𝑝 + 𝑧𝑧𝛼𝛼� 𝑛𝑛
2 2
𝛽𝛽 = 𝑃𝑃 < 𝑧𝑧 <
𝑝𝑝(1 − 𝑝𝑝)� 𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛 𝑛𝑛
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra

• Hipótesis Bilateral:

•H 0 : p = p0
•H 1 : p ≠ p0

𝑝𝑝0 + δ

𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 � 𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �


𝑝𝑝𝑜𝑜 − 𝑝𝑝 + 𝑧𝑧𝛼𝛼� 𝑛𝑛 𝑝𝑝𝑜𝑜 − 𝑝𝑝 − 𝑧𝑧𝛼𝛼� 𝑛𝑛
2 2
𝛽𝛽 = 𝑃𝑃 𝑧𝑧 ≤ − 𝑃𝑃 𝑧𝑧 ≤
𝑝𝑝(1 − 𝑝𝑝)� 𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛 𝑛𝑛

𝒛𝒛𝜶𝜶� 𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 + 𝒛𝒛𝜷𝜷 𝑝𝑝(1 − 𝑝𝑝)


𝟐𝟐
𝑛𝑛 =
𝑝𝑝 − 𝑝𝑝𝑜𝑜
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra

• Hipótesis lateral:

•H 0 : p = p0
•H 1 : p < p0

𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �
𝑝𝑝𝑜𝑜 − 𝑝𝑝 − 𝑧𝑧𝛼𝛼� 𝑛𝑛
2
𝛽𝛽 = 1 − 𝑃𝑃 𝑧𝑧 ≤
𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛

𝒛𝒛𝜶𝜶 𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 + 𝒛𝒛𝜷𝜷 𝑝𝑝(1 − 𝑝𝑝)


𝑛𝑛 =
𝑝𝑝 − 𝑝𝑝𝑜𝑜
Una muestra: prueba sobre una sola
proporción
Error tipo II y tamaño de la muestra

• Hipótesis lateral:

•H 0 : p = p0
•H 1 : p > p0

𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 �
𝑝𝑝𝑜𝑜 − 𝑝𝑝 + 𝑧𝑧𝛼𝛼� 𝑛𝑛
2
𝛽𝛽 = 𝑃𝑃 𝑧𝑧 ≤
𝑝𝑝(1 − 𝑝𝑝)�
𝑛𝑛

𝒛𝒛𝜶𝜶 𝑝𝑝𝑜𝑜 1 − 𝑝𝑝0 + 𝒛𝒛𝜷𝜷 𝑝𝑝(1 − 𝑝𝑝)


𝑛𝑛 =
𝑝𝑝 − 𝑝𝑝𝑜𝑜
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones infinitas

𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛 𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛


𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼 𝐸𝐸 = 𝑧𝑧𝛼𝛼
2 𝑛𝑛 − 1 𝑁𝑁 2 𝑛𝑛 − 1 𝑁𝑁

• Si se considera N muy grande y para tamaños muestrales grandes:

𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂


𝑝𝑝̂ 1 − 𝑝𝑝̂ 2
𝐸𝐸 = 𝑧𝑧𝛼𝛼 𝑛𝑛 =
2 𝑛𝑛 𝐸𝐸 2

𝒙𝒙
• � = se puede tomar de una muestra piloto o de
La proporción muestral 𝒑𝒑
𝒏𝒏
algún estudio análogo. En caso de desconocimiento absoluto se puede
� 𝟏𝟏 − 𝒑𝒑
tomar la cota superior de 0.25 como valor de 𝒑𝒑 � . Esto equivale a
asumir que p=0.5. En este caso
𝑧𝑧𝛼𝛼2�
2
𝑛𝑛 =
4 𝐸𝐸 2
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones finitas

𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛
𝐸𝐸 = 𝑧𝑧𝛼𝛼
2 𝑛𝑛 − 1 𝑁𝑁

• Si la muestra no es muy pequeña (𝒏𝒏 ≈ 𝒏𝒏 − 𝟏𝟏) se puede cambiar la ecuación anterior por:

𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂


2 2
𝐸𝐸 2 = −
𝑛𝑛 𝑁𝑁
𝑧𝑧𝛼𝛼2� 𝑁𝑁 𝑝𝑝̂ 1 − 𝑝𝑝̂
2
𝑛𝑛 =
𝐸𝐸 2 𝑁𝑁 + 𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂
2

• Si se toma la cota superior de 0.25 (desconocimiento absoluto) como valor


� 𝟏𝟏 − 𝒑𝒑
de 𝒑𝒑 � .

𝑧𝑧𝛼𝛼2� 𝑁𝑁
2
𝑛𝑛 =
4 𝐸𝐸 2 𝑁𝑁 + 𝑧𝑧𝛼𝛼2�
2
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones infinitas
• Ejemplo: El ayuntamiento de Las Palmas de GC desea conocer la proporción
de familias de una determinada zona que tienen niños en edad escolar.
Realizada una encuesta entre 400 familias, resulta que 220 tienen niños en
edad escolar. Se pide:
a) Estimar con confianza del 90% la proporción de familias con niños en
edad escolar en esa zona.
b) Para ese mismo grado de confianza, determinar el tamaño muestral
necesario para una semiamplitud ( margen de error, E ) de 0.03

• a) Se supone que se trata de una zona con un número de familias muy grande, es decir
que se trabaja con un muestreo aleatorio simple (población prácticamente infinita)

𝑥𝑥 220
La proporción muestral es 𝑝𝑝̂ = = = 0.55
𝑛𝑛 400
qnorm(0.95)
𝛼𝛼� = 0.05
2 [1] 1.644854

𝑧𝑧𝛼𝛼�2 = 1.644854
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones infinitas
• Ejemplo: …..
𝑝𝑝̂ 1 − 𝑝𝑝̂
• El intervalo de confianza (1-α ) y n grande : 𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
2 𝑛𝑛
0.55 ∗ 0.45 (0.509, 0.591)
0.55 ± 1.644854
400

• El intervalo de confianza para el 90% es: (0.509, 0.591)

• b) Para muestreo aleatorio simple:

𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂


2
𝑛𝑛 =
𝐸𝐸 2

1.6448542 0.55 ∗ 0.45


𝑛𝑛 = = 744.156 ≈ 𝟕𝟕𝟕𝟕𝟕𝟕
0.032
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones finitas
• Ejemplo: Se quiere elaborar una encuesta a una Comunidad con 4000
familias para comprobar si se está de acuerdo con la política social del
gobierno autonómico. Se trata de una encuesta periódica (cada 3 años) y en
la ocasión anterior el 30% de las familias estaban de acuerdo. Sabiendo que
se quiere obtener un 95% de confianza y una semiamplitud (o error
máximo) del 5% se pide:
a) Obtener el tamaño de la muestra
b) Estimar por punto y por intervalo la proporción de familias que está de
acuerdo con la política social sabiendo que la proporción muestral ha sido
de un 20% en esta ocasión (se debe usar el tamaño de muestra obtenido
en el apartado a)
• � 𝟏𝟏 − 𝒑𝒑
a) Utilizamos como valor de 𝒑𝒑 � los valores de la encuesta anterior (0.3 *0.7) y
consideramos una muestra de una población finita de N=4000
qnorm(0.975)
𝛼𝛼� = 0.025 𝑧𝑧𝛼𝛼�2 = 1.959964 𝐸𝐸 = 0.05
2 [1] 1.959964

𝑧𝑧𝛼𝛼2� 𝑁𝑁 𝑝𝑝̂ 1 − 𝑝𝑝̂


2
𝑛𝑛 =
𝐸𝐸 2 𝑁𝑁 + 𝑧𝑧𝛼𝛼2� 𝑝𝑝̂ 1 − 𝑝𝑝̂
2
1.9599642 ∗ 4000 ∗ 0.3 ∗ 0.7
𝑛𝑛 = = 298.6 ≈ 𝟐𝟐𝟐𝟐𝟐𝟐
0.052 ∗ 4000 + 1.9599642 ∗ 0.3 ∗ 0.7
Una muestra: cálculo del tamaño muestral para
estimar la proporción en poblaciones finitas
• Ejemplo: …..
• b) Para una muestra de una población finita de N=4000, El intervalo de
confianza (1-α ):
𝛼𝛼� = 0.025 𝑝𝑝̂ 1 − 𝑝𝑝̂ 𝑁𝑁 − 𝑛𝑛
2 𝑝𝑝̂ ± 𝑧𝑧𝛼𝛼
qnorm(0.975) 2 𝑛𝑛 − 1 𝑁𝑁
[1] 1.959964

𝑧𝑧𝛼𝛼�2 = 1.959964
0.16 4000 − 299
𝑝𝑝̂ 1 − 𝑝𝑝̂ = 𝟎𝟎. 𝟐𝟐 ∗ 0.8 = 0.16 0.2 ± 1.959964
299 − 1 4000

• El intervalo de confianza (1-α ) del 95% es: (𝟎𝟎. 𝟏𝟏𝟏𝟏𝟏𝟏, 𝟎𝟎. 𝟐𝟐𝟐𝟐𝟐𝟐)
Dos muestras: pruebas sobre dos
proporciones

• Se utilizan en casos en que se desea probar la hipótesis de que dos


proporciones son iguales

• En general, deseamos probar la hipótesis nula de que dos proporciones, o


parámetros binomiales, son iguales. Es decir, p1 = p2 contra una de las
alternativas p1 < p2, p1 > p2, o p1 ≠ p2.

• El estadístico sobre el que basamos nuestra decisión es la variable aleatoria


� 𝟏𝟏 − 𝑷𝑷
𝑷𝑷 � 𝟐𝟐 . Se seleccionan al azar muestras independientes de tamaños n1 y n2 de
dos poblaciones binomiales y se calcula la proporción de éxitos 𝑷𝑷� 𝟏𝟏 y 𝑷𝑷
� 𝟐𝟐 para las
dos muestras.

• � 𝟏𝟏 − 𝑷𝑷
Para n1 y n2 suficientemente grandes, el estimador puntual 𝑷𝑷 � 𝟐𝟐 está
distribuido de forma casi normal con media y varianza:
Dos muestras: pruebas sobre dos
proporciones

• Se establece la(s) región(es) crítica(s) usando la variable normal estándar

• Cuando H0 es verdadera, podemos sustituir p1 = p2 = p y q2 = q1 = q (donde q y


p son los valores comunes)

• Para calcular un valor de Z hay que estimar los parámetros q y p . Al agrupar los
datos de ambas muestras el estimado agrupado de la proporción 𝒑𝒑 � es

donde x1 y x2 son el número de éxitos en cada una de las dos muestras.


Dos muestras: pruebas sobre dos
proporciones

x1 y x2 son el número de éxitos en cada una de las dos muestras.

• El valor z para probar p1 = p2 se determina a partir de la fórmula

• Las regiones críticas para las hipótesis alternativas adecuadas se establecen


utilizando puntos críticos de la curva normal estándar (al nivel de significancia α)

• Hipótesis alternativa: p1 ≠ p2,, la región crítica RC es z < -zα/2 o z > zα/2


• Hipótesis alternativa: p1 < p2, la región crítica RC será z < - zα;
• Hipótesis alternativa: p1 > p2 la región crítica RC será z > zα.
Dos muestras: pruebas sobre dos
proporciones

• Ejemplo: Se organizará una votación entre los estudiantes de tercero y cuarto de la EII para
determinar si se aprueba una propuesta para la consideración de festivo el cumpleaños del
director Como la fecha en que se propone realizarla cae en el límite de las vacaciones del
semestre, muchos estudiantes de cuarto consideran que la propuesta será aprobada debido a
la gran proporción de estudiantes que está a favor de considerarlo. Se realiza una encuesta
para determinar si hay una diferencia significativa en la proporción de estudiantes de
tercero y de cuarto que favorecen la propuesta. Si 120 de 200 votantes de tercero
favorecen la propuesta y 240 de 500 estudiantes de cuarto también lo hacen, ¿estaríamos
de acuerdo en que la proporción de estudiantes de tercero que favorecen la propuesta es
mayor que la proporción de estudiantes de cuarto? Utilice un nivel de significancia de α =
0.05.

• 1. H 0 : p1 = p2
qnorm(0.95)
[1] 1.644854
• 2. H 1 : p1 > p2
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica z > zα=1.644854
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: 120 de 200 votantes de tercero favorecen la propuesta y 240 de
500 estudiantes de cuarto también lo hacen

• 1. H 0 : p1 = p2
• 2. H 1 : p1 > p2
• 3. α = 0.05
• 4. Estadístico de prueba z, región crítica RC: z > 1.644854
• 5. Cálculos:

• 6. Decisión: rechazar H0
Contrastes de Hipótesis Paramétricas
Contraste para la proporción en una población
• La función prop.test()
Se parte del hecho de que conocemos el número de éxitos y fracasos en la
muestra. Si no fuera así, sino que tenemos los datos en una hoja de datos,
podemos rápidamente tabularla mediante la función table() a la que sólo
hay que especificarle la hoja de datos a tabular y, si ésta tuviera más de
una variable, cuál de ellas queremos tabular.
• Sintaxis:
prop.test(x, n, p = NULL, alternative = c("two.sided", "less",
"greater"), conf.level = 0.95, correct = TRUE)

• Argumentos:
• x puede especificar dos cosas. O bien simplemente el número de éxitos, o bien, mediante una matriz de
dos columnas, el número de éxitos y de fracasos en cada muestra.
• n especifica el número de datos de la muestra en el caso en que x sea el número de éxitos, y es ignorado
en el caso en que x proporcione también el número de fracasos.
• p es el vector de probabilidades de éxito bajo la hipótesis nula. Debe ser un vector de la misma
dimensión que el número de elementos especificado en x.
• alternative especifica la dirección de la hipótesis alternativa, tomando los valores "two.sided", "greater"
o "less".
• conf.level es el nivel de confianza de los intervalos que se muestran entre los resultados.
• correct especifica si se usa la corrección por continuidad de Yates. La opción por defecto es que sí se
use esta corrección.
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: …..
Tercero Cuarto
Si 120 240
No 80 260

prop.test(c(120,240) ,n=c(200,500))
2-sample test for equality of proportions with continuity correction

data: c(120, 240) out of c(200, 500)


X-squared = 7.7619, df = 1, p-value = 0.005336
alternative hypothesis: two.sided
95 percent confidence interval:
0.03570763 0.20429237
sample estimates:
prop 1 prop 2
0.60 0.48

• El valor de p es menor que el 5% , lo que implica que se rechaza la H0,


Dos muestras: pruebas sobre dos
proporciones

• Ejemplo: Se trata de analizar la igualdad de varias proporciones. Considérese los


datos sobre color de pelo de chicos y chicas que se presentan en la tabla siguiente.
Se desea comparar las proporciones de chicos en los diferentes grupos que tienen
diferentes colores de cabello. Se quiere analizar si las proporciones son idénticas en
todos los grupos (tomar un nivel de error del 5%, usar R)

Negro
Rubios Pelirrojos Castaños Oscuros
Azabache
Chicos 592 119 849 504 36
Chicas 544 97 677 451 14

• Hformados
0: las proporciones de los chicos en los distintos grupos
con los colores de pelo son iguales.
• H : Alternativa, las proporciones de chicos son diferentes.
1
• α = 0.05
Dos muestras: pruebas sobre dos
proporciones
• Ejemplo: …..

prop.test(c(592,119,849,504,36),n=c(1136,216,1526,955,50))

5-sample test for equality of proportions without continuity correction

data: c(592, 119, 849, 504, 36) out of c(1136, 216, 1526, 955, 50)
X-squared = 10.467, df = 4, p-value = 0.03325
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4 prop 5
0.5211268 0.5509259 0.5563565 0.5277487 0.7200000

• El valor de p es menor que el 5% , lo que implica que se rechaza la H0, esto es las
proporciones de los chicos en los distintos grupos formados con los colores de pelo no
son iguales.
Pruebas de una y dos muestras referentes a
varianzas

• Las especificaciones a menudo se cumplen si la varianza del proceso es


suficientemente pequeña.

• Para determinar si no se cumple la suposición de varianzas iguales, se aplica una


prueba que compara dos varianzas antes de llevar a cabo una prueba t sobre
dos medias

• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 es igual a un valor


específico 𝝈𝝈𝟐𝟐𝟎𝟎 contra una de las alternativas comunes:
𝝈𝝈𝟐𝟐 < 𝝈𝝈𝟐𝟐𝟎𝟎 , 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎 o 𝝈𝝈𝟐𝟐 ≠ 𝝈𝝈𝟐𝟐𝟎𝟎 .
Pruebas de una y dos muestras referentes a
varianzas
• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 es igual a un valor
específico 𝝈𝝈𝟐𝟐𝟎𝟎 contra una de las alternativas:
𝝈𝝈𝟐𝟐 < 𝝈𝝈𝟐𝟐𝟎𝟎 , 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎 o 𝝈𝝈𝟐𝟐 ≠ 𝝈𝝈𝟐𝟐𝟎𝟎 .
• Estadístico: Si suponemos que la distribución de la población que se muestrea es
normal, el valor de chi cuadrada para probar 𝝈𝝈𝟐𝟐 = 𝝈𝝈𝟐𝟐𝟎𝟎 es dado por

• Donde n es el tamaño de la muestra, 𝒔𝒔𝟐𝟐 es la varianza muestral y 𝝈𝝈𝟐𝟐𝟎𝟎 es el valor de


𝝈𝝈𝟐𝟐 dado por la hipótesis nula

• Si H0 es verdadera, χ𝟐𝟐 es un valor de la distribución chi cuadrada con v = n - 1


grados de libertad. Para un nivel de significancia α,
• Alternativa Bilateral, 𝝈𝝈𝟐𝟐 = 𝝈𝝈𝟐𝟐𝟎𝟎 , la región crítica es χ𝟐𝟐 < χ𝟐𝟐𝟏𝟏−𝜶𝜶⁄ o χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶⁄
𝟐𝟐 𝟐𝟐
• Alternativa unilateral 𝝈𝝈𝟐𝟐 < 𝝈𝝈𝟐𝟐𝟎𝟎 , la región crítica es χ𝟐𝟐 < χ𝟐𝟐𝟏𝟏−𝜶𝜶
• Alternativa unilateral 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎 , la región crítica es χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶
Pruebas de una y dos muestras referentes a
varianzas
• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 es igual a un valor
específico 𝝈𝝈𝟐𝟐𝟎𝟎 contra la alternativa 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎

• Ejemplo: Un fabricante de baterías para automóvil afirma que la duración de sus baterías
se distribuye de forma aproximadamente normal con una desviación estándar, 𝝈𝝈 , igual a
0.9 años. Si una muestra aleatoria de 10 de tales baterías tiene una desviación estándar
𝒔𝒔 de 1.2 años. ¿Es correcto considerar que 𝝈𝝈 > 0.9 años? Utilice un nivel de significancia
de 0.05.

• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 =0.81


• Hipótesis Alternativa H1 : 𝝈𝝈𝟐𝟐 > 0.81
• Nivel de significancia α=0.05
• n =10, 𝝈𝝈 𝟐𝟐
𝟎𝟎 = 0.81, 𝒔𝒔 =1.2

• Si H0 es verdadera, χ𝟐𝟐 es un valor de la distribución chi cuadrada con v = n – 1 = 9


grados de libertad.

• Alternativa unilateral 𝝈𝝈𝟐𝟐 > 𝝈𝝈𝟐𝟐𝟎𝟎 , la región crítica RC es χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶
Pruebas de una y dos muestras referentes a
varianzas
• Hipótesis nula H0 de que la varianza de la población 𝝈𝝈𝟐𝟐 =0.81
• Hipótesis Alternativa H1 : 𝝈𝝈𝟐𝟐 > 0.81
• v = 9 grados de libertad, 1-α =0.95
qchisq(0.95,9)
[1] 16.91898
• Región crítica RC (hipótesis alternativa) χ𝟐𝟐 > χ𝟐𝟐𝜶𝜶
• Rechazamos la hipótesis nula H0 cuando χ𝟐𝟐 >16.91898

• 𝒔𝒔 𝟐𝟐
=1.44

pchisq(16,9)
[1] 0.9331184

• Hay muy poca evidencia para 0.05, pero rechazamos la hipótesis nula
H0 por el alto valor del estadístico χ𝟐𝟐 estamos al 0.066
Pruebas de una y dos muestras referentes a
varianzas
Problema de probar la igualdad de las
varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos poblaciones.

• Hipótesis nula H0 de que 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐 contra una de las alternativas: 𝝈𝝈𝟐𝟐𝟏𝟏 < 𝝈𝝈𝟐𝟐𝟐𝟐 , 𝝈𝝈𝟐𝟐𝟏𝟏 > 𝝈𝝈𝟐𝟐𝟐𝟐 o
𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐 .

• Estadístico F. Para muestras aleatorias independientes de tamaños n1 y n2, de las dos


poblaciones, el valor f para probar 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐 es el cociente

• Donde 𝒔𝒔𝟐𝟐𝟏𝟏 y 𝒔𝒔𝟐𝟐𝟐𝟐 son las varianzas calculadas de las dos muestras

• El cociente f = 𝒔𝒔𝟐𝟐𝟏𝟏 / 𝒔𝒔𝟐𝟐𝟐𝟐 es un valor de la distribución F con v1 = n1 – 1 y v2 = n2–1 grados


de libertad.

• Regiones críticas de tamaño α


• Hipótesis alternativas unilaterales 𝝈𝝈𝟐𝟐𝟏𝟏 < 𝝈𝝈𝟐𝟐𝟐𝟐 , f < f1-α(v1, v2)
• Hipótesis alternativas unilaterales 𝝈𝝈𝟐𝟐𝟏𝟏 > 𝝈𝝈𝟐𝟐𝟐𝟐 , f > fα(v1, v2)
• Hipótesis alternativa bilateral 𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐 , f < f 1-α/2(v1, v2) o f > fα/2(v1, v2)
Pruebas de una y dos muestras referentes a
varianzas
Problema de probar la igualdad de las
varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos poblaciones.

• Ejemplo (parte 1): Se llevó a cabo un experimento para comparar el efecto de utilizar un
material en la fabricación de producto. Se probaron 12 piezas del material 1 y se probó
cada pieza en una máquina de medir la calidad del producto. Se probaron 10 piezas del
material 2 de manera similar. En cada caso se observó la calidad del producto. Las
muestras del material 1 revelaron una calidad promedio (codificado) de 85 unidades con
una desviación estándar muestral de 4. Las muestras del material 2 revelaron un
promedio de 81 y una desviación estándar muestral de 5. ¿Podríamos concluir, a un nivel
de significancia de 0.05, que la calidad del producto fabricado con el material 1 excede al
del material 2 en más de 2 unidades?. Asumir que las poblaciones son normales con
varianzas iguales.
H0 : μ1 - μ2 = 2 Unidades
H1 : μ1 - μ2 > 2 Unidades

qt(0.95,12+10-2)
• α = 0.05 [1] 1.724718

𝒙𝒙𝟏𝟏 −�
𝒙𝒙𝟐𝟐 −𝒅𝒅𝟎𝟎
• Región critica RC : t > 1.725, donde t=
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 +𝟏𝟏�𝒏𝒏𝟐𝟐

n1 + n2 -2=12+10-2 grados de libertad


Dos muestras: Pruebas sobre dos Medias
Problema de probar la igualdad de las
varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos poblaciones.

H0 : μ1 - μ2 = 2 �𝟐𝟐 = 81, s1 = 4, s2 = 5, n1 =12, n2 =10


�𝟏𝟏 = 85, 𝒙𝒙
𝒙𝒙
H1 : μ1 - μ2 > 2
𝒔𝒔𝟐𝟐𝟏𝟏 𝒏𝒏𝟏𝟏 −𝟏𝟏 +𝒔𝒔𝟐𝟐𝟐𝟐 𝒏𝒏𝟐𝟐 −𝟐𝟐
qt(0.95,12+10-2) 𝒔𝒔𝟐𝟐𝒑𝒑 =
𝒏𝒏𝟏𝟏 +𝒏𝒏𝟐𝟐 −𝟐𝟐
[1] 1.724718
�𝟏𝟏 − 𝒙𝒙
𝒙𝒙 �𝟐𝟐 − 𝒅𝒅𝟎𝟎
𝒕𝒕 =
𝒔𝒔𝒑𝒑 𝟏𝟏�𝒏𝒏𝟏𝟏 + 𝟏𝟏�𝒏𝒏𝟐𝟐 n1 + n2 -2 grados de libertad

• Decisión: no rechazar H0 no podemos concluir que la


calidad del producto con el material 1 excede a la de con
el material 2 en más de 2 unidades.
Pruebas de una y dos muestras referentes a
varianzas
Problema de probar la igualdad de las
varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos poblaciones.

• Ejemplo (parte 2): Justificar la decisión de considerar que las poblaciones son
normales con varianzas iguales . Tomar un nivel de significancia de 0.1

• H : 𝝈𝝈 = 𝝈𝝈
0
𝟐𝟐
𝟏𝟏
𝟐𝟐
𝟐𝟐
• H :𝝈𝝈 ≠ 𝝈𝝈
1
𝟐𝟐
𝟏𝟏
𝟐𝟐
𝟐𝟐 qf(0.95, 11,9)
[1] 3.102485
• α = 0.1 v1 = n1 -1 =12-1, v2 = n2 -1 =10-1 grados de libertad qf(0.05, 11,9)
[1] 0.3452773

• Hipótesis alternativa bilateral 𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐 , rechazamos la hipótesis nula cuando


f < f 1-α/2(v1, v2) o f > fα/2(v1, v2), f < 0.345 o f > 3.102, con f = 𝒔𝒔𝟐𝟐𝟏𝟏 / 𝒔𝒔𝟐𝟐𝟐𝟐

𝒔𝒔𝟐𝟐𝟏𝟏 =16 𝒔𝒔𝟐𝟐𝟐𝟐 =25  f = 16/25 = 0.64

• Decisión: no rechazar H0 y concluir que no hay suficiente evidencia


de que las varianzas sean diferentes.
Pruebas de una y dos PT<-seq(0,4,0.001)
muestras referentes n1<-12 I+D+i
a varianzas n2<-10
alfa<-0.1
Problema de probar la igualdad s1<-4
de las varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos s2<-5
poblaciones. DP0<-df(PT, n1-1,n2-1)
plot(PT,DP0, type = "l", col="brown", ylab
= "Densidad de Probabilidad", xlab =
"Estadístico F (11,9) (cociente varianzas)")
H0 : 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐 f=s1^2/s2^2
abline(v=f, col="blue")
H1 :𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐
# Intevalo de decision bilateral
Zona_critica1<-qf(1-alfa/2,n1-1,n2-1)
Zona_critica1
[1] 3.102485
Zona_critica2<-qf(alfa/2,n1-1,n2-1)
Zona_critica2
[1] 0.3452773
Región de no rechazo
# Región Error tipo I
Fliminf<-0
Flimsup<-Zona_critica2
….
Pruebas de una y dos …..
muestras referentes
I+D+i
a varianzas # Región Error tipo I
Fliminf<-0
Problema de probar la igualdad Flimsup<-Zona_critica2
de las varianzas 𝝈𝝈𝟐𝟐𝟏𝟏 y 𝝈𝝈𝟐𝟐𝟐𝟐 de dos xv<-PT[PT>=Fliminf & PT<=Flimsup]
poblaciones. yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")
H0 : 𝝈𝝈𝟐𝟐𝟏𝟏 = 𝝈𝝈𝟐𝟐𝟐𝟐
Fliminf<-Zona_critica1
H1 :𝝈𝝈𝟐𝟐𝟏𝟏 ≠ 𝝈𝝈𝟐𝟐𝟐𝟐 Flimsup<-4
xv<-PT[PT>=Fliminf & PT<=Flimsup]
yv<-DP0[PT>=Fliminf & PT<=Flimsup]
xv<-c(xv,Flimsup,Fliminf)
yv<-c(yv,DP0[1],DP0[1])
polygon(xv,yv,col = "gray")

Región de no rechazo
(Resumen)
Técnica del Análisis de Varianza
(ANOVA de un factor)
Técnica del Análisis de Varianza (ANOVA)

• Las inferencias de dos (k=2) muestras representan un caso especial de lo que se


denomina problema de un solo factor

• El procedimiento más utilizado para probar las medias de población en problemas de k > 2
muestras, donde se supone que hay k muestras provenientes de k Poblaciones se
denomina análisis de varianza, o ANOVA .

• En el procedimiento del análisis de varianza se supone que cualquier variación que exista
entre las muestras se atribuye a:
1) La variación entre observaciones dentro de las muestras (intro) que se considera
como una variación aleatoria al azar
2) La variación entre las distintas muestras (inter)

• Importante en el Diseño de Experimentos (Objeto de otro curso)


Técnica del Análisis de Varianza
(ANOVA de un factor)

• De k poblaciones se seleccionan muestras aleatorias de tamaño n.


• Las k poblaciones diferentes se clasifican con base en un criterio único, como
tratamientos o grupos distintos
• Se supone que las k poblaciones son independientes y que están distribuidas en
forma normal con medias μ1, μ2,..., μk, y varianza común σ.

• Se desean probar las hipótesis

• H : μ = μ =…. = μ
0 1 2 k
• H : Al menos dos de las medias no son iguales.
1

• Sean
• 𝒚𝒚 la j-ésima observación del i-ésimo tratamiento,
𝒊𝒊𝒊𝒊
• Y el total de todas las observaciones de la muestra, del i-ésimo tratamiento,
i.
• 𝒚𝒚� la media de todas las observaciones en la muestra del i-ésimo tratamiento,
𝑖𝑖.
• Y.. el total de todas las nk observaciones,
• 𝒚𝒚�.. Es la media de todas las nk observaciones.
Técnica del Análisis de Varianza
(ANOVA de un factor)

• 𝒚𝒚 la j-ésima observación del i-ésimo tratamiento,


𝒊𝒊𝒊𝒊
• Y el total de todas las observaciones de la muestra, del i-ésimo tratamiento,
i
• tratamiento,
� , la media de todas las observaciones en la muestra del i-ésimo
𝒚𝒚 𝑖𝑖

• Y.. el total de todas las nk observaciones,


• 𝒚𝒚�.. la media de todas las nk observaciones.
k muestras aleatorias de tamaño n (*)
Tratamiento 1 2 … i … k
𝒚𝒚𝟏𝟏𝟏𝟏 𝒚𝒚𝟐𝟐𝟐𝟐 … 𝒚𝒚𝒊𝒊𝟏𝟏 … 𝒚𝒚𝒌𝒌𝒌𝒌
𝒚𝒚𝟏𝟏𝟏𝟏 𝒚𝒚𝟐𝟐𝟐𝟐 … 𝒚𝒚𝒊𝒊𝟐𝟐 … 𝒚𝒚𝒌𝒌𝒌𝒌
… … … …
𝒚𝒚𝟏𝟏𝟏𝟏 𝒚𝒚𝟐𝟐𝟐𝟐 … 𝒚𝒚𝒊𝒊𝒏𝒏 … 𝒚𝒚𝒌𝒌𝒌𝒌
Total 𝒏𝒏𝟏𝟏= Y1. 𝒏𝒏𝟐𝟐= Y2. … 𝒏𝒏𝒊𝒊= Yi. … 𝒏𝒏𝒌𝒌= Yk. N=Y..
Media �1.
𝒚𝒚 �2 .
𝒚𝒚 … �𝑖𝑖 .
𝒚𝒚 �𝑘𝑘.
𝒚𝒚 �..
𝒚𝒚
Técnica del Análisis de Varianza
(ANOVA de un factor)

• Cada observación puede escribirse en la forma : 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖

• Donde 𝝐𝝐𝒊𝒊𝒊𝒊 mide la desviación que tiene la observación j-ésima de la i-ésima


muestra, con respecto de la media del tratamiento correspondiente

• Una forma alternativa se obtiene sustituyendo 𝜇𝜇𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖 , sujeta a la


restricción ∑𝑘𝑘
𝑖𝑖=1 𝛼𝛼𝑖𝑖 = 0

𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖

• Con:
1
• 𝜇𝜇 = ∑𝑘𝑘𝑖𝑖=1 𝜇𝜇𝑖𝑖 media general de todas las 𝜇𝜇𝑖𝑖
𝑘𝑘
• 𝛼𝛼 efecto del i-ésimo tratamiento
𝑖𝑖

• Se desean probar las hipótesis

• H : 𝛼𝛼 = 𝛼𝛼 =…. = 𝛼𝛼 = 0
0 1 2 𝑘𝑘
• H : Al menos una de las 𝛼𝛼 no es cero.
1 𝑖𝑖
Técnica del Análisis de Varianza
(ANOVA de un factor)

• La prueba ANOVA se basa en una comparación de dos estimados


independientes de la varianza poblacional común σ2.
• Los estimadores se obtienen haciendo la partición de la variabilidad total de
los datos, en dos componentes:

Suma Total de Cuadrados

Suma de los Cuadrados del Tratamiento

Suma de los Cuadrados del Error


Técnica del Análisis de Varianza
(ANOVA de un factor)
• Se puede obtener mucha información si se investiga el valor esperado tanto
de SCT como de SCE

• Si H0 es verdadera (αi = 0) un estimado de σ2 basado en k – 1 grados


de libertad es dado por la expresión:

• Si H1 es verdadera (αi ≠ 0)

• Otro estimado independiente de σ2 basado en k (n – 1) grados de


libertad es :
Técnica del Análisis de Varianza
(ANOVA de un factor)
𝒔𝒔𝟐𝟐
• Cuando H0 es verdadera, la razón 𝒇𝒇 = 𝟏𝟏�𝒔𝒔𝟐𝟐 es un valor de la variable
aleatoria F que tiene la distribución F con k – 1 y k(n – 1) grados de libertad
• Como 𝒔𝒔𝟐𝟐𝟏𝟏 sobrestima a 𝝈𝝈𝟐𝟐 cuando H0 es falsa, se tiene una prueba de una
cola con la región crítica localizada por completo en la cola derecha de la
distribución.

• A un nivel de significancia de α se rechaza la hipótesis nula H0


cuando:

Datos Análisis de varianza para el ANOVA de un solo factor


Técnica del Análisis de Varianza
(ANOVA de un factor)
• Si suponemos que las k muestras aleatorias son de tamaño diferente
n1, n2,..., nk, respectivamente, el procedimiento es parecido

• Se hace la partición de los grados de libertad, (como antes):

• N – 1 para STC, 𝑠𝑠2


=
𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠 2 =
𝑆𝑆𝑆𝑆𝑆𝑆
• k – 1 para SCT 1
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
• N – 1 – (k – 1) = N – k para SCE
donde N = ∑𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒏𝒏𝒊𝒊
Contrastes de Hipótesis Paramétricas
ANOVA de un factor en R

• La función que se utiliza es aov()

• La sintaxis de esta función varía ligeramente de las anteriores porque


obliga a presentar los datos en forma de modelo, a través de una
fórmula.

• Necesitamos, que todos los datos de todas las muestras estén


contenidos en una única variable, y que una segunda variable de tipo
factor especifique a qué grupo pertenece cada dato.

• Si x1 es un vector de dimensión n1 conteniendo la primera muestra, x2


es un vector de dimensión n2 que contiene la segunda muestra y así
sucesivamente hasta los k grupos del problema… Una forma muy simple
de generar los datos necesarios para aplicar aov()

Datos<-data.frame(Variable=c(x1,x2,...,xk),
Grupo=factor(c(rep(1,n1),rep(2,n2),...,rep(k,nk))))
Contrastes de Hipótesis Paramétricas
ANOVA de un factor
• Sintaxis de aov():
aov(Variable~Grupo,data=Datos))
• Argumentos:
• Variable : nombre de la variable que contiene los datos.
• Grupo : nombre del factor que distingue a qué grupo pertenece cada dato.
• Datos :nombre de la hoja de datos

• La expresión Variable~Grupo se conoce en Estadística como la fórmula del


modelo. Lo que viene a decir es que se trata de explicar la variabilidad de
la variable Variable mediante el conocimiento de la variable Grupo

• Al ejecutar la función aov() sólo se muestra en pantalla la partición de la


varianza que resulta del ANOVA, pero no la tabla de éste que permite
concluir el contraste

• Para obtener la tabla de ANOVA es necesario aplicar la función summary()


al resultado de aov(). Habría que ejecutar

ANOVA<-aov(Variable~Grupo,data=Datos))
summary(ANOVA)
Técnica del Análisis de Varianza
(ANOVA de un factor)

Fútbol Rugby Basket


• Ejemplo: Para analizar las diferencias de 69 74 76
estatura entre los estudiantes que practican tres
deportes (Fútbol, Rugby y Basket) se selecciona 72 69 75
una muestra de diez practicantes de cada uno de 69 73 72
ellos cuyas alturas (en pulgadas) se detallan en la
72 74 77
tabla adjunta.
72 76 76
67 72 71
• Probar si se verifica la hipótesis de que, a un 70 70 74
nivel de significancia de 0.05, la altura media 69 74 74
para los practicantes de los tres deportes es la
misma. 71 71 79
69 67 76
Técnica del Análisis de Varianza
(ANOVA de un factor)
Deporte: Fútbol Rugby Basket

69 74 76
72 69 75
69 73 72
72 74 77
72 76 76
67 72 71
70 70 74
69 74 74
71 71 79
69 67 76

Total n1=10 n2=10 n3=10 N=30


Media �1. =70
𝒚𝒚 �2 . =72
𝒚𝒚 �3 . =75
𝒚𝒚 �.. =72.33
𝒚𝒚
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Se desean probar las hipótesis

• H :μ =μ =μ
0 1 2 3
• H : Al menos dos de las medias no son iguales.
1

• k=3, N = ∑ 𝒏𝒏 = 30 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒊𝒊
• Grados de libertad k - 1 = 2, N- k = 27
• Nivel de significancia: 0.05

qf(0.95,2,27)
[1] 3.354131

𝒔𝒔𝟐𝟐𝟏𝟏
En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que
3.354131 para considerar que es falsa H0 y rechazar
la igualdad de medias μ1 = μ2 = μ3

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)

STC = (69-72.33)2 + (72-72.33)2 + … + (79-72.33)2 + (76-72.33)2 = 270.7


SCT = 10*(70-72.33)2 + (10*(72-72.33))2 + 10*(75-72.33)2 = 126.7
SCE = STC- SCT= 270.7 - 126.7 = 144

𝑆𝑆𝑆𝑆𝑆𝑆 126.7
𝑠𝑠12 = = = 𝟔𝟔𝟔𝟔. 𝟑𝟑𝟑𝟑 𝑆𝑆𝑆𝑆𝑆𝑆 144
𝑘𝑘 − 1 3 − 1 𝑠𝑠 2 = = = 𝟓𝟓. 𝟑𝟑𝟑𝟑
𝑁𝑁 − 𝑘𝑘 30 − 3
𝟐𝟐 𝟔𝟔𝟔𝟔.𝟑𝟑𝟑𝟑
𝒔𝒔
𝒇𝒇 = 𝟏𝟏�𝒔𝒔𝟐𝟐 = = 𝟏𝟏𝟏𝟏. 𝟖𝟖𝟖𝟖
𝟓𝟓.𝟓𝟓𝟓𝟓

• Como f>3.354131  Se rechaza H0


Técnica del Análisis de Varianza
(ANOVA de un factor)
x1<-c(69,72,69,72,72,67,70,69,71,69)
x2<-c(74,69,73,74,76,72,70,74,71,67)
x3<-c(76,75,72,77,76,71,74,74,79,76)

datos<-data.frame(variable=c(x1,x2,x3))
grupo=factor(c(rep(1,length(x1)), rep(2,length(x2)), rep(3,length(x3))))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)

summary(ANOVA)

𝑆𝑆𝑆𝑆𝑆𝑆 Df Sum Sq Mean Sq F value Pr(>F)


𝑠𝑠12 = grupo 2 126.7 63.33 11.88 2e-04 ***
𝑘𝑘 − 1
Residuals 27 144.0 5.33
𝒔𝒔𝟐𝟐𝟏𝟏
𝒇𝒇 = �𝒔𝒔𝟐𝟐 ---
𝑆𝑆𝑆𝑆𝑆𝑆 Signif. codes:
𝑠𝑠 2 = 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑁𝑁 − 𝑘𝑘
qf(0.95,2,27)
[1] 3.354131
• Como F>3.354131  Se rechaza H0
Técnica del Análisis de Varianza
(ANOVA de un factor)
Datos Análisis de varianza para el ANOVA de un solo factor

qf(0.95,2,27) summary(ANOVA)
[1] 3.354131
Df Sum Sq Mean Sq F value Pr(>F)
grupo 2 126.7 63.33 11.88 2e-04 ***
Residuals 27 144.0 5.33
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

• Como F>3.354131  Se rechaza H0


Técnica del Análisis de Varianza
(ANOVA de un factor)

• Ejemplo: Un estudio se ha diseñado para


G-1 G-2 G-3 G-4
medir los niveles de actividad de la fosfatasa
alcalina sérica en niños. Se reclutaron 45 49.20 97.50 97.07 62.10 110.60
sujetos para el estudio y se clasificaron en 44.54 105.00 73.40 94.95 57.10
cuatro grupos de medicamentos:
45.80 58.05 68.50 142.50 117.60
G-1: Control (no recibieron
anticonvulsivantes ni tenían historia 95.84 86.60 91.85 53.00 77.71
de trastornos convulsivos) 30.10 58.35 106.60 175.00 150.00
G-2: Fenobarbital 36.50 72.80 0.57 79.50 82.90
G-3: Carbamazepina
82.30 116.70 0.79 29.50 111.50
G-4: Otros anticonvulsivantes
• De las muestras de sangre tomadas a cada
87.85 45.15 0.77 78.40
sujeto se determinó el nivel de actividad de 105.00 70.35 0.81 127.5
la fosfatasa alcalina sérica y se registró tal 95.22 77.40
como se observa en la tabla.

• Probar la hipótesis de que, a un nivel de significancia de 0.05, el nivel promedio de


actividad de la fosfatasa alcalina sérica es el mismo para los cuatro grupos de
medicamentos.
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Se desean probar las hipótesis

• H :μ =μ =μ = μ
0 1 2 3 4
• H : Al menos dos de las medias no son iguales.
1

• k=4, N = ∑ 𝒏𝒏 = 45 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒊𝒊
• Grados de libertad k - 1 = 3, N- k = 41
• Nivel de significancia: 0.05

qf(0.95,3,41)
[1] 2.832747

𝒔𝒔𝟐𝟐𝟏𝟏
En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que 2.8327 para considerar
que es falsa H0 y rechazar la igualdad de medias μ1 = μ2 = μ3 = μ4
.

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)
x1<-c(49.2, 97.5, 44.54, 105.0, 45.8, 58.05, 95.84, 86.6, 30.1,
58.35, 36.5, 72.8, 82.3, 116.7, 87.85, 45.15, 105.0, 70.35, 95.22,
77.4)
x2<-c(97.07, 73.4, 68.5, 91.85, 106.6, 0.57, 0.79, 0.77, 0.81)
x3<-c(62.10, 94.95, 142.5, 53.0, 175.0, 79.5, 29.5, 78.4, 127.5)
x4<-c(110.6, 57.1, 117.6, 77.71, 150.0, 82.9, 111.5)
datos<-data.frame(variable=c(x1,x2,x3,x4))
grupo=factor(c(rep(1,length(x1)),rep(2,length(x2)),rep(3,length(x3)),
rep(4,length(x4))))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)
summary(ANOVA)
𝑆𝑆𝑆𝑆𝑆𝑆 Df Sum Sq Mean Sq F value Pr(>F)
𝑠𝑠12 = grupo 3 13939 4646 3.569 0.022 *
𝑘𝑘 − 1
𝒔𝒔𝟐𝟐𝟏𝟏 Residuals 41 53376 1302
𝒇𝒇 = �𝒔𝒔𝟐𝟐 ---
𝑆𝑆𝑆𝑆𝑆𝑆 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑠𝑠 2 =
𝑁𝑁 − 𝑘𝑘 qf(0.95,3,41)
[1] 2.832747

• Como F>2.8327  Se rechaza H0


Técnica del Análisis de Varianza
(ANOVA de un factor)
• Ejemplo: Un fabricante de papel para hacer bolsas para comestibles se
encuentra interesado en mejorar la resistencia a la tensión del producto.
El departamento de ingeniería del producto piensa que la resistencia a la
tensión es una función de la concentración de madera dura en la pulpa y
que el rango de las concentraciones de madera dura de interés práctico
está entre el 5% y el 20%. El equipo de ingenieros responsable del estudio
decide investigar cuatro niveles de concentración de madera dura (5%,
10%, 15% y 20%). Deciden hacer seis ejemplares de prueba por cada nivel
de concentración utilizando una planta piloto. Las 24 muestras se prueban
en orden aleatorio con una máquina de laboratorio para probar la
resistencia. Los resultados se reflejan en la tabla.

Observaciones (Resistencia a la tensión del papel en psi)

Concentración % 1 2 3 4 5 6 Totales Promedios

5 7 8 15 11 9 10 60 10.00

10 12 17 13 18 19 15 94 15.67

15 14 18 19 17 16 18 102 17.00

20 19 25 22 23 18 20 127 21.17

• Probar la hipótesis de que las diferentes 383 15.96


concentraciones de madera dura no afectan la
resistencia a la tensión media del papel.
• (tomar α=0.05)
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Ejemplo: … Análisis descriptivo comparativo de los datos

x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
xdatos<-
data.frame(x5,x10,x15,x20)
boxplot(xdatos,
col = "green",
ylab="Resistencia a la
Tensión (psi)",
xlab="Concentración en
% de madera
dura",
staplewex=1,
border = "brown")
grid()
Técnica del Análisis de Varianza
(ANOVA de un factor)

• Cada observación puede escribirse :

𝑦𝑦𝑖𝑖𝑖𝑖 = 𝜇𝜇 + 𝛼𝛼𝑖𝑖 + 𝜖𝜖𝑖𝑖𝑖𝑖

• Con:
1
• 𝜇𝜇 = ∑𝑘𝑘𝑖𝑖=1 𝜇𝜇𝑖𝑖 media general de todas las 𝜇𝜇𝑖𝑖
𝑘𝑘
• 𝛼𝛼 efecto del i-ésimo tratamiento
𝑖𝑖

• Se desean probar las hipótesis de efecto nulo de la concentración

• H : 𝛼𝛼 = 𝛼𝛼 =…. = 𝛼𝛼 = 0
0 1 2 𝑘𝑘
• H : Al menos una de las 𝛼𝛼 no es cero.
1 𝑖𝑖

• k=4, N = ∑ 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒏𝒏𝒊𝒊 = 24
• Grados de libertad k - 1 = 3, N- k = 20
• Nivel de significancia: 0.05
Técnica del Análisis de Varianza
(ANOVA de un factor)

• k=4, N = ∑ 𝒌𝒌
𝒊𝒊=𝟏𝟏 𝒏𝒏𝒊𝒊 = 24
• Grados de libertad k - 1 = 3, N- k = 20
• Nivel de significancia: 0.05

qf(0.95,3,20)
[1] 3.098391

𝒔𝒔𝟐𝟐𝟏𝟏
• En este caso la razón 𝒇𝒇 = �𝒔𝒔𝟐𝟐 debe ser mayor que 3.098391 para considerar que
es falsa H0 y rechazar el efecto de la concenración de madera dura en la
resistencia a la tensión, esto es: 𝛼𝛼1 = 𝛼𝛼2 =…. = 𝛼𝛼𝑘𝑘 = 0

𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
𝑠𝑠12 = 𝑠𝑠 2 =
𝑘𝑘 − 1 𝑁𝑁 − 𝑘𝑘
Técnica del Análisis de Varianza
(ANOVA de un factor)
𝑘𝑘 𝑛𝑛𝑖𝑖 𝑘𝑘
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�.. 𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. 2
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆
𝑖𝑖=1 𝑗𝑗=1 𝑖𝑖=1
x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
n<-length(x5)
yij<-c(x5,x15,x10,x20)
Y_m_T<-mean(yij)
4 6
STC<-sum((yij-Y_m_T)^2);STC
2
[1] 512.9583 𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�.. = 512.9583
SCT<-n*((mean(x5)-Y_m_T)^2+(mean(x10)-Y_m_T)^2+ 𝑖𝑖=1 𝑗𝑗=1
(mean(x15)-Y_m_T)^2+(mean(x20)-Y_m_T)^2);SCT 4
[1] 382.7917
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. 2 = 382.7917
SCE<-STC-SCT;SCE
𝑖𝑖=1
[1] 130.1667
s12<-SCT/3;s12
𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆 = 130.1667
[1] 127.5972
s2<-SCE/(20);s2 𝑆𝑆𝑆𝑆𝑆𝑆
[1] 6.508333 𝑠𝑠12 = = 127.5972 𝑠𝑠12�
𝑘𝑘 − 1 𝑓𝑓 = = 𝟏𝟏𝟏𝟏. 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔
FA<-s12/s2;FA 𝑠𝑠 2
[1] 19.60521
𝑆𝑆𝑆𝑆𝑆𝑆 qf(0.95,3,20)
𝑠𝑠 2 = = 6.508333 [1] 3.098391
𝑁𝑁 − 𝑘𝑘
Como F>3.098391  Se rechaza H0
Técnica del Análisis de Varianza
(ANOVA de un factor)
x5<-c(7,8,15,11,9,10)
x10<-c(12,17,13,18,19,15)
x15<-c(14,18,19,17,16,18)
x20<-c(19,25,22,23,18,20)
n<-length(x5)
datos<-data.frame(variable=c(x5,x10,x15,x20))
grupo=factor(c(rep(1,n),rep(2,n),rep(3,n),rep(4,n)))
attach(datos)
ANOVA<-aov(variable~grupo,data = datos)

summary(ANOVA)
𝑆𝑆𝑆𝑆𝑆𝑆 Df Sum Sq Mean Sq F value Pr(>F)
𝑠𝑠12 = grupo 3 382.8 127.60 19.61 3.59e-06 ***
𝑘𝑘 − 1
𝒔𝒔𝟐𝟐𝟏𝟏 Residuals 20 130.2 6.51
𝒇𝒇 = �𝒔𝒔𝟐𝟐 ---
𝑆𝑆𝑆𝑆𝑆𝑆 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
𝑠𝑠 2 =
𝑁𝑁 − 𝑘𝑘 qf(0.95,3,20)
𝑘𝑘 [1] 3.098391

𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦�𝑖𝑖. − 𝑦𝑦�.. 2


• Como F>3.098391  Se rechaza H0
𝑖𝑖=1 𝑘𝑘 𝑛𝑛𝑖𝑖
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�.. 𝑆𝑆𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 − 𝑆𝑆𝑆𝑆𝑆𝑆
𝑖𝑖=1 𝑗𝑗=1
Técnica del Análisis de Varianza
(ANOVA de un factor)

Condiciones (resumen)

• Independencia: Las observaciones deben ser aleatorias. El tamaño total de la


muestra de cada grupo debe de ser < 10% de la población.

• Distribución normal de cada uno de los niveles o grupos: La variable


cuantitativa debe de distribuirse de forma normal en cada uno de los grupos,
siendo menos estricta esta condición cuanto mayor sea el tamaño de cada
grupo.

• Varianza constante entre grupos (homocedasticidad): La varianza dentro de


los grupos debe de ser aproximadamente igual en todos ellos. Esto es así ya que
en la hipótesis nula se considera que todas las observaciones proceden de la
misma población, por lo que tienen la misma media y también la misma
varianza

• Recomendable: Número de observaciones por grupo no sea menor de 10 y la


desviación estándar no varíe más de 3 veces entre grupos
.
Técnica del Análisis de Varianza
(ANOVA de un factor)
• Varianza constante entre grupos (homocedasticidad)

• Esta condición es más importante cuanto menor es el tamaño de los


grupos.

• Para evaluar la homogeneidad de varianzas pueden usarse también


(además de F-test) los tests de Bartlett, test de Levene o test de Fligner-
Killeen:

• var.test()
• bartlett.test()
• fligner.test(),
• leveneTest() (Librería car)

• ANOVA es bastante robusto a la falta de homodedasticidad si el diseño es


equilibrado (mismo número de observaciones por grupo). Recomendable

• Si no se puede aceptar la homocedasticidad, se recurre a lo que se conoce


como ANOVA heterodástica que emplea la corrección de Welch (Welch
test), oneway.test().

(… más en http://ww2.coastal.edu/kingw/statistics/R-tutorials/oneway.html)
Ejercicios de Repaso Recomendados …

• “Problemas resueltos de cálculo de probabilidades


y estadística”, Inmaculada Luengo, ULPGC, 2006.

• Ejercicios resueltos (Inferencia Estadística) núms.:


14, 17, 19, 29, 41, 43 y 48
Inferencia Estadística
Análisis de Varianza
Lectura 8

Tema 7. Contrastes de Hipótesis


Paramétricos

Métodos Estadísticos

Das könnte Ihnen auch gefallen