Beruflich Dokumente
Kultur Dokumente
eje Z
zα / 2 1.96. zα / 2 1.96.
Z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09
... . . . . . . . . . . . . . . . . . . . . . . . . . . . ...
-1.8 0.035930 0.035148 0.034379 0.033625 0.032884 0.032157 0.031443 0.030742 0.030054 0.029379
-1.9 0.028716 0.028067 0.027429 0.026803 0.026190 0.025588 0.024998 0.024419 0.023852 0.023295
-2.0 0.022750 0.022216 0.021692 0.021178 0.020675 0.020182 0.019699 0.019226 0.018763 0.018309
... ... ... ... ... ... ... ... ... ... ...
z1 - α / 2 es tal que Pr(Z z 1 - α / 2 ) 1 - α / 2. z0.975 es tal que Pr(Z z0.975 1.96) 0.975.
eje Z
zα / 2 1.96. zα / 2 1.96.
Z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09
... . . . . . . . . . . . . . . . . . . . . . . . . . . . ...
1.8 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621
1.9 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705
2.0 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691
... ... ... ... ... ... ... ... ... ... ...
Por tanto ya conocemos zα / 2 1.96 para α 0.05. (Se toma |z/2| ó z/2 puesto que se suma
y se resta a x .
σ 0.338. z σ 1.96(0.338) 0.66248.
Entonces como α/2
n n
Entonces tenemos que nuestra región de no rechazo (Ver “Llave Maestra para IConf y Contrastes
de Hipótesis”) es
σ x μz σ 1- α
Pr μ- zα / 2 Pr 25- 0.6625 x 25 0.6625 0.95
n α/2
n
Pr 24.34 x 25.66 0.95 ó 95%. Ya tenemos todos los elementos para probar la hipótesis
nula sobre el eje Xbarra y sobre el eje Z. Ahora ya podemos calcular la media de la muestra y el valor
z observado de la muestra para confrontarlos contra lo esperado. (Recuerde que el valor de debe
haber sido especificado previamente).
x
σ/ n
eje x
σ 24.34
μ o - zα / 2 μo zα / 2 σ 25.66
n n
eje
zα / 2 0 zα / 2 Z
X -μ
zα / 2 1.96 z1-α / 2 1.96 σ/ n
Observe como la figura permitió presentar la propuesta de prueba de hipótesis ANTES de obtener la
muestra. Ahora calculamos Xbarra de los datos y también la z observada.
☺OBTENCIÓN DE LA MUESTRA .i.i.d. y CÁLCULO DE Xbarra, z o t observada y de S de ser
necesario.
n 35 x μ o 24.85 25 0.15
x1 xi 24.85. z obs -0.4438
n i 1
σ/ n 0.338 0.338
zobs: z observada en la muestra. zobs 0.4438
_________________
MUESTRA .i.i.d: muestra (aleatoria) de n variables aleatorias independientes e idénticamente
distribuidas.
Prof. Miguel Ángel Abreu H. Marzo 10. 5/
eje Z
1.96 0 1.96
Ambos valores x y obs caen en la región de no rechazo, por tanto, la hipótesis nula no se rechaza.
z
Ambos valores se corresponden, cada uno en su correspondiente eje o escala.
Podríamos decir que el Valor p es como el más grande que permitiría aceptar la hipótesis nula (o
que llevaría a la indecisión entre no rechazar o si rechazar la hipótesis nula) con la muestra
específica obtenida, por tanto se calcula a partir del valor Xbarra obtenido en la muestra. De hecho es
la forma de comparar que es lo supuesto o esperado contra lo observado, en este caso el valor p (o
coloquialmente observada).
Xbarra divide a la normal en dos áreas: en los casos unilaterales se calcula el área que está en la
dirección de la región de rechazo siendo ésta el valor p; en el caso bilateral, se calcula el área más
pequeña y el doble de la misma es el valor p.
zobs 0.4438
σ 1
eje Z
Pr(Z zobsPr(Z-0.44½(valor p)½
Z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09
... ... ... ... ... ... ... ... ... ... ...
-0.4 0.344578 0.340903 0.337243 0.333598 0.329969 0.326355 0.322758 0.319178 0.315614 0.312067
... ... ... ... ... ... ... ... ... ... ...
Observe cómo dicha área = ½(valor p) sería menor a ½ si Xbarra y zobs hubiesen caído en una de
las regiones de rechazo. “½(valor p) > ½ ” es equivalente a “valor p > " lo que indica que la
hipótesis nula no se rechaza” Cuándo “valor p < " estaríamos en el caso en que la hipótesis nula se
rechaza. Para recordar esta regla basta dibujar la normal en caso de no rechazo o de rechazo y
observar sobre el dibujo como son las áreas y valor p.
eje Z
1.96 0 1.96
La forma más usual de realizar a mano la prueba de hipótesis es con la zobs, pero da muy poca
información y es difícil de interpretar por alguien que conoce poca estadística. El valor p es muy
usado en los paquetes estadísticos computacionales. El método más expresivo y directo es sobre el
eje Xbarra.
σ σ
Cf x - z xz 1- α
...... α/2 n α / 2 n
Observe que las cuatro formas de probar la hipótesis son consistentes, si una forma no rechaza la
hipótesis nula, todas las demás no la rechazan y viceversa.
eje Z
1.96 0 1.96
x
0.6625
0.6625
En el eje de las abscisas no se está utilizando escala.
......☺
Queda pendiente (no se verán en este curso, excepto la lectura en el libro):
☺ Calcular un valor : Probabilidad de error tipo II. Aceptar como verdadera una hipótesis
nula falsa.
☺ Establecer un tamaño de muestra.
......
I.C. Intervalo de Confianza. Prof. Miguel Ángel Abreu H. Marzo 10. 9/
☺REFLEXIÓN PRÁCTICA
Después de realizada la prueba de hipótesis, ¿todo está bien?
¿Porqué es importante mostrar los datos? ¿Usted observa algo raro en los mismos?
25.6 21.8 27.3 25.0 25.8 26.2 25.8
22.1 25.8 22.8 25.5 28.9 22.9 24.3
22.5 25.0 26.6 23.6 22.3 26.5 24.3 Prof. M.A. Abreu H. Marzo 10. 10/
26.7 23.9 24.0 23.2 25.6 26.7 21.5
26.0 27.9 25.9 23.1 22.4 26.1 26.1
En la práctica no sólo tenemos que obtener los datos sino, incluso tenemos que diseñar todo un
estudio estadístico para resolver un problema que se presenta o se manifiesta a través de la
incertidumbre. Inicialmente cuidar que la muestra sea realmente i.i.d. o aleatoria.
La variabilidad, expresada con = 2 es muy grande, de hecho hay zapatos que compraría una
persona que utiliza calzado del 23 (23.1) o del 29 (28.9). Si hay calzado con las medidas 21.5, 22.0,
22.5, , ..., 28.0, 28.5 varios de éstos zapatos caerían en algunas de ellas. Aún si los zapatos se
clasifican después de hacerlos sería muy aventurado decir que es un buen proceso de fabricación de
zapatos. Esto hubiera sido más difícil detectarlo simplemente con 25 2 centímetros. Si X es
normal 25 3*2 => ¡19 a 31 este sería el rango real de zapatos producidos dizque de 25
centímetros! (Ver la “regla empírica” de la distribución normal” FPE Jit Press página 4-33).
Aunque pase la prueba de hipótesis en este caso es necesario establecer especificaciones, por
ejemplo, 25 0.2 centímetros. Si X es normal 25 3*0.2 => 24.4 a 25.6 y aún es un rango muy
amplio, habría que reducirlo al menos a 25 3*0.1 => 24.7 a 25.3. Incluso hasta añadirles algunas
décimas de centímetro y todos sean mayores a 25 centímetros y menores a 25.5. Por tanto, no es
suficiente con no rechazar la hipótesis nula para asegurar que “todo está bien”.
Este problema se podría complementar con modelos de probabilidad. Específicamente si X se
comporta de manera normal. Por ejemplo, podríamos responder, con el modelo normal u otro, a la
cuestión ¿cuáles deben ser y para que el 99% de los zapatos tengan una medida entre 25.0 y
25.4?
También aquí podría entrar la metodología Seis Sigma (Six Sigma ®) qué es un método de mejora
continua de la calidad. Es decir, la estadística es indispensable pero insuficiente, hay que
complementarla con otros enfoques, en cuanto al factor humano, la organización del trabajo y de las
máquinas, dispositivos e instrumentos, etcétera.
Por ejemplo, si mis especificaciones son que un zapato de 25 centímetros debe estar entre 25.0 y
25.4 deseo que dentro de esté rango esté incluida seis veces sigma, entonces 25.4 – 25.0 = 6 y esto
implica que = 0.4/6 = 0.067 centímetros que es mucho menor que la sigma original de dos
centímetros (1). Lograr ese cambio significa un trabajo inteligente y arduo por parte de la empresa y
es un problema complejo que se debe atacar con enfoques tan elaborados como Six Sigma ®.
………….
Bibliografía básica sobre Seis Sigma: Control Estadístico de Calidad y Seis Sigma. Humberto Gutiérrez
Pulido y Román de la Vara Salazar. McGraw Hill. México. 2004. (1) En esta metodología la 0.067.
Es un excelente libro con un precio accesible, que cualquiera que se precie de ser ingeniero debe estudiar
independientemente que su carrera se lo pida o no. El control total de la calidad y Seis Sigma son
herramientas de uso generalizado en la mayoría de las empresas o en unos años más van a tener que utilizar
TODAS las empresas y que involucra de una forma u otra a TODO su personal.
Ejemplo 2.
Un corredor de fondo tiene un tiempo histórico de 25 minutos en entrenamiento. Ha estado
entrenando para mejorar dicho tiempo histórico. En sus últimas 16 carreras de entrenamiento ha
obtenido un tiempo promedio de 24.23 minutos con una desviación estándar de 0.899 minutos.
Establezca si dicho entrenamiento le ha servido a este corredor para mejorar su tiempo de
carrera con un = 0.01. Definir X. ¿La muestra es i.i.d.?
X: Tiempo, en minutos*, de cada carrera del tipo correspondiente, …
*Actualmente, en la práctica, el tiempo es redondeado a centésimas de minutos.
Ho: = vs. Ha:
Se observa que prácticamente la mayoría de los datos están en el área definida por el rectángulo.
Sin embargo, los puntos extremos (mínimo y máximo) están fuera, parece que no hay evidencia
suficiente para negar que los 16 valores provengan de un modelo normal. Pero debido a la
situación de los dos valores extremos sería conveniente realizar una prueba de bondad de ajuste
Anderson-Darling.
Supondremos que no hay evidencia suficiente en contra de que los datos provienen de una
población normal.
x x n 1
Y nuestro estadístico de prueba es t ( x ) /( s / n ). Pudiendo ser t n 1, / 2 ó t n 1,
Para nuestro caso con prueba de hipótesis unilateral requerimos:t n 1, .
(Ver archivo: “Llave Maestra para IConf y Contrastes de Hipótesis”).
A partir de la “Llave Maestra”:
Pr x μ z n 1, / 2
1- α
Pr z / 2
x μ 1- α
z / 2
n n n
Como es desconocida se cambia por S y z por t, además como es una prueba de hipótesis
unilateral inferior o de cola izquierda se cambia /2 por ; quedando:
s x μ 1- S
Pr t , n 1 o de manera más breve: t n 1, x μ
n n
Si despejamos nos da un intervalo de confianza de límite ¡¡superior!! Si despejamos Xbarra
obtenemos la región de no rechazo para nuestra prueba de interés sobre el eje Xbarra. Si
despejamos t n tenemos la región de no rechazo en el eje t para comparar con la t observada.
Entonces, al despejar Xbarra, tenemos como región de no rechazo: μ t s
x
, n 1
n
Para el intervalo de confianza, es incorrecto sustituir por Xbarra y Xbarra por . Hay que
s
hacer el despeje de directamente a partir de la región de no rechazo: μ t , n1 x
n
queda x t , n1 s como el intervalo de confianza ¡¡de límite superior!!
n
Es decir, la precisión, por tratarse de una prueba unilateral ( queda concentrada de un solo
lado) o de una sola cola y por ser desconocida pero X aproximadamente normal sería
s s
t α, n - 1 . no es tα porque la distribución t de Student depende del tamaño de la muestra, n.
n n
Por último, en los casos unilaterales, el Valor p se obtiene calculando el área que va en la misma
dirección en la que se encuentra la región de rechazo, en la distribución t con n - 1 g.l., a partir
del valor tobservado. En nuestro caso
tobservado ( x ) /( s / n ) ( 24.23 25) /( 0.899 / 16 ) 0.77 / 0.22475 3.4260
-----------------------------------------------------------------
Observe que se usan las notaciones “t n” ó “t , n” sin embargo la que considero más adecuada
es la notación t n porque la distribución t es la que tiene n – 1 grados de libertad. Posteriormente
haré el cambio en todo el documento. Por lo pronto se usarán ambas expresiones.
- - - DIGRESIÓN:
s σ
Si SIGMA ES CONOCIDA: en los casos anteriores se sustituye tα por zα .
n n
Para nuestro ejemplo la z sería tal que Pr(Z≤ z) = . Buscando en la tabla normal
estándar,
Pr(Z z ) α 0.01.
α
Pr(Z z
0.01
2.33) 0.01 σ 1
eje Z
z α 2.33
Z 0.00 -0.01 -0.02 -0.03 -0.04 -0.05 -0.06 -0.07 -0.08 -0.09
... ... ... ... ... ... ... ... ... ... ...
-2.2 0.013903 0.013553 0.013209 0.012874 0.012545 0.012224 0.011911 0.011604 0.011304 0.011011
-2.3 0.010724 0.010444 0.010170 0.009903 0.009642 0.009387 0.009137 0.008894 0.008656 0.008424
-2.4 0.008198 0.007976 0.007760 0.007549 0.007344 0.007143 0.006947 0.006756 0.006569 0.006387
... ... ... ... ... ... ... ... ... ... ...
Usamos |z| = z , es decir, |z| = || = = z ., pues |z| = z = z = .
- - - Termina DIGRESIÓN.
Prof. Miguel Ángel Abreu H. Marzo 10. 14/
¿Cómo se calcula el valor t , n 1? Se calcula de tablas (también se puede calcular en Excel) pero
1
1 - /2
zα 0 0 t
debido a que requerimos el valor izquierdo que no viene en tablas. Necesitamos Pr(t ≤ t) =
(valor negativo) y en la tabla de distribuciones t encontramos Pr(t ≥ t) = (valor positivo).
g.l. = n-1 0.25 0.10 0.05 0.025 0.01 0.005
... ... ... ... ... ... ...
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208
... ... ... ... ... ... ...
0 t g.l.
(La tabla t de Student puede variar de un libro a otro en cuanto a las probabilidades que
se representan).
eje t
t α 2.6025 t α 2.6025
El negativo del valor en la tabla*. Valor de la tabla de distribuciones t.
Se utiliza la simetría de las distribuciones t.
* Ver nota inicio de la próxima hoja. Prof. Miguel Ángel Abreu H. Marzo 10. 16/
*Aunque es mejor tomar el valor
positivo y sustituirlo directamente
en la fórmula del valor crítico. Sin Prof. Miguel Ángel Abreu H.
embargo, cuando se dibuja el valor Marzo 10. 17/
crítico sobre el eje t, si es el negativo
del valor t de tablas.
1 n
Ahora pasaríamos a calcular s mediante la fórmula S
n 1 i 1
( xi x ) 2
Finalmente calculamos la precisión o dicho de manera más correcta “el error máximo de
estimación” debido al muestreo: tn(S/n.5) = 2.60250.22475 = 0.5849. Por tanto,
como es un contraste de hipótesis unilateral de cola inferior o izquierda el valor o punto
crítico que separa las regiones de rechazo y de no rechazo (aceptación) se localiza
mediante la fórmula: tn(S/n.5) ≤ Xbarra.
s
μ t , n 1 x.
n
μ t , n1
s 25 0.5849 24.4151 24.415 x
24.42 x Pr(24.42 x ) 0.99
n
Dibujemos el planteamiento del contraste de hipótesis. Observe que no es necesario
conocer el valor Xbarra de la muestra ANTES de establecer las regiones de rechazo y no
rechazo, sin embargo, si es necesario tener la muestra para calcular s.
x 24.23
s/ n
σ
“eje x ”
μo- t
α, n - 1
24.42
tobservado = -3.4260 n
Por tanto, valor tobservado = -3.4260 < tn-1 = t = -2.6025 y también se rechaza
la hipótesis nula sobre el eje t. Observe la figura de la hoja anterior.
De la expresión t n 1,
S
x μ despejamos , obteniendo μ x t , n1 s
n n
Observe como una prueba de hipótesis de cola izquierda o inferior nos lleva a un
intervalo de confianza con límite superior finito.
μ x t , n1
s 24.23 0.5849 24.815
n
Cf(μ 24.815) 1 - α 0.99.
Como no está contenida en el intervalo de confianza se rechaza la hipótesis nula
Es decir, el corredor está corriendo más rápido.
0 eje t
- t α, n - 1 2.6025 X -μ
t
s/ n
t observado = -3.4260 Prof. Miguel Ángel Abreu H. Marzo 10. 19/
g.l. = n-1 0.25 0.10 0.05 0.025 0.01 0.005
... ... ... ... ... ... ...
15 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467
... ... ... ... ... ... ...
3.426
No tenemos en el renglón 15 de la tabla el valor 3.4260 pero sabemos que está después
de 2.9467. 2.9467 < 3.426 y observamos que la probabilidad decrece conforme el valor
t se incrementa. Por tanto la probabilidad de t = 3.4260 debe ser menor a 0.005.
Pr(t ≥ 2.6025) = 0.01 > Pr(t ≥ 2.9467) = 0.005 > Pr(t ≥ 3.4260).
= 0.01 Pr(t ≥ 2.6025)
3.4260
2.9467
eje t
2.6025
Por simetría el resultado es semejante para el lado izquierdo:
Pr(t ≥ -2.947) = 0.01 > Pr(t ≥ -3.426) > Pr(t ≥ -4.073) = 0.001.
============================================================
En Excel podemos obtener el valor exacto de Pr(t ≥ -3.426) mediante la función
………………………………………………………………………………
= Pr(t ≥ -2.6025) = 0.01 ≥ Pr(t ≥ -2.9467) = 0.005 > Pr(t ≥ -3.4260) = 0.002 = valor p .
-------------------------
En conclusión: = 0.01 > Valor p y como > Valor p se rechaza la hipótesis nula.
> Valor p -> por tanto, el valor p es menor que y en consecuencia se rechaza la
hipótesis nula. Las cuatro formas de contrastar la hipótesis: sobre el eje t, sobre el
“eje Xbarra”, con el valor p y con el intervalo de confianza son consistentes. En
todos los casos se rechaza la hipótesis nula y se puede concluir que el corredor ha
mejorado sus tiempos de competencia. Sin olvidar los dos tipos de errores estadísticos.
En este caso se consideró 1 – = 0.99, = 0.01← probabilidad de rechazar una hipótesis nula
verdadera (Ho: = 25 minutos e implícitamente > 25, pues H1: < 25).
============================================================
QUEDA PENDIENTE LA GRÁFICA INTEGRADORA DEL PROBLEMA 2 Y
TAMAÑO DE MUESTRA Y (Error tipo II).
Prof. Miguel Ángel Abreu H. Marzo 10. 20/20