Beruflich Dokumente
Kultur Dokumente
Facultad de Ingeniería
Departamento de Matemática y Física Aplicadas IN1062C 2018
UNIDAD 5.1 DISTRIBUCIONES MUESTRALES, INTERVALOS DE CONFIANZA Y
PRUEBAS DE HIPÓTESIS EN UNA POBLACIÓN
Conceptos previos
En unidades anteriores estudiamos el concepto de variables aleatorias, que son, cuál es su
clasificación, cuál es su distribución de probabilidad teórica o empírica y si la distribución
de probabilidad depende de uno o más parámetros.
Conocida la distribución de probabilidad y conocido el valor del o los parámetros podemos
determinar probabilidades de ocurrencia de algún suceso de interés.
Un parámetro es una medida estadística obtenido con todos los datos de la población, esto
indica que para conocer el valor de un parámetro se debe estudiar la población en su totalidad,
es decir realizar un censo, sin embargo, realizar un censo es poco práctico ya sea por el alto
costo que ello involucra y por el tiempo asociado a los procesos, de aquí la importancia de
esta unidad. No conocer el valor del o los parámetros implica no poder determinar
probabilidades de ocurrencia de eventos. Debemos por lo tanto buscar alguna solución que
nos permita obtener dichas probabilidades.
En estadística, la solución nace de estudiar una pequeña parte de la población, que llamamos
muestra y a partir de esta inferir hacia la población.
Las medidas obtenidas con datos de una muestra reciben el nombre de estadístico.
Básicamente un estadístico es lo mismo que un parámetro, sólo que el parámetro es obtenido
con todos los datos de la población y un estadístico con los datos de la muestra, es por esto
que también serán denotados de distinta forma.
Rápidamente podemos intuir que el valor del estadístico puede cambiar de una muestra a
otra.
Es importante conceptualizar a los estadísticos como variables aleatorias que pueden asumir
diferentes valores en muestras diferentes, que será su distribución de probabilidad asociada
y cuáles son sus propiedades.
Comprender las distribuciones muestrales nos proporciona fundamentos para comprender
los procedimientos que permiten inferir sobre un parámetro que no conocemos a partir del
valor de un estadístico obtenido en un estudio realizado por muestreo probabilístico. Veamos
la siguiente situación práctica:
Hacer un censo implica conocer los valores reales de los parámetros. Supongamos ahora que
no es posible estudiar la población total y que para representar los parámetros trabajaremos
con una muestra de tamaño 4.
A continuación se muestran las 70 muestras posibles, sin reemplazo, de tamaño 4
seleccionada aleatoriamente de la población de tamaño 8 junto al promedio de cada muestra.
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
36 30 39 46 37.75 36 30 41 25 33
36 30 39 41 36.5 36 30 41 37 36
36 30 39 48 38.25 36 30 48 25 34.75
36 30 39 25 32.5 36 30 48 37 37.75
36 30 39 37 35.5 36 30 25 37 32
36 30 46 41 38.25 36 39 46 41 40.5
36 30 46 48 40 36 39 46 48 42.25
36 30 46 25 34.25 36 39 46 25 36.5
36 30 46 37 37.25 36 39 46 37 39.5
36 30 41 48 38.75 36 39 41 48 41
36 39 41 25 35.25 36 46 25 37 36
36 39 41 37 38.25 36 41 48 25 37.5
36 39 48 25 37 36 41 48 37 40.5
36 39 48 37 40 36 41 25 37 34.75
36 39 25 37 34.25 36 48 25 37 36.5
36 46 41 48 42.75 30 39 46 41 39
36 46 41 25 37 30 39 46 48 40.75
36 46 41 37 40 30 39 46 25 35
36 46 48 25 38.75 30 39 46 37 38
36 46 48 37 41.75 30 39 41 48 39.5
2
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
30 39 41 25 33.75 30 46 25 37 34.5
30 39 41 37 36.75 30 41 48 25 36
30 39 48 25 35.5 30 41 48 37 39
30 39 48 37 38.5 30 41 25 37 33.25
30 39 25 37 32.75 30 48 25 37 35
30 46 41 48 41.25 39 46 41 48 43.5
30 46 41 25 35.5 39 46 41 25 37.75
30 46 41 37 38.5 39 46 41 37 40.75
30 46 48 25 37.25 39 46 48 25 39.5
30 46 48 37 40.25 39 46 48 37 42.5
39 46 25 37 36.75 46 41 48 25 40
39 41 48 25 38.25 46 41 48 37 43
39 41 48 37 41.25 46 41 25 37 37.25
39 41 25 37 35.5 46 48 25 37 39
39 48 25 37 37.25 41 48 25 37 37.75
Algunas medidas estadísticas para la variable promedio muestral basada en muestras sin
reemplazo son:
variable promedio muestral
Media 37.75
Mediana 37.75
Moda 37.75
Desviación estándar 2.710758987
Varianza de las medias 7.348214286
Mínimo 32
Máximo 43.5
N 70
3
Recordemos que las medidas estadísticas de la población de ocho árboles son:
37.75 kg, 7.17199414 2 51.375
Observando la media de las medias muestrales, que denotaremos por X , es igual a la media
de la población de los ocho árboles y la varianza de las media muestrales que denotaremos
por X2 , es 7.348214286, la cual en relación a la varianza de la población de ocho árboles es
N n
2
N n 1 84 1
0.142857 veces más pequeña, es decir X
2
.
N 1 n 8 1 4 N 1 n
Observemos ahora la distribución de frecuencias y su histograma para las medias muestrales
basadas en muestras de tamaño 4 seleccionadas con reemplazo.
Clase LI LS FA FR
1 25.00 26.77 5 1.2E-03 Distribución del promedio muestral
2 26.77 28.54 18 4.4E-03 0.20
3 28.54 30.31 73 0.02
4 30.31 32.08 186 0.05 0.15
frecuencia relativa
Algunas medidas estadísticas para la variable promedio muestral basada en muestras con
reemplazo son:
Variable Promedio muestral
Media 37.75
Mediana 37.75
Moda 37.25
Desviación estándar 3.58599707
Varianza de las medias 12.859375
Mínimo 25
Máximo 48
N 4096
Observemos nuevamente la media de las medias muestrales es igual a la media de la
población de los ocho árboles y la varianza de las media muestrales es 12.859375, la cual en
1 1
relación a la varianza de la población de ocho árboles es 0.25 más pequeña, es decir
n 4
2
X2 .
n
4
ACTIVIDAD 2. Ahora simularemos la selección de muestras obtenidas desde una
Distribución Normal con media 120 y desviación estándar 50, considerando muestras de
tamaño 10, 20, 30 y 40. Para cada una de ellas obtendremos 1000 muestras a fin de estudiar
la distribución muestral del estadístico muestral X .
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
Distribución de frecuencias de las medias
muestrales basadas en 1000 muestras de tamaño 10
Dsitribución del promedio muestral
Clase LI LS ni fi
0.31
1 64.11 75.88 2 2.0E-03
2 75.88 87.65 14 0.01 0.23
frecuencia relativa
3 87.65 99.42 68 0.07
4 99.42 111.19 195 0.20 0.15
5 111.19 122.96 291 0.29
6 122.96 134.73 243 0.24 0.08
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
Distribución de frecuencias de las medias muestrales
basadas en 1000 muestras de tamaño 20
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
5
Caso 3: Distribución del promedio muestral basado en 1000 muestras de tamaño 30.
Clase LI LS ni fi
Distribuciòn del promedio muestral
1 86.46 93.74 2 2.0E-03
0.36
2 93.74 101.02 15 0.02
3 101.02 108.29 77 0.08 0.27
frecuencia relativa
4 108.29 115.57 204 0.20
5 115.57 122.85 339 0.34 0.18
Clase LI LS ni fi
1 94.48 100.21 5 0.01 Distribución del promedio muestral
0.30
2 100.21 105.95 33 0.03
3 105.95 111.68 98 0.10 0.23
frecuencia relativa
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Si observamos los histogramas para cada caso, estos se ven bastante simétricos, la media y
mediana son muy similares. Además, es poco frecuente encontrar valores de medias
muestrales muy alejadas del valor central, la mayor concentración de dichas medidas está en
tres o cuatro intervalos centrales.
6
ACTIVIDAD 3. Por último, simularemos la selección de muestras obtenidas desde una
Distribución Binomial con parámetros m = 25 y p = 0.3. Consideraremos cuatro casos de
1000 muestras de tamaño 10, 20, 30 y 40 cada una. Para cada una de las 1000 muestras
obtendremos su media a fin de estudiar la distribución muestral de este estadístico.
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
Distribución de frecuencias de las medias
muestrales basadas en 1000 muestras de tamaño 10 Distribución del promedio muestral
Clase LI LS FA FR 0.25
1 5.30 5.77 10 0.01
2 5.77 6.23 42 0.04
0.19
frecuencia relativa
3 6.23 6.70 131 0.13
4 6.70 7.17 167 0.17
0.12
5 7.17 7.63 236 0.24
6 7.63 8.10 227 0.23
0.06
7 8.10 8.57 116 0.12
8 8.57 9.03 49 0.05
0.00
9 9.03 9.50 22 0.02 4.8 5.3 5.9 6.4 6.9 7.4 7.9 8.4 8.9 9.5 10.0
n = 10
Estadística de la variable promedio muestral basado en 1000 muestras de tamaño 10
n Media D.E. Var(n) Mín Máx Mediana Asimetria
1000 7.46 0.75 0.56 5.30 9.50 7.50 0.03
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
Distribución de frecuencias de las medias muestrales basadas en 1000 muestras de tamaño 20
Clase LI LS ni fi
1 6.00 6.33 11 0.01 Distribución del promedio muestral
Caso 3: Distribución del promedio muestral basado en 1000 muestras de tamaño 30.
Distribución de frecuencias de las medias Distribución del promedio muestral
muestrales basadas en 1000 muestras de tamaño 30 0.33
Clase LI LS ni fi
1 6.20 6.51 7 0.01 0.25
frecuencia relativa
7
Estadística de la variable promedio muestral basado en 1000 muestras de tamaño 30
Caso 4: Distribución del promedio muestral basado en 1000 muestras de tamaño 40.
Distribución de frecuencias de las medias
muestrales basadas en 1000 muestras de tamaño 40
Distribución del promedio muestral
Clase LI LS ni fi
1 6.33 6.58 5 0.01 0.30
frecuencia relativa
4 7.10 7.36 207 0.21
5 7.36 7.62 287 0.29 0.15
Observando los histogramas, su forma pareciera no diferir mucho de la simetría. Aquí hay
que considerar los valores de los parámetros, por lo que será un buen desafío para Ud.
verificar lo comentado.
ACTIVIDAD 4. Con el fin de estimar el tiempo del trayecto desde la casa a la universidad,
se realiza un estudio para analizar el número de detenciones que hace un conductor en los
semáforos, ya sea en un viaje de ida o vuelta, encontrando, mediante la elaboración de
distribuciones de probabilidades para variables aleatorias discretas acotadas lo siguiente:
X 0 1 2
f(x) = P(X = x) 0.2 0.5 0.3
0.6
0.5
0.4
0.3
0.2
0.1 8
0
0 1 2
Además su valor esperado y desviación estándar es.
= E(X) = 0×0.2 + 1×0.5 + 2×0.3 = 1.1
E(X2) = 02×0.2 + 12×0.5 + 22×0.3 = 1.7
2 = V(X) = E(X2) - (E(X))2 = 1.7 – 1.12 = 0.49 y = 0.7
Para la varianza de T
E(T2) = 02×0.04 + 12×0.2 + 22×0.37 + 32×0.3 + 42×0.09 = 5.82
V(T) = E(T2) - (E(T))2 = 5.82 – 2.22 = 0.98
9
Sea 𝑋 = ( X 1 X 2 ) / 2 , la distribución de muestreo del promedio es
Muestras Probabilidad 𝑋 P(𝑋 = 𝑥)
(0,0) p(0,0) = p(0) p(0) 0 0.04
(1,0) (0,1) 2p(0)p(1) 0.5 0.2
(0,2) (2,0) (1,1) 2p(0)p(2) +p(1)p(1) 1 0.37
(1,2) (2,1) 2 p(1) p(2) 1.5 0.3
(2,2) p(2)p(2) 2 0.09
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 0.5 1 1.5 2
Ahora calcule la media y desviación estándar de las medias muestrales. Compárela con (c).
E(𝑋) = 0×0.04 + 0.5×0.2 + 1×0.37 + 1.5×0.3 + 2×0.09 = 1.1
Usando propiedades: E(𝑋) = E( ( X 1 X 2 ) / 2 ) = (1.1 +1.1)/2 = 1.1. Coincide E(𝑋) = µ
Observe que:
E( S2 ) =0× 0.38 + 0.5× 0.50 + 2× 0.12 = 0.49 = 𝜎
E(S4 ) = 02× 0.38 + 0.52× 0.50 + 22× 0.12 = 0.605. Así V(S2 ) = 0.605 – 0.492 = 0.3649
Error de muestreo: Es poco probable que una media muestral sea idéntica a la media
poblacional. De igual forma la desviación estándar calculada a partir de la muestra
probablemente no sería exactamente igual al valor correspondiente de la población.
La diferencia entre el parámetro poblacional y el valor del estadístico muestral se denomina
el error de muestreo.
Supóngase que una población de cinco empleados de producción tiene índices de eficiencia
de 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra de dos índices de
la población. La media de todos los índices (la media de la población) es igual a 100. Cada
diferencia x - µ es el error que habría al evaluar la media poblacional con base en la media
muestral, y estos errores de muestreo se deben al azar. La cantidad de estos errores será
diferente de una muestra a la siguiente.
Muestra Media Error de muestreo
97, 105 101 1.0
103, 96 99.5 -0.5
a. Para un tamaño de muestra dado, el valor medio de todas las medias muestrales posibles
seleccionadas de la población, es exactamente igual a la media poblacional.
b. Existe menos variación en la distribución muestral de medias que en la distribución de la
población.
c. El error estándar de la media mide la variación en la distribución muestral de la media
muestral.
c1) Si se conoce la desviación estándar poblacional, el error estándar es X n
c2) Si no se conoce la desviación estándar poblacional, el error estándar es estimado
mediante X S n.
11
Aunque en la práctica se puede ver sólo una muestra aleatoria en particular, en teoría puede
surgir cualquiera de las muestras. El uso de la distribución de muestreo de la media muestral
es importante porque la mayoría de las decisiones en las empresas y negocios se toman
basándose en los resultados de una muestra. Damos dos ejemplos. En cada una de estas
situaciones se tiene una población de la que se tiene alguna información. Se toma una muestra
de la población y se desea determinar si el error muestral –la diferencia entre el parámetro
poblacional y el estadístico muestral- se debe a la casualidad. Luego, se puede calcular la
probabilidad de que una media muestral se encuentre dentro de cierto intervalo.
Al calcular la probabilidad de que una media muestral se encuentre dentro de cierto intervalo,
surge la interrogante: ¿Bajo qué condiciones la distribución de la media muestral sigue una
distribución normal? La condición que analizaremos en esta sección será cuando no se
conoce la forma de la distribución de probabilidad de la población, o si se sabe que no es
normal, pero el tamaño de la muestra es suficientemente grande. Consideraremos las
aplicaciones del Teorema Central del Límite (TCL) en aquellas distribuciones de
probabilidades clásicas que se utilizan en la inferencia estadística.
El teorema señala que si se seleccionan de cualquier población todas las muestras de un
tamaño determinado, la distribución de las medias muestrales se acercará a una del tipo
normal. Esta aproximación aumenta en el caso de muestras más grandes. Esta proposición
general estudia la convergencia hacia la distribución normal independientemente de la forma
distribución de la poblacional.
Teorema central del límite. Obtenga una muestra aleatoria simple de tamaño n de
cualquier población de media µ y desviación típica finita σ. Cuando n es grande, la
2
distribución de la media muestral X se aproxima mucho a la distribución normal N ( , )
n
con media µ y desviación estándar n para poblaciones finitas cuando el muestreo se ha
realizado con reemplazo.
ACTIVIDAD 5. Un sistema está formado por 100 componentes cada una de las cuales tiene
una confiabilidad igual a 0,95. (Es decir, la probabilidad de que la componente funcione
correctamente durante un tiempo específico es igual a 0,95). Si esas componentes funcionan
independientemente una de otra, y si el sistema completo funciona correctamente cuando al
menos funcionan 80 componentes, ¿Cuál es la confiabilidad del sistema?
¿Qué elementos destacarían en esta actividad y cómo la desarrollarías?
En primer lugar podemos definir la variable aleatoria “número de componentes que
funcionan correctamente en el sistema” con distribución binomial de parámetros n=100
ensayos y probabilidad de que funcione una componente cualquiera p=0,95. Luego,
escribimos en lenguaje simbólico P80 S n 100 e intentamos de calcular la probabilidad.
Hacemos notar que el valor es demasiado grande para las tablas que tenemos. De esta manera
estamos introduciendo la idea de aproximación mediante las preguntas: ¿Son muchos
términos en la suma?, ¿Los términos son difíciles de calcular?, ¿Podríamos usar otra
distribución de probabilidades para aproximar el cálculo de la probabilidad pedida?
12
Solución aproximada: Para calcular P (80 Sn 100) primero obtenemos la esperanza y
varianza de la variable de interés.
E(Sn)=E(∑Xi)= ∑E(Xi) = n×p = 100×0,95 = 95 ;
Var(Sn)=Var(∑Xi)= ∑Var(Xi) = n×p×(1-p) = 100×0,95×0,05 = 4,75.
Cabe señalar, que esta problemática es un caso particular de un resultado general; el teorema
central del límite, y que nuestro interés en los temas siguientes es conducirlos a su
generalización y formalización. La interrogante general que lleva a analizar los teoremas de
límite es la siguiente: ¿En qué condiciones y mediante qué funciones o distribuciones de
probabilidad pueden aproximarse la suma de otras distribuciones por la distribución
normal, cuando aumentamos progresivamente el número de sumandos? Destacamos la
importancia práctica en ingeniería, en estudios de la masa forestal, producción, cargas en
estructuras, etc., y que permite usar la distribución normal tabulada para calcular
probabilidades que provienen de la suma de diferentes distribuciones.
Sean X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal con media
y varianza 2 . Entonces, la variable aleatoria X tiene distribución normal con media
2
y varianza .
n
13
t t t
x1 x2 xn t t t
M x (t ) E ( e ) = E ( e
xt n
) E (e n
) E ( e n
) = M x1 ( ) M x 2 ( ) M x n ( )
n n n
n
n t 2 t2 2 t2
t
t 2 n
= M xi ( ) = e n 2 n2
= e
n
La función generadora de momentos desarrollada corresponde a la distribución normal,
donde x ~ N (,
2
n
). Por la tanto, E x y V (X )
2
n
.
∑
Observe que 𝑋 = = . Entonces, 𝑆 ~ 𝑁( 𝑛𝜇, 𝑛𝜎 )
14
105 100
P( X 105) 1 P( Z ) = 1- Fz (2,58) = 0.00494
1.9365
d) Sabemos por regla empírica que aproximadamente un 95,4% de todos los datos deben
estar a dos desviaciones estándar de la verdadera media, usando la tabla normal
estándar es de 0.9545, es decir P 2 Z 2 0.9545 , o
X 100
P 2
1.9365
2 0.9545 con esto P 96.13 X 103.87 0.9545 .
Esto nos indica que valores de medias muestrales mayores o iguales a 96.13 y
menores o iguales a 103.87 se encontraran a dos desviaciones estándar de la
media verdadera. Otra forma de ver esto, la verdadera media puede encontrarse
entre 96.13 y 103.87 con una probabilidad de 0.9545
Observe lo relevante de esta conclusión, al no conocer la media real, podemos tomar una
muestra aleatoria de dicha población, entonces calcular su media y a partir de esta y de que
tan confiable queramos mostrar dicho resultado, podemos proporcionar un rango de valores
donde se puede encontrar la media verdadera. La probabilidad que nos damos recibe el
nombre de nivel de confianza, y lo denotamos por 1- , y el rango de valores define lo que
llamamos intervalo de confianza.
La conclusión que hemos obtenido nos lleva a dar la siguiente definición:
15
Nota: El intervalo definido nos muestra que 𝑃 𝑋 − 𝑧 ≤ 𝜇 ≤𝑋+ 𝑧 = 1− 𝛼 o
√ √
que 𝑃 −𝑧 ≤ 𝑋− 𝜇 ≤ 𝑧 = 1 − 𝛼, es decir, la media de la muestra difiere de la
√ √
verdadera media en a lo más 𝑧 unidades con una confianza del 100(1 )% . 𝑧
√ √
define el error máximo que admitimos en que X difiere de con una confianza de
100(1 − 𝛼)%.
Si llamamos d a este error máximo, observe que 𝑧 = 𝑑 define una ecuación que nos
√
indica que conocido tres de sus valores podemos determinar el cuarto, así
2
z
n 0 Para determinar tamaño de la muestra
d
z0 d d n
z 0 Para determinar nivel de confianza
n
d n
Para determinar la desviación estándar
z0
108
106
104
102
100
98
96
94
92
90
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
Media 100.5 104.6 98.7 100.5 100.2 98.5 102.7 97.5 102.1 100.8 100.2 99.1 102.1 99.2 100.8 103.5 100.4 99.4 104.1 101.7
L inf. 96.7 100.8 94.9 96.7 96.4 94.7 98.9 93.7 98.3 97 96.4 95.3 98.3 95.4 97 99.7 96.6 95.6 100.3 97.9
L sup. 104.3 108.4 102.5 104.3 104 102.3 106.5 101.3 105.9 104.6 104 102.9 105.9 103 104.6 107.3 104.2 103.2 107.9 105.5
Contiene 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
Media 97.6 100 100.9 98.9 99 101.1 99.9 99.4 101.8 97.9 100.5 99.5 95.6 101.4 100.6 97.5 102.3 99.6 99.5 100.2
L inf. 93.8 96.2 97.1 95.1 95.2 97.3 96.1 95.6 98 94.1 96.7 95.7 91.8 97.6 96.8 93.7 98.5 95.8 95.7 96.4
L sup. 101.4 103.8 104.7 102.7 102.8 104.9 103.7 103.2 105.6 101.7 104.3 103.3 99.4 105.2 104.4 101.3 106.1 103.4 103.3 104
Contiene 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1
Media 98.4 98.4 99.9 100.7 99.1 101.7 101.1 102 98.1 100.4 98.6 99.4 98.7 98.3 97.5 99.7 97.8 98.9 98.7 97.5
L inf. 94.6 94.6 96.1 96.9 95.3 97.9 97.3 98.2 94.3 96.6 94.8 95.6 94.9 94.5 93.7 95.9 94 95.1 94.9 93.7
L sup. 102.2 102.2 103.7 104.5 102.9 105.5 104.9 105.8 101.9 104.2 102.4 103.2 102.5 102.1 101.3 103.5 101.6 102.7 102.5 101.3
Contiene 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Media 100.1 99.7 100.2 101 99.4 97.1 95.9 99.7 97.9 103.3 97.5 100.3 99.8 96.8 101.3 102.1 102 97.8 99.1 98.6
L inf. 96.3 95.9 96.4 97.2 95.6 93.3 92.1 95.9 94.1 99.5 93.7 96.5 96 93 97.5 98.3 98.2 94 95.3 94.8
L sup. 103.9 103.5 104 104.8 103.2 100.9 99.7 103.5 101.7 107.1 101.3 104.1 103.6 100.6 105.1 105.9 105.8 101.6 102.9 102.4
Contiene 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1
Media 96.7 99.3 97.5 103.6 100.1 99.3 99.2 97.1 102.6 103.9 97.9 101.5 102.8 99.2 101.4 99.7 100.8 101.1 96.5 102.5
L inf. 92.9 95.5 93.7 99.8 96.3 95.5 95.4 93.3 98.8 100.1 94.1 97.7 99 95.4 97.6 95.9 97 97.3 92.7 98.7
L sup. 100.5 103.1 101.3 107.4 103.9 103.1 103 100.9 106.4 107.7 101.7 105.3 106.6 103 105.2 103.5 104.6 104.9 100.3 106.3
Contiene 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1
16
Para esta simulación encontramos que el 95% de los intervalos contienen a la verdadera
media, indicado como 1 en la fila Contiene de las tablas.
Como ejercicio, compruebe Ud. algunos resultados dados en la tabla
Una pregunta interesante que pudiéramos hacernos es si personas con estudios superiores
alcanzan mayores puntuaciones en la prueba WAIS que personas que no los tienen. De ser
afirmativa esta respuesta podemos distinguir dos poblaciones; los puntajes obtenidos por
personas sin estudios superiores y los que alcanzan estudios superiores. Luego, si elegimos
una persona al azar, que tan probable es que podamos clasificarla adecuadamente observando
sólo su puntaje, o si seleccionamos una muestra aleatoria de tamaño n, podamos tener certeza
que esta ha sido obtenida de una población y no de la otra. Gráficamente esto podríamos
verlo de la siguiente forma:
Gráfico de distribución Normal para distintos valores de la media
0.027
0.020
Densidad
Densidad
0.013
0.007
0.000
En este gráfico podemos ver en forma clara como se traslapan poblaciones con distintas
medias, para una misma varianza, lo que nos indica que tenemos un riesgo de clasificar a un
individuo en una población equivocada.
105 100
P X 105 / 100 P Z
1,9365
P Z 2.58 0.00494
Esto nos indica que es poco probable que una muestra aleatoria de tamaño con media mayor
a 105 pueda ser clasificada en una población con media 100, es decir la muestra debería venir
de una población con media mayor a 100.
Si observamos la tabla de los 100 intervalos simulados, la muestra que contiene el valor
promedio más alejado de 100 es 104.6 y
104.6 100
P X 104.6 / 100 P Z
1, 9365
P Z 2.38 0.008656 es decir la muestra
17
probabilidades más de 0.05 o más de 0.1, dependiendo del valor considerado por Ud. para
estos análisis, indicarán que la muestra ha sido seleccionada de la población con media
correcta. Esta probabilidad establecida se llama nivel de significación y se denota con y
la región establecida por el criterio, región critica o región de rechazo, denotada por RC.
Observe, que en el análisis que hemos estado desarrollando estamos probando o contrastando
una suposición respecto de la muestra ha sido seleccionada de una población con =100 o
con >100, esta prueba o contraste se recibe el nombre de prueba de hipótesis y la
suposición respecto del valor del parámetro hipótesis estadística, y que se denotan por H 0 y
H1, llamadas hipótesis nula y alternativa respectivamente.
x0 100
1,9365
1.64 x0 103.2 , luego, RC x1 , L x60 // X 103.2
Es decir, si Ud. selecciona una muestra aleatoria de tamaño 60 y arroja una media muestral
mayor a 103.2 podrá concluir que la muestra ha sido seleccionada de una población con
media mayor a 100.
Repita el ejercicio para la hipótesis H0 : = 100 v/s H1 : < 100
18
En otras palabras, significa que el 5% de todos los intervalos estaría errado; no contendría la
media poblacional. Este 5%, denominado valor alfa, hallado como α, representa la
probabilidad de error o la probabilidad de que un intervalo dado no contenga la media
poblacional desconocida.
La línea horizontal indica el valor del parámetro y las líneas verticales son intervalos de
confianza de 0,90 se puede observar que hay 25 de 27 intervalos que contienen el parámetro
𝜇 = 50.
19
DISTRIBUCIÓN DE PROBABILIDAD DE LA VARIANZA MUESTRAl (S 2)
Recordemos que para variable aleatoria independientes Z i con distribución normal
k 2
N(0,1), la v.a. Zi tiene distribución Chi-Cuadrado con k grados de libertad.
i 1
Considere X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal con media
Xi
y varianza 2 . La variable aleatoria Z i tiene distribución normal N(0,1), y
entonces
n
xi 2 ~ X n2
i 1 2
Teorema 2. Sea X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal
X ~ N (, 2 ) y denotemos Y
n 1S 2 . Entonces, la variable aleatoria Y tiene
2
n n
Demostración. Escribamos la descomposición: (Xi )2 (Xi X ) 2 n ( X ) 2 Dividamos
i 1 i 1
n n
(Xi )2 (Xi X )2
n( X ) 2 n( X )2
cada término de la igualdad por , 2 i 1
2
i 1
2
2
La expresión
2
corresponde al cuadrado de una variable normal estándar con una distribución 12 . Por otra parte,
n
(Xi )2
W= i 1
sigue una distribución n2 . Así, W =
n 1S 2 n ( X ) 2
2
2 2
20
Si multiplicamos por un parámetro real t, aplicamos la función exponencial a ambos
miembros, y tomamos esperanzas, teniendo en cuenta la independencia de la media y la
varianza muestral, tenemos:
n12S t
2
E e = E e
tw
e tz donde W y Z tienen distribuciones chi-cuadrado con n y 1 grados de
n 1S 2
t 1 1
libertad, por lo que podemos escribir: E e
2
1 2t n 1 / 2
;t es la función generadora
2
de momentos de una n21 y en consecuencia:
Y
n 1S 2 ~ n21
2
Se pide P 521 x 540 = 521 500
P
50 / 5
Z
540 500
50 / 5
= (1,79) (0,94) = 0,1369
b) P(
n 1S 2
9 68,56 2
) = P X 2 16,92 = 0.95
2 50 2 9
(a ≤
n 1S 2 ≤ b) = 1- α para valores determinados de a y b. Este resultado permite a su vez
2
construir un intervalo de confianza 1- α para σ 2.
(𝑛 − 1)𝑆 (𝑛 − 1)𝑆
𝑃 𝛼 ≤ 𝜎 ≤ 𝛼 = 1− 𝛼
𝑋 1− 𝑋
2 2
21
( )
Un intervalo que con probabilidad 1- contenga a ~𝑋 tiene por extremos
𝑋 (1− ) y𝑋 ( ) entonces despejando σ2:
(𝑛 − 1)𝑆 (𝑛 − 1)𝑆
𝛼 , 𝛼
𝑋 1− 𝑋
2 2
Distribución t- Student. Sea W una variable aleatoria distribuida normal estándar y V otra
variable aleatoria distribuida Chi- cuadrado con n grados de libertad, formemos el cociente
W
T , donde T es una variable aleatoria con distribución t- Student, además, W y V son
V n
independientes. Entonces, consideremos el caso particular, para una muestra con distribución
normal, es posible demostrar que x es independiente de S 2 , y por tanto podemos formar una
V
n 1S 2 ~ X n21 variables aleatorias independientes, entonces T
/ n
=
x
~ t-
2
n 1S 2 S/ n
2 (n 1)
La muestra aleatoria es sacada de una población normal, pero los parámetros y 2 son
desconocidos. La estandarización de la variable aleatoria está dada en el siguiente teorema:
22
Teorema 3. Sea X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal
X ~ N (, 2 ) . Entonces, la variable aleatoria 𝑡 = tiene distribución t de Student con
/√
𝑛 − 1 grados de libertad.
ACTIVIDAD 12. Se desea comparar los tiempos promedios de ejecución utilizados en una
empresa cuando un mismo trabajo se realiza permanentemente por dos métodos diferentes.
Se sabe que los tiempos de ejecución, en minutos, por los dos métodos sigue una distribución
normal con 𝜇 = 100 y 𝜇 = 80. Se sabe además, que las varianzas de los tiempos de ejecución
son desconocidas pero iguales.Si seleccionamos dos muestras aleatorias independientes de
tamaños 𝑛 = 10 del método 1 y 𝑛 = 20 del método 2, obteniendo 𝑆 = 4 y 𝑆 = 12
respectivamente.
a) ¿Cuál es la probabilidad que la media de la muestra de los tiempos de ejecución del trabajo
por el método 1 sea superior a 99,56 minutos?
b) ¿Cuál es la probabilidad que en la muestra del método 2, la razón de la varianza de la
muestra entre la varianza verdadera sea inferior a 0,53247?
Solución: Sean
𝑋 : Tiempo de aplicación de un trabajo por el método 1 𝑋 ~ 𝑁(𝜇 = 100; 𝜎 )
𝑋 : Tiempo de aplicación de un trabajo por el método 2 𝑋 ~ 𝑁(𝜇 = 80; 𝜎 )
Además, 𝑛 = 10 𝑆 = 4 𝑛 = 20 𝑆 = 12
a) La varianza de la población es desconocida, por tanto: ~𝑡
√
,
𝑃(𝑋1 > 99,56) = 1 − 𝑃(𝑡 ≤ ) = 1 - 𝑃(𝑡 ≤ −0,6957) = 0,75
√
Hay una probabilidad del 75% de que la media de la muestra de los tiempos de ejecución del
trabajo por el método 1 sea superior a 99,56 minutos
( )
b) ~ 𝑋 𝐴𝑠í, 𝑃 < 0,53247 = 𝑃(𝑋 < 10,11693) = 0,05
X
Caso 3: De la expresión ~ t ( n 1) podemos obtener un intervalo de confianza para el
S n
parámetro µ cuando σ2 es desconocido. La única diferencia con la expresión obtenida antes
es que ahora se utiliza S2 en lugar de σ2 y la distribución correspondiente es la t(n-1) en
lugar de la distribución normal estándar Z(0,1).
S
: x t n 1 (1 / 2)
n
23
Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para los
parámetros poblacionales clásicos de la media, la proporción y la varianza.
y V .
Insesgamiento Un estimador es insesgado si el valor medio de todas sus estimaciones
obtenidas en una muestra de tamaño n, es igual al parámetro que estima. Entonces es un
estimador insesgado si E . De lo contrario se dice que es sesgado. El sesgo B de un
ACTIVIDAD 13. Sea p el estimador de la proporción p de elementos de una población
n
Xi 1 si el elemento posee el atributo de interés
con cierto atributo. Se define p i 1
donde X i
n 0 si el elemento no posee el atributo de interés
p (1 p )
Verifique que: i) p es estimador insesgado de p. ii) la varianza de p es
n
Esto es, el error cuadrático medio de es igual a la varianza del estimador más el cuadrado
del sesgo. Si es un estimador insesgado de , el error cuadrático medio de es igual a
la varianza de . El error cuadrático medio es un criterio importante para comparar dos
estimadores. Según los valores del parámetro, es posible que un estimador sesgado sea mejor
que uno insesgado.
24
Métodos de estimación. Existen métodos para obtener unos estimadores puntuales de los
parámetros poblacionales; como por ejemplo el método de máxima verosimilitud.
Observación:
1. Para simplificar el cálculo del máximo de la función de verosimilitud aplicamos logaritmo
natural a la función L( X ; ) , lo que es posible dado que la función logaritmo es una función
creciente y por tanto, el máximo valor de L( X ; ) se obtiene para el mismo valor que la
función logaritmo natural.
d
2. Si la distribución depende de un parámetro entonces ln l ( X , ) = 0 llamada
d
Ecuación de Verosimilitud. Si la distribución depende de dos parámetros = , entonces
se forma un sistema de ecuaciones de verosimilitud.
25
Se muestra en la Tabla siguiente algunos Estimadores Máximo verosímiles de acuerdo a la
distribución de probabilidad
Gamma (𝛼 = 2 𝑦 𝜃) 𝜃 ∑ 𝑋
𝜃=
2𝑛
b) Un intervalo de confianza denota un rango dentro del cual puede encontrarse el parámetro,
y el nivel de confianza que el intervalo contiene del parámetro.
26
P p z1 pq / n pˆ p z 2 pq / n FZ z 2 FZ z1
𝑋 ~ 𝑁(𝜇; 𝜎 ) (𝜎 𝑒𝑠 𝑑𝑒𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜)
𝑛 = 24 𝑥 = 1,723 S = 0,0827 y 𝑡 (0,95) =1,7139
0,0827 0,0827
1,723 − 1,7139 ∙ ; 1,723 + 1,7139 ∙
√24 √24
Así, µ: (1,6941; 1,7519)
Un intervalo de confianza del 95% para la verdadera estatura promedio se encuentra entre
1,69 y 1,75 metros.
b) Encuentre un Intervalo de confianza del 98% para la proporción de estudiantes del curso
que tienen estatura mayor a 1,75.
Un Intervalo de confianza del 98% para la proporción de estudiantes del curso que tienen
estatura mayor a 1,75 se encuentra entre 0,1529 y 0,4304.
27
Obtención de tamaños de muestras aleatorias
Una segunda aplicación del teorema central del límite consiste en determinar el tamaño
adecuado de muestra aleatoria para estimar el parámetro de una población binomial con
una precisión dada, en el contexto de estimar la proporción de fumadores. Pretendemos
descubrir que el número de unidades en la muestra depende de la precisión con la cual se
quiere estimar el parámetro de interés p, de la varianza de la población y del valor del
coeficiente de confianza utilizado para efectuar la estimación mediante un intervalo. La
variable a considerar es cualitativa y se estima la proporción de elementos que tienen la
característica indicada por dicha variable mediante el estimador p̂ . El error absoluto de
estimación es e pˆ p .
p (1 p )
Como el intervalo de confianza 1-α es pˆ p Z (1 / 2) se obtiene una fórmula de
n
2
Z (1 / 2)
cálculo de tamaño adecuado mínimo, n p(1 p) .
e
ACTIVIDAD 16. Muestreo. Una fracción desconocida p de una población está compuesta
por fumadores, y vamos a utilizar el muestreo aleatorio con reemplazo para determinar p. Se
quiere encontrar p con un error no mayor de 0,005.
a. ¿Cuán grande debe ser el tamaño n de la muestra?
b. ¿Cuán grande debe ser el tamaño n de la muestra si se quiere un error a lo más 0,01?
Dado que Sn= nˆp puede interpretarse como el número de éxitos en n ensayos, tenemos que
P( pˆ p 0,005) P( S n np 0,005n) 1 . Con apoyo de la aproximación normal y
observando sus valores en la tabla, sería necesario elegir una n tan grande que
0,005 n
Z (1 / 2) ó n 40000 p q Z 2 (1 / 2) .
pq
Decidir cuánta confianza debemos poner en las estimaciones estadísticas que hacemos es
más difícil que hacerlas. Si la muestra es amplia, aumentará nuestra confianza en que sus
características se acerquen a las del conjunto de la población. Si la población no es muy
variada ni hay mucha dispersión en su distribución, también aumentará nuestra confianza en
que sean representativas las características de la muestra.
Pueden establecerse intervalos numéricos que indiquen la probabilidad de que una
característica de la muestra refleje el conjunto de la población. Podemos decir así que un
intervalo de confianza del 95% para el porcentaje de votantes a favor de la propuesta X es el
45% más o de menos un 6%. Esto quiere decir que podemos tener al 95% la certeza de que
el porcentaje de la población está comprendida en el 6% del porcentaje de la muestra, en este
caso que entre el 39 y el 51 por ciento de la población apoya la propuesta X. O bien podríamos
decir que un intervalo de confianza del 90% para el porcentaje de consumidores que prefieren
el servicio informático Y es el 13% más o menos un 8%, para dar a entender que podemos
tener al 90% la certeza* de que el porcentaje de población está dentro del 8% del porcentaje
de la muestra, en este caso que entre el 5 el 21 por ciento de consumidores prefieren el
servicio. Si aumentamos el tamaño de la muestra, podemos reducir el intervalo y aumentar
nuestra confianza de que contiene el porcentaje de población (o características o el parámetro
que sea), aunque cuesta dinero aumentar los tamaños muestrales.
Los resultados de las encuestas que no incluyen intervalos de confianza o márgenes de error
suelen ser falsos. Estos intervalos de confianza, aunque las encuestas los incluyan, no siempre
son eficaces en los medios de comunicación. Las salvedades e incertidumbres son noticia
muy pocas veces. Si un titular dice que el paro ha descendido del 7,3% al 7,2% y no aclara
que el intervalo de confianza es del 0,5% en más o en menos, podríamos tener la equivocada
impresión de que las cosas han mejorado. Dado el error de muestreo, sin embargo es posible
que no haya habido “descenso”, incluso ha podido haber un aumento. Si no se dan márgenes
de error, una buena norma empírica es que los muestreos aleatorios ** de mil sujetos o más
29
dan un intervalo con estrechez suficiente para casi todos los objetivos, mientras que los
muestreos aleatorios de cien sujetos o menos dan un intervalo demasiado ancho para casi
todos los fines.
En pocas palabras: un Intervalo de Confianza nos proporciona una franja en cuyo interior se
encontrará con alguna probabilidad el valor verdadero de la característica en cuestión.
Nota:
* Puesto que la certeza no admite grados, “tener certeza al 95%” es una incorrección de
menor cuantía, aunque corriente. Es lógico pensar que tener certeza al 95% supone tener
incertidumbre al 5%, idea que parece sospechosamente embarazosa.
** Incluso una “muestra” no aleatoria de 250 millones e sujetos puede tener problemas. La
oficina del Censo de Estados Unidos está empeñada en contarnos absolutamente a todos y se
niega a complementar la cuenta con técnicas normales de muestreo. EL resultado es una
subestimación notable, en particular de los pobres de las ciudades.
Generalmente, uno se refiere al azar inherente a toda situación probabilística. Por ejemplo,
formulo la hipótesis de que por lo menos el 20% de las personas de cierta región tiene el
pelo rubio, pero al observar a mil personas en partes representativas de la región, advierto
que sólo hay ochenta rubias en total. Sirviéndonos de la teoría de la probabilidad, calculo
que, partiendo de mi suposición, la probabilidad de este resultado es muy inferior al 5%, un
“nivel de significación” que se emplea corrientemente. En consecuencia, desecho la hipótesis
de que el 20% de la población de la zona tiene el pelo rubio.
Hay dos clases de errores que pueden cometerse al hacer esta comprobación estadística y
cualquiera otra; la denominaremos, con toda la poesía que caracteriza a los estadísticos,
errores de tipo I y de tipo II. Se produce un error de tipo I cuando se desecha una hipótesis
acertada y se produce un error de tipo II cuando se acepta una hipótesis equivocada. Así, si
no advertimos que casi todos los rubios de la zona se quedan en casa los días soleados, al
desechar la acertada suposición de que constituyen por lo menos el 20% de la población
cometeríamos un error de tipo I. Y al contrario, si nos cruzamos con un batallón de turistas
suecos y aceptamos la suposición equivocada sobre la parte proporcional que representan los
rubios, cometeríamos un error de tipo II. La posibilidad de cometer las dos clases de error
existe siempre, incluso cuando tomamos muchas precauciones en el muestreo aleatorio.
Por ejemplo, la Dirección General de Alimentación y Consumo debe contrarrestar el riesgo
de cometer un error de tipo I (no dando el visto bueno a un medicamento eficaz) con el riesgo
de cometer un error de tipo II (autorizando un medicamento inútil o pernicioso). Es
comprensible que grupos distintos opinen de distinta manera sobre las dos orientaciones y
que se quejen de orientaciones distintas.
En pocas palabras: toda comprobación estadística da pie a dos clases de errores, desechar una
hipótesis acertada y aceptar otra equivocada. Según la situación, evaluaremos las
probabilidades de estas dos clases de error y obraremos en consecuencia.
30
PRUEBAS DE HIPÓTESIS DE PARÁMETROS
b) Un test de una hipótesis estadística es una regla o procedimiento que permite decidir el
rechazo de la hipótesis H 0 .
c) El estadígrafo o estadístico de prueba es una función de la muestra. Interesa que contenga
el máximo de información sobre la H 0 planteada ya que, en base a la información contenida
en esta función se tomará la decisión respecto de la aceptación o rechazo de la hipótesis, H 0
, planteada.
d) La región de rechazo, especifica los valores del estadístico de la prueba para los cuales
se rechaza H 0 .Entonces, la hipótesis nula será rechazada si y sólo si el valor observado o
calculado del estadístico de prueba se ubica en la región de rechazo.
e) Errores en pruebas de hipótesis. La selección de una región de rechazo en particular se
basa en la comprensión de dos tipos de errores que enfrentaríamos al sacar una conclusión.
Al realizar una prueba de hipótesis un error tipo I se comete cuando se rechaza una
hipótesis nula verdadera; es decir, cuando la hipótesis nula es verdadera, pero se decide en
contra de ella. Un error tipo II se comete cuando se decide a favor de una hipótesis nula que
realmente es falsa.
La cuantificación de los errores es dada a continuación:
( ) rechazarH 0 / H 0 ( ) aceptarH 0 / H1
31
¿Cómo es posible reducir y al mismo tiempo? La respuesta es obtener mayor
información acerca de la naturaleza real de la población incrementando el tamaño de la
muestra. Así, casi todas las pruebas estadísticas y decrecerán ambos al aumentar el
tamaño de la muestra.
Naturalmente, deseamos disminuir ambos errores y es considerado más grave el error
tipo I, en el cual el investigador encuentra evidencia para rechazar H 0 cuando no la hay; esto
significa considerar un nivel de significación pequeño. Típicamente se fijan en 5%,
también son usados al 1% y 10%.
Esquema de Probabilidades en un test de hipótesis
H 0 es V H 1 es V
aceptar H 0 1
rechazar H 0 1
ACTIVIDAD 17. Sea X ~ N(175;400). Para contrastar la hipótesis H0: µ = 175, se toma una
muestra aleatoria de tamaño 20. La regla de decisión es “Rechazar H 0 si x 185 .
a) ¿Cuál es la probabilidad de cometer error tipo I?, ¿Cuál es la probabilidad de cometer
error tipo II, si la verdadera media es 176?
b) Determine la función potencia para la media: 170,173, 175, 175.5, 176, 179, 182, 185,
187 y 190.
c) Grafique la función potencia y el error tipo II para los valores de la media dados en b).
32
En la prueba de hipótesis la metodología a seguir es:
1. En la prueba de hipótesis se definen las hipótesis a contrastar o probar:
Si es el parámetro entonces las hipótesis pueden ser
i.1) H0: 0 donde 0 es algún valor conocido respecto del parámetro
H1: 0
i.2) H0: 0
H1: 0
i.3) H0: 0
H1: 0
En los tres casos la hipótesis H0 define una hipótesis simple respecto del valor del parámetro.
Las hipótesis (i.1) y (i.2) se conocen como hipótesis unilaterales o de una cola, en cambio la
hipótesis (i.3) recibe el nombre de hipótesis bilateral o de dos colas.
Definición. Para un test de hipótesis se llama valor-p al nivel de significancia mínimo que
es necesario para rechazar H 0 . En otras palabras, el valor-p se define como el menor nivel
de significación para el cual un experimentador, utilizando el estadístico, rechazaría H 0 sobre
la base del resultado observado. Así,
a. valor-p = P(d > dc) si hipótesis H1 está dada por (i.1)
b. valor-p = P(d < dc) si hipótesis H1 está dada por (i.2)
c. valor-p = P(d > db v d < da) si hipótesis H1 está dada por (i.3)
33
Donde da, db y dc son valores de la medida de discrepancia o estadístico de prueba d evaluada
por los datos.
Evidencia
altamente Evidencia Zona de no
significativa significativa Evidencia
débil en contra rechazo de la
en contra de en contra de
de H0 hipótesis H0
H0 H0
Sea X 1 , X 2 ,.... X n una muestra de una distribución normal con media desconocida y
varianza 2 conocida.
1) Hipótesis: a) H 0 : 0 vs H 1 : 0
b) H 0 : 0 vs H 1 : 0
c) H 0 : 0 vs H 1 : 0
2) Estadístico de prueba: En los tres casos (a), (b) y (c): Z
x 0
n x 0
/ n
3) Test: Regla de decisión o de rechazo de H 0
a) Z > C1 b) Z < C1 c) Z < - C1 o Z > C1 ;
donde C1 es:
alpha 0.10 0,05 0,01
(a) 1.28 1.645 2.33
(b) -1,28 -1,65 -2,33
(c) 1.645 1.96 2.58
34
Observación: Una vez seleccionada la muestra aleatoria y evaluada la medida de discrepancia
estamos en condiciones de calcular el valor-p, donde
a) valor-p = P(Z > Zc) si hipótesis H1 está dada por (i)
b) valor-p = P(Z < Zc) si hipótesis H1 está dada por (ii)
c) valor-p = 2P(Z > |Zc|) si hipótesis H1 está dada por (iii)
zc -zc -z c zc
a) b) c)
ACTIVIDAD 18. Supongamos que la variable X: “precio del kilo de pan” sigue una
distribución Normal y de una muestra aleatoria de tamaño 15 locales se obtiene x $1120
y S = $11.5
x 0
Como es desconocida se usa el estadístico : T t (14) .
S/ n
El intervalo de 95% de confianza para el precio medio del kilógramo de pan en la ciudad
es:
S S
x 2.145 15 , x 2.145 15 1113.6 , 1126.4
Tenemos un 95% de confianza de que el precio medio del kilógramo de pan en la ciudad está
entre $1113.6 y $1126.4.
Consideremos la pregunta: ¿Hay evidencia para afirmar, con una prueba de hipótesis de
nivel de significación 0.05, que el precio medio del pan en la ciudad es superior a $1100?
Valor p = P(T14 > 3.37) = 1 – P(T14 ≤ 3.37) = 1 – 0.99771 = 0.0022891 < 0.01
Existe evidencia altamente significativa en contra de H 0
35
ACTIVIDAD 18. Los salarios diarios en una industria en particular presentan una
distribución normal con una media de 132 dólares y una deviación estándar de 25 dólares. Si
en esta industria una compañía que emplea a 40 trabajadores les paga en promedio 122
dólares.
a) ¿Puede acusarse a esta compañía de pagar salarios inferiores? Utilice un α = 0,01.
Justifique mediante la forma clásica o valor p de una prueba de hipótesis.
b) Dada la región de aceptación {𝑥 / 𝑥 > 128}, ddetermine la probabilidad de error tipo II
si el verdadero salario promedio es 131 dólares.
Desarrollo
Sea X: Salarios diarios de los trabajadores de una industria en particular.
𝑋 ~ 𝑁(𝜇 = 132, 𝜎 = 625)
𝑋 , 𝑋 , … , 𝑋 con n = 40 y 𝑥 = 122
En resumen, el procedimiento para realizar una dócima de hipótesis es: Dadas las hipótesis
nula y alternativa se propone un estadístico de prueba adecuado y una región crítica en la
cual H 0 es rechazada. La solución clásica define un nivel de significación que es el error
tipo I máximo que se está dispuesto a cometer. En base a se determina la región de
rechazo específica. Por último se decide entre rechazar la hipótesis nula o no rechazarla. La
solución alternativa considera calcular el valor de probabilidad, Valor p.
36
Así, si este estadístico toma valores cercano a (n-1), que corresponde a la media de la
distribución, se acepta H 0 .
Si la hipótesis nula es de la forma H 0 : 2 02 entonces sólo se rechaza H 0 para
valores grandes de C2 . Mientras que si la hipótesis nula es de la forma H 0 : 2 02 sólo se
rechaza H 0 para valores pequeños de X C2 . Los valores críticos son obtenidos de tablas de
la distribución X (2n 1) en base al nivel de significación dado.
a) c2
b) c2
c) a2 b2
ACTIVIDAD 19. Una máquina produce las varillas de metal utilizadas en el sistema de
suspensión de un automóvil. Se toma de una muestra aleatoria de 16 varillas y se mide el
diámetro (en milímetros), obteniéndose los datos siguientes:
8.24. 8.21. 8.23. 8.25. 8.26. 8.20. 8.23. 8.26
8.19 8.23 8.20 8.28 8.24 8.25 8.24 8.24
Suponiendo que los diámetros de las varillas tienen distribución normal ¿Los datos apoyan
la afirmación que la desviación estándar del diámetro de las varillas es mayor de 0.04
milímetros? Argumente su respuesta, use α = 0.05.
DESARROLLO
X: Diámetro de la varilla (milímetros).
𝑋~𝑛(𝜇, 𝜎 )
𝑛 = 16 → 𝑠 = 0,024
Prueba de Hipótesis para 𝜎 , con 𝛼 = 0,05
𝐻 : 𝜎 ≤ 0,04 y 𝐻 : 𝜎 > 0,04
( ) ,
Estadístico de prueba 𝜒 = = 5,40
,
Conclusión. Con significancia del 5%, no existe evidencia para rechazar la hipótesis nula
H0, por lo tanto los datos no apoyan la afirmación de que la desviación estándar del
diámetro de las varillas es mayor de 0.04.
37
C. Test para parámetros en otras distribuciones
, ,
Así, 𝑍 = , ∙ ,
= 2,65
Conclusión, Con un nivel de significación del 1%, existe evidencia en la muestra para afirmar
que más del 80% de las alteraciones de las líneas de transmisión eléctrica en un sitio de
cómputo específico corresponde a ruido.
Valor p = 𝑃(𝑍 > 2,65) = 1 − 𝑃(𝑍 ≤ 2,65) = 1 − 0,995975 = 0,004 > 0,01
Existe evidencia en la muestra que más del 80% de las alteraciones de las líneas de
transmisión eléctrica en un sitio de cómputo específico corresponde a ruido.
38