Beruflich Dokumente
Kultur Dokumente
Guía de estudio
1. Objetivo
holger.benalcazar@ epn.edu.ec
holgerben@hotmail.com
julio - 2013
1. Objetivo
El objetivo de la Estadística Inferencial es estimar uno o más parámetros poblacionales desconocidos, a partir
de la información proporcionada por una muestra aleatoria.
Si de una población se extrae una muestra aleatoria, cualquier función de las observaciones de la muestra que
proporcione información acerca de un parámetro poblacional se denomina estimador. Por ejemplo:
Se denomina estadístico a cualquier función del parámetro poblacional y de alguno de sus estimadores. Por
ejemplo, la expresión (n-1)s2 /2 es un estadístico, pues es una función del parámetro poblacional 2 y de su
estimador muestral s2.
Cuando se requiere predecir la media poblacional , el estimador más utilizado es la media muestral x . Si
después de tomar una muestra aleatoria, utilizamos el valor calculado de la media muestral como una
estimación del valor de la media poblacional , estaremos realizando una estimación por puntos; en cambio,
si determinamos un intervalo real donde esperamos se encuentre la media poblacional con una probabilidad
dada, estaremos realizando una estimación por intervalos.
x N(, 2/n).
Como la población es normal, cualquier histograma que construyamos con muchos datos de la
población tendrá la forma de una campana, con eje de simetría situado en y con el punto de inflexión
situado a una distancia del eje de simetría. Este histograma representa la distribución de las
observaciones individuales.
Ahora, si de la población normal seleccionamos varias muestras de tamaño n, y para cada muestra
calculamos la respectiva media muestral, obtendremos tantas medias muestrales como muestras
seleccionadas. Al construir un histograma con las medias muestrales calculadas notaremos que
también tiene la forma de una campana, con el eje de simetría en y con el punto de inflexión situado
a una distancia de / n del eje de simetría. Esto es, este histograma será más angosto que el de las
observaciones individuales, ya que la media muestral tiene una menor variación respecto al parámetro
que la que tienen las observaciones individuales; además, la variación será menor mientras más
grande sea el tamaño de la muestra.
En otras palabras, si deseamos estimar el valor de la media poblacional , será mejor utilizar el valor
de la media muestral de una muestra aleatoria de tamaño mayor que 1, que emplear una sola
observación (que es una muestra aleatoria de tamaño 1), ya que es más probable que el valor de la
media muestral caiga más cerca de que el valor de una sola observación.
Cuando la población no es normal, la distribución de la media muestral se deriva del Teorema Central del
Límite. Este teorema garantiza que si una muestra aleatoria se selecciona de cualquier población de media
y varianza 2, la distribución de la media muestral tiende a una distribución normal N(, 2/n) conforme el
tamaño de la muestra n crece. En forma abreviada, el Teorema Central del Límite se expresa por:
x N(, 2/n)
n
Para interpretar este resultado, debemos considerar una población cualquiera. Si tomamos muchas
observaciones de la población y construimos un histograma, este no tendrá necesariamente la forma de una
campana sino la forma que caracteriza a la distribución de la población. Sin embargo, si de la población
sacamos varias muestras de tamaño n y para cada muestra calculamos la media muestral, el histograma de las
medias muestrales adoptará una forma acampanada; si luego tomamos muestras de tamaño 2n, el doble del
tamaño de las anteriores, el histograma de las medias muestrales correspondientes tendrá una forma más
acampanada que cuando el tamaño de las muestras era solo n.
Los dos resultados anteriores respecto a la distribución de muestreo de la media muestral suponen que la
varianza poblacional 2 es conocida; sin embargo, en la mayoría de casos prácticos, si se desconoce la media
poblacional también se desconoce la varianza poblacional 2, siendo necesario recurrir a la distribución t de
Student. Entonces, si tenemos una muestra aleatoria de una población normal de media y varianza 2,
donde 2 es desconocida, se utiliza la varianza muestral s2 para aproximar la varianza poblacional 2,
resultando que el estadístico T:
x
T
s/ n
tiene una distribución t de Student con n-1 grados de libertad, lo que denotaremos por:
T t(n-1).
La función de densidad de la distribución t tiene la misma apariencia que la función de densidad de una
distribución normal típica, tiene forma acampanada y es simétrica alrededor de 0, aunque con una apariencia
más aplanada y colas más largas. Conforme los grados de libertad crecen, la distribución t tiende a ser igual a
la distribución normal estándar. La condición de normalidad sobre la población es necesaria cuando el tamaño
de la muestra es pequeño; si la muestra es grande, s2 proporciona una buena estimación de 2.
Ejemplo: Supongamos que un guardabosque está interesado en estimar el área promedio de la base de los
árboles de pino. De mediciones anteriores descubrió que estas medidas (en pulgadas cuadradas) tienen
una distribución normal con una desviación estándar de 4 pulgadas cuadradas. Si el guardabosque
selecciona una muestra de 9 árboles, ¿cuál es la probabilidad de que la media muestral se desvíe a lo
más en 2 pulgadas cuadradas de la media de la población?
x
Como la población es normal, el estadístico Z= tiene una distribución normal típica. Luego,
/ n
dividiendo por / n , que es la desviación típica de la media muestral, obtenemos que:
x
P( -2 < x - < 2 ) = P( -2*3/4 < < 2*3/4 ) = P( -1.5 < Z< 1.5) = FZ (1.5) - FZ ( -1.5)= 0.866
/ n
x
0.90 = P( - n / < < n / ) = P( - n / < Z < n /)
/ n
x
P( -2 x - 2) = P( -2 n / s 2 n / s ) = P ( -2.354 T 2.354 )= 0.97
s/ n
Varianza 2 conocida
Si la varianza poblacional es conocida, la población es normal o la muestra es grande, podemos utilizar el
estadístico Z para determinar los intervalos donde estará el valor de la media poblacional con una confianza
del (1-)100%. Los intervalos de confianza que se emplean son:
Intervalo bilateral al (1-)100% de confianza, acota el valor de la media poblacional a los dos lados:
Intervalo inferior al (1-)100% de confianza, acota el valor de la media poblacional por la izquierda:
x - Z / n <
< x - Z / n
x
1-= P( Z < Z/2 ) = P( x < Z/2 ) = P( < Z/2 ) = P( - x < Z/2 / n )
/ n / n
Ahora, recordando otra propiedad del valor absoluto, que tener a < b es equivalente a escribir -b < a < b,
obtenemos el intervalo de confianza buscado:
Para deducir los intervalos de confianza unilaterales debemos tomar solamente una de las dos desigualdades
en el cálculo de la probabilidad, lo que también cambiará el valor porcentual de la distribución de Z. El
intervalo superior de confianza al (1-)100%, se obtiene mediante la secuencia de igualdades:
Ejemplo: Se sabe que la duración en horas de una bombilla eléctrica de 75W se distribuye aproximadamente
en forma normal con una desviación típica de = 25h. Una muestra aleatoria de 20 bombillas mostró
una duración promedio de x =1014 h. Entonces, con un 95% de confianza, la duración media de este tipo
de bombillas se encontrará en el intervalo:
Si solo nos interesara una cota inferior para la duración media, tendríamos que con un 95% de confianza,
la duración media poblacional será mayor a:
x - Z / n = 1014-1.645*25/ 20 = 1004.8
Supongamos además, que observados los resultados estamos interesados en conocer cuál es el tamaño de
muestra necesario para obtener un error de estimación menor a 5h. Entonces, debe cumplirse que Z/2
/ n = 5; de donde, despejando n, obtenemos que el tamaño de muestra apropiado es 97 boquillas.
Intervalo inferior al (1-)100% de confianza, acota el valor de la media poblacional por la izquierda:
x -t s/ n <
Intervalo superior al (1-)100% de confianza, acota el valor de la media poblacional por la derecha:
< x -t s/ n
Ejemplo: Un ingeniero civil analiza la resistencia del concreto a la compresión. La resistencia se distribuye
aproximadamente en forma normal. Una muestra aleatoria de 12 ejemplares tiene una resistencia media
de x =3,250 psi y una desviación típica de s=32 psi. Entonces, un intervalo bilateral de confianza al 95%
para la resistencia media, es:
[ x - t /2 s/ n ; x + t /2 s/ n ] = [3,250 – 2.2*32 / 12 ; 3250 + 2.2*32 / 12 ]
= [3,229.7, 3,270.3]
= [3,221.3, 3,282.2]
El ejemplo anterior muestra un resultado que se repite en toda estimación por intervalos. Para una muestra
aleatoria ya seleccionada, mientras más alta es la confiabilidad con que se construye el intervalo mayor es el
ancho del intervalo. Inclusive, podríamos llegar al límite de decir, que el intervalo para la media poblacional
es (-, +) al 100% de confianza; sin embargo, si bien este intervalo contendrá la media poblacional, no
proporciona ninguna información útil sobre el parámetro.
El nivel de confiabilidad que más se utiliza es el del 95%, aunque en ciertas ocasiones se reportan los
intervalos al 90% y 99% de confiabilidad. También es cierto, que nada impide trabajar al 93% de
confiabilidad o al 97.5% de confiabilidad.
Si revisamos los intervalos de confianza para la media poblacional, tanto si se desarrollaron con la
distribución normal típica o con la t de Student, podemos observar que una vez que fijemos el nivel de
confianza en el que trabajaremos, los valores porcentuales de Z y t no cambiarán, y la única forma de reducir
el ancho del intervalo de confianza será tomar una muestra de tamaño grande o influir en la dispersión de la
población para que disminuya (como sucede con el mejoramiento de la calidad de los procesos industriales).
Una construcción similar se puede realizar para poblaciones normales o muestras grandes, y cuando la media
poblacional es conocida pero la varianza poblacional 2 no lo es:
Los dos últimos resultados constituyen la idea básica de los diagramas para variables en el Control Estadístico
de la Calidad, donde se monitorea los procesos de producción que tienen un rendimiento promedio y una
dispersión aceptables, con el fin de detectar cualquier desviación no deseada en sus salidas.
(n 1)s2
2( n1)
2
Ejemplo: Los amperímetros producidos por una compañía se venden en el mercado con la especificación de que
la desviación estándar de las lecturas no es mayor que 0.2 amp. Se utilizó uno de estos amperímetros para
efectuar 10 lecturas independientes en un circuito de prueba con corriente constante. Si la varianza de estas
10 mediciones es 0.08, y es razonable suponer que las lecturas tienen una distribución normal, ¿indican los
resultados que el amperímetro que se utilizó no satisface las especificaciones del mercado?
Este resultado muestra que es muy poco probable obtener una varianza muestral tan grande si la
aseveración del fabricante fuese cierta; es más probable que la especificación de la desviación estándar de
las lecturas sea mayor a 0.02.
(n 1)s 2 (n 1)s 2
Intervalo bilateral: 2
2 / 2 12 / 2
(n 1)s 2
Intervalo inferior: 2
2
(n 1)s 2
Intervalo superior: 2
12
Los valores de la distribución chi-cuadrado se buscan con (n-1) grados de libertad. Los intervalos son válidos si la
población es normal, o en caso contrario, si la muestra es grande.
Ejemplo: En una muestra aleatoria de 100 focos, la desviación típica muestral de la duración de los
mismos, resultó ser de 12.6h. El intervalo de confianza inferior al 90% para la varianza, es:
que es equivalente a decir, que con un 90% de confianza la desviación típica poblacional es mayor a 11.57.
Como la población es infinita, X tiene una distribución binomial y cuenta el número de éxitos (los elementos
de la clase de interés) en n pruebas (el total de elementos de la muestra), donde la probabilidad de éxito en
cada prueba es p. Además, si np>5 cuando p 0.5, o, nq>5 cuando q 0.5, la vad X se aproximaba por una
distribución normal N(np, npq), y la aproximación mejoraba si utilizabamos la corrección por continuidad.
Entonces, bajo las condiciones anteriores, la proporción muestral tiene una distribución normal, con valor
esperado p y varianza pq/n:
p̂ N (p, pq/n )
Ejemplo: Se procede a detener el funcionamiento de una máquina para repararla si en una muestra aleatoria de
100 artículos de la producción diaria de la máquina se encuentran por lo menos un 15% de artículos
defectuosos. Si la producción diaria de la máquina consta de un gran número de artículos y la máquina
produce en realidad, sólo un 10% de artículos defectuosos, encontremos la probabilidad de que la máquina
pare un día cualquiera.
Este resultado indica que la máquina será detenida en aproximadamente 5 de cada 100 días, a pesar de
generar solo una proporción de defectuosos del 10%.
p̂q̂ p̂q̂
Intervalo bilateral: p̂ - Z/2 < p < p̂ + Z/2
n n
p̂q̂
Intervalo inferior: p̂ - Z <p
n
p̂q̂
Intervalo superior: p < p̂ + Z
n
Los intervalos son válidos si np>5 para p0.5 o cuando nq>5 para q0.5.
Supongamos ahora, que nos interesa conocer el tamaño que debe tener una muestra para tener una
confianza del 95% de que proporción muestral difiera de la tasa de mortalidad por cáncer pulmonar a lo
mucho en 0.02. Entonces, considerando el requerimiento pedido, tenemos:
−0.02 0.02
= 𝑃( <𝑍< ) [1]
√0.699∗0.301/𝑛 √0.699∗0.301/𝑛
0.95= P(-Z0.025 <Z < Z0.025) = P(-1.96 < Z < 1.96) [2]
Igualando cualquiera de los lados de las desigualdades en las ecuaciones y despejando, resulta que es
necesario una muestra de 2021 casos.
En cambio, si el interés fuese conocer el tamaño que debe tener una muestra para tener una confianza
del 95% de que la tasa de mortalidad por cáncer pulmonar no sobrepase la proporción muestral en más
de 0.02, la primera ecuación sería:
−0.02
= 𝑃( < 𝑍) [1]
√0.699∗0.301/𝑛
Igualando el lado izquierdo de las desigualdades en las ecuaciones y despejando, resulta que, n= 1424.
a- El antropólogo cree que la desviación estándar de la población es de 4 cm. Si seleccionara al azar a 100
hombres, encuentre la probabilidad de que la diferencia entre la media de la muestra y la media
verdadera de la población no exceda 1 cm.
b- Suponga que el antropólogo desea que la diferencia entre la media muestral y la poblacional sea menor a
0.5 cm, con una probabilidad de 0.95. ¿Cuántos hombres tendría que seleccionar para alcanzar su
objetivo?
c- Si el antropólogo quiere que la media muestral no exceda a la poblacional en más de 0.5 cm, con una
probabilidad de 0.95. ¿Cuál debe ser el tamaño de muestra?
f- El antropólogo tomó una muestra de 200 hombres y obtuvo un promedio de 172 cm y una desviación
estándar de 6.5 cm. ¿Cuál es la probabilidad de obtener una desviación estándar muestral de 6.5 cm si la
desviación estándar poblacional es de 4 cm?
g- Respecto al apartado anterior, calcule una cota inferior para la desviación estándar poblacional al 95% de
confianza. ¿A qué conclusión llega?
2- La acidez del suelo se mide por su pH. Un experto desea estimar el pH promedio de un campo de gran
tamaño para lo cual selecciona al azar n sitios y mide el pH en cada uno de ellos. La experiencia indica que la
mayoría de los suelos tienen un valor de pH entre 5 y 8. Si el experto selecciona 40 sitios, encuentre la
probabilidad aproximada de que la media de la muestra de las 40 mediciones se desvié a lo más en 0.2
unidades de la verdadera media de pH del campo.
3- El mineral de hierro se muestrea para determinar su calidad por un método que implica la toma periódica de
muchas pequeñas muestras cuando el material se mueve por una banda transportadora. Posteriormente las
muestras pequeñas se juntan y mezclan para obtener una muestra compuesta. El volumen promedio de las
muestras , se puede regular ajustando el tamaño del equipo que se utiliza para el muestreo. Suponga que la
desviación de los volúmenes de las muestras , es 2 cm3. Se requiere que el volumen total de la muestra
compuesta exceda los 200 cm3 al menos el 95% de las veces que se tomen 50 muestras pequeñas. Determine
el ajuste de que permitirá satisfacer los requerimientos del muestreo.
4- Se conectan 35 focos de luz infrarroja en un invernadero, de tal manera que si falla un foco, otro se enciende
inmediatamente (se enciende solamente un foco a la vez). Los focos funcionan independientemente, y cada
uno tiene una vida media de 50 horas y una desviación estándar de 2 horas. Si no se inspecciona el
invernadero durante 1300 horas después de encender el sistema de focos, ¿cuál es la probabilidad de que un
foco esté encendido al final del período de 1300 horas?
5- El gerente de un supermercado desea recabar información sobre la proporción de clientes a los que no les
agrada una nueva política respecto a la aceptación de cheques. ¿Cuántos clientes tendría que incluir en una
muestra si desea que la fracción de la muestra se desvíe a lo más en 0.03 de la verdadera fracción, con una
probabilidad de 0.95?
a- Una muestra aleatoria de 8000 calculadoras contiene 24 defectuosas. Calcule un intervalo de confianza al
99% para la fracción de calculadoras defectuosas.
b- Si la fracción de calculadoras defectuosas se espera sea de 1 en 1000. ¿Qué tan probable es obtener 24
defectuosas en 8000 revisadas, suponiendo que la fracción esperada es correcta?
7- Se va a realizar un estudio acerca del porcentaje de propietarios de casas que poseen al menos dos
aparatos de televisión. ¿Qué tan grande debe ser la muestra si se desea tener una confianza del 95% de
que el error al estimar esta cantidad es menor de 0.01?
8- Se midió el tiempo que a 41 estudiantes, de un total de 200 estudiantes, les tomó completar una prueba de
estadística, resultando un promedio de 45 min. y una desviación típica de 3 min. Construya un intervalo
de confianza al 95% para el verdadero tiempo medio que le toma a un estudiante completar la prueba.
a- Bajo el supuesto de que los tiempos se distribuyen normalmente, determinar los intervalos al 95% de
confianza para la media y la varianza poblacional.
b- El gerente de producción asegura que el tiempo promedio del proceso tiene una media de 90 horas y
una desviación típica de 20 horas. ¿Tiene razón el gerente?
10- Una muestra realizada a los clientes de un supermercado denunció que 60 de 300 clientes usan
regularmente tarjeta de crédito para sus compras. Encuentre un intervalo de confianza al 99% para el
porcentaje de personas que usan efectivo en sus compras.
11- En una investigación se desea estimar la proporción de profesores de colegio que tienen título
universitario. ¿Cuál es el tamaño de la muestra a emplearse, si se desea que la estimación de la proporción
difiera de la verdadera en 0.02, con una probabilidad de al menos 95%, si:
12- Al producir baldosas de cerámica se mide su resistencia a la ruptura porque refleja la calidad de las
mezclas empleadas. Estime 2 para la fuerza que son capaces de resistir antes de romperse, con un intervalo
de confianza superior al 90%, si una muestra de 15 baldosas presentó una resistencia a la ruptura con una
desviación típica igual a 0.8 newtons. Suponga normalidad.
13- Una empresa de venta de cosméticos está interesada en distribuir una nueva línea de productos, para ello
examina la venta mensual de 12 de sus puntos de venta, seleccionados aleatoriamente, donde se expendió
la línea de productos como una prueba. Las ventas de cada punto, en miles de dólares, fueron:
23 38 15 7 12 10 10 11 10 18 13 9 [ x = 14.67, s = 8.55 ]
La política de la empresa exije para sus productos, ventas promedio superiores a 20.5 y con un coeficiente de
variación inferior al 20%. Suponiendo normalidad, ¿debe la empresa distribuir los nuevos productos?