Sie sind auf Seite 1von 5

1.3.

Hacer estimaciones sobre una poblacin a partir de una muestra:

Objetivos:

1. Estudiar las propiedades de las distribuciones de las muestras de una poblacin.


2. Identificar los estadsticos-parmetros de una muestra que mejor permiten
estimar los parmetros de la poblacin
3. Construir intervalos que contengan con una cierta probabilidad el valor de un
parmetro poblacional.
4. Determinar la probabilidad de equivocarnos al rechazar una hiptesis a partir de
unos datos experimentales.
5. Trabajar con las distribuciones adecuadas segn las muestras utilizadas y los
parmetros a estimar.
6. Contrastar hiptesis probabilsticas.

Actividad 1.26. Una muestra sin reemplazo es cualquier subconjunto de una poblacin
(un ejemplo tpico es una mano de cartas de una baraja). Una muestra con reemplazo se
obtiene escogiendo sucesivamente un determinado nmero de elementos de la poblacin
sin quitarlos de la misma, de forma que pueden repetirse (un ejemplo tpico es el
resultado de tiradas sucesivas de un dado). Llamaremos estadstico a cualquier
parmetro poblacional restringido a una muestra. Para distinguirlo del correspondiente
parmetro sobre la poblacin, utilizaremos una nomenclatura diferente; as,
designaremos la media de una variable aleatoria X en una muestra por , y su
desviacin tpica por s(X).
Trabajaremos con distribuciones en 3 mbitos: en la poblacin, en una muestra y en el
conjunto de todas las muestras. Naturalmente, para poder hacer estimaciones sobre una
poblacin a partir de una muestra necesitaremos saber cmo se distribuyen los valores
del estadstico correspondiente en el conjunto de todas las muestras de la poblacin de
un determinado tipo (con o sin reemplazo) y de un determinado tamao; a esta
distribucin la llamaremos distribucin muestral. Las principales propiedades de sta se
resumen en la siguiente tabla, dnde indicamos por n(U) el tamao de la poblacin y
por n el tamao de la muestra:

parmetro distribucin muestral sin distribucin muestral con


poblacional estadstico reemplazo reemplazo
S (S), (S) (S), (S)
(X) ( ) = (X)
( )2 = (X)2(n(U)- ( )2 = (X)2/n
n)/(n(n(U)-1))
(X) s(X) (s(X)2) = (X)2n/(n-1)
(s(X))2 (X)2/(2n) sin 100.

Observamos que si n(U)=, entonces la varianza de la distribucin muestral de medias


con y sin reemplazo son iguales. En la prctica, podemos utilizar la frmula de la
distribucin muestral con reemplazo si el tamao n(U) de la poblacin es mucho ms

Matemticas II
Rafael Pla Lpez. Curso 2008-2009
grande que el tamao n de la muestra. Si no decimos lo contrario, supondremos que ste
es el caso.
Problema 1.12: Obtener la varianza de la distribucin muestral de medias y la media de
la distribucin muestral de varianzas con muestras formadas por la repeticin 3 veces
del lanzamiento de 5 dados anotando en cada lanzamiento el nmero de ases obtenidos
(suponiendo que los dados no estn cargados). Dividir la clase en grupos de 3 de modo
que cada miembro haga un lanzamiento de 5 dados, calculando en cada grupo la media
y la varianza de la muestra obtenida. Calcular la varianza de las medias y la media de
las varianzas obtenidas por toda la clase y compararlas con los previos resultados
tericos.

Actividad 1.27. Para estimar correctamente un parmetro poblacional necesitaremos


un estadstico S que sea un estimador insesgado del mismo, de forma que (S) = . En
caso de que no lo sea pero conozcamos el sesgo que se produce, de forma que (S) =
f(), siendo f una funcin lineal, podemos definir un estimador corregido = f -1(S) tal
que ( ) = .
Ejercicio 1.5: analizar si la media y la varianza s2 son o no estimadores insesgados de
los correspondientes parmetros poblacionales (X) y (X). En caso de que alguno no
lo sea, obtener el correspondiente estadstico corregido y comprobar que es un
estimador insesgado.

Actividad 1.28. Si tenemos dos estimadores


insesgados S1 y S2, diremos que S1 es ms
eficiente que S2 si y solamente si (S1)<(S2).
Ejercicio 1.6: queremos estimar la media de una
poblacin a partir de las medias
1, 2 de dos muestras de tamao respectivo n1,
n2 tales que n1<n2. Qu estimador
ser ms eficiente? Demostrarlo.

Actividad 1.29. Diremos que


[1,2] es un intervalo de
confianza del 100% para un
parmetro poblacional si la
probabilidad de que est
dentro de este intervalo es igual
a . . Para determinarlo
necesitaremos conocer la distribucin muestral de alguna funcin f(S,), siendo S el
estadstico de una muestra que utilizamos para estimar . En general, buscaremos en
esta distribucin muestral de densidad probabilstica dos "picos" de probabilidad p, de
forma que el rea entre los dos "picos" sea , tal y como se indica en la figura adjunta.
Observamos que, comoquiera que el rea bajo la curva es 1, se ha de cumplir 2p+=1 .
Las abcises correspondientes a una determinada rea se denominan coeficientes crticos.
Hay que examinar con cuidado la configuracin de la tabla de la distribucin y las
grficas que la acompaan para determinar a qu rea se refiere cada coeficiente crtico
(parte de la izquierda, interior, exterior...) y qu son por tanto los coeficientes tales
que xpf(S,)x1-p nos da un intervalo de confianza para del 100% .

Matemticas II
Rafael Pla Lpez. Curso 2008-2009
Ejercicio 1.7: si las muestras son
grandes (n30) y el parmetro poblacional es la media poblacional, entonces tomando la
normalizacin de la media de la muestra,
z = f( ,) = ( -)/( ), se distribuir aproximadamente de acuerdo con la distribucin
normal tipificada. Para obtener el intervalo de confianza habremos de calcular primero
la media y la desviacin tpica de la muestra, , s; a continuacin calcular la desviacin
tpica corregida , utilizarla como estimador insesgado de la desviacin tpica
poblacional , y a partir del valor estimado de sta obtener la desviacin tpica de las
medias en la distribucin muestral, ( ). Utilizando la tabla de la distribucin normal
tipificada (inversa) para obtener el coeficiente crtico z tal que la probabilidad de |z|z
sea (recordemos que la distribucin normal tipificada es simtrica) podremos
averiguar el intervalo de confianza para . Obtener las frmulas correspondientes.
Problema 1.13: aplicarlo a la obtencin de un intervalo de confianza del 80% para el
nmero mediano de ases resultantes de lanzar 30 veces un dado a partir de los
resultados experimentales obtenidos por todos los alumnos de la clase (en un nmero no
inferior a 30).

Actividad 1.30. Si por consideraciones tericas formulamos la hiptesis de un valor


para un parmetro poblacional , y a partir de una muestra experimental obtenemos un
intervalo de confianza del 100% para este parmetro poblacional, si el valor terico de
ste est fuera de este intervalo, es decir
f(S,) [xp,x1-p], pueden haber dos explicaciones: la primera es que la teora y por lo
tanto la hiptesis est equivocada; la segunda es que la muestra sea "anmala", de modo
que siendo correcta la teora el parmetro poblacional est fuera del intervalo de
confianza del 100%: la probabilidad de esto es =1-. Diremos as que la muestra nos
permite rechazar la hiptesis con un nivel de significacin de (que ser por lo tanto la
probabilidad de que nos equivoquemos al rechazar la hiptesis). Naturalmente,
solamente podremos rechazar hiptesis con niveles de significacin iguales o menores a
0'5, y cuanto menor sea el nivel de significacin el rechazo de la hiptesis tendr ms
fuerza.
Problema 1.14: con qu nivel de significacin podramos en su caso rechazar la
hiptesis de que el dado del Problema 1.13 no est cargado (es decir, que todas las caras
del dado tienen la misma probabilidad de salir)?

Actividad 1.31. Si las muestras son pequeas, su distribucin no se aproxima a la


normal. Pero si una variable aleatoria X tiene una distribucin normal en una poblacin
infinita, la distribucin del estadstico
t = f( ,) = ( -(X))/( ) de las muestras de tamao n es Y(t)=Y(0)(1+t2/)-(+1)/2
con =n-1, que se denomina distribucin t de "Student" con grados de libertad. Y(0)
se escoge de modo que -+ Y(t)dt=1 .

Matemticas II
Rafael Pla Lpez. Curso 2008-2009
Teniendo en cuenta que e = lim u (1+1/u), demostrar el
Teorema 1.30: lim Y(t) = PN(0,1)(t) (es decir, la distribucin t de "Student" se
aproxima a la distribucin normal tipificada cuando el nmero de grados de libertad se
hace muy grande); cuanto valdr Y(0)?

Actividad 1.32. Utilizaremos la tabla de la distribucin


t de "Student" (inversa) para determinar el coeficiente
crtico tp() correspondiente al intervalo de confianza
del 100% de la media poblacional a partir de la
media y la desviacin tpica s(X) de una muestra de
tamao n, con las frmulas obtenidas en el Ejercicio 1.7.
Problema 1.15: obtener un intervalo de confianza del
90% para la media de una variable aleatoria en una
poblacin infinita con distribucin normal a partir de la muestra
(302'23, 302'21, 302'23, 302'22, 302'25).

Actividad 1.33.
Problema 1.16: formando grupos de 3 a 5 estudiantes, cada estudiante en cada grupo
deber lanzar 30 veces un dado y anotar el nmero de ases obtenidos; hacer
estimaciones alrededor de cada dado a partir de la muestra dada por los resultados
obtenidos por cada grupo.

Actividad 1.34. Si una variable


aleatoria X tiene una distribucin
normal en una poblacin infinita, la
distribucin del estadstico
2 = f(s,) = ns(X)2/(X)2 de las
muestras de tamao n entre 0 y
es V(2)=K(2)(-2)/2e-2/2 con =n-
1, que se denomina distribucin Ji-cuadrado con grados de libertad. K se escoge de
modo que
0 V(2)=1 . Utilizaremos la tabla de la distribucin Ji-cuadrado (inversa) para
determinar los coeficientes crticos 2p() correspondientes al intervalo de confianza del
100% de la desviacin tpica poblacional a partir de la desviacin tpica s(X) de una
muestra de tamao n, de modo que 2p() 2 21-p() . Obtener la expresin para el
intervalo de confianza de la desviacin tpica poblacional (X). Observemos que la
desviacin tpica corregida (X) de la muestra ha de estar necesariamente dentro de este
intervalo, comoquiera que es un estimador insesgado de la desviacin tpica
poblacional.
Problema 1.17: obtener un intervalo de confianza del 90% para la desviacin tpica de
una variable aleatoria en una poblacin infinita con distribucin normal a partir de la
muestra (302'23, 302'21, 302'23, 302'22, 302'25); comprobar que la desviacin tpica
corregida de la muestra est dentro de este intervalo.

Actividad 1.35: Si tenemos un conjunto de k sucesos mutuament excluyentes Ei a los


que suponemos una probabilidad p(Ei) para i=1...k, en n ocasiones la frecuencia
esperada de cada uno de ellos ser respectivamente ei=np(Ei), correspondiente a la

Matemticas II
Rafael Pla Lpez. Curso 2008-2009
media obtenida en el Teorema 1.16. Si en una muestra de estas n ocasiones las
frecuencias observadas son respectivamente oi, siendo n30 y cumplindose ei5 para
todos los sucesos, entonces el estadstico 2 = i=1 k (oi-ei)2/ei se distribuir
aproximadamente de acuerdo con la distribucin Ji-cuadrado con =k-1 grados de
libertad. Si para algn suceso fuera ei<5 habramos de agregar sucesos hasta conseguir
que se cumpla la condicin.
Podemos utilizar este estadstico
para estimar la concordancia entre
la hiptesis probabilstica y los
resultados experimentales
obtenidos en la muestra.
Naturalmente, cuanto menor sea
2 habr una mayor concordancia:
diremos que hay buena concordancia entre la muestra y la hiptesis probabilstica (y
por lo tanto aceptamos sta) con un nivel de significacin de si 2<2(); por el
contrario, si 21-()<2 podremos rechazar la hiptesis probabilstica con un nivel de
significacin de (que ser de nuevo la probabilidad de equivocarnos al rechazarla, es
decir la probabilidad de que la hiptesis sea correcta pero hayamos encontrado una
muestra entre el 100% de las muestras ms desviadas de las frecuencias medias
esperadas); finalmente si 2()221-() diremos que los resultados experimentales no
son decisivos con este nivel de significacin para aceptar o rechazar la hiptesis
probabilstica. Observamos que una hiptesis probabilstica puede ser aceptada (o
rechazada) con un nivel de significacin "dbil" y los resultados no ser decisivos con un
nivel de significacin ms fuerte. Lo que no puede pasar es que con un nivel de
significacin aceptemos una hiptesis y con otro nivel de significacin la rechacemos.
Naturalmente, el nivel de significacin ms dbil que podemos utilizar es el de =0'5: si
2<20'5() tendremos tendencia a aceptar la hiptesis con un nivel de significacin
mayor o menor, y si 2>20'5() tendremos tendencia a rechazarla.
Problema 1.18: contrastar la hiptesis de que un dado no est cargado (que todas las
caras tienen la misma probabilidad de salir) lanzndolo 30 veces y anotando el nmero
de veces que sale cada cara.

Trabajo 2 (para su realizacin en equipo):


En 100000 tiradas de 5 dados se obtiene 10 repqueres, 300 pqueres, 3342 tros, 16030
parejas y 40198 simples ases. Se podra acusar que los dados estn trucados? Con qu
nivel de significacin en tal caso?

Matemticas II
Rafael Pla Lpez. Curso 2008-2009

Das könnte Ihnen auch gefallen