Sie sind auf Seite 1von 122

CUADERNO DE APUNTES INFERENCIA ESTAD ISTICA

Ernesto Canizales 22 de octubre de 2012

INDICE

INDICE

Indice
1. PROBABILIDAD Y ESTAD ISTICA 1.1. Esperanza matem atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Funci on Caracter stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Distribuci on normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 6 7 8 9

1.3.2. Distribuci on Chi-Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3.3. Distribuci on t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.4. Distribuci on F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4. Inferencia Estad stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2. Razones que justican un estudio inferencial . . . . . . . . . . . . . . . . . . 13 1.4.3. Conceptos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.4.4. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.5. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2. DISTRIBUCIONES MUESTRALES 17

2.1. Distribuci on conjunta de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Estad sticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3. Distribuci on muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4. Distribuci on muestral de la proporci on . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.5. Distribuci on muestral de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6. Teorema Central del L mite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7. Distribuci on muestral de la diferencia de dos medias . . . . . . . . . . . . . . . . . . 39 2.8. Distribuci on muestral de la diferencia de dos proporciones . . . . . . . . . . . . . . 42 2.9. Distribuci on muestral del cociente de dos varianzas . . . . . . . . . . . . . . . . . . 43 2.10. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 DE PARAMETROS 3. ESTIMACION 50

3.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

INDICE

INDICE

3.2. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3. Cota para la varianza de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.4. M etodos de estimaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.4.1. M axima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4.2. Propiedades de los estimadores de m axima verosimilitud . . . . . . . . . . . 59 3.4.3. M etodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.5. Estimaci on por Intervalos de conanza en una poblaci on . . . . . . . . . . . . . . . 61 3.5.1. Intervalo de conanza para la media . . . . . . . . . . . . . . . . . . . . . . 63 3.5.2. Intervalo de conanza para una proproci on . . . . . . . . . . . . . . . . . . . 65 3.5.3. Intervalo de conanza para la varianza . . . . . . . . . . . . . . . . . . . . . 66 3.6. Intervalo de conanza en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . 67 3.6.1. Intervalo de conanza para la diferencia de dos medias, cuando las muestras son independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.6.2. Intervalo de conanza para la diferencia de dos medias, cuando las muestras son dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.6.3. Intervalo de conanza para la diferencia de dos proporciones . . . . . . . . . 72 3.6.4. Intervalo para el cociente de dos varianzas . . . . . . . . . . . . . . . . . . . 73 3.7. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.1. Estimaci on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.7.2. Estimaci on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4. PRUEBA DE HIPOTESIS ESTAD ISTICAS 84

4.1. Conceptos b asicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2. Tipos de hip otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.2.1. Hip otesis nula . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.2.2. Hip otesis alternativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3. Tipos de regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.4. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.5. Metodolog a de un contraste de hip otesis . . . . . . . . . . . . . . . . . . . . . . . . 89 4.6. Prueba de hip otesis en una poblaci on . . . . . . . . . . . . . . . . . . . . . . . . . . 91

INDICE

INDICE

4.6.1. Prueba de hip otesis sobre una media . . . . . . . . . . . . . . . . . . . . . . 91 4.6.2. Prueba de hip otesis sobre una proporci on . . . . . . . . . . . . . . . . . . . . 96 4.6.3. Prueba de hip otesis sobre una varianza . . . . . . . . . . . . . . . . . . . . . 98 4.7. Prueba de hip otesis en dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.7.1. Prueba de hip otesis sobre igualdad de medias, muestras independientes . . . 100 4.7.2. Prueba de hip otesis sobre igualdad de medias, muestras dependientes . . . . 104 4.7.3. Prueba de hip otesis sobre igualdad de proporciones . . . . . . . . . . . . . . 106 4.7.4. Prueba de hip otesis sobre igualdad de varianzas . . . . . . . . . . . . . . . . 108 4.8. Problemas propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.8.1. Contraste en una poblaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.8.2. Comparaci on de dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . 115

INDICE

INDICE

Prefacio
El objetivo de este documento es ayudar a los estudiantes en su proceso de aprendizaje en el curso de Inferencia Estad stica. Muchos de los obst aculos que todo estudiante debe enfrentarse en el transcurso de su carrera, es la falta de bibliograf a. Adem as se diculta el hecho de prestar atenci on a la clase y de tomar apuntes de la misma. Por esa raz on, he considerado conveniente
A el tomarme tiempo para digitar en L TEXun documento que trate sobre los temas que deben ser

visto en el curso de Inferencia Estad stica; este material no tiene por objeto reemplazar en ning un momento a los libros cl asicos sobre inferencia; sino m as bien el de presentar de manera breve pero elegante un resumen de dichos libros en un solo documento que contenga toda la sencillez pero a la vez el rigor matem atico necesario. Se ha considerado conveniente incorporar un apartado sobre probabilidad, con el objetivo de presentar los conocimientos previos que el estudiante debe poseer para una comprensi on adecuada del material que se presenta en el documento. Hago resaltar que todo el documento es de mi absoluta responsabilidad, por lo que agradecer e al lector comunicarme de cualquier falta ortogr aca, gramatical o de cualquier errata que contenga el documento, e inclusive cualquier sugerencia para mejorar la redacci on y la presentaci on del documento a la siguiente direcci on electr onica canizales1985@gmail.com

1 PROBABILIDAD Y ESTAD ISTICA

1.
1.1.

PROBABILIDAD Y ESTAD ISTICA


Esperanza matem atica

Si X es una variable aleatoria con funci on de probabilidad P (X ) (densidad f (X )), se dene la esperanza matem atica por:

E [X ] = E [X ] =

xi P (X = xi ); cuando X es discreta
i=1

xf (x)dx; cuando X continua

La esperanza matem atica es una funci on lineal y cumple las siguientes propiedades: 1. E [aX ] = aE [X ] 2. E [X b] = E [X ] b 3. E [aX b] = aE [X ] b 4. E [X Y ] = E [X ] E [Y ] Adem as, 1. var(X ) = E [X 2 ] E [X ]2 2. cov (X ; Y ) = E [XY ] E [X ]E [Y ] Tambi en si X e Y son variables aleatorias se cumple lo siguiente: E [XY ] = E [X ]E [Y ]

1.2.

Funci on Caracter stica

Sea X una variable aleatoria con funci on de distribuci on F (X ). Se llama funci on caracter stica de la variable aleatoria X y se le representa por X (t), a la esperanza matem atica de exp(itX ) (la cual es tambi en variable aleatoria). 6

1.3 Distribuciones de probabilidad Es decir, X (t) = E [exp(itX )]

1 PROBABILIDAD Y ESTAD ISTICA

=
n

exp(itX )dF (x) Continua exp(itxi )P (X = xi ) Discreto


i=1

Teorema 1.1. Sean X1 , X2 , . . . , Xn , un conjunto de variables aleatorias independientes cada una con funci on caracter stica X1 (t), X2 (t), . . . , Xn (t). Entonces la variable aleatoria:

Y = a1 X 1 + a2 X 2 + + an X n tiene la siguiente funci on caracter stica Y (t) = X1 (a1 t)X2 (a2 t) . . . Xn (an t) Demostraci on. Y (t) = E [exp (t (a1 X1 + a2 X2 + + an Xn ))] = E [exp (ta1 X1 ) exp (ta2 X2 ) exp (tan Xn )] = E [exp (ta1 X1 )] E [exp (ta2 X2 )] E [exp (tan Xn )] = X1 (a1 t)X2 (a2 t) . . . Xn (an t) (1)

1.3.

Distribuciones de probabilidad

Si X es una variable aleatoria que puede tomar los valores (x1 , x2 , . . . , xk ), se llama distribuci on de probabilidad de X al siguiente cuadro: X x1 x2 . . . xk P (X ) P (x1 ) P (x2 ) . . . P (xk ) 1 7

1.3 Distribuciones de probabilidad

1 PROBABILIDAD Y ESTAD ISTICA

A continuaci on se presentan las principales distribuciones de probabilidad que son necesarias para el desarrollo del curso. 1.3.1. Distribuci on normal

Una variable aleatoria X se dice que tiene una distribuci on normal de par ametros (media) y 2 (varianza) si funci on de densidad es la siguiente: 1 (x )2 f (x) = exp 2 2 2 la cual se abrevia por X N (; 2 ). Su funci on caracter stica es: X (t) = exp it t2 2 2

(2)

Una variable aleatoria X se dice que tiene una distribuci on normal est andar N (0; 1) si funci on de densidad es la siguiente: 1 x2 f (x) = exp 2 2 Su funci on caracter stica es: X (t) = exp t2 2

(3)

Teorema 1.2. Sean X1 , X2 , . . . , Xn , n variables aleatorias independientes cada una con Xi


2 N (i ; i ). Entonces la variable aleatoria

Z = a1 X 1 + a2 X 2 + + an X n es una variable con distribuci on normal de par ametros =


n i=1

ai i y 2 =

n i=1

2 a2 i i

2 2 Demostraci on. Si Xi N (i ; i ) entonces ai Xi N (ai i ; a2 i i ), y

1 2 ai Xi (t) = exp it (ai i ) t2 a2 i i 2

1.3 Distribuciones de probabilidad Puesto que las Xi son independientes,

1 PROBABILIDAD Y ESTAD ISTICA

X (t) = a1 X1 (t)a2 X2 (t) an Xn (t) 1 1 2 = exp ita1 1 t2 a2 exp it (a2 2 ) t2 a2 2 1 1 2 2 2 2


n

1 exp itan n t2 a2 2 2 n n

= exp it
i=1

1 ai i t2 2

n 2 a2 i i i=1

La cual es precisamente la funci on caracter stica de una distribuci on normal de par ametros =
n i=1

ai i y 2 =

n i=1

2 a2 i i

1.3.2.

Distribuci on Chi-Cuadrado

Sean X1 , X2 , . . . , Xn , n variables aleatorias independientes e id enticamente distribuidas con Xi N (0; 1). Llamaremos 2 n de Pearson a la variable aleatoria
2 2 2 2 n = X1 + X2 + + Xn

(4)

El sub ndice n corresponde al n umero de variables aleatorias independientes, y se suele llamar grados de libertad. Su funci on caracter stica es: n 2 (t) = (1 2it) 2 n

(5)

2 2 Teorema 1.3. Sean 2 on Chin1 , n2 , . . . , nk , k variables aleatorias independientes con distribuci

Cuadrada con grados de libertad respectivos n1 , n2 , . . . , nk . Entonces la variable aleatoria


2 2 = 2 n1 + n2 + . . . + nk

Sigue una distribuci on Chi-cuadrado con grados n1 + n2 + . . . + nk de libertad. Demostraci on. (t) = 2 (t)2 (t) 2 (t) n1 n2 nk n1 n2 nk = (1 2it) 2 (1 2it) 2 (1 2it) 2 = (1 2it)
k i=1

ni

2 9

1.3 Distribuciones de probabilidad

1 PROBABILIDAD Y ESTAD ISTICA

La cual es precisamente la funci on caracter stica de una distribuci on Chi-cuadrado con grados
k i=1

ni de libertad.

En una distribuci on Chi-cuadrado se cumple: 1. E [2 n] = n 2. var (2 n ) = 2n 1.3.3. Distribuci on t de Student

Sean X, X1 , X2 , . . . , Xn , n + 1 variables aleatorias independientes e id enticamente distribuidas con Xi N (0; 1). Llamaremos t de Student a la variable aleatoria siguiente: X 1 n
n i=1

T =

(6) Xi2

Teorema 1.4. La distribuci on t de Student es as ntoticamente N (0; 1). Es decir, si n , entonces t N (0; 1). 1.3.4. Distribuci on F de Snedecor

2 Sean 2 on Chi-cuadrado con grados m y n , dos variables aleatorias independientes con distribuci

de libertad respectivos m y n. Llamaremos F de Snedecor con (m, n) grados de libertad, y la representaremos por F (m, n) a la variable aleatoria: 1 2 m F = m 1 2 n n Propiedades de la distribuci on F . 1. Si X F (m, n), entonces
1 X

(7)

F (n, m)

2. Si representamos por F (m, n, ) al valor en el distribuci on F de Snedecor tal que P {F (m, n) > 1 F (m, n, )} = . Entonces F (m, n, 1 ) = F (n, m, ) 10

1.4 Inferencia Estad stica

1 PROBABILIDAD Y ESTAD ISTICA

3. Si t tn , entonces la variable aleatoria t2 F (1, n).

1.4.
1.4.1.

Inferencia Estad stica


Introducci on

Estad stica Descriptiva Permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo r apida su lectura e interpretaci on. Su materia prima la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Ejemplo; Durante los u ltimos d as se ha informado de un total de 13 homicidios diarios. La encuesta Gallup informa que una ventaja del 20 % para el candidato de izquierda. Estad stica Inferencial Generaliza los resultados de una muestra a los de una poblaci on total; es cuando de los datos estad sticos obtenidos de una muestra se deduce o inere una observaci on la cual se generaliza sobre la poblaci on total. Para determinar la conabilidad de la inferencia de los datos estad sticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra tambi en se observar a en la poblaci on. Generalmente el an alisis inferencial se lleva a cabo para mostrar relaciones de causa y efecto, as como para probar hip otesis y teor as cient cas. El curso de Inferencia Estad stica se divide en: Estimaci on de par ametros y prueba de hip otesis. Existen dos tipos de estimaciones para par ametros: Puntuales y por intervalo. T ecnicamente la Inferencia, consiste en, una vez estudiada la muestra, proyectar las conclusiones obtenidas al conjunto de la poblaci on. Por motivos obvios, la calidad de estudio, que se realice depende, por una parte, de la calidad de la muestra y, por otra, del uso que de ella se haga. Se supondr a que la muestra ha sido seleccionada con alg un tipo de muestreo probabil stico. En primer lugar, se ha de hacer notar que la pobaci on va a venir representada por una variable aleatoria con una determinada distribuci on de probabilidad. Dependiendo del grado de conocimiento de esta se distinguen dos m etodos para realizar el proceso inferencial.

11

1.4 Inferencia Estad stica 1. Inferencia param etrica.

1 PROBABILIDAD Y ESTAD ISTICA

Es aquella en la que se admite que la distribuci on de la poblaci on pertenece a cierta familia param etrica de distribuciones conocidas, siendo necesario u nicamente precisar el valor de los par ametros para determinar la distribuci on poblacional. 2. Inferencia no param etrica. No supone ninguna distribuci on de probabilidad de la poblaci on, exigiendo s olo hip otesis muy generales, como puede ser la simetr a.

EJEMPLO 1.1 Se realiza un estudio para comprobar tres m etodos de compresi on lectora a ni nos de segundo grado, como son: Intrucci on directa. Ense nanza rec proca. Combinaci on de los dos m etodos. Las preguntas a resolver son: Cu al de los m etodos mejora la compresi on lectora? Para el pr oximo a no el m etodo identicado como el mejor, dar a buenos resultados para el alumno Juan P erez, quien cursar a el segundo grado? La primera pregunta es un caso de incertidumbre porque, bas andonos en el estudio de los tres m etodos a cada muestra de manera independientemente; con el apoyo de la Inferencia Estad stica contestamos esta pregunta, eligiendo a la que mejora signicativamente la compresi on lectora, para el tipo de alumnos en la muestra. La segunda pregunta es un caso de toma de desiciones, porque Juan P erez no ha participado en el estudio, pero se le aplicar a el mejor m etodo que resulte de la investigaci on realizada, claro est a con un cierto nivel de conanza y margen de error admisible.

12

1.4 Inferencia Estad stica

1 PROBABILIDAD Y ESTAD ISTICA

Los casos de incertidumbre y toma de desiciones son resueltos por la estad stica inferencial, apoyando por supuesto de la probabilidad. As , por ejemplo, nos puede interesar tener informaci on sobre: La renta media de todas las familias de una ciudad. El tiempo medio de espera en la caja de un supermercado. La proporci on de autom oviles que se aver an durante el primer a no de garant a. etc. Las inferencias sobre el valor de un par ametro poblacional se pueden obtener b asicamente de dos maneras: 1. En la estimaci on, basta seleccionar un estad stico muestral cuyo valor es utilizar a como estimador del valor del par ametro poblacional. 2. En la contrastaci on de hip otesis, se hace una hip otesis sobre el valor del par ametro y se utiliza la informaci on proporcionada por una muestra para decidir si la hip otesis se acepta o se rechaza. 1.4.2. Razones que justican un estudio inferencial

La realizaci on de un estudio inferencial se justica por distintas circunstancias, algunas de ellas son las siguientes: Por motivos presupuestarios. La realizaci on de un estudio a trav es de muestras supone un ahorro tanto de dinero como de tiempo. En ocasiones la poblaci on tiene un gran n umero de elementos, pudiendo ser estos potencialmente innitos (n umero de clientes demandando un servicio). No todos los elementos de la poblaci on est an localizados o no son localizables. Existe situaciones en la que cuando se analiza un elemento este es destruido.

13

1.4 Inferencia Estad stica

1 PROBABILIDAD Y ESTAD ISTICA

Por motivos de precisi on. Aunque parezca contradictorio, a veces un an alisis total, implica que se comentan errores graves en la medici on, codicaci on, resumen, etc., cuestiones que pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra. 1.4.3. Conceptos de muestreo

Las estad sticas de por si no tienen sentido si no se consideran o se relacionan dentro del contexto con que se trabaja. Poblaci on. Es el conjunto total de individuos, objetos, elementos que poseen algunas caracter sticas observables en un lugar y en un momento determinado. La poblaci on por su parte debe contener las siguientes caracter sticas: 1. Homogeneidad. Que todos los elementos de la poblaci on tenga las mismas caracter sticas seg un las variables que se vayan a considerar. Por ejemplo, si se fuera a investigar la incidencia de la drogadicci on entre j ovenes mujeres adolescentes hay que denir claramente las edades que comprenden la adolescencia. 2. Tiempo. Se reere al per odo de tiempo donde se ubicar a la poblaci on de inter es. 3. Espacio. Se reere al lugar geogr aco donde se ubica la poblaci on de inter es. 4. Cantidad. Se reere al tama no (n umero de elementos) de la poblaci on de inter es. Muestra. Es un subconjunto (por lo regular elmente) de la poblaci on. Par ametros. Caracter stica que se desea conocer en la poblaci on, tales como: una proporci on, una media; suelen denotarse por letras griegas . Estimador. Funci on matem atica (aplicada a una muestra (X1 , X2 , . . . , Xn )) para predecir = f (X1 , X2 , . . . , Xn ) (estimar) el valor de un par ametro, Estimaci on. Valor que toma el estimador para una muestra concreta. Marco muestral. Es el listado f sico de todos los elementos de la poblaci on y con el cual se elegi la muestra.

14

1.4 Inferencia Estad stica

1 PROBABILIDAD Y ESTAD ISTICA

Muestra aleatoria. Dada una poblaci on X se llama muestra aleatoria de tama no n a la repetici on de X1 , X2 , . . . , Xn variables aleatorias independientes con ditribuci on igual, y denotada por (X1 , X2 , . . . , Xn ). 1.4.4. Tipos de muestreo

Hay diferentes tipos de muestreo. No probabil sticos: Intencional, y sin norma. En el primero es la persona que selecciona la muestra la que procura que sea representativa; por consiguiente, la representatividad depende de su intenci on al seleccionar la muestra. En el muestreo sin norma se toma la muestra de cualquier manera, a la aventura, por razones de comodidad o circunstancias. Estos tipos de muestreo no ser an considerados. Probabil stico: Decimos que el muestreo es probabil stico cuando puede calcularse de antemano cu al es la probabilidad de obtener cada una de las muestras que sea posible seleccionar, con lo cual es posible conocer la probabilidad de que un elemento pertenezca a una muestra. Entre los muestreos probabil sticos, los m as ampliamente utilizados son los siguientes: 1. Muestreo Aleatorio Simple. Decimos que una muestra es aleatoria simple cuando: Cada elemento de la poblaci on tiene la misma probabilidad de ser seleccionado en la muestra. Todas las muestras posibles tienen igual probabilidad. 2. Muestreo Estraticado. Se denomina muestreo estraticado a aquel en que los elementos de la poblaci on se dividen en clases o estratos. En cada estrado, los elementos son homog eneos respecto a la caracter stica a estudiar, y entre estratos son heterog eneos. 15

1.5 Problemas propuestos 3. Muestreo por Conglomerado.

1 PROBABILIDAD Y ESTAD ISTICA

Existen situaciones donde ni el muestreo aleatorio simple ni el estraticado son aplicables, ya que no disponemos de una lista con el n umero de elementos de la poblaci on ni de los posibles estratos. En estos casos t picamente los elementos de la poblaci on se encuentran de manera natural agrupados en conglomerados, cuyo n umero si se conoce. Usualmente los conglomerados representan zonas geogr acas tales como: municipios, provincias, distritos, etc. Puede suponerse que cada conglomerado es una muestra representativa de la poblaci on. Las ideas de estraticaci on y de conglomerados son opuestas: la estraticaci on funciona tanto mejor cu anto mayores sean las diferencias entre los estratos y m as homog eneos sean estos internamente; los conglomerados funcionan si hay pocas diferencias entre ellos y son muy heterog eneos internamente (incluyen toda la variabilidad de la poblaci on dentro de cada uno). En lo que resta se supondra una muestra aleatoria seleccionada con reposici on a no ser que se diga lo contrario.

1.5.

Problemas propuestos

1. Demuestre que si X tiene una distribuci on de Student Tn con n grados de libertad, entonces si n > 2 E [X ] = 0 V [X ] = n n2

2. Demuestre que si X es una variable aleatoria con distribuci on de Snedecor Fm,n , entonces si n>4 E [X ] = n n2 V [X ] = 2n2 (n + m 2) m(n 2)2 (n 4)

16

2 DISTRIBUCIONES MUESTRALES

2.
2.1.

DISTRIBUCIONES MUESTRALES
Distribuci on conjunta de la muestra

La probabilidad de extracci on de una muestra aleatoria simple concreta (X1 , X2 , . . . , Xn ), si la variable poblacional es discreta con funci on de masa P (X = x), se calcula de la siguiente manera: El suceso nal es {X1 = x1 } {X2 = x2 } {Xn = xn }; (Xi = xi ) signica que el elemento i-

esimo de la muestra es xi . Y como la muestra es aleatoria simple sus elementos son independientes, por lo cual; P (x1 , x2 , . . . , xn ) = P ({X1 = x1 } {X2 = x2 } {Xn = xn }) = P ({X1 = x1 }) P ({X2 = x2 }) P ({Xn = xn })

Siendo P ({Xk = xk }) la probabilidad de obtener (observar) en la poblaci on un elemento cuyo valor sea xk y P (x1 , x2 , . . . , xn ) es la funci on de probabilidad conjunta de la muestra. En el caso de que la variable aleatoria poblacional sea continua, con funci on de densidad f (x), la probabilidad elemental de obtener un resultado concreto (X1 , X2 , . . . , Xn ), por ser la muestra aleatoria es: f (x1 , x2 , . . . , xn ) donde f (x1 , x2 , . . . , xn ) es la funci on conjunta de la muestra, verc andose que: f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) f (xn ) por ser independientes cada uno de sus elementos. En una muestra aleatoria simple (X1 , X2 , . . . , Xn ) se verican las siguientes relaciones entre sus elementos: 1. F (X1 ) = F (X2 ) = = F (Xn ) 2. F (X1 , X2 , . . . , Xn ) = F (X1 )F (X2 ) F (Xn ) Es decir, las variables Xi son independientes e id enticamente distribuidas con la misma distribuci on de probabilidad que tenga la poblaci on. Si la muestra no fuera aleatoria (es decir, la selecci on fu ese sin reemplazamiento) 17

2.2 Estad sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES P (X1 , X2 , . . . , Xn ) = P (Xi = xi /X1 = x1 , X2 = x2 , . . . , Xi1 = xi1 ) f (X1 , X2 , . . . , Xn ) = f (Xi /X1 , X2 , . . . , Xi1 )

2.2.

Estad sticos y distribuciones muestrales

es la distribuci Denici on 2.1. La distribuci on de muestreo de un estad stico on de probabilidad que puede obtenerse como resultado de un n de umero innito de muestras aleatorias independientes, cada una de tama no n, provenientes de la poblaci on de inter es. Dado que se supone que las muestras son aleatorias, la distribuci on de un estad stico es un tipo de modelo de probabilidad conjunta para variables aleatorias independientes, en donde cada variable posee una funci on de densidad de probabilidad igual a la de las dem as. De manera general, la distribuci on de muestreo de un estad stico no tiene la misma forma que la funci on de densidad de probabilidad en la distribuci on de la poblaci on. EJEMPLO 2.1 Una urna contiene 1000 bolas, todas de igual tama no, y marcadas con 4 n umeros distintos: 400 con el n umero 1, 100 con el 2, 300 con el 3 y las 200 restantes con el 4. La distribuci on de probabilidad de la poblaci on es: P (X = 1) = 0.4 P (X = 3) = 0.3 P (X = 2) = 0.1 P (X = 4) = 0.2

Tomamos una muestra aleatoria de tama no 100, siendo el resultado: 43 bolas con el n umero 1, 6 con el 2, 28 con el 3 y 23 con el 4. La distribuci on de frecuencias de la muestra obtenida es: n1 = 0.43 n n3 = 0.28 n n2 = 0.06 n n4 = 0.23 n

En la gura (1) se muestra gracamente la comparaci on de las frecuencias relativas en la muestra en comparaci on con los de la poblaci on. Los c rculos de color azul corresponde a la distribuci on poblacional, mientras que las barras corresponden a la distribuci on muestral. 18

2.2 Estad sticos y distribuciones muestrales 2 DISTRIBUCIONES MUESTRALES

Figura 1: Distribuci on de frecuencia en la muestra

Si comparamos ambas distribuciones se aprecia que son muy parecidas pero no coinciden, pues la muestra no reproduce exactamente la estructura de la poblaci on, debi endose esta diferencia a la variabilidad introducida en la estricta aleatoriedad de la muestra. Si m as muestras, cada una de ellas tendr a su propia distribuci on, que se aproximar a tanto m as a la poblaci on cuanto m as aleatorio haya sido el proceso de selecci on, es decir, m as objetivo. En general, en una muestra concreta, sus caracter sticas (momentos, etc.) no tienen por qu e coincidir exactamente con las correspondientes de la poblaci on a cuasa de la aleatoriedad del procedimiento de extracci on de los elementos, pero s la muestra ha sido tomada con las m aximas garant as de aleatoriedad, con m axima objetividad, es de esperar que los valores de las caracter sticas muestrales no se alejen demasiado de los poblaciones, lo que proporciona a la muestra sus posibilidades inductivas. En el caso de que la caracter stica fuese la media:

19

n muestral de la media 2.3 Distribucio En la poblaci on,

2 DISTRIBUCIONES MUESTRALES

= 1 0.4 + 2 0.1 + 3 0.3 + 4 0.2 = 2.3 Mientras que en la muestra = 1 0.43 + 2 0.06 + 3 0.28 + 4 0.23 X = 2.31 Claramente no coinciden, sin embargo, son muy parecidos. Muestra aleatoria, signica de ahora en adelante que la muestra ha sido seleccionada de manera aleatoria y con reposici on (un elemento puede estar incluido m as de una vez en la muestra).

2.3.

Distribuci on muestral de la media

EJEMPLO 2.2 Una variable aleatoria X tomo los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7. Tomamos muestras aleatorias simples de tama no 3 y consideramos como estad stico la media muestral. Encontrar . la distibuci on en el muestreo para X Soluci on. En el cuadro 1 se muestra todas las muestras de tama no 3 que pueden obtenerse de la poblaci on. En la columna identicada como tipo, se muestra los elementos que conforman a cada una de las muestras (sin considerar el orden de aparici on); en la columna muestra se enumeran ) todas las muestras posibles; en las restantes columnas se muestra el valor de la media muestra (X y la probabilidad asociada para cada una de las muestras (P(muestras)). se muestra en el cuadro 2. La distribuci on en el muestreo de X EJEMPLO 2.3 Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la distribuci on en el muestreo para la media en el caso que el tama no de la muestra sea 2. Soluci on. En el cuadro 3 se presentan las muestras obtenidas de tama no 2 que pueden obtenerse de la poblaci on. En la columna etiqueta como Tipo se muestran las muestras que pueden obtenerse 20

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 1: Muestras obtenidas para el ejemplo 2 Tipo {1, 1, 1} Muestras {1, 1, 1} {1, 1, 2} {1, 1, 2 } {1, 2, 1 } {2, 1, 1} {2, 2, 2} {2, 2, 2} {1, 2, 2} {1, 2, 2 } {2, 2, 1 } {2, 1, 2} {3, 3, 3} {3, 3, 3} {1, 3, 3} {1, 3, 3 } {3, 3, 1 } {3, 1, 3} {1, 2, 3} {1, 2, 3 } {2, 1, 3 } {3, 1, 2} X 1
4 3 4 3 4 3

P(Muestra) 0.13 0.12 0.2 0.12 0.2 0.12 0.2 0.23 0.22 0.1 0.22 0.1 0.22 0.1 0.73 0.72 0.1 0.72 0.1 0.72 0.1 0.1 0.2 0.7 0.1 0.2 0.7 0.1 0.2 0.7

Tipo

Muestras

P(Muestra)

{1, 1, 3} {1, 1, 3 } {1, 3, 1 } {3, 1, 1}

5 3 5 3 5 3

0.12 0.7 0.12 0.7 0.12 0.7

2
5 3 5 3 5 3

{3, 2, 2} {3, 2, 2 } {2, 2, 3 } {2, 3, 2}

7 3 7 3 7 3

0.22 0.7 0.22 0.7 0.22 0.7

3
7 3 7 3 7 3

{2, 3, 3} {2, 3, 3 } {3, 3, 2 } {3, 2, 3} {1, 3, 2} {1, 2, 3 } {2, 3, 1} {3, 2, 1}

8 3 8 3 8 3

0.72 0.2 0.72 0.2 0.72 0.2 0.1 0.2 0.7 0.1 0.2 0.7 0.1 0.2 0.7

2 2 2

2 2 2

(sin considerar el orden de los elementos en la misma); en la columna Cantidad se presenta el n umero de muestras diferentes que pueden considerarse para cada tipo; mientras que en las columnas restantes se muestra la media muestral para cada tipo de muestra. En el cuadro 4 se muestra la distribuci on muestral de la media para todas las muestras posibles de tama no 2. EJEMPLO 2.4 Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5 con probabilidades iguales. Estudiar la distribuci on en el muestreo para la media en el caso que el tama no de la muestra sea 3. Soluci on. En el cuadro 5 se presentan las muestras obtenidas de tama no 3 que pueden obtenerse de

21

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 2: Distribuci on en el muestreo de la media muestral, datos del ejemplo 2 X 1


4 3 5 3

) P (X 0.13 = 0.001 3 0.12 0.2 = 0.006 3 0.12 0.7 + 3 0.1 0.22 = 0.033 6 0.1 0.2 0.7 + 0.23 + 0.092 3 0.22 0.7 + 3 0.1 0.72 = 0.231 3 0.2 0.72 = 0.294 0.73 = 0.343

2
7 3 8 3

la poblaci on. En la columna etiqueta como Tipo se muestran las muestras que pueden obtenerse (sin considerar el orden de los elementos en la misma); en la columna Cantidad se presenta el n umero de muestras diferentes que pueden considerarse para cada tipo; mientras que en las columnas restantes se muestra la media muestral para cada tipo de muestra. En el cuadro 6 se muestra la distribuci on muestral de la media para todas las muestras posibles de tama no 3. En la gura 2 se representaci on gr aca de la distribuci on de la media muestral para los ejemplos 3 y 4. La distribuci on en el caso de muestras de tama no 2 se muestra en 3a; mientras que la distribuci on para muestras de tama no 3 se presenta en 3b. Puede observarse que al aumentar el tama no de la muestra mejora la precisi on de las estimaciones, pues la curva correspondiente para n = 3 muestra menor dispersi on. Estudiaremos el efecto del tama no de la muestra m as adelante.

22

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 3: Muestras obtenidas de tama no 2 para el ejemplo 3 Tipo {1 , 2 } {1 , 4 } {2 , 3 } {2 , 5 } {3 , 4 } {4 , 5 } {2 , 2 } {4 , 4 } Cantidad 2 2 2 2 2 2 1 1 X 1.5 2.5 2.5 3.5 1.5 4.5 2 4 Tipo {1 , 3 } {1 , 5 } {2 , 4 } {3 , 4 } {3 , 5 } {1 , 1 } {3 , 3 } {5 , 5 } Cantidad 2 2 2 2 2 1 1 1 X 2 3 3 3.5 4 1 3 5

Figura 2: Distribuci on muestral de la media para los ejemplos 3 y 4

(a) Muestras de tama no 2

(b) Muestras de tama no 3

i a la media muestral para una muestra de tama Denotemos por X no i. De los resultados anteriores podemos vericar que se cumple que:

2 E X

= 1 = 3

1 25

+ 1 .5

2 25

+ + 4 .5

2 25

+5

1 25

23

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 4: Distribuci on en el muestreo de la media para el ejemplo 3 X 1 1.5 2 2.5 3 3.5 4 4.5 5 ) P (X
1 25 2 25 3 25 4 25 1 5 4 25 3 25 2 25 1 25

3 E X

= 1 = 3

1 125

4 3

3 125

+ +

14 3

3 125

+5

1 125

Adem as; 2 var X 3 var X = 1 = 0.667

De lo anterior se observa que el valor esperado de la media muestral siempre coincide con el valor de la media poblacional. Por otra parte, la varianza de la media muestral parece disminuir a medida que el tama no de la media muestra aumenta. Hagamos ahora un an alisis geneneral sobre el comportamiento de la media muestral para cualquier tama no, recordemos u nicamente que: = 1 X n
n

Xi
i=1

y utilicemos el hecho que son muestras aleatorias y apoy andonos en las propiedades de valor

24

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 5: Muestras obtenidas de tama no 3 para el ejemplo 4 Tipo {1 , 2, 3 } {1 , 2, 4 } {1 , 2, 5 } {1 , 3, 4 } {1 , 3, 5 } {1 , 1, 2 } {1 , 1, 3 } {1 , 1, 4 } {1 , 1, 5 } {3 , 3, 1 } {3 , 3, 2 } {3 , 3, 4 } {3 , 3, 5 } {5 , 5, 1 } {5 , 5, 3 } {1 , 1, 1 } {3 , 3, 3 } {5 , 5, 5 } Cantidad 6 6 6 6 6 3 3 3 3 3 3 3 3 3 3 1 1 1 X 2


7 3 8 3 8 3

Tipo {2 , 3, 4 } {2 , 3, 5 } {2 , 4, 5 } {3 , 4, 5 } {1 , 4, 5 } {2 , 2, 1 } {2 , 2, 3 } {2 , 2, 4 } {2 , 2, 5 } {4 , 4, 1 } {4 , 4, 2 } {4 , 4, 3 } {4 , 4, 5 } {5 , 5, 2 } {5 , 5, 4 } {2 , 2, 2 } {4 , 4, 4 }

Cantidad 6 6 6 6 6 3 3 3 3 3 3 3 3 3 3 1 1

X 3
10 3 11 3

4
10 3 5 3 7 3 8 3

3
4 3 5 3

2
7 3 7 3 8 3 10 3 11 3 11 3 13 3

3 3
10 3 11 3 13 3

4
14 3

1 3 5

2 4

esperado. E X = E = = 1 n 1 n
n n

Xi
i=1

E [Xi ]
i=1 n

1 n i=1 n = n = 25

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuadro 6: Distribuci on en el muestreo de la media para el ejemplo 4 X 1


4 3 5 3

) P (X
1 125 3 125 6 125 2 25 3 25 18 125 19 125 18 125 3 25 2 25 6 125 3 125 1 125

2
7 3 8 3

3
10 3 11 3

4
13 3 14 3

Mientras que: var X = var = = = 1 n2 1 n2


n

1 n

Xi
i=1

var(Xi )
i=1 n

2
i=1 2

n n2 2 = n

y qu e pasar a si el muestreo se realiza sin reposici on? Se sigue cumpliendo lo anterior? S se obtienen muestras sin reemplazamiento de una poblaci on de tama no N , y cada una muestra es de tama no n, por principios de conteo se sabe que en total habr a 26
N n

muestras distintas.

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES
N 1 n1

Si se ja un elemento en la muestra, digamos Xi , en total habr a Xi . De este modo; E X 1


N n

muestras que contenga a

(N n)
j =1 N

1 n Xi

Xi
i=1 j

1 n
N n N 1 n1 n N n

i=1 N

N 1 n1

Xi
i=1 N

N N 1 n n1 N 1 Xi = N i=1 = n

N 1 n1

Xi
i=1

Veamos ahora que sucede con la varianza de la media muestral, note que ahora Xi y Xj si est an relacionadas entre s , y ya no son independientes como en el caso anterior. La probabilidad de Xi y Xj pertenezcan a una muestra es de
1 . N (N 1)

27

n muestral de la media 2.3 Distribucio 1. Primera forma: var X = var = 1 n


n

2 DISTRIBUCIONES MUESTRALES

Xi
i=1 n

1 var n2
n

Xi
i=1 n

1 = n2

var(Xi ) + 2
i=1 n i<j

cov (Xi ; Xj ) 2 N 1

1 = n 2 + 2 n2 = 1 n2 2 = n2 2 = n2 2 = n n 2 2

i<j

2 n(n 1) N 1 2 n(n 1) n N 1 nN n n2 + n N 1 N n N 1

28

n muestral de la media 2.3 Distribucio Puesto que: Cov (Xi ; Xj ) = E [Xi Xj ] 2


N

2 DISTRIBUCIONES MUESTRALES

=
i=j

Xi Xj
N

1 N (N 1)

1 2 N
N 2

Xi
i=1

1 N
N 2

Xi Xj 1 1 N i=j N 1 N 2 N X i i=1 1 = N N 1
N i=1

Xi
i=1 N i=1

Xi2

Xi
i=1 N

1 1 1 + Xi N N 1 N i=1 N 1 2 N N 2 1 1 i=1 Xi = Xi N N 1 N (N 1) i=1 2 N N 1 1 = Xi2 Xi N (N 1) i=1 N i=1 = 1 = N (N 1) = 1 2 N 1


N

Xi2

Xi
i=1

Xi2
i=1

2. Segunda forma: Se verica que: n X = ( X1 ) + ( X2 ) + + ( X n )


n

=
i=1

(Xi )

Por consiguiente n2 X
2

= (X1 )2 + (X2 )2 + + (Xn )2 + 2 (X1 ) (X2 ) + + 2 (Xn1 ) (Xn )


n n

=
i=1

( Xi ) + 2
i<j

(Xi ) (Xj )

(8)

] debe ser un m En muestreo aleatorio debe cumplirse que E [nX ultiplo del total poblacional, 29

n muestral de la media 2.3 Distribucio es decir;

2 DISTRIBUCIONES MUESTRALES

E [X1 + X2 + + X n ] = ( X1 + X2 + + XN ) Resulta que =


n , N

pues en la expresi on anterior. En la izquierda hay n t erminos, mientras

que en la derecha hay N . Bajo un razonamiento an alogo se deduce que


n

E
i=1

(Xi )

n = N

(Xi )2
i=1

y tambi en
n

E 2
i<j

(Xi ) (Xj )

n(n 1) 2 N (N 1)

(Xi ) (Xj )
i<j

(la suma de los productos se extiende sobre todas las parejas de elementos en la muestra (izquierda) y en la pobaci on (derecha)). La suma del lado izquierdo contiene contiene
N (N 1) 2 n(n1) 2

t erminos, mientras que la suma de la derecha

t erminos.

aplicando esperanza a la ecuaci on (8) y en base a los resultados anteriores, nE


2

n = N

(Xi )
i=1

n(n 1) +2 N (N 1)

(Xi ) (Xj )
i<j

Reescribiendo esta u ltima expresi on, resulta que: nE


2

n = N

n1 1 N 1

i=1

n1 (Xi ) + N 1
2

(Xi ) (Xj )
i<j

Observe que,
N

(Xi ) = 0
i=1

(una propiedad elemental de la media aritm etica) Finalmente, var X 1 = nN n1 1 N 1


N

(Xi )2
i=1

N n 2 = n(N 1) 30

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

Cuando el tama no de la muestra es peque no en comparaci on con el tama no de la poblaci on el t ermino


N n N 1

puede omitirse en el c alculo de la varianza, dicho t ermino recibe el nombre de con N

rrecci on debida a poblaciones nitas o correcci on por nitud. Siempre y cuando En la pr actica puede ignorarse siempre y cuando la fracci on en el muestreo y para muchos pr opositos a un cuando
n N n N

sea peque no.

no exceda el 5 %,

no exceda el 10 %. El efecto de ignorar la correcci on es

. sobreestimar el error est andar en la estimaci on de X Por ejemplo, si 2 es la misma en dos poblaciones, una muestra de 500 de una poblacion de 200,000 da una estimaci on de la media de la poblaci on, casi tan precisa como una muestra de 500 de una poblaci on de 10,000. Teorema 2.2. En el caso de que la caracter stica poblacional de inter es, tenga distribuci on normal, se cumplir a, no importando el tama no de la muestra (siempre y cuando se trate de muestras aleatorias) que: N X Demostraci on. Recordemos que si: X N (; ) Entonces su funci on generatriz es: X (t) = exp it t2 2 2 (10) ; 2 n (9)

Por consiguiente, la funci on generatriz de la media muestral es: X (t) = E exp itX = E exp it X1 + X2 + + Xn n X1 X2 Xn = E exp it exp it exp it n n n

Al ser muestra aleatoria se cumple, X (t) = E exp it = X1 Al ser las Xi normales Xi t n = exp it it2 2 n 2n2 31 i t n X1 n t n E exp it Xn X2 n t n E exp it Xn n

X2

n muestral de la media 2.3 Distribucio

2 DISTRIBUCIONES MUESTRALES

it it2 2 X exp (t) = n 2n2 t2 2 = exp it 2n

La cual es una funci on generatriz de una distribuci on normal de par ametros y

2 n

Observaci on: el resultado anterior sigue siendo v alido en muestreo sin reemplazamiento (hay que reemplazar la varianza correspondiente). En el caso de que la distribuci on de la poblaci on sea normal pero se deconozca el valor de 2
2 (muy com un en la pr actica). M as adelante veremos que una buena estimaci on de 2 , ser a Sn 1 , la

cuasivarianza muestral: 1 n1 Xi X
i=1 2

2 Sn 1 =

Se sabe que,
2 (n 1)Sn 1 2 n1 2

La suma de n 1 variables N (0; 1)2 independientes. De este modo X n


2 (n 1)Sn 1 (n 1) 2 X

t =

2 2 Sn 1 n 2 X = Sn1 n

Es decir, la variable aleatoria t = X tn1 Sn1 n 32

n muestral de la proporcio n 2 DISTRIBUCIONES MUESTRALES 2.4 Distribucio (Resultado tambi en v alido para muestras no aleatorias)
2 2 2 Para muestras grandes (n > 30), se cumplir a que Sn 1 = Sn = , y por consiguiente:

X N (0; 1) Sn1 n tendr Es decir, X a aproximadamente una distribuci on normal, como veremos m as adelante Teorema Central del L mite (TLC).

2.4.

Distribuci on muestral de la proporci on

La proporci on muestral, es la media muestral cuando las observaciones Xi s olo pueden tomar dos valores 0 y 1 (ausencia o presencia de la caracter stica o propiedad de inter es). Puede asumirse que cada Xi sigue una distribuci on de Bernoulli de par ametro p (Xi B (p)). Sabemos que en la distribuci on de Bernoulli la media es p, mientras que la varianza es p(1 p). En una muestra aleatoria, sea la proporci on muestral (estimador de p). Entonces; 1 E [ ] = E n 1 = n = 1 n
n n

Xi
i=1

E [Xi ]
i=1 n

p
i=1

1 (np) = n = p

33

n muestral de la proporcio n 2 DISTRIBUCIONES MUESTRALES 2.4 Distribucio Mientras que para la varianza, var ( ) = var = = = 1 n2 1 n2
n

1 n

Xi
i=1

var (Xi )
i=1 n

p(1 p)
i=1

1 (np(1 p)) n2 p(1 p) = n , donde 2 ha sido reemplazada por p(1 p). Note que son expresiones parecidas al caso de X De una forma an aloga puede vericarse que en muestras sin reposici on, se verica que: E [ ] = p N n p(1 p) var ( ) = N 1 n Adem as, de manera equivalente puede vericarse que para n grande (muestras grandes) se cumple, N p; p(1 p) n

La distribuci on en el muestreo de , proporci on observada en la muestra, se obtiene inmediatamente de la distribuci on Binomial. En efecto: P = r n = PB ( r ) = n r p (1 p)nr r

donde r es el n umero de elementos en la muestra que presentan la caracter stica de inter es. LA DE BERNOULLI DE PARAMETRO SUMA DE n VARIABLES CON DISTRIBUCION p ES BINOMIAL. UNA NUEVA VARIABLE CON DISTRIBUCION r es igual a la probabilidad de n obtener r elementos con esta caracter stica en una muestra de tama no n; la cual es la distribuci on Es decir, la probabilidad de que la porporci on en la muestra sea Binomial: B (n; p)

34

n muestral de la varianza 2.5 Distribucio

2 DISTRIBUCIONES MUESTRALES

2.5.

Distribuci on muestral de la varianza

La varianza muestral viene denida por la siguiente expresi on: 1 n


n

2 Sn =

Xi X
i=1

Mientras que la cuasivarianza muestral por, 1 = n1


n

2 Sn 1

Xi X
i=1

Calculemos la esperanza para cada una de las estimaciones de la varianza poblacional. 1. Empezemos con la varianza muestral,
2 E Sn

= E = E

1 n 1 n

Xi X
i=1 n

Xi + X
i=1 n

1 = E n Puesto que: 1 n
n

i=1

1 ( Xi ) + n
2

X
i=1

1 +2 n

( Xi ) X
i=1

(Xi ) X
i=1

1 = X n 1 = X n = X

(Xi )
i=1

n nX
2

35

n muestral de la varianza 2.5 Distribucio

2 DISTRIBUCIONES MUESTRALES

2 E Sn

= E = E = = 1 n 1 n

1 n 1 n
n

(Xi )2 + X
i=1 n

2 X

(Xi )2 X
i=1

E (Xi )2 E
i=1 n

var(Xi )
i=1

2 n

= 2 =

2 n n1 2 n

La varianza muestral no es centrada. 2. Veamos que sucede con la cuasivarianza muestral. Se sabe que:
2 2 nSn = (n 1)Sn 1 n 2 2 Sn Sn 1 = n1

De este modo resulta;


2 E Sn 1

= E =

n S2 n1 n

n 2 E Sn n1 n n1 = n1 n 2 =

La cuasivarianza muestral es un estimador centrado para 2 . S la caracter stica de inter es poblacional X sigue una distribuci on normal de par ametros y 2 , entonces la variable: 2 = (n 1) 2 Sn1 2 36 (11)

2.6 Teorema Central del L mite

2 DISTRIBUCIONES MUESTRALES

Sigue una distribuci on Chi-Cuadrado con n 1 grados de libertad. Es decir, si X N (; 2 ), N ; 2 . entonces X n Veriquemos que efectivamente sigue tal distribuci on. Demostraci on. Primero observemos que,
n

(n

2 1)Sn 1

=
i=1 n

Xi X

=
i=1 n

Xi + X
n

=
i=1 n

(Xi )2 +
i=1

X
2

+2
i=1

(Xi ) X
2

=
i=1 n

(Xi )2 + n X (Xi )2 n X
i=1

2n X

= Por consiguiente;

2 (n 1)Sn 1 = 2

i=1 n

X (Xi )2 n 2 2 Xi
2

=
i=1

X
n

2 (n 1)Sn 1 2 2 n 1 2 2 n1

Pues cada uno de los n sumandos del primer t ermino de la derecha de la ecuaci on sigue una distribuci on normal est andar elevada al cuadrado, lo mismo sucede para el segundo t ermino; y como adem as se cumple que la suma (diferencia) de dos variables Chi-Cuadrado siguen tambi en una distribuci on con grados de libertad igual a la suma (resta) de ambas variables.

2.6.

Teorema Central del L mite

En muchos casos pr acticos la distribuci on de la caracter stica de inter es X no ser a siempre normal. El Problema Central del l mite expresa que la distribuci on de la suma de un n umero muy grande de variables aleatorias indenpendientes, en condiciones muy generales, se aproxima a la normal. 37

2.6 Teorema Central del L mite

2 DISTRIBUCIONES MUESTRALES

Estos teoremas revelan las razones por la cual, en muchos campos de aplicaci on, se encuentran distribuciones normales. Si X1 , X2 , . . . , Xn son variables aleatorias independientes e id enticamente distribuidas (iid), entonces:
n n n

Xi N
i=1

E
i=1

Xi ; var
i=1

Xi

y por consiguiente
n i=1

Xi E [ n i=1 Xi ] N (0; 1) n var ( i=1 Xi )

cuando el tama no de la muestra sea lo sucientemente grande, es decir, cuando n . Del resultado anterior, se deducen los siguientes teoremas: Teorema 2.3 (Levy-Lindeberg). Sean {Xn }nN variables aleatorias iid con E [Xi ] = (nita) y var(Xi ) = 2 (nita) i. Entonces
n i=1

Xi n N (0; 1) n

Demostraci on. Debemos demostrar que Zn (t) exp con Zn = t2 ; cuando n 2


n i=1

Xi n n

Al ser las Xi variables aleatorias independientes e id enticamente distribuidas, todas tendr an la misma media , y la misma varianza 2 (las cuales suponemos que son valores nitos). Ser a pues que i N , E [Xi ] = 0 Haciendo Sn =
n i=1

Xi , resulta que E [Sn ] = y var(Sn ) = n 2 .

Entonces n N , se tiene: Zn = Sn n n n i=1 Xi n = n


n

=
i=1

Xi n

38

n muestral de la diferencia de 2.7 Distribucio 2 dos DISTRIBUCIONES medias MUESTRALES y Zn (t) = E exp
n

it

n i=1 (Xi

n it(Xi ) n n t

=
i=1 n

E exp Xi
i=1

En vista que, E [Xi ] = 0, el segundo momento de Xi coincide con su varianza, y utilizando adem as un desarrollo en serie de Taylor para Zn (t), con (t) 0, cuando t 0 (0 < (t) < t). Se tendr a que n N Xi (t) = 1
n

2 2 (t) 3 t + t 2 6 n t2 2n
n

Zn (t) =
i=1 n

Xi

=
i=1

2 1 2
t2 2

(t) 3 t 6

(t) 3 1 + t n 6 t2 2

exp Que es justo lo que quer amos demostrar.

Teorema 2.4 (Moivre). Sean {Xn }nN variables aleatorias iid con Xn Bin(n; p) n. Entonces Xn np np(1 p)

N (0; 1)

La demostraci on se deja como ejercicio para el estudiante.

2.7.

Distribuci on muestral de la diferencia de dos medias

Si en lugar de una poblaci on se consideran dos, y de cada una de ellas se selecciona una muestra aleatoria, la primera de tama no n1 (X1 , X2 , . . . , Xn1 ); y la segunda de de tama no n2 (Y1 , Y2 , . . . , Yn2 ) de manera independiente de la primera. Es decir; 39

n muestral de la diferencia de 2.7 Distribucio 2 dos DISTRIBUCIONES medias MUESTRALES


2 En la primera poblaci on X es la caracter stica de inter es tal que E [X ] = 1 y var(X ) = 1 ,

y sea (X1 , X2 , . . . , Xn1 ) una muestra aleatoria de ella. En la segunda poblaci on la caracter stica de inter es Y (la misma que se mide en la primera
2 , y sea (Y1 , Y2 , . . . , Yn2 ) una muestra aleatoria poblaci on) tal que E [Y ] = 2 y var(Y ) = 2

de ella. Y , se cumple que: Entonces para el estad stico, diferencia de media muestrales X Y E X E Y = E X = 1 2 Mientras que, Y var X + var Y = var X 2 2 = 1+ 2 n1 n2

1. En el caso de que las poblaciones sean normales, es decir;


2 X N 1 ; 1 2 Y N 2 ; 2

N X N Y

2 1 n1 2 2 ; 2 n2

1 ;

Suceder a que: Y N X 1 2 ;
2 1 2 + 2 n1 n2

Y , tiene la funci Demostraci on. La variable X on caracter stica: Y ) X Y (t) = E exp it(X exp itY = E exp itX = E exp itX E exp itY
2 it2 2 2n2

= X (t)Y (t) 2 it2 1 = exp it1 2n1 = exp it(1 2 ) 40

exp it2 t2 2
2 1 2 + 2 n1 n2

n muestral de la diferencia de 2.7 Distribucio 2 dos DISTRIBUCIONES medias MUESTRALES La u ltima expresi on es, precisamente la funci on caracter stica de una distribuci on normal N
2 2 1 2 1 2 ; + n1 n2

2 2 2. En caso que las poblaciones sean normales, pero se desconozcan 1 y 2 . 2 2 Para simplicar suponga que 1 = 2 = 2

Y N X

2 (n1 + n2 ) 1 2 ; n1 n2

Note que

2 (n1 + n2 ) es una varianza combinada de las dos poblaciones, de este modo: n1 n2 Z= Y (1 2 ) X (n1 + n2 ) n1 n2 N (0; 1)

Del mismo modo que se combinan las varianzas poblacionales podemos calcular las cuasiva2 2 y Sn rianzas muestrales, sean Sn 2 1 1 1

Por argumento similar al presentado para una poblaci on, puede vericarse que,
2 2 + (n2 1)Sn (n1 1)Sn 2 1 1 1 2 n1 +n2 2 2

De este modo el estad stico t,


Y )(1 2 ) (X r

t =

(n1 +n2 ) n1 n2

2 2 (n1 1)Sn + (n2 1)Sn 1 1 2 1 2 (n1 + n2 2) (n1 n2 ) n1 +n2

Y (1 2 ) X

2 2 (n1 1)Sn + (n2 1)Sn 1 1 2 1 (n1 + n2 2)

tn1 +n2 2

41

n muestral de la diferencia de 2.8 Distribucio 2 dos DISTRIBUCIONES proporciones MUESTRALES 3. Cuando los tama nos de muestras sean grandes, digamos n1 , n2 > 30
2 2 2 Sn Sn 1 1 1 1 2 2 2 2 Sn Sn 2 2 1

Por lo que el estad stico: Z = Y (1 2 ) X


2 2 Sn Sn 1 1 + 2 1 n1 n2

N (0; 1)

2.8.

Distribuci on muestral de la diferencia de dos proporciones

Al igual que en el caso de una muestra partimos del hecho que la proporci on muestral es la media aritm etica de una variable que toma los valores 0 y 1 (ausencia o presencia de la caracter stica de inter es). En la primera muestra de tama no n1 las observaciones (X1 , X2 , . . . , Xn1 ), son variables aleatorias con distribuci on de Bernoulli de par ametro p1 , es decir, Xi B (p1 ) i = 1, . . . , n1 En la segunda muestra de tama no n2 las observaciones (Y1 , Y2 , . . . , Yn2 ) (la cual es totalmente independiente de la primera), Yi B (p2 ) i = 1, . . . , n2 p1 y p2 son respectivamente las proporciones poblacionales. Combinando entonces los resultados para la diferencia de medias (y el de una proporci on) se tiene que: Sean 1 y 2 las proporciones de ambas muestras. 1 Bin(n1 ; p1 ) y 2 Bin(n2 ; p2 )

E [1 2 ] = E [1 ] E [2 ] = p1 p2 42

n muestral del cociente de dos 2.9 Distribucio 2 DISTRIBUCIONES varianzas MUESTRALES y var (1 2 ) = var (1 ) + var (2 ) p1 (1 p1 ) p2 (1 p2 ) = + n1 n2 Cuando los tama nos de ambas muestras sean relativamente grandes (n1 , n2 > 30), se tendr a por el TLC. p 1 (1 p 1 ) p 2 (1 p 2 ) + n1 n2

1 2 N

p 1 p 2 ;

(12)

donde p 1 y p 2 representan valores concretos de las estimaciones de las proporciones en ambas muestras, es decir, para una muestra concreta.

2.9.

Distribuci on muestral del cociente de dos varianzas

2 Dada una muestra aleatoria (X1 , X2 , . . . , Xn1 ) de una poblaci on N (1 ; 1 ) y (Y1 , Y2 , . . . , Yn2 ) de 2 ), ambas muestras independientes entre si. una poblaci on N (2 ; 2

Por una parte de los resultados previos, se tendr a que:


2 (n1 1)Sn 1 1 1 = 2 n1 1 2 1 2 (n2 1)Sn 2 1 2 2 = n2 1 2 2

son variables aleatorias independientes (al ser las muestras independientes entre si). Resulta entonces, que la distribuci on en el muestreo del estad stico,

F =

2 (n1 1)Sn 1 1 2 (n1 1)1 2 (n2 1)Sn 2 1 2 (n1 1)2 2 Sn 1 1 2 1 2 Sn2 1 2 2

(13)

sigue una distribuci on F de Snedecor con n1 1 grados de libertad en el numerador y n2 1 grados de libertad en el denominador. 43

2.10 Problemas propuestos

2 DISTRIBUCIONES MUESTRALES

2.10.

Problemas propuestos

1. Una variable aleatoria X toma los valores 1, 2, 3, 4 y 5. Estudiar la distribuci on en el muestreo , en los casos que el tama para la media muestral X no de la muestra aleatoria sea: a) 2 b) 3 c) 4 d) 5

2. Repetir el problema anterio, pero considerando que las muestras no son aleatorias (es decir, muestras se seleccionan sin reemplazamiento). 3. Sea (X1 , X2 , . . . , Xn ) una muestra aleatoria de una poblaci on N (; 2 ) y Xn+1 una variable aleatoria independiente de la muestra anterior. Calc ulese la distribuci on de la variable aleatoria Y = Siendo S 2 , la cuasivarianza muestral. 4. Demu estrese que dada una muestra aleatoria (X1 , X2 , . . . , Xn ) de una poblaci on N (; 2 ), y Xi X son independientes para todo i. las variables aleatorias X 5. Sea X una poblaci on de Bernoulli de par ametro
1 2

n Xn+1 X n+1 S

y se consideran todas las muestras aleato-

y S 2 , la media y la cuasivarianza rias posibles de tama no 3. Para cada muestra calc ulese X muestrales y determ nense sus distribuciones en el muestreo. 6. Dada una muestra aleatoria (X1 , X2 , . . . , Xn ) de una poblaci on N (; 2 ) se construyen: k = 1 X k
2 Sk 1 k

Xi
i=1

nk = X
2 Sn k 1

1 nk

Xi
i=k+1 n

1 = k1

k )2 (Xi X
i=1

1 k )2 = ( Xi X n k 1 i=k+1

Calc ulese la distribuci on de las variables aleatorias: a)


2 2 (k 1)Sk 1 + (n k 1)Snk1 2

44

2.10 Problemas propuestos b)

2 DISTRIBUCIONES MUESTRALES

2 Sk 1 2 Snk1 2 7. Dada dos muestras aleatorias independientes (X1 , X2 , . . . , Xm ) de una poblaci on N (1 ; 1 ) 2 ) respectivamente, y dos n umeros reales y , e (Y1 , Y2 , . . . , Yn ) de una poblaci on N (2 ; 2

h allese la distribuci on de la variable aleatoria 1 ) + (Y 2 ) (X Sp Donde


2 Sp 2 2 (m 1)S1 + (n 1)S2 = n+m2 1 m

1 n

2 2 siendo S1 y S2 las cuasivarianzas muestrales.

, 8. Dada una muestra aleatoria de tama no n, calcule la distribuci on de la media muestral X cuando la poblaci on es: a ) Bernoulli. b ) Gamma. c ) Exponencial. d ) Cauchy. 9. Demostrar que para una muestra aleatoria de tama no n de una poblaci on N (; 2 ) se tiene que el segundo momento muestral respecto de la media (la varianza muestral) y la media muestral, son variables aleatorias independientes. 10. Dada una muestra aleatoria de tama no n, de una poblaci on con momento poblacional de cuarto orden nito, demostrar que: E S2 var S 2 n 2 n1 2 2 2 4 2 4 22 4 + 32 = 2 4 n n2 n3 =

Donde k = E (X )k , el momento poblacional de orden k respecto al centro de los datos. S 2 denota la varianza muestral. 45

2.10 Problemas propuestos

2 DISTRIBUCIONES MUESTRALES 1 ; se extraen muestras aleatorias de 2

11. De una poblaci on binomial de par ametro n = 3 y p = tama no 2. Determine: a ) Distribuci on de la muestra. b ) Distribuci on de la media muestral. c ) Esperanza y varianza de la media muestral. d ) Distribuci on de la varianza muestral. e ) Esperanza de la varianza muestral.

12. Sea una urna con 100 bolas de las cuales 20 est an marcadas con el n umero uno, 30 con el dos y 50 con el tres. Se extraen dos bolas al azar. Determine, primero suponiendo reemplazamiento en la extracci on de las bolas y despu es no: a ) Distribuci on de probabilidad de la muestra. b ) Distribuci on de probabilidad, esperanza y varianza de la media. c ) Comente los resultados obtenidos con y sin reemplazamiento. 13. Se lanza dos veces un dado ideal (todas las caras tienen igual probabilidad de ocurrencia). Determine: a ) Distribuci on de probabilidad de la puntuaci on m axima obtenida. b ) Probabilidad de que la puntuaci on m axima sea superior a 4. c ) Si apuesta un mill on de d olares a que la puntuaci on m axima en el lanzamiento de dos dados es superior a 4, cu al es su ganancia esperada? 14. Los salarios mensuales de dos trabajadores de dos sectores econ omicos A y B se distribuyen independientemente seg un las leyes de probabilidad. Salarios en el sector A Salarios en el sector B N (125; 30) N (125; 60)

Para muestras independientes de tama no 100 en el sector A y de tama no 90 en el sector B , determine: 46

2.10 Problemas propuestos

2 DISTRIBUCIONES MUESTRALES

a ) Distribuci on de probabilidad de la media muestral en el sector A. b ) Distribuci on de probabilidad de la media muestral en el sector B . c ) Distribuci on de probabilidad de la media muestral en el sector A menos la media muestral en el sector B . 15. De una poblaci on normal se toman dos muestras: la primera de tama no 10 es tal que la su varianza es igual a 9; en la segunda de tama no 8 se tiene que su varianza muestral es 20. Cu al es la probabilidad de la diferencia de medias sea menor que 3? 16. El tiempo en minutos que un cliente debe esperar hasta ser atendido en una pasteler a de moda sigue una distribuci on exponencial, de modo que: F (x) = P (X x) = 1 exp x 2

Se elige una muestra de 100 clientes, y se miden los tiempos de espera. A partir de esta muestra se pide: a ) Esperanza de la media muestral. b ) Varianza de la media muestral. c ) Esperanza de la varianza muestral. 17. Consideremos una muestra de tama no 4 de una poblaci on normal N (, 2 ), donde se desea estimar la media. Para ello se consideran los estimadores: T1 = T2 1 (X1 + X2 + X3 + X4 ) 4 1 1 1 = X1 + X2 + (X3 + X4 ) 2 4 8

a ) Encuentre la esperanza de ambos estimadores. b ) Encuentre la varianza de ambos estimadores. c ) Cu ales son las distribuciones de ambos estimadores? 18. Sea X una variable aleatoria con distribuci on de Poisson de par ametro . Dada una muestra aleatoria de tama no n, encontrar la funci on de densidad conjunta de la muestra. 47

2.10 Problemas propuestos

2 DISTRIBUCIONES MUESTRALES

19. Sean (X1 , X2 , . . . , X25 ) e (Y1 , Y2 , . . . , Y25 ) dos muestras aleatorias independientes de dos poblaciones N (0; 42 ) y N (1; 32 ). Determine: a ) La distribuci on de muestreo de la diferencia de medias. >Y ). b ) Calcule P (X 20. Una poblaci on consiste en cuatro n umeros 1, 2, 3 y 4. Se extraen dos elementos sin reemplazamiento y se nota por (X1 , X2 ) los valores obtenidos. Se pide a ) Distribuci on conjunta de (X1 , X2 ). b ) Distribuci on de la media muestral. 21. La duraci on media de una muestra aleatoria de 10 bombillas de una poblaci on de desviaci on t pica 425 horas, fue de 1327 horas. Una muestra aleatoria independiente de la anterior de tama no 6 de una poblaci on con desviaci on t pica de 375 horas, arroj o una duraci on media muestral de 1215 horas. Si las medias de las dos poblaciones se supones iguales, qu e probabilidad se tiene de obtener una desviaci on de las muestrales menor que la que se ha obtenido? 22. Una poblaci on se compone de los cinco n umeros 2, 3, 6, 8, 11. Considerar todas las muestras posibles de tama no dos que se puedan extraer con reemplazamiento de esta poblaci on.Encontrar: a ) La distribuci on de la media muestral. b ) Distribuci on de la varianza muestral. c ) Distribuci on de la cuasivarianza muestral. 23. Repetir el problema anterior pero considerando el caso que las muestras se eligen sin reemplazamiento. 24. Los pesos de 1500 cojinetes de bolas se distribuyen normalmente con media 22.4 onzas y desviaci on t pica 0.048 onzas. Si se extraen 300 muestras de tama no 36 de esta poblaci on, determinar la esperanza y la desviaci on t pica de la distribuci on muestral de medias si el muestreo se hace con reemplazamiento, y si se hace sin reemplazamiento? 48

2.10 Problemas propuestos

2 DISTRIBUCIONES MUESTRALES

25. Una poblaci on de 7 n umeros tiene una media de 40 y una desviaci on t pica de 3. Si se extraen muestras de tama no 5 de esta poblaci on y se calcula la cuasivarianza de cada muestra, hallar la media de la distribuci on muestral de cuasivarianzas si el muestreo es con reemplazamiento, y en el caso de ser muestras sin reemplazamiento? 26. Tenemos una variable aleatoria que toma los valores 1, 2 y 3 con probabilidades 0.1, 0.2 y 0.7, respectivamente. Encuentre la distribuci on muestral de la cuasivarianza muestral y en base a ella encuentre la esperanza de la cuasivarianza en los siguientes casos: a ) Tama no de muestra dos y con reemplazamiento. b ) Tama no de muestra dos y sin reemplazamiento. c ) Tama no de muestra tres y con reemplazamiento. d ) Tama no de muestra tres y sin reemplazamiento. 27. Para muestras aleatorias de tama no 10, encuentre la media y la varianza de la media muestral en el caso que: a ) Si la poblaci on es Poisson con par ametro igual a 1. b ) Si la poblaci on es Bernoulli de par ametro 0.3. c ) Si la poblaci on es normal con media igual a varianza e iguales a 1. 28. Sea una poblaci on Poisson de par ametro igual 0.1 de la cual se toma una muestra aleatoria de tama no 2. Determine la distribuci on de probabilidad, esperanza y varianza de la media muestral. Considere u nicamente los primeros cuatro valores que puede tomar la variable. 29. Encuentre la distribuci on en el muestreo de la media para muestras aleatorias de tama no n las cuales proceden de una poblaci on con distribuci on gamma de par ametros p + 1 y (G(p + 1, )) as como la esperanza y varianza de la media muestral, utilizando la funci on caracter stica de esta u ltima. 30. Demuestre el Teorema de Moivre.

49

DE PARAMETROS 3 ESTIMACION

3.
3.1.

DE PARAMETROS ESTIMACION
Introducci on

La estimaci on de un par ametro involucra el uso de datos muestrales en conjunci on con alg un estimador. Existen dos formas de llevar a cabo lo anterior: la estimaci on puntual y la estimaci on por intervalos de conanza. En la primera se busca un estimador, que con base en los datos muestrales, d e origen a un u nico valor del par ametro y que recibe el nombre de estimaci on (estimado) puntual. Para la segunda, se determina un intervalo en el que, en forma probable, se encuentre el valor del par ametro. Este recibe el nombre de intervalo de conanza estimado. Denotaremos de aqu en adelante como f (X ; ) a la funci on de densidad (probabilidad), de la caracter stica de inter es, donde la funci on depende de un par ametro arbitrario (el cual es desconocido pero constante). Nuestro principal objetivo es presentar los criterios convenientes para la determinaci on de los estimadores de . f (X ; ) depende del valor de , pero ser a siempre de la misma familia (normal, binomial, beta, etc.) Estimaci on puntual = f (X1 , X2 , . . . , Xn ) Estimaci on por intervalo 1 2 ) = P ( donde i = fi (X1 , X2 , . . . , Xn ) ser El estimador a una variable aleatoria (funci on de variables aleatorias muestrales) (X1 , X2 , . . . , Xn ), y se transformar a en una estimaci on del par ametro , un valor concreto, cuando las variables muestrales (X1 , X2 , . . . , Xn ) se conviertan en datos observados al obtenerse una muestra determinada.

3.2.

Propiedades de los estimadores

Es posible denir muchos estimadores para tratar de estimar un par ametro desconocido . Entonces, c omo seleccionar un buen estimador de ?, cu ales son los criterios para juzgar cuando un 50

3.2 Propiedades de los estimadores

DE PARAMETROS 3 ESTIMACION

estimador de es bueno o malo?, qu e es un buen estimador? 1 , 2 y 3 son tres estimadores distintos para , y que construimos la Suponga para esto que distribuci on de frecuencias para cada uno de ellos tal y como se muestra en la gura 3.

Figura 3: Comparaci on de estimadores

3 podr La intuici on sugiere que a considerarse como el mejor estimador de , no solo porque se 2 no ser concentra alrededor del valor de , sino porque adem as su variabilidad es peque na. a 2 3 a pesar que tambi tan bueno porque tiene una mayor variabilidad que la de en se concentra 1 ser alrededor de . Mientras que a el peor de todos pues apesar que tiene aproximadamente la 3 , no se encuentra concentrado alrededor de , por lo que es poco probable misma variabilidad que acertar con una muestra el verdadero valor. Es de recalcar que en la pr actica, s olo tendremos acceso a la informaci on contenida por una sola muestra, por lo que debe tomarse el mejor estimador posible para el par ametro de inter es. debe tener una De los comentarios anteriores surgen dos propiedades deseables que un estimador debe ser la distribuci on en el muestreo concentrada alrededor del valor de , y la varianza de menor posible. = T (X1 , X2 , . . . , Xn ) un estimador, y (X1 , X2 , . . . , Xn ) una muestra aleatoria. Sea Al ser desconocido el par ametro nunca sabemos exactamente hasta qu e punto cada estimaci on se encuentra lejos o cerca del valor del par ametro. Para establecer la bondad de un estimador, partimos del hecho de conocer si la estimaci on se encuentra lejos o cerca del verdadero valor

51

3.2 Propiedades de los estimadores siempre desconocido.

DE PARAMETROS 3 ESTIMACION

y , para eliminar signo se toma el cuaEl error que podemos cometer, es la diferencia entre drado,
2

. Si fuera posible obtener todas las muestras posibles y para cada una de ellas su

estimaci on, un medida global de los errores es el Error Cuadr atico Medio, el cual se presenta en la siguiente denici on. cualquier estimador de un par Denici on 3.1. Sea ametro desconocido , se dene el Error como la esperanza matem y , se Cuadr atico Medio de atica del cuadrado de la diferencia entre ), es decir; denotar a por ECM ( ) = E ECM (
2

(14)

) indicar Un valor peque no de ECM ( a que, en media, el estimador no se encuentra lejos lejos de ), estar , inversamente, cu anto mayor sea ECM ( a m as alejado de , tambi en en media. ), se puede escribir como: Para un mejor c alculo de E (

ECM

= E

E +E = E E = E
2

+ E
2

+ sesgo = var

es la suma de dos cantidades no negativas, El Error Cuadr atico Medio de cualquier estimador una es la varianza del estimador y la otra es el cuadrado del sesgo (diferencia entre la esperanza del estimador y el par ametro a estimar) del estimador. Deducimos entonces que un alto valor de ) puede deberse a un valor alto de la varianza, a un alto valor del sesgo, o ambos a la vez. ECM ( En principio el problema (seleccionar estimadores) visto de manera supercial parece bastante ) de entre sencillo; esto es, seleccionar, como mejor estimador de , el que tenga menor ECM ( todos los estimadores posibles y factibles de . Sin embargo, un estimador puede tener un Error Cuadr atico Medio m nimo para algunos valores de , mientras que otro estimador tendr a la misma

52

3.2 Propiedades de los estimadores propiedad, pero para otros valores de . EJEMPLO 3.1

DE PARAMETROS 3 ESTIMACION

Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E [Xi ] = y var(Xi ) = 2 , y consideremos los estimadores siguientes para : 1 = 1 n 2 = Entonces, 1 ECM 1 1 + sesgo = var = Mientras que 2 ECM 2 2 + sesgo = var
2 2 n

Xi
i=1 n

1 n+1

Xi
i=1

2 n

n n = var 1 + n+1 n+1 n2 2 2 = + (n + 1)2 n (n + 1)2 1 = n 2 + 2 2 (n + 1) Para un tama no de muestra n = 10 y 2 = 100, tendr amos 1 ECM 2 ECM = 10 = 1000 + 2 121

1 y se cumplir a que para > 210 que ECM 2 < ECM 1 . < 210 que ECM

2 ; mientras que para que para < ECM

Sin embargo, a partir del Error Cuadr atico Medio construiremos una buena parte de las propiedades que es razonable exigir a un estimador para ser considerado como bueno. sea m Para que ECM nimo es necesario que los dos sumandos sean m nimos. El sesgo de ser a m nimo cuando valga 0, los cual no lleva a la primera propiedad. 53

3.2 Propiedades de los estimadores

DE PARAMETROS 3 ESTIMACION

es un estimador insesgado del par Denici on 3.2. Se dice que un estimador ametro , si para ] = . De este modo la distribuci todos los posibles valores de se cumple que E [ on en el muestreo se encuentra centrada alrededor de y ECM ( ) = var( ). de es un estimador insesgado de (media poblacional); mientras que la cuasiLa media muestral X
2 2 varianza muestral Sn , la varianza 1 es un estimador insesgado de la varianza poblacional , no as 2 muestral Sn .

Es razonable esperar que un buen estimador de un par ametro sea cada vez mejor conforme crece el tama no de la muestra. Esto es conforme la informaci on en una muestra se vuelve m as completa, la distribuci on de muestreo de un buen estimador se encuentra cada vez m as concentrada alrededor del p arametro . Se tendr a una mejor estimaci on de si se base en 30 observaciones que si lo hace s olo con 5. el estimador de un par 1 , 2 , . . . , n una sucesi Denici on 3.3. Sea ametro , y sea on de esti con base a muestras de tama madores que representan a no 1, 2, . . . , n, respectivamente. Se dice es un estimador consistente para si: que
n

| = 1 l m p |

(15)

para todos los valores de y > 0 o de manera equivalente


n

=0 l m E

(16)

| = 1 para todo constituye lo que se denomina convergencia El requisito de que l m P |


n

en probabilidad. Es decir, si un estimador es consistente, converge en propabilidad al valor del par ametro que est a intentando estimar conforme el tama no de la muestra crece. EJEMPLO 3.2 , es un estimador consistenta para , es decir: La media muestral X
n

| = 1 l m P |X

Demostraci on. n E X n var X 54 = 2 = n

3.2 Propiedades de los estimadores Seg un el Teorema de Tchebyshe P Tomemos k =


n ,

DE PARAMETROS 3 ESTIMACION

| > k |X

1 k2

entonces | > P |X | > l m P |X


n

2 2 n = 0

Por tanto se concluye que


n

| < = 1 l m P |X

es consistente. Es decir, X se dice que es eciente para el par Denici on 3.4. Un estimador ametro , si entre todos los posibles estimadores insesgados que pueden obtenerse para es el que tenga la menor varianza si posible. Es decir, ) = min{var( s )} var( s es la familia de estimadores insesgados para . donde 1 y 2 son estimadores de , 1 ser 1 ) En otras palabras, si a eciente siempre y cuando var( 2 ). Si son sesgados se utiliza el Error Cuadr var( atico Medio. Esta propiedad exige que el estimador que se utilice genere estimaciones parecidas para las diferentes muestras que puedan obtenerse de la poblaci on. de un par Denici on 3.5. Un estimador ametro se dice que es un estimador suciente cuando utiliza toda la informaci on contenida en la muestra. En otras palabras, se dice que un estimador es suciente, si la distribuci , se on conjunta de la muestra aleatoria (X1 , X2 , . . . , Xn ) dado encuentra libre de (no depende de ). Es decir, ; ) = h( ; )g (X1 , X2 , . . . , Xn ) f (X1 , X2 , . . . , Xn / donde g (X1 , X2 , . . . , Xn ) no depende de . (18) (17)

55

3.3 Cota para la varianza de un estimador

DE PARAMETROS 3 ESTIMACION

3.3.

Cota para la varianza de un estimador

Sea una poblaci on denida por la funci on de densidad f (X ; ) que contiene al par ametro descono. cido, estimado mediante, La funci on de verosimilitud es simplemente la distribuci on conjunta de la muestra

L(X1 , X2 , . . . , Xn ; ) = f (X1 , X2 , . . . , Xn ; ) con lo que resulta que: sesgo var ln L(X1 , X2 , . . . , Xn ; ) E 1+


2

(19)

La expresi on (19) es conocida como la cota de Cramer-Rao, que indica que la varianza de un estimador, para un tama no de muestra dado, no puede ser menor que esta. Si la muestra con la que se trabaja es aleatoria sucede que: L(X1 , X2 , . . . , Xn ; ) = f (X ; )n Entonces, ln L(X1 , X2 , . . . , Xn ; ) = n ln f (X ; ) Por lo que la cota de Cramer es: sesgo var ln f (X ; ) nE 1+
2

(20)

Si el estimado fuese insesgado, la cota se convierte en: var 1 ln f (X ; ) nE


2

(21)

Puede apreciarse que la cota depende u nicamente del tama no muestral y de la funci on de densidad. La cota tambi en podr a utilizarse para saber si un estimador es eciente (si la cota coincide con la varianza del estimador). 56

todos de estimacio n 3.4 Me

DE PARAMETROS 3 ESTIMACION

3.4.

M etodos de estimaci on

Anteriormente hemos visto las propiedades deseables de un buen estimador. Ahora nos concentraremos en la forma de c omo obtener esos estimadores, de manera que tengan buenas propiedades. Trataremos u nicamente con los m as utilizados y que cumplen la mayor a de las propieades. 3.4.1. M axima verosimilitud

El m etodo de m axima verosimilitud se fundamenta en el supuesto intuitivo siguiente: de varios sucesos que pueden tener lugar, admitimos que aparecer a el m as probable, o si ha aparecido uno concreto ser a razonable suponer que, entre todos los posibles, era el m as probable. El m etodo consiste en lo siguiente: Tenemos una variable aleatoria X , con funci on de densidad f (X ; ), siendo el par ametro desconocido que se desea estimar. Seleccionar una muestra aleatoria de tama no n, (X1 , X2 , . . . , Xn ) de dicha poblaci on. Construimos la funci on de verosimilitud de la muestra, que no es m as que la funci on de densidad conjunta de la muestra. L(X1 , X2 , . . . , Xn ; ) del par Para la selecci on del estimador ametro , de entre todos los posibles valores que de manera que: puede tomar, se toma ) = max{L(X1 , X2 , . . . , Xn ; )} L(X1 , X2 , . . . , Xn ; ), Para encontrar el valor que maximiza la funci on conjunta de la muestra (el estimador se deriva con respecto al par ametro y se iguala a cero (se obtiene una ecuaci on con una ), ser inc ognita). La soluci on ( au nicamente una funci on que depende de los elementos en la muestra (y no del par ametro), ser a el estimador de m axima verosimilitud del par ametro, siempre y cuando se verique la condici on de m aximo. En la mayor a de los casos es m as conveniente trabajar con el logaritmo de la funci on conjunta, a dicho logaritmo se le da el nombre de funci on soporte. 57

todos de estimacio n 3.4 Me EJEMPLO 3.3

DE PARAMETROS 3 ESTIMACION

Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribuci on normal y 2 (X N (; 2 )) con funci on de densidad, 2 2 Determine los estimadores de y 2 por el m etodo de m axima verosimilitud. Soluci on. La funci on de verosimilitud es
n

f (X ; , 2 ) =

exp

(x )2 2 2

L(X1 , X2 , . . . , Xn ; , ) =
i=1 n

f (Xi ; , 2 )
i=1

= = La funci on soporte es:

(Xi )2 exp 2 2 2 2 1
n n

1 2 2

exp
i=1

(Xi )2 2 2

n 1 n ln L(X1 , X2 , . . . , Xn ; , ) = ln(2) ln( 2 ) 2 2 2 2


2

(Xi )2
i=1

Para obtener el estimador de se deriva con respecto a y se iguala a 0, 1 ln L(X1 , X2 , . . . , Xn ; , 2 ) = 2 2 . lo cual implica que =X Mientras que el estimador de 2 ln L(X1 , X2 , . . . , Xn ; , 2 ) n 1 1 = 2+ 2 2 2( 2 )2 = 0 1 = n
n n n

( Xi ) = 0
i=1

(Xi )2
i=1

de donde deducimos que

(Xi )2
i=1

1 = n
2

)2 ( Xi X
i=1

El m etodo de m axima verosimilitud, selecciona como estimador a aquel valor del par ametro que tiene la propiedad de maximizar el valor de la probabilidad de la muestra observada. Consiste m as bien en encontrar el valor del par ametro que maximiza la funci on de verosimilitud. 58

todos de estimacio n 3.4 Me 3.4.2.

DE PARAMETROS 3 ESTIMACION

Propiedades de los estimadores de m axima verosimilitud

Insesgadez: Los estimadores son por lo general sesgados, sin embargo, son insesgados asint oticamente, es es un estimador por m decir, si axima verosimilitud del par ametro , entonces: = l m E

Consistencia: Bajo condiciones generales, los estimadores son consistentes. Eciencia: Si existe un estimador cuya varianza es igual a la cota de Cramer-Rao, entonces es el obtenido por m axima verosimilitud. No todo estimador de m axima verosimilitud es eciente, sin embargo, si existe un estimador eciente es el obtenido por m axima verosimilitud. Normalidad Los estimadores son asint oticamente normales con esperanza y asint oticamente ecientes N l m ; n Suciencia (m Si T es un estimador suciente de , el estimador axima verosimilitud) es funci on de T , = g (T ). Invarianza es un estimador de , g ( ) ser Si a un estimador de g (). Los estimadores son invariantes ante transformaciones de . 1 2 ln L(X1 , X1 , . . . , Xn ; ) E

59

todos de estimacio n 3.4 Me 3.4.3. M etodo de los momentos

DE PARAMETROS 3 ESTIMACION

Quiz a el m etodo m as antiguo para la estimaci on de par ametros es el m etodo de los momentos. Este consiste en igualar los momentos apropiados de la distribuci on de la poblaci on con los correspondientes momentos en la muestra para estimar el par ametro desconocido. Los momentos son con respecto al origen. Si ak es el momento de orden k con respecto al origen el la muestra y k lo es en la poblaci on. Entonces: E [ak ] = k ak es un estimador insesgado de k . El procedimiento consiste en: Seleccionar una muestra aleatoria de tama no n, (X1 , X2 , . . . , Xn ). Calculamos los primeros k momentos muestrales con respecto al origen dependiendo del n umero k de par ametros a estimar, 1 ak = n
n

(22)

Xik
i=1

Igualamos cada momento muestral con su correspondiente momento poblacional obteniendo as , un sistema de ecuaciones con k inc ognitas (k variables) muchos de ellos son lineales. a1 = 1 a2 = 2 . . . . . . ak = k La soluci on del sistema proporciona los estimadores de los par ametros 1 = f1 (a1 , a2 , . . . , ak ) 2 = f2 (a1 , a2 , . . . , ak ) . . . . . . k = fk (a1 , a2 , . . . , ak ) 60

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o En condiciones generales, los estimadores obtenidos son consistentes. Pueden tener otras propiedades pero no se cumplir an siempre. EJEMPLO 3.4 En una poblaci on N (; 2 ) determinar los estimadores para y 2 por el m etodo de los momentos. Soluci on. Para una muestra aleatoria de tama no n (X1 , X2 , . . . , Xn ), a1 = a2 = Mientras que en la poblaci on 1 = 2 = 2 + 2 El esistema es: = X n 1 2 2 + = Xi2 n i=1 La soluci on es: = X n 1 2 2 X2 X = n i=1 i 1 = n = S
2 n

1 n 1 n

Xi = X
i=1 n

Xi2
i=1

)2 (Xi X
i=1

Es decir, las estimaciones para y 2 , son respectivamente la media muestral y la varianza muestral.

3.5.

Estimaci on por Intervalos de conanza en una poblaci on

, a ciencia Cuando se toma una muestra aleatoria se obtiene un u nico valor para el estimador se encuentra cierta si desconocemos totalmente el valor del par ametro , no podemos saber si 61

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o cerca o lejos de (debido a la aleatoriedad de la muestra). Otra forma de estimar un par ametro es mediante un intervalo de valores, en el cual conamos que se encuentre el verdadero valor del par ametro . Dicho intervalo recibe el nombre de intervalo de conanza. El problema que abordaremos de aqu en adelante es que se desea estimar un par ametro poblacional , para esto debemos encontrar n ) y sup(X; ) tales mediante el estimador umeros reales inf (X; que: ), sup(X; ) inf (X; ocurra con probabilidada alta, digamos 1 . Es decir, ) sup(X; ) = 1 P inf (X; (24) (23)

) y sup(X; ) dependan u y de valores que puedan conocerse. y donde inf (X; nicamente de a 1 se le da el nombre de nivel de conanza. Mientras que a nivel de signicancia. T engase en cuenta que, el intervalo de conanza es un intervalo aleatorio, pues depende de los elementos seleccionados en la muestra. El intervalo de conanza no representa la probabilidad de que el par ametro se encuentre en el intervalo es igual a 1 , pues: ser a un par ametro desconocido, lo que impide vericar la armaci on. ) sup(X; ) las variables aleatorias son inf (X; ) y sup(X; ) y no el En P inf (X; par ametro . ), sup(X; ) incluya el verdadero 1 es la probabilidad que el intervalo aleatorio inf (X; valor del par ametro antes de extraer la muestra. Una vez seleccionada la muestra, la probabilidad de que el par ametro se encuentre en el intervalo es 1 o 0, dependiendo de si el par ametro se encuentra en el intervalo o no de la muestra seleccionada. En esta situaci on no se puede hablar de probabilidad del intervalo al nivel 1 sino de la conanza puesto que, una vez extra da la muestra, la probabilidad ser a1o 0, y no la inicial 1 que se transforma en conanza. El concepto de conanza tambi en puede interpretarse como: si se repitiera el experimento muestral (se tomar an varias muestras) muchas veces, en el 100(1 ) % de los casos se conar a que el par ametro pertenecer a al intervalo. 62

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o ) como sup(X; ), en Los intervalos anteriores son bilaterales, pues se especica tanto inf (X; ) = o sup(X; ) = , se habla algunos casos el intervalo se deja abierto dejando a inf (X; en ese caso de intervalos unilaterales: ) P inf (X; ) P sup(X; = 1 = 1

La interpretaci on de dicho intervalos es la misma al del caso bilateral. 3.5.1. Intervalo de conanza para la media

Supongamos que la caracter stica de inter es X sigue una distribuci on N (; 2 ), siendo u nicamente desconocido el valor de . De dicha poblaci on seleccionamos una muestra aleatoria de tama no n. Lo que deseamos es encontrar valores reales, digamos k1 y k2 , tales que P (k1 k2 ) = 1 Puesto que: si X N (; 2 ) 2 N ; X n 1. Suponiendo que la varianza poblacional sea conocida. De este modo la variable aleatoria, Z= X N (0; 1) n

Tomenos Z y Z1 como los valores tabulares de la distribuci on N (0; 1) tales que entre 2 2 ellos se encuentra contenida un area igual a 1 . Como la distribuci on N (0; 1) es sim etrica resulta que Z1 = Z (valor que deja por encima de el un area igual a ). 2 2 2 De este modo el intervalo buscado ser a sim etrico y a la vez tendr a longitud m nima, resulta entonces;

63

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o

Z Z P Z 2 2 P P P Z 2 X
n

= 1 = 1 = 1 = 1

Z 2

Z X n 2 + X Z X n 2

Z n 2 Z n 2

Con lo que los valores buscados son: Z k1 = X n 2 + Z k2 = X n 2 Por lo que el intervalo de conanza para la media poblacional es: + Z ,X Z X 2 n n 2 2. En el caso de que la varianza poblacional 2 sea desconocida, para encontrar el intervalo de conanza para no podemos proseguir como en el caso anterior, sin embargo, se sabe que la variable aleatoria, T = X tn1 Sn1 n

(25)

La distribuci on t de Student ya se encuentra tabulada, por lo que para encontrar el intervalo de conanza procedemos como en el caso anterior, sustituimos la distribuci on N (0; 1) por la t de Student para n 1 grados de libertad.
2 Tomemos tn rea igual a 1 como el valor que deja por encima de el un a 2

en la distribuci on

t de Student con n 1 grados de libertad (por consiguiente tn1 ser a el valor que deje por debajo esa misma area).

64

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o Resulta que:
2 2 P tn 1 T tn1

= 1 = 1 = 1 = 1

P P P

2 tn 1

X
Sn1 n

2 tn 1

Sn1 2 tn X n 1 n1 2 + S tn1 X X n

Sn1 2 tn n 1 Sn1 2 tn n 1

Por lo que el intervalo de conanza para la media poblacional (cuando la varianza poblacional es desconocida) es:
n1 2 n1 2 S +S X tn1 , X tn1 n n

En caso de que la poblaci on no fuese normal, para encontrar el intervalo de conanza se usar a la desigualdad de Tchebysshe, el intervalo ser a s olo aproximado en cuanto a conanza (la conanza ser a mayor a la propuesta). Sin embargo, s olo puede usarse cuando 2 es conocida. 3.5.2. Intervalo de conanza para una proproci on

Si X B (p) y se toman muestras aleatorias de tama no n se tendr a por lo visto anteriormente que: Bin(n; p) y por el Teorema de Moivre N p; p(1 p) n

Puesto que p no se conocer a (pues de lo contrario no habr a nada que hacer), se estimar a mediante una muestra, al estandarizar para esa muestra en particular se tendr a que; Z= p p p (1 p ) n

donde p es el valor de la proporci on muestral para esa muestra en particular.

65

n por Intervalos de confianza en n DE PARAMETROS 3.5 Estimacio 3 una ESTIMACI poblaci ON o El intervalo de conanza ser a entonces (utilizando una l ogica similar para el caso de la media). P Z Z Z = 1 2 2 p p = 1 Z P Z 2 2
p (1p ) n

P P p

Z 2

p (1 p ) p p Z 2 n p (1 p ) n

p (1 p ) n p (1 p ) n

= 1 = 1

p (1 p ) Z pp + 2 n

Por lo que el intervalo de conanza es: p p Z 2 p (1 p ) ,p + Z 2 n p (1 p ) n

3.5.3.

Intervalo de conanza para la varianza

Supongamos que la caracter stica de inter es X sigue una distribuci on N (; 2 ). De dicha poblaci on seleccionamos una muestra aleatoria de tama no n. Se sabe por lo visto que antes, que la variable aleatoria, 2 =
2 (n 1)Sn 1 2 n1 2

(26)

La distribuci on Chi-cuadrado no es sim etrica, por lo que el intervalo m as peque no que se puede encontrar es aquel donde se reparte un area igual a
2 2

para valores que sean mayores o menores al

2 de la ditribuci on, es decir, sean 2 on Chi-cuadrado 1 y los valores tabulares de la distribuci

(para n 1 grados de libertad) que dejan comprendida un area igual 1 entre ellos. De este modo el intervalo puede obtenerse por;
2 2 P 2 1
2 2

= 1 = 1 = 1

P P

2 1
2

2 (n 1)Sn 1 2 2 2

2 2 (n 1)Sn (n 1)Sn 1 1 2 2 2 1
2 2

66

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION Con lo que el intervalo de conanza para la varianza poblacional 2 es:
2 2 (n 1)Sn 1 (n 1)Sn1 , 2 2 1
2 2

3.6.
3.6.1.

Intervalo de conanza en dos poblaciones


Intervalo de conanza para la diferencia de dos medias, cuando las muestras son independientes

2 Si X N (1 ; 1 ) y extraemos una muestra aleatoria de tama no n1 , se tendr a que,

N X

1 ;

2 1 n1

2 ) y extraemos una muestra aleatoria de tama no n2 independiente de la primera Si Y N (2 ; 2

muestra, se tendr a que: N Y y por consiguiente Y N X


2 2 conocidas. y 2 Primer caso: 1 2 2 2 ; n2 2 1 2 + 2 n1 n2

1 2 ;

En base a los resultados previos, sabemos que la variable aleatoria Y (1 2 ) X Z= N (0; 1) 2 2 1 2 + n2 n1

(27)

Basando en la misma l ogica aplicada para el caso de una poblaci on, resulta que el intervalo, P Z Z Z 2 2 Y (1 2 ) X P Z Z 2 2 2 2 1 2 + n2 n1 2 2 Y (1 2 ) Z 1 + 2 X 2 n1 n2 2 2 Y + Z 1 + 2 ( 1 2 ) X 2 n1 n2 = 1 = 1

P Z 2 Y Z P X 2

2 1 2 + 2 n1 n2 2 2 1 2 + n1 n2

= 1

= 1

67

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION Con lo que el intervalo de conanza para la diferencia de medias es: 2 2 2 2 Y Z 1 + 2 , X Y + Z 1 + 2 1 2 X 2 2 n1 n2 n1 n2
2 2 desconocidas pero iguales. y 2 Segundo caso: 1

De los resultados previos sabemos que la variable aleatoria : T =


(n1 n2 ) n1 +n2

Y ( 1 2 ) X
2 +(n2 1)Sn 1 1 2 1

2 (n1 1)Sn

tn1 +n2 2

(28)

(n1 +n2 2)

Haciendo
2 Sp = 2 2 (n1 1)Sn + (n2 1)Sn 1 1 2 1 n1 + n2 2

resulta que, T = El intervalo de conanza es:

Y ( 1 2 ) X Sp
1 n1

1 n2

tn1 +n2 2

2 P tn 1 +n2 2

2 2 P tn T tn = 1 1 +n2 2 1 +n2 2 Y (1 2 ) X 2 = 1 tn 1 +n2 2 1 1 Sp n1 + n2

P P

1 1 2 Y (1 2 ) Sp + tn X n1 n2 1 +n2 2 2 Y Sp 1 + 1 tn Y + Sp X 1 2 X n1 n2 1 +n2 2 Sp

1 1 2 + tn n1 n2 1 +n2 2 1 1 2 + tn n1 n2 1 +n2 2

= 1 = 1

Con lo que el intervalo de conanza para la diferencia de medias es: 1 2 Y Sp X 1 1 2 Y + Sp + tn , X n1 n2 1 +n2 2 1 1 2 + tn n1 n2 1 +n2 2

2 2 Tercer caso: 1 y 2 desconocidas y distintas.

En este caso la distribuci on de la variable aleatoria denida en la ecuaci on (27) depende de


2 1 2, 2

a esta distribuci on se le conoce con el nombre de Bebrens-Fisher.

Existen diferentes soluciones: 68

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION


Soluci on debida Hsu.

Quien aproxima la distribuci on de (27) por una distribuci on t de Student con v = m n{n1 , n2 } 1 grados de libertad.
Soluci on de Welch.

Quien aproxima la distribuci on de (27) por una distribuci on t de Student con v = n1 + n2 2 grados de libertad. donde es la parte de entera de: [(n2 1)1 (n1 1)2 ]2 = 2 2 + (n1 1)2 (n2 1)1 con
2 Sn 1 = 1 1 n1

(29)

2 Sn 2 = 2 1 n2

Autor desconocido.

Quien aproxima la distribuci on de (27) por una distribuci on t de Student con v grados de libertad. donde v es la parte entera de:
2 Sn 1 1 n1

+ +

2 Sn

v=

2 1 n2

2 Sn 1 1 n1

!2

2 Sn 2 1 n2

!2

(30)

n1 1

n2 1

La soluci on consiste entonces en denir la nueva variable aleatoria, T = Y ( 1 2 ) X


2 Sn 1 1 n1

2 Sn

tv

(31)

2 1 n2

los grados de libertad depender an de cualquiera de las soluciones elegidas anteriores. Por lo

69

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION que el intervalo de conanza ser a:

P tv2 T tv2 Y (1 2 ) X P tv2 tv2 2 2 Sn Sn 2 1 1 1 + n2 n1 2 2 2 2 Sn1 1 Sn2 1 2 Y (1 2 ) Sn1 1 + Sn2 1 tv2 + tv X P n1 n2 n1 n2 2 2 2 2 S S S S n1 1 n1 1 Y + tv2 Y tv2 + n2 1 1 2 ) X + n2 1 P X n1 n2 n1 n2

= 1 = 1

= 1

= 1

Con lo que el intervalo de conanza para la diferencia de medias es: 2 2 2 2 Y tv2 Sn1 1 + Sn2 1 , X Y + tv2 Sn1 1 + Sn2 1 1 2 X n1 n2 n1 n2 Cuarto caso: cuando n1 , n2 > 30 En este caso la variable aleatoria, Z= Y (1 2 ) X
2 Sn 1 1 n1

2 Sn

N (0; 1)

(32)

2 1 n2

Puede vericarse f acilmente que el intervalo de conanza resultante es: 2 2 2 2 Y + Z Sn1 1 + Sn2 1 Y Z Sn1 1 + Sn2 1 , X 1 2 X 2 2 n1 n2 n1 n2 Resulta que como ya se coment o anteriormente, para muestras grandes
2 2 Sn Sn y 1 1 1 2 2 Sn Sn y 2 1 2

n1 1 n1 n2 1 n2

por lo que pueden combinarse para el c alculo del intervalo de conanza.

70

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION 3.6.2. Intervalo de conanza para la diferencia de dos medias, cuando las muestras son dependientes Cuando las muestras son dependientes entre si, sucede que: Y = var X + var Y 2var X ; Y var X con lo que si consideramos las muestras como independientes y nos olvidamos de la covarianza, la variable, Z= Y ( 1 2 ) X Y var X

; Y . puede ser equivocadamente grande o peque na dependiendo de la magnitud y signo de cov X La soluci on para esto es denir una nueva variable D = X Y y utilizar la varianza de la nueva Y variable como estimaci on directa de var X (para esto ambas muestran deben tener igual

n umero de elementos, es decir, los tama nos deben coincider). En este caso asumiendo normalidad en ambas poblaciones, se tendr a que D tambi en es normal con media D = 1 2 y varianza
2 Y . = var X D

De este modo construir un intervalo de conanza para 1 2 ser a equivalente a construirlo para D . Es de mencionar que para que tenga sentido D = X Y , se trabajan con observaciones de un mismo individuo o elemento (por lo regular X denota las observaciones antes de realizar o aplicar alg un tratamiento, mientras que Y es desp ues de aplicarlo). Deniendo la variable aleatoria, T = D D
SD n

tn1

(33)

Siguiendo el procedimiento descrito para encontrar el intervalo de conanza para la media cuando la varianza es desconocida se tiene que el intervalo es:
2 2 P tn 1 T tn1

= 1 = 1 = 1 = 1

P P P

2 tn 1

D D
SD n

2 tn 1

SD 2 D tn D n 1 SD + D t 2 D D n n1 71

S 2 D tn n 1 S 2 D tn n 1

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION El intervalo de conanza resultante es: SD SD 2 2 D D tn 1 , D + tn1 n n donde = 1 D n 3.6.3.
n n

Di
i=1

2 SD =

1 n1

Di D
i=1

Intervalo de conanza para la diferencia de dos proporciones

En la primera muestra de tama no n1 las observaciones (X1 , X2 , . . . , Xn1 ), son variables aleatorias con distribuci on de Bernoulli de par ametro p1 , es decir, Xi B ( p1 ) y sea p 1 la proporci on estimada en ella. En la segunda muestra de tama no n2 las observaciones (Y1 , Y2 , . . . , Yn2 ) (la cual es totalmente independiente de la primera), Yi B (p2 ) y sea p 2 la proporci on estimada en ella. Cuando ambos tama nos de muestras son grandes (n1 , n2 > 30), se tiene que la diferencia de proporciones sigue una distribuci on normal tal y como se indic o enla ecuaci on (12). Si denimos la variable, ( p1 p 2 ) (p1 p2 ) p 1 (1 p 1 ) p 2 (1 p 2 ) + n1 n2 El intervalo se obtiene de la siguiente manera; Z= P Z Z Z = 1 2 2 ( p1 p 2 ) (p1 p2 ) = 1 Z 2 p 1 (1 p 1 ) p 2 (1 p 2 ) + n1 n2 (34)

P Z 2

El intervalo de conanza ser a entonces: p 1 (1 p 1 ) p 2 (1 p 2 ) (p1 p2 ) ( p1 p 2 ) Z + ; ( p1 p 2 ) + Z 2 2 n1 n2

p 1 (1 p 1 ) p 2 (1 p 2 ) + n1 n2

72

DE PARAMETROS 3.6 Intervalo de confianza en dos poblaciones 3 ESTIMACION 3.6.4. Intervalo para el cociente de dos varianzas

2 ) y (Y1 , Y2 , . . . , Yn2 ) de Dada una muestra aleatoria (X1 , X2 , . . . , Xn1 ) de una poblaci on N (1 ; 1 2 ), ambas muestras independientes entre si. una poblaci on N (2 ; 2

Sabemos seg un lo visto anteriormente que:


2 (n1 1)Sn 1 1 2 n1 1 2 1 2 (n2 1)Sn 2 1 2 n2 1 2 2

Si ambas muestras son independientes, est a claro que la variable aleatoria denida en la ecuaci on (13) sigue una distribuci on F de Snedecor con n1 1 y n2 1 grados de libertad; la variable aleatoria como se recordar a es:
2 Sn 1 1 2 1 F = 2 Sn 2 1 2 2 2 2 Sn 2 1 1 = 2 2 Sn 1 2 1

(35)

El intevalo de conanza se calcula de manera similar al del intervalo para una varianza, pero se usa la F de Snedecor en lugar de la 2 . Sean

Fn21 1,n2 1

Fn1 21,n2 1

(36)

los valores en la distribuci on F que dejan entre si un area igual a 1 . El interalo de conanza es (para
2 1 ): 2 2

P Fn21 1,n2 1 F Fn1 21,n2 1

= 1 = 1 = 1 = 1

P P

Fn21 1,n2 1 1 Fn1 21,n2 1


1

2 2 Sn 2 1 1 1 2 F n1 1,n2 1 2 2 Sn 1 2 1 2 2 Sn 1 1 2 1 2 2 Sn1 1 2 Fn21 1,n2 1

2 Sn 1 1 1 2 1 2 Sn2 1 F

n1 1,n2 1

2 2 Sn 1 1 2 21 2 2 Sn2 F

n1 1,n2 1

73

3.7 Problemas propuestos Por lo que el intervalo de conanza ser a:


2 2 Sn 1 1 1 1 2 2 1 2 Sn2 1 F 2
2 2 2 ): 1

DE PARAMETROS 3 ESTIMACION

n1 1,n2 1

2 Sn 1 1 1 2 Sn2 1 F 2

n1 1,n2 1

El interalo de conanza es (para

De una manera muy similar al caso anterior, resulta que el intervalo de conanza es:
2 2 2 Sn Sn 2 1 2 1 2 1 2 2 F , F n1 1,n2 1 n1 1,n2 1 2 2 2 1 Sn S n1 1 1 1

3.7.
3.7.1.

Problemas propuestos
Estimaci on puntual

1. En un experimento binomial se observan x exitos en n ensayos independientes. Se proponen los siguientes estimadores para la proporci on poblacional p: T1 = 1 x n y T2 = 1 (x + 1) n+1

Obtener y comparar los errores cuadr aticos medios para ambos. 2. Sea X1 , X2 , X3 y X4 una muestra aleatoria de tama no cuatro de una poblaci on cuya distribuci on es exponencial de par ametro desconocido. De los siguientes estimadores, cu ales son estimadores insesgados de ? T1 = T2 T3 1 1 (X1 + X2 ) + (X3 + X4 ) 6 3 1 = ( X1 + 2 X2 + 3 X3 + 4 X4 ) 5 1 = ( X1 + X2 + X3 + X4 ) 4

3. Demostrar que los estimadores T1 y T2 , en el problema 1, son estimadores consistente del par ametro binomial p. 4. De entre los estimadores de dados en el problema 2, determinar cu al es el que tiene la varianza m as peque na. 74

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

5. Mediante el uso de la cota inferior de Cramer-Rao determinar la varianza del estimador insesgado de varianza m nima de cuando se muestrea una poblaci on cuya distribuci on es exponencial con funci on de densidad: 1 x f (x; ) = exp 6. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una poblaci on cuya distribuci on es gamma con par ametro de forma desconocido. Demostrar que el estimador de m axima verosimilitud para el par ametro de escala es: T = 1 n
n

Xi
i=1

7. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una poblaci on cuya distribuci on es poisson con par ametro . Obtener el estimador de m axima verosimilitud de . 8. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una poblaci on cuya distribuci on es exponencial con par ametro de escala . Obtener el estimador de m axima verosimilitud de y demostrar que es un estimador suciente para . 9. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria de una poblaci on cuya distribuci on es Rayleigh, con densidad f (x; ) =
x exp 2 x 2 2
2

10. Dada una poblaci on de distribuida normalmente con media desconocida y varianza igual a 25, se extraen una muestra aleatoria de tama no 3 y se consideran los siguientes estimadores para la media: T1 = 0.65X1 + 0.25X2 + 0.1X3 T2 = 2X3 X1 ) 1 ( X1 + X2 + X3 ) T3 = 3 Estudie cu al de los tres estimadores es el mejor desde el punto de vista del sesgo y la eciencia. 11. Sea la variable aleatoria X que sigue la distribuci on de Pascal: f (x; p) = p(1 p)x ; x = 0, 1, 2 . . . Buscar un estimador de p por el m etodo de los momentos. 75

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

12. Obtenga un estimador, por el m etodo de los momentos, para el par ametro a de la distribuci on que tiene por funci on de densidad. f ( x ; a) = 2(a x) ;0 < x < a a2

13. La funci on de densidad de una variable aleatoria es: f (x; ) = ( + 1)x ; 0 < x < 1 Encuentre el estimador de utilizando: a ) El m etodo de los momentos. b ) El m etodo de m axima verosimilitud. c ) Cu al ser a la estimaci on de m axima verosimilitud de la esperanza de esta distribuci on? y la del m etodo de los momentos? 14. Sea X una variable aleatoria con funci on de probabilidad f (x; ) = (1 )x1 ; 0 < x < 1; x = 0, 1, 2, . . . Encuentre el estimador del par ametro por el m etodo de m axima verosimilitud. 15. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria simple de tama no n de la distribuci on con funci on de densidad. f (x; ) = exp( x); x ; < < a ) Demostrar que la esperanza de esta distribuci on es + 1. b ) Calcular el estimador de por el m etodo de los momentos. 16. Sup ongase que se est an probando bombillas de dos tipos: normales y de larga duraci on. El tiempo de vida de una bombilla normal sigue una distribuci on exponencial de media y el tiempo de vida de una bombilla de larga duraci on sigue una distribuci on exponencial de media 4. La compa n a que las produce quiere medir los tiempos de vida de dos bombillas normales (X1 , X2 ) y de dos de larga duraci on (Y1 , Y2 ). Escribir la funci on de verosimilitud para basada en estas 4 bombillas. Calcular el estimador de por el m etodo de la m axima verosimilitud. 76

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

17. De entre 50000 n umeros de loter a instant anea, la proporci on de tickets ganadores es p (desconocida). Queremos estimar p. Para ello cada d a, durante 20 d as, compramos tickets de loter a, uno a uno, hasta que nos toca un ticket ganador. El n umero de tickets que hemos tenido que comprar cada uno de los 20 d as es: 2 2 18 1 24 1 3 16 19 3 6 34 5 8 5 26 4 10

1 1

18. Sea X1 , X2 , X3 , . . . , Xn una muestra aleatoria simple de tama no n de la distribuci on con funci on de densidad. f (x; ) = Para la que E [x] = 2; var(x) = 4 a ) Encontrar el estimador de m axima verosimilitud de y estudiar si es insesgado. b ) Encontrar el estimado de m axima verosimilitud de var(X ) y demostrar que es sesgado. c ) Encontrar un estimador insesgado para var(X ). 19. Sea X una variable aleatoria cuya distribuci on es uniforme en el intervalo [0, a]. Calcular los estimadores de a por el m etodo de los momentos y de m axima verosimilitud. 3.7.2. Estimaci on por intervalos xexp x ; x, > 0

1. Se tiene una muestra aleatoria simple de 9 observaciones, proveniente de una distribuci on normal, con media desconocida pero con varianza 2 conocida e igual a 4: 8.5; 7.4; 11.2; 9.3; 10.0; 8.8; 7.1; 10.1; 8.3 a ) Calcular un intervalo de conanza al 95 % para . b ) Si 2 es ahora desconocida, calcular un intervalo de conanza al 95 % para . c ) Comparar el intervalo obtenido en los dos incisos anteriores. Se sab a a priori si uno de ellos deb a tener mayor tama no que el otro? d ) En general, sugerir al menos dos maneras en las que la longitud de los intervalos de conanza puede ser reducida. 77

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

2. La C amara de Comercio de una ciudad se encuentra interesada en estimar la cantidad promedio de dinero que gasta la gente que asiste a convenciones, calculando comidas, alojamiento y entretenimiento por d a. De las distintas convenciones que se llevan a cabo en la ciudad, se seleccionaron 16 personas y se les pregunt o la cantidad de dinero que gastaban por d a. Se obtuvo la siguiente informaci on en d olares: 150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero gastada en un d a es una variable distribuida normal, obtener los intervalos de conanza estimados del 90 %, 95 % y 99 % para la cantidad promedio real. 3. Un fabricante de bras sint eticas desea estimar la tensi on de ruptura media de una bra. Dise na un experimento en que se observan las tensiones de ruptura, en libras de 16 hilos del proceso seleccionados aleatoriamente. Las tensiones son 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9, 21.1, 20.4, 20.6, 19.7, 19.6, 19.6, 20.3 y 20.7. Sup ongase que la tensi on de ruptura de una bra se encuentra modelada por una distribuci on normal con desviaci on est andar de 0.45 libras. Construir un intervalo de conanza estimado para el valor real de la tensi on de ruptura promedio de la bra en el caso que la conanza sea del 90 %, 95 % y 99 %. 4. Una muestra aleatoria de los salarios por hora para nueve mec anicos de autom oviles proporcion o los siguientes datos: 10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5. Bajo la suposici on que el muestreo se lleva a cabo sobre una poblaci on distribuida normalmente, construir los intervalos de conanza estimados del 90 %, 95 % y 99 % para los salarios por hora promedio para todos los mec anicos. Interpretar los resultados. 5. Dos universidades nanciadas por el gobierno tienen m etodos distintos para inscribir a sus alumnos a principios de cada semestre. Las dos desean comparar el tiempo promedio que les toma a sus estudiantes completar el tr amite de inscripci on. En cada universidad se anotaron los tiempos de inscripci on para 100 alumnos seleccionados al azar. Las medias y las desviaciones est andares muestrales son las siguientes: 1 = 50.2 X S1 = 4.8 2 = 52.9 X S2 = 5.4

Si se supone que el muestreo se llev o a cabo sobre dos poblaciones distribuidas normalmente 78

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

e independientes, obtener los intervalos de conanza estimados del 90 %, 95 % y 99 % para la diferencia entre las medias del tiempo de inscripci on para las dos universidades. Con base a esta evidencia. 6. Cierto metal se produce, por lo com un, mediante un proceso est andar. Se desarrolla un nuevo proceso en que se a nade una aleaci on a la producci on de metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 espec menes y cada uno de estos se somete a una tensi on hasta que se rompe. La siguiente tabla muestra las tensiones de ruptura de los espec menes en kilogramos por cent metro cuadrado: Proceso est andar Proceso nuevo 428 462 419 448 458 435 439 465 441 429 456 472 463 453 429 459 438 427 445 468 441 452 463 447

Si se supone que el muestreo se llev o a cabo sobre dos distribuciones normales e independientes con varianzas iguales, obtener los intervalos de conanza estimados del 90 %, 95 % y 99 % para la diferencia de medias (est andar - nuevo). 7. Se espera tener una cierta variaci on aleatoria nominal en el espesor de las l aminas de pl astico que una m aquina produce. Para determinar cu ando la variaci on en el espesor se encuentra dentro de ciertos l mites, cada d a se seleccionan de forma aleatoria 12 l aminas de pl astico y se mide en mil metros su espesor. Los datos que se obtuvieron son los siguientes: 12.6, 11.9, 12.8, 12.3, 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se supone que el espesor es una variable aleatoria distribuida normal, obtener los intervalos de conanza estimados del 90 %, 95 % y 99 % para la varianza desconocida del espesor. Si no es aceptable una varianza mayor de 0.9 mm, existe alguna raz on para preocuparse con base en esta evidencia? 8. Una agencia estatal tiene la responsabilidad de vigilar la calidad del agua para la cr a de peces con nes comerciales. Esta agencia se encuentra interesada en comparar la variaci on de cierta sustancia t oxica en dos estuarios cuyas aguas se encuentran contaminadas por desperdicios industriales provenientes de una zona industrial cercana. En el primer estuario se seleccionan 11 muestras y en el segundo 8, las cuales se enviaron a un laboratorio para su an alisis. Las mediciones en ppm que se observaron en cada muestra se exponen en la siguiente tabla. 79

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

Estuario I Estuario II

10 11

10 8

12 9

13 7

9 10

8 8

12 8

12 10

10

14

Si se supone que el muestreo se hizo sobre dos poblaciones independientes distribuidas normales, obtener un intervalo de conanza estimado del 95 % para el cociente de las dos varianzas no conocidas
2 1 2. 2

9. La lista electoral nal en una elecci on reciente para senador, revel o que 1400 personas de un total de 2500 seleccionadas aleatoriamente, tienen preferencia por el candidato A con respecto al candidato B . a ) Obtener un intervalo de conanza unilateral inferior del 99 % para la verdadera proporci on de votantes a favor del candidato A. b ) Sup ongase que selecciona aleatoriamente una muestra de 225 personas con la misma proporci on muestral a favor del candidato A. Son los resultados diferentes a los del apartado anterior? 10. Se recibe un lote muy grande de art culos proveniente de un fabricante que asegura que el porcentaje de art culos defectuosos en la producci on es del 1 %. Al seleccionar una muestra aleatoria de 200 art culos y despu es de inspeccionarlos, se descubren 8 defectuosos. Obtener los intervalos de conanza aproximados del 90 %, 95 % y 99 % para la verdadera proporci on de art culos defectuosos en el proceso de manufactura del fabricante. 11. A partir de una muestra de 26 embotelladoras de agua, se observa que el n umero medio de botellas llenas es de 71.2 por minuto y que su varianza es de 13.4. Suponiendo Normalidad, calcule un intervalo de conanza del 95 % para el n umero medio de botellas llenas. 12. Se est a realizando un estudio para determinar el grado de precisi on de las medidas efectuadas por un aparato. Para ello, se realizan 10 medidas, observ andose que presentan una desviaci on t pica de 0.23 unidades. Suponiendo normalidad, obt engase un intervalo de conanza al 99 % para la desviaci on t pica de las medidas llevadas a cabo por el aparato. 13. Un agricultor siembra dos tipos de tomates h bridos en cinco parcelas diferentes. Las Producciones, en quintales m etricos por hect areas son las siguientes: 80

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

Parcelas H brido I H brido II

1 90 90

2 85 84

3 95 85

4 76 87

5 80 95

Si se supone que las poblaciones son Normales: a ) Construya un intervalo de conanza del 90 % para la diferencia entre las producciones medias. b ) Construya un intervalo de conanza del 90 % para el cociente de las varianzas. 14. Para estudiar la diferencia de estaturas medias, medidas en cent metros, de estudiantes varones en las facultades de ciencias de C adiz y M alaga, se toma una muestra aleatoria de 15 estudiantes en cada facultad, oteni endose:

C adiz M alaga

182 181

170 173

175 177

167 170

171 170

174 175

181 169

169 169

174 171

174 173

170 177

176 182

168 179

178 165

180 174

Obtenga el intervalo de conanza al 99 % para la diferencia de estaturas medias entre ambos colectivos de estudiantes. Se supone que las estaturas siguen una distribuci on Normal y que las varianzas poblacionales son iguales. 15. Se est a realizando un estudio sobre la evoluci on del nivel de colesterol de las personas, para lo cual se seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante seis meses, tras la cual se les volvi o a medir el nivel de colesterol en mg/dl. Suponiendo Normalidad, obtenga un intervalo de conanza al 90 % para la diferencia de medias. Antes Despu es 200 190 156 145 178 160 241 240 240 240 256 255 245 230 220 200 235 210 200 195

16. En una poblaci on de 10000 ni nos se desea hacer una campa na de vacunaci on. Se quiere saber cu antas vacunas deben preverse, con un 95 % de conanza, si de una muestra aleatoria de 90 encuestados 30 estaban vacunados.

81

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

17. A partir de una muestra de 150 enfermos escogidos entre los admitidos en un hospital durante un periodo de tres a nos, se observ o que 129 ten an alg un tipo de seguro hospitalario. En un segundo hospital, se tom o otra muestra de 160 individuos, extra da de forma similar, de los cuales 144 ten an alg un tipo de seguro. Encuentre los intervalos al 90 %, 95 % y 99 % de conanza para la diferencia de proporciones. 18. Con el prop osito de estudiar la cantidad de nicotina de una determinada marca de cigarrillos se toma una muestra de 100 de ellos, encontr andose una media de 26 mg. Se sabe que la cantidad de nicotina se distribuye normalmente, y que su desviaci on t pica es de 8 mg. Obtenga un intervalo de conanza para el contenido medio en nicotina al 99 %. 19. Sea X la longitud (cent metros) de una cierta especie de pescado que se captura en primavera. Una muestra aleatoria de 13 observaciones de la variable X son: 13.1; 5.1; 18.0; 8.7; 16.5; 9.8; 6.8; 12.0; 17.8; 25.4: 19.2: 15.8; 23.0 2 a ) Dar una estimaci on puntual de la varianza, 2 , para la especies de pescado. b ) Encontrar un intervalo del 95 % de conanza para la . Qu e suposiciones se hacen para el c alculo de dicho intervalo?. 20. Un fabricante de televisores arma que poco menos del 20 % de sus tubos de im agenes fallan dentro de 2 a nos. Se encontr o en una muestra aleatoria de tama no 100 que 18 tubos de im agenes fallaron en 2 a nos. Calcule un intervalo de conanza al 95 % para , la proporci on de tubos que fallan en 2 a nos. 21. Se cree que los supermercados en Swansea tienden a cobrar m as por sus art culos que en Cardi. Un comprador en Cardi y un comprador en Swansea acuerdan comprar art culos para luego comparar precios. Las dos ciudades tiene 10 cadenas de supermercado en com un, las cuales llamaremos A, B, . . . , J , y los compradores visitar an cada una a la vez en semanas consecutivas, se registraron los siguientes precios en libras: Tienda Swansea Cardi A 12.08 11.62 B 12.81 11.69 C 12.74 12.57 D 13.54 13.32 82 E 14.86 13.15 F 14.68 14.04 G 12.64 11.76 H 15.23 13.63 I 13.83 12.95 J 12.64 12.59

3.7 Problemas propuestos

DE PARAMETROS 3 ESTIMACION

Construya un intervalo de conanza al 95 % para la diferencia de medias en precios entre los supermercados de Swansea y Cardi. Con el intervalo de conanza se apoya la teor a que los precios en Swansea son mayores? 22. Se est a realizando un estudio sobre la oferta tur stica existente en un conocido lugar de veraneo. Como parte de ese estudio, se desea conocer el precio medio del men u del d a de los restaurantes de una determinada zona. Para ello se eligen al azar 12 restaurantes y se recogen los precios de dicho men u: 6.70, 7.80, 7.70, 7.75, 7.00, 5.50, 8.20, 8.40, 7.90, 9.50, 3.00, 11.00 Suponiendo normalidad en los precios y un nivel de signicancia del 5 %, calcule los intervalos de conanza para el precio medio y la desviaci on t pica del precio. 23. Una cadena de tiendas de electrodom esticos quiere estudiar la efectividad de una nueva campa na televisiva sobre la venta de frigor cos. Para ello se recoge el n umero de unidades vendidas antes y despu es de la campa na, en las 12 tiendas que componen la cadena: Antes Despu es 12 11 10 11 15 17 8 9 19 21 14 13 12 16 21 25 16 20 11 18 8 15

10 17

a ) Con un nivel de signicancia del 5 %, hallar un intervalo de conanza para la diferencia de medias de unidades vendidas antes-despu es b ) Se puede considerar efectiva la campa na publicitaria? 24. En una encuesta a 600 personas, 270 son favorables al voto a favor de un nuevo candidato. Con un nivel de conanza del 95 % a ) Hallar el intervalo de conanza para la verdadera proporci on de votantes del nuevo candidato. b ) Misma cuesti on si se duplica el n umero de encuestados y se mantiene la proporci on de votantes favorables. 25. Sea una poblaci on normal (; 42 ) de la cual se extrae una muestra aleatoria de tama no 100 cuya media muestral resulta ser 25, construya un intervalo de conanza del 95 % para la media poblacional . 83

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

4.
4.1.

PRUEBA DE HIPOTESIS ESTAD ISTICAS


Conceptos b asicos

La funci on de probabilidad de una variable aleatoria X , f (X ; ), depende de uno o m as par ametros s, los cuales toman valores en un espacio param etrico ( ), de forma que para cada valor en , la funci on f (X ; ) es distinta. Una hip otesis estad stica sobre el par ametro es una conjetura sobre los valores que el par ametro puede tomar. El establecimiento de una hip otesis sobre supone dividir el espacio par ametrico en dos partes; una, que denominaremos 0 , integrada por el conjunto de valores que cumplen la hip otesis, y otra 1 , por el conjunto de valores que no la cumplen, los dos conjuntos 0 y 1 son mutuamente excluyentes y la uni on de ellos es el espacio . A la hip otesis que se desea contrastar la denominaremos hip otesis nula H0 [ 0 ], y la otra, hip otesis alternativa H1 [ 1 ].

4.2.

Tipos de hip otesis

Llamaremos hip otesis estad stica a una suposici on que determina, parcial o totalmente, la distribuci on de probabilidad de una o varias variables aleatorias. Estas hip otesis pueden clasicarse, seg un que: 1. Especiquen un valor concreto o un intervalo de valores para los par ametros de una poblaci on. 2. Establezcan la igualdad de las distribuciones de dos o m as poblaciones. 3. Determinen la forma de la distribuci on de la poblaci on. Un ejemplo del primer tipo es que la media de una variable es 10; del segundo, que las medias de dos poblaciones normales con igual varianzas son id enticas; del tercero, que la distribuci on de una poblaci on es normal. Aunque la metodolog a para realizar el contraste es an aloga en los tres casos, es importante distinguir entre ellos porque:

84

tesis 4.2 Tipos de hipo

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

1. La contrastaci on de una hip otesis respecto a un par ametro est a muy relacionada con la construcci on de intervalos de conanza, y tiene frecuentemente una respuesta satisfactoria en t erminos de estimaci on. 2. La comparaci on de dos o m as poblaciones requiere en general un dise no experimental que asegure la homogeneidad de las comparaciones. 3. Un contraste sobre la forma de la distribuci on es un contraste no par ametrico que debe realizarse dentro de la fase de validaci on del modelo. 4.2.1. Hip otesis nula

Hip otesis nula (H0 ) es la hip otesis que se constrasta. El nombre de nula proviene de que H0 representa la hip otesis que mantendremos a no ser que los datos indiquen su falsedad, y debe entenderse, por tanto, en el sentido de neutra. La hip otesis nula nunca se considera probada, aunque puede ser rechazada por los datos. Po ejemplo, la hip otesis de que dos poblaciones tienen la misma media puede ser rechazada cuando ambas dieran mucho, analizando muestras lo sucientemente grandes de ambas poblaciones, pero no puede ser demostrada mediante muestreo (es posible que las medias dieran en , siendo un valor peque no imperceptible en el muestreo). La hip otesis H0 se elige normalmente de acuerdo al principio de simplicidad cient ca, que podr amos resumir diciendo que solamente debemos abandonar un modelo simple a favor de otro m as complejo cuando la evidencia a favor de este u ltimo sea fuerte. En consecuencia, en el primer tipo de contraste respecto a los par ametros de una distribuci on, la hip otesis nula suele ser que el par ametro es igual a un valor concreto. Cuando comparamos poblaciones, H0 es siempre que las poblaciones son iguales (igualdad de medias). Cuando investigamos la forma de la distribuci on H0 suele ser que los datos son una muestra homog enea de una poblaci on simple (Normal, Poisson, etc.). 4.2.2. Hip otesis alternativa

Si rechazamos H0 estamos impl citamente aceptando una hip otesis alternativa, H1 . En el caso de que H0 sea simple, del tipo = 0 , los casos m as importantes de hip otesis alternativa son: 85

4.3 Tipos de regiones

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

1. Desconocemos en qu e direcci on puede ser falsa H0 , y especicamos H1 : = 0 ; decimos que el contraste es bilateral. 2. Conocemos que si H1 : = 0 forzosamente H1 : > 0 (o bien < 0 ). Tenemos entonces un contraste unilateral. Si los conjuntos 0 y 1 se componen de un solo elemento (0 y 1 ) las hip otesis correspondientes se denominan simples, en caso contrario, compuestas. En la hip otesis simple, la distribuci on de probabilidad queda perfectamente determinada (y es u nica), cosa que no sucede en las compuestas, donde coexiste un cierto n umero de ellas, n umero que puede ser innito. Denici on 4.1. Un contraste o test de hip otesis es una regla de desici on mediante la cual optamos por una u otra hip otesis, a la luz de la informaci on proporcionada por una muestra extra da de la poblaci on objeto de estudio.

4.3.

Tipos de regiones

El procedimiento para llevar a cabo un contraste es el siguiente: se procede a una partici on del espacio muestral X (X1 , X2 , . . . , Xn ) en dos subconjuntos disjuntos, C y C , los cuales dependen de H0 y H1 , de tal forma que si el punto muestral (la muestra seleccionada) X pertenece a uno de ellos, por ejemplo a C , llamado regi on cr tica, se rechaza la hip otesis nula y si, pertenece a C , llamado regi on de aceptaci on; se acepta la hip otesis nula. El rechazo de la hip otesis nula equivale a la aceptaci on de la alternativa, y viceversa. Debiendo entender que la aceptaci on o rechazo de una hip otesis en el sentido de que la muestra ha proporcionado evidencia suciente, pero no absoluta, para que sea razonable la aceptaci on o rechazo de la hip otesis. EJEMPLO 4.1 En la distribuci on B (p) el campo de variaci on del par ametro p es el intervalo (0, 1). Una hip otesis nula podr a ser la pertenencia de p al intervalo 0 = (0.0, 0.3] y la alternativa la pertenencia de p al intervalo 1 = (0.3, 1.0), es decir, H0 : 0.0 < p 0.3 H1 : 0.3 < p < 1.0 86

4.4 Tipos de errores

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

EJEMPLO 4.2 El peso de un producto oscila entre 1 y 4 kg y puede distribuirse con media de 2 kg o 3 kg. Se toma una muestra aleatoria de tama no 1, si el peso es mayor a 2.6 kg se rechaza la hip otesis de que la media sea igual a 2 kg y se acepta, por consiguiente, de que es igual a 3 kg. El espacio muestral X es el intervalo [1, 4], la regi on cr tica C = [2.6, 4.0] y la regi on de aceptaci on C = [1.0, 2.6), de tal forma que: X = C C = [1.0, 2.6) [2.6, 4.0] = [1.0, 4.0]

4.4.

Tipos de errores

En cualquier contraste de hip otesis no est a exento de errores debido entre muchos factores a la aleatoriedad de la muesttra. La situaci on se reeja en el cuadro 7:

Cuadro 7: Tipos de errores en un contraste de hip otesis. Hip otesis Cierta H0 H1 Decisi on Aceptar H0 Correcta Error tipo II Rechazar H0 Error tipo I Correcta

que expresado de otra manera dice que: Si la hip otesis nula es cierta y se acepta la decisi on es correcta. Si la hip otesis nula es cierta y se rechaza la decisi on es err onea, y a este error se le denomina Error tipo I o de primera especie. 87

4.4 Tipos de errores

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

Si la hip otesis nula es falsa y se rechaza la decisi on es correcta. Si la hip otesis nula es falsa y se acepta la decisi on es err onea, se le denomina Error tipo II o de segunda especie. Las situaciones de error, como las de acierto, son desconocidas e incontrolables de manera cierta, sin embargo, procuraremos establecer controles sobre ellos mediante el conocimiento de las probabilidades de cometer los mencionados errores, se analizar a para hip otesis simples (para hip otesis compuestas son bastante similares). La probabilidad de cometer el Error tipo I (rechazar la hip otesis nula siendo verdadera) se llama nivel de signicancia del contraste o tama no de la regi on cr tica o del contraste, y se designa por la letra griega . La probabilidad de cometer el Error tipo II no tiene nombre particular y se representa por la letra griega , suele ser m as f acil trabajar con 1 a la que se le denomina potencia del contraste y es la probabilidad de rechazar la hip otesis nula siendo falsa. = P (Error tipo I) = P (Rechazar H0 siendo verdadera) = P (Rechazar H0 / H0 es cierta) = P (Error tipo II) = P (Aceptar H0 siendo falsa) = P (Aceptar H0 / H0 es falsa) 1 = P (Rechazar H0 siendo falsa) = P (Rechazar H0 / H0 es falsa)

EJEMPLO 4.3 En una poblaci on N (; 22 ) tenemos la hip otesis nula H0 : [ = 1] y la alternativa H1 : [ = 4]. Se toma una muestra aleatoria de tama no uno y se considera como regi on cr tica el intervalo [2, ), es decir, si el valor muestral es igual o superior a 2 se rechaza H0 , en caso contrario se acepta. La probabilidad del Error tipo I, nivel de signicancia, es la probabilidad de que el valor muestral pertenezca a la regi on cr tica, [2, ) cuando es cierta la hip otesis nula H0 : [ = 1]. En estas 88

tesis 4.5 Metodolog a de un contraste de hip 4 PRUEBA o DE HIPOTESIS ESTAD ISTICAS condiciones no tenemos m as que encontrar en una distribuci on N (1 : 22 ) la probabilidad del suceso {X 2}. = P (Error tipo I) = P X 2/N (1; 22 ) X 1 21 = P 2 2 = P (Z 0.5) = 0.3085 Con lo cual comprobamos que, efectivamente, aunque no sepamos si la elecci on ha sido acertada o no, disponemos de un criterio razonable de informaci on. La probabilidad de aceptar la hip otesis nula siendo falsa, es decir, aceptar H0 ser a porque el valor muestral no pertenece a la regi on cr tica y si al intervalo complementario (, 2), siendo cierta la hip otesis alternativa N (4 : 22 ) = P (Error tipo II) = P X < 2/N (4; 22 ) X 4 24 z = P 2 2 = P (Z < 1) = 0.1587 Dado el desconocimiento que el experimentador tiene sobre qu e hip otesis es la correcta no sabr a en cu al de las cuatro situaciones descritas se encuentra, dos correctas y dos incorrectas. Para protegerse, el experimentador debe asegurarse que la probabilidad de comenter un error sea m nima, siendo la situaci on ideal jar el nivel de signicancia lo menor posible (se plantea la probabilidad de un suceso raro) y simult aneamente hacer la potencia lo mayor posible (probabilidad de acierto). Estas dos probabilidades no son independientes.

4.5.

Metodolog a de un contraste de hip otesis

La metodolog a actual de contraste de hip otesis es el resultado de de los trabajos de Fisher, Neyman y Pearson entre 1920 y 1933. Su l ogica es similar a la de un jucio penal, donde debe decidirse si el 89

tesis 4.5 Metodolog a de un contraste de hip 4 PRUEBA o DE HIPOTESIS ESTAD ISTICAS acusado es inocente o culpable. En un juicio, la hip otesis nula que es la que tratamos de mantener a no ser que los datos nos indiquen claramente lo contrario, es que el acusado es inocente. El juicio consiste en aportar evidencia suciente para rechazar la hip otesis nula de inocencia m as all a de cualquier duda razonable. An alogamente, en un contraste de hip otesis se analiza si los datos muestrales permiten rechazar la hip otesis nula, es decir, si los datos observados tienen una probabilidad de aparecer lo sucientemente peque na cuando la hip otesis nula es cierta. Si la hip otesis nula espec ca el par ametro de la distribuci on de una variable en una poblaci on, el contraste consiste en tomar una muestra aleatoria y calcular un estimador del par ametro. Si el estimador est a pr oximo al valor del par ametro indicado por H0 concluiremos que la hip otesis ha predicho lo observado, y que no existe evidencia para rechazarla. Si, por el contrario, la diferencia entre ambos es grande, concluiremos que hay una discrepancia signicativa entre lo previsto por la hip otesis y lo observado, y rechazaremos H0 . En s ntesis, las etapas de un contraste son: 1. Denir la hip otesis nula a contrastar, H0 , y la hip otesis alternativa H1 (pueden ser simples o compuestas). 2. Denir una medida de discrepancia entre los datos muestrales y la hip otesis H0 , que no dependa de las unidades de medida de los datos. 3. Calcular que discrepancias son esperables si H0 es cierta. Para ello se estudia la distribuci on de la medida de discrepancia cuando H0 es cierta. En muchos casos la distribuci on es una variable normal est andar bajo H0 (o alguna de sus derivadas). 4. Fijar el m nimo p-valor admisible para no rechazar H0 . A este valor se le denomina nivel de signicancia. Al jar esta cantidad queda denida una regi on de rechazo o regi on cr tica, que es el conjunto de valores de la discrepancia para los que se rechaza H0 . El nivel de signicancia es la probabilidad de la regi on de rechazo cuando H0 es cierta. 5. Tomar la muestra y juzgar la compatibilidad entre la discrepancia observada y H0 mediante el p-valor, si este es sucientemente peque no (menor que el nivel de signicancia) se debe rechazar H0 . En caso contrario, no existe evidencia en los datos para cuestionar la validez de H0 . 90

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Para realizar un contraste de hip otesis se dene normalmente una medida de discrepancia entre los datos muestrales y la hip otesis nula H0 . Intuitivamente la discrepancia debe depender de la diferencia entre el valor del par ametro especicado por H0 y el valor del estimador calculado en la muestra. Para obtener una medida de discrepancia que no dependa de las unidades de medida de la variable podemos dividir esta diferencia por su valor promedio, que es el error t pico de estimaci on del par ametro, discrepancia = estimador par ametro error t pico de estimaci on (37)

Note que la ecuaci on (37) representa el error relativo en la estimaci on. El concepto de nivel cr tico o p-valor proporciona una losof a para la resoluci on de un contraste de hip otesis. el valor observado para una Denici on 4.2. Consideremos un estad stico de contraste D y sea d = D(X1 , X2 , . . . , Xn ). muestra determinada X1 , X2 , . . . , Xn , es decir, X Se denomina nivel cr tico o p-valor a la probabilidad de obtener una discrepancia mayor o igual cuando H0 es cierta. que d En la denici on anterior, la expresi on mayor o igual debe interpretarse en relaci on con el distanciamiento de H0 en la direcci on de H1 . De este modo, si el contraste es unilateral derecho, 0 (izquierdo) el p-valor es P D d/H 0 ), P (D d/H 0 )}. 2 m n{P (D d/H 0 P D d/H , y el caso de pruebas bilaterales es,

4.6.
4.6.1.

Prueba de hip otesis en una poblaci on


Prueba de hip otesis sobre una media

Para efectuar el contraste de hip otesis sobre la media poblacional de una distribuci on normal distinguimos, en primer lugar, dos casos: Poblaci on con varianza conocida y Poblaci on con varianza desconocida. La hip otesis nula ser a simple H0 : [ = 0 ], mientras que la alternativa ser a simple H1 : [ = 0 ] o cumpuesta H0 : [ < 0 ] o H0 : [ > 0 ]. Los contraste se efect uan tomando muestras aleatorias (X1 , X2 , . . . , Xn ) de tama no n, de una poblaci on N (; 2 ). 1. Varianza conocida. 91

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Las hip otesis a contrastar son: H0 : = 0 H1 : = 0 Partimos de la denici on de nivel de signcancia = P (Rechazar H0 siendo cierta). Si la hip otesis nula es cierta, la poblaci on es N (0 ; 2 ), la media muestral por su parte es N ; . n Del apartado de intervalos de conanza sabemos que: P Z 2 0 X
n
2

Z 2

=1

(38)

, resultar En (38) en lugar de construir el intervalo de conanza para , lo construimos para X a que el intervalo es: 0 X Z , 0 + Z 2 n n 2 Donde Z es el valor de la distribuci on normal est andar que deja por encima un area igual 2 a . 2 En este caso: La regi on de aceptaci on es, , + 0 Z Z 0 n 2 n 2 La regi on de cr tica (rechazo) es, , 0 Z n 2 0 + Z , n 2

se encuentre en la regi Con lo que rechazamos la hip otesis nula, cuando X on cr tica, en caso contrario se acepta. De manera equivalente si denimos el estad stico de prueba (contraste) Z0 = 0 X n (39)

92

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS La regi on de aceptaci on se convierte en: Z , Z 2 2 Mientras que la regi on cr tica es; , Z 2 Z , 2

Con lo que rechazaremos la hip otesis nula cuando Z0 (dada en la ecuaci on 39) se encuentre en la regi on cr tica, en caso contrario se acepta. Otra forma de contrastar una hip otesis referida a la media poblacional es con ayuda del p-valor, recuerdese que: Z0 = 0 X N (0; 1) n

por lo que valores grandes (en valor absoluto) nos llevar an al rechazo de H0 , es decir, dema (entre lo observado y lo esperado por la hip siadia discrepancia entre H0 y X otesis nula), la cual se dene por: 0 X P valor = 2P Z = 2P (Z |Z0 |) n Tambi en es posible que lo que se desee es contrastar cualquiera de las siguientes tipos de hip otesis: B ) H0 : 0 ; Prueba unilateral derecha H1 : > 0 C ) H0 : 0 ; Prueba unilateral izquierda H1 : < 0 La u nica diferencia con la prueba bilateral radica en que, ahora uno de los extremos del intervalo queda abierto dependiendo del tipo de prueba que se est e considerando B) o C). En el caso B) discrepancias grandes positivas nos llevar an al rechazo de H0 , mientras que en el caso C) discrepancias grandes pero negativas nos llevar an al rechazo de H0 . 93

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS , tendremos que las regiones Obteniendo nuevamente los intervalos de conanza para X cr ticas son: Caso B) 0 + Z , n Caso C) , 0 Z n Con lo que el criterio de aceptaci on o de rechazo para H0 se basa en la regi on cr tica; si X se encuentra en la regi on cr tica rechazamos H0 , aceptamos en caso contrario. Alternativamente, podemos calcular el estad stico de prueba (39), y las regiones cr ticas ser an: Caso B) (Z , ) Caso C) (, Z ) Rechazaremos H0 cuando Z0 se encuentre en la regi on cr tica, en caso contrario la aceptaremos. El p-valor para ambos tipos de prueba es: Caso B) p valor = P (Z > Z0 ) H0 se rechaza con valores grandes positivos de Z0 . Caso C) p valor = P (Z < Z0 ) H0 se rechaza con valores grandes negativos de Z0 . 2. Varianza desconocida.

94

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Es muy com un en la pr actica que 2 tambi en sea un valor desconocido. En este caso cuando 2 H0 sea cierta se cumplir a que: X N 0 ; . n Por consiguiente, T0 = 0 X tn1 Sn1 n

Las hip otesis a contrastar ser an: A) H0 : = 0 H1 : = 0 B ) H0 : 0 H1 : > 0 C ) H0 : 0 H1 : < 0 Con lo que se realiza un procedimiento similar al caso anterior pero sustituyendo por Sn1 y N (0; 1) por tn1 (cuasidesviaci on t pica). Basados en los resultados obtenidos para los intervalos de conanza cuando se desconoce la varianza poblacional y el de los contraste de hip otesis cuando la varianza es conocida, son: tendremos que las regiones cr ticas para X Caso A) Sn1 2 , 0 tn n 1 Caso B) Sn1 , 0 + t n n1 Caso C) Sn1 , 0 t n n1 Donde t on t de Student con n 1 grados de liberta que deja por n1 el valor de la distribuci encima de el una area igual a . Sn1 2 0 + t n , n 1

95

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS se encuentre en la regi Con lo que rechazaremos H0 cuando X on cr tica; en caso contrario se acepta. De manera equivalente podemos calcular el estad stico de prueba, T0 = 0 X Sn1 n (40)

Con lo que las regiones cr ticas para T0 (dadas en 40) se convierten en: Caso A)
2 , tn 1 2 tn 1 ,

Caso B) t n1 , Caso C) , t n1 Finalmente el p-valor es: Caso A) p valor = 2P (tn1 > |T0 |) Caso B) p valor = P (tn1 > T0 ) Caso C) p valor = P (tn1 < T0 ) 4.6.2. Prueba de hip otesis sobre una proporci on

El objetivo es contrastar un valor postulado para la proporci on de invidividuos de una poblaci on que verican determinada caracter stica A. En este contexto, tomar una muestra de tama no n equivale a evaluar sobre cada una de las n unidades muestrales el cumplimiento o no de A. Si X denota el n umero de unidades muestrales que verican A, X Bin(n; p), entonces bajo la hip otesis nula H0 : p = p0 , la proporci on muestral verica que (para n > 30) N p0 ; p0 (1 p0 ) n

96

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Lo cual nos permitir a construir las regiones cr ticas bilaterales y unilaterales, para el siguiente conjunto de hip otesis; A) H0 : p = p0 H1 : p = p0 B ) H0 : p p0 H1 : p > p0 C ) H0 : p p0 H1 : p < p0 Las regiones cr ticas p para ambos casos son, respectivamente: Caso A) 0; p0 Z 2 Caso B) p0 + Z Caso C) 0; p0 Z p0 (1 p0 ) n p0 (1 p0 ) ;1 n p0 (1 p0 ) n p0 + Z 2 p0 (1 p0 ) ;1 n

De manera equivalente podemos denir el estad stico de prueba: Z0 = p p0 p0 (1 p0 ) n (41)

De este modo las regiones cr ticas para Z0 (denidas en 41) son: Caso A) , p0 Z 2 Caso B) (Z , ) Z , 2

97

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Caso C) (, Z ) Y del mismo modo, podemos calcular el p-valor en cada uno de los tipos de hip otesis. Caso A) p valor = 2P (Z > |Z0 |) Caso B) p valor = P (Z > Z0 ) Caso C) p valor = P (Z < Z0 ) Con lo que rechazaremos H0 para p-valores peque nos. Nota: En caso de que n 30 debe usarse la distribuci on binomial para calcular las regiones exactas. 4.6.3. Prueba de hip otesis sobre una varianza

Partimos nuevamente que X N (; 2 ), en este caso 2 es desconocida. Las hip otesis que nos interesan contrastar son las siguientes:
2 A) H0 : 2 = 0 2 H1 : 2 = 0 2 B ) H0 : 2 0 2 H1 : 2 > 0 2 C ) H0 : 2 0 2 H1 : 2 < 0 2 Bajo el supuesto de que H0 es cierta ( 2 = 0 ),

2 0 =

2 (n 1)Sn 1 2 n1 2 0

Con una razonamiento similar al de los intervalos de conanza para 2 , y adem as de los resultados
2 previos, las regiones cr ticas para Sn otesis son: 1 en cada uno de los tipos de hip

98

tesis en una poblaci PRUEBA 4.6 Prueba de hipo 4o n DE HIPOTESIS ESTAD ISTICAS Caso A)
2 0, 0

2 1
2

n1 2
2

2 0

2
2

n1

Caso B)
2 0

n1

Caso C)
2 0, 0

2 1
2

n1

donde 2 on Chi-cuadrado (para n 1 grados de libertad) que deja el valor de la distribuci por encima de el un a rea igual a . Alternativamente podemos denir el estad stico de contraste, 2 0 =
2 (n 1)Sn 1 2 0

(42)

on 42) se convienten en: Las regiones cr ticas para 2 0 (denida e la ecuaci Caso A) 0, 2 1
2 , 2 2

Caso B)
, 2 2

Caso C) 0, 2 1
2

Por otra parte el p-valor en cada uno de los tres tipos de prueba es: Caso A)
2 2 2 p valor = 2 m n{P 2 n1 > 0 , P n1 < 0 }

Caso B)
2 p valor = P 2 n1 > 0

Caso C)
2 p valor = P 2 n1 < 0

99

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

4.7.
4.7.1.

Prueba de hip otesis en dos poblaciones


Prueba de hip otesis sobre igualdad de medias, muestras independientes

2 2 ) dos poblaciones normales de las cuales extraemos dos ) e Y N (2 ; 2 Sean X N (1 ; 1

muestreas aleatorias independientes entre si. Sea X1 , X2 , . . . , Xn1 , una muestra aleatoria de tama no n1 de la poblaci on X , entonces; N X 1 ;
2 1 n1

Sea Y1 , Y2 , . . . , Yn2 , una muestra aleatoria de tama no n2 de la poblaci on Y , la cual es independiente de la primera muestra, entonces; N Y 2 ;
2 2 n2

De los resultados obtenidos en estimaci on puntual resulta que: Y N X 1 2 ;


2 1 2 + 2 n1 n2

(43)

A paritr de estas dos muestras, interesa contrastar la hip otesis nula de igualdad de medias. Distinguimos al igual que en los intervalos de conanza tres casos: 1. Varianzas conocidas. 2. Varianzas desconocidas pero iguales. 3. Varianzas desconocidas y diferentes. Las hip otesis a contrastar en cada uno de los casos son: A)H0 : 1 = 2 o H0 : 1 2 = 0 H1 : 1 = 2 H1 : 1 2 = 0

B )H0 : 1 2 o H0 : 1 2 0 H1 : 1 > 2 H1 : 1 2 > 0

C )H0 : 1 2 o H0 : 1 2 0 H1 : 1 < 2 H1 : 1 2 < 0

100

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Primer caso: Varianzas conocidas. Una expresi on equivalente a (43) es: Z0 = Y X
2 1 n1

2 2 n2

N (0; 1)

X en cada uno de los tres tipos de hip Se verica que las regiones cr ticas para X otesis son: Caso A) , Z
2

2 1

n1

2 2

Z
2

2 1

n2

n1

2 2

n2

Caso B) Z Caso C) , Z
2 1 2 1

n1

2 2

n2

n1

2 2

n2

Alternativamente, podemos denir las regiones cr ticas con ayuda del estad stico de contraste, Y X
2 1 n1

Z0 =

2 2 n2

(44)

Se verica entonces que las regiones cr ticas para Z0 (dado en la ecuaci on 44) son: Caso A) , Z 2 Caso B) (Z , ) Caso C) (, Z ) Mientras que el p-valor en cada uno de los casos es: 101 Z , 2

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Caso A) p valor = 2 (Z > |Z0 |) Caso B) p valor = 2 (Z > Z0 ) Caso C) p valor = (Z < Z0 ) Segundo caso: Varianzas desconocidas pero iguales. Las hip otesis de independencia y normalidad de las muestras garantiza que la variable aleatoria, T0 = Sp con
2 Sp 2 2 (n1 1)Sn + (n2 1)Sn 1 1 2 1 = n1 + n2 2

Y X
1 n1

1 n2

tn1 +n2 2

(una estimaci on insesgada de la varianza poblacional com un en ambas poblaciones). Y son: De este modo las regiones cr ticas en cada uno de los tipo de hip otesis para X Caso A)
2 , Sp tn 1 +n2 2

1 1 + n1 n2

2 Sp tn 1 +n2 2

1 1 + , n1 n2

Caso B) Sp t n1 +n2 2 Caso C) , Sp t n1 +n2 2 1 1 + n1 n2 1 1 + , n1 n2

Alernativamente podemos denir el estad stico de contraste, T0 = Sp Y X


1 n1

(45)
1 n2

Con lo que las regiones cr ticas para T0 (dada en 45) en cada uno de los tipos de hip otesis son: 102

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Caso A)
2 , tn 1 +n2 2 2 tn , 1 +n2 2

Caso B) t n1 +n2 2 , Caso C) , t n1 +n2 2 Finalmente tambi en podemos tomar nuestra decisi on con ayuda del p-valor, el c alculo para cada una de los tipos de hip otesis (haciendo g = n1 + n2 2)es: Caso A) p valor = 2P (tg > |T0 |) Caso B) p valor = P (tg < T0 ) Caso C) p valor = P (tg > T0 ) Tercer caso: Varianzas desconocidas y diferentes. Cuando se estudi o los intervalos de conanza mencionamos que la distribuci on de la variable Z0 dada en la ecuaci on (44) depende de la magnitud de
2 1 2. 2

Entre las muchas soluciones aproximadas, una de las m as habituales y m as ampliamente usadas es considerar la variable aleatoria, T0 = Y X
2 Sn S2 1 1 + n21 n1 n2

tv

Donde v . n umero de grados de libertad, se calcula dependiento de si se usa la aproximaci on de Hsu, de Welch o cualquier otra. Los grados del libertad son: 1. Para Hsu son v = m n{n1 , n2 } 1. 103

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS 2. Para Welch v = n1 + n2 2 con dada en la ecuaci on (29). 3. Mientras que la otra alternativa es usar los grados de libertad a partir de la ecuaci on (30). Las regiones cr ticas, ser an similares al caso anterior, la diferencia radicar au nicamente en los grados de libertad asociados a la distribuci on t de Student (dependiendo de la soluci on que se est e utilizando). El c alculo del p-valor, tambi en es similar con la misma observaci on hecha sobre los grados de libertad, y adem as utilizando Cuarto caso: cuando n1 , n2 > 30 Este caso es similar al caso en que se conocen las varianzas; pues de lo visto previamente resulta que si denimos la variable Z como en la ecuaci on (32), la variable Z N (0; 1). De este modo las regiones cr ticas pueden encontrarse de manera similar reemplazando u nicamente
2 Sn 1 1 2 Sn 21 n2 2 1 n1 2 2 ; n2 2 Sn 1 1 2 Sn 21 n2

n1

en lugar de Sp .

n1

por

el c alculo del p-valor se obtiene de manera similar.

4.7.2.

Prueba de hip otesis sobre igualdad de medias, muestras dependientes

Las hip otesis a contrastar son siempre las mismas a las del apartado anteriror, A)H0 : 1 = 2 o H0 : 1 2 = 0 H1 : 1 = 2 H1 : 1 2 = 0

B )H0 : 1 2 o H0 : 1 2 0 H1 : 1 > 2 H1 : 1 2 > 0

C )H0 : 1 2 o H0 : 1 2 0 H1 : 1 < 2 H1 : 1 2 < 0

; Y ) = 0. Tal y como No se puede abordar el problema como se hiz o antes pues claramente cov (X se indic o en el apartado de intervalos de conanza en muestras pareadas, la soluci on consiste en

104

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS denir la nueva variable D = X Y ; de este modo las hip otesis se convierten en: A)H0 : H1 : B )H0 : H1 : C )H0 : H1 : D = 0 D = 0 D 0 D > 0 D 0 D < 0

y determinamos la regi on de conanza para esta nueva variable, se determina que las regiones en cada uno de las tipos de hip cr ticas para D otesis son: Caso A)
SD 2 , tn 1 n SD 2 tn 1 , n

Caso B) SD t n1 , n Caso C) SD , t n1 n donde


2 SD

1 = n1

) (Di D
i=1

= 1 D n

Di
i=1

Alternativamente podemos encontrar las regiones cr ticas con ayuda del estad stico de contraste: T0 = D S D n (46)

Las regiones para T0 (dada en la ecuaci on 46) son: Caso A)


2 , tn 1 2 tn 1 ,

105

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Caso B) t n1 , Caso C) , t n1 El p-valor tambi en puede calcularse de la siguiente manera: Caso A) p valor = 2P (tn1 > |T0 |) Caso B) p valor = P (tn1 > T0 ) Caso C) p valor = P (tn1 < T0 ) 4.7.3. Prueba de hip otesis sobre igualdad de proporciones

Si X B (p1 ) e Y B (p2 ) son dos poblaciones. Sea X1 , X2 , . . . , Xn1 una muestrea aleatoria de tama no n1 de la poblaci on X . Sea adem as, Y1 , Y2 , . . . , Yn2 una muestrea aleatoria de tama no n2 de la poblaci on Y , la cual es independiente de la primera. Deseamos contrastar las hip otesis: A)H0 : p1 = p2 o H0 : p1 p2 = 0 H1 : p1 = p2 H1 : p1 p2 = 0

B )H0 : p1 p2 o H0 : p1 p2 0 H1 : p1 > p2 H1 : p1 p2 > 0

C )H0 : p1 p2 o H0 : p1 p2 0 H1 : p1 < p2 H1 : p1 p2 < 0

106

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Por el Teorema del L mite Central y por los resultados obtenidos en el apartado de intervalos de conanza se tiene que: 1 N 2 N 1 2 N p1 (1 p1 ) n1 p2 (1 p2 ) p2 ; n2 p1 (1 p1 ) p2 (1 p2 ) p1 p 2 ; + n1 n2 p1 ;

Bajo el supuesto de que H0 es cierta (p1 = p2 = p), se deduce que: 1 2 p(1 p) 1 1 + n1 n2 N (0; 1)

La estimaci on m as eciente para p desconocida, es el promedio de las estimaciones puntuales en cada muestra ( p1 , p 2 ), ponderando por los tama nos de cada una de las muestras, es decir; p = n1 n2 p 1 + p 2 n1 + n2 n1 + n2

Con lo que si denimos la variable aleatoria Z0 por: Z0 = 1 2 p (1 p ) 1 1 + n1 n2 N (0; 1)

Las regiones cr ticas (para p1 - p2 ) en cada uno de los tipos de hip otesis son: Caso A) , Z 2 Caso B) Z Caso C) , Z p (1 p ) 1 1 + n1 n2 p (1 p ) 1 1 + , n1 n2 p (1 p ) 1 1 + n1 n2 Z 2 p (1 p ) 1 1 + , n1 n2

107

tesis en dos poblaciones 4.7 Prueba de hipo 4 PRUEBA DE HIPOTESIS ESTAD ISTICAS Alternativamente podemos calcular el estad stico de contraste, Z0 = p 1 p 2 p (1 p ) 1 1 + n1 n2 (47)

Por lo que las regiones cr ticas para Z0 (dada en 47) son: Caso A) , Z 2 Caso B) (Z , ) Caso C) (, Z ) Mientras que el p-valor en cada uno de los casos es: Caso A) p valor = 2P (Z > |Z0 |) Caso B) p valor = P (Z > Z0 ) Caso C) p valor = P (Z < Z0 ) 4.7.4. Prueba de hip otesis sobre igualdad de varianzas Z , 2

Sean X1 , X2 , . . . , Xn1 e Y1 , Y2 , . . . , Yn2 dos muestras aleatorias obtenidas de dos poblaciones nor2 2 males e independientes X N (1 ; 1 ) e Y N (2 ; 2 ), repectivamente.

A partir de la informaci on proporcionada por ambas muestras se desea contrastar la hip otesis de igualdad de varianzas:
2 2 H0 : 1 = 2 2 2 H1 : 1 = 2

108

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

Nos concentraremos u nicamente en un caso, pues como ya se sabe la comparaci on de medias se basa u nicamente en si las varianzas son iguales o distintas, por lo que en un primer paso se deber a de realizar este contraste, a menos que tengamos informaci on sobre la varianza de ambas poblaciones. Bajo el supuesto normalidad e independencia de las muestras, se tiene:
2 (n1 1)Sn 1 1 2 n1 1 2 1 2 (n2 1)Sn 2 1 2 n2 1 2 2

Bajo el supuesto de que H0 es cierta, se tendr a, seg un la ecuaci on (35) que la variable aleatoria:
2 Sn 1 1 Fn1 1,n2 1 2 Sn 2 1

F0 =

(48)

Sean Fn21 1,n2 1 y Fn1 21,n2 1 los descritos en (36). De este modo la regi on cr tica para el conciente F0 =
2 Sn 2 Sn 1 1 2 1

es

0, Fn21 1,n2 1

Fn1 21,n2 1 ,

Con lo que rechazaremos la hip otesis nula de igualdad de varianzas siempre y cuando el valor de F0 calculado en la ecuaci on (48) se encuentre en la regi on de aceptaci on; en caso contrario se aceptar a. Mientras que el p-valor es:

p valor = 2 m n{P (Fn1 1,n2 1 > F0 ) , P (Fn1 1,n2 1 < F0 )}

4.8.
4.8.1.

Problemas propuestos
Contraste en una poblaci on

1. A partir de una muestra aleatoria de tama no 36 extra da de una poblaci on normal con desviaci on t pica 5 se desea realizar el siguiente contraste: H0 : H1 : = 14 = 17

109

4.8 Problemas propuestos Aplicando la regla de decisi on,

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

15; si X > 15; si X a ) Calcule el nivel de signicacia, .

no se rechaza H0 se rechaza H0

b ) Obtenga la probabilidad de cometer el error tipo II. c ) Calcule la potencia del contraste. 2. Tenemos una poblaci on N (; 1). Sobre el par ametro se establecen dos hip otesis: la hip otesis nula establece que = 1, mientras que la alternativa que = 2. La regi on cr tica es el intervalo [2.282, ). El contraste se efect ua mediante una muestra aleatoria de tama no 1. Determine el nivel de signicaci on y la potencia del contraste. 3. Para una muestra aleatoria de tama no 16 de una poblaci on N (; 1) con {0, 1} se utiliza > k } para contrastar la regi on cr tica RC = {X H0 : H1 : Se pide: a ) Valor de k para que la prueba tenga tama no 0.01. b ) Probabilidad de error tipo I. c ) Probabilidad de error tipo II. 4. Por estad sticas que se tienen, se ha podido establecer que m as del 40 % de los j ovenes toman regularmente Coca-Cola, cuando tienen sed. Una muestra aleatoria de 450 j ovenes revel o que 162 de ellos sol an tomar dicha bebida cuando ten an sed. a ) Cu al podr a ser su conclusi on al nivel del 1 % de signicancia acerca de lo que muestran las estad sticas? b ) Cu al podr a ser su conclusi on al nivel del 5 % de signicancia acerca de lo que muestran las estad sticas? 110 =0 =1

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

5. La media de una muestra es de 49 y el tama no de la muestra es de 36, la desviaci on est andar es 3. Utilice el nivel de signicancia de 0.02 para probar las siguientes hip otesis: H0 : H1 : = 50 = 50

6. La cadena de restaurante Campero arma que el tiempo de espera para el servicio de atenci on tiene una distribuci on normal, con una media de 3 minutos y una desviaci on de 1 minuto. El departamento de aseguramiento de calidad descubri o en una muestra de 50 clientes que el tiempo medio de espera es de 2 minutos, en el nivel de signicancia de 0.05 Se puede llegar a la conclusi on de que el tiempo de espera en promedio es menos de tres minutos? 7. De un an alisis exhaustivo de la obra de un cierto autor, un investigador concluye que este autor escribe frases cuya longitud siguen una distribuci on normal con media = 31.5 palabras y desviaci on est andar = 6.8 palabras. El investigador ahora lee otro escrito tal vez por el mismo autor, en el cual la longitud promedio de 80 frases es 34 palabras. Pruebe si la longitud media de la nueva obra es consistente con el trabajo del conocido autor. Enuncie la hip otesis nula y alternativa y presente claramente su conclusi on. 8. El due no de una f abrica sostiene que su producto tiene una vida media de 10 a nos. Para comprobar tal armaci on se toma una muestra de 120 productos comprob andose que su vida media hab a sido de 9.6 a nos y su desviaci on t pica de 1.2 a nos a ) Qu e se puede decir de la armaci on del fabricante, supuesto que sus productos siguen una distribuci on normal, con un nivel de conanza del 95 %? b ) C omo se ver a afectada la conclusi on anterior si la desviaci on t pica hubiese sido de 1.5? 9. Sea X una variable aleatoria distribuida seg un una N (; 32 ). A partir de la muestra: 6, 7, 8, 3, 5, 6, 7, 8, 9, 1, 7, 6, 3, 8, 9, 7, contraste, con un nivel de signicaci on de 0.05, la hip otesis de que la media real es 5. 10. Se sabe que el promedio de las calicaciones de los estudiantes en la asignatura de Estad stica en los u ltimos dos a nos ha sido de 5.6. Tras tomar una muestra aleatoria de 30 estudiantes 111

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

del presente curso, se obtuvo un promedio de 6.4 y una desviaci on t pica de 1.25. Suponiendo que se distribuyen normalmente, se puede armar que los alumnos de este a no obtuvieron calicaciones por encima de lo habitual? 11. Se sabe que ciertas piezas de una m aquina tienen una vida media de 1940 horas. Al variar uno de sus componentes se observa que una muestra de 100 piezas ha dado una duraci on media de 2000 horas y una desviaci on t pica de 150 horas. Se puede armar a un nivel de signicaci on del 10 % que el componente modicado ha supuesto un cambio signicativo en la duraci on media de las piezas? 12. Se tiene que reparar una m aquina en cierta f abrica si produce m as del 10 % de art culos defectuosos del gran lote de producci on de un d a. Una muestra aleatoria de 100 art culos de la producci on contiene 15 defectuosos y el supervisor decide que debe repararse la m aquina. La evidencia de la muestra apoya la decisi on del supervisor? Utilice un nivel de signicancia del 1 %. 13. El fabricante de un determinado aparato de medida garantiza que este tiene una desviaci on t pica de 0.25 unidades. Transcurrido un periodo de 9 meses, una muestra de 20 medidas proporcion o una desviaci on t pica de 0.32 unidades. Puede armarse con un nivel de signicaci on del 5 % que el aparato de medida est a estropeado? Y con un 1 % de signicaci on? 14. Durante 100 a nos la desviaci on t pica de las temperaturas anuales m aximas de una ciudad ha sido de 16 F. Pero en los u ltimos 12 a nos se estuvo tomando la temperatura m axima los d as uno de cada mes y dio una desviaci on t pica de 10 F. Supuesto que la temperatura se distribuye normalmente, se puede armar con un 95 % de abilidad que la variabilidad de las temperaturas ha disminuido? 15. Sea X siguiendo una distribuci on normal N (; 2 ). Una prueba es necesaria para H0 : 2 = 0.04 contra H 1 : 2 = 0.04, basado en una muestra aleatoria de tama no n = 13. Si S 2 observado es 0.058, se rechaza H0 : 2 = 0.04 al nivel de signicancia del 5 %? 16. Un fabricante de televisores arma que poco menos del 20 % de sus tubos de im agenes fallan dentro de 2 a nos. Se encontr o en una muestra aleatoria de tama no 100 que 18 tubos de im agenes fallaron en 2 a nos. Es razonable la armaci on del fabricante? 112

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

17. Se sabe que el porcentaje de curaci on espont anea de una determinada enfermedad es del 30 %. Para asegurar la ecacia de un nuevo tratamiento se selecciona aleatoriamente una muestra de 100 enfermos y se les somete a tal tratamiento, obteni endose que el porcentaje de personas curadas es del 45 %. Se puede armar la ecacia del mencionado tratamiento con una conanza del 95 %? 18. Una agencia de empleos, critica el hecho de que el 30 % de las personas que son colocadas no pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta cr tica y del archivo de colocaci on de empleados, selecciona una muestra de 25 empleados y se encuentra que 7 no pasaron la prueba. Se puede justicar esta cr tica? 19. En la distribuci on N (; 1), contr astese las hip otesis H0 : H1 : =6 =4

H allese la regi on cr tica y la potencia del contraste si el nivel de signicancia es igual a 0.05 y la muestra aleatoria es de tama no 4. 20. En la distribuci on N (; 122 ), contr astese las hip otesis H0 : H1 : = 5 < 5

En muestras aleatorias de tama no 9 y con un nivel de signicancia de 15 %, siendo la muestra extra da: -20.06, 4.56, -17.20, 6.05, 3.17, -0.28, 0.63, -15.26, -3.16. 21. Contr astese con un nivel de signicancia del 20 %, las hip otesis H0 : H1 : 2 = 4 2 = 4

Tomemos para esto una muestra aleatoria de tama no 7, cuyo resultado es: 7.1, 5.3, 4.7, 8.0, 9.9, 3.4 y 3.6.

113

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

22. De una poblaci on N (; 1), se observa una muestra de tama no 5. Se considera el contraste de hip otesis: H0 : H1 : > 2.5} Y la regi on cr tica dada por: C = {X a ) Calcular las probabilidades de los dos tipos de error. b ) Para la muestra: 2.5, 3, 1.2, 2.1 y 3.2, qu e decisi on debe tomarse? 23. Se sospecha que el medio de una partida de paquetes de garbanzos no llega a un kilo, tal como se indica en el envase. Para ello se selecciona una muestra de 9 paquetes, resultando los siguientes pesos en gramos: 1010, 989, 999, 1005, 956, 989, 992, 1025, 1050. Contrastar la armaci on anterior, para un nivel de signicancia del 5 %. 24. Las normas de fabricaci on impuestas a los fabricantes sobre la resistencia a rotura de un tipo de hilo son = 300 gramos y = 20 gramos. Se pretende contrastar estas normas en un nuevo proceso de fabricaci on con un error del 5 %, en los siguientes supuestos: = 305 y S = 22. a ) En una muestra de 100 bobinas de hilo se comprob o que X = 316 y S = 10. b ) En una muestra de 10 bobinas donde X 25. Contrastar la hip otesis de que el contenido medio de las latas de gasolina de una determinada marca sea 5 litros si los contenidos de 9 recipientes son: 5.1, 4.85, 5.05, 5.15, 5.06, 4.9, 4.95, 5.2, 5.15. Elegir un nivel de signicancia del 1 %. Se supone que la distribuci on de los contenidos es normal. 26. En el paquete de una marca de cigarrillos se arma que el contenido medio de nicotina no excede los 3.5 miligramos. En una muestra de 10 cigarrillos se ha encontrado una media de 4.1 miligramos con una desviaci on t pica de 1.3. Contrastar la hip otesis con un nivel de signicancia del 5 %. =1 =3

114

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

27. Despu es de un cambio tecnol ogico, una industria que tiene establecida su producci on media en 12000 unidades mensuales, observa su producci on durante los 12 meses siguientes, obteniendo las siguientes producciones (en miles de unidades): 12.2, 12.4, 11.6, 13.1, 10.9, 12.4, 11.3, 11.7, 12.2, 12.7, 11.9, 11.8. Contrastar a un nivel de signicancia del 5 %, si el cambio tecnol ogico ha afectado a la dispersi on de la producci on que estaba en = 1500 unidades por mes. 28. La ocina de control de tr ansito sostiene que el 40 % de conductores de veh culos de servicio particular tienen pase de conducci on vencida. Se lleva a cabo una muestra de 20 conductores, encontrando que 9 de ellos tienen pase vencido. Al 5 % de nivel de signicancia, se puede armar que el porcentaje es mayor que el se nalado por la ocina? 29. La duraci on media de una muestra de 10 bombillas es 1250 horas, con una cuasidesviaci on t pica muestral de 115 horas. Se cambia el material del lamento por otro nuevo y, entonces, de una muestra de 12 bombillas se obtuvo una duraci on media de 1340 horas, con una cuasidesviaci on t pica de 106. a ) Puede aceptarse que las varianzas, antes y despu es del cambio, son iguales? Bajo qu e hip otesis? b ) Ha aumentado la duraci on media de las bombillas? 4.8.2. Comparaci on de dos poblaciones

1. Sean X e Y denotando los pesos en gramos de gallaretas machos y hembras, respectivamente.


2 2 Suponga que X es N (X ; X ) e Y es N (Y ; Y ) una muestra aleatoria de tama no n = 13 y

= 415.16, S 2 = 1356.75, Y = 347.4, S 2 = 629.21. Pruebe m = 13 dan como resultado X X Y primero las hip otesis: H0 : H1 : Y posteriormente las hip otesis: H0 : H1 : X Y = 0 X Y > 0 115
2 2 X = Y 2 2 X = Y

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

2. Se cree que los supermercados en Swansea tienden a cobrar m as por sus art culos que en Cardi. Un comprador en Cardi y un comprador en Swansea acuerdan comprar art culos para luego comparar precios. Las dos ciudades tiene 10 cadenas de supermercado en com un, las cuales llamaremos A, B, . . . , J , y los compradores visitar an cada una a la vez en semanas consecutivas, se registraron los siguientes precios en libras: Tienda Swansea Cardi A 12.08 11.62 B 12.81 11.69 C 12.74 12.57 D 13.54 13.32 E 14.86 13.15 F 14.68 14.04 G 12.64 11.76 H 15.23 13.63 I 13.83 12.95 J 12.64 12.59

Utilizando un nivel de conanza del 95 % enuncie cualquier hip otesis y contr astela con dichos datos. Se apoya la teor a que los precios en Swansea son mayores? 3. Para averiguar si dieren los niveles de una determinada sustancia qu mica en dos grupos de personas, se toman muestras con los siguientes resultados: Muestra Vitaminas Normal n 31 25 X 8.5 4.8 S 5.5 5.1

Suponiendo normalidad, contraste tal hip otesis a un nivel de signicaci on de 0.05. 4. Se pretende estudiar si existe diferencia, en lo que a ecacia se reere, entre el paracetamol y un nuevo producto, Y , en el alivio de determinados s ntomas. Para ello, se seleccion o dos grupos de 10 y 16 personas y se midi o el tiempo medio que tardaban los enfermos en sentirse bien. Los resultados indicaron que mientras el primer grupo tardaba 15.8 minutos de media con una desviaci on t pica de 7.8 minutos, el segundo lo hac a en 13.2 minutos de media y desviaci on t pica de 6.6 minutos. Si se supone normalidad en ambos casos, realice el contraste adecuado para un nivel de signicaci on de 0.05. 5. De dos poblaciones Normales se extraen dos muestras aleatorias X e Y , de tama no 121 y 41 y cuasivarianzas muestrales 70.2 y 76.8, respectivamente. Realice un contraste para averiguar si existen evidencias para pensar que las dos muestras procedan de poblaciones con varianza diferente, a un nivel de signicaci on del 10 %. 116

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

6. En una encuesta realizada a 200 habitantes de una poblaci on A, 95 personas armaban que prefer an la playa a la monta na para pasar las vacaciones. La misma encuesta realizada a 150 habitantes de otra poblaci on B , dio como resultado que 100 personas prefer an ir a la playa. Puede pensarse que los habitantes de la poblaci on B son m as acionados a la playa que los de la poblaci on A? Contr astese dicha hip otesis al 99 %. 7. En un estudio realizado sobre las tendencias de los fumadores se seleccion o de manera aleatoria una muestra de 400 hombres de los cuales 190 eran fumadores y otra muestra aleatoria de 800 mujeres, de las que fumaban 300. Se puede armar que la proporci on de fumadores es la misma en hombres que en mujeres con una conanza del 90 %? 8. En dos ciudades se llev o a cabo una encuesta sobre el costo de la vida para obtener el gasto semanal promedio en alimentaci on en familias constituidas por cuatro personas. De cada ciudad se seleccionaron aleatoriamente una muestra de 20 familias y se observaron que en la primera ciudad se obtuvo una media de $ 135 y una desviaci on t pica de $ 15 y en la segunda ciudad se obtuvo una media de $ 122 y una desviaci on t pica de $ 10. Se consideran que los datos referidos a cada poblaci on son independientes y con distribuci on normal. 9. Un grupo de personas participan en un estudio nutricional que trata de analizar los niveles de Vitamina C en la sangre de fumadores y no fumadores. Los resultados, en mg/l, fueron:

Fumadores No fumadores

18.3 24.9

9.3 16

12.6 26.3

15.7 25.5

14.2 19.3

13.1 16.8

14.3 15.7

16.2 24.6

18.1 19.9

19.4 9.4

15.5 17.4

11.7

Admitiendo que, en ambos casos, los niveles siguen distribuciones normales, contraste las siguientes hip otesis H0 : 1 2 frente a H1 : 1 < 2 con un nivel de signicancia del 5 %. 10. Para medir la introversi on se aplica a 12 individuos un test de personalidad en sus dos variantes, 1 y 2, que se supone la miden por igual. A partir de los datos de la siguiente tabla: Individuo Forma I Forma II 1 12 10 2 18 17 3 21 20 4 10 5 5 15 21 6 27 24 7 31 29 8 6 7 9 15 9 10 13 13 11 8 8 12 10 11

117

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

Es cierto que las formas 1 y 2 miden por igual la introversi on? 11. Para estudiar cu al de los dos tratamientos contra la artrosis es m as ecaz se eligen aleatoriamente dos muestras de 10 y 22 pacientes a los cuales se les somete a los tratamientos 1 y 2, respectivamente. Pasados tres meses se valoran ambos tratamientos de manera que el que tenga mayor puntuaci on ser a m as ecaz. La tabla siguiente reeja los resultados obtenidos. Tratamiento 1 Tratamiento 2 12 21 56 15 18 29 21 42 32 17 25 44 38 14 15 42 52 68 10 65 41 23 40 37 35 43 43 28 35 58 18 42

Asumiendo normalidad de los datos evalu e si existe diferencia entre los dos tratamientos. 12. Con el prop osito de saber si debe poner neum aticos diferentes en los trenes delanteros (D) y traseros (T) de sus veh culos, un fabricante ha medido el desgaste producido en 20 de ellos despu es de 15000 Kms, obteniendo los siguientes resultados: Delanteros Traseros 23.4 22.8 21.7 24.9 18 18 23.2 22.7 16.8 22.3 19.1 18.3 18.7 22.1 19.8 23.9 25 17.4 21.5 19

a ) Suponiendo normalidad, conrman los datos, con un nivel de signicaci on de 0.05, la hip otesis de que el desgaste medio en el tren delantero es de 21 unidades? b ) Se puede armar que los neum aticos sufren el mismo desgaste en los dos trenes? 13. Una determinada empresa le propone al director de una f abrica un nuevo m etodo que, supuestamente, reduce el tiempo empleado en el montaje de uno de sus productos. Con el prop osito de comparar tal m etodo con el empleado habitualmente, seleccion o aleatoriamente a siete de sus empleados para que llevasen a cabo el montaje con los dos sistemas y anot o los tiempos empleados en el montaje, obteniendo los siguientes resultados: Trabajador M etodo habitual M etodo nuevo 1 38 30 2 32 32 3 41 34 4 35 37 5 42 35 6 32 26 7 45 38

118

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

Supuesto que el tiempo de montaje sigue una distribuci on normal, se puede armar que efectivamente el nuevo m etodo reduce el tiempo en m as de dos minutos? 14. En una empresa los operarios de planta constituyen un colectivo de 528 empleados, de los cuales 79 sufren problemas de espalda. Los administrativos, por el contrario, son 32, de los cu ales 7 sufren problemas de espalda. Se tienen evidencias de que los administrativos sufren m as problemas de espalda que los operarios de planta? (Util cese un nivel de signicancia del 5 %). 15. Es un t opico que las mujeres conducen peor que los hombres. Un ingeniero mec anico que trabaja en cuestiones relativas a seguridad vial quiere realizar una comprobaci on al respecto en la poblaci on que le ata ne. Concretamente, se interesa por el porcentaje de varones causantes de accidentes de tr aco. En una muestra aleatoria de n accidentes, descubre que en k de ellos fue un var on el causante. Sabiendo que el porcentaje de varones en la poblaci on es del 49 %, tiene evidencias el ingeniero que existan diferencias entre hombres y mujeres como causantes de accidentes de tr aco? (Util cese un nivel de signicaci on del 5 %). 16. Un fabricante desea comparar la tensi on promedio de su hilo con la de su m as cercano competidor. Las tensiones de 100 hilos para cada marca se observaron bajo condiciones controladas. Las medias y desviaciones est andar de cada marca fueron las siguientes: 1 = 110.8 X S1 = 10.2 2 = 108.2 X S2 = 12.4

Si se supone que el muestreo se llev o a cabo sobre dos poblaciones normales e independientes, existe alguna raz on para creer que hay diferencia entre las tensiones promedio de ruptura de los dos hilos? Utilice un nivel de signicancia del 2 %. Cu al es el p-valor? 17. Se cree que el promedio verbal para el n umero de respuestas correctas para la prueba SAT para las mujeres es mayor que el de los hombres por m as de diez puntos. Las muestras aleatorias para ambos sexos arrojaron los siguientes resultados: Hombres Mujeres 1 = 480 S1 = 60 n1 = 125 X 2 = 460 S2 = 52 n2 = 100 X 119

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

a ) Si se muestran dos poblaciones independientes normales, se encuentra la creencia apoyada por la evidencia muestral con = 0.05? Cu al es el p-valor? b ) Sup ongase que la verdadera diferencia es de 15 puntos. Cu al es la potencia de la prueba anterior? 18. Se espera que dos operadores produzcan, en promedio, el mismo n umero de unidades terminadas en el mismo tiempo. Los siguientes datos son los n umeros de unidades terminadas para ambos trabajadores en una semana de trabajo: Operador 1 Operador 2 12 14 11 18 18 18 16 17 13 16

Si se supone que el n umero de unidades terminadas diariamente por los dos trabajadores son variables aleatorias independientes distribuidas normales con varianzas iguales, se puede discernir alguna diferencia entre las medias a un nivel de conanza del 99 %? 19. Se llev o a cabo un estudio para determinar el grado en el cual el alcohol entorpece la habilidad de pensamiento para llevar a cabo determinada tarea. Se seleccionaron al azar diez personas de distintas caracter sticas y se les pidi o que participaran en el experimento. Despu es de proporcionarles la informaci on pertinente, cada persona llev o a cabo la tarea sin nada de alcohol en su organismo. Entonces, la tarea volvi o a llevarse a cabo, despu es que cada persona hab a consumido una cantidad suciente de alcohol para tener un contenido en su organismo de 0.1 %. a ) Discutir los aspectos importantes del control que el experimentador debe considerar al llevar a cabo el experimento. b ) Sup ongase que los tiempos antes y despu es (en minutos) de los diez participantes son los siguientes: Participante Antes Despu es 1 28 39 2 22 45 3 55 67 120 4 45 61 5 32 46 6 35 58 7 40 51 8 25 34 9 37 48 10 20 30

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

Puede concluirse a un nivel de conanza del 95 % que el tiempo promedio antes es menor que el tiempo promedio despu es por m as de 10 minutos? 20. Con objeto de estudiar si las pulsaciones en los hombres pueden considerarse menores que en las mujeres, se tomaron muestras de 16 hombres y 16 mujeres, obteni endose los siguientes datos: Hombres Mujeres 74 81 77 84 71 80 76 73 79 78 74 80 83 82 79 84 83 80 72 79 84 75 77 82 81 79 79 82 84 79 80 85

Qu e se puede decir al respecto? 21. Queremos comparar dos m etodos r apidos para estimar la concentraci on de una hormona en una soluci on. Tenemos 10 dosis preparadas en el laboratorio y vamos a medir la concentraci on de cada una con los dos m etodos. Se obtienen los siguientes resultados: Dosis M etodo A M etodo B 1 10.7 11.1 2 11.2 11.4 3 15.3 15.0 4 14.9 15.1 5 13.9 14.3 6 15.0 15.4 7 15.6 15.4 8 15.7 16.0 9 14.3 14.3 10 10.8 11.2

Contrastar si los dos m etodos proporcionan, en media, las mismas estimaciones (tomar un nivel de conanza del 90 %).
2 ) y 22. Para contrastar la hip otesis de igualdad de varianzas de las distribuciones N (1 ; 1 2 N ( 2 ; 2 ), con un nivel de signicancia del 10 % se toman dos muestras aleatorias inde-

pendientes de tama no 5 y 10, respectivamente. Los datos se muestran en el siguiente cuadro: Muestra 1 Muestra 2 25.9 16.7 22.3 13.5 26.4 13.6 24.4 18.6 27.8 22.8 18.9 17.2 15.4 8.9 10.8

23. Se van a probar dos medicamentos A y B, contra una enfermedad. Para esto, tratamos 100 ratones enfermos con A y otros 100 con B. El n umero medio de horas que sobreviven con A es 1200, y el n umero medio con B es 1400. Suponiendo normalidad en ambos casos se pide: a ) Se puede aceptar igualdad de varianzas si sabemos que )2 = 950000 (tomar un nivel de conanza del 90 %). ( Yi Y 121 )2 = 900000 y (Xi X

4.8 Problemas propuestos

4 PRUEBA DE HIPOTESIS ESTAD ISTICAS

b ) Es m as efectivo el medicamento B? Plantear el contraste adecuado para estudiar esto con un nivel de conanza del 95 %. 24. Una determinada empresa desea saber si la proporci on de personas que compran un determinado electrodom estico es la misma para hombres que para mujeres, y as poder dirigir su estrategia de marketing. Para ello toman 50 personas de cada sexo y preguntan si alguna vez compraron dicho electrodom estico, siendo armativa la respuesta en 10 hombres y 24 mujeres conviene dividir a la poblaci on en segmentos seg un sexo? 25. Un total de nueve adultos se someten a una nueva dieta para adelgazar durante un periodo de dos meses. Los pesos en kilogramos antes y despu es de la dieta son los siguientes: Antes Despu es 85 78 93 94 84 78 87 87 84 78 79 77 85 87 78 81 86 80

Contrastar, a un nivel de signicancia del 2.5 %, que la dieta no es efectiva frente a que s lo es. 26. Se arma que en las zonas rurales se ven m as telenovelas que en las urbanas. En una muestra de 120 televidentes de zonas rurales, 65 siguen regularmente una telenovela, mientras que para una muestra de 250 televidentes en la zona urbana ese n umero es de 148. Contrastar la hip otesis anterior a un nivel de signicancia del 5 %. 27. En unos almacenes, para comparar la aceptaci on de dos productos, se han contabilizado las ventas de cada uno en 10 y 8 d as respectivamente, con los siguientes resultados: Producto I Producto II 9 15 32 22 14 19 25 12 30 21 22 20 19 25 16 18 33 26

Admitiendo que las ventas siguen distribuciones normales, contrastar, a un nivel de conanza del 5 %, la hip otesis nula de que ambos tienen la misma aceptaci on.

122

Das könnte Ihnen auch gefallen