Resumen Muestras

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T.
DISENO
Teor a de muestras
A LA TEOR INTRODUCCION IA DE MUESTRAS Cuando se lleva a cabo una investigaci on estad stica, se pretende realizar alguna inferencia acerca de situaciones aparentemente inuidas por el azar. Por ejemplo, si se quiere conocer el grado de ecacia de un nuevo medicamento, la resistencia de un nuevo material para fabricar bombillas, la evoluci on a corto plazo del n umero de parados, etc. El primer paso para emplear la Estad stica como disciplina cient ca en el estudio de este tipo de fen omenos, consiste en identicar el conjunto de entes reales o potenciales sobre los que se pretende obtener informaci on, estudiando una caracter stica dada, al que se denomina poblaci on. En los ejemplos anteriores, las personas con la dolencia que trata el nuevo medicamento, las bombillas fabricadas con el nuevo material o la poblaci on activa. Cuando el investigador toma informaci on de todos y cada uno de los elementos de la poblaci on se dice que est a realizando un censo. Sin embargo, esto no es muchas veces posible, ya sea por el coste que resulta de la toma de informaci on, bien porque esta lleve consigo la destrucci on del ente en cuesti on o tambi en porque la poblaci on est a constituida por entes potenciales, como por ejemplo, enfermos con una determinada dolencia. Este problema lleva al investigador a tomar la informaci on de unos cuantos elementos de la poblaci on estad stica y este proceso recibe el nombre de muestreo. El conjunto de elementos de los que se toma informaci on se llama muestra y el n umero de elementos que la componen, tama no muestral. Existen distintos tipos de muestreo (estraticado, por conglomerados, sistem atico...) que garantizan la representatividad de la muestra seg un sean las diferencias entre los elementos de la poblaci on. Cuando no dispongamos de esta informaci on y los elementos sean indistinguibles o intercambiables a priori y perfectamente homog eneos respecto a la variable que estudiamos, la muestra se selecciona con muestreo aleatorio simple, que es aqu el en el que cada elemento de la poblaci on tiene la misma probabilidad de ser elegido para la toma de informaci on y las observaciones se realizan con reemplazamiento, de manera que la poblaci on es id entica en cada extracci on. El investigador b asicamente selecciona una muestra de la poblaci on para que, a trav es de la observaci on del comportamiento individual de cada uno de sus elementos, se puedan obtener unas leyes generales acerca del comportamiento de todos los elementos de la poblaci on. La metodolog a que se utiliza para hacer referencias, predicciones y generalizaciones sobre la poblaci on, bas andose en la informaci on contenida en la muestra, recibe el nombre de Inferencia Estad stica. MUESTRA ALEATORIA. ESTAD ISTICOS. DISTRIBUCIONES EN EL MUESTREO. Supongamos que disponemos de una poblaci on estad stica que es susceptible de ser descrita mediante un modelo probabil stico de una sola variable aleatoria X . Dicho modelo depender a de uno o m as par ametros que, si fueran conocidos, nos servir an para describir perfectamente el modelo en cuesti on. Sin embargo, en la realidad ocurre que estos par ametros son desconocidos pero podemos obtener informaci on acerca de ellos mediante la observaci on repetida de la variable en estudio. Por ejemplo, supongamos que se est a estudiando la longitud del caparaz on de la especie de tortuga marina m as com un en el Mediterr aneo, caretta caretta. Es un hecho emp ricamente
Inmaculada de las Pe nas Cabrera. Dpto de Matem atica Aplicada
INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO
probado que muchas de las caracter sticas morfol ogicas (longitudes, pesos, di ametros, concentraciones de ciertos compuestos en sangre, etc.) de los individuos de una poblaci on biol ogica, siguen una distribuci on normal. Por tanto, se puede admitir que la variable X =longitud del caparaz on de una caretta caretta sigue un modelo de distribuci on normal N(, ), cuyos par ametros y son desconocidos. Para conocer cu ales son los valores de dichos par ametros, se observaran la longitud, Xi , de los caparazones de una muestra representativa de n tortugas. En lenguaje de la teor a de probabilidades, esto signica que estamos considerando n variables aleatorias independientes X1 , . . . , Xn cuya distribuci on de probabilidad es la misma que la de la variable aleatoria X de partida, que representa la longitud del caparaz on de una caretta caretta del Mediterr aneo. Las X1 , X2 , . . . , Xn son, pues, una muestra aleatoria simple tomada de una hip otetica poblaci on de posibles observaciones. Para ser a un m as expl citos, X1 = longitud del caparaz on de la primera tortuga de la muestra tomada es una variable aleatoria continua, que puede tomar innitos valores reales, y cuya distribuci on de probabilidad se admite que sigue un modelo normal de par ametros y . Lo mismo sucede para X2 , X3 , . . . , Xn . Fruto de la observaci on de la caracter stica objeto de estudio, en los elementos de la muestra, se obtiene lo que se llama realizaci on de la muestra, que no es m as que el conjunto x1 , x2 , . . . , xn de valores observados nalmente, de todos los posibles que pod an tomar las n variables aleatorias que forman la muestra. As , si el inter es se centra en estimar la longitud media del caparaz on y se sabe que dicha variable se modeliza con una distribuci on normal, el primero de los dos par ametros de los que depende dicha distribuci on, representa la cantidad que se pretende aproximar. Una vez observada la caracter stica en los n individuos, se dispondr a de una realizaci on de la muestra x1 , x2 , . . . , xn , es decir, de las longitudes del caparaz on en n tortugas y entonces, nos preguntamos qu e valor debe asignarse al par ametro ? Evidentemente, a nadie le sorprende que sea un valor basado en la realizaci on de la muestra. M as a un, si se quiere obtener informaci on sobre la media poblacional, parece l ogico pensar en que se puede utilizar la media muestral, esto es, la media aritm etica de los valores observados en la muestra: n xi x = i=1 n Aunque podr a emplearse como medida alternativa, la media aritm etica de los valores de la muestra que quedan una vez que se hayan eliminado el m as grande y el m as peque no, por ejemplo, en lugar de todos los observados. No cabe duda de que, en cualquier caso, un procedimiento razonable ser a utilizar una determinada funci on de las observaciones muestrales. Dando un paso atr as, podemos pensar en todos los posibles valores te oricos que se podr an obtener para la media muestral o para cualquier otra funci on que dependa de los valores de la muestra. Surge as el concepto de estad stico, como el de una funci on T de las variables aleatorias X1 , X2 , . . . , Xn , que componen una muestra aleatoria. Al ser funci on de varias variables aleatorias, un estad stico es tambi en una variable aleatoria a cuya distribuci on se denomina distribuci on en el muestreo o distribuci on muestral del estad stico, que depender a en general de los par ametros desconocidos de la poblaci on X . Otro ejemplo de estad stico que puede usarse como estimador de otro par ametro poblacional, lo constituye la varianza muestral, que se dene de la forma natural, es decir, como la varianza de los elementos de una muestra n (Xi X )2 s2 = i=1 n
Esta es una variable aleatoria que podr a tomar innitos valores, no previsibles, hasta que se hace efectivo el muestreo, y que tendr a su propia distribuci on de probabilidad. Para qu e puede servir conocer la distribuci on en el muestreo de una determinado estad stico? T engase en cuenta que los dos estad sticos hasta ahora considerados, media y varianza muestral, han surgido de forma natural como estimadores de la media y la varianza poblacional, respecti vamente, sin embargo no tenemos evidencias, de que dichas estimaciones vayan a ser ables. Eso va a depender precisamente, de la distribuci on en el muestreo del estad stico que se tome como estimador, puesto que dicha distribuci on explica qu e valores puede tomar dicho estad stico y con qu e probabilidades. PUNTUAL ESTIMACION Asociado a innidad de fen omenos no previsibles o aleatorios, se realizan constantemente estimaciones de los par ametros que determinan el comportamiento de dicho fen omeno. Con el objetivo de prever el n umero de camas disponibles en un hospital, se hacen estimaciones del n umero de pacientes atendidos diariamente; para poder atender la demanda, las empresas tienen que estimar la media y dispersi on de las ventas que van a realizar de sus productos; para sacar conclusiones acerca de la ecacia de cierto retroviral, los investigadores necesitan conocer la concentraci on media de leucocitos en sangre de los pacientes seropositivos, etc. El proceso se basa en observar los valores que toma una muestra aleatoria X1 , X2 , . . . , Xn de la poblaci on y combinar dichas observaciones x1 , x2 , . . . , xn adecuadamente, de forma que la funci on resultante T (x1 , x2 , . . . , xn ) sea una buena aproximaci on del par ametro poblacional. Por tanto, el proceso de estimaci on puntual utiliza un estad stico,T , que en este caso se denomina estimador puntual y como tal estad stico tiene una distribuci on en el muestreo, que depende en general del par ametro en cuesti on. A una realizaci on particular del estimador puntual se le llama estimaci on puntual, que es el valor num erico que se toma para aproximar el par ametro poblacional desconocido. Pero, cu al es el estad stico T m as apropiado? Lo razonable es observar la distribuci on en el muestreo de dicho estad stico para tener una idea aproximada de los posibles valores que puede tomar y comparar estos con el valor del par ametro poblacional. Se utilizan diversos criterios para medir la bondad del estimador: Para que, en promedio, el valor del estimador T utilizado est e cercano al valor del par ametro poblacional a determinar, debe ocurrir que el valor esperado o esperanza matem atica de dicho estad stico, sea el propio par ametro. En tal caso, se dice que el estimador es insesgado o centrado y, en caso contrario, se dice sesgado, llamando sesgo del estimador T a la desviaci on entre el valor esperado E (T ) y el verdadero valor del par ametro. La insesgadez no es, en s misma, aisladamente, una propiedad muy satisfactoria, ya que no es posible armar nada acerca de lo alejado que resulte el valor de T , en una muestra concreta. Adem as, no implica absolutamente nada respecto a la dispersi on de la distribuci on del estimador. Un estimador que sea insesgado pero que tenga una varianza muy alta, producir a a menudo estimaciones muy alejadas del objetivo (es decir, muy alejadas del verdadero valor del par ametro). Ello conduce a elegir un estimador centrado, cuya varianza sea lo menor posible. Obs ervese que una varianza peque na, por s sola, tampoco es una buena propiedad
para un estimador, puesto que si todos los valores est an muy cercanos a un valor medio muy distinto del par ametro, la estimaci on puntual que se haga con el en una muestra concreta, ser a con una probabilidad alta, distinto al valor real del par ametro poblacional. Por tanto, ser a bueno, elegir como estimador de un par ametro poblacional un estad stico centrado y de varianza m nima.
USUALES ESTIMADORES PUNTUALES MAS Independientemente de cu al sea el proceso de selecci on del estimador a utilizar, una vez elegido, lo l ogico es analizar los resultados obtenidos. No es posible comparar el valor estimado con el real, se puede conocer precisamente porque el valor del par ametro poblacional es desconocido. Pero s lo mejor posible la distribuci on de probabilidad del estimador, para saber c omo se distribuir an sus posibles valores alrededor del par ametro a estimar. A continuaci on se enumeran los estimadores puntuales m as usados para distintos par ametros poblacionales. Supongamos que una poblaci on est a representada por la variable estad stica X con distribuci on 2 conocida (por ejemplo, una distribuci on normal) y tal que E (X ) = y Var(X ) = . Media muestral Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tama no n se dene la media muestral como el estad stico n Xi X = i=1 n Siempre que se trate de obtener estimaciones puntuales sobre la media poblacional , se tomar a el valor observado de la media muestral, x. Cuasivarianza muestral Para una muestra aleatoria simple X1 , X2 , . . . , Xn de tama no n se dene la cuasivarianza muestral como el estad stico n (Xi X )2 S 2 = i=1 n1 Es un estimador insesgado de la varianza poblacional y de varianza m nima. Quiz as lo natural, en principio, es considerar como estimador de la varianza poblacional al estad stico varianza muestral denido por s =
2 n i=1 (Xi
X )2
No se hace as porque este estad stico, no es centrado, es decir su esperanza o valor esperado no coincide con el valor de la varianza poblacional, 2 , sino que tiene un sesgo que tiende a subestimar por t ermino medio, el valor real de la varianza. Obs ervese que la cuasivarianza y la varianza de la muestra vienen relacionadas por: s2 = n1 2 S n o lo que es igual S 2 = n 2 s n1
Por lo anteriormente expuesto, siempre que se trate de obtener estimaciones puntuales sobre la varianza poblacional 2 , se tomar a el valor observado de la cuasivarianza muestral, S 2 .
Proporci on muestral Cuando se considera una prueba de Bernoulli, con probabilidad de exito p, desconocida, se repite la prueba n veces (se considera un muestra aleatoria de tama no n), de forma que un estimador puntual de p ser a p = n umero de exitos en las n pruebas n umero de pruebas, n
Este estimador es insesgado y de varianza m nima, luego es el que se utiliza como estimador puntual para la probabilidad de exito. Por ejemplo, supongamos que se quiere estimar la proporci on de ciudadanos que piensan votar a un determinado candidato en unas elecciones municipales. LLevadas a cabo n observaciones, X1 , X2 , . . . , Xn , es decir preguntados n electores, se obtendr an unos o ceros, seg un los electores preguntados piensen votar o no al candidato. As , se tomar a como estimaci on del porcentaje de votos que tendr a dicho candidato en las elecciones, como la proporci on de electores que piensan votarle de los n preguntados. POR INTERVALOS ESTIMACION La estimaci on puntual consiste en la asignaci on de un u nico n umero real, obtenido a partir de las observaciones muestrales, como pron ostico del valor de un par ametro poblacional desconocido. Sin embargo y, a pesar de que los estimadores se han tomado de manera que los posibles valores que proporciona para el valor del par ametro est an centrados alrededor del propio par ametro, ser a extra no que la estimaci on coincida exactamente con el valor real del par ametro para una realizaci on determinada de la muestra. Por esta raz on, resulta m as realista buscar un intervalo num erico I en el cual se encuentre el valor del par ametro con una probabilidad prejada, sucientemente alta como para proporcionar una seguridad razonable de que el valor del par ametro se encuentra entre el l mite inferior y el superior de dicho intervalo. Supongamos que se pretende estimar un par ametro poblacional , para lo cual se toma una muestra aleatoria X1 , X2 , . . . , Xn . Lo que ahora se pretende es buscar una pareja de estad sticos Li , l mite inferior, y Ls , l mite superior (ambos obtenidos a partir de los elementos que forman la muestra) de forma que P (Li Ls ) = 1 siendo 1 un n umero real prejado al que se denomina nivel de conanza. El intervalo [Li , Ls ] recibe el nombre de intervalo de conanza para el par ametro al nivel de conanza 1 . Obs ervese que los valores de los estad sticos Li y Ls variar an seg un las realizaciones de la muestra tomada. Es frecuente que el nivel de conanza, se exprese en porcentajes, de manera que si, por ejemplo, el nivel de conanza es del 95%, esto signica que si tuvi eramos k muestras diferentes y para cada una de ellas calcul aramos el correspondiente intervalo de conanza, suceder a que aproximadamente el 95% de los intervalos calculados contendr an el valor aut entico del par ametro poblacional desconocido. Los problemas m as frecuentes en la pr actica, en cuanto a la estimaci on de par ametros poblacionales por medio de intervalos, son la determinaci on de intervalos de conanza para: la media de una distribuci on normal la varianza de una distribuci on normal
diferencia de medias de dos poblaciones normales cociente de varianzas de dos poblaciones normales probabilidad de exito en una prueba de Bernoulli, es decir, par ametro p de una binomial B (1, p) diferencia entre las probabilidades de exito en dos pruebas de Bernoulli independientes media de una distribuci on de Poisson. Para determinar el intervalo de conanza que debe usarse en cada uno de estos casos, jado el nivel de conanza requerido, deben emplearse las distribuciones en el muestreo de los estimadores puntuales de cada uno de dichos par ametros. Sin embargo, no entraremos en tanto detalle en este curso, sino que emplearemos una tabla - resumen que reeja los intervalos de conanza que deben utilizarse en cada caso pr actico. Para poder utilizar dichas tablas, es necesario emplear tambi en los valores tabulados de tres variables aleatorias continuas muy relacionadas con la distribuci on normal: 1. distribuci on Ji cuadrado 2. distribuci on T de Student 3. distribuci on F de Fisher - Snedecor A continuaci on, detallamos en cada caso la denici on de dichas distribuciones y el manejo de sus tablas. BREVES INSTRUCCIONES PARA EL USO DE LAS TABLAS Distribuci on Ji cuadrado 2 n Una distribuci on Ji cuadrado con n grados de libertad 2 n se genera mediante la suma de los cuadrados de n variables aleatorias normales estandar independientes, por tanto es una variable que s olo toma valores positivos. Su media y varianza son = n y 2 = 2n. Los valores num ericos asociados a esta distribuci on que se encuentran tabulados NO son probabilidades (obs ervese que muchos de ellos son n umeros mayores que 1), sino el valor del 2 n umero real ,n positivo que verica
2 P (2 n ,n ) =
Para buscar el valor de 2 ,n , hay que buscar el valor de n en la primera columna de la tabla y el valor de en la primera la. Como s olo est an tabulados los valores para distribuciones con grados de libertad entre 1 y 30, cuando n 30 se utilizar an las tablas de la distribuci on normal tipicada, teniendo en cuenta lo siguiente: Si X 2 entonces 2X N( 2n 1, 1) n Por ejemplo, para calcular 2 0.05,40 :
2 0.05 = P (2 40 0.05,40 ) = P
22 40
22 = P N( 2 40 1, 1) 0.05,40 22 0.05,40 1 2 40 1

22 0.05,40 =
P Z 22 0.05,40 79)2 1 = 55.474
Obteni endose que de 2 0.05,40 = (1.645 + 2
2 40 1
= z0.05 = 1.645, de donde se puede despejar el valor
Distribuci on T de Student Una distribuci on T de Student con n grados de libertad se dene como tn = Z 2 n n
donde Z representa una distribuci on normal tipicada. Su media y varianza son =0 y 2 =
n . n2 La gr aca de la funci on de densidad es muy parecida a la de la distribuci on normal estandar, de hecho para n 30, pr acticamente coinciden. Concretamente, un hecho a tener en cuenta es que tambi en es sim etrica respecto al eje de ordenadas. Igual que en el caso de la distribuci on Ji cuadrado, lo que se encuentra tabulado son los n umeros reales t,n para los que se verica P (tn t,n ) = Los grados de libertad se buscan en la primera columna de la tabla correspondiente y el valor de la probabilidad , en la primera la. Distribuci on F de Fisher - Snedecor Una distribuci on F de Snedecor con n1 y n2 grados de libertad se obtiene mediante el cociente de dos ji cuadrado: 2 n1 n1 Fn1 ,n2 = 2 n2 n2 Su media y varianza son = n2 n2 2 y 2 = 2n2 2 (n1 + n2 2) n1 (n2 4)(n2 2)2
Como esta variable depende de dos par ametros, (los grados de libertad) se dispone de cuatro tablas, determinadas por diferentes valores de la probabilidad . Como en los dos casos anteriores,
los valores que aparecen en la tabla, F;n1 ,n2 , representan aquellos n umeros reales para los que se verica P (Fn1 ,n2 F;n1 ,n2 ) = Para valores de que sean pr oximos a 1, se utilizar a la siguiente propiedad de reciprocidad: F;n1 ,n2 = 1 F1;n1 ,n2
Interpolaci on Cuando en alguna de las tablas no se encuentre exactamente el valor buscado, se tomar an los dos valores de la tabla entre los que se encuentre comprendido y se realizar a una interpolaci on lineal. Por ejemplo: Para calcular t0.25,30 , se toman los valores de tabulados entre los que se encuentra 0.25. En este caso son 0.3 y 0.2. Se consideran t0.3,30 = 0.53 y t0.2,30 = 0.854, con sus respectivas probabilidades, como puntos del plano y la ecuaci on de la recta que pasa por ellos: dados (0.3, 0.53) y (0.2, 0.854), la ecuaci on de la recta que pasa por ambos puntos ser a: y 0.53 = 0.854 0.53 (x 0.3) = 3.24(x 0.3) 0.2 0.3
A continuaci on se considera x = 0.25, se sustituye en la ecuaci on de la recta y se obtiene el valor de y : y = 0.53 3.24 (0.05) = 0.692 = t0.25,30
CONTRASTE DE HIPOTESIS ESTAD ISTICAS Una hip otesis estad stica es cualquier armaci on que se hace, verdadera o falsa, sobre alguna caracter stica desconocida de la poblaci on. El contraste de hip otesis es la t ecnica estad stica usada cuando se pretende estudiar si una armaci on realizada sobre una caracter stica poblacional se puede considerar cierta o no. Si la hip otesis formulada se reere al valor de un par ametro desconocido de la poblaci on, hablaremos de contraste param etrico y si se reere a la forma que tiene la funci on de probabilidad de la poblaci on hablaremos de contraste no param etrico. En este curso u nicamente van a tratarse contrastes param etricos. Desde luego, lo m as able para comprobar la veracidad de una hip otesis estad stica, ser a hacer un censo en la poblaci on, es decir, tomar todos los elementos de la misma y observar la caracter stica objeto de estudio en cada uno de ellos. Sin embargo, por cuestiones de tiempo, dinero, la propia naturaleza de la poblaci on, etc, lo habitual es tomar una muestra y observar si la informaci on deducida a partir de ella, conrma o, por el contrario, invalida la hip otesis realizada. Para que se permita la comercializaci on de un medicamento nuevo, la proporci on de pacientes que mejoren tras la administraci on del mismo debe ser al menos del 90%. Para ello, se podr a tomar una muestra de pacientes, que aceptaran voluntariamente participar en el ensayo cl nico, y observar la proporci on de pacientes de la muestra que mejoraron con el medicamento, al que llamaremos p . El problema consiste en decidir si dicha proporci on puede considerarse signicativamente inferior a 0.90 o, por el contrario, mejoraron sucientes pacientes como para seguir armando que el medicamento resulta ecaz. T engase en cuenta que el valor de p , va a depender de la realizaci on de la muestra, es decir, que si se tomaran cuatro grupos de pacientes distintos, seguramente esta proporci on ser a diferente de unos grupos a otros: por ejemplo, 90.32%, 87.987%, 98.32% y
89.456%. Por tanto, para dejar de pensar que el medicamento es ecaz, no basta con considerar los resultados obtenidos de una muestra tomada y si la proporci on de pacientes mejorados sale inferior al 90%, aceptar que el medicamento no es u til. Se deber a marcar un l mite a partir del cual se rechaza su ecacia. Por ejemplo, si en la realizaci on de la u nica muestra tomada se obtiene una proporci on de pacientes que mejoraron, inferior al 86.34%, se cuestiona la ecacia. Se denomina hip otesis nula , H0 del contraste a aqu ella que se est a cuestionando y es, por tanto, la que se acepta o se rechaza como consecuencia del contraste. La hip otesis alternativa Ha , es la que nos sit ua frente a la nula, en el sentido de que nos hace dudar de la veracidad de la hip otesis nula. La losof a de un contraste no es exactamente decidir cu al de las dos hip otesis es cierta, si la nula o la alternativa, sino que si se acepta H0 es porque la realizaci on de la muestra tomada no da indicios para pensar que es falsa y si se rechaza H0 es porque s hay indicios para no aceptarla, lo cual no implica, en general, que Ha sea cierta. Podemos comparar lo que aqu sucede con un proceso judicial: el acusado es inocente, salvo que se aporten pruebas sucientes que hagan dudar de su inocencia. Sin embargo, eso no quiere decir que, con seguridad, el acusado sea culpable, podemos equivocarnos. El car acter que desempe nan en un contraste las hip otesis nula y alternativa no es, por tanto, sim etrico, lo que hace primordial entender el papel que hace cada una, para saber plantear el contraste correctamente. Esto va a estar determinado por la importancia que se le d e a los dos tipos de errores que se pueden cometer en una prueba de hip otesis: 1. rechazar H0 , siendo cierta: error de tipo 1 2. aceptar H0 , siendo falsa: error de tipo 2 Por ejemplo, en la situaci on descrita anteriormente, si se plantea el contraste tomando como hip otesis nula p = 0.90 (o p 0.90) frente a la hip otesis alternativa p < 0.90 (se supone que el medicamento es ecaz), se tiene error de tipo 1: no se lanza al mercado un medicamento ecaz error de tipo 2: se lanza al mercado un medicamento que no es ecaz En cambio, si se toma p 0.90 como hip otesis nula, frente a la alternativa p > 0.90 (se supone que el medicamento no es ecaz) los dos tipos de errores se intercambian: lanzar al mercado un medicamento no ecaz es ahora el error de tipo 1 y no comercializar uno ecaz, es el de tipo 2. Las probabilidades de cometer estos dos tipos de errores representan una medida del riesgo de tomar decisiones incorrectas al efectuar una prueba de hip otesis. Para un tama no muestral determinado no es posible que sean m nimos simult aneamente ambos riesgos de error. Por ello, se adopta el criterio de jar el error de tipo 1 y se denomina nivel de signicaci on a la probabilidad de cometerlo, es decir, el nivel de signicaci on es la probabilidad de rechazar la hip otesis nula, suponiendo que es cierta. Esta cantidad, que debe ser un n umero pr oximo a cero, ha de ser jado de antemano, puesto que viene a medir el riesgo que estamos dispuestos a correr al rechazar la hip otesis nula siendo cierta. Esto nos va a indicar, en general, cu al se debe tomar como hip otesis nula y cu al como alternativa:
jado un nivel de signicaci on, la teor a que queremos detectar si es verdadera se toma como hip otesis alternativa porque la forma de tomar decisiones en el contraste va a estar determinado por la necesidad de hacer lo m as peque no posible el error de tipo 1. En el ejemplo, se considera m as grave lanzar un medicamento al mercado no ecaz, por tanto, este debe ser el error de tipo 1. Como consecuencia, la hip otesis alternativa debe ser Ha : p > 0.9 y la hip otesis nula H0 : p = 0.9 (o, si se preere, p 0.9). La toma de decisi on de aceptar H0 o dudar de ella, se basa en la evidencia aportada por una muestra, utilizada a trav es del valor que tome un estad stico T (al que se llama estad stico de contraste), cuya distribuci on en el muestreo es conocida si se supone cierta la hip otesis nula. Para contrastes param etricos, es decir, aqu ellos en los que las hip otesis a contrastar hacen referencia a un par ametro poblacional desconocido, estos estad sticos son los mismos estimadores puntuales que se utilizan para los intervalos de conanza (media muestral, cuasivarianza muestral, proporci on muestral). El test de hip otesis, esto es, la regla de decisi on, basada en un estad stico T consiste en rechazar H0 si el estad stico T toma determinados valores, T C aceptar H0 si el estad stico T toma valores en el complementario de C , es decir T /C donde C es un subconjunto de los posibles valores de T , al que se denomina regi on cr tica o de rechazo. Al complementario de C , se le denomina regi on de aceptaci on. La determinaci on de la regi on de rechazo depende de la hip otesis alternativa y del nivel de signicaci on. Supongamos que se quiere contrastar si el nuevo medicamento es o no ecaz a un nivel de signicaci on . Planteamos el contraste seg un hemos ya comentado: H0 : p = 0.9 Ha : p > 0.9 Se rechazar a la hip otesis nula si el valor del estimador puntual correspondiente, en este caso, la proporci on muestral p , toma un valor sucientemente mayor que p0 = 0.9, es decir p > p0 + para una cantidad positiva que depender a del nivel de signicaci on, del tama no muestral y de la distribuci on en el muestreo del estad stico p , cuando se supone cierta la hip otesis nula. En este caso concreto, con un nivel de signicaci on , se puede comprobar que = z p0 (1 p0 ) n
donde n representa el tama no de la muestra. El test de hip otesis anterior se expresa del siguiente modo: Se rechaza H0 Se acepta H0 si p > p0 + z si p p0 + z p0 (1 p0 ) n
p0 (1 p0 ) n Seg un como sea la regi on de rechazo, se habla de contrastes unilaterales o bilaterales. Unilateral o de un extremo: la regi on de rechazo es una semirrecta de los n umeros reales, es decir, intervalos de la forma (, b) o (a, ). Se obtienen con hip otesis alternativas Ha : < 0 y Ha : > 0 , respectivamente.
10
Bilateral o de dos extremos: la regi on de rechazo es la uni on de dos semirrectas (, b) (a, ). Se obtienen cuando la hip otesis alternativa es de la forma Ha : = 0 donde, en ambos casos, representa el par ametro poblacional sobre el que se est a realizando el contraste. De la misma forma que para los intervalos de conanza, utilizaremos una tabla - resumen en la que est an reejados los principales contrastes de hip otesis con sus correspondientes regiones de rechazo. Los casos considerados son los mismos que en los intervalos de conanza, a saber, se establecen los tests de hip otesis para contrastes sobre: la media de una distribuci on normal la varianza de una distribuci on normal diferencia de medias de dos poblaciones normales cociente de varianzas de dos poblaciones normales probabilidad de exito en una prueba de Bernoulli, es decir, par ametro p de una binomial B (1, p) diferencia entre las probabilidades de exito en dos pruebas de Bernoulli independientes media de una distribuci on de Poisson. Para nalizar, un breve apunte para establecer la relaci on entre intervalos de conanza y contraste bilaterales: los intervalos de conanza est an dise nados para ser bidireccionales, as que sirven para tomar decisiones en contrastes bilaterales. Concretamente, la regi on de aceptaci on de un contraste bilateral sobre un par ametro a un nivel de signicaci on , es precisamente el correspondiente intervalo de conanza para dicho par ametro a un nivel de conanza 1 . Dicho de otro modo, se aceptar a la hip otesis nula = 0 , si el valor 0 pertenece al intervalo de conanza correspondiente.
11

Resumen Muestras

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Resumen Muestras

Hochgeladen von

Copyright:

Verfügbare Formate

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T.

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

P Z 22 0.05,40 79)2 1 = 55.474

Obteni endose que de 2 0.05,40 = (1.645 + 2

= z0.05 = 1.645, de donde se puede despejar el valor

donde Z representa una distribuci on normal tipicada. Su media y varianza son =0 y 2 =

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

INDUSTRIAL. ESTAD ISTICA APLICADA Y MODELIZACION. I.T. DISENO

Inmaculada de las Pe nas Cabrera. Dpto de Matem atica Aplicada

Das könnte Ihnen auch gefallen