Sie sind auf Seite 1von 43

x N( 0 , ) n

1-

x N( a , ) n

0 -a

0+a a
1

INTRODUCCION A LOS CONTRASTES DE HIPOTESIS

Jos Luis Vicente Villardn Departamento de Estadstica Universidad de Salamanca

INDICE
0.1.2.2.1.2.2.2.3.2.4.2.5.2.6.2.7.INTRODUCCIN Y MOTIVACIN......................................................... 3 CONCEPTOS GENERALES DE CONTRASTE............................................ 3 EL CONTRASTE PARA LA MEDIA DE UNA POBLACIN NORMAL.............. 5 P LANTEAMIENTO GENERAL ..............................................................................................5 VARIANZA (DESVIACIN TPICA) CONOCIDA.......................................................................7 LA POTENCIA DEL CONTRASTE.........................................................................................11 EL P-VALOR DEL CONTRASTE...........................................................................................13 LOS CONTRASTES UNILATERALES ....................................................................................14 VARIANZA DESCONOCIDA...............................................................................................18 C ONTRASTES PARA MUESTRAS GRANDES..........................................................................21

3.EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS INDEPENDIENTES...................................................22 3.1.3.2.3.3.3.4.3.5.3.6.P LANTEAMIENTO GENERAL .............................................................................................22 VARIANZAS CONOCIDAS.................................................................................................24 VARIANZAS DESCONOCIDAS PERO IGUALES.......................................................................26 VARIANZAS DESCONOCIDAS Y DISTINTAS .........................................................................29 C ONTRASTES DE COMPARACIN DE MEDIAS PARA MUESTRAS GRANDES...............................30 OBTENCIN DE DATOS PARA LA COMPARACIN DE MEDIAS.................................................31

4.EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS APAREADOS..........................................................32 5.ARBOL DE DECISIONES PARA LA COMPARACIN DE MEDIAS DE DOS POBLACIONES NORMALES.........................................................................35 6.CONTRASTES PARA LA COMPARACIN DE LA TENDENCIA CENTRAL CUANDO LAS POBLACIONES NO SON NORMALES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 6 6.1.C OMPARACIN DE MEDIANAS DE DOS POBLACIONES CON DATOS INDEPENDIENTES: EL CONTRASTE U DE MANN-WITHNEY ..............................................................................................37 6.2.C OMPARACIN DE MEDIANAS DE DOS POBLACIONES CON DATOS APAREADOS: EL TEST DE WILCOXON ...............................................................................................................................38 7.COMPARACIN DE VARIAS POBLACIONES. INTRODUCCIN AL PROBLEMA DE LAS COMPARACIONES MLTIPLES........................................................39 8.VALIDACIN DE LAS HIPTESIS DE PARTIDA.....................................40

0.- INTRODUCCIN Y MOTIVACIN


Antes de comenzar con el desarrollo del tema se supone que el lector conoce los conceptos fundamentales de muestreo, los principales estimadores de los parmetros de distribuciones normales y sus correspondientes distribuciones muestrales. Trataremos de explicar alguna de las ideas generales imprtantes para pasar despues a la explicacin de algunos de los contrastes ms habituales en la prctica. Comenzaremos ilustrando las ideas generales sobre el contraste ms simple, el de la media de una poblacin normal, para ir extendiendo progresivamente las ideas a dos poblaciones, a la comparacin de proporciones y a las poblaciones no normales. Analizaremos la problemtica de realizar un nmero elevado de contrastes sobre el mismo conjunto de datos, y extenderemos las ideas fundamentales al diseo de experimentos con varios grupos experimentales.

1.- CONCEPTOS GENERALES DE CONTRASTE


Una hiptesis estadstica es una afirmacin que se hace acerca de una o varias caractersticas de una poblacin. Las caractersticas pueden ser los parmetros de una distribucin de probabilidad predeterminada, seleccionada para la poblacin. En este caso hablaremos de hiptesis paramtricas. En algunas situaciones las caractersticas a estudiar no son parmetros de una distibucion concreta y decimos que las hiptesis son no paramtricas. Un contraste de hiptesis es un procedimiento para decidir si una hiptesis se acepta como vlida o se rechaza. Dos son las hiptesis que generalmente se contrastan, la que denominamos hiptesis nula (H0 ) que es la hiptesis en la que se basa el procedimeineto de contraste, y la que denominamos hiptesis alternativa (H a ) que es la hiptesis que se acepta cuando se rechaza la nula y viceversa. Generalmente la hiptesis nula est formada por un nico valor del parmetro mientras que la hiptesis alternativa est formada por un conjunto de valores. A la hiptesis alternativa se la denomina tambin hiptesis de trabajo o hiptesis a investigar ya que, en la mayor parte de las situaciones practicas reales es la hiptesis alternativa la que se desea aceptar. Para realizar el contraste de una hiptesis seleccionamos una muestra aleatoria de la poblacin y trataremos de tomar una decisin de acuerdo con la informacin que nos proporcionan los

valores muestrales, a travs de una estimacin de la caracterstica (parmetro) a estudiar y de su distribucin muestral. Denominaremos estadgrafo o estadistico de contraste a una variable aleatoria con distribucin conocida cuando la hiptesis nula es cierta. La variable aletoria es una transformacin directa de la distribucin muestral. Obviamente, la nica forma de estar seguros de cual es la hiptesis correcta sera investigar toda la poblacin, cosa que no es posible ya que, en general, estamos trabajando con poblaciones infinitas. Como disponemos de la informacin limitada que nos proporciona la muestra podemos realizar decisiones errneas. Dos son los tipos de errores que podemos cometer: Error de tipo I: Rechazar H0 cuando es verdadera. Error de tipo II: Aceptar H0 cuando es falsa. A la probabilidad de cometer un error de tipo I la denominaremos nivel de significacin y la denotaremos con . A la probabilidad de cometer un error de tipo II la denotaremos con a su complemento 1- lo denominamos potencia del contraste, y se define como la probabilidad de rechazar cuando es falsa. Seleccionaremos, si es posible, aquel procedimiento de contraste en el que los errores sean lo ms pequeos posible. Desgraciadamente, ambos covarian de forma inversa, es decir, cuando aumenta disminuye y viceversa. Como no es posible fijar ambos, se toma como norma fijar el nivel de significacin para realizar el contraste. Explicaremos estos conceptos con ms detalle en el captulo siguiente. Utilizando un fijo dividimos los valores del estdgrafo de contraste en dos regiones mutuamente excluyentes: La regin de aceptacin: Conjunto de valores del estadgrafo de contraste que nos llevan a aceptar la hiptesis nula. La regin crtica : Conjunto de valores del estadgrafo de contraste que nos llevan a rechazar la hiptesis nula (y aceptar la alternativa). De acuerdo con lo explicado, los pasos que se han de realizar `para llevar a cabo un contraste de hiptesis son los siguientes: - Determinar las hiptesis nula y alternativa, traduciendo hiptesis bsicas de trabajo en hiptesis acerca de parmetros (o caractersticas) de una distribucin de probabilidad asignada a la poblacin. - Fijar un nivel de significacin: Generalmente el 0.05 (5%) y 0.01 (1%). - Determinar cual es el estadgrafo de contraste y su distribucin muestral. - Determinar la regin crtica y la regin de aceptacin. - Seleccionar una muestra y calcular el valor experimental del estadsgrafo de contraste. - Tomar la decisin estadstica de acuerdo con el valor experimental obtenido. - Sacar conclusiones de tipo no estadistico.

Los procedimientos de contraste pueden disearse tambien utilizando alguna media de la discrepancia o de la similitud entre el valor terico de la hiptesis nula y el valor estimado a partir de la muestra, la hiptesis se rechaza cuando la discrepencia es muy grande. Este tipo de medida se denomina p-valor y se explicar detalladamente ms adelante.

2.- EL CONTRASTE PARA LA MEDIA DE UNA POBLACIN NORMAL


2.1.- Planteamiento general
Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos que pertenecemos al consejo regulador de la denominacin de origen de los vinos de Ribera de Duero. Sabemos que los vinos jvenes de aos anteriores tienen un grado alcohlico medio de 12.5 grados, tal y como aparece en la etiqueta. Para el ao actual, el consejo regulador, de acuerdo con todos sus miembros, ha decidido cambiar algunos de los pasos del proceso de fabricacin. El primer problema que se plantea es : Se ha modificado el grado alcohlico al modificar el proceso de fabricacin?. La definicin del problema a estudiar nos permite determinar la poblacin que queremos estudiar, los vinos jvenes de ribera de Duero en el ao actual; la variable que queremos medir, el grado alcohlico de los mismos, y la hiptesis de trabajo inicial Se ha modificado el grado alcohlico?. El paso siguiente consiste en suponer un modelo de comportamiento terico para la poblacin (a priori). Suponemos que la variable que estamos midiendo en la poblacin a estudiar sigue una distribucin normal. La suposicin de normalidad la haremos de acuerdo con el conocimiento previo que tengamos sobre la poblacin objeto de estudio tratando de que las caractersticas de la distribucin reflejen en la mayor medida posible las de la poblacin, se trata simplemente de buscar un modelo probabilstico que aproxime la variable a estudiar. En el caso que nos ocupa, parece razonable suponer, a priori, que el grado alcohlico se concentra de forma simtrica alrededor de un valor medio. Si considerramos, por ejemplo, los salarios de una empresa la hiptesis de normalidad no es plausible puesto que cabe esperar que la distribucin de los mismos sea marcadamente asimtrica debido a los altos salarios de un grupo reducido de ejecutivos.

Formularemos ahora la hiptesis de trabajo en trminos de los parmetros del modelo (media y/o desviacin tpica en el caso de la normal). La hiptesis principal la denominamos hiptesis nula (H0).

H 0 = = 0 = 12.5
La hiptesis nula suele ser la de igualdad del parmetro a un nico valor concreto 0 procedente de la hiptesis de trabajo. Junto con la hiptesis nula planteamos la que denominamos hiptesis alternativa (Ha o H 1) que ser aceptada cuando se rechace la nula y viceversa. Por el momento tomaremos la ms sencilla, la hiptesis e que la media es diferente de 12 que resultar en un contraste bilateral.

H a = 0 = 12.5
Trataremos de disear un procedimiento para decidir entre ambas hiptesis a partir de la informacin contenida en una muestra de tamao n, por ejemplo 14 observaciones. Supongamos que la muestra ha sido seleccionada al azar de la poblacin y que se han obtenido los resultados siguientes. RIBERA DE DUERO 12,1 12,2 12,6 13,0 12,4

12,8

12,8 12,5

11,9 12,5

12,6

12,2 12,8

13,0

Tabla 1: Grado alcohlico de 14 vinos de la denominacin de Ribera de Duero.

La primera cuestin que hemos de tener en cuenta es que la decisin por una hiptesis concreta ha de tomarse con un cierto riesgo de equivocarse al no disponer de la informacin de todos los individuos de la poblacin. Trabajaremos con la media muestral como estimador de la media poblacional desconocida. En el ejemplo la media muestral es de 12,529, que como ya sabemos no coincide con la media poblacional. Trataremos de decidir entre las dos hiptesis a partir del valor de la media muestral pero, si la media muestral no coincide con la media poblacional, ser la diferencia entre el valor observado y el terico lo suficientemente grande como para rechazar la hiptesis nula? la diferencia observada es lo suficientemente pequea como para ser debida simplemente al azar o al desconocimiento de la poblacin?. Daremos respuesta a ambas preguntas utilizando los conceptos sobre distribuciones aprendidos en temas anteriores.

2.2.- Varianza (desviacin tpica) conocida


2 2 Supondremos, por el momento, que la varianza de la poblacin es = 0. 5 conocida. Sabemos que la media muestral para distintas muestras sigue una distribucin normal

N( ,

) , luego, cuando la hiptesis nula es cierta n x N( 0 , ) n

En la prctica, este resultado tiene implicaciones importantes. Vemoslo con un dibujo.

x N( 0 , ) n

0
Figura 3 : Distribucin de la media muestral.

El dibujo muestra como, aunque los valores de la media muestral no coinciden con la media poblacional, se concentran en torno a ella y por tanto es muy probable que sean cercanos aunque, con el modelo supuesto puede tomar cualquier valor. Obsrvese tambin que cuanto mayor es el tamao muestral ms se concentran los valores de la media muestral en torno a la media poblacional. Intuitivamente, aceptaremos la hiptesis nula cuando la media muestral sea prxima a 0 y la rechazaremos (aceptando la alternativa) cuando la media muestral sea muy diferente de 0 , es decir, utilizamos la media muestral como estadstico, o estadgrafo, de contraste. Nos queda por determinar cual es el criterio para decidir si la media muestral est prxima o no al valor terico propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos el riesgo tipo Y en (por ejemplo en 0.05 o el 5%)

Nos plantearemos el contraste como un juicio en el que la media muestral es inocente (procede de una poblacin con media 0 ) y no la declararemos culpable (no procede de una poblacin con media 0 ) hasta que no se demuestre claramente lo contrario. Sobre la distribucin de la media seleccionamos dos puntos 0 a y

0 + a , simtricos

alrededor de 0 de forma que si la hiptesis nula cierta en el (1- )100% (por ejemplo el 95%) de las muestras la media muestral est entre esos dos valores (figura 4).

P( 0 a x 0 + a) = 1
Aceptaremos la hiptesis nula si la media muestral est dentro del intervalo seleccionado y la rechazaremos en caso contrario. Es claro que si la media est fuera del intervalo seleccionado hay una clara evidencia de que la hiptesis no es cierta ya que toma los valores correspondientes solo en el 5% de los casos en los que la hiptesis nula es cierta. Por supuesto, estamos asumiendo un riesgo del 5% de equivocarnos y rechazar indebidamente. Como ya es conocido, al conjunto de valores que nos llevan a aceptar la hiptesis nula lo denominamos Regin de Aceptacin, y al conjunto de valores que nos llevan a rechazarla lo denominaremos Regin Crtica. En este caso la regin crtica se ha dividido en las dos colas de la distribucin por lo que se dice que el contraste es bilateral o de dos colas.

x N( 0 , ) n
1-=0.95 /2 = 0.025 /2 = 0.025

0 -a
Regin crtica

0+a
Regin

x
crtica

Regin de Aceptacin

Figura 4: Procedimiento de contraste a partir de la media muestral

En la prctica no se trabaja directamente con la media muestral y su distribucin asociada sino con la distribucin normal estndar. Teniendo en cuenta las propiedades de la normal podemos escribir

P( 0 a x 0 + a) = P( z /2

x 0 z /2 ) = 1 n

de forma que el procedimiento descrito se convierte ahora en el que se muestra en la figura 5. El estadgrafo de contraste es ahora

x 0 y mide la discrepancia entre el valor observado de la n

media y el valor terico de la misma, en la escala de la desviacin tpica. No es lo mismo una diferencia de una unidad en una escala de centmetros que en una escala de kilmetros.

x 0 N(0, 1) n

1-=0.95 /2 = 0.025 -z /2 Regin crtica /2 = 0.025

z/2 Regin

x 0 n
crtica

Regin de Aceptacin

Figura 4: Procedimiento de contraste a partir de la media muestral estandarizada. La interpretacin intuitiva del nuevo procedimiento sigue siendo clara, rechazaremos la hiptesis nula solamente cuando la discrepancia entre la media observada y la terica ( x 0 ) sea grande, en relacin a la variabilidad intrnseca medida por

. La magnitud de la diferencia n

necesaria para rechazar se determina a travs del riesgo de tipo 1 mediante la distribucin normal estndar.

A los valores de z/2 se les suele denominar valores crticos ya que determinan la frontera entre la regin crtica y la regin de aceptacin. El cuadro siguiente muestra el procedimiento completo con los pasos que se siguen habitualmente en la construccin de cualquier contraste.

HIPOTESIS:

H 0 : = 0 H a : 0 x 0 n
0

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: Z = DISTRIBUCION DEL ESTADIGRAFO CUANDO H REGION DE ACEPTACION REGION CRITICA : :

ES CIERTA:

N(0,1)

{Z /

Z z /2 }

{Z /

Z > z /2 }

Cuadro 2: Contraste para la media de una poblacin normal con varianza conocida.

Una vez que hemos determinado la forma general del contraste pasamos a aplicarlo a los datos del problema inicial que nos ocupa.

Hiptesis:

H 0 : = 12.5 H a : 12.5 x 0 12.529 12.5 = = 0.217 0.5 n 14

Nivel de significacin: 5% y 1%. Estadgrafo de contraste: Z =

Valores crticos : para el 5% z0.025 = 1,96

para el 1% z0.005 = 2,57 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 3: Aplicacin del contraste para la media de una poblacin normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero.

Una vez que hemos tomado la decisin final, no sabemos si es correcta o no, simplemente

esperamos que sea del 95% de las muestras en las que aceptamos la hiptesis correctamente. Si aceptamos la hiptesis nula no quiere decir que sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no lo es), sera ms correcto interpretar que, con la informacin de la que disponemos no hemos encontrado evidencia suficiente de que la media sea distinta de 12.5. Evidentemente, los valores muestrales son compatibles con muchos otros posibles valores tericos. Si aumentamos el tamao de muestra indefinidamente, la variabilidad de la media sera cada vez menor y conseguiramos que la pequea diferencia observada sea lo suficientemente grande como para considerarla significativa. Es por esto por lo que en Estadstica decimos que es tan malo tener un tamao de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer caso cualquier pequea diferencia es considerada como significativa mientras que en el segundo no se declara significacin incluso en el caso en el que la diferencia sea elevada.

2.3.- La potencia del contraste


En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo de tipo I en el desarrollo del contraste. Sabemos que esta asociado con el riesgo de tipo II de forma que cuando uno aumenta, el otro disminuye. Tampoco hemos hecho ninguna afirmacin acerca de un concepto importante como es el de potencia del contraste (probabilidad de rechazar la hiptesis nula cuando es falsa). No es posible calcular la potencia del contraste porque para ello necesitaramos un nico valor en la hiptesis alternativa (revsese el ejemplo de los cirrticos utilizado como aplicacin de la distribucin normal), aunque si podemos realizar el clculo para distintos valores en la alternativa (funcin de potencia) y analizar lo que ocurre. Vemoslo con un ejemplo. Cual sera la potencia del contraste obtenido para detectar que la media no es 12.5 si en realidad la media fuera 13 (y suponiendo un nivel de significacin del 5%). En trminos de la media muestral el procedimiento de contraste consiste en aceptar la hiptesis nula si la media muestral est entre 12.238 y 12.762. La probabilidad de cometer un error de tipo 2 (aceptar indebidamente) si la media real fuera de 13 se podra calcular como

P(12.382 X 12.762) en una normal de media 13 y desviacin tpica


probabilidad es 0.037 de forma que la potencia es esquematizada aparece en la figura 5.

0.5 . Esta 14

1 - 0.037 = 0.963. La situacin

x N( 0 , ) n

1-

x N( a , ) n

0 -a

0+a a
1

Figura 5: Clculo de la potencia del contraste para una alternativa predeterminada.

En la figura 6 se muestra la funcin de potencia para distintos valores posibles de la hiptesis alternativa.
1,1 1 ,9 ,8 ,7 Potencia ,6 ,5 ,4 ,3 ,2 ,1 0 11,5 11,75 12 12,25 12,5 12,75 alternativa 13 13,25 13,5

Figura 6: Funcin de potencia para distintos valores de la alternativa.

El grfico muestra como la potencia es mayor cuando los valores de la alternativa se alejan del valor para la hiptesis nula. En la prctica este hecho tiene una implicacin obvia: es ms fcil detectar diferencias o efectos experimentales de gran magnitud. Aunque no es posible un control directo de la potencia, a la vista de la figura 5 es claro que la potencia puede modificarse modificando el nivel de significacin o el tamao muestral ya que la forma de las curvas depende de ste. Cuanto mayor sea el tamao muestral ms concentrada es la curva normal y, por tanto, mayor es la potencia para el mismo nivel de significacin. En la prctica suele hacerse un estudio de potencia para los contrastes no significativos, calculando cual sera el tamao muestral necesario para que la diferencia observada en los datos sea significativa. Si este tamao es muy grande es difcil declarar la significacin por lo que consideraremos que estamos haciendo lo correcto, si el tamao muestral necesario es pequeo, sera conveniente revisar el experimento. El clculo es muy simple cuando se trabaja con distribuciones normales. La hiptesis nula se rechaza cuando valor de n ser

x 0 > z /2 de forma que, para que la diferencia sea significativa el n


2 z2 /2

n>

x 0

para el ejemplo del grado alcohlico, n> 1141,97, es decir, para que la diferencia observada fuera significativa tendramos que haber recogido ms de 1142 observaciones lo que da una idea de que la diferencia observada es muy pequea y, por tanto es muy probable que la hiptesis nula sea cierta.

2.4.- El p-valor del contraste


Una forma habitual de medir la significacin en los contrastes de hiptesis es el denominado pvalor del contraste. Su utilizacin en la investigacin aplicada es debida a que es la forma de presentacin de los resultados de un contraste usada por la mayor parte de los programas de ordenador.

Se puede definir el p-valor de un contraste como la probabilidad de obtener un valor muestral ms extremo que el obtenido en nuestro caso particular (cuando H0 es cierta). Si el p-valor es muy pequeo rechazaremos la hiptesis nula ya que el valor experimental es muy extremo, mientras que si el p-valor es grande aceptaremos la hiptesis nula ya que el valor es compatible con la misma. De forma general, el p-valor para el contraste actual se puede calcular como

P( Z >

x 0 ) en una distribucin normal estndar. n

Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217) = 0.8285, es decir el p-valor puede considerarse grande. En la prctica se suele adoptar el criterio de aceptar la hiptesis cuando el p-valor es mayor que el nivel de significacin fijado en el procedimiento de contraste.

p-valor

x 0 N(0, 1) n

-z /2 Regin crtica

0
Regin de Aceptacin

Z exp erimental

z/2 Regin crtica

Figura 7: El p-valor de un contraste bilateral.

2.5.- Los contrastes unilaterales


En algunas situaciones concretas no estamos interesados en todos los posibles valores de la hiptesis alternativa propuesta en un contraste bilateral. Supongamos, por ejemplo, que en el caso prctico anterior sospechamos a priori que la modificacin en el procedimiento de

fabricacin produce un incremento en el contenido alcohlico. En este caso sera conveniente modificar la hiptesis alternativa para que sea de la forma H a : > 0 . El procedimiento de contraste es muy similar al anterior y se muestra en el cuadro siguiente.

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: Z =

H 0 : = 0 HIPOTESIS: H a : > 0

x 0 n
N(0,1)

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: REGION DE ACEPTACION : {Z / Z z } REGION CRITICA :

{Z / Z > z }

Cuadro 4: Contraste unilateral superior para la media de una poblacin normal con varianza conocida.

El contraste as obtenido se denomina contraste unilateral superior ya que solo estamos interesados en las desviaciones positivas. La diferencia fundamental con el contraste bilateral es que se produce un incremento en la potencia para detectar diferencias positivas de la hiptesis nula y un decremento drstico para detectar las negativas. El p-valor sigue teniendo la misma interpretacin aunque ahora se calcula como

P(Z >

x 0 ). n

x 0 N(0, 1) n
p-valor

Z exp erimental
Figura 8: El p-valor de un contraste unilateral superior.

De la misma manera que se ha construido el contraste unilateral superior es posible construir el contraste unilateral inferior si estamos interesados exclusivamente en detectar diferencias negativas con respecto a la hiptesis nula. La construccin del contraste es completamente anloga con la correspondiente modificacin de la hiptesis alternativa. El contraste unilateral inferior incrementa la potencia para detectar diferencias negativas aunque no tiene potencia para detectar las positivas.

HIPOTESIS:

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: Z =

H 0 : = 0 H a : < 0

x 0 n
N(0,1)

DISTRIBUCION DEL ESTADIGRAFO CUANDO H 0 ES CIERTA: REGION DE ACEPTACION : {Z / Z z } REGION CRITICA p-valor: :

{Z / Z < z }
x 0 ) n

P(Z <

Cuadro 5: Contraste unilateral inferior para la media de una poblacin normal con varianza conocida.

x 0 N(0, 1) n
p-valor

-z

Z exp erimental
Figura 9: El p-valor de un contraste unilateral inferior.

La decisin por el tipo de contraste debe hacerse a priori, antes de tomar los datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el experimento, que la modificacin en el proceso de fabricacin, aumenta el grado alcohlico. El procedimiento de

contraste para los datos de la tabla 1 se muestra en el cuadro siguiente

Hiptesis:

H 0 : = 12. 5 H a : > 12. 5

Nivel de significacin: 5% y 1%. Estadgrafo de contraste: Z =

x 0 12. 529 12. 5 = = 0. 217 0. 5 n 14 Valores crticos : para el 5% z0.025 = 1,65 para el 1% z 0.005 = 2,33 p-valor: 0.4129
Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no haaumentado significativamente el grado alcohlico.
Cuadro 6: Aplicacin del contraste para la media de una poblacin normal con varianza conocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero

La funcin de potencia para distintos valores de la alternativa aparece en la figura siguiente. Obsrvese como el contraste no tiene ninguna potencia para detectar valores a la izquierda de la hiptesis nula.
1,2 1 ,8 Potencia(uni) ,6 ,4 ,2 0 -,2 11,25 11,5 11,75 12 12,25 12,5 12,75 alternativa 13 13,25 13,5

Figura 10: Funcin de potencia para un contraste unilateral superior.

2.6.- Varianza desconocida


En la mayor parte de las aplicaciones prcticas la varianza de la distribucin es tambin desconocida y ha de ser estimada a partir de los datos. El problema es que ya no es posible seguir utilizando la distribucin normal para el procedimiento de contraste ya que es necesario eliminar el parmetro del estadgrafo de contraste. De acuerdo con la teora, adems de la distribucin muestral de la media sabemos que 2 (n 1)S sigue una distribucin ji-cuadrado con n-1 grados de libertad. Si suponemos que 2 media y varianza son independientes1 , es posible combinar las correspondientes distribuciones muestrales para obtener una distribucin t de Student y eliminar el parmetro . Utilizando la definicin de distribucin t de Student con n-1 grados de libertad como el cociente entre una normal estndar y la raz cuadrada de una ji-cuadrado con n-1 grados de libertad dividida por sus grados de libertad, y ambas independientes, obtenemos que la variable aleatoria

t=

x 0 x 0 n = 2 S (n 1) S n 2 (n 1)

sigue una distribucin t de Student con n-1 grados de libertad. El procedimiento de contraste en este caso es anlogo al anterior pero sustituyendo la distribucin normal por la distribucin t. El cuadro 6 muestra el procedimiento de contraste completo.

La demostracin completa no se realiza aqu.

HIPOTESIS

H 0 : = 0 H a : 0
NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

x 0 S n

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES CIERTA: REGION DE ACEPTACION REGION CRITICA : tn-1 :

{t /

t t n1,

{t /

t > t n1,

Cuadro 6: Contraste para la media de una poblacin normal con varianza desconocida.

En la prctica, la sustitucin de la distribucin normal por la distribucin t de Student implica un aumento de la dispersin por lo que es ms difcil detectar diferencias. La situacin se muestra el la figura siguiente en la que se comparan la distribucin normal estndar (en lnea discontinua) y la distribucin t (en lnea continua).

t=

x 0
^ S n

t n 1

1 /2

/2 -t
0

Figura 11: Diferencia entra la distribucin normal y la distribucin t de Student.

Es posible construir contrastes unilaterales de la misma manera que en el caso de varianza conocida. El cuadro 7 muestra el contraste unilateral superior, el contraste unilateral inferior se deja como ejercicio al lector.

tn-1, es el valor crtico de la t de Student tal que P(-tn-1, t n-1 tn-1, ) = 1-. Se ha denotado con el subndice porque es el que se utiliza para buscar el valor correspondiente en la tabla.
2

HIPOTESIS:

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

H 0 : = 0 H a : > 0

x 0 S n
0

DISTRIBUCION DEL ESTADIGRAFO CUANDO H REGION DE ACEPTACION REGION CRITICA : :

ES CIERTA:
3

tn-1

{t / t t n1,2 } {t / t > t n1,2 }

Cuadro 7: Contraste para la media de una poblacin normal con varianza desconocida.

Para el ejemplo del grado alcohlico de los vinos de la denominacin de origen de Ribera de Duero los resultados del contraste bilateral se muestran en el cuadro 8.

Hiptesis: Nivel de significacin: 5% y 1%. Estadgrafo de contraste: t =

H 0 : = 12.5 H a : 12.5

x 0 12.529 12. 5 = = 0.316 0.338 S 14 n

Valores crticos : para el 5% t18, 0..05= 2.101 para el 1% t 18, 0..01= 2.878 p-valor : 0,7571 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: La modificacin en el proceso de fabricacin no ha modificado significativamente el grado alcohlico.
Cuadro 8: Aplicacin del contraste para la media de una poblacin normal con varianza desconocida al problema de la modificacin en el grado alcohlico del vino de Ribera de Duero

Todos los conceptos explicados para el contraste de la media de una poblacin normal con varianza conocida siguen siendo vlidos aqu.

tn-1,2 es el valor crtico de la t de Student tal que P( tn-1 > tn-1,2 ) = . Se ha denotado con el subndice 2 porque es el que se utiliza para buscar el valor correspondiente en la tabla.
3

2.7.- Contrastes para muestras grandes


Cuando las muestras de las que se dispone son muestras grandes (aproximadamente mayores de 30 observaciones) es posible utilizar directamente la distribucin normal ya que es muy similar a la t de Student. Adems el teorema central del lmite permite relajar la hiptesis de normalidad ya que la normalidad de la distribucin muestral de medias est garantizada, bajo ciertas condiciones de regularidad, aunque la poblacin original no sea normal. Hay que tener en cuenta que se trata slo de una aproximacin y, cuanto mayor es el tamao de la muestra mejor es la aproximacin normal obtenida. El procedimiento de contraste para muestras grandes se muestra en el cuadro 9. Mostramos solamente el contraste bilateral ya que los unilaterales se construyen exactamente de la misma manera que en los casos anteriores.

HIPOTESIS:

H 0 : = 0 H a : 0 x 0 S n

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: Z =

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES CIERTA: REGION DE ACEPTACION REGION CRITICA : N(0, 1) :

{Z /

Z z /2 }

{Z /

Z > z /2 }

Cuadro 9: Contraste para la media de una poblacin normal con varianza desconocida cuando la muestra es grande.

3.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS INDEPENDIENTES.
3.1.- Planteamiento general
En la investigacin aplicada la situacin ms habitual es aquella en la que se quieren comparar dos poblaciones a las que se les ha aplicado, por ejemplo, dos tratamientos diferentes. Pongmonos en el mismo supuesto que en el ejemplo que sirvi para ilustrar el contraste para una poblacin, y supongamos que lo que deseamos es conocer si los vinos de nuestra denominacin de origen tienen el mismo contenido alcohlico que los de otra denominacin de origen, por ejemplo la de Toro. Se trata de saber si existe una clara diferenciacin en los mismos ya que, debido a la proximidad geogrfica de ambas regiones, es posible que haya fraudes y se intercambien vinos de ambas dependiendo del mercado de los mismos. La hiptesis de trabajo inicial es entonces Existen diferencias en el grado alcohlico de ambas denominaciones?. Procediendo de la misma manera que en el caso de una poblacin, suponemos una distribucin de probabilidad para la poblacin que es la distribucin normal. En la primera poblacin (Ribera de Duero) el grado alcohlico sigue una distribucin normal N(1 , 1 ); en la segunda poblacin (Toro) el grado alcohlico sigue una distribucin normal N(2 , 2 ). Formulamos a continuacin las hiptesis de trabajo en trminos de los parmetros de los modelos. Las hiptesis nula y alternativa son ahora

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0)

para el contraste bilateral. Vemos como el contraste de que las medias son iguales es equivalente al contraste de que la diferencia de medias vale 0. Supongamos que los datos obtenidos son los siguientes para muestras aleatorias de tamao

n1 = 14 y n2 = 6.

Ribera de Duero 12,8 12,8 12,5 11,9 12,5 Toro 13,0 14,0 13,2 13,4

12,1 13,2

12,2 12,6 13,9

13,0 12,4

12,6

12,2 12,8

13,0

Tabla 2: Grado alcohlico de 20 vinos de las denominaciones de origen de Ribera y Toro.

Se supone que las muestras se han obtenido de forma independiente en ambas denominaciones. La estadstica descriptiva bsica para ambos grupos aparece en la tabla siguiente.
Descriptiva grado, Total Media Desv. Tip. Error Estd. n Minim0 Maximo 12,805 ,557 ,124 20 11,900 14,000 bsica grado, Toro 13,450 ,409 ,167 6 13,000 14,000 12,529 ,338 ,090 14 11,900 13,000

grado, Ribera

Tabla 3: Descriptiva bsica del grado alcohlico.

Una primera aproximacin a las diferencias entre los dos grupos sera la construccin de grficos comparativos que muestren la estructura de los mismos, por ejemplo, un Box-Plot con los grupos separados.
14,25 14 13,75 13,5 13,25 13 12,75 12,5 12,25 12 11,75 grado

Box

Plot Ribera Toro

Figura 12: Box plot para la comparacin del grado alcohlico de las denominaciones de Ribera y Toro.

Una simple inspeccin visual del grfico nos muestra que hay una clara diferencia entre los grados de ambas denominaciones, a pesar de que la diferencia muestral es muy evidente necesitamos un procedimiento ms formal para establecer si las diferencias observadas pueden ser consideradas estadsticamente significativas. Construiremos el procedimiento de contraste en varios supuestos comenzando desde el ms sencillo hasta los ms complejos.

3.2.- Varianzas conocidas


Supongamos, para simplificar que las desviaciones tpicas son conocidas, por ejemplo 1 = 0.5 y 2 = 0.6 para las denominaciones de Ribera de Duero y Toro respectivamente. Desarrollaremos el procedimiento general para despus aplicarlo a los datos de los que disponemos. Conocemos la distribucin de la media muestral en ambas poblaciones.

x1 N( 1 , x 2 N( 2 ,

1 ) n1 2 ) n2

y ambas distribuciones son independientes. El estimador de la diferencia de medias poblacionales ser la diferencia de medias muestrales y, como la diferencia de normales independientes es tambin una distribucin normal, tenemos que 2 1

x1 x 2 N( 1 2 ,

n1

2 2 n2

Estandarizando se obtiene que

Z=

( x1 x 2 ) ( 1 2 ) N(0,1) 2 2 1 2 + n1 n 2

Cuando la hiptesis nula es cierta 1 2 = 0 y se tiene que

Z=

( x1 x 2 )
2 1 2 + 2 n1 n 2

N(0,1)

luego Z ser el estadgrafo de contraste que utilizaremos. El procedimiento de contraste completo se muestra el cuadro 9. Solo se incluye el contraste bilateral ya que la construccin de los correspondientes unilaterales es la misma que en los casos previos y se deja como ejercicio al lector.

HIPOTESIS:

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: Z =

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0) ( x1 x 2 )
2 1

n1
DISTRIBUCION DEL ESTADIGRAFO CUANDO H REGION DE ACEPTACION :

2 2 n2
N(0, 1)

Z z /2 } REGION CRITICA : {Z / Z > z /2 }

{Z /

ES CIERTA:

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del cuadro 10.

HIPOTESIS:

NIVEL DE SIGNIFICACION: = 0.05 (5%) ESTADIGRAFO DE CONTRASTE: Z =

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0)
0.01 (1%)

Valores crticos : para el 5% z0.025 = 1,96

(12.529 13. 450) = 10.829 0.25 0.36 + 14 6 para el 1% z0.005 = 2,57

Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: Los grados alcohlicos medios de las dos denominaciones son diferentes.
Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida aplicado al ejemplo de la comparacin del grado alcohlico en dos denominaciones de origen.

3.3.- Varianzas desconocidas pero iguales


Supongamos ahora que las varianzas son desconocidas pero iguales (1 = distribucin de la diferencia de medias muestrales es ahora

2 = ). La

Z=

( x1 x 2 ) ( 1 2 ) N(0,1) 1 1 + n1 n2

Tenemos que eliminar el parmetro , para lo cual utilizaremos las distribuciones muestrales asociadas a las cuasi-varianzas muestrales

2 (n 1 1) S 1 2

2 n1 1

2 (n 2 1) S 2 2

2 n 2 1

La suma de dos ji-cuadrado es tambin una ji-cuadrado, sumando las dos anteriores

2 (n 1 1) S 1 2

2 (n 2 1)S 2 2

2 + (n 2 1)S 2 (n 1 1) S 1 2 2

2 n1+ n2 2

Suponiendo que ambas distribuciones son independientes4 , podemos combinarlas para obtener una distribucin t de Student. La variable aleatoria

t=

(x1 x 2 ) ( 1 2 ) 1 1 + n1 n 2 2 + (n 1) S 2 (n 1 1)S 2 1 2 2 n1 + n2 2

(x 1 x 2 ) ( 1 2 ) 1 + 1 S n1 n2

= con S

2 + (n 2 1)S 2 (n 1 1) S 1 2 n1 + n 2 2

sigue una t de Student con n 1 + n 2 -2 grados de

libertad. Si la hiptesis nula es cierta, el estadgrafo de contraste que utilizaremos es

t=

(x1 x 2 ) = t n1+ n2 2 1 1 S + n1 n2

Es posible considerar un estadgrafo de contraste alternativo si se utilizan las varianzas muestrales en lugar de las cuasi-varianzas. Para ello basta tener en cuenta que las distribuciones muestrales asociadas a las varianzas son 2 n 1 S1

2 n1 1

n 2 S2 2 2

2 n 2 1

El nuevo estadgrafo de contraste es de la forma

t=

(x1 x 2 ) = t n1+ n2 2 1 1 S + n1 n2

2 + n2 S 2 n1 S 1 2 con S = . Los dos estadsticos toman exactamente el mismo valor por lo n1 + n2 2


que pueden utilizarse indistintamente. Usaremos el calculado a partir de las cuasi-varianzas porque son estimadores insesgados de la varianza poblacional. En ambos casos lo que se ha hecho es estimar la varianza comn de ambas poblaciones mediante una media ponderada de las varianzas estimadas en cada poblacin, y se ha cambiado la distribucin normal por la t de Student con el correspondiente aumento en la dispersin que hace que sea ms difcil encontrar diferencias. En este caso es necesario que las varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo de contraste. La comprobacin de la igualdad de varianzas se har
4

La demostracin puede encontrarse en cualquier libro de Estadstica Matemtica. No se ha incluido aqu porque supera los propsitos de este trabajo.

posteriormente aunque sea un paso previo a la decisin del tipo de contraste. Las cuestiones relacionadas con la potencia del contraste se interpretan de la misma manera que en todos los casos anteriores. Cuanto mayor sea la diferencia que queremos detectar mayor ser la potencia para detectarla. Cuanto ms pequeo sea el efecto que queremos detectar mayor ser el tamao de muestra necesario para hacerlo. Si aumentamos indefinidamente el tamao muestral conseguiremos que la diferencia muestral sea siempre estadsticamente significativa por pequea que sea.

El contraste completo se muestra en el cuadro siguiente.

HIPOTESIS:

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0) t= (x1 x 2 ) 1 1 S + n1 n 2

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

(x1 x 2 ) 1 + 1 S n1 n2

= con S

2 + (n 2 1)S 2 (n 1 1) S 1 2 n1 + n 2 2
ES CIERTA:

2 + n2 S 2 n1 S 1 2 S= n1 + n2 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA t de Student t n1 + n 2 2

REGION DE ACEPTACION REGION CRITICA

{t / t t n + n 2, } : {t / t > t n + n 2, }
:
1 2 1 2

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales.

El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los siguientes resultados.

HIPOTESIS:

NIVEL DE SIGNIFICACION: = 0.05 (5%) ESTADIGRAFO DE CONTRASTE: t =

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0)
0.01 (1%)

(12.529 13.450) = 5.256 1 1 0.359 + 14 6

Valores crticos : para el 5% t18,0.025= 2.101 para el 1% t 18,0.005= 2.878 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin crtica, por tanto rechazamos la hiptesis nula. Conclusin no estadstica: El grado alcohlico es significativamente diferente en Ribera de Duero y Toro.
Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas pero iguales, aplicado a los datos sobre el grado alcohlico.

3.4.- Varianzas desconocidas y distintas


Supongamos ahora que las varianzas son desconocidas y distintas (1 2) de forma que ya no es posible eliminar el parmetro en el clculo de la t de Student. Se han propuesto diversas aproximaciones para la aproximacin de la distribucin del estadgrafo de contraste. Describiremos aqu la aproximacin de Welch. La demostracin completa est fuera de los propsitos de este trabajo.

HIPOTESIS:

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0) (x1 x 2 ) 2 S 2 S 1 + 2 n1 n 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES CIERTA: t de Student t f donde f es el entero ms prximo a 2 S 2 2 S 1 + 2

f=

n1

n2

S 2 2 1

n1 n2 + n1 + 1 n2 + 1
REGION DE ACEPTACION REGION CRITICA : :

S 2 2 2

{t /

t t f,

{t /

t > t f,

Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y distintas.

3.5.- Contrastes de comparacin de medias para muestras grandes.


Como ya se coment para el caso de una nica poblacin, el teorema central del lmite permite asignar distribuciones normales a las medias muestrales aunque la distribucin en la poblacin no sea normal. Si disponemos de una muestra de tamao grande y estimamos la varianza poblacional a travs de la cuasivarianza muestral, podemos construir un contraste aproximado de comparacin de medias utilizando la distribucin normal.

HIPOTESIS:

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

H 0 : 1 = 2 H a :1 2

( 1 2 = 0) ( 1 2 0) (x1 x 2 ) 2 S 2 S 1 + 2 n1 n 2

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES CIERTA: REGION DE ACEPTACION REGION CRITICA : N(0,1) :

{Z /

Z z /2 }

{Z /

Z > z /2 }

Cuadro 12: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas y tamaos muestrales grandes.

Obsrvese que estamos suponiendo implcitamente que la cuasi-varianza muestral es un buen estimador de la varianza poblacional, prximo al verdadero valor.

3.6.- Obtencin de datos para la comparacin de medias.


Dos son los tipos de datos de los que es posible disponer para la comparacin de las medias - Datos procedentes de estudios observacionales. - Datos procedentes de estudios experimentales. En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra aleatoria garantiza la representatividad . A este tipo de datos corresponde el ejemplo que hemos utilizado como gua para la explicacin. Los datos experimentales se corresponden con experimentos planificados en los que se asignan dos tratamientos distintos a un grupo de individuos. En este tipo de diseos es necesario que todas las caractersticas que no intervienen en el diseo y puedan modificar la respuesta, estn controlados y sean similares en los dos grupos a comparar. Por ejemplo, si se desea hacer un ensayo clnico en el que se dispone de un grupo de pacientes de forma que a un subconjunto se le aplicar el tratamiento a comparar y el resto ser utilizado como control sobre el que se utilizar un placebo (substancia no activa) con la misma apariencia que el tratamiento, los pacientes de ambos grupos han de ser similares en composicin con respecto a caractersticas

como la edad peso u otros factores que pudieran alterar la respuesta y que no intervienen directamente en el diseo. Se tratar de evitar sesgos de forma que los efectos puedan ser asignados a los tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el que se dispone de dos camadas distintas, no sera correcto asignar un tratamiento diferente a cada una de las camadas ya que sera imposible separar los efectos del tratamiento y de la camada. En Estadstica decimos que los tratamientos estn confundidos. La forma de asignar tratamientos a individuos para que no existan errores sistemticos es hacerlo al azar, por ejemplo, sorteando cual es el tratamiento que se aplica a cada individuo. A este procedimiento se le denomina aleatorizacin, y juega un papel fundamental en el diseo de experimentos planificados. Hay que hacer notar que al azar no significa de cualquier manera o cualquiera de los tratamientos, para conseguir una verdadera aleatorizacin es necesario utilizar la probabilidad. En los experimentos diseados es muy importante realizar estudios previos sobre el tamao de muestra necesario para detectar un determinado efecto. Este problema est fuera del alcance de un curso introductorio aunque las ideas bsicas fueron expuestas cuando se trat con los intervalos de confianza. Este tipo de experimentos se comenz en Agricultura para extenderse despus a otras aplicaciones como la Industria o la Medicina. Actualmente los ensayos clnicos controlados, basados fundamentalmente en conceptos de Estadstica, forman una parte importante de la investigacin mdica. Todo el mundo ha odo alguna vez en las noticias los resultados de ensayos clnicos controlados antes de lanzar al mercado un nuevo medicamento.

4.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES NORMALES CON DATOS APAREADOS.
En el caso de datos independientes en el punto anterior, se dispone de dos conjuntos distintos de individuos para cada una de las situaciones experimentales que se quiere compara. Una forma de controlar la variabilidad debida a los propios sujetos consiste en aplicar todos los tratamientos en estudio a todos los individuos de la muestra en dos ocasiones diferentes. A este tipo de datos lo denominaremos datos apareados, relacionados, o ligados y consisten en dos mediadas tomadas sobre el mismo conjunto d individuos en dos ocasiones diferentes. Para ilustrar los procedimientos utilizaremos datos tomados de MARTIN ANDRES y LUNA

CASTILLO (1990). Supongamos que deseamos saber si la presin sistlica de personas alcohlicas se modifica cuando dejan el hbito de beber, para ello se toma una muestra de 10 personas que ingresan en en el hospital para tratar su alcoholismo y se toma una medida de la presin sistlica antes y despus de dos meses de haber dejado de beber. El experimento fue diseado de esta manera ya que aunque se espera una reduccin en la presin sangunea, esta depende del valor inicial en cada individuo. Los resultados obtenidos para la presin sistlica mediada en milmetros de mercurio fueron los siguientes: Individuo Antes Despus Reduccin 1 140 145 -5 2 165 150 15 3 160 150 10 4 160 160 0 5 175 170 5 6 190 175 15 7 170 160 10 8 175 165 10 9 155 145 10 10 160 170 -10

Como las variables estn relacionadas, todos los clculos que realizamos en el caso de datos independientes ya no son vlidos. Para evitar este problema nos centraremos en una sola variable aleatoria que es la diferencia entre los dos valores obtenidos para cada uno de los individuos estudiados que mide el efecto del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos que tiene una distribucin normal de media d desviacin tpica d . La hiptesis de inters es ahora que, en promedio, el tratamiento aplicado a los individuos es 0, es decir, d = 0. El contraste es ahora exactamente igual que el descrito para la media de una poblacin normal (ahora la poblacin de las diferencias. Describimos a continuacin el contraste para muestras pequeas y varianza desconocida para

d a la cuasi datos apareados. Llamaremos d , a la media muestral de las diferencias y S desviacin tpica. El contraste se muestra en el cuadro ??.

HIPOTESIS:

H 0 : d = 0 H a : d 0 d d S
0

NIVEL DE SIGNIFICACION: ESTADIGRAFO DE CONTRASTE: t =

n
ES CIERTA: tn-1

DISTRIBUCION DEL ESTADIGRAFO CUANDO H REGION DE ACEPTACION REGION CRITICA : :

{t /

t t n1,

{t /

t > t n1,

Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

El resto de los contrastes se construye de la misma manera que en el caso de una sola poblacin. El cuadro ?? muestra ejemplo.

HIPOTESIS:

H 0 : d = 0 H a : d 0 6 8. 433 = 2.250 10
0

Nivel de significacin: 5% y 1% ESTADIGRAFO DE CONTRASTE: t =

DISTRIBUCION DEL ESTADIGRAFO CUANDO H

ES CIERTA:

t9

Valores crticos : para el 5% t9, 0.05= 2,262 para el 1% t 9, 0.01= 3,250 p-valor : 0,0510 Decisin estadstica: El valor del estadgrafo de contraste pertenece a la regin de aceptacin, por tanto aceptamos la hiptesis nula. Conclusin no estadstica: Con los datos de los que disponemos no existe una evidencia significativa de que exista una diferencia entre la presin sistlica antes y despus de haber dejado de beber.
Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados aplicado al ejemplo de la reduccin de la tensin arterial en alcohlicos.

5.- ARBOL DE DECISIONES PARA LA COMPARACIN DE MEDIAS DE DOS POBLACIONES NORMALES.


La figura siguiente muestra de forma esquemtica el proceso de decisin por el tipo de contraste a utilizar en poblaciones normales.

M. GRANDES

VARIANZA CONOCIDA O DESCONOCIDA

test Z

Z =

(x 1 x 2 )
n
2 1 1

2 2 2

= N(0,1)

VARIANZA CONOCIDA

test Z

Z =

(x 1 x 2 )
n
2 1 1

2 2 2

= N(0,1)

INDEPEND. IGUALES M. PEQUEAS

tc = test t
C

(x 1 x 2 ) s
1 n
1

1 n

=t n +n -2
1 2

s =

2 (n 1

1 )s 2 1

n1 + n 2 2

+ (n 2

1 )s 2 2

NORMALES

VARIANZAS DESCONOCIDAS test t(Welch) DISTINTAS

tw =

(x 1 x 2 )
s
2 1

s n

2 2 2

= tf s2 1 + n
1

s n

2 2 2

f=

2 s1 n 1 (n +1 )
1

2 s 2 n 2 (n +1 )
2

test U

Za =
M. GRANDES

d
d
n

N(0,1 )

test Z a

d =media de las diferencias d = desviacin de las diferencias

APAREADOS

ta =
M. PEQUEAS

d
S
d

t n1

test t

n 1

=media de las diferencias

S d = desviacin de las diferencias

Figura : Arbol de de decisines para el contraste de comparacin de las medias de dos poblaciones normales.

6.- CONTRASTES PARA LA COMPARACIN DE LA TENDENCIA CENTRAL CUANDO LAS POBLACIONES NO SON NORMALES.
En muchas situaciones prcticas es difcil aceptar la hiptesis previa de que los datos son normales al disponerse, por ejemplo, de distribuciones muy asimtricas. En estos casos los contrastes anteriores no detectan claras diferencias en el comportamiento de las poblaciones, debido a que la dispersin es muy grande o debido a que la medida de tendencia central utilizada (la media) no es la correcta porque est afectada por los valores extremos. Los contrastes paramtricos descritos antes son especialmente sensibles a valores extremos de la variable. Para solucionar el problema se utiliza la mediana en lugar de la media construyndose los que se denominan contrastes no paramtricos al no referirse ya a parmetros de una distribucin concreta.

Me1

x1

x2

Me2

En la figura se muestra como para distribuciones asimtricas es mucho ms intuitiva la comparacin de las medianas que la comparacin de las medias, ya que estas estn afectadas por los valores muy extremos de la distribucin. La situacin del esquema es muy tpica, por ejemplo, en problamas mdicos en los que la mayora de los controles (curva de la izquierda) presentan valores normales de la variable, y solamente algunos de ellos presentan valores elevados, en el grupo de los pacientes enfremos, la mayora presenta valores elevados y solamente alguno presenta valores normales. El problema es particularmente crtico cuando el tamao de muestra es pequeo pero, incluso cuando el tamao de muestra es grande y se utiliza

errneamente el contraste paramtrico correspondiente, se subestima el tamao del efecto a pesar de que la distribucin normal est correctamente utilizada aplicando el Teorema Central del lmite. La prctica habitual, especialmente en el mbito mdico, de aplicar contrastes no paramtricos cuando la muestra es pequea y paramtricos cuando es grande es claramente errnea y puede llevar a no encontrar efectos experimentales que aparecen claramente definidos en los datos. Para la comparacin de medianas de dos poblaciones con datos independientes el contraste ms utilizado es el conocido como U de Mann-Withney, est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales, para comprobar el percentil en el que se encuentra nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en amos grupos. El resto del razonamiento es similar al de cualquier contraste, si el valor muestral obtenido es muy probable aceptamos la hiptesis nula y si no la rechazamos. Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.

6.1.- Comparacin de medianas de dos poblaciones con datos independientes: el contraste U de Mann-Withney
Est basado en la suma de los rangos de orden de las observaciones de las dos poblaciones consideradas conjuntamente y consiste bsicamente en calcular la distribucin muestral a partir de todas las ordenaciones posibles con muestras de los mismos tamaos en el caso de que las medianas fueran iguales. Cabe esperar que si las medianas de las dos poblaciones son iguales los datos estn mezclados y las sumas de rangos de orden sean similares en ambos grupos.

HIPOTESIS:

H 0 : Me1 = Me 2 H a :Me 1 Me 2

(Me 1 Me 2 = 0) (Me1 Me 2 0)

ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones de cada grupo.(R1 y R2 )

n (n + 1) U = min(U 1 ,U 2 ) U i = n 1n 2 + i i Ri 2

Para muestras grandes: Z =

n n U 1 2 2 n 1 n 2 (n 1 + n 2 + 1) 12
0

DISTRIBUCION DEL ESTADIGRAFO CUANDO H Distribucin emprica o REG. DE ACEP. REGION CRITICA : :

ES CIERTA:

U U {U / U {U / U [U ;U
inf ;n1 ,n2 inf ;n1 ,n 2

N(0,1) para muestras grandes. sup ;n1,n 2

{Z /

Z z /2 } Z > z /2 }

sup ;n1 ,n2 ]

{Z /

6.2.- Comparacin de medianas de dos poblaciones con datos apareados: el test de Wilcoxon
Contrasta la hiptesis de que la mediana de las diferencias es cero. La base del contraste es similar al caso de muestras independientes.

HIPOTESIS:

H 0 : Me d = 0 H a :Me d 0

ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los valores de ambos grupos, Suprimir las observaciones nulas, Ordenar las observaciones en valor absoluto, asignar el rango correspondiente y calcular las sumas de rangos de las observaciones positivas y negativas.(T+ y T-)

T = min(T+ , T )
Para muestras grandes: Z =

n(n + 1) 4 n(n + 1)(2n + 1) 24 T


0

DISTRIBUCION DEL ESTADIGRAFO CUANDO H Distribucin emprica o REG. DE ACEP. : sup {T / Tinf ;n T T ;n }

ES CIERTA:

N(0,1) para muestras grandes.

{Z /

Z z /2 }

REGION CRITICA

sup {T / T [Tinf ;n ;T ;n ]}

{Z /

Z > z /2 }

7.- COMPARACIN DE VARIAS POBLACIONES. INTRODUCCIN AL PROBLEMA DE LAS COMPARACIONES MLTIPLES.


En muchas situaciones experimentales se dispone de r >2 poblaciones a comparar. La primera aproximacin al problema es la comparacin de todas la parejas de medias, sin embargo, la propia construccin del procedimiento de contraste hace que la probabilidad de error no se mantenga al realizar todas las comparaciones por parejas. Supongamos que disponemos de r poblaciones y queremos contrastar la hiptesis de que todas las medias son iguales

H 0 : 1 = K = i = K = r
i,j La hiptesis es cierta si y solo si las hiptesis por parejas H 0 : i = j para todas las

r r(r 1) k= = combinaciones posibles de i y de j. 2 2


Si contrastamos la hiptesis por separado a un nivel de significacin , tenemos

P(Aceptar

H0 /

i,j

H0

i,j

cierta ) = 1

Si las comparaciones fueran independientes

P(Aceptar

H0 /

H0

cierta) = P( H0 /
i,j

i j i,j

I Aceptar

H i,j 0 /

H0

cierta ) =

P(Aceptar
i j

H0

cierta ) = (1 ) k

es decir, la probabilidad de cometer un error tipo I es P(Re chazar H 0 / H 0

cierta ) =

= 1 P(Aceptar

H0 /

H0

cierta ) = 1 (1 ) k

Por ejemplo, para tres poblaciones en las que se realizan comparaciones individuales al 5%, hay 3 una probabilidad de 1 0.95 = 1 0.8574 = 0.1426 de rechazar la hiptesis nula 10 indebidamente. Con 5 poblaciones la probabilidad sera 1 0.95 = 1 0.5987 = 0.4013 . 45 Con 10 poblaciones 1 0.95 = 1 0.0994 = 0.9006 , es decir, con 10 poblaciones, aunque todas las medias fueran iguales tendramos una probabilidad del 90% de encontrar diferencias en alguna de las parejas. Este problema es importante no solo en la comparacin de medias por parejas sino tambin cuando se quieren realizar muchas comparaciones sobre el mismo conjunto de datos. Supongamos, por ejemplo, que un investigador desea demostrar que es capaz de encontrar diferencias entre personas convictas por algn tipo de delito y personas que no. A tal fin realiza 100 medidas biomtricas como el permetro torcico, el permetro craneal, etc ... que compara en los dos grupos. En cada comparacin tiene una probabilidad del 5% de rechazar indebidamente, sin embargo (si las medidas fueran independientes) tendra una probabilidad del 99,41% de encontrar diferencias en alguna de las variables. El nmero esperado de contrastes significativos sera de 5. El problema de mantener el nivel de significacin global en la comparacin de las medias de varios grupos se soluciona mediante la tcnica denominada Anlisis de la varianza seguido de las comparaciones por parejas en las que se hace algn tipo de correccin en el nivel de significacin individual. El Anlisis de la Varianza se menciona aqu simplemente para alertar al lector de que existen muchos problemas abiertos que pueden ser objeto de estudio posterior.

8.- VALIDACIN DE LAS HIPTESIS DE PARTIDA.


A lo largo de los distintos puntos de la descripcin de los contrastes bsicos hemos ido haciendo una serie de suposiciones que no hemos verificado como son las hiptesis de normalidad o de igualdad de varianzas (homocedasticidad) de las poblaciones. La validacin de estos supuestos se ha dejado para el final aunque debe realizarse previamente a la aplicacin de los procedimientos de contraste. Existen muchos mtodos que permiten la validacin de la hiptesis de normalidad, desde los ms formales consistentes en nuevos contrastes cuya hiptesis nula es la hiptesis de que los datos proceden de una distribucin normal, hasta simples procedimientos descriptivos como el

histograma o el Box-Plot que nos permiten decidir si la distribucin es aproximadamente simtrica o normal y si la dispersin de los grupos en estudio es aproximadamente la misma. Los procedimientos de contraste de comparacin de medias suelen ser robustos con respecto a la hiptesis de normalidad aunque muy sensibles a la presencia de outliers (datos anormalmente grandes o pequeos). En las representaciones Box-plot de los grupos a comparar buscaremos la simetra de lo grupos y, sobre todo, la presencia de observaciones extraas en los extremos de la distribucin. La figura siguiente muestra el grfico con los Box-Plots correspondientes al ejemplo de las denominaciones de origen.
14,25 14 13,75 13,5 13,25 13 12,75 12,5 12,25 12 11,75 grado Box Plot Ribera Toro

Figura 12: Box plot para la comparacin del grado alcohlico de las denominaciones de Ribera y Toro.

El grfico muestra como no hay observaciones muy extremas, las dos distribuciones tienen aproximadamente la misma dispersin y la correspondiente a la denominacin de origen de Toro parece ms asimtrica. La asimetra podra ser debida simplemente a que el tamao muestral es muy pequeo en este grupo. En lneas generales parece que las hiptesis se verifican y es posible aplicar el contraste par la igualdad de medias de dos poblaciones normales con varianzas desconocidas pero iguales. Para contrastar ms formalmente que las varianzas son iguales se puede construir un contraste muy simple teniendo en cuenta la distribucin del cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado asociadas.

El cociente

(n 1 1) 2 2 S (n 1 1) 2 F == = 1 2 2 2 (n 2 1) S S 2 2 1 2 2 (n 2 1)
sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad. 2 2 Si la hiptesis nula H 0 : 1 = 2 es cierta, el cociente de cuasi-varianzas muestrales 2 1

2 S F= 1 sigue una distribucin F de Snedecor con n1-1 y n2-1 grados de libertad. 2 S


2 El contraste completo aparece en el cuadro siguiente.

HIPOTESIS:

2 = 2 H 0 : 1 2 2 2 H a : 1 2

NIVEL DE SIGNIFICACION:

2 S 1 ESTADIGRAFO DE CONTRASTE: F = 2 S
2
0

DISTRIBUCION DEL ESTADIGRAFO CUANDO H

ES CIERTA:

F n11, n2 1
REGION DE ACEPTACION
1 2 1 2

{F / F [F n 1,n 1, 1 /2 ,F n 1,n 1, 1 /2 ]}

REGION CRITICA

{F / F [F n 1,n 1, 1 /2 ,F n 1,n 1, 1 /2 ]}
1 2 1 2

Cuadro 6: Contraste de comparacin de las varianzas de dos poblaciones normales.

Para el ejemplo de la comparacin del grado alcohlico en las dos denominaciones de origen consideradas el contraste de comparacin de varianzas se muestra en el cuadro siguiente.

HIPOTESIS:

2 = 2 H 0 : 1 2 2 2 H a : 1 2

NIVEL DE SIGNIFICACION: = 5% y 1%

2 S 1 ESTADIGRAFO DE CONTRASTE: F = 2 = 0.686 S


2 DISTRIBUCION DEL ESTADIGRAFO CUANDO H
0

ES CIERTA:

F n11, n2 1
p-valor : 0.6261 Conclusin : Se acepta la hiptesis nula.
Cuadro 7: Contraste de comparacin de las varianzas de dos poblaciones normales aplicado ala comparacin de la variabilidad del grado alcohlico.

Como se acepta la hiptesis de igualdad de varianzas, la comparacin de medias ha de hacerse en el supuesto de que las varianzas son iguales.

El valor F n 1,n 1, 1 /2 es el valor crtico que deja a la derecha un rea de 1 1 2 1 puede calcularse como F n 1,n 1, 1 /2 = 1 2 F n 1,n 1, /2 2 1
5

/ 2 . En la prctica

Das könnte Ihnen auch gefallen