Sie sind auf Seite 1von 50

_______________________________________________________________________ 6 Inferencia Estadstica: Intervalos de confianza ________________________________________________________________________ 6.

1 INTRODUCCION
Hoy vamos a comenzar la segunda parte del curso que probablemente es la ms cercana a lo que ustedes han conocido como estadstica. En esta parte, usaremos conceptos bsicos desarrollados por el Dr. Marquet en las clases anteriores y haremos uso ms bien implcito de la teora de probabilidades. Esta parte del curso es la parte ms tradicional de la estadstica aplicada, la que tiene que ver con la estimacin (de parmetros) estadsticos y con la prueba de hiptesis estadsticas. Nuestra aproximacin general corresponde a una rama de la estadstica denominada frecuentista, la cual visualiza probabilidades de eventos como las frecuencias esperadas de ese evento particular, si el experimento o ejercicio pudiera repetirse de igual forma muchas (cientos, miles) veces. La aproximacin tradicional de los estudiantes a esta parte de la estadstica ha sido ms bien el aprender estadstica como un libro de recetas de cocina, mezclando condimentos porque el libro dice que el plato final tendr buen sabor. Aqu vamos a hacer lo posible por cambiar esta percepcin. La estadstica NO es un libro de recetas sino que es una ciencia en s misma y como toda ciencia esta continuamente creciendo y modificndose gracias a nuevos estudios y revisiones, y en particular gracias a los grandes avances en computacin. Puesto que la estadstica es una ciencia y que nosotros hacemos uso de herramientas estadsticas para resolver problemas biolgicos, frecuentemente NO existe una solucin nica para analizar nuestros datos sino que pueden haber varias maneras apropiadas para hacerlo. La parte peligrosa de esto es que siempre existen muchas maneras equivocadas de analizar los datos. La idea de este curso es que sepan cuando pueden aplicar las limitadas herramientas que les vamos a entregar y cuando es mejor que consulten a otra persona con mayor conocimiento en vez de realizar anlisis errneos. El anlisis de datos debe ser un proceso interactivo. Uno no puede seguir los pasos del libro de recetas a ciegas y llegar al plato final. Esto tampoco significa que uno debe amasar los datos de manera de alterar las conclusiones. El proceso interactivo significa que uno debe familiarizarse con los datos de un experimento o estudio, conocer bien la distribucin de los datos, los problemas con algunas observaciones, como esos problemas pueden afectar nuestras conclusiones, etc. Es difcil resaltar suficientemente la importancia que tiene el graficar datos. Hacer buenos y muchos grficos (no solamente los grficos finales del informe o publicacin) es una parte esencial del proceso de anlisis e interpretacin de resultados de cualquier estudio. Hoy en da, con los muchos paquetes computacionales que permiten hacer grficos en forma muy rpida, no existe ninguna excusa para no explorar grficamente los datos de un estudio. Lamentablemente, es difcil hacer grficos exploratorios en las clases y por ello su importancia puede aparecer disminuida en las clases lectivas.

50

Uno de los costos de ensear los principios bsicos de estadstica y no recetas de cocina, es que uno puede cubrir menos recetas o tcnicas estadsticas. Por ello hemos tomado la decisin de cubrir en este curso solamente dos mtodos de inferencia y anlisis estadsticos generales: ANALISIS DE VARIANZA simple y REGRESION LINEAL. Por qu ANDEVA (= ANOVA en ingles) y REGRESION?

Esta figura hecha a mano por Bruce McCune, quien recolecto los datos, muestra:

a. ANOVA y Regresin son usados con mucho ms frecuencia que cualquier otro mtodo estadstico. b. De todos los artculos publicados solamente tres de ellos NO presentaron anlisis estadsticos de algn tipo.

51

c. Existe una enorme diversidad de tcnicas estadsticas ms particulares que ANDEVA simple y regresin lineal, las que nos ayudan a abordar preguntas biolgicas ms especficas o complejas.

6.2 Inferencia Estadstica, Intervalos de Confianza y prueba de hiptesis 6.2.1 Qu es inferencia estadstica? Inferencia estadstica es el proceso de hacer enunciados o afirmaciones acerca de una poblacin basados en los resultados obtenidos en las muestras de dicha poblacin. En otras palabras, inferencia es el proceso de usar estadigrafos o estadsticos obtenidos de una muestra (ej. media muestral, m) para estimar parmetros (ej. media poblacional, ) de una poblacin. Por ejemplo, una inferencia estadstica sera el usar los datos de altura de los estudiantes de esta clase para estimar la altura promedio de estudiantes de biologa de la Universidad Catlica. Qu pasa si en realidad NO estamos interesados en saber la altura promedio de todos los estudiantes de biologa de la Universidad Catlica sino que solamente la altura promedio de los estudiantes de este curso y contamos con todos los datos que ustedes nos entregaron? Estamos entonces realizando una inferencia estadstica acerca de la altura promedio de los estudiantes este curso? La respuesta es NO. En ese caso sabemos cual es el parmetro poblacional pues tenemos un censo de los estudiantes y no necesitamos inferirlo. Podemos entonces simplemente describir nuestra poblacin de datos de altura. Qu pasa si por ejemplo los ayudantes del curso se cansaron de entrar todos los datos de ustedes y decidieron elegir al azar 20 personas? Si usamos estas 20 personas para estimar la altura promedio del curso, estamos entonces realizando una inferencia estadstica? La respuesta es SI. Lo que define nuestra poblacin y muestra estadstica es el objeto de inters sobre el que se quiere decir algo y NO la estructura fsica u organizacin biolgica. Es muy importante tener claro en el curso de una investigacin cual es la poblacin sobre la cual se desean conocer determinados parmetros. Esto determina el tipo de muestreo y el diseo experimental que debe usarse. Adems, se debe tener en mente que los parmetros de una poblacin estadstica son estticos.

52

6.2.2 Qu tipo de preguntas cientficas se responden a travs de la Prueba de Hiptesis y los Intervalos de Confianza? Existen dos preguntas fundamentales que los investigadores deben responder durante el curso de una investigacin cientfica: A. Cun confiables son los resultados obtenidos? Por ejemplo, si durante un experimento uno aplica una hormona de crecimiento a un grupo de cerdos y stos crecen 10 kilos ms al cabo de un mes que aquellos cerdos sin hormonas de crecimiento, Cun confiable es que el efecto real de la hormona de crecimiento sea efectivamente 10 kilos? En otras palabras, si aplicamos esta hormona a todos los cerdos del universo y de esa manera conocemos el efecto real (parmetro) de la hormona en un censo de los cerdos, Cun acertada sera nuestra estimacin de 10 kilos al mes? En muchas situaciones el parmetro que deseamos conocer no es el tamao del efecto de un determinado tratamiento, sino que el valor numrico de una caracterstica o atributo de una poblacin en la que no podemos medir todos los individuos que conforman la poblacin. Por ejemplo, para determinar la tasa de incidencia de cncer en adultos fumadores, se realiza un muestreo aleatorio de la poblacin, se calcula la tasa de incidencia de cncer en la muestra y con ello se estima la tasa en toda la poblacin de fumadores adultos. Lo que nos interesa entonces es saber el nivel de certidumbre de nuestra estimacin de tasa de incidencia de cncer en la poblacin. Para responder este tipo de preguntas nosotros usamos Intervalos de Confianza y hacemos inferencias estadsticas.

Intervalo de Confianza: Los intervalos de confianza son una medida de la certidumbre (confiabilidad) que nuestro estadstico se aproxime al valor real poblacional. Los intervalos de confianza expresan la probabilidad que los lmites definidos por el intervalo incluyan efectivamente el valor real (parmetro).

Por ejemplo, si nuestra estimacin del efecto de la hormona de crecimiento es 10 kilos y con nuestros datos calculamos que el intervalo de confianza al 95% es 3.5, entonces podemos decir que: existe un 95% de probabilidad de que el intervalo entre 6.5 y 13.5 kilos efectivamente contenga la media real de la poblacin

53

B. La otra pregunta fundamental durante el curso de una investigacin cientfica, particularmente en investigacin bsica ms que aplicada es: Cun probable es que las diferencias entre los resultados observados y esperados bajo la base de una hiptesis particular hayan sido producidos por simple azar? En el ejemplo anterior, Cun probable es que por simple azar el grupo de cerdos que recibi la hormona de crecimiento haya crecido 10 kilos ms que el grupo control en un mes? Este tipo de preguntas acerca de la significancia estadstica (valor de P) de un resultado se responde a travs de la Prueba de Hiptesis .

Prueba de Hiptesis: Una prueba de hiptesis estadstica es tomar la decisin de aceptar o rechazar una hiptesis nula, cuantificando la probabilidad de cometer un error al tomar esta decisin y usando un criterio arbitrario pre establecido. Por ejemplo, si seguimos el standard de considerar significativo algo que por simple azar no ocurre ms de 1 en 20 veces (5% de las veces), entonces tomamos la decisin de rechazar una hiptesis nula (que las diferencias entre grupos de chanchos no son significativas) cuando nuestra probabilidad de error es menor del 5% de las veces. Ms adelante volveremos a estas definiciones y aclararemos que es una Hiptesis Nula y su importancia en el proceso de generacin de conocimiento cientfico. 6.2.3 El mbito de la aplicacin estadstica en la Toma de Decisiones. Hasta ahora cuando nos referimos a tomar una decisin nos hemos referido solamente a la decisin de aceptar o rechazar una hiptesis estadstica determinada (la hiptesis nula), la cual tiene un fundamento o modelo biolgico. Esta decisin de aceptar o rechazar una hiptesis basados en un nivel preestablecido arbitrariamente (5, 10%, 20%) NO es lo mismo que la Toma de Decisiones en el proceso de evaluacin de impacto ambiental o en general en la toma de decisiones para la regulacin de una actividad humana. Esto parece bastante trivial, sin embargo, mucha gente no especialista y tambin algunos pseudo especialistas en evaluacin ambiental confunden estas dos cosas. En general la toma de decisiones es un proceso mucho ms complejo. En esta toma de decisiones acerca de una actividad humana concurren muchos aspectos biolgicos y no biolgicos y ciertamente cientficos y no cientficos. La prueba de hiptesis estadstica tiene (o debera

54

tener) un rol reducido en este proceso, pero se emplea con mucha (demasiada) frecuencia en evaluacin de impacto ambiental. La inferencia estadstica de tamaos de efectos (incluyendo intervalos de confianza) provee mayor informacin en el proceso de toma de decisiones.

6.3 Principios y Teoremas bsicos

Antes de poder hablar de intervalos de confianza y prueba de hiptesis necesitamos revisar algunos teoremas y principios bsicos que ustedes en este curso tendrn que tomar como acto de fe pues no tendremos tiempo para demostrarlos matemticamente. Vamos a volver sobre algunos principios y teoremas bsicos relacionados a teora de muestreo y a la teora de lmites centrales. Repasar estos teoremas en forma ms aplicada nos servir para entender otros principios ms adelante. A. Tamao de la muestra y la relacin estadsticos (= estadigrafos) - parmetros: A medida que el tamao de la muestra aumenta, los estadgrafos tienden a converger en parmetros. Si esto no ocurre, entonces los estadgrafos tienen sesgo y no son buenos estimadores de parmetros.

Valor del estadstico

VALOR ESTADIGRAFO PARAMETRO

TAMAO MUESTRA

55

B. Las medias de muestras provenientes de una poblacin con distribucin normal siguen a su vez una distribucin normal, independiente del tamao de la muestra.
dist. de las medias mustrales

poblacin

muestras n = 5

muestras n =20

C. A medida que el tamao muestral aumenta, las medias de las muestras de una poblacin con cualquier distribucin se aproximarn a la distribucin normal (Teorema de Limite Central)

poblacin
muestras n = 4

dist. de las medias mustrales

muestras n = 10

muestras n = 20

Conclusin Importante de los teoremas anteriores: Si el tamao de muestra es grande ( > 30) podemos usar las propiedades de la distribucin normal para hacer inferencias acerca de poblaciones que NO estn normalmente distribuidas A medida que la poblacin se diferencia ms y ms de una distribucin normal, el tamao de muestra necesario para observar normalidad de las medias ser ms y ms grande.

D. A medida que el tamao muestral aumenta, la desviacin estndar, s , converge en la desviacin estndar poblacional, , pero se mantiene en el mismo orden de magnitud. Sin embargo, a medida que el tamao de muestra aumenta, la desviacin estndar de las medias de las muestras de una poblacin (= error estndar) disminuye en magnitud.

56

Qu es el Error Estndar? El EE es la desviacin estndar de un estadgrafo, obtenido de varias muestras de una poblacin
muestra #1, n = 20 muestra #2, n =20 muestra #3, n = 20

calcular medias de cada muestra (u otro


estadigrafo)

desviacin estndar de las medias = Error Estndar

EE = Sy = s / n
n 5 20 30 50 70 poblacin
(n = 100)

media 5.7718 5.9251 5.6812 5.5072 5.5606 5.5476

s 1.1562 0.9565 0.9688 1.0121 0.9836 0.9601

EE 0.5170 0.2138 0.1768 0.1431 0.1175

Entonces, el error estndar (desviacin estndar de las medias) depende de la desviacin estndar y del tamao de la muestra.

6.4 Intervalos de Confianza Los intervalos de confianza son una estimacin de la confiabilidad de nuestros estadsticos (ej. s, m, g, etc.). Lo primero que queremos saber es si estos estadsticos son estimadores no sesgados de los parmetros poblacionales. Sin embargo, saber que el promedio aritmtico, m, es un estimador no sesgado de la media poblacional, , NO es suficiente. Queremos adems saber cuan confiable es m como estimacin de . En otras palabras, queremos saber cual es la magnitud real de , 2, u otros parmetros.

57

El valor real de estos parmetros casi siempre es desconocido y por lo general es imposible de conocer. Entonces, a travs de calcular intervalos de confianza, calculamos la confiabilidad que estadsticos obtenidos de las muestras se acerquen a los valores reales. Por ejemplo, es imposible saber exactamente la magnitud del efecto de una droga sobre el riesgo de ataques cardiacos. Cunto realmente disminuye la probabilidad de tener un ataque cardiaco el consumir la droga X? Es esta disminucin suficiente para aceptar los efectos secundarios de la droga? Cunto exactamente se reducen las caries dentales por usar Flor en la pasta de dientes? Es la disminucin en la frecuencia de caries dentales suficiente para justificar el dao ecolgico del flor en los ros? Los intervalos de confianza nos dan una idea de los lmites dentro de los cuales podemos estar ms o menos seguros de encontrar el valor (parmetro) real de un parmetro (efecto real de la droga X, efecto real del flor). El clculo de intervalos de confianza NO implica aceptar o rechazar una hiptesis sino que estimar cual es el tamao del efecto de un factor (cuanto ms peso ganan los chanchos con hormonas adicionales). No es el problema saber si el flor disminuye significativamente la formacin de caries, sino que en cuanto la disminuye. Como veremos ms adelante, los intervalos de confianza normalmente se corresponden con las regiones de aceptacin o rechazo de una hiptesis nula, pero no siempre son intercambiables. En el caso ms comn estaremos interesados en estimar un Intervalo de Confianza alrededor de la media, pero stos tambin pueden calcularse alrededor de la varianza u otro parmetro. Recuerden que en general las medias de una poblacin estn normalmente distribuidas. Esto quiere decir que si tomamos varias muestras repetidas de tamao n de una poblacin y a cada muestra le calculamos la media, m, estas medias estarn normalmente distribuidas. Recuerden tambin las propiedades de la distribucin normal:

Media () 1 DE () ==> contiene el 68.3% de la distribucin normal Media () 2 DE () ==> contiene el 95.4% de la distribucin normal Media () 3 DE () ==> contiene el 99.7% de la distribucin normal Desde esta distribucin se puede calcular que: Media () 0.674 DE () ==> contiene el 50% de la distribucin normal

58

Media () 1.960 DE () ==> contiene el 95% de la distribucin normal Media () 2.576 DE () ==> contiene el 99% de la distribucin normal Entonces, la regin desde 1.96 veces la desviacin (= 1.96 ) de las medias por debajo de , hasta 1.96 veces de las medias por arriba de , contendr el 95% de todas las medias de muestras de tamao n de la poblacin.

Nota: nosotros seguiremos la notacin ms tradicional que identifica los estadsticos de las muestras con letras latinas y los parmetros de las poblaciones con letras griegas: Muestra m, o Y-barra s s2 Poblacin 2

Media Desviacin Estndar Varianza

59

Distribucin Normal Acumulada

Funcin de Densidad de la Distribucin Normal

Areas bajo la curva de Distribucin Normal

Usando las propiedades de la distribucin normal podemos entonces calcular el Intervalo de Confianza al 95% para el promedio:

1.96 * 1.96 * m < < m+ n n

60

donde: m = promedio de la muestra de la poblacin, = desviacin estndar de la poblacin, = Media de la poblacin

Ahora, recuerden que la desviacin de las medias es el ERROR ESTNDAR Existe una probabilidad del 95% que el termino: m -1.96/ n sea menor o igual que la media paramtrica y que el termino m +1.96/ n sea mayor o igual que la media paramtrica. Es decir, existe un 95% de confianza que nuestro intervalo de confianza comprenda la media verdadera. Si repetimos el experimento y obtenemos muestras de la poblacin y a cada una calculamos el intervalo de confianza, podemos esperar que el 95% de estos intervalos incluir la media real y slo el 5% errar. Estos trminos: -1.96/n y m +1.96/n se llaman los lmites de confidencia de la media. Lmite Inferior y Superior (respectivamente). La zona comprendida por los estos lmites es el intervalo de confianza. No es correcto decir que existe un 95% de probabilidad que la media poblacional se encuentre en nuestro intervalo de confianza pues la media poblacional es un parmetro fijo, esttico y no cambia de valor. Esto puede visualizarse como el juego de tratar de acertar anillos en un palo fijo. Nosotros tiramos anillos que pueden o no acertar. Rara vez podemos saber si nuestro anillo acert o esta fuera, ya que rara vez podemos conocer donde esta el parmetro. Por supuesto, mientras ms grande el anillo, mayor probabilidad de acertar. El problema es que mientras ms grande, nuestra precisin es menor y menor.

Anillos: Intervalos de Confianza

Parmetro: Valor Fijo

Cmo podemos reducir la amplitud de los intervalos de confianza y as aumentar la precisin de nuestras estimaciones? Puesto que el error estndar parametrico es /n, el intervalo de confianza se puede reducir (hacer ms angosto) a travs de reducir la desviacin estndar, , o a travs de aumentar el tamao muestral, n . En general es muy difcil reducir la desviacin estndar de una poblacin natural, pero es posible disear un experimento para reducir la varianza entre las replicas de un

61

tratamiento, por ejemplo eligiendo individuos de tamao similar o del mismo sexo, etc. Lo ms comn es aumentar el tamao muestral. Si el tamao muestral se aproxima a infinito el Intervalo de Confianza se aproxima a cero. Entonces la media muestral converge en la media poblacional.

6.5 Intervalos de Confianza sobre estadsticos (Muestras)

En lo que hemos visto hasta ahora para el calculo de intervalos de confianza hemos considerado o asumido dos cosas importantes: 1) Que nuestras medias mustrales siguen una distribucin normal y 2) Que conocemos el error estndar paramtrico (hemos usado y no s en nuestras ecuaciones) A pesar de estos supuestos, no es problema aplicar el mtodo de calculo de intervalo de confianza que vimos anteriormente siempre y cuando la poblacin este normalmente distribuida y el tamao de muestra sea grande (n > 30). Sin embargo, cuando el tamao de las muestras es pequeo (n < 30) y no conocemos el error estndar paramtrico, debemos tomar en cuenta tambin la confiabilidad de nuestra desviacin estndar muestral, s, como estimador de . El usar s en vez de para el calculo del error estndar producir una mayor variabilidad en la distribucin normal, hacindola ms ancha y ms plana. Si m - son las desviaciones de las medias mustrales de la media poblacional de u na distribucin normal, entonces estas desviaciones deben tambin estar normalmente distribuidas. Si estandarizamos estas desviaciones dividiendo por el error parametrico poblacional, entonces:

(m-)/(/n) ~ Normalmente distribuidas con media = 0 y = 1


Si en lugar de usamos s para calcular el error estndar (error estndar muestral), entonces:

(m- )/(s/n) ~ Distribucin ms ancha y plana que la normal

~ Distribucin de t-Student
Para calcular intervalos de confianza bajo estas condiciones (lo ms comn), debemos hacer uso de la distribucin de t de Student . Al contrario de la distribucin normal, la distribucin de t toma diferentes formas dependiendo del nmero de grados de libertad (tamao muestral).
62

Distribucin de t-Student

t[3]

Normal = t[ ]

t[1]

Unidades de t El nmero de grados de libertad (gl, df en ingls) de la distribucin de t es el igual nmero de grados de libertad de la desviacin estndar en la razn (m- )/(s/ n). A medida que los grados de libertad de la distribucin de t aumentan, la forma se hace ms cercana a la distribucin normal. La distribucin de t con 30 grados de libertad es indistinguible de la distribucin normal.

Ahora podemos establecer lmites de confianza a medias de muestras de una distribucin normal cuya desviacin estndar paramtrica es desconocida. El lmite inferior (L1) se computa como: El lmite superior (L2) se computa como:

m - t[n-1] * EE m + t[n-1] * EE

Donde es la probabilidad excluida del intervalo de confianza. Es decir, la probabilidad del intervalo de confianza es 110 usamos t0.05[9].

. Para un intervalo de confianza del 95% y un tamao muestral de

63

Expresado de igual manera que antes, el Intervalo de Confianza de la media se calcula como:

m - t1- [n-1] * EE < < m + EE * t1- [n-1]


En donde m es la media muestral y t es el valor al cual el 5% de la distribucin queda por fuera del intervalo de confianza (el 95% adentro). Este valor es obtenido de la distribucin de t con n-1 grados de libertad, usando una tabla de valores de t.

6.6 Ejemplos : 1. Supongamos que por alguna razn an no determinada, los primeros doce estudiantes que entran a la sala de clases al curso de biometra representan una muestra aleatoria no sesgada de la poblacin total de estudiantes de la P. Universidad Catlica, con respecto a altura. Es posible que esta no sea una muestra representativa con respecto a otras variables, pero la altura de este grupo, con distribucin aproximadamente normal, parece ser una buena muestra para la poblacin. Las alturas de estos estudiantes (hombres y mujeres) son (en metros): 1.84 1.51 1.66 1.23 1.50 1.50 1.61 1.95 1.69 1.44 1.47 1.68 Promedio : Desv. Estndar: 1.59 0.19

Con estos datos, podemos calcular el intervalo al 95% de confianza de la media de la poblacin de estudiantes de la Universidad Catlica. Primero necesitamos calcular el error estndar:

EE = Sy = s / n
EE = 0.19/3.46 = 0.055

Puesto que NO conocemos el valor de (parmetro), debemos usar una estimacin (s) y por lo tanto debemos usar la formula para intervalos de confianza de estadsticos. Para esto, necesitamos obtener el valor de t de una distribucin de t de dos colas (bilateral). Puesto que deseamos calcular el Intervalo al 95%, debemos buscar un valor de t con alfa (la probabilidad que queda por fuera) de 5% (0.05). Adems, tenemos n-1 = 11 grados de libertad. El valor de t obtenido de la tabla es: t = 2.201 El intervalo de confianza es entonces: 1.59 (0.055 x 2.201) < < 1.59 + (0.055 x 2.01) 1.47 < < 1.71

64

Es decir, con un 95% de confianza la altura promedio de los estudiantes de la PUC se encuentra entre 1.45 y 1.71 m

2. Largo corporal de alevines de salmn obtenidos bajo tratamiento de sobredosis de alimento luego de 15 das. Se us una muestra de 200 individuos (seleccionados al azar).
13 22 10 23 17 7 21 25 6 9 14 0.5 12 8 8 16 22 1 10 23 10 9 15 16 14 21 7 6 33 27 7 14 28 12 14 8 20 17 2 18 18 21 27 25 20 8 13 33 2 18 22 4 21 19 13 11 15 18 13 4 10 17 16 18 25 16 15 21 9 18 Promedio = 14.65 cm 19 14 10 0.5 11 16 14 5 2 9 13 7 10 17 s = 6.86 19 7 12 10 18 6 19 13 4 5 9 2 17 13 25 18 13 8 12 2 26 24 18 21 22 13 15 16 12 7 15 17 22 20 13 17 21 13 16 17 20 17 19 9 19 15 5 12 14 8 18 14 6 15 6 25 13 12 19 15 13 5 30 25 18 13 9 16 11 16 9 25 11 10 13 12 11 27 20 16 21 15 11 10 13 15 16 9 35 15 25 16 11 6 27 10 30 22 15 12 13 16 30 17 18 13 5 11 15 10 15 7 Cuan confiable es que (todos) los peces bajo este tratamiento alcancen alrededor de 14.65 cm en 15 dias? Calcular el intervalo de confianza al 95% alrededor de la media poblacional. Calcular el intervalo de confianza al 99% alrededor de la media poblacional. Intervalo al 95%. Necesitamos el Error Estandar = s/ raiz(200) = 0.48

65

Necesitamos el valor de t a alfa = 5% (0.05) y 200-1 grados de libertad = 1.97 I.C. = 14.65 - 1.97 x 0.48 < mu < 14.65 Intervalo al 99% Necesitamos el valor de t a alfa =1% ( 0.01) y 199 g.l. = 2.60 I.C. = 14.65 - 2.60 x 0.48 < mu < 14.65 + 2.60 x 0.48 + 1.97 x 0.48

Note que: a) con la muestra de 200 individuos el valor de t a = 5% es muy similar al valor exacto de 1.96 obtenido de una distribucin normal perfecta. Esto se debe a que con grandes tamaos mustrales, la distribucin de t se aproxima a la distribucin normal. b) Al aumentar el Intervalo de Confianza de 95% a 99% hemos aumentado nuestra confiabilidad (estamos ms seguros de que el intervalo contenga la media verdadera), pero hemos sacrificado precisin, pues nuestro intervalo ahora es ms grande.

66

________________________________________________________________________ 7 Prueba de Hiptesis ________________________________________________________________________ 7.1 Introduccin Como mencionamos en la clase anterior, prueba de hiptesis es una de las aplicaciones ms importantes y frecuentes de la teora e stadstica al desarrollo de las ciencias bsicas y aplicadas y en particular en las ciencias biolgicas y ambientales. La aplicacin de modelos estadsticos para disear y analizar experimentos se hace necesaria debido a la variabilidad inherente de l os sistemas biolgicos. Tal vez estadstica sea innecesaria cuando toda la tierra este colonizada por clones genticos. Sin embargo, an la evidencia que tenemos con clones de algas muestra que existe una enorme variabilidad aun entre ramets de una misma planta. La aplicacin de modelos estadsticos de prueba de hiptesis ha estimulado la rigurosidad en el desarrollo e interpretacin de experimentos cientficos y en los protocolos de control de calidad de la industria. Este desarrollo estadstico tambin ha permitido disear experimentos ms complejos que intentan responder preguntas ms especficas o complejas. Como vimos en la clase anterior, existe un sin nmero de mtodos estadsticos de prueba de hiptesis. Estos mtodos pueden ser clasificados como parametricos o no-parametricos, o como univariados y multi-variados. Afortunadamente la filosofa bsica de todos es muy similar. Los mtodos univariados son aquellos que considerar una sola variable dependiente (y una o ms variables independientes). Estos son los mtodos que nosotros veremos en este curso. En los mtodos multivariados se pueden analizar simultneamente dos o ms variables dependientes.

Mtodos parametricos son aquellos mtodos estadsticos que realizan inferencias acerca de parmetros de una poblacin y que suponen una determinada distribucin de los valores de la variable bajo estudio (ej. normalidad). Los mtodos mal llamados no parametricos o ms bien de libre distribucin no dependen estrictamente de supuestos acerca de la distribucin de la variable bajo estudio. Esto NO significa que sean libres de supuestos. Todos estos mtodos, en mayor o menor grado, tienen supuestos acerca de las propiedades de la variable bajo estudio.

En la clase anterior definimos lo que es Prueba de Hiptesis estadstica como:

67

Prueba de Hiptesis: Una prueba de hiptesis estadstica es tomar la decisin de aceptar o rechazar una hiptesis nula, cuantificando la probabilidad de cometer un error al tomar esta decisin y usando un criterio arbitrario y pre establecido. Tambin podemos entender una prueba de hiptesis como el proceso de examinar una muestra de la poblacin bajo la base de una distribucin de datos esperada de acuerdo a una hiptesis particular, lo cual lleva a una decisin de aceptar la hiptesis subyacente o rechazarla y aceptar una hiptesis alternativa. Algunos de ustedes an no estn familiarizados con el proceso de formulacin de hiptesis cientficas. Por ello, repasaremos en la siguiente seccin algunos principios bsicos. 7.2 Formulacin de Hiptesis Biolgicas La formulacin de hiptesis es un requisito para la aplicacin de pruebas estadsticas. La etapa de formulacin de hiptesis biolgicas y su correspondencia con una determinada hiptesis estadstica es tal vez la parte ms importante del desarrollo de la investigacin cientfica. Siempre, las hiptesis estadsticas deben estar supeditadas a nuestra hiptesis biolgica de inters. La biologa de nuestro sistema debe conducir el desarrollo de hiptesis. En algunos casos la estadstica es usada en forma descriptiva, para describir un fenmeno biolgico o determinar la incertidumbre en la estimacin de un parmetro. En esos casos, los tests o pruebas, o tambin llamados docimacin de hiptesis estadsticas son inapropiados. Es importante tener presente que las pruebas estadsticas no deciden por uno, sino que pueden estimar el riesgo de cometer errores al tomar una decisin de aceptar o rechazar una determinada hiptesis.

7.2.1 Hiptesis Nula (Ho) en Biologa La hiptesis nula es aquella hiptesis que requiere el menor nmero de supuestos para explicar los datos o resultados observados. Por ejemplo, en la clase anterior estabamos interesados en estudiar el efecto de una hormona de crecimiento en la ganancia de peso en cerditos. Queremos saber si la hormona tiene algn efecto sobre los cerditos y diseamos un experimento en que administramos una droga u hormona de crecimiento a un grupo de cerditos y

68

comparamos su crecimiento al cabo de un mes con un grupo control que no recibe la hormona. Cul sera la hiptesis nula en este experimento? Recuerden que nuestra hiptesis debe ser formulada en base al fenmeno que se quiere explicar. En este caso, queremos explicar las potenciales diferencias en peso entre los dos grupos. Dijimos que nuestros resultados de hecho mostraban que, en promedio, los cerdos con hormona crecieron 10 kilos ms que los sin hormona. Cmo podemos explicar estas diferencias? Ho: Las diferencias en el promedio de ganancia de peso entre los dos grupos de cerdos se deben a simple azar. Normalmente la Ho es la hiptesis que indica que los resultados esperados pueden ser producidos por simple azar. Normalmente la Ho es aquella hiptesis que indica que NO hay ningn efecto (significativo) del tratamiento o condicin de inters. Normalmente se puede expresar como aqu no ha pasado nada. Normalmente la Ho indica resultados negativos o diferencias no significativas. No siempre la hiptesis nula puede expresarse como que nada ha pasado o como la ausencia de efectos. A veces, una hiptesis de no efectos no es la ms apropiada. Por ejemplo, si estamos evaluando un derrame de petrleo de mil toneladas vertidas sobre una poblacin intermareal de choritos ssiles filtradores, la cual causa una mortalidad masiva de estos choritos, resulta un poco ridculo plantear la hiptesis de No Efectos sobre esa poblacin local. 7.2.2 La Hiptesis Alternativa (Ha) en Biologa. La hiptesis alternativa es, o debera siempre ser, la segunda hiptesis ms simple que puede explicar los datos o resultados observados: La hiptesis de mayor parsimonia y por ende la con el menor nmero de supuestos luego de la Ho. En ejemplo de los chanchos la mejor hiptesis alternativa para explicar las diferencias en el crecimiento de los chanchos es la accin de la hormona administrada a los chanchitos experimentales. Normalmente la Ha es la hiptesis en que estamos interesados desde el punto de vista biolgico.

69

La formulacin de una buena hiptesis alternativa requiere de conocimiento biolgico. Buenas hiptesis alternativas estn basadas en el estado del arte en conocimiento biolgico.

Ejemplos de Hiptesis Nulas y Alternativas: Ho: Tener ocho hijas mujeres en una familia es producto de simple azar Ha: Tener ocho hijas mujeres es evidencia de un sesgo en las capacidades de gametos con diferentes dotaciones cromosmicas. Ho: El crecimiento de la especie A en dos hbitats distintos es aleatorio Ha: El crecimiento de A depende de la competencia con la especie B

La Ciencia funciona a travs de Rechazar Hiptesis Nulas y NO a travs de Aceptar hiptesis alternativas
Puesto que normalmente la hiptesis en que estamos interesados, es decir aquella que nos entrega la mayor informacin biolgica es la Ha, Por qu no diseamos estudios para confirmar esta hiptesis alternativa en ves de estudios para rechazar la hiptesis nula? Algunos de los problemas con la metodologa de Confirmacin de Hiptesis (no aceptable en las corrientes principales de la ciencia) son: el investigador puede introducir un sesgo intencional en el tipo de evidencia que sustenta la Ha ==> buscar chanchitos que respondan bien a la hormona el procedimiento de confirmacin conlleva a un callejn sin salida, pues se ha encontrado la mejor explicacin para el fenmeno.

Por ejemplo, en las hiptesis anteriores, pueden haber mltiples hiptesis alternativas ms o menos razonables: Ho: El crecimiento de la especie A en dos hbitats distintos es aleatorio Ha: El crecimiento de A depende de la competencia con la especie B Ha2: El crecimiento de A depende de la presencia de depredadores. Ha3: El crecimiento de A depende de factores fsicos. Un requisito fundamental de una buena hiptesis nula en biologa y ecologa es que sea rechazable

70

7.3 Prueba de Hiptesis: Un ejemplo Imaginen, que estamos realizando un estudio medico estadstico y nos llega una pareja a contarnos que tiene ocho hijos, siete son mujeres y uno es hombre. Ellos quieren tener otro hijo, pero s in tener nada contra el sexo femenino, estn medios cansados de tener tantas hijas. Entonces, ellos quieren saber si haber tenido tantas mujeres puede ser puro azar, en cuyo caso existe una probabilidad de 50:50 que el prximo hijo sea varn, o si efectivamente existe evidencia de alguna condicin medica de sesgo hacia hijas mujeres. Nuestro Resultado Observado es: La pareja tiene 7 hijas mujeres y 1 hijo hombre Por supuesto este es un caso extremo en donde uno pensara a priori que existe alguna condicin mdica. Pero la situacin es esencialmente la misma si la pareja tiene 6 hijas mujeres y 2 hombres Puede ser esto producto del azar? Nosotros le contamos a la pareja que les podremos decir si el tener ocho hijas mujeres es significativo de alguna condicin medica. Es decir, si el tener ocho hijas mujeres es significativamente diferente de lo esperado por simple azar. Qu necesitamos para esta prueba de hiptesis? Recuerden nuestra definicin de prueba de hiptesis. 1. Formular las hiptesis formalmente: Cul es la hiptesis nula y Cul es la hiptesis alternativa? Ho: Tener siete hijas mujeres y un hombre es producto del azar Ha: Tener siete hijas mujeres y un hombre es indicativo de alguna condicin medica especial 2. Generar una distribucin de valores esperados de los resultados basados en el supuesto que la hiptesis nula es verdadera (= no diferencias), la cual nos permitir cuantificar el error que podemos cometer al tomar la decisin de aceptar o rechazar la hiptesis nula. 3. Necesitamos establecer un criterio de lo que consideraremos simple azar y lo que consideraremos significativo, antes de realizar la prueba de hiptesis. En biologa este criterio o Nivel de Significancia es casi universalmente fijado al 5%. Es decir, aquellos fenmenos que ocurren con una frecuencia menor al 5%, o una en 20 veces son considerados significativos. Ahora podemos proceder.

71

Cmo calculamos la probabilidad de tener 7 mujeres y un hombre bajo el supuesto que la hiptesis nula es verdadera? Usando la distribucin binomial de probabilidad de sucesos independientes. p = 0.5 = hombre q = 0.5 = mujer (p + q)8 = Expansin del binomio: p8 + 8 p7q + 28p6q2 + 56p5q3 + 70p4q4 + 56p3q5 + 28p2q6 + 8pq7 + q8

La probabilidad del resultado observado bajo el supuesto de la hiptesis nula (simple azar), de tener 7 mujeres y un hombre es: 0.0313 o 3.13% Sin embargo, esta es la probabilidad de UN suceso en particular. La probabilidad de un suceso particular cuando existen muchos resultados posibles ser siempre muy baja. Por ejemplo, la probabilidad de tener 4 mujeres y cuatro hombres es solo del 20% y la probabilidad de obtener 500 caras y 500 sellos en mil lanzamientos de una moneda es menor al 5%. Lo que nos interesa entonces es el rango de sucesos que consideramos aceptables o determinar una Regin de Aceptacin de la hiptesis. Para esto usamos las probabilidades acumuladas, sumando todos los sucesos posibles dentro de la regin de aceptacin y dentro de la regin de rechazo. As, nuestra probabilidad calculada debe sumar todos los casos peores que el caso observado (ms en desacuerdo con la hiptesis nula). Esto es: la probabilidad de tener siete o ms hijas en una familia de ocho personas es: 0.0313 + 0.0039 = 0.0352 = 3.52% As podemos concluir que los resultados observados indican que debemos rechazar la hiptesis nula al nivel de significancia del 5%. Existe evidencia significativa que la pareja tiene un sesgo hacia tener hijas mujeres.

72

Calculo de Probabilidad de Tener Hijas Mujeres en Familias de Ocho Hijos Suponiendo (Ho) que p = q = 0.5 (igual probabilidad de hijo hombre o mujer) Numero de Proporcin Numero de Frecuencia Probabilidad Hijas casos Esperada 0 0 1 0.0039 p8 1 0.125 12 0.0313 8p7q 2 0.25 43 0.1094 28p6q2 3 0.375 87 0.2188 56p5q3 4 0.5 109 0.2734 70p4q4 5 0.625 87 0.2188 56p3q5 6 0.75 43 0.1094 28p2q6 7 0.875 12 0.0313 8pq7 <== Evento observado 8 1 1 0.0039 q8 <== Evento "peor" al observado

Probabilidad de Tener Hijas Mujeres en Familias de 8 Hijos


0.3000 0.2500 0.2000 0.1500 0.1000 0.0500 0.0000 Numero de Hijas Mujeres

Probabilidad

73

7.4 Hiptesis estadsticas de una y de dos colas Puesto que en el ejemplo anterior estamos interesados en determinar si hay ms mujeres que lo esperado por simple azar, nuestro clculo de distribucin considera solamente la parte derecha de la distribucin de probabilidad. Esta prueba de hiptesis se puede expresar estadsticamente como:

Ho: Proporcin de mujeres observada = Proporcin de mujeres esperada por azar q = q (0.5) m= Ha: Proporcin de mujeres observada > Proporcin esperada por azar q > q (0.5) m> Como se considera slo un lado o cola de la distribucin, la prueba de hiptesis se llama de UNA COLA Alternativamente podemos estar interesados en determinar si existe un sesgo hacia cualquier sexo en familias con ocho hijos. Para esto debemos incorporar la probabilidad de tener un alto nmero de mujeres o un alto nmero de hombres. Puesto que la distribucin de probabilidad es simtrica, slo tenemos que duplicar las probabilidades obtenidas anteriormente. Las hiptesis estadsticas en este caso pueden expresarse como: Ho: Proporcin de mujeres observada = Proporcin de mujeres esperada por azar q = q (0.5) m= Ha: Proporcin de mujeres observada Proporcin esperada por azar q q (0.5) m En este caso usamos los dos lados o colas de la distribucin y llamamos la prueba de hiptesis de DOS COLAS Hiptesis Nula a=b a=b a=b Hiptesis Alternativa a>b a<b a b Rango de Rechazo valor critico a - a valor crtico - a valor critico y valor critico a

74

valor crtico es aquel valor de nuestro estadstico que se encuentra justo en el lmite entre la zona de rechazo y aceptacin.

7.5 Tipos de Error Puesto que las respuestas biolgicas son intrnsecamente variables, necesitamos hacer uso de probabilidades y estadstica para tomar decisiones. Esto significa tambin que SIEMPRE existir la posibilidad de cometer errores. La aplicacin de estadstica no significa que no cometeremos errores en tomar una decisin acerca de una hiptesis particular, sino solamente que podemos medir este error y asumirlo, a travs de fijar un criterio de aceptacin o nivel de significancia.

Hay DOS tipos de errores que uno puede cometer en una prueba de hiptesis: RESULTADO DE UNA INVESTIGACION ACEPTAR RECHAZAR OK Error Tipo I Error Tipo II OK

Ho: VERDADERA Ho: FALSA

El Error Tipo I es la probabilidad que la muestra con media m realmente pertenezca a la poblacin de media , pero que la hemos considerado como de una poblacin diferente. La regin de aceptacin de la hiptesis nula corresponde a la regin del Intervalo de Confianza.

Estos errores son anlogos a los errores que se pueden cometer en un juicio criminal. Como resultado de una sentencia podemos declarar culpable a una persona que en realidad es inocente. Alternativamente, podemos declarar inocente a una persona que en la realidad es culpable. El sistema de justicia ingls, as como nuestro sistema Chileno considera que el primer error, declarar culpable a un inocente, es mucho ms grave. Consecuentemente, el sistema se basa en la inocencia de toda persona a menos que se demuestre lo contrario. En estadstica se realiza una consideracin similar: Se determina a priori cul es el nivel aceptable de cometer un error Tipo I, (rechazar una Ho que es verdadera = culpar a un inocente) y se deja variar la probabilidad de cometer un error Tipo II (aceptar una Ho que es falsa = declarar inocente a un culpable).

75

Representacin de los tipos de error cometidos al someter a prueba la hiptesis nula que no existen diferencias entre las probabilidades observadas de tener un hijo varon y lo esperado por simple azar cuando la probabilidad de cada evento es 0.5

Valores de p y q especificados por la Ho Regin de Aceptacin de Ho


0.18 0.16 0.14 frecuencia relativa 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 0.18 0.16 0.14 frecuencia relativa 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 2 4 6 8 10 2 4 6 8 10 de p y q especificados por la Ha Valores

Ho: p = q = 0.5

Regin de Rechazo de Ho: (por descarte se acepta la Ha ms plausible)

Ha: 2p = q = 0.66

Debemos recordar que en este ejemplo, nosotros solamente conocemos la distribucin especficada por la hiptesis nula y tomaremos decisiones acerca de aceptar o rechazar esta Ho basdos en los valores de alpha (= 0.05) de la figura superior. En la mayora de los casos desconocemos cual es el valor exacto especficado por la hiptesis alternativa.

76

El Error Tipo I tiene asociada una probabilidad , la cual corresponde a la Regin de Rechazo de la hiptesis nula. El valor de es el nivel de significancia de una prueba estadstica. La Regin de Aceptacin contiene una probabilidad acumulada de 1- . El Error Tipo II tiene asociada una probabilidad . La regin cuya probabilidad acumulada es igual a corresponde a la zona de sobreposicin entre la Regin de Aceptacin de la distribucin especificada por la hiptesis nula (cuya probabilidad es 1 - ) y la distribucin especificada por la hiptesis alternativa. El rea pro fuera de , la regin con una probabilidad acumulada de 1- , se llama el poder de la prueba estadstica por cuanto mide la probabilidad de rechazar la hiptesis nula cuando esta es en efecto falsa. Por qu no reducimos al mximo la probabilidad de cometer un error Tipo I (probabilidad de rechazar la hiptesis nula siendo verdadera), haciendo lo ms chico posible? Podemos insistir en estar super seguros que no cometeremos un error y no rechazaremos esta hiptesis a menos que la probabilidad sea de 1% o menor. Por ejemplo, en criminologa toda persona es inocente hasta que se pruebe lo contrario ms all de toda duda. Al hacer esto aumentamos la regin de sobreposicin con la distribucin especificada por la hiptesis alternativa, aumentando la probabilidad de cometer un Error Tipo II. Es decir, al disminuir el error Tipo I de rechazar la HIPOTESIS nula siendo verdadera aumentamos el error Tipo II de Aceptar la hiptesis nula debiendo rechazarla. Para un diseo experimental determinado, existe una relacin inversa entre las probabilidades de cometer estos dos tipos de error en una prueba de hiptesis.

Cmo determinamos cual Tipo de Error es ms importante mantener bajo? Como decamos, en general, la filosofa de prueba de hiptesis es similar a la criminologa: Es mucho ms grave condenar a una persona inocente que dejar libre a un culpable. En general, las consecuencias de aceptar una hiptesis nula que resulta ser falsa son menores que las consecuencias de rechazar una hiptesis nula que efectivamente es verdadera, puesto que al

77

hacer esto estamos implcitamente aceptando la hiptesis alternativa... quin sabe sobre que teora loca esta basada la hiptesis alternativa. Adems, existe una razn ms bien operacional para fijar la probabilidad de error Tipo I: es posible conocer y fijar a priori el nivel de probabilidad . Este nivel de error depende exclusivamente de la distribucin especificada por la hiptesis nula de no diferencias y es anlogo (aunque con objetivos muy diferentes) al calculo de intervalos de confianza. La probabilidad de error Tipo II, al contrario, depende del valor de los parmetros especificados por la hiptesis alternativa. Normalmente NO conocemos estos valores.

Ver Figura: Relacin entre probabilidad de error II y valores especificados por la hiptesis alternativa

En algunas circunstancias, tales como en aplicaciones industriales conocemos exactamente el valor de los parmetros especificados por la hiptesis alternativa y entonces es posible tambin fijar un valor de . En otras circunstancias, las consecuencias de aceptar la hiptesis nula cuando es falsa son claramente mucho ms graves que las consecuencias de rechazarla cuando es verdadera. Por ejemplo, cuando tratamos de evaluar el impacto ambiental de una industria que bota desechos txicos al ambiente, las consecuencias de concluir que los desechos NO tienen efectos cuando en verdad si los tienen pueden ser mucho mas serias que el concluir errneamente que los desechos si tiene efectos. en estas circunstancias, algunos autores sugieren modificar el error tipo I hacindolo mas grande (mas permisible) y as disminuir e error tipo II.

Cmo podemos disminuir y mantener la probabilidad constante? Recuerden que el ancho del Intervalo de Confianza alrededor de una media, es decir el rea cubierta por 1- , depende del error estndar y este error estndar disminuye con: a) disminucin en la desviacin estndar o varianza de la muestra y b) aumento en el tamao de la muestra. Entonces, podemos disminuir el error Tipo II y mantener fijo el nivel de significancia a travs de: Aumentar el tamao de la muestra o replicacin Usar un diseo experimental diferente

78

79

Qu caractersticas son deseables en una prueba estadstica? No existe realmente una prueba estadstica ideal pues siempre estamos jugando con estos compromisos de cometer errores al juzgar los resultados de un experimento. Una prueba estadstica ideal debera: 1. Ser CONSERVATIVO: Tener una probabilidad baja de error Tipo I. 2. Ser PODEROSO: Tener una probabilidad baja de Error Tipo II. 3. Ser ROBUSTO: Tener baja sensibilidad a desviaciones de los supuestos de la prueba. (en general, mientras menor sea el nmero de supuestos de una prueba, menor es el poder)

7.6 Poder de una Prueba Estadstica

Dijimos que el poder de una prueba estadstica depende de el valor de parmetros especificado por la hiptesis alternativa. Tambin dijimos que para un diseo de muestreo o experimental determinado, es posible aumentar el poder de una prueba y mantener constante el Error Tipo I solamente a travs de: a. Disminuir la varianza de la muestra y con ello la desviacin estndar y de all el error estndar b. Aumentar el tamao de la muestra. La relacin entre el valor especificado por la hiptesis alternativa se muestra ene esta figura:

Valor de la media Poblacional: Ho NO diferencias

Magnitud de las Diferencias Entre grupos

80

El clculo del Poder de una prueba estadstica no es un problema fcil. Resulta relativamente simple para los mtodos estadsticos que nosotros veremos en esta clase, pero es mucho ms complicado para mtodos ms sofisticados. An para estos mtodos, ha bastante discusin acerca del tipo de errores que deben usarse en los clculos. En tiempos recientes ha habido una enorme discusin respecto de la necesidad de calcular el poder de todas las pruebas estadsticas que se usan en un estudio, para as poder juzgar si la falta de diferencias significativas se debe a que el poder de la prueba estadstica es muy bajo. Nosotros nos vamos a mantener alejados de esta discusin y vamos a tratar de responder otra pregunta relacionada al poder de las pruebas estadsticas que normalmente los investigadores deben preguntarse ANTES de realizar un estudio:

Cun grande debe ser el tamao de la muestra (replicacin) para un experimento? Lamentablemente normalmente no hay una respuesta simple y sin una estimacin de la variabilidad de la variable No hay ninguna respuesta que pueda darse. Los investigadores normalmente estn interesados en rechazar hiptesis nulas y por lo tanto quieren saber como aumentar el poder de una prueba estadstica. Pero aumentar el tamao muestral o replicacin en un experimento tiene un costo. Aqu les vamos a mostrar un test simple que puede responder la siguiente pregunta especifica: Cun grande debe ser el tamao de la muestra que debe usarse para poder mostrar que si existe una diferencia (entre grupos o tratamientos), esta diferencia es significativa a un nivel de significancia , con una probabilidad P que la significancia ser encontrada?

{t

[ v ]

+ t 2( 1 P ) [ v ]

Donde debe ser estimado de una muestra inicial (piloto) de la poblacin (usar s) es la mnima diferencia entre los tratamientos o grupos que se considera biolgicamente importante. Si es grande, entonces necesitaremos un tamao de muestra ms chico Si es grande entonces necesitaremos un tamao de muestra ms grande P es el poder de la prueba = 1-

81

v: son los grados de libertad de la desviacin estndar muestral con a grupos que desean comparar y n observaciones por grupo (grupos) t: valore de una tabla de t de Student de dos colas con v grados de libertad y correspondientes a las probabilidades de alfa y 2(1-P). Una propiedad interesante de esta formula es que NO necesitamos conocer el valor exacto de delta, sino que solamente el valor de / (noncentrality parameter). De esta manera podemos expresar las diferencias mnimas que deseamos detectar en trminos de porcentajes.

82

_______________________________________________________________________ 8 Anlisis de Varianza ________________________________________________________________________ 8.1 REPASO CLASE ANTERIOR: Tipos de Error y Pruebas de Una y Dos Colas.

Solamente Observamos Esta parte: La distribucin esperada Bajo la Hiptesis Nula

Para conocer la posicin de esta distribucin necesitamos saber exactamente el efecto o valor de la hiptesis alternativa

Ho: m = 1, Tasa de consumo de oxigeno de Octodon degu = 1 y NO cambia en presencia de depredadores 1: valor conocido, obtenido de aos de investigacin por el Prof. F. Bozinovic

Ha: m = 2, Tasa de consumo de oxigeno aumenta en presencia de depredadores al valor 2. Sabemos exactamente cual es el valor al cual aumenta la tasa de consumo (2).

El error Tipo I es el Error que se comete al rechazar una hiptesis nula que es en efecto verdadera. Este error se fija al 5% y corresponde al nivel de significancia de nuestra prueba estadstica. El Error Tipo II es aquel error que se comete al aceptar una hiptesis nula debiendo haberla rechazado.

83

La magnitud del Error Tipo II depender del grado de sobreposicin entre los valores paramtricos (ej. medias) de la hiptesis nula y de la hiptesis alternativa NO es posible fijar el Error Tipo II, a menos que se conozca exactamente el valor esperado bajo la hiptesis alternativa. El PODER de una prueba estadstica es aquella probabilidad ms all de la zona de sobreposicin entre la hiptesis nula y la hiptesis alternativa.

Ho: VERDADERA Ho: FALSA

RESULTADO DE UNA INVESTIGACION ACEPTAR RECHAZAR OK Error Tipo I Error Tipo II OK

Puesto que en este ejemplo, la hiptesis alternativa especifica un valor de tasa de consumo de oxigeno, 2, ms alto que el valor 1 de la hiptesis nula, podemos expresar las hiptesis como: y Ha: m > 1

Ho: m = 1

En este caso usamos un slo lado o cola de la distribucin y llamamos la prueba de hiptesis de UNA COLA Cuando estamos interesados solamente en saber si hay un cambio en las tasa metablica en presencia de depredadores, pero no sabemos en que direccin, entonces nuestras hiptesis deben ser:

Ho: m = 1 y Ha: m 1 Para calcular la probabilidad en pruebas de una y dos colas:


Hiptesis Nula Hiptesis Alternativa Rango de Rechazo

a=b a=b a=b

a>b a<b a b

valor critico a - a valor crtico - a valor critico y valor critico a

84

8.2 Anlisis de Varianza (ANDEVA = ANOVA)

8.2 INTRODUCCIN

El Anlisis de Varianza (ANDEVA o ANOVA) es el mtodo estadstico ms usado en ciencias biolgicas. Es uno de los mtodos de prueba de hiptesis ms poderosos (gran capacidad de rechazar una hiptesis nula que es falsa; Error Tipo II pequeo). Adems se ha demostrado que nos entrega estimaciones adecuadas de error Tipo I, es decir bastante conservador. ANDEVA no es solamente til como prueba de hiptesis, sino que al contrario de otras tcnicas estadsticas, tambin entrega informacin acerca de los factores de variacin en la naturaleza ANDEVA permite analizar diseos de muestreo y experimentales extremadamente complejos y entender como y que factores contribuyen a mantener o aumentar la variabilidad en una variable determinada. La tcnica fue desarrollada por R.A. Fisher, un estadstico ingles de principios de siglo. Su primer uso fue en agricultura, pero ahora se usa en casi todas las ramas de la ciencia y tecnologa, incluyendo sicologa y medicina. El mtodo examina diferencias entre medias de distintos grupos. Por ejemplo: Comparar la altura de hombres y mujeres de este curso. Comparar el efecto de una droga en cuatro diferentes razas de chanchitos Comparar la densidad de ratones en laderas sur versus laderas norte

La comparacin entre medias de la o las poblaciones se realiza a travs de analizar las varianzas de diferentes muestras de estas poblaciones o grupos.

85

Como toda prueba de hiptesis estadstica, ANDEVA tiene una serie de supuestos acerca de la distribucin de los datos o las propiedades de las varianzas. Aqu veremos primero el anlisis mismo y luego volveremos sobre los supuestos. 8.3 Hiptesis en Anlisis de Varianza En TODOS los ANDEVAS se someten a prueba Hiptesis de la forma:

Ho: 1 = 2 Ha: 1 2 a =2

(hiptesis de dos grupos. Puede usarse un test de t)

(a = grupos que se desea comparar)

Ho: 1 = 2 = 3 = 4 Ha: Al menos un i es diferente


a=4 Todas las hiptesis de ANDEVA son de DOS colas.
8.4 LA DISTRIBUCION DE

Imaginen el siguiente ejercicio: De una Poblacin conocida tomamos dos muestras aleatorias consecutivas de tamao n1 y n2 y a cada muestra le calculamos la media (Y = m) y la varianza (s2)

86

La razn de dos varianzas provenientes de una poblacin con distribucin normal sigue una distribucin de F (el nombre viene de Fisher). Puesto que las varianzas esperadas de muestras de una misma poblacin deben ser iguales, la razn entre varianzas de una misma poblacin debe ser cercana a UNO. Por simple azar, sin embargo, las varianzas de las muestras NO sern exactamente iguales, sino que diferirn en mayor o menor grado de UNO Existe una curva de F para cada valor de grados de libertad del numerador y denominador de las varianzas:

F [v1,v2]

87

Transparencia Distribucin de F.

La Distribucin de F: Cada curva tiene DOS grados de libertad (v 1, v 2), correspondientes a los grados de libertad de la varianza del numerador y de la varianza del denominador Cada curva muestra la probabilidad de encontrar diferencias entre dos varianzas por simple azar: esto es, diferencias que ocurran si las muestra vienen de una misma poblacin. La distribucin de F tambin puede producirse por dos poblaciones con diferentes medias pero las mismas varianzas. En esta distribucin de F tenemos entonces un estndar contra que comparar resultados observados. Esta distribucin nos permitira entonces determinar un nivel de significancia para decir cuando dos varianzas son significativamente diferentes.

8.5 La Idea Bsica del Anlisis de Varianza

a. Imaginen que tenemos dos grupos (por ejemplo dos tratamientos, diversidad de presas en presencia y ausencia de depredadores, velocidad de reaccin con y sin proteina G, etc.). Queremos saber si estos dos grupos (a = 2) provienen de la misma poblacin, o en otras palabras, si tienen la misma media, . b. Nuestras hiptesis son: Ho: 1 = 2 Ha: 1 2 c. Los grupos que queremos comparar tienen un tamao de muestra n1 = n2 d. Supongamos ahora que la hiptesis nula (Ho) es verdadera y las diferencias observadas entre los dos grupos son producto del azar. Si esta suposicin es correcta, entonces las varianzas de las dos muestras (la razn de l as varianzas) de esta poblacin deben diferir por simple azar de acuerdo a la distribucin de probabilidades descrita por la curva F. e. Podemos calcular la varianza en cada uno de los grupos (a1 y a2) usando la media muestral respectiva de cada grupo. Luego computamos un promedio de estas varianzas dentro de cada grupo.

88

Si la Ho es verdadera, las varianzas dentro de cada grupo son una estimacin de la misma varianza poblacional y el promedio de estas varianzas es tambin una estimacin de la varianza total poblacional. Este promedio de varianzas dentro de los grupos se llama: VARIANZA DENTRO DE GRUPOS (=WITHIN) f. Tambin podemos calcular una varianza entre las medias de los grupos. Para esto calculamos la desviacin de las medias de cada grupo (Y.) de la media principal, Y.. (incluyendo todos los grupos). Si la Ho es verdadera, el promedio de estas varianzas entre las medias ser otra estimacin de la misma varianza poblacional. El promedio de las varianzas entre la medias se llama: VARIANZA ENTRE GRUPOS (= BETWEEN)

89

g. Cmo podemos comparar estas dos varianzas y saber si las diferencias observadas son producto de simple azar? Si las dos varianzas: la varianza dentro de grupos y la varianza entre grupos, efectivamente provienen de la misma poblacin, entonces podemos comparar la razn entre las varianzas contra lo esperado en una distribucin de F.

F [v1,v2] = Varianza Entre Grupos Varianza Dentro de Grupos


Si efectivamente s2 entre grupos y s2 dentro de grupos son estimadores de la misma 2, entonces el valor de F observado deber ser cercano a 1. Si los dos grupos son diferentes entonces la s2 entre grupos ser ms grande que la s2 dentro de los grupos y F ser mucho mayor que 1.

h. Cmo podemos determinar la significancia de nuestro valor de F? Comparamos el valor de F observado con el valor F esperado por simple azar en una tabla de F, y seguimos nuestro criterio definido a priori de nivel de significancia al 5%.

Si la probabilidad de obtener un F mayor o igual al observado es menor que 0.05, decimos que las medias de los dos grupos NO provienen de la misma poblacin. En otras palabras, los dos grupos NO tienen la misma media.

8.6 Clculos para el Anlisis de Varianza Supongamos que queremos comparar el tamao promedio de caracoles (largo de la concha en milmetros) entre tres localidades a lo largo de la costa. Hiptesis Biolgicas: Ho: Los tamaos de los caracoles en los tres sitios son iguales Ha: Los tamaos de los caracoles son diferentes debido a diferencias en depredacin por pjaros.

90

Hiptesis Estadsticas: Ho: 1 = 2 = 3 Ha: al menos un (un sitio) es distinto.

Tenemos a= 3 grupos que queremos comparar Tenemos n= 50 observaciones independientes dentro de cada grupo (tamaos de caracoles elegidos al azar dentro de cada sitio). Y1 = 10.5 mm (promedio sitio 1) Y2 = 11.6 mm Y3 = 7.4 mm Y.. = 9.83 mm (promedio de todos los sitios) 8.6.1 Necesitamos estimar la SUMA DE CUADRADOS DENTRO (SC) de los diferentes grupos y luego obtener el promedio de todas ellas.

SCdentro = ( Yij Y ) 2
j=1 1= 1

Muestras de diferente tamao (n1 n2) tendrn diferente peso en el clculo de la SS dentro Debemos incorporar los diferentes tamaos de muestra para cada grupo cuando estos no son iguales.

8.6.2 Necesitamos estimar la SUMA DE CUADRADOS ENTRE medias de los diferentes grupos. Puesto que la magnitud de las diferencias entre las medias depender del efecto del o los tratamientos (en este caso sitios con diferentes niveles de depredacin por pjaros), esta Suma de Cuadrados tambin se llama EFECTO DE TRATAMIENTO. Mientras ms aparte estn las medias de los grupos, ms grande ser la Varianza entre grupos.

91

SCentre = (Yj Y ) 2
j=1

8.6.3 Tambin podemos calcular la SUMA DE CUADRADOS TOTAL, la cual es la desviacin de cada observacin (el largo de cada caracol) de la Gran Media Y.

SCTOTAL = ( yij Y ) 2
j=1 i =1

Gracias a las propiedades de la Distribucin Normal Las Sumas de Cuadrados son Aditivas:

SC Total = SC dentro + SC entre

Esta relacin es usada en la practica para calcular la suma de cuadrados entre grupos (se calcula a partir de la diferencia entre SC total - SC dentro = SC entre).

8.7 La Tabla de Andeva Ya hemos calculado la SUMA de CUADRADOS de los trminos que necesitamos para una ANDEVA Sabemos que si los grupos (a1, a2, a3) provienen de la misma poblacin y por ende tienen la misma media (), es decir SI la Ho es verdadera, entonces la varianza promedio DENTRO de los grupos ser similar a la varianza promedio ENTRE los grupos

Ahora necesitamos dividir las SUMAS de CUADRADOS de las desviaciones por los grados de libertad correspondientes para as obtener una estimacin de estas varianzas. Esta estimacin de varianzas en la ANDEVA se llaman CUADRADOS MEDIOS (CM).

Cmo sabemos cuantos grados de libertad utilizar?

92

Los grados de libertad son igual al nmero de observaciones sobre las cuales se bas el clculo de la suma de cuadrados menos uno. En realidad, como una regla general, es el nmero de observaciones independientes menos el nmero de parmetros que necesitamos estimar para ese clculo. TABLA DE ANDEVA Fuente de Variacin ENTRE GRUPOS g.l. a-1 SC SCe CM CMe = SCe/(a-1) Fobs P

DENTRO DE GRUPOS (Error Experimental) TOTAL

a(n-1)

SCd

CMd = SCd/a(n-1)

Fobs= CMe/CMd

an-1

SCtotal

Los grados de libertad y Sumas de Cuadrados son aditivos

P = Probabilidad de encontrar un F as de grande por simple azar.

Esta probabilidad se obtiene al integrar la distribucin de F desde infinito al valor observado (o mirando una Tabla de F y comparando el valor observado con el valor de F al 5%, 1% etc.) Si P es menor a 0.05 (5%) entonces rechazamos la Ho Si F tabla al 5% es menor al F observado (en la Tabla de ANDEVA), entonces rechazamos Ho)

En nuestro ejemplo del tamao de caracoles, Fobs[2, 147] = 2490.81 y el F con los mismos grados de libertad al 5% de significancia desde la Tabla es, Ftabla = 3.05, de manera que rechazamos la hiptesis nula de no diferencias en el tamao de los caracoles entre los sitios (al menos un sitio es diferente).

93

Si los tamaos mustrales NO son iguales entre todos los grupos, entonces el valor de n debe ser estimado usando la siguiente ecuacin:

a 1 n0 = ( n a 1 j =1 i

n
j= 1 a j =2

2 i

El valor de no es cercano, pero siempre menor que el promedio de los tamaos mustrales, a menos que todas las muestras sean del mismo tamao. Cuando el nmero de observaciones independientes (tamao muestral) o REPLICAS es diferente en los distintos grupos, el diseo de ANDEVA se llama desbalanceado.

El PODER de una prueba de ANDEVA es siempre mayor cuando el diseo es BALANCEADO y disminuye a medida que las diferencias entre el nmero de replicas de los distintos grupos es ms y ms diferente.

En la Tabla de ANDEVA: 1. El Cuadrado Medio DENTRO de grupos mide la varianza debida a variaciones NO consideradas en el diseo, las que se supone que son debidas al azar y NO correlacionadas con los tratamientos. Si la varianza DENTRO de grupos es muy grande, nuestras diferencias ENTRE grupos tendrn que ser mayores para producir un F >> 1 y detectar diferencias significativas. Entonces: Conviene seleccionar nuestros grupos no solamente en forma aleatoria e independiente, sino que tambin de manera que la varianza entre las replicas de un mismo grupo No sean demasiado grandes. por ejemplo seleccionar caracoles de una mismo tipo de sustrato o grado de exposicin al oleaje. Esta fuente de variacin aleatoria y con distribucin normal se llama tambin el Error Experimental o simplemente ERROR en la tabla de ANDEVA.

94

2. El Cuadrado Medio ENTRE grupos mide el efecto de los Tratamientos y normalmente es la fuente de varianza en la cual estamos interesados. Mientras mayor sea la magnitud del efecto (mayores diferencias en tamao de los caracoles de diferentes sitios), mayor ser el CM entre y mayor ser el valor de F calculado = Mayor probabilidad de encontrar diferencias significativas. 3. Los GRADOS DE LIBERTAD son ADITIVOS. Es decir, los gl Total deben ser igual a la suma de gl de todas las fuentes de error. Esta es una buena manera de chequear que nuestro programa nos este calculando lo que queremos.

Cmo podemos expresar las Hiptesis que estamos sometiendo a prueba? Ho: 1 = 2 = 3 Ho : 2 entre grupos = 2 dentro grupos Ha: Al menos un diferente Ha: 2 entre 2 dentro

Vase Tabla de F.

95

8.7 Ejemplos con nmeros 1.- a = 3 sitios (grupos) Hiptesis: Ho: Los tamaos de los caracoles en los tres sitios son iguales Ha: Los tamaos de los caracoles son diferentes debido a diferencias en depredacin por pjaros. En forma Estadstica: Ho: 1 = 2 = 3 Ha: al menos un (un sitio) es distinto. Estaddisticos Descriptivos:
GRUPO 1 2 3 L (prom) N 10.5048 11.6253 7.4066 50 50 50 DS 0.29987 0.31859 0.31008 EE 0.042408 0.045056 0.043852 VAR 0.08992 0.10150 0.09615

Distribucin de los datos:

TABLA DE ANDEVA: Dependent Variable: LARGO DE LA CONCHA


Source SITIO ERROR Corrected Total DF 2 147 149 Sum of Squares 477.52544129 14.09105230 491.61649359 F Value 2490.81 Pr > F 0.0001

96

2.- En un estudio se desea saber el efecto de diferentes azcares sobre el largo de plntulas de palta (en milimetros). Control se refiere a plntulas mantenidas sin azucares. Hiptesis : Ho: Los azcares no tienen efecto sobre el crecimiento de plntulas de tomate Ha: Los distintos azcares afectan el crecimiento de las plntulas Ho: 1 = 2 =3 Ha: Al menos un i diferente
replicas 1 2 3 4 5 6 7 8 9 10 Control 75 67 70 75 65 71 67 67 76 68 701 70.1 2% fructosa 58 61 56 58 57 56 61 60 57 58 582 58.2 2% sucrosa 62 66 65 63 64 62 65 65 62 67 641 64.1

Suma Prom

Para evaluar si estos grupos difieren estadsticamente, podemos usar ANDEVA con a = 3 grupos a comparar y n= 10 rplicas por grupo (= diseo balanceado).

97

1. Suma de Cuadrados TOTAL


2% fructosa 2% sucrosa Control replica (y - 64.13)2 1 2 3 4 5 6 7 8 9 10 suma 118.08 8.22 34.42 118.08 0.75 47.15 8.22 8.22 140.82 14.95 498.91 (y - 64.13)2 37.62 9.82 66.15 37.62 50.88 66.15 9.82 17.08 50.88 37.62 383.64 (y - 64.13)2 4.55 3.48 0.75 1.28 0.02 4.55 0.75 0.75 4.55 8.22 28.91 =911.47 SC TOTAL 911.47

2. SC DENTRO
Control replica 1 2 3 4 5 6 7 8 9 10 (y 70.1)2 24.01 9.61 0.01 24.01 26.01 0.81 9.61 9.61 34.81 4.41 142.9 2% fructosa (y -58.2)2 0.04 7.84 4.84 0.04 1.44 4.84 7.84 3.24 1.44 0.04 31.6 2% sucrosa (y- 64.1)2 4.41 3.61 0.81 1.21 0.01 4.41 0.81 0.81 4.41 8.41 28.9 =203.4

SC DENTRO

203.4

3. Suma de Cuadrados ENTRE


SC ENTRE = SC TOTAL - SC DENTRO SC ENTRE= 708.07

4. TABLA DE ANDEVA
Fuente de Variacion Tratamiento (entre) Residual (dentro) Total g.l. 2 27 29 SC 708.07 203.4 911.47 CM 354.035 7.533 31.43 46.99 0.0000 F P

Hacer un ANDEVA en Excel es extremadamente simple cuando hay pocas observaciones y cuando el diseo es balanceado.

NOTA: La formulas que hemos visto y utilizado en el ejemplo se pueden usar para diseos balanceados, pero deben ser corregidas para diseos no balanceados.

98

8.9 Supuestos del Anlisis de Varianza 1. Muestro Aleatorio. El muestreo en forma sesgada NO tiene ninguna solucin posterior.

2. Independencia de los Errores. Los errores NO deben estar correlacionados con ningn factor o tratamiento. La nica garanta para esto es muestrear o asignar replicas en forma aleatoria.

3. Normalidad. Los errores deben estar normalmente distribuidos. Se debe chequear por skewness (sesgo) , kurtosis y presencia de outliers (datos que estn muy por fuera del rango considerado normal para esa situacin.

4. Igualdad (Homogeneidad) de Varianzas. Este es el supuesto ms importante de ANDEVA porque es muy sensitivo a desviaciones de este supuesto.

99

Das könnte Ihnen auch gefallen