Sie sind auf Seite 1von 8

INTRODUCCIN El anlisis de la varianza (Anova) se debe al estadstico-gentico Sir Ronald Aylmer Fisher (18901962), autor del libro "Statistics

Methods for Research Workers" publicado en 1925 y pionero de la aplicacin de mtodos estadsticos en el diseo de experimentos, introduciendo el concepto de aleatorizacin. El Anova se puede utilizar en las situaciones en las que nos interesa analizar una respuesta cuantitativa, llamada habitualmente variable dependiente, medida bajo ciertas condiciones experimentales identificadas por una o ms variables categricas (por ejemplo tratamiento, rendimiento), llamadas variables independientes. Cuando hay una sola variable que proporciona condiciones experimentales distintas, el anlisis recibe el nombre de Anova de un factor. El anlisis de varianza (ANOVA) es una buena herramienta estadstica, para el control de procesos, como en el anlisis de experimentos dentro o fuera del laboratorio, para el control de mtodos analticos. Las gamas de aplicacin son mltiples, que dependern del objetivo que persiguen, se agrupan en dos principalmente: la comparacin de mltiples columnas de datos y la estimacin de los componentes de variacin de un proceso (Boqu & Maroto, 2000) Las pruebas de hiptesis son una herramienta til cuando se trata de comparar dos tratamientos. La experimentacin usualmente requiere comparacin de ms de dos tratamientos simultneamente, es all donde se introduce Anova (teniendo en cuenta que es un procedimiento para anlisis de factores cualitativos). El anlisis de varianza se deriva de la particin de la variabilidad total en las partes que la componen. ANOVA establece que la variabilidad total en los datos, medida por la suma de cuadrados total, puede ser dividida en una suma de cuadrados de la diferencia entre los promedios de los tratamientos y el gran promedio total ms una suma de cuadrados de la diferencia de las observaciones entre tratamientos del promedio del tratamiento. Anova, nos da la herramienta para distinguir si un factor afecta la respuesta en promedio. El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable cuantitativa. Se trata, por lo tanto, de una generalizacin de la Prueba T para dos muestras independientes al caso de diseos con ms de dos muestras. La variable categrica (nominal u ordinal) que define los grupos que se desean comparar se llaman independientes o factor. La variable cuantitativa (de intervalo o razn) en la que desea comparar los grupos se llama dependiente. El anlisis de varianza (ANOVA) de dos factores estudia los posibles efectos causados por
Diferentes niveles de dos factores sobre la variable dependiente.

PRESUNCIONES DE ANOVA

1. Los errores o residuales son independientes y distribuidos de manera normal o gaussiana, con promedio equivalente a 0 y varianza constante. Si su promedio no fuese 0, el modelo estara subestimando o sobrestimando. 2. Anova presume que todas las varianzas de los niveles del factor son iguales y toma un solo clculo de varianza llamado Spooled o varianza conjunta.

ANOVA DE UN FACTOR El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre alguna variable dependiente Y tienen distintos niveles de algn factor X (variable independiente y discreta). El factor puede ser la temperatura, la presin, la poca de lluvia o poca seca, etc. Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del factor X1, X2,..., Xn. Entonces podremos determinar si los diferentes niveles del factor tienen un efecto significativo sobre el valor de la variable dependiente. El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn), compararemos una medida de la variacin entre diferentes niveles (MS-factor) con una medida de la variacin dentro de cada nivel (MS-error). Si el MS-factor es significativamente mayor que el MS-error, se concluir que las medias asociadas a diferentes niveles del factor son distintas. Esto significa que el factor influye significativamente sobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente mayor que el MS-error, se rechaza la hiptesis nula de que todas las medias, asociadas a diferentes niveles del factor, coinciden La hiptesis que se maneja en la prueba ANOVA de un factor es que las medias poblacionales (las medias de la variable cuantitativa en cada nivel de la variable categorica) son iguales. Si las medias poblacionales son iguales, eso significa que los grupos no difieren en la variable cuantitativa y que, en consecuencia, la variable categorica o el factor es indepeniente de la variable cuantitativa. La estrategia para poner a prueba la hiptesis de igualdad de medias consiste en obtener un estadstico, llamado F, que refleja el grado de parecido existente entre medias que se estn comparando. El numerador del estadstico F es una estimacin de la varianza poblacional basada en la variabilidad existente entre las medias de cada grupo: . El denominador del estadstico F es tambin una estimacin de la varianza poblacional, pero basada en la variabilidad existente dentro de cada grupo: (j se refiere a los distintos grupos o niveles del factor):

Si las medias poblacionales son iguales, las medias muestrales sern parecidas, existiendo entre ellas tan solo diferencias atribuibles al azar. En ese caso, la estimacin (basada en las diferencias entre las medias) reflejar el mismo grado de variacin que la estimacin (basada en las diferencias entre las puntuaciones individuales) y el cociente F tomar un valor prximo a 1. Si las medias muestrales son distintas, la estimacin reflejar mayor grado de variacin que la estimacin y el coeficiente F tomar un valor mayor que 1. Cuanto ms diferentes sean las medias, mayor ser el valor de F. Si las poblaciones muestreadas son normales y sus varianzas son iguales, el estadstico F se distribuye segn el modelo de probabilidad F de Fisher- Snedecor (los grados de libertad del numerador son el nmero de grupos menos 1; los del denominador, el numero total de observaciones menos el nmero de grupos). Si se supone que es cierta la hiptesis de igualdad de medias, se puede conocer en todo momento la probabilidad de obtener un valor como el obtenido o mayor. El estadstico F se interpreta, si el nivel critico asociado al estadstico F(es decir, si la probabilidad de obtener valores como el obtenido o mayores) es menor que 0,05, se rechaza la hiptesis de igualdad de medias y se concluye que no todas las medias poblacionales comparadas son iguales. En el caso contrario, no podemos rechazar la hiptesis de igualdad y no podemos afirmar que los grupos comprados difieren en sus promedios poblacionales. SUPUESTOS De forma similar a lo que ocurre con la regresin lineal, aqu tambin hay un modelo para los datos. El modelo asociado al i-simo nivel del factor X ser: Y = i + Donde: Los errores estn normalmente distribuidos con media 0 Los errores son independientes Los errores tienen varianza constante 2 Para verificar estos supuestos suele ser til realizar un grfico que muestre la distribucin de las observaciones por niveles: si en el grfico se aprecian diferencias entre niveles por lo que a la variacin de las observaciones se refiere, es muy probable que se tenga un problema con el supuesto de varianza constante; si aparecen outliers, puede que no se cumpla el supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de registrar observaciones, podra ocurrir que observaciones consecutivas estuviesen correlacionadas, con lo que no se cumplira el supuesto de independencia.
ESTADSTICO ANOVA DE UN FACTOR PARA MUESTRAS INDEPENDIENTES.

El ANOVA de un factor pone a prueba la hiptesis nula que afirma que todas las muestras tienen la misma media.

Dado que el ANOVA analiza la variabilidad de los diferentes factores, distinguiremos entre variabilidad entre los diferentes niveles (MCinter) y variabilidad dentro de cada nivel (MCintra). De esta manera, lo primero ser calcular cada una de estas medias cuadrticas, donde la media cuadrtica inter nivel (entre niveles) es un estimador sesgado de la varianza poblacional, y la media cuadrtica intra nivel (dentro de cada nivel) ser un estimador insesgado de la varianza poblacional. Siguiendo este razonamiento, el estadstico ANOVA se distribuye como una F de Snedecor, dado que las medias cuadrticas se distribuyen como una Chi de Pearson. Tabla 1: modelo ANOVA de un factor

PROCEDIMIENTO ANOVA DE UN FACTOR El procedimiento de ANOVA ofrece mltiples opciones que permiten seleccionar estadsticos descriptivos bsicos, como obtener la prueba de Levene y en base a esto decidir que tratamiento se desea dar a los casos con valores perdidos. Estadsticos: se incluyen algunos estadsticos descriptivos y la prueba de Levene para contrastar la hiptesis de homogeneidad de varianzas. Descriptivos: ofrece estadsticos descriptivos referidos tanto a cada grupo como al total muestral: nmero de observaciones, media, desviacin tpica, error tpico de la media, intervalo de confianza para la media y valores mnimo y mximo. Homogeneidad de varianzas: el estadstico F del ANOVA de un factor se basa en el cumplimiento de dos supuestos fundamentales: normalidad y homocedasticidad.

Normalidad significa que la variable dependiente se distribuye normalmente en las J poblaciones muestreadas (tantas como grupos definidos por la variable independiente o factor). No obstante, si los tamaos de los grupos son grandes, el estadstico F se comporta razonablemente bien incluso con distribuciones poblacionales sensiblemente alejadas de la normalidad. Homocedasticidad o igualdad de varianzas significa que las J poblaciones muestreadas poseen la misma varianza. Con grupos de distinto tamao, el incumplimiento de este supuesto debe ser cuidadosamente vigilado. Grficos de las medias: se presenta un grafico de lneas con la variable factor en el eje de abscisas y la variable dependiente en el de ordenadas. Valores perdidos: los casos que presentan valores perdidos pueden ser excluidos del anlisis utilizando dos criterios Excluir casos segn anlisis: se excluyen de cada ANOVA los casos que tienen algn valor perdido en la variable factor o en la variable dependiente que esta siendo analizada. Es una opcin de defecto. Excluir casos segn lista: se excluyen de todos los ANOVAs solicitados los casos que tienen algn valor perdido en la variable factor o en cualquiera de las variables de la lista dependientes. COMPARACIN POST HOC O A POSTERIORI El estadstico F del ANOVA nicamente permite contrastar la hiptesis general de que los J promedios comparados son iguales. El rechazar esta hiptesis, se sabe que las medias poblacionales comparadas son iguales, pero no se sabe dnde en concreto se encuentran las diferencias: son diferentes entre si todas las medias?, hay slo una media que difiere de las dems?... Para saber qu media difiere de qu otra debemos utilizar un tipo de contrastes denominados comparaciones mltiples post hoc o comparaciones a posteriori. Estas comparaciones permiten controlar la tasa de error al efectuar varios contrastes utilizando las mismas medias, es decir, permiten controlar la probabilidad de cometer errores tipo I al tomar varias decisiones (los errores tipo I se cometen cuando se decide rechazar una hiptesis nula que en realidad no debera rechazarse). Cuando se asumen varianzas iguales se puede seleccionar uno o mas procedimientos post hoc DMS: Diferencia Mnima Significativa basada en la distribucin t de Student. Este mtodo no ejerce ningn control sobre la tasa de error. Es decir, cada comparacin se lleva a cabo utilizando el nivel de significacin establecido (generalmente 0,05), por lo que la tasa de error para el conjunto de comparaciones llevadas a cabo. Bonferroni: Mtodo basado en la distribucin t de Student y en la desigualdad de Bonferroni (tambin conocido como mtodo de Dunn). Controla la tasa de error dividiendo el nivel de significacin () entre el nmero de comparaciones (k) llevadas acabo. Cada comparacin se evala utilizando un nivel de significacin c=/k. Sidak: Se basa en la distribucin t de Student, pero controla la tasa de error evaluando cada comparacion con un nivel de significacin c=1-(1-)1/k. Esta solucin es algo menos conservadora, rachaza la hiptesis de igualdad de medias en ms ocasiones que el mtodo de Bonferroni.

Scheff: Este mtodo, basado en la distribucin F, permite controlar la tasa de error para el conjunto total de comparaciones que es posible disear con J medias (una con otra, una con todas las dems, dos con dos,etc.). utilazado para efectuar slo comparaciones por pares, es un procedimiento muy conservador: tiende a considerar significativas menos diferencias de las que debera. Fig1. Modelo de comparaciones mltiples de Scheff.

R-E-G-W F: mtodo de Ryan, Einot- Gabriel y Welsch basado en la distribucin F. se trata de un mtodo por pasos. Tras ordenar de forma ascendente las J medias por su tamao, se efectan todas las comparaciones posibles entre pares de medias teniendo en cuenta el nmero de escalones (r) que las separan con J medias, la media mas pequea y la ms grande estn separadas r=J escalones, la media ms pequea y la tercera segunda ms grande estn separadas r=J-2 escalones; etc. Dos medias adyacentes tras la ordenacin estn separadas 2 escalones. El nmero de escalones existentes entre medias ente medias comparadas condiciones el nivel de significacin de cada comparacin, siendo +este mayor cuanto ms alejadas se encuentran las medias despus de ser ordenadas. En este mtodo, cada comparacin se evala utilizando un estadstico F y un nivel de significacin c=1-(1)r/J . R-E-G-W-Q: Mtodo de Ryan, Einot-Gabriel y Welsch basado en la distribucin del rango estudentizado. Se trata de un mtodo por pasos que utiliza el mismo estadstico que, el mtodo de Student- Newman-Keuls, pero que controla el nivel de significacin de cada comparacin del mismo modo que el mtodo R-E-G-W F. S-N-K: Student-Newman-keuls mtodo basado en la distribucin del rango estudentizado, se basa en un ordenacin de las medias por su tamao, el nivel de significacin para cada conjunto de medias separadas r pasos es siempre . Cuantos ms pasos existen entre dos medias, mayor es la diferencia mnima necesaria para considerar que esas medias difieren significativamente. Tukey: Diferencia honestamente significativa de Tukey. Equivale a utilizar el mtodo de Student-Newman-Keuls con r=J=n de medias. Por tanto, todas las comparaciones son referidas a una misma diferencia mnima. Es uno de los mtodos de mayor aceptacin

Tukey- b: Este mtodo consiste en considerar como diferencia mnima el valor medio entre la diferencia honestamente significativa de Tukey y la diferencia mnima obtenida con el mtodo de Student-Newman- Keuls para el caso de r=2 Duncan: Prueba el rango mltiple de Duncan. Mtodo de comparacin por pasos basado en la distribucin del rango estudentizado. Controla la tasa de error utilizando, para el conjunto de medias separadas r pasos, un nivel de significacin c=1-(1-)r-1 . cuantos ms pasos existen entre dos medias, mayor es la diferencia mnima con la que vamos a considerar que esas medias difieren significativamente. GT2 Hochberg: Es un procedimiento muy similar a la Diferencia honestamente significativa de Tukey, pero se basa en la distribucin del mdulo mximo estudentizado. Gabriel: Se basa en la distribucin del mdulo mximo estudentizad. Con grupos del mismo tamao, este mtodo es ms potente que el de Hochberg, pero con tamaos muy desiguales ocurre lo contrario. Waller Duncan: Utiliza la distribucin t de Student y una aproximacin bayesiana. Si los taamos muestrales son distintos, utiliza la media armnica. Dunnet: Sirve para comparar cada grupo con un grupo control. Por tanto, controla la tasa de error para k-1 comparaciones. Por defecto, se considera que la utlima categora del factor es la que define el grupo control, ero puede seleccionarse la primera categora. Permite efectuar tanto contrastes bilaterales como unilaterales.

Cuando no se asumen varianzas iguales en el caso que no se pueda suponer varianzas poblacionales iguales, post hoc permite elegir entre cuatro procedimientos: T2 de Tamhane: Mtodo basado en la distribucin del mdulo mximo estudentizado. T3 de Dunnett: Modificacin propuesta por Dunnett al estadstico T2 de Tamhane. Se basa tambin en la distribucin del mdulo estudentizado. Games-Howell: Mtodo similar al de Tukey. Se basa en la distribucin del rango estudentizado y en un estadstico T en el que, tras estimar las varianzas poblacionales suponiendo que son distintas, se corrigen los grados de libertad mediante la ecuacin de Welch. En trminos generales, es el mejor mtodo que controla la tasa de error en diferentes situaciones. C de Dunnett: Mtodo idntico al de Games- Howell excepto en la forma de corregir los grados de libertad de la distribucin del rango estudentizado. El nivel de significacin es acorde a como se lleve a cabo las comparaciones mltiples.

BIBLIOGRAFA

Anova un factor y Kruskal-Wallis, UCLM. El Salvador; libro de lectura, 2002. Experimento de un solo factor aleatorio y Anova, UCM. Madrid, 2001 Terrdez & Juan Anlisis de varianza (Anova) Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD),2004 Anlisis de varianza de un factor: el procedimiento ANOVA de un factor, capitulo 14. 1990. Anlisis de varianza factorial: El procedimiento Modelo lnea general: univariante, capitulo 15. 1990
Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundacin para la Universidad Oberta de Catalua. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3 Wonnacott, Thomas H. (1997): "Introduccin a la estadstica". Limusa, Mxico. Moore, David S. (1998): "Estadstica aplicada bsica". Antoni Bosch, Barcelona.

Das könnte Ihnen auch gefallen