Sie sind auf Seite 1von 83

ndice

ndice _______________________________________________________________ 1
TU UT

Anlisis de varianza ____________________________________________________ 4


TU UT

1. Introduccin: objetivos del anlisis de varianza ________________________ 5


TU UT

2. Un caso ms simple: comparacin de dos muestras independientes: pruebas Z


TU

y t para la diferencia entre las medias de dos poblaciones. _________________ 7


UT

1.2. El caso de varianzas poblacionales conocidas_________________________ 7


TU UT

2.2. El caso de varianzas poblacionales desconocidas ______________________ 9


TU UT

1.2.2. Test de Levene de homogeneidad de varianzas ____________________ 9


TU UT

2.2.2. Test de Bartlett de homogeneidad de varianzas ___________________ 10


TU UT

3.2.2. Varianzas poblacionales desconocidas e iguales __________________ 11


TU UT

4.2.2. Varianzas poblacionales desconocidas y distintas _________________ 12


TU UT

3.2. Test de bondad de ajuste de Kolmogorov-Smirnov ___________________ 13


TU UT

3. Extensin al caso de k poblaciones: anlisis de varianza unifactorial ______ 16


TU UT

1.3. Introduccin __________________________________________________ 16


TU UT

2.3. Objetivos y terminologa ________________________________________ 18


TU UT

3.3. Hiptesis previas ______________________________________________ 20


TU UT

1.3.3. Normalidad _______________________________________________ 20


TU UT

2.3.3. Homocedasticidad _________________________________________ 20


TU UT

4.3. Hiptesis nula y alternativa en anlisis de varianza ___________________ 20


TU UT

5.3. Ecuacin fundamental __________________________________________ 21


TU UT

1.5.3. Anlisis de las desviaciones de los individuos respecto a la media global


TU UT

_____________________________________________________________ 22 2.5.3. Los cuadrados de las desviaciones. Sumas de cuadrados____________ 23


TU UT

6.3. Cuadrados medios _____________________________________________ 25


TU UT

7.3. El estadstico de contraste. Distribucin F de Fisher-Snedecor __________ 26


TU UT

8.3. Contrastes a posteriori: Scheff y Tukey____________________________ 28


TU UT

9.3. Esquema general del anlisis de varianza unifactorial _________________ 29


TU UT

4. Anlisis de varianza con dos factores e interaccin_____________________ 30


TU UT

1.4. Objetivos y terminologa ________________________________________ 30


TU UT

2.4. Hiptesis nulas en anlisis de varianza con dos factores________________ 30


TU UT

Anlisis de varianza. JGM. 9/3/04

Pg. 1

1.2.4. Hiptesis nula sobre el primer factor ___________________________ 31


TU UT

2.2.4. Hiptesis nula sobre el segundo factor __________________________ 32


TU UT

3.2.4. Hiptesis nula sobre la interaccin de los factores _________________ 32


TU UT

3.4. Ecuacin fundamental del anlisis de varianza bifactorial ______________ 33


TU UT

1.3.4. Anlisis de las desviaciones de los individuos respecto a la media global


TU UT

_____________________________________________________________ 34 2.3.4. Los cuadrados de las desviaciones. Sumas de cuadrados. ___________ 37


TU UT

4.4. Cuadrados medios _____________________________________________ 40


TU UT

5.4. Estadsticos de contraste y decisin sobre las hiptesis nulas ____________ 42


TU UT

1.5.4. La F de Fisher-Snedecor _____________________________________ 42


TU UT

2.5.4. Modelos de efectos fijos y modelos de efectos aleatorios ___________ 42


TU UT

3.5.4. Estadsticos de contraste para el caso en el que ambos factores sean fijos
TU UT

_____________________________________________________________ 43 4.5.4. Estadsticos de contraste para el caso en el que ambos factores sean
TU

aleatorios______________________________________________________ 44
UT

5.5.4. Estadsticos de contraste para el caso en el que un factor sea fijo y el otro
TU

aleatorio ______________________________________________________ 45
UT

6.5.4. Decisin sobre la veracidad de las hiptesis nulas _________________ 46


TU UT

5. Un ejemplo de anlisis de varianza unifactorial _______________________ 48


TU UT

1.5. Enunciado del ejemplo _________________________________________ 48


TU UT

2.5. Formulacin de la hiptesis nula __________________________________ 48


TU UT

3.5. Comprobacin de los requisitos de normalidad y homocedasticidad ______ 49


TU UT

1.3.5. Normalidad _______________________________________________ 49


TU UT

2.3.5. Homocedasticidad _________________________________________ 51


TU UT

4.5. Anlisis de las desviaciones de los individuos respecto a la media global __ 53


TU UT

5.5. Cuadrados de las desviaciones y sumas de cuadrados _________________ 57


TU UT

6.5. Cuadrados medios _____________________________________________ 58


TU UT

7.5. El estadstico de contraste. Decisin sobre la hiptesis nula_____________ 59


TU UT

8.5. Contrastes a posteriori __________________________________________ 60


TU UT

6. Un ejemplo de anlisis de varianza bifactorial ________________________ 62


TU UT

1.6. Enunciado del ejemplo _________________________________________ 62


TU UT

2.6. Formulacin de las hiptesis nulas ________________________________ 63


TU UT

3.6. Anlisis de las desviaciones de los individuos respecto a la media global __ 64


TU UT

Anlisis de varianza. JGM. 9/3/04

Pg. 2

4.6. Los cuadrados de las desviaciones. Sumas de cuadrados._______________ 68


TU UT

5.6. Cuadrados medios _____________________________________________ 71


TU UT

6.6. Los estadsticos de contraste. Distribucin en el muestreo y decisin. _____ 74


TU UT

1.6.6. Primera prueba de hiptesis. El efecto del frmaco ________________ 74


TU UT

2.6.6. Segunda prueba de hiptesis. El efecto de la rehabilitacin__________ 76


TU UT

3.6.6. Tercera prueba de hiptesis. El efecto de la interaccin entre el frmaco y


TU

la rehabilitacin ________________________________________________ 78
UT

Bibliografa _______________________________________________________ 81
TU UT

Otros recursos _____________________________________________________ 82


TU UT

Anexo ____________________________________________________________ 83
TU UT

Anlisis de varianza. JGM. 9/3/04

Pg. 3

Anlisis de varianza
El anlisis de varianza surge directamente asociado con el trabajo experimental. El procedimiento elemental del trabajo experimental consiste en la manipulacin de una variable X acompaada por la observacin de otra variable Y que se supone relacionada con la anterior-. Si a una modificacin en aqulla le sigue un cambio en sta y adems este cambio tiene lugar en la direccin esperada- estaremos tentados de afirmar que las modificaciones en el valor de X causan cambios en el valor de Y. Sin embargo, esta relacin de causalidad no se puede mantener de no haber diseado el experimento del modo adecuado. Por ejemplo, si no se puede asegurar que todas las dems variables que han podido influir sobre Y se han mantenido constantes durante el experimento no se podra afirmar, desde el enfoque clsico de la experimentacin, que X cause Y. De aqu la obsesin del experimentalista clsico por mantener todo lo dems constante el imposible ceteris paribus-, modificando nicamente el valor de X. No es hasta la aparicin de la obra de Sir Ronald A. Fisher The Design of Experiments que los experimentalistas encuentran una nueva va para dotar de validez a su trabajo, abandonando el vano objetivo de mantener todo lo dems constante. Se descubri que la clave para controlar que no eliminar- la influencia de variables extraas en la variable respuesta se encontraba en la aleatorizacin. El experimentalista no deba ya preocuparse por mantener las condiciones experimentales constantes. Para distinguir qu parte de los cambios en la variable respuesta se deba a los factores de inters y qu parte a otros factores no considerados resultaba suficiente garantizar una asignacin aleatoria de los individuos las llamadas unidades experimentales- a los distintos grupos conformados por las modalidades de los factores que se deseaba estudiar como posibles explicaciones del fenmeno. Surgi as el anlisis de la varianza como la tcnica estadstica que permite distinguir qu parte de la variacin en la variable Y que mide el fenmeno en estudio- se debe a la variacin en la variable explicativa X y qu parte se debe a otros factores.

Anlisis de varianza. JGM. 9/3/04

Pg. 4

1. Introduccin: objetivos del anlisis de varianza


El anlisis de varianza es una de las tcnicas estadsticas que se pueden aplicar cuando se trata de examinar la influencia de una o ms variables de naturaleza cualitativa en otra de naturaleza cuantitativa1. Cada una de las variables cualitativas determina con
TP PT

sus modalidades- una particin en el universo objeto de estudio. Se tratara, por tanto, de analizar si los subconjuntos que conforman la correspondiente particin las subpoblaciones que en la poblacin original induce la variable cualitativa- presentan diferentes valores promedio en cuanto a la variable cuantitativa. En este caso diramos que el factor considerado tiene un efecto llamado efecto principal del factor- sobre la variable dependiente. Adicionalmente, en el caso de que se consideren varias variables explicativas, cada n-pla de ellas determina una particin adicional en el universo. El estudio de los promedios en los conjuntos de esta nueva particin puede suponer el descubrimiento de un efecto de interaccin llamado efecto de interaccin de orden nsimo- entre los factores que conforman la n-pla. En otras palabras, el anlisis de varianza busca una explicacin a los cambios en el valor de la variable cuantitativa en el conjunto de individuos que conforma la poblacin y considera, como posible motivo de estos cambios, la pertenencia de dichos individuos a los grupos que configurados por los distintos niveles de las variables cualitativas. Este anlisis en el sentido estricto del trmino2- permite establecer qu parte de la
TP PT

variabilidad de la variable cuantitativa se puede atribuir a la pertenencia de los individuos a uno u otro grupo y qu parte se debe a factores ajenos a los considerados por el investigador. La importancia relativa de cada uno de estos sumandos en la variabilidad total determinar la capacidad explicativa de las variables cualitativas.

1
TP PT

Se habla as de anlisis unifactorial, con una nica variable explicativa, y multifactorial, con dos o ms

variables explicativas. El trmino anlisis multivariante de la varianza se reserva para el caso en el que el nmero de variables cuantitativas a explicar es superior a uno.
2
PT T TP

Distincin y separacin de las partes de un todo hasta llegar a conocer sus principios o elementos.
T

Anlisis de varianza. JGM. 9/3/04

Pg. 5

Como ya se ha mencionado, el anlisis de varianza se encuentra ntimamente relacionado con el diseo de experimentos3. En este sentido son muchos y muy variados
TP PT

los modelos de diseo experimental que cabe presentar, aunque, por razones de brevedad y por su especial inters se ha optado por mostrar con cierta profundidad dos de los ms utilizados. En concreto, en los siguientes apartados se exponen los fundamentos del anlisis de varianza para los casos de una nica variable explicativa (anlisis de varianza de un factor) y de dos variables explicativas (anlisis de varianza bifactorial con interaccin). Con anterioridad se estudia el caso ms sencillo en el que estamos interesados en comparar las medias de dos poblaciones, caso particular del anlisis de varianza unifactorial.

3
TP PT

Mtodo de investigacin en el que se controlan las condiciones de modo que puede manipularse una o

varias variables independientes para probar una hiptesis sobre una variable dependiente.

Anlisis de varianza. JGM. 9/3/04

Pg. 6

2. Un caso ms simple: comparacin de dos muestras independientes: pruebas Z y t para la diferencia entre las medias de dos poblaciones.
Un caso particular del anlisis de varianza unifactorial una nica variable explicativatiene lugar cuando el inters reside en la comparacin de los valores promedio de una variable cuantitativa entre dos poblaciones. En este caso, la variable cualitativa que determina la particin en el universo es de carcter dicotmico y la prueba estadstica a aplicar para contrastar la hiptesis nula de igualdad de medias entre esos dos colectivos es la prueba Z o la prueba t dependiendo de si las varianzas poblacionales son o no conocidas- Veamos a continuacin cmo proceder en cada caso. Comenzaremos por la situacin en la que las varianzas poblacionales son conocidas cuando habr que aplicar la prueba Z- y dejaremos para ms adelante aqulla situacin en la que no existe certeza sobre el valor de los parmetros que miden la dispersin en la poblacin.

1.2. El caso de varianzas poblacionales conocidas


En el caso de que la varianza poblacional en cada uno de los dos colectivos sea un parmetro conocido por el investigador pueden emplearse los conocimientos bsicos sobre la distribucin del estadstico media muestral - X - con el fin de deducir la distribucin en el muestreo del estadstico X Y , donde X representa la puntuacin promedio obtenida en la variable dependiente para aquellos individuos de la muestra seleccionados de la primera poblacin e Y tiene el mismo significado, esta vez para los individuos seleccionados del segundo colectivo. En concreto, sea X una variable aleatoria que recoge la puntuacin que obtiene en la variable dependiente un individuo de la primera poblacin y sea Y otra variable aleatoria independiente de la anterior- que refleja la puntuacin de un individuo de la segunda poblacin en la variable dependiente. Bajo el supuesto de que X e Y se

Anlisis de varianza. JGM. 9/3/04

Pg. 7

2 distribuyen normalmente4, con medias y varianzas conocidas esto es, X N X , X


TP PT

2 2 e Y N Y , Y sabemos que X N X ; X nX

2 y que Y N Y ; Y siendo n X y nY

nY los tamaos de las muestras seleccionadas de la primera y de la segunda poblacin

respectivamente5.
TP PT

2 2 De aqu se deduce fcilmente6 que X Y N X Y ; X + Y con lo que n X nY


TP PT

(X Y ) (
2 X

Y )

nX

2 Y

nY

De este modo, para contrastar la hiptesis nula de que las medias de ambas poblaciones son iguales frente a la hiptesis alternativa de que los promedios son diferentes entre los colectivos se puede recurrir al estadstico

(X Y )
2 X

nX

Y2
nY

que, bajo la mencionada hiptesis

nula - X Y = 0 -, sigue una distribucin normal estndar. Naturalmente, el caso de que las varianzas poblacionales sean conocidas para el investigador es ms bien terico y no suele ocurrir con demasiada frecuencia. Veamos qu se puede hacer en el caso de que las varianzas poblacionales sean desconocidas.

4
TP PT

Para comprobar la veracidad de este supuesto deberemos aplicar algn test de bondad de ajuste sobre los

datos muestrales, por ejemplo el test de Kolmogorov-Smirnov, el de Anderson-Darling o el de ShapiroWilks. El test de Kolmogorov-Smirnov se presentar en un apartado posterior.
5
TP PT

De hecho, el teorema central del lmite garantiza que las medias muestrales X e Y se distribuyen

asintticamente de forma normal aunque las variables originales X e Y no lo hagan.


6
TP PT

Sabemos que si

2 2 2 Y N Y , Y , entonces aX + bY N a X + b Y , a 2 X + b 2 Y .

2 X e Y son variables independientes tales que X N X , X

Anlisis de varianza. JGM. 9/3/04

Pg. 8

2.2. El caso de varianzas poblacionales desconocidas


En este caso, ms frecuente en la prctica, nos vemos obligados a sustituir la distribucin Z por la distribucin t de Student, prctica habitual cuando se estima la varianza poblacional a partir de los datos de una muestra mediante su estimador insesgadola cuasivarianza muestral7-.
TP PT

No obstante, es necesario distinguir dos situaciones. La primera, de solucin ms sencilla, se produce cuando a pesar de desconocer las varianzas poblacionales no existe evidencia suficiente para sospechar que stas sean distintas. La segunda, que nos lleva a recurrir a la llamada aproximacin de Welch, se plantea cuando existen sospechas fundadas de la existencia de diferencias entre las varianzas de la variable cuantitativa entre las dos poblaciones. La decisin acerca de si las varianzas poblacionales desconocidas son iguales o distintas debe tomarse como es lgico- a partir de la evidencia recogida en las muestras esto es, a partir de las cuasivarianzas muestrales-. Con ese fin debe aplicarse una prueba de

homocedasticidad, que constituye un contraste de hiptesis previo cuyo resultado nos


permitir discernir en cul de los dos casos estamos. Entre las pruebas de homocedasticidad ms conocidas se encuentran el test de Bartlett, el de Hartley o el de Levene. 1.2.2. Test de Levene de homogeneidad de varianzas El test de Levene se emplea para determinar si k colectivos tienen la misma varianza. Este test es ms robusto frente a la falta de normalidad de la variable analizada que la prueba de Bartlett con lo que si se sospecha que las poblaciones estudiadas pueden no ser normales es preferible emplear este contraste.

7
TP PT

Se define la cuasivarianza muestral como S

1 n 2 (X i X ) . A diferencia de la varianza n 1 i =1

muestral dividida entre n - la cuasivarianza muestral es un estimador insesgado de la varianza poblacional - 2

Anlisis de varianza. JGM. 9/3/04

Pg. 9

La prueba se plantea del siguiente modo:


2 Hiptesis nula: 12 = 2 = ... = k2 . Todas las varianzas poblacionales son iguales.

1 1 Hiptesis alternativa: (i, j ) { ,..., k } { ,..., k } : i2 2 . Existe al menos una j

pareja de poblaciones con varianzas distintas.


2 En el caso de dos poblaciones, la hiptesis alternativa se concreta en 12 2 .

El

estadstico
nk k 1

de
i.

contraste
2

del

test

de

Levene

se

define

como

W =

n (Z
k i =1 k ni i i =1 j =1

Z .. )

(Z
k

ij

Z i. )

donde Z ij = Yij Yi. , Yi. representa la media en la i-sima

muestra, ni es el nmero de individuos en la muestra provenientes de la i-sima poblacin y n = ni es el tamao total de la muestra seleccionada.
i =1

Bajo la hiptesis nula, el estadstico W sigue una distribucin F de Fisher-Snedecor de


k 1 grados de libertad en el numerador y n k en el denominador. Por tanto, fijado

un nivel de significacin , la hiptesis nula de homocedasticidad8 se rechaza si


TP PT

W f k 1;n k ; .
2.2.2. Test de Bartlett de homogeneidad de varianzas

Al igual que el test de Levene, el contraste de Bartlett se emplea para estudiar si un conjunto de k poblaciones tienen la misma varianza o si por el contrario sus varianzas son diferentes. El test de Bartlett es ms sensible que el de Levene a las desviaciones de la normalidad. Comparte con el test de Levene la definicin de las hiptesis nulas y alternativas.

8
TP PT

El smbolo f k 1;n k ; se refiere al valor crtico de una F de Fisher-Snedecor de k 1 grados de libertad

en el numerador y n k en el denominador que deja a su derecha un rea

Anlisis de varianza. JGM. 9/3/04

Pg. 10

El estadstico de contraste de esta prueba es algo farragoso. Se define como


2 (n k ) ln S p (ni 1) ln S i2 i =1 k

T=

1+

1 1 1 n 1 n k 3(k 1) i =1 i
k

donde S i2 representa la cuasivarianza de la i-sima

2 muestra y S p =

1 k (ni 1)S i2 . n k i =1

La hiptesis nula de homogeneidad de las varianzas se rechaza en el caso de que


T k21; 9.
TP PT

3.2.2. Varianzas poblacionales desconocidas e iguales

En el caso de que la prueba de homocedasticidad practicada (Levene, Bartlett u otro test equivalente) no haya evidenciado signos de heterocedasticidad entre las poblaciones definidas por la variable cualitativa parece razonable realizar una estimacin nica acerca del valor de la varianza poblacional, que se ha considerado idntica en ambos colectivos. Se introduce as el concepto de cuasivarianza muestral combinada10 que
TP PT

2 suele representarse con el smbolo S p - y que se calcula como una media ponderada -en

funcin de los tamaos de las muestras tomadas de cada una de las poblaciones- de las cuasivarianzas
2 Sp =

muestrales
TP PT

correspondientes.

En

concreto,

2 (n X 1)S X + (nY 1)SY2 11.

n X + nY 2

9
TP PT

El smbolo

k21;

se refiere al valor crtico de una distribucin Chi-cuadrado de k 1 grados de

liberftad que deja a su derecha un rea


10
TP PT

Pooled Sample Variance Ntese que esta definicin de S p es un caso particular del concepto similar definido en la prueba de
PT

11
TP

homocedasticidad de Bartlett.

Anlisis de varianza. JGM. 9/3/04

Pg. 11

Ahora, sustituyendo este valor en la expresin de la Z que hemos calculado con anterioridad tenemos que

( X Y ) (
2 Sp

Y )

nX
2 (n X + nY 2)S p

2 Sp

( X Y ) (
Sp

nY

Y ) t nX + nY 2 , ya que12 1 1 + n X nY
X
TP PT

2 nX + nY 2 .

As, para contrastar la hiptesis nula de igualdad de medias entre las dos poblaciones podemos emplear el estadstico Sp

(X Y )
1 1 + n X nY

que, bajo la hiptesis nula de igualdad de

las medias poblacionales, se distribuye segn una t de Student de n X + nY 2 grados de libertad.


4.2.2. Varianzas poblacionales desconocidas y distintas

En el caso de que la prueba de homocedasticidad nos lleve a la conclusin de que existen diferencias entre las varianzas poblacionales, no tiene sentido el clculo como en el caso anterior- de una cuasivarianza muestral combinada. Por el contrario, el estadstico de contraste deber recoger las diferencias en las cuasivarianzas muestrales como reflejo de las diferencias existentes entre las varianzas poblacionales que la prueba de homocedasticidad ha detectado. Parece razonable pensar que el estadstico de contraste debera tomar la forma

( X Y ) (
2 X

Y )
2 Y

y as es. El problema radica en que no se conoce la distribucin

S S + n X nY

12
TP PT

El cociente de una distribucin Z y la raz cuadrada de una

previamente dividida por sus grados de

libertad es una t de Student de idnticos grados de libertad que la

de la que proviene. Es decir,

= t

Anlisis de varianza. JGM. 9/3/04

Pg. 12

exacta en el muestreo de este estadstico bajo la hiptesis nula de igualdad de las medias poblacionales. Este hecho hace imposible la formulacin de un criterio de decisin exacto. Afortunadamente existe una aproximacin a la distribucin de este estadstico que se conoce como aproximacin de Welch. En circunstancias muy generales el estadstico

(X Y )
2 2 S X SY + n X nY

se distribuye segn una t de Student de grados de libertad,

donde =

(n X 1)(nY 1) (n X 1)(1 c 2 ) + (nY 1)c 2

2 SX

y c=

2 X

nX

nX 2 + SY

. nY

3.2. Test de bondad de ajuste de Kolmogorov-Smirnov


Tal como se ha comentado con anterioridad, es condicin necesaria para llevar adelante el test de comparacin de medias poblacionales que las variables originales X e Y tengan una distribucin normal en especial si los tamaos de las muestras seleccionadas de las poblaciones no son excesivamente grandes-. Son muchos los contrastes que se pueden aplicar sobre los datos muestrales para verificar el cumplimiento de este requisito. Por su simplicidad y gran difusin exponemos brevemente el test de bondad de ajuste de Kolmogorov-Smirnov. Este contraste se emplea para decidir si una muestra proviene de una poblacin con una determinada distribucin. Se trata, por tanto, de un test que nos permite determinar si la variable original se ajusta a una distribucin cualquiera siempre que esta distribucin terica sea continua-. Es especialmente adecuado comparndolo, por ejemplo, con el test de bondad de ajuste de Pearson basado en la distribucin Chi-cuadrado - cuando el tamao de muestra es reducido. El test de Kolmogorov-Smirnov se basa en la funcin de distribucin emprica. Dados
n valores de la variable ordenados de menor a mayor Y(1) , Y( 2) ,..., Y( n ) correspondientes

a los n individuos de la muestra- se define la funcin de distribucin emprica como

En =

n(i ) donde n(i ) representa el nmero de individuos de la muestra ordenada que n

tienen un valor menor que Y( i ) .


Anlisis de varianza. JGM. 9/3/04 Pg. 13

La comparacin de esta funcin de distribucin emprica con la funcin de distribucin terica con la que se desea comprobar la bondad del ajuste es la que determina el estadstico de Kolmogorov-Smirnov. En concreto, las hiptesis del test son:

Hiptesis nula: los datos siguen una determinada distribucin de probabilidad. Hiptesis alternativa: los datos no siguen la distribucin de probabilidad especificada

El

estadstico

de

Kolmogorov-Smirnov

se

calcula

como

i D = max F (Y(i ) ) : 1 i n donde F es la funcin de distribucin terica. n

La hiptesis nula se rechaza si el valor del estadstico D es mayor que el valor crtico que se obtiene en una tabla (ver anexo). El siguiente grfico presenta el resultado tpico de una prueba de bondad de ajuste de Kolmogorov-Smirnov. La lnea quebrada es la funcin de distribucin emprica y la lnea suave es la funcin de distribucin terica que ha sido especificada para el ajuste. En este caso, la mxima diferencia se da en la observacin nmero 35, para la que la diferencia entre el percentil emprico y el percentil terico es mayor de 18 puntos. Esta mxima diferencia es la que determina el estadstico de Kolmogorov-Smirnov que, contrastado con la correspondiente tabla, nos proporciona una probabilidad crtica menor del 10% que, para este nivel de significacin, nos llevara a rechazar la hiptesis nula y a afirmar que tenemos evidencia suficiente para sospechar que los datos no provienen de la funcin de densidad especificada.

Anlisis de varianza. JGM. 9/3/04

Pg. 14

Grfico 1
Resultado tpico de una prueba de bondad de ajuste de Kolmogorov-Smirnov

Una vez presentado el caso ms simple de comparacin de medias esto es, aqul en el que estamos interesados en comparar las medias de dos poblaciones- en sus diversas variantes varianzas conocidas, varianzas desconocidas e iguales, varianzas desconocidas y distintas- y de describir los tests bsicos para comprobar los supuestos de homogeneidad de varianzas y de normalidad, dedicamos la siguiente seccin a la extensin ms natural de este problema. Cmo actuaremos en el caso de que el nmero de poblaciones sobre los que queremos comparar las medias sea mayor que dos?

Anlisis de varianza. JGM. 9/3/04

Pg. 15

3. Extensin al caso de k poblaciones: anlisis de varianza unifactorial


1.3. Introduccin
En muchas ocasiones la variable cualitativa que determina los colectivos entre los que estamos interesados en comparar los promedios de la variable cuantitativa presenta ms de dos modalidades. En estos casos el inters reside en contrastar hiptesis acerca de la igualdad de medias en ms de dos poblaciones. Una primera aproximacin al problema nos podra llevar a considerar que una buena estrategia es la de formar todas las posibles parejas de dos poblaciones y sobre cada una de estas parejas formular una prueba de hiptesis acerca de la igualdad de sus medias. En concreto, si deseamos contrastar la igualdad de medias en un conjunto de k poblaciones, este enfoque propondra formar las C k2 = parejas el orden no importa- y realizar un total de k! k (k 1) posibles = 2!(k 2)! 2

k (k 1) contrastes de hiptesis 2

empleando los ya presentados tests de la t de Student o de la Z, segn corresponda. Esta perspectiva presenta un grave inconveniente que no es otro que el del rpido incremento del nivel de significacin13 con el nmero de comparaciones. Veamos por
TP PT

qu: En el caso de llevar a cabo un contraste de hiptesis sobre la igualdad de las medias de dos poblaciones estamos incurriendo en una probabilidad de cometer un error de tipo I (rechazar una hiptesis nula que es cierta) y, en consecuencia, la probabilidad de no cometer un error de tipo I (esto es, aceptar una hiptesis nula que es cierta) es de 1 . Ahora bien, si llevamos a cabo un conjunto de k (k 1) contrastes, y 2

bajo el supuesto de que estos contrastes son independientes, la probabilidad de no cometer un error de tipo I es de (1 )
k ( k 1) 2

-no debemos equivocarnos en ninguno de

13
TP PT

El nivel de significacin es la probabilidad de cometer un error de tipo I, esto es, rechazar una hiptesis

nula que es, en realidad, cierta.

Anlisis de varianza. JGM. 9/3/04

Pg. 16

los contrastes- y, en consecuencia, la probabilidad de cometer un error de tipo I es 1 (1 )


k ( k 1) 2

, expresin que toma el valor para k = 2 pero que se aleja

rpidamente de l a medida que el valor de k aumenta. El siguiente grfico nos muestra la evolucin del nivel de significacin en funcin del nmero de poblaciones comparadas. Partiendo de un = 0,05 para una comparacin de dos poblaciones, el valor de 1 (1 )
k ( k 1) 2

supera el 50% cuando se comparan ms de 6

poblaciones. Queda pues patente la necesidad de un mtodo que nos permita resolver el problema de comparar las medias de k poblaciones sin incrementar innecesariamente el nivel de significacin. Este mtodo nos lo proporciona la versin ms simple del anlisis de varianza el anlisis de varianza unifactorial- tal como veremos en los siguientes apartados. Grfico 2
Evolucin del nivel de significacin en funcin del nmero de poblaciones k a comparar

Nivel de significacin en funcin de k


1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Anlisis de varianza. JGM. 9/3/04

Pg. 17

2.3. Objetivos y terminologa


El anlisis de varianza unifactorial14 tiene como objetivo bsico el contraste de hiptesis
TP PT

sobre la igualdad de las medias de k colectivos, superando las dificultades que se han puesto de manifiesto en el apartado anterior en concreto las referentes al incremento en la probabilidad de error de tipo I-. El anlisis de varianza unifactorial es, en esencia, un procedimiento de prueba de hiptesis que permite elegir entre dos conjeturas opuestas: una hiptesis nula que afirma la igualdad de las medias de la variable cuantitativa en el conjunto de las k subpoblaciones inducidas en la poblacin global por la variable cualitativa una hiptesis alternativa que propone la existencia de alguna subpoblacin en la que la media difiere de la del resto de subpoblaciones. El procedimiento bsico consiste en repartir la variabilidad total de la variable cuantitativa analizada asignndola bien al factor explicativo la variable cualitativa que divide al colectivo global en k grupos- bien al resto de factores no considerados. La importancia relativa de una y otra cantidad de variacin determinar si debemos decantarnos por la hiptesis nula de igualdad de medias o si, por el contrario, la evidencia en contra de ella es suficiente como para rechazarla. Antes de plantear con detalle las hiptesis nula y alternativa del anlisis de varianza unifactorial es necesario presentar con detalle la terminologa que vamos a emplear y mencionar la necesidad de que se cumplan ciertos requisitos de normalidad y homogeneidad de varianzas. Llamaremos Y a la variable cuantitativa cuyo promedio deseamos comparar en los distintos colectivos. A la variable Y se le da tambin el nombre de variable dependiente, variable explicada, variable endgena o variable respuesta. Asimismo, denotaremos por X la variable cualitativa que induce con sus modalidades una

14
TP PT

One-way Anova

Anlisis de varianza. JGM. 9/3/04

Pg. 18

particin de la poblacin global en subpoblaciones. A la variable X se le denomina factor, variable exgena o variable explicativa. Cada una de las modalidades de la variable cualitativa determina un nivel o tratamiento del factor. Designaremos con k el nmero de niveles del factor. Asimismo, necesitamos dos juegos de smbolos: los primeros para hacer referencia a ciertos valores poblacionales los que van a permitir formular las hiptesis- y los segundos para identificar determinados valores obtenidos en la muestra. En cuanto a la poblacin, necesitamos dos smbolos: Con nos referimos a la puntuacin promedio de los individuos de la poblacin en la variable Y . Por su parte, i representa el promedio en la variable Y de aquellos individuos que conforman la i-sima subpoblacin, esto es, de aquellos individuos que toman el valor i en la variable X. En cuanto a la muestra, vamos a trabajar con los siguientes smbolos: Yij es la puntuacin en la variable dependiente del j-simo individuo que ha sido seleccionado de la subpoblacin i-sima. Pueden existir hasta n = ni valores
i =1 k

distintos de Yij , uno por cada individuo de la muestra. El smbolo ni representa el nmero de individuos que, en la muestra, han sido seleccionados de la i-sima subpoblacin. Yi. es la puntuacin promedio de la muestra de individuos seleccionados de la subpoblacin i-sima. Matemticamente Yi. = 1 ni

Y
j =1

ni

ij

. Potencialmente, hay k

valores distintos de Yi. , uno por cada nivel del factor. Y.. es la puntuacin promedio global del conjunto de individuos de la muestra. En concreto, Y.. = 1 k ni Yij . Obviamente, el valor de Y.. es nico para la muestra. n i =1 j =1

Anlisis de varianza. JGM. 9/3/04

Pg. 19

3.3. Hiptesis previas


El anlisis de varianza requiere del cumplimiento de dos condiciones que deben verificarse antes de seguir adelante con el proceso. Estos requisitos son los de normalidad y homocedasticidad u homogeneidad de las varianzas- En los apartados anteriores se han presentado algunos contrastes bsicos que permiten comprobar el cumplimiento de estas condiciones.
1.3.3. Normalidad

Debemos comprobar que se cumple la normalidad de la variable dependiente en cada una de las subpoblaciones definidas por los niveles del factor. Esto nos obliga a efectuar k pruebas de bondad de ajuste antes de comenzar con el anlisis de varianza propiamente dicho. Con este fin se puede emplear el estadstico de KolmogorovSmirnov u otro equivalente. Es importante destacar que no es suficiente con comprobar que la variable dependiente se distribuya normalmente en el conjunto de la poblacin. Esta condicin no es necesaria ni suficiente para que la variable sea normal dentro de cada subpoblacin. El detalle acerca del procedimiento para aplicar la prueba de bondad de ajuste de Kolmogorov-Smirnov se ha presentado en una seccin anterior.
2.3.3. Homocedasticidad

Asimismo, es necesario comprobar que la dispersin de la variable dependiente es la misma en cada una de las subpoblaciones definidas por las modalidades del factor. Este requisito se concreta en la necesidad de que las varianzas poblacionales sean iguales.
2 As, la hiptesis nula a contrastar es 12 = 2 = ... = k2 , lo que se puede conseguir

empleando, entre otros, el test de Bartlett o el de Levene tal como se ha mostrado en un apartado anterior.

4.3. Hiptesis nula y alternativa en anlisis de varianza


La hiptesis de partida del anlisis de varianza unifactorial postula la inexistencia de una relacin entre el factor explicativo y la variable dependiente. En otras palabras, el valor promedio de la variable dependiente en todas y cada una de las subpoblaciones

Anlisis de varianza. JGM. 9/3/04

Pg. 20

definidas por los niveles del factor es el mismo y, en consecuencia, coincide con el valor promedio de toda la poblacin. En trminos ms precisos, esta hiptesis de partida se concreta en la hiptesis nula

1 = 2 = ... = k = o de modo equivalente i = 0 i { ,2,..., k }. No hay 1


diferencias entre los promedios de cada subpoblacin y el promedio global. Por su parte, la hiptesis alternativa propone la existencia de alguna subpoblacin cuyo promedio en la variable dependiente no coincide con el promedio global. En trminos matemticos, i { ,2,..., k } : i 0 . 1 Se trata, a continuacin, de seleccionar una muestra de individuos de unidades experimentales- y asignarlas de modo aleatorio a cada uno de los niveles del factor de modo que dispongamos de k submuestras de ni individuos cada una de ellas. A partir de estas submuestras y de la informacin recogida de ellas debemos optar entre la hiptesis nula igualdad de medias- o la alternativa.

5.3. Ecuacin fundamental


La ecuacin fundamental del anlisis de varianza unifactorial se refiere a la descomposicin o anlisis de la variabilidad total de la variable dependiente y su asignacin a las distintas fuentes potenciales de variacin el factor y el error aleatorio-. Se trata de determinar qu parte de los cambios en los valores de la variable dependiente se deben al hecho de que los individuos han sido asignados a diversos niveles del factor y qu parte a otros factores no considerados en el diseo esto es, al error aleatorioLa obtencin de la ecuacin fundamental comienza por el estudio de un individuo cualquiera para despus agregar los resultados para el conjunto de individuos. Comenzaremos pues por seleccionar a un individuo genrico y determinar los motivos por los que el valor de la variable dependiente en ese individuo se desva del promedio global a esta parte del anlisis la llamaremos anlisis de las desviaciones-. A continuacin agregaremos los datos para todos los individuos de modo que consigamos una descomposicin de la variacin total en fuentes de variacin la ecuacin fundamental propiamente dicha-

Anlisis de varianza. JGM. 9/3/04

Pg. 21

1.5.3. Anlisis de las desviaciones de los individuos respecto a la media global

A partir de la terminologa definida para los datos de la muestra - Yij , Yi. y Y.. - vamos a definir tres diferencias que nos van a permitir analizar los motivos por los que la puntuacin en la variable dependiente de un individuo genrico de la muestra se desva del promedio global. En concreto, vamos a considerar las siguientes tres diferencias:
Yij Y.. , mide la diferencia entre la puntuacin en la variable dependiente del j-

simo individuo seleccionado de la i-sima subpoblacin y la puntuacin promedio global en la variable cuantitativa para el conjunto de individuos que conforman la muestra. Designaremos esta diferencia como DT descompondremos en la suma de las otras dos diferencias. Yi. Y.. . Esta diferencia recibe el nombre de DE o desviacin explicada por el factor- y evala la diferencia entre la puntuacin promedio de la variable dependiente para los individuos de la muestra provenientes de la i-sima poblacin y la puntuacin promedio global en la muestra.
Yij Yi. , refleja la diferencia entre la puntuacin particular de un individuo y la

desviacin total- y la

puntuacin promedio de los individuos que han sido seleccionados de la misma subpoblacin. Evala la desviacin no explicada por la pertenencia del individuo al grupo y se denota por DNE . Una vez definidas estas tres diferencias es trivial verificar que para todos los individuos que componen la muestra se cumple que (Yij Y.. ) = (Yi. Y.. ) + (Yij Yi. ) o, de modo abreviado, DT = DE + DNE . Para cada individuo se cumple que, en lo que se refiere a su puntuacin en la variable dependiente, la desviacin respecto a la media global Yij Y.. - se puede descomponer en dos sumandos: la desviacin debida a la pertenencia

del individuo a una determinada modalidad del factor - Yi. Y.. - y la desviacin debida a otras causas no consideradas en el experimento - Yij Yi. -.

Anlisis de varianza. JGM. 9/3/04

Pg. 22

No obstante, como se ha comentado anteriormente, estamos interesados en obtener una medida de la variacin alrededor de la media global para el conjunto de los individuos que componen la muestra por lo que parece razonable proceder a sumar las desviaciones para todos los individuos. Si seguimos este camino, pronto nos daremos cuenta de que estamos abocados al fracaso. La suma de las desviaciones de cualquiera de ellas- para todos los individuos resulta ser nula. Es ms, las desviaciones estn sujetas a las siguientes restricciones:

(Y
k ni i =1 j =1

ij

Y.. ) = 0 . Esta restriccin implica que la suma de las desviaciones totales

DT - de los individuos respecto a la media resulta ser nula. Es obvio, puesto que

(Y
k ni i =1 j =1

ij

Y.. ) = (Yij ) (Y.. ) = n


k ni k ni i =1 j =1 i =1 j =1

(Y )
k ni i =1 j =1 ij

n
k

n
k

(Y )
k ni i =1 j =1 ij

= 0.

Por su parte

(Y
k ni i =1 j =1

i.

Y.. ) = ni (Yi. Y.. ) = ni (Yi. ) ni (Y.. ) = nY.. nY.. = 0 , lo


k i =1 i =1 i =1

que supone una restriccin sobre las desviaciones debidas al factor DE Por ltimo,

(Y
ni j =1

ij

Yi. ) = (Yij ) (Yi. ) = ni Yi. ni Yi. = 0 i { ,2,..., k }, lo que 1


ni ni j =1 j =1

supone un conjunto de k restricciones sobre la desviacin no explicada DNE -.


2.5.3. Los cuadrados de las desviaciones. Sumas de cuadrados

Con el fin de evitar que unas desviaciones se compensen con otras a la hora de agregarlas para el conjunto de individuos podemos optar por elevar todas las desviaciones al cuadrado. As, todos los valores sern no negativos y al acumularlos para todos los individuos nos proporcionarn un resultado no negativo. Siguiendo este camino debemos elevar al cuadrado ambos miembros de la igualdad que analizaba la desviacin total descomponindola en dos sumandos. La expresin
DT = DE + DNE

se

convertir

al

ser

elevada

al

cuadrado

en

DT 2 = DE 2 + DNE 2 + 2 DE DNE . Dado que DT = DE + DNE se cumple para todos los individuos de la muestra, ocurre lo mismo con DT 2 = DE 2 + DNE 2 + 2 DE DNE con la ventaja adicional de que en este caso todos los valores son no negativos. Si ahora
Anlisis de varianza. JGM. 9/3/04 Pg. 23

sumamos para todos los individuos los cuadrados de las desviaciones as como el doble producto cruzado tendremos tambin una igualdad, que se expresar del siguiente modo:

DT
k ni i =1 j =1

= DE 2 + DNE 2 + 2 DE DNE
2

o
2

de
k ni

modo

ms

explcito,

(Y

ij

Y.. ) = (Yi. Y.. ) + (Yij Yi. ) + 2 (Yi. Y.. )(Yij Yi. ) .


k ni
2

ni

i =1 j =1

i =1 j =1

i =1 j =1

Se puede comprobar fcilmente que

DE DNE = (Yi. Y.. )(Yij Yi. ) = 0 por lo


k ni i =1 j =1

que la expresin finalmente se convierte en

DT

= DE 2 + DNE 2

(Y
k ni i =1 j =1

ij

Y.. ) = (Yi. Y.. ) + (Yij Yi. ) , que en modo ms breve suele


2

ni

ni

i =1 j =1

i =1 j =1

expresarse STC = SCTR + SCE siendo: STC = (Yij Y.. ) . Esta expresin recibe el nombre de suma de cuadrados
k ni
2

i =1 j =1

total y mide la variabilidad total en la muestra de la variable dependiente respecto al promedio global. STC es la suma de n elementos potencialmente distintos sujetos a una restriccin recurdese que
n 1 grados de libertad15.
TP PT

(Y
k ni i =1 j =1

ij

Y.. ) = 0 - por lo que tiene un total de

SCTR = (Yi. Y.. ) es la suma de cuadrados de los tratamientos y mide la parte


k ni
2

i =1 j =1

de la variabilidad total de la variable dependiente que puede ser atribuida al hecho de que los individuos pertenecen a distintos niveles o tratamientos del factor. La

15
TP PT

Los grados de libertad de un problema, de una distribucin, etctera representan el nmero de

parmetros que pueden variar de modo independiente. Por ejemplo si en un conjunto hay n elementos y una restriccin por ejemplo, la suma de los elementos tiene que ser nula- entonces slo pueden variar libremente n-1 elementos ya que la restriccin existente sobre ellos determina el n-simo. As, el nmero de grados de libertad viene dado por la diferencia entre el nmero de sumandos potencialmente distintos y el nmero de restricciones existentes sobre los elementos en este caso n-1-.

Anlisis de varianza. JGM. 9/3/04

Pg. 24

suma de cuadrados de los tratamientos SCTR = (Yi. Y.. ) = ni (Yi. Y.. ) es


k ni
2

i =1 j =1

i =1

la suma de k elementos potencialmente distintos sujetos a una restriccin -

n (Y
k i =1 i

i.

Y.. ) = 0 - por lo que sus grados de libertad resultan ser k 1 , siendo k el

nmero de niveles del factor. Por ltimo, SCE = (Yij Yi. ) recibe el nombre de suma de cuadrados de los
k ni
2

i =1 j =1

errores y representa la parte de la variabilidad total que no puede ser atribuida a la pertenencia del individuo a un determinado nivel del factor y que, en consecuencia, se debe a otros factores ajenos al experimento. Como se ha visto,

(Y
ni j =1

ij

Yi. ) = 0 i { ,2,..., k } lo que aade k restricciones a esta suma de 1

cuadrados que consta, potencialmente, de n sumandos distintos. De aqu que sus grados de libertad sean n k .

6.3. Cuadrados medios


La descomposicin de la variacin total - STC - en la parte atribuible al factor - SCTR - y la no atribuible a l - SCE - puede proporcionarnos una idea preliminar acerca de la relevancia de la variable cualitativa como factor explicativo de la variable dependiente. No obstante, esta primera aproximacin puede llevarnos a error ya que est dejando de lado un elemento de suma importancia como son los grados de libertad. Para que unas sumas de cuadrados puedan ser comparadas con otras es necesario dividirlas previamente entre sus correspondientes grados de libertad de modo que obtengamos la parte que cada grado de libertad de la correspondiente suma de cuadrados explica de la variable dependiente. Construiremos as dos cuadrados medios segn las siguientes expresiones: CMTR = CME = SCTR k 1

SCE nk
Pg. 25

Anlisis de varianza. JGM. 9/3/04

Estos cuadrados medios constituyen estimaciones insesgadas de la varianza poblacional intergrupos e intragrupos respectivamente. Es ms, bajo el supuesto de que la hiptesis nula de igualdad de medias es cierta, la distribucin en el muestreo de estos cuadrados medios es conocida. En concreto, si las medias en las k poblaciones son iguales se tiene que16:
TP PT

STC

2
2

se distribuye segn una 2 de n 1 grados de libertad. =

SCTR

(k 1)CMTR
2 2

se distribuye segn una 2 de k 1 grados de libertad.

SCE
2

(n k )CME

se distribuye segn una 2 de n k grados de libertad.

Una vez calculados los cuadrados medios nos encontramos en condiciones de realizar comparaciones entre ellos. Obviamente, un valor muy elevado de CMTR junto con un valor muy reducido de CME nos debera llevar a pensar que el factor determina diferentes promedios en cada una de las subpoblaciones que induce en la poblacin original; por el contrario, un valor bajo de CMTR y un valor elevado de CME nos debera hacer pensar en la ineficacia del factor para explicar la variable dependiente. No obstante, necesitamos conocer cmo de grande debe ser CMTR respecto a CME para tomar la decisin de rechazar la hiptesis nula de igualdad de medias. La respuesta la tenemos en el estadstico de contraste del anlisis de varianza unifactorial, que presentamos en la siguiente seccin.

7.3. El estadstico de contraste. Distribucin F de Fisher-Snedecor


Como ya se ha dejado entrever en la seccin anterior, el estadstico de contraste del anlisis de varianza unifactorial no es otra cosa que el cociente entre los dos cuadrados medios calculados.

16
TP PT

se refiere a la varianza poblacional de la variable dependiente dentro de los niveles.

Anlisis de varianza. JGM. 9/3/04

Pg. 26

En concreto, bajo el supuesto de que la hiptesis nula es cierta, sabemos que17:


TP PT

(k 1)CMTR 2 k21 CMTR (k 1) = = 2 k 1 = Fk 1;n k . EC = (n k )CME 2 CME nk (n k ) nk


As, la decisin respecto a la veracidad o falsedad de la hiptesis nula se puede tomar fcilmente. En el caso de que el valor del estadstico de contraste EC sea mayor o igual al valor crtico de una F de Fisher-Snedecor de k 1 grados de libertad en el numerador y n k en el denominador que deja a su derecha un rea igual al nivel de significacin elegido valor crtico que denotaremos por f k 1;n k ; - se optar por rechazar la hiptesis nula. En caso contrario, la hiptesis nula se aceptar por no tener evidencia suficiente para afirmar la existencia de una subpoblacin con una media diferente. En el caso de que el resultado final de la prueba de hiptesis haya sido la aceptacin de la hiptesis nula y en consecuencia la no existencia de evidencia suficiente para sospechar que las subpoblaciones presentan medias diferentes- el anlisis ha finalizado. Sin embargo, si la hiptesis nula ha sido rechazada hemos encontrado evidencia de que existe al menos una subpoblacin con una media poblacional diferente para la variable cuantitativa. El problema es que no sabemos cul o cules son! Para dar respuesta a la pregunta natural acerca de cules de las subpoblaciones presentan medias distintas de las medias de las dems poblaciones se han desarrollado los llamados contrastes a posteriori. De los muchos que existen se presentarn a continuacin los contrastes de Scheff y de Tukey.

17
TP PT

El cociente de dos

previamente divididas por sus grados de libertad determina una F de Fisher-

Snedecor. En concreto, si X e Y son dos variables aleatorias tales que X

eY

entonces

X Y

F ; , siendo los grados de libertad del numerador y los grados de libertad del

denominador.

Anlisis de varianza. JGM. 9/3/04

Pg. 27

8.3. Contrastes a posteriori: Scheff y Tukey


El hecho de haber obtenido un valor elevado y significativo- del estadstico de contraste en la prueba de hiptesis basada en la F puede despertar en el investigador el inters por conocer entre qu grupos se estn produciendo las diferencias significativas. Con ese fin fueron desarrollados los contrastes a posteriori. Se describirn dos de ellos: el test HSD18 de Tukey y el test de Scheff.
TP PT

Ambos parten de la elaboracin de una matriz k k en la que en columnas y en filas se sitan los valores promedio para la variable dependiente que se han obtenido en la muestra en cada uno de los k grupos formados por las modalidades de la variable cualitativa. Tanto las filas como las columnas deben estar ordenadas en orden creciente del promedio correspondiente. A continuacin se calculan las diferencias entre los promedios obtenidos en los distintos niveles del factor. Los elementos de la diagonal principal resultan ser cero y la matriz es antisimtrica19, con lo que los elementos de la
TP PT

matriz situados por debajo de la diagonal principal pueden ser obviados. A continuacin se calcula para cada elemento de la matriz un valor al que se da el nombre de diferencia crtica CDij -. Todos aquellos elementos de la matriz en los que se cumpla que Yi. Y j . CDij indican la existencia de una diferencia significativa entre los promedios de las subpoblaciones i-sima y j-sima. La nica diferencia entre los contrastes de Scheff y de Tukey reside en el modo de calcular esa diferencia crtica. Estos clculos se detallan a continuacin:
CME 1 + 1 , siendo ni el nmero de individuos de la 2 ni n j

CDTukey ;i , j = q r ; ; g .l .( SCE )

muestra que pertenecen al i-simo nivel del factor y n j el nmero de individuos en el j-simo nivel del factor. El valor de q r ; ; g .l .( SCE ) se obtiene de las tablas de la

18
TP PT

Honestly Significant Difference. Una matriz A se dice antisimtrica si A = A .


t
PT

19
TP

Anlisis de varianza. JGM. 9/3/04

Pg. 28

distribucin de la variable q . Esta distribucin se puede consultar en Kuehl (2001) aunque el software estadstico ms habitual nos proporciona automticamente la probabilidad crtica correspondiente al valor obtenido en la muestra.
CDScheff ;i , j =

(k 1) f k 1;nk ; CME 1

ni

1 nj

, donde nuevamente ni representa el

nmero de individuos de la muestra que pertenecen al i-simo nivel del factor y n j el nmero de individuos en el j-simo nivel del factor.

9.3. Esquema general del anlisis de varianza unifactorial


La figura que se presenta a continuacin esquematiza los pasos a dar en la realizacin de un anlisis de varianza unifactorial. Sirva como resumen de lo tratado en este apartado.

Grfico 3 Esquema general del proceso de anlisis de varianza unifactorial

Tests de Bartlett, Hartley, Levene...

Tratamiento de la heterocedasticidad

FIN
S

NO

INICIO

Homocedasticidad?

Normalidad?

Anlisis de varianza

Aceptamos Hip. nula?

NO

NO

Test de KolmogorovSmirnov

Tratamiento de la no normalidad

Test de Scheff o Tukey

Contrastes a posteriori

Anlisis de varianza. JGM. 9/3/04

Pg. 29

4. Anlisis de varianza con dos factores e interaccin


1.4. Objetivos y terminologa
Como una generalizacin natural de la situacin que se plantea en el caso del anlisis de varianza unifactorial se presenta el caso en el que el inters reside en estudiar la posible influencia de una pareja de variables cualitativas en una tercera variable, esta vez de naturaleza cuantitativa mtrica o de escalaA las caractersticas del procedimiento detallado en las anteriores secciones se aade aqu el posible efecto de interaccin entre los factores explicativos en este caso limitado a la situacin ms sencilla en el que la nica interaccin es de orden dos-. As, consideraremos no slo dos posibles fuentes de explicacin de la variacin total las correspondientes a los dos factores- sino tambin una tercera, relativa a un efecto combinado de ambos. La generalizacin de esta situacin al caso de un mayor nmero de factores explicativos nos conduce a la existencia de interacciones de orden 3, 4, etctera, lo que complica en gran medida la situacin aunque conceptualmente no aporte nada nuevo. La terminologa empleada es totalmente paralela a la que se ha utilizado en el caso del anlisis unifactorial. Hablaremos de variable respuesta, variable endgena o variable dependiente para referirnos a la variable cuantitativa cuya variabilidad deseamos explicar y de variable explicativa, independiente, exgena o factor para referirnos a cada una de las variables cualitativas candidatas a explicar la variabilidad de la dependiente. Asimismo, cada una de las modalidades de los factores recibir el nombre de nivel o tratamiento. Los siguientes apartados se dedicarn a presentar detalladamente el procedimiento para determinar si una pareja de variables cualitativas explican eventualmente con un efecto de interaccin entre ellas- las variaciones de una variable de naturaleza cuantitativa.

2.4. Hiptesis nulas en anlisis de varianza con dos factores


Los objetivos del anlisis de varianza bifactorial se materializan en tres hiptesis de partida o hiptesis nulas. Antes de formularlas de modo preciso necesitamos establecer
Anlisis de varianza. JGM. 9/3/04 Pg. 30

la nomenclatura que vamos a utilizar para referirnos a los promedios de las diferentes subpoblaciones que determinan los niveles de los factores y sus combinaciones. En este caso, nos veremos obligados a emplear ms subndices para recoger por separado el efecto de cada uno de los factores. En concreto: El smbolo .. (la letra griega seguida de dos puntos como subndice) se utilizar para referirnos a la puntuacin promedio de la variable dependiente en el conjunto de la poblacin. Emplearemos i. para denotar el valor promedio de la variable dependiente en la subpoblacin definida por el i-simo nivel del primer factor. Por referirse al primer factor, el subndice correspondiente al segundo factor aparece como un punto. Habr tantos valores potencialmente distintos de i. como niveles existan en el primer factor. Este nmero de niveles se denotar por k A . Para referirnos al valor promedio de la variable dependiente en cada una de las k B subpoblaciones definidas por los niveles del segundo factor utilizaremos el smbolo

. j . Anlogamente al caso del primer factor, el punto en el primer subndice seala


que este promedio se refiere a una subpoblacin definida por el segundo factor. Por ltimo ij denotar la puntuacin promedio de la variable dependiente en la poblacin definida por la combinacin del i-simo nivel del primer factor y del jsimo nivel del segundo factor. Obviamente puede haber k Ak B valores distintos de

ij .
Se detallan a continuacin las tres hiptesis nulas de un anlisis de varianza bifactorial.
1.2.4. Hiptesis nula sobre el primer factor

La primera hiptesis nula se refiere al primer factor y afirma que ste no tiene ningn efecto sobre la variable dependiente. En otras palabras, la hiptesis de partida del anlisis de varianza en relacin con el primer factor es que el valor promedio de la variable dependiente en todas y cada una de las subpoblaciones definidas por los niveles de este factor es el mismo y, en consecuencia, coincide con el valor promedio de toda la poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 31

En

trminos

ms
A

precisos,

esta

primera

hiptesis

nula

afirma

que

1. = 2. = ... = k . = .. o de modo equivalente i. .. = 0 i { ,2,...,k A }. No hay 1


diferencias entre los promedios de la variable cuantitativa en las subpoblaciones definidas por los niveles del primer factor y el promedio global en la poblacin.
2.2.4. Hiptesis nula sobre el segundo factor

En el caso del segundo factor, la hiptesis nula correspondiente es anloga a la del primero. En este caso, la hiptesis de partida afirma que el segundo factor no incide sobre la variable respuesta, es decir, no existen diferencias entre los promedios de la variable cuantitativa en las subpoblaciones definidas por los niveles del segundo factor y el promedio global. Matemticamente .1 = .2 = ... = .k B = .. o lo que es lo mismo . j .. = 0 j { ,2,...,k B }. 1
3.2.4. Hiptesis nula sobre la interaccin de los factores

En lo que se refiere a la hiptesis de partida sobre la interaccin entre los factores se considera que es inexistente, es decir, se parte del supuesto de que el posible efecto debido a la pertenencia de un individuo a cada uno de los niveles de un factor permanece constante sea cual sea el nivel del otro factor al que est adscrito. Se dice tambin que la hiptesis de partida es la de aditividad de los efectos principales de los factores. Matemticamente esta hiptesis nula se concreta en la siguiente expresin: ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2,...,k A } { ,2,...,k B } en la que el promedio de la 1 1

variable dependiente en cada una de las k Ak B subpoblaciones resultantes del producto cartesiano de los conjuntos formados por los niveles de ambos factores viene dado por la simple adicin de los efectos principales correspondientes a los niveles de cada factor. Una vez formuladas las hiptesis nulas propias del anlisis de varianza bifactorial corresponde ahora estudiar una muestra de individuos para a partir de ella decidir si las hiptesis planteadas pueden mantenerse o, por el contrario, existe evidencia muestral suficiente como para considerarlas errneas.

Anlisis de varianza. JGM. 9/3/04

Pg. 32

3.4. Ecuacin fundamental del anlisis de varianza bifactorial


Trabajar con una muestra en vez de con toda la poblacin nos obliga, desde el punto de vista de la nomenclatura empleada, a presentar nuevos conceptos. En concreto: Denotaremos por Yijk al k-simo individuo que en nuestra muestra ha sido asignado al i-simo nivel del primer factor y al j-simo nivel del segundo factor. Tendremos un valor de Yijk potencialmente distinto para cada uno de los individuos que componen nuestra muestra. Con Y... nos referiremos al promedio global de la variable dependiente en el conjunto de observaciones de nuestra muestra. La expresin matemtica de este valor es Y... = 1
kA kB

n
i =1 j =1

Y
i =1 j =1 k =1

kA

kB

nij

ijk

donde nij representa el nmero de individuos

ij

que en la muestra se encuentran simultneamente clasificados en el i-simo nivel del primer factor y en el j-simo nivel del segundo. Obviamente, el valor de Y... es nico para la muestra. El simbolo Yi.. se emplear para referirnos al promedio de la variable dependiente en aquellos individuos de nuestra muestra pertenecientes al i-simo nivel del primer factor. En concreto, se tiene que Yi.. = 1
kB

n
j =1

Y
j =1 k =1

kB

nij

ijk

. Hay potencialmente k A

ij

valores distintos de Yi.. , uno por cada nivel del primer factor. Por su parte, Y. j . se referir al promedio de la variable dependiente en los individuos de nuestra muestra pertenecientes al j-simo nivel del segundo factor. Matemticamente Y. j . =
1
kA

n
i =1

Y
i =1 k =1

kA

nij

ijk

. Puede haber hasta k B valores distintos de

ij

Y. j . , uno por cada nivel del segundo factor.

Por ltimo, Yij . se refiere al promedio de la variable dependiente en los individuos de nuestra muestra que se encuentran simultneamente clasificados en el i-simo

Anlisis de varianza. JGM. 9/3/04

Pg. 33

1 nivel del primer factor y en el j-simo nivel del segundo. Yij . = nij

Y
k =1

nij

ijk

. Los

valores potencialmente distintos de Yij . son k A k B uno por cada elemento del producto cartesiano de los conjuntos formados por los niveles de ambos factores. Una vez establecida la terminologa propia del anlisis de varianza bifactorial podemos proceder a analizar las causas por las que el valor de la variable dependiente de cada individuo se desva del promedio general. Este es el objetivo del siguiente apartado.
1.3.4. Anlisis de las desviaciones de los individuos respecto a la media global

Obviamente, la variable dependiente puede tomar valores diferentes en cada uno de los individuos que componen la muestra seleccionada. De hecho, es esta variabilidad la que estamos tratando de explicar en funcin de los niveles de los factores. Como primer paso para alcanzar este objetivo vamos a analizar la desviacin del valor de la variable dependiente respecto al promedio global para cada uno de los individuos que componen la muestra, esto es, vamos a descomponer la diferencia Yijk Y... , a la que llamaremos desviacin total y designaremos como DT, en la suma de cuatro elementos. En concreto, vamos a considerar las siguientes diferencias: Yi.. Y... , mide la diferencia entre el promedio de la variable dependiente en cada uno de los k A niveles del primer factor y el promedio global. Recibe el nombre de desviacin debida al primer factor y la denotamos por DA.
Y. j . Y... , refleja la diferencia entre el promedio de la variable dependiente en cada

uno de los k B niveles del segundo factor y el promedio global. Recibe el nombre de desviacin debida al segundo factor y la designamos como DB.
Yij . Yi.. Y. j . + Y... , refleja la diferencia entre el promedio de la variable dependiente

en el conjunto de individuos clasificados simultneamente en el i-simo nivel del primer factor y el j-simo nivel del segundo factor - Yij . - y el valor promedio que deberan tener los individuos de dicho grupo en el caso de que los efectos de los factores fueran estrictamente aditivos - Y... + (Yi.. Y... ) + (Y. j . Y... ) -. Ntese que
Anlisis de varianza. JGM. 9/3/04 Pg. 34

Yij . Y... + (Yi.. Y... ) + (Y. j . Y... ) = Yij . Yi.. Y. j . + Y... .

Esta

diferencia

se

llama

desviacin debida a la interaccin de los factores y la designamos por DAB.


Yijk Yij . evala la diferencia entre el valor de la variable dependiente en un

individuo concreto de nuestra muestra el k-simo individuo clasificado en el isimo nivel del primer factor y en el j-simo nivel del segundo factor- y el valor promedio de aquellos individuos clasificados en los mismos niveles que l. Recibe el nombre de desviacin no explicada. Nos referiremos a ella utilizando el smbolo DNE. Definidas estas cuatro diferencias resulta trivial expresar la desviacin de cada individuo respecto a la media global Yijk Y... como su suma, es decir,

(Y

ijk

Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . ) o de modo resumido,

DT=DA+DB+DAB+DNE. Debe notarse que esta igualdad se cumple para todos y cada uno de los individuos de la muestra y reparte la desviacin total de cada individuo respecto al promedio global entre el conjunto de factores estudiados, su interaccin y el error aleatorio. El siguiente paso consiste en agregar estas desviaciones para el conjunto de los individuos que conforman la muestra de modo que tengamos una descomposicin de la variacin total de la variable dependiente en funcin de los factores analizados. Parecera lgico proceder a sumar las desviaciones para todos los individuos de la muestra. Sin embargo, las propiedades bsicas de los promedios hacen que cuando sumamos estas diferencias para el conjunto de todos los individuos de la muestra obtengamos siempre el mismo resultado: la suma es nula. De este modo, la simple adicin de las desviaciones para todos los individuos no nos sirve como medida de la dispersin total de stos respecto a los promedios. Debemos evitar la compensacin de los signos positivos y negativos y para ello optamos por calcular los cuadrados de las desviaciones. Convertimos as cualquier valor (positivo o negativo) en no negativo, evitando de este modo la mencionada y no deseada compensacin. Veremos con detalle cmo hacerlo en el siguiente apartado.

Anlisis de varianza. JGM. 9/3/04

Pg. 35

Antes, conviene detenerse unos instantes en el estudio de algunas propiedades de estas desviaciones que ms adelante nos ayudarn a determinar los grados de libertad de sus sumas de cuadrados. En concreto: Si sumamos la desviacin total Yijk Y... para todos los individuos, obtenemos siempre un valor nulo. En efecto,

(Y
kA kB nij i =1 j =1 k =1 kA kB nij

ijk

Y... ) = (Yijk ) (Y... ) = (Yijk ) Y... nij =


kA kB nij kA kB nij kA kB nij kA kB i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1

(Y )
i =1 j =1 k =1 ijk

n n
i =1 j =1 i =1 j =1 kA k B

kA

kB

ij k A

(Y ) = (Y ) (Y ) = 0
kB nij kA kB nij kA kB nij i =1 j =1 k =1 ijk i =1 j =1 k =1 ijk i =1 j =1 k =1 ijk

ij

Si sumamos Yi.. Y... , es decir la desviacin debida al primer factor para todos los niveles del primer factor ponderada por el nmero de individuos clasificados en cada nivel de este factor obtenemos tambin un valor nulo. Es decir,

n (Y
kA i =1 i.

i ..

Y... ) = ni.Yi.. ni.Y... = Yijk Yijk = 0


kA kA k A kB k A kB i =1 i =1 i =1 j =1 k =1 i =1 j =1 k =1

nij

nij

Anlogamente, si agregamos las desviaciones Y. j . Y... , es decir las desviaciones respecto al promedio global debidas al segundo factor para todos los niveles del segundo factor considerando el nmero de individuos clasificados en cada nivel de este factor obtenemos un resultado nulo. Matemticamente:

n (Y
kB j =1 .j

. j.

Y... ) = n. j Y. j . n. j Y... = Yijk Yijk = 0


kB kA kA kB nij kA kB nij j =1 i =1 i =1 j =1 k =1 i =1 j =1 k =1

En cuanto a la desviacin debida a la interaccin, si sumamos dentro de cada uno de los k A niveles del primer factor las desviaciones Yij . Yi.. Y. j . + Y... ponderadas por el nmero de individuos clasificados en cada combinacin de niveles obtenemos una suma nula. Es decir:
kB kB kB kB nij (Yij . Yi.. Y. j . + Y... ) = nijYij . nijYi.. + nijY... nijY. j . = j =1 j =1 j =1 j =1 j =1 [ni.Yi.. ni.Yi.. ] + [ni.Y... ni.Y... ] = 0 i {1,2,..., k A } kB

Anlisis de varianza. JGM. 9/3/04

Pg. 36

Por ltimo, algo muy similar ocurre si sumamos estas mismas desviaciones dentro de cada uno de los k B niveles del segundo factor. En concreto:
kA kA kA kA nij (Yij . Yi.. Y. j . + Y... ) = nijYij . nijY. j . + nijY... nijYi.. = i =1 i =1 i =1 i =1 i =1 n. jY. j . n. jY. j . + n. jY... n. jY... = 0 j { ,2,..., k B } 1 kA

] [

2.3.4. Los cuadrados de las desviaciones. Sumas de cuadrados.

El anlisis de la desviacin total de cada individuo de la muestra respecto a la media global es el paso previo para la obtencin de las sumas de cuadrados. En efecto, deseamos obtener una medida de la dispersin global de los individuos respecto a la media global y para ello debemos sumar las desviaciones de todos ellos. Sin embargo, debido a las propiedades bsicas de los promedios, las sumas de las desviaciones resultan ser siempre nulas. Para evitar la compensacin de los signos optamos por elevar todas las desviaciones al cuadrado. As, al sumarlas para todos los individuos obtendremos siempre un valor no negativo. De este modo:

(Y

ijk

Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . )
2

o en forma resumida DT 2 = (DA + DB + DAB + DNE )2 , expresin que se convierte en


DT 2 = DA 2 + DB 2 + DAB 2 + DNE 2 + 2 DA DB + 2 DA DAB + 2 DA DNE + 2 DB DAB + 2 DB DNE + 2 DAB DNE

Dado que la identidad DT = (DA + DB + DAB + DNE ) se cumple para cada uno de los individuos de la muestra ocurrir lo mismo para DT 2 = (DA + DB + DAB + DNE )2 . En consecuencia, la suma para todos los individuos del primer miembro de la igualdad coincidir con la suma del segundo miembro, esto es

DT 2 = (DA + DB + DAB + DNE ) =


2 i =1 j =1 k =1 k A kB n ij i =1 j =1 k =1 nij

k A kB

n ij

kA kB

n ij

DA + DB + DAB + DNE
2 2 2 i =1 j =1 k =1 k A kB i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1 k =1

k A kB

k A kB

nij

k A kB

nij

+ 2 DA DAB + ... +
i =1 j =1 k =1

k A kB

nij

+ 2 DAB DNE
i =1 j =1 k =1

n ij

Las sumas correspondientes a los dobles productos cruzados de las desviaciones son
Anlisis de varianza. JGM. 9/3/04 Pg. 37

por propiedades bsicas de los promedios- nulas. De aqu que la expresin de la ecuacin
k A kB n ij

fundamental
k A kB n ij 2

del
2

anlisis
k A kB n ij

de
2

varianza
k A kB n ij

bifactorial
k A kB nij 2

se

resuma

en

DT
i =1 j =1 k =1

= DA + DB + DAB + DNE 2 o en modo


i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1 k =1

ms breve, STC = SCA + SCB + SCAB + SCE , siendo:


STC , la suma total de cuadrados o variacin total de la variable respuesta. Su

expresin matemtica es

DT 2 = (Yijk Y... ) , siendo nij el nmero


kA kB nij kA kB nij 2 i =1 j =1 k =1 i =1 j =1 k =1 kA kB

de individuos clasificados simultneamente en el nivel i-simo del primer factor y jsimo del segundo. STC es la suma de cuadrados de n = nij elementos
i =1 j =1

distintos, sujetos a la restriccin

(Y
kA kB nij i =1 j =1 k =1

ijk

Y... ) = 0 . En consecuencia STC tiene

n 1 grados de libertad, siendo n el nmero de individuos seleccionados en la

muestra.
SCA o suma de cuadrados del primer factor. Representa la parte de la variacin

total de la variable dependiente que queda explicada por los diversos niveles del primer
kA kB nij 2

factor.
kA kB nij

Su
2 kA

expresin
2

matemtica
kB

es

DA = (Yi.. Y... ) = ni. (Yi.. Y... ) , donde ni. = nij , es decir,


i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1

recoge el nmero de individuos clasificados en el nivel i-simo del primer factor. Esta expresin es la suma ponderada- de los cuadrados de k A elementos distintos. Estos elementos estn sujetos a una restriccin: su suma ponderada por el tamao d cada grupo debe ser nula, - ni. (Yi.. Y... ) = 0 - por lo que los grados de libertad de
kA i =1

esta suma de cuadrados resultan ser k A 1 .


SCB o suma de cuadrados del segundo factor. Representa la parte de la variacin

total de la variable dependiente que queda explicada por los diversos niveles del segundo
k A kB nij

factor.
k A kB nij

Su
2 kB

expresin
2

matemtica
kA

es

DB 2 = (Y. j. Y... ) = n. j (Y. j. Y... ) , donde n. j = nij . SCB es la


i =1 j =1 k =1 i =1 j =1 k =1 j =1 i =1

Anlisis de varianza. JGM. 9/3/04

Pg. 38

suma de cuadrados ponderada por el nmero de individuos clasificados en cada uno de los niveles del segundo factor- de k B elementos distintos. Estos k B elementos presentan la restriccin

n (Y
kB j =1 .j

. j.

Y... ) = 0 por lo que los grados de

libertad de esta suma de cuadrados son k B 1 .


SCAB o suma de cuadrados de la interaccin. Representa la parte de la variacin

total de la respuesta que queda explicada por la existencia de una interaccin entre los
kA kB nij

dos
kA 2

factores.
kB nij

Su
2

expresin
kA kB

matemtica
2

es Esta

DAB = (Yij. Yi.. Y. j. + Y... ) = nij (Yij. Yi.. Y. j. + Y... ) .


i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1

expresin es la suma de cuadrados de k Ak B elementos distintos. Para calcular los grados de libertad de esta suma de cuadrados debemos considerar las restricciones a que estn sometidos los sumandos. En concreto, para cada nivel del primer factor es decir, i 1,2,..., k A - debe cumplirse que

n (Y
kB j =1 ij kA

ij .

Yi.. Y. j . + Y... ) = 0 , lo que

supone un conjunto de k A restricciones. Asimismo, para cada uno de los niveles del segundo factor - j 1,2,..., k B - debe cumplirse que

n (Y
i =1 ij

ij .

Yi.. Y. j . + Y... ) = 0 , lo

que aade k B restricciones a las k A ya existentes. Sin embargo, una de estas k A + k B restricciones es redundante ya que si se cumplen las k A correspondientes a los niveles del primer factor y cualesquiera k B 1 de las correspondientes a los k B niveles del segundo factor necesariamente debe cumplirse la restriccin restante un razonamiento similar puede efectuarse si consideramos las k B restricciones del segundo factor y cualesquiera k A 1 restricciones de las correspondientes al primero- En consecuencia, SCAB es una suma de cuadrados de k Ak B elementos distintos sujetos a k A + k B 1 restricciones, por los que sus grados de libertad son k Ak B k A + k B 1 = k A 1 k B 1 .
SCE o suma de cuadrados de los errores, que representa la parte de la variacin

) (

)(

total de la respuesta que no ha podido ser explicada por los factores ni por su

Anlisis de varianza. JGM. 9/3/04

Pg. 39

interaccin. Su expresin es

(Y
kA kB nij i =1 j =1 k =1

ijk

Yij . ) . Para el clculo de los grados de


2

libertad de esta suma de cuadrados podemos razonar considerando que los grados de libertad de la suma total de cuadrados coincide con la suma de los grados de libertad de las sumas de cuadrados en los que aqulla se descompone, es decir,
gl (STC ) = gl (SCA) + gl (SCB ) + gl (SCAB ) + gl (SCE ) . Siguiendo este razonamiento

se tiene que gl (SCE ) = gl (STC ) gl (SCA) gl (SCB ) gl (SCAB ) = n k Ak B .

4.4. Cuadrados medios


El anlisis de la variacin total de la variable dependiente, es decir, la descomposicin de la suma total de cuadrados en sumas de cuadrados atribuibles a diversas fuentes de variacin, puede darnos una idea preliminar de la importancia relativa de los factores considerados a la hora de explicar la variable respuesta. No obstante, este anlisis est sesgado si no tomamos en cuenta los grados de libertad de cada una de estas sumas de cuadrados. En efecto, para que podamos comparar unas sumas de cuadrados con otras debemos dividirlas previamente entre sus correspondientes grados de libertad obteniendo de este modo los llamados cuadrados medios. Tendremos, por lo tanto, cuatro cuadrados medios: CMA = SCA kA 1 SCB kB 1 SCAB (k A 1)(k B 1)

CMB =

CMAB =

CME =

SCE n k Ak B

Anlisis de varianza. JGM. 9/3/04

Pg. 40

Los cuadrados medios de cada una de las fuentes de variacin podran considerarse como la parte que cada grado de libertad de la correspondiente suma de cuadrados explica de la variable dependiente20.
TP PT

En concreto, bajo el supuesto de que las hiptesis nulas correspondientes son ciertas se cumple21 que:
TP PT

STC

se distribuye segn una 2 de n-1 grados de libertad. = =

SCA
2

(k A 1)CMA

se distribuye segn una 2 de k A 1 grados de libertad. se distribuye segn una 2 de k B 1 grados de libertad. se distribuye segn una 2 de (k A 1)(k B 1) grados

SCB
2

(kB 1)CMB

SCAB

(k A 1)(k B 1)CMAB

de libertad. SCE

(n k AkB )CME
2

se distribuye segn una 2 de n k Ak B grados de libertad.

A partir de los cuadrados medios s podemos realizar comparaciones entre los diversos factores en lo que se refiere a su capacidad para explicar los cambios en la variable dependiente. Estas comparaciones entre los diversos cuadrados medios se realizarn a travs de los estadsticos de contraste cocientes entre ciertos cuadrados medios- que nos permitirn responder a la pregunta de si las hiptesis nulas que nos hemos formulado son o no ciertas. A determinar cules son estos estadsticos de contraste esto es, cules son los cocientes de cuadrados medios relevantes- se dedica el siguiente apartado.

20
TP PT

Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones

insesgadas de la varianza poblacional intergrupos e intragrupos respectivamente.


21
TP PT

denota la varianza poblacional de la variable dependiente dentro de las combinaciones de niveles.

Anlisis de varianza. JGM. 9/3/04

Pg. 41

5.4. Estadsticos de contraste y decisin sobre las hiptesis nulas


1.5.4. La F de Fisher-Snedecor

Tal como hemos visto en el apartado anterior, ciertas funciones lineales de los cuadrados medios se distribuyen en el muestreo siguiendo una distribucin 2 de grados de libertad que varan segn sea el cuadrado medio considerado. Por otra parte, necesitamos comparar unos cuadrados medios con otros, lo que podemos conseguir calculando los cocientes entre ellos. Sabemos asimismo que el cociente de dos 2 previamente divididas por sus grados de libertad determina una F de Fisher-Snedecor. En concreto, si X e Y son dos variables
X

aleatorias tales que X e Y entonces


2 2

F ; , siendo los grados de

libertad del numerador y los grados de libertad del denominador. De aqu se obtiene fcilmente que el cociente de los cuadrados medios definidos en el apartado anterior se distribuir en el muestreo como una F de Fisher de grados de liberad en el numerador los correspondientes al cuadrado medio del numerador y grados de libertad en el denominador iguales a los grados de libertad del cuadrado medio considerado en el denominador del cociente. No obstante, la eleccin de los cuadrados medios que deben formar los cocientes no es arbitraria. Esta eleccin depende de si nos encontramos en un modelo de efectos fijos, en un modelo de efectos aleatorios o en un modelo mixto, tal como se describe en el siguiente apartado.
2.5.4. Modelos de efectos fijos y modelos de efectos aleatorios

La seleccin de los cuadrados medios que deben compararse para dar respuesta a las hiptesis nulas depende de si los factores que estamos considerando son fijos o aleatorios.

Anlisis de varianza. JGM. 9/3/04

Pg. 42

Se entiende que un factor es fijo cuando o bien se han tenido en cuenta todos los posibles niveles o tratamientos de ese factor o bien el investigador slo tiene inters en comparar el efecto de los niveles estudiados del factor. Se entiende que un factor es aleatorio cuando los niveles que se han considerado para el factor constituyen una muestra aleatoria de un universo hipotticamente infinito de niveles al cual se desea generalizar los resultados obtenidos para esta muestra concreta de niveles del factor. En virtud de estas consideraciones, en un modelo bifactorial pueden plantearse las siguientes tres situaciones22:
TP PT

Ambos factores son fijos Ambos factores son aleatorios Un factor es fijo y un factor es aleatorio

3.5.4. Estadsticos de contraste para el caso en el que ambos factores sean fijos

Cuando el investigador tiene inters nicamente en aquellos niveles de ambos factores que han sido considerados en el diseo experimental se dice que estamos en un modelo de efectos fijos. En este primer caso, los estadsticos de contraste resultan de la comparacin del cuadrado medio de cada uno de los factores y de la interaccin con el cuadrado medio de los errores. En concreto, bajo el supuesto de que la correspondiente hiptesis nula es cierta se cumple que:

CMA EC A = = CME

(k A 1)CMA 2 (k A 1) (n k A k B )CME 2 (n k A k B )

(2k
=

A 1

(k A 1)

2 (n k Ak B )

= F(k A 1);(n k A k B )

(n k A k B )

22
TP PT

Obviamente, la situacin se complica si consideramos un diseo experimental con ms de dos factores.

Anlisis de varianza. JGM. 9/3/04

Pg. 43

(kB 1)CMB CMB 2 (k B 1) = ECB = CME (n k Ak B )CME 2 (n k Ak B )

(2k
=

1)

(kB 1)

2 (n k A k B )

= F(k B 1);(n k A k B )

(n k Ak B )
A 1

(k A 1)(k B 1)CMAB (2k CMAB 2 (k A 1)(k B 1) = EC AB = (n k Ak B )CME = CME 2 (n k Ak B )

)( k B 1)

2 (n k A k B )

[(k A 1)(kB 1)] = F


(n k Ak B )

( k A 1)( k B 1);( n k A k B )

4.5.4. Estadsticos de contraste para el caso en el que ambos factores sean aleatorios

Si los niveles que se han considerado para ambos factores no son sino muestras aleatorias de poblaciones hipotticamente infinitas de niveles de los factores, decimos que nos encontramos ante un modelo de efectos aleatorios. En este caso, por razones que escapan al alcance de estas notas y que se pueden consultar en la bibliografa, los cuadrados medios que deben compararse para dar respuesta a las hiptesis planteadas son los siguientes: Para contrastar los efectos de los factores A y B, debemos comparar sus respectivos cuadrados medios con el correspondiente a la interaccin. Para contrastar el efecto de la interaccin hay que comparar su cuadrado medio con el del error. As, tendremos que bajo el supuesto de que las hiptesis nulas correspondientes son ciertas se cumple:

CMA EC A = = CMAB

(k A 1)CMA 2 (k A 1) (k A 1)(k B 1)CMAB 2 (k A 1)(k B 1)

(2k
=

A 1

(k A 1)

2 ( k A 1)( k B 1)

= F(k A 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

Anlisis de varianza. JGM. 9/3/04

Pg. 44

CMB EC B = = CMAB

(k B 1)CMB 2 (k B 1) (k A 1)(k B 1)CMAB 2 (k A 1)(k B 1)

(2k
=

B 1

(k B 1)

(2k

A 1

)( k B 1)

= F(k B 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

(k A 1)(k B 1)CMAB (2k CMAB 2 (k A 1)(k B 1) = EC AB = (n k Ak B )CME = CME 2 (n k Ak B )

A 1

)( k B 1)

2 (n k A k B )

[(k A 1)(k B 1)] = F


(n k Ak B )

( k A 1)( k B 1);( n k A k B )

5.5.4. Estadsticos de contraste para el caso en el que un factor sea fijo y el otro aleatorio

Por ltimo, cuando en uno de los factores el investigador no tiene inters ms all de los niveles considerados mientras que desea extrapolar las conclusiones obtenidas en relacin con los niveles del otro decimos que estamos en un modelo de efectos mixtos. Supongamos que el primer factor (el A) es aleatorio y que el segundo (el B) es un factor fijo. En ese caso, el cociente apropiado para el primer factor (el aleatorio) es el que compara CMA con CME; el cociente apropiado para el segundo factor (el fijo) es el que compara CMB con CMAB y el cociente apropiado para la interaccin entre los factores es CMAB/CME. Es decir, bajo el supuesto de que las hiptesis nulas relevantes son ciertas se tiene que:

CMA EC A = = CME

(k A 1)CMA 2 (k A 1) (n k A k B )CME 2 (n k A k B )

(2k
=

A 1

(k A 1)

2 (n k Ak B )

= F(k A 1);(n k A k B )

(n k A k B )
(2k
B 1

CMB EC B = = CMAB

(k B 1)CMB 2 (k B 1) (k A 1)(k B 1)CMAB 2 (k A 1)(k B 1)

(k B 1)

2 ( k A 1)( k B 1)

= F(k B 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

Anlisis de varianza. JGM. 9/3/04

Pg. 45

(k A 1)(k B 1)CMAB (2k CMAB 2 (k A 1)(k B 1) = EC AB = (n k Ak B )CME = CME 2 (n k Ak B )

A 1

)( k B 1)

2 (n k A k B )

[(k A 1)(k B 1)] = F


(n k Ak B )

( k A 1)( k B 1);( n k A k B )

6.5.4. Decisin sobre la veracidad de las hiptesis nulas

Una vez determinado el modelo fijo, aleatorio o mixto- la decisin acerca de la veracidad o falsedad de las hiptesis nulas planteadas para el anlisis de varianza bifactorial pasa por la comparacin de los valores de los estadsticos de contraste con los valores crticos de la F de Fisher-Snedecor de los correspondientes grados de libertad. En concreto, para un diseo en el que ambos factores son fijos se tiene: 1 Hiptesis sobre el factor A: i. .. = 0 i { ,2,...,k A }. Si EC A = CMA f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME
TP PT

contrario se acepta23. 1 Hiptesis sobre el factor B: . j .. = 0 j { ,2,...,k B }. Si ECB = CMB f (k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME

contrario se acepta. Hiptesis sobre la interaccin: ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2,...,k A } { ,2,...,k B } .Si 1 1 CMAB f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME

EC AB =

contrario se acepta.

23
TP PT

En todo caso f ; ; representa el valor de una F de Fisher-Snedecor de

grados de libertad en el

numerador y en el denominador que deja a su derecha un rea

Anlisis de varianza. JGM. 9/3/04

Pg. 46

Cuando ambos factores son aleatorios se tiene: Hiptesis sobre el factor A: i. .. = 0 i { ,2,...,k A }. Si 1 EC A = CMA f (k A 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso CMAB

contrario se acepta. 1 Hiptesis sobre el factor B: . j .. = 0 j { ,2,...,k B }. Si ECB = CMB f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso CMAB

contrario se acepta. Hiptesis sobre la interaccin: ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2,...,k A } { ,2,...,k B } .Si 1 1 CMAB f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME

EC AB =

contrario se acepta. Cuando un factor es aleatorio (A) y el otro es fijo (B) se tiene: 1 Hiptesis sobre el factor A (aleatorio): i. .. = 0 i { ,2,...,k A }. Si EC A = CMA f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME

contrario se acepta. 1 Hiptesis sobre el factor B (fijo): . j .. = 0 j { ,2,...,k B }. Si ECB = CMB f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso CMAB

contrario se acepta. Hiptesis ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2,...,k A } { ,2,...,k B } .Si 1 1 sobre la interaccin:

EC AB =

CMAB f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso CME

contrario se acepta.

Anlisis de varianza. JGM. 9/3/04

Pg. 47

5. Un ejemplo de anlisis de varianza unifactorial


1.5. Enunciado del ejemplo
Una cadena de supermercados est interesada en estudiar la relacin entre sus ventas y el contenido de sus campaas de publicidad. Con ese fin, los responsables de las campaas de comunicacin han recogido los datos de ventas en tres supermercados situados en tres ciudades de similar tamao durante un periodo de 20 semanas. En la ciudad A, el tema principal de las campaas de publicidad es el amplio horario del establecimiento, en la ciudad B es la calidad de los productos y en la ciudad C es el precio. Existe evidencia suficiente como para afirmar que un mensaje es mejor que otro para el objetivo de maximizar las ventas?

Tabla 1 Ventas semanales en unidades segn la ciudad en que se encuentra el supermercado

Ventas semanales

Ciudad A

529 658 793 514 663 719 711 606 461 529 498 663 604 495 485 557 353 557 542 614

Ciudad B

804 630 774 717 679 604 620 697 706 615 492 719 787 699 572 523 584 634 580 624

Ciudad C

672 531 443 596 602 502 659 689 675 512 691 733 698 776 561 572 469 581 679 532

2.5. Formulacin de la hiptesis nula


Se trata de una situacin en la que deseamos estudiar la relacin entre una variable dependiente cuantitativa las ventas semanales- y una variable cualitativa con tres

Anlisis de varianza. JGM. 9/3/04

Pg. 48

modalidades el factor tipo de comunicacin empleado-. As, las hiptesis nula y alternativa se formulan del siguiente modo: Hiptesis nula: 1 = 2 = 3 = , o de modo equivalente, i = 0 i { ,2,3} . 1 En trminos coloquiales la hiptesis nula indica que el tipo de mensaje que se emplee en la comunicacin de la cadena de supermercados 1: horario amplio, 2: calidad, 3: precio- no influye en las ventas. No existen diferencias entre las ventas promedio de las ciudades en las que se emplean diferentes contenidos en la comunicacin. Hiptesis alternativa: recoge la situacin contraria a la recogida en la hiptesis nula, 1 esto es i { ,2,3}: i 0 , lo que significa que alguno de los contenidos de la comunicacin est asociado con un promedio de ventas distinto al promedio de ventas de las otras ciudades. Antes de proceder a decidir por cul de las dos hiptesis apostamos debemos verificar el cumplimiento de los requisitos de normalidad y homocedasticidad, condiciones necesarias para poder efectuar un anlisis de varianza unifactorial.

3.5.

Comprobacin

de

los

requisitos

de

normalidad

homocedasticidad
1.3.5. Normalidad

Vamos a emplear la prueba de bondad de ajuste de Kolmogorv-Smirnov con el fin de estudiar la normalidad de la variable cuantitativa en cada uno de los niveles del factor. En otras palabras, debemos estudiar si los valores de ventas en cada una de las ciudades A, B y C- proviene de una variable que se distribuye normalmente. Realizaremos los clculos para la primera ciudad y dejaremos como ejercicio indicando el resultado- los clculos para las ciudades B y C. Como se expuso en una seccin anterior la prueba de Kolmogorov-Smirnov parte del supuesto de la hiptesis nula- de que los datos provienen de una distribucin normal siendo la hiptesis alternativa la que recoge el supuesto contrario.

Anlisis de varianza. JGM. 9/3/04

Pg. 49

El primer paso para la aplicacin del estadstico de Kolmogorov-Smirnov es el clculo de la funcin de distribucin emprica y su posterior comparacin con la funcin de distribucin terica. La mxima de las discrepancias entre estas dos distribuciones emprica y tericadetermina el estadstico de contraste, que debe ser comparado con el valor que nos proporcionan las tablas del contraste. Los clculos se detallan a continuacin:
Tabla 2 Comparacin entre la distribucin emprica y la terica. Kolmogorov-Smirnov Ventas Distribucin emprica 353 461 485 495 498 514 529 529 542 557 557 604 606 614 658 663 663 711 719 793 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,00 Distribucin terica24
TP PT

Diferencia

0,0153 0,1308 0,1863 0,2132 0,2217 0,2702 0,3200 0,3200 0,3660 0,4215 0,4215 0,6006 0,6080 0,6373 0,7808 0,7948 0,7948 0,9007 0,9135 0,9810

0,0347 0,0308 0,0363 0,0132 0,0283 0,0298 0,0300 0,0800 0,0840 0,0785 0,1285 0,0006 0,0420 0,0627 0,0308 0,0052 0,0552 0,0007 0,0365 0,0190

El estadstico de contraste es la mxima de las diferencias entre la distribucin emprica y la distribucin terica, valor que en este caso es 0,1285. Este valor debe compararse con el que nos proporcionan las tablas de la distribucin en el muestreo del estadstico

24
TP PT

Los valores de la distribucin terica se obtienen de modo muy simple. Por ejemplo, veamos cmo

obtener el primero: P Z

353 577,55 = 0,0153 , donde 577,55 es el promedio de ventas en la 103,8

ciudad A y 103,8 es la desviacin estndar de las ventas en la ciudad A

Anlisis de varianza. JGM. 9/3/04

Pg. 50

D de Kolmogorov-Smirnov, que para un tamao de muestra n = 20 y un nivel de significacin de = 0,05 es 0,294. En consecuencia no tenemos pruebas suficientes para sospechar que la muestra de la primera ciudad no provenga de una variable que se distribuye normalmente. Los resultados para la ciudad B y la ciudad C son respectivamente 0,138 y 0,156, valores que deben compararse con el mismo valor de las tablas. En ambos casos, pues, se mantiene la normalidad de las variables.
2.3.5. Homocedasticidad

La homocedasticidad se refiere a la igualdad en la dispersin de la variable dependiente en las tres ciudades. Es decir, puede que las ventas promedio de una ciudad a otra cambien y eso es lo que vamos a determinar con el anlisis de la varianza-, pero para comprobarlo es necesario es un requisito para poder aplicar el anlisis de varianza- que la dispersin en las ventas sea la misma en unas y en otras ciudades. En concreto, la
2 hiptesis nula de la prueba de homocedasticidad postula que 12 = 2 = 32 mientras

que la hiptesis alternativa afirma que existe alguna poblacin con una dispersin distinta a la de las dems. Vamos a emplear la prueba de Levene, que se basa en el estadstico nk k 1

W =

n (Z
k i =1 k ni i i =1 j =1

i.

Z .. )

(Z

ij

Z i. )

, donde Z ij = Yij Yi. y Yi. representa la media en la i-

sima muestra. Los clculos se detallan a continuacin:

Anlisis de varianza. JGM. 9/3/04

Pg. 51

Tabla 3 Clculos para la prueba de homocedasticidad de Levene

Yij
529 658 793 514 663 719 711 606 461 529 498 663 604 495 485 557 353 557 542 614 804 630 774 717 679 604 620 697 706 615 492 719 787 699 572 523 584 634 580 624 672 531 443 596 602 502 659 689 675 512
Anlisis de varianza. JGM. 9/3/04

Yi.
577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 577,55 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 653 608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65

Z ij
48,55 80,45 215,45 63,55 85,45 141,45 133,45 28,45 116,55 48,55 79,55 85,45 26,45 82,55 92,55 20,55 224,55 20,55 35,55 36,45 151 23 121 64 26 49 33 44 53 38 161 66 134 46 81 130 69 19 73 29 63,35 77,65 165,65 12,65 6,65 106,65 50,35 80,35 66,35 96,65

Z i.
83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 83,305 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 70,5 79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415

(Z

ij

Z i. )

1207,91 8,15 17462,30 390,26 4,60 3380,84 2514,52 3009,07 1105,23 1207,91 14,10 4,60 3232,49 0,57 85,47 3938,19 19950,15 3938,19 2280,54 2195,39 6480,25 2256,25 2550,25 42,25 1980,25 462,25 1406,25 702,25 306,25 1056,25 8190,25 20,25 4032,25 600,25 110,25 3540,25 2,25 2652,25 6,25 1722,25 258,08 3,12 7436,48 4457,57 5294,75 741,75 844,77 0,87 170,69 297,05
Pg. 52

691 733 698 776 561 572 469 581 679 532

608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65 608,65

82,35 124,35 89,35 167,35 47,65 36,65 139,65 27,65 70,35 76,65

79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415 79,415

8,61 2019,15 98,70 7732,56 1009,02 1828,85 3628,26 2679,62 82,17 7,65

De la tabla se deduce que:

W =

nk k 1

n (Z
k i =1 k ni i i =1 j =1

i.

Z .. )

(Z

ij

Z i. )

57 20 [(83,305 77,74) + (70,5 77,74) + (79,415 77,74)] = 0,344 2 142649,2 f k 1;n k ; rechazando la hiptesis nula de

Este valor debe compararse con

homocedasticidad si W f k 1;n k ; . En este caso f k 1;n k ; = f 2,57 ,0, 05 = 3,159 , por lo que no existe evidencia suficiente como para rechazar la hiptesis de homocedasticidad. No podemos rechazar que las ventas tengan la misma dispersin en las tres ciudades. Se cumplen, pues, los requisitos de normalidad y homocedasticidad, lo que nos faculta para poder continuar adelante con el anlisis de varianza.

4.5. Anlisis de las desviaciones de los individuos respecto a la media global


Los resultados descriptivos bsicos para la muestra seleccionada son los siguientes:
) Y.. = 613,06 Y1. = 577,55 Y2. = 653 Y3. = 608,65

Las ventas promedio en el conjunto de semanas y el conjunto de ciudades resulta ser 613,06 unidades. No obstante, se observan diferencias entre las ciudades o lo que es lo mismo, en funcin del contenido bsico de las campaas de publicidad-. Por los datos de la muestra parece que el mensaje ms adecuado es el que hace nfasis en la calidad del producto el mensaje de la segunda ciudad- mientras que el menos adecuado es el que se refiere a la amplitud del horario de apertura el de la primera-.

Anlisis de varianza. JGM. 9/3/04

Pg. 53

A partir de estos promedios vamos a analizar las causas por las que las ventas de los supermercados en una semana concreta se desvan del promedio global de las ventas en las tres ciudades. Vamos a descomponer la desviacin total respecto a la media DT- en dos sumandos: la desviacin debida a que el supermercado se encuentra en una determinada ciudad y, en consecuencia, la publicidad tiene un contenido determinado DE- y la desviacin debida a causas ajenas al tipo de mensaje empleado en la comunicacin DNE-. La descomposicin de la desviacin total para el conjunto de observaciones se presenta en la siguiente tabla:

Anlisis de varianza. JGM. 9/3/04

Pg. 54

Tabla 4 Anlisis de las desviaciones respecto a la media global VENTAS 529 658 793 514 663 719 711 606 461 529 498 663 604 495 485 557 353 557 542 614 804 630 774 717 679 604 620 697 706 615 492 719 787 699 572 523 584 634 580 624 672 531 443 596 602 502 659 689 675 512 691
Anlisis de varianza. JGM. 9/3/04

CIUDAD 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3

DT -84,067 44,933 179,933 -99,067 49,933 105,933 97,933 -7,067 -152,067 -84,067 -115,067 49,933 -9,067 -118,067 -128,067 -56,067 -260,067 -56,067 -71,067 0,933 190,933 16,933 160,933 103,933 65,933 -9,067 6,933 83,933 92,933 1,933 -121,067 105,933 173,933 85,933 -41,067 -90,067 -29,067 20,933 -33,067 10,933 58,933 -82,067 -170,067 -17,067 -11,067 -111,067 45,933 75,933 61,933 -101,067 77,933

DE -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 -35,517 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 39,933 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417

DNE -48,550 80,450 215,450 -63,550 85,450 141,450 133,450 28,450 -116,550 -48,550 -79,550 85,450 26,450 -82,550 -92,550 -20,550 -224,550 -20,550 -35,550 36,450 151,000 -23,000 121,000 64,000 26,000 -49,000 -33,000 44,000 53,000 -38,000 -161,000 66,000 134,000 46,000 -81,000 -130,000 -69,000 -19,000 -73,000 -29,000 63,350 -77,650 -165,650 -12,650 -6,650 -106,650 50,350 80,350 66,350 -96,650 82,350
Pg. 55

733 698 776 561 572 469 581 679 532

3 3 3 3 3 3 3 3 3

119,933 84,933 162,933 -52,067 -41,067 -144,067 -32,067 65,933 -81,067

-4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417 -4,417

124,350 89,350 167,350 -47,650 -36,650 -139,650 -27,650 70,350 -76,650

Tomemos como ejemplo las ventas durante la primera semana del supermercado que se encuentra en la primera ciudad: en esta semana las ventas del supermercado fueron de 529 unidades y dado que la media global es 613,06, podemos decir que en esta semana el supermercado de la ciudad A se qued 84,06 unidades por debajo de la media global. Esta es su desviacin total. Por otra parte, sabemos que el promedio de ventas de este supermercado a lo largo de las veinte semanas seleccionadas ha sido de 577,55

unidades, esto es, 35,517 unidades por debajo de la media global. Esta es la desviacin explicada por el hecho de que el mercado se encuentra en la ciudad A o lo que es lo mismo, la desviacin debida al hecho de emplear un mensaje de amplio horario en su comunicacin-. Por ltimo, en esta semana concreta el supermercado ha vendido 48,55 unidades menos que su media en las veinte semanas. Esta es la desviacin no explicada. La igualdad DT=DE+DNE se cumple, como se puede comprobar fcilmente, para todos los individuos. Verifiquemos que tambin se cumplen las restricciones que determinarn los grados de libertad. Efectivamente:

(Y
3 20 i =1 j =1 3

ij

Y.. ) = 0

) ) ) 20(Yi. Y.. ) = 20 577,55 613,06 + 653 613,06 + 608,65 613,06 = 0


i =1

[(

) (

) (

)]

20 (Y1 j Y1. ) = 0 j =1 20 (Y2 j Y2. ) = 0 j =1 20 (Y3 j Y3. ) = 0 j =1

Anlisis de varianza. JGM. 9/3/04

Pg. 56

5.5. Cuadrados de las desviaciones y sumas de cuadrados


Como se acaba de comprobar, el intento por acumular las desviaciones de todos los individuos nos lleva a un valor nulo de las sumas. Se ha razonado con anterioridad que una forma adecuada de actuar es elevar al cuadrado las desviaciones con lo que la igualdad DT = DE + DNE se transforma en DT 2 = DE 2 + DNE 2 + 2 DE DNE , igualdad que, obviamente, se cumple para todos los individuos. Ahora, la suma de estos cuadrados no puede resultar nula salvo que todas las desviaciones sean nulas. Adems, la suma del trmino 2 DE DNE es nula, con lo que llegamos a la expresin
STC = SCTR + SCE .

DT

= DE 2 + DNE 2

o en modo abreviado

La suma total de cuadrados STC = (Yij Y.. ) es, en este caso la suma de 60
3 20 2 i =1 j =1

elementos potencialmente distintos, sujeta a la restriccin de que luego tiene 59 grados de libertad. Por su parte, SCTR = (Yi. Y.. ) = 20(Yi. Y.. )
3 20 2 3 i =1 j =1 i =1 2

(Y
3 20 i =1 j =1

ij

Y.. ) = 0 ,

es la suma de 3 elementos

distintos, sujeta a la restriccin grados de libertad.

20(Y
3 i =1

i.

Y.. ) = 0 . Se trata pues de una suma con 2

Por ltimo, SCE = (Yij Yi. )


3 20 i =1 j =1

es la suma de 60 sumandos, todos ellos

20 (Y1 j Y1. ) = 0 j =1 20 potencialmente distintos sujeta a las tres restricciones (Y2 j Y2. ) = 0 . As, a esta j =1 20 (Y3 j Y3. ) = 0 j =1

suma de cuadrados le corresponden 57 grados de libertad.

Anlisis de varianza. JGM. 9/3/04

Pg. 57

La siguiente tabla muestra las sumas de cuadrados con sus correspondientes grados de libertad:

Tabla 5 Descomposicin de la suma total de cuadrados y grados de libertad

Suma de cuadrados

Grados de libertad

Total

(Y
3 20 i =1 j =1 3

ij

Y.. ) =564495,73
2

n 1 =59

Ciudad / contenido de la comunicacin

20(Y
i =1

i.

Y.. ) =57512,23
2

k 1 =2

Error (E)

(Y
3 20 i =1 j =1

ij

Yi. ) =506983,50
2

n k =57

Obsrvese que en la tabla anterior se cumple la igualdad STC = SCTR + SCE y tambin se cumple una igualdad equivalente para los grados de libertad g.l.(STC ) = g.l.(SCTR ) + g .l.(SCE ) .

6.5. Cuadrados medios


A primera vista puede parecer que la parte de la variacin total explicada por la ciudad en la que se encuentra el supermercado (y por tanto por el contenido de la comunicacin) es pequea en relacin con la variacin debida al error. No obstante sabemos que esta valoracin carece de sentido ya que las sumas de cuadrados deben tomarse siempre en consideracin relacionndolas con sus grados de libertad. Debemos, por tanto, proceder al clculo de los cuadrados medios, esto es, la parte de la variacin total que explica cada grado de libertad de la correspondiente suma de cuadrados.

Anlisis de varianza. JGM. 9/3/04

Pg. 58

En concreto, los cuadrados medios para los tratamientos y para el error son los que se reflejan en la siguiente tabla:

Tabla 6 Cuadrados medios

Cuadrados medios

Ciudad/contenido de la comunicacin

CMTR =

n (Y
k i =1 i.

i.

Y.. )

k 1

= 28756,1

Error

CME =

(Y
k ni i =1 j =1

ij

Yi. )

nk

= 8894,4

Ahora vemos que cada grado de libertad del tratamiento explica una mayor parte de la variacin total que cada grado de libertad del error. A continuacin calcularemos el estadstico de contraste que estudiar la relacin entre estos dos cuadrados medios.

7.5. El estadstico de contraste. Decisin sobre la hiptesis nula


Efectivamente, el estadstico de contraste que nos va a servir para elegir entre la hiptesis nula y la alternativa es el cociente entre CMTR y CME . El valor de este cociente junto con el conocimiento acerca de la distribucin en el muestreo de este estadstico bajo el supuesto de que la hiptesis nula sea cierta nos van a proporcionar las herramientas para tomar la decisin. En concreto, el valor del estadstico de contraste en nuestra muestra es EC = CMTR = 3,233 . Por otra parte, bajo la hiptesis nula de que las medias CME

poblacionales de las ventas son las mismas en las tres ciudades es decir, el contenido de la comunicacin no influye- sabemos que EC Fk 1;n k = F2,57 . Slo tenemos que

Anlisis de varianza. JGM. 9/3/04

Pg. 59

determinar la probabilidad crtica del resultado que hemos obtenido en nuestra muestra. Esta probabilidad crtica25 resulta ser 0,0468 lo que, en trminos matemticos significa
TP PT

que P[EC 3,233 / 1 = 2 = 3 ] = 0,0468 . Bajo el supuesto de que la hiptesis nula es cierta, lo que nos hemos encontrado en la muestra el valor de nuestro estadstico de contraste- es muy poco probable. En consecuencia debemos entender que el supuesto la veracidad de la hiptesis nula- debe ser falso. As, concluimos que existen pruebas suficientes como para sospechar que el contenido de la comunicacin s tiene influencia sobre las ventas. Las diferencias muestrales son demasiado grandes como para atribuirlas enteramente al azar. Rechazar la hiptesis nula supone aceptar la alternativa, que afirma que existe alguna subpoblacin con una media diferente a la de las dems, pero de cul se trata? Para dar respuesta a esta pregunta disponemos de los contrastes a posteriori.

8.5. Contrastes a posteriori


Para determinar entre qu subpoblaciones se dan las diferencias significativas se dispone de los contrastes a posteriori. Entre ellos se encuentran los de Tukey y Scheff. Aplicaremos este ltimo. Debemos comenzar por construir una matriz con las diferencias entre las muestras seleccionadas, ordenndolas de menor a mayor. Esta matriz es antisimtrica por lo que podemos prescindir de los elementos situados por debajo de la diagonal principal.

25
TP PT

P[F2,57 3,233] = 0,0468

Anlisis de varianza. JGM. 9/3/04

Pg. 60

Tabla 7 Diferencias entre las medias muestrales. Test de Scheff

Yi. Y j .

Ciudad 1

Ciudad 3

Ciudad 2

Ciudad 1

44,350

75,450

Ciudad 3

-44,350

31,100

Ciudad 2

-75,450

-31,100

Ahora, para cada celda debemos calcular la diferencia crtica de Scheff, que viene dada por CDScheff =

(k 1) f k 1;nk ; CME 1

ni

1 nj

. En este caso, como el tamao de la

muestra en cada ciudad es el mismo veinte observaciones- se tendr que


CDScheff =

(k 1) f k 1;nk ; CME 2 =
ni

2 2 3,159 8894,4 = 5619,48 = 74,96 . 20

Este valor es el mismo para todas las comparaciones por el mismo tamao de muestra en cada ciudad- As, la nica diferencia significativa (segn el criterio de Scheff) se da entre las ciudades 1 y 2, o lo que es lo mismo, entre un contenido de la publicidad centrado en la amplitud del horario y otro centrado en la calidad de los productos ofertados.

Anlisis de varianza. JGM. 9/3/04

Pg. 61

6. Un ejemplo de anlisis de varianza bifactorial


1.6. Enunciado del ejemplo
Se ha diseado un experimento con el fin de determinar la eficacia combinada de un programa de rehabilitacin y de un determinado frmaco en la recuperacin de la capacidad motriz de las personas que han sufrido un accidente. Para ello se seleccion un conjunto de 20 pacientes a los que se someti a una de las cuatro condiciones experimentales resultantes de administrarles o no el frmaco y someterlos o no al programa de rehabilitacin. Las puntuaciones obtenidas por los pacientes en una prueba de psicomotricidad tras haber recibido el tratamiento se presentan en la siguiente tabla:

Tabla 8 Valor de la capacidad motriz tras recibir la terapia

Frmaco

NO

NO
Rehabilitacin

10, 12, 10, 9, 10

8, 10, 9, 12, 10

15, 11, 13, 15, 14

18, 14, 13, 16, 17

Suponiendo que la capacidad motriz de los pacientes era equivalente antes de iniciar el tratamiento existe evidencia suficiente acerca de un efecto real de la rehabilitacin en la recuperacin de la capacidad motriz? existe evidencia suficiente acerca de un efecto real del frmaco en la recuperacin de la capacidad motriz? existe evidencia suficiente acerca de la existencia de un efecto combinado (interaccin) entre el frmaco y la rehabilitacin?

Anlisis de varianza. JGM. 9/3/04

Pg. 62

2.6. Formulacin de las hiptesis nulas


Se trata de un experimento en el que se persigue determinar si dos variables de naturaleza cualitativa, la administracin o no del frmaco y el seguimiento o no de un programa de rehabilitacin, influyen en una variable cuantitativa, la capacidad motriz. Se desea tambin analizar la posible existencia de un efecto combinado de ambas variables cualitativas sobre la respuesta. Por razones de simplicidad y porque parece razonable en este caso- consideraremos un modelo de efectos fijos, lo que supone que el investigador slo tiene inters en las modalidades o niveles de los factores que estamos analizando. A continuacin, cada una de las preguntas formuladas en el enunciado del ejemplo se traducir en una hiptesis de partida o hiptesis nula acerca de cuya veracidad o falsedad debemos tomar una decisin. En concreto, las hiptesis nulas que se plantean son las siguientes: Hiptesis sobre el primer factor: la administracin de frmaco a los pacientes no tiene ningn efecto sobre la recuperacin de su capacidad motriz. En otras palabras, la capacidad motriz promedio de la subpoblacin de pacientes que toman el frmaco coincide con la capacidad motriz promedio de la subpoblacin de pacientes a los que no se les administra este medicamento y, en consecuencia, con la capacidad motriz promedio global-. Esta primera hiptesis nula se expresa as: i. .. = 0 i { ,2}, siendo k A = 2 el nmero de niveles del primer factor. El 1 valor i = 1 indica que al paciente no se le ha administrado el frmaco y el valor
i = 2 indica que s se le ha administrado.

Hiptesis sobre el segundo factor: el hecho de que el paciente sea sometido a un proceso de rehabilitacin no incide en su recuperacin de la capacidad motriz. En otras palabras, la capacidad motriz promedio de la subpoblacin de pacientes que se someten a un periodo de rehabilitacin coincide con la capacidad motriz promedio de la subpoblacin de pacientes que no han acudido a rehabilitacin y, en consecuencia, con la capacidad motriz promedio global-. Esta hiptesis nula se 1 expresa as: . j .. = 0 j { ,2}, siendo k B = 2 el nmero de niveles del segundo

Anlisis de varianza. JGM. 9/3/04

Pg. 63

factor. El valor j = 1 indica que el paciente no ha sido sometido a un programa de rehabilitacin y el valor j = 2 indica que ha acudido a rehabilitacin. Hiptesis sobre la interaccin entre los factores: el posible efecto que los factores tienen sobre la variable respuesta es estrictamente aditivo, en el sentido de que el efecto combinado de la rehabilitacin y el frmaco coincide con la suma de los efectos individuales de la rehabilitacin y el frmaco. No existe un efecto adicional debido a la combinacin de ambos tratamientos. Matemticamente, esta hiptesis se 1 1 formula del siguiente modo: ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2} { ,2}.

Los siguientes apartados desarrollan con detalle el procedimiento para decidir si estas hiptesis de partida son ciertas o existe evidencia suficiente para considerarlas falsas.

3.6. Anlisis de las desviaciones de los individuos respecto a la media global


Para dar respuesta a las preguntas formuladas se ha seleccionado una muestra de 20 pacientes en un diseo bifactorial con asignacin aleatoria de los pacientes a los cuatro grupos resultantes de la combinacin de los niveles de los factores. A partir de los resultados de la muestra debemos tomar una decisin acerca de la veracidad o falsedad de las hiptesis. Procederemos en primer lugar al clculo de los promedios muestrales para cada uno de los grupos de pacientes relevantes. Estos promedios nos servirn para analizar la desviacin total de cada individuo respecto a la media global. Los resultados son los siguientes: Y... = 12,3 Y1.. = 11,9 Y 2..= 12,7 Y.1. = 10 Y.2. = 14,6 Y11. = 10,2 Y12. = 13,6 Y21. = 9,8 Y22. = 15,6

As, el promedio de capacidad motriz para todos los pacientes (promedio global) es de 12,3. Este promedio se reduce a 11,9 para aquellos pacientes a los que no se ha

Anlisis de varianza. JGM. 9/3/04

Pg. 64

administrado el frmaco y se ve incrementado hasta 12,7 en aquellos pacientes a los que s se les ha administrado. Anlogamente, quienes han seguido un proceso de rehabilitacin han visto que como promedio- su capacidad motriz alcanza el valor de 14,6 mientras que los que no han seguido este tratamiento se quedan en un promedio de 10. Estos meros resultados descriptivos nos llevan a pensar al menos a priori- que existe un efecto positivo tanto del frmaco como de la rehabilitacin en la recuperacin de la capacidad motriz26.
TP PT

Los resultados para las combinaciones de niveles de los dos factores indican que quienes no han recibido el frmaco ni han seguido la rehabilitacin presentan una capacidad motriz promedio de 10,2 los pacientes que no han tomado el frmaco pero han seguido un programa de rehabilitacin tienen por trmino medio una capacidad motriz de 13,6 los pacientes que han recibido el frmaco pero no han seguido un programa de rehabilitacin alcanzan una capacidad motriz de 9,8 por trmino medio. quienes han seguido ambos tratamientos obtienen una capacidad motriz promedio tras la terapia de 15,6 puntos. A partir de estos promedios podemos ya analizar las causas de las desviaciones de la capacidad motriz de cada uno de los 20 pacientes respecto a la capacidad motriz promedio. En concreto, vamos a descomponer la desviacin total en cuatro sumandos: La desviacin respecto al promedio global debida al hecho de que al paciente se le haya administrado o no el frmaco. A esta desviacin la llamaremos desviacin debida al primer factor y la denotaremos por DA.

26
TP PT

Habra que conocer cul es el nivel de capacidad motriz del que parten los pacientes. El modelo supone

que no hay diferencias sustanciales entre los niveles de psicomotricidad inicial de unos y otros pacientes. En ese sentido se trata de pacientes homogneos.

Anlisis de varianza. JGM. 9/3/04

Pg. 65

La desviacin debida al hecho de que el paciente haya seguido o no un programa de rehabilitacin. Esta desviacin se indicar como DB y recibe el nombre de desviacin debida al segundo factor.

La desviacin debida al efecto combinado del frmaco y el proceso de rehabilitacin. Se trata de la desviacin debida a la interaccin entre los factores y la indicaremos por DAB.

La desviacin debida a otros factores no considerados en el diseo del experimento se designar con DNE.

La siguiente tabla muestra el anlisis de las desviaciones:


Tabla 9 Descomposicin de las desviaciones respecto al promedio global
CAPACIDAD MOTRIZ FRMACO (A) REHABILITA CIN (B)

DT

DA

DB

DAB

DNE

10 12 10 9 10 15 11 13 15 14 8 10 9 12 10 18 14 13 16 17

NO NO NO NO NO NO NO NO NO NO S S S S S S S S S S

NO NO NO NO NO S S S S S NO NO NO NO NO S S S S S

-2,3 -0,3 -2,3 -3,3 -2,3 2,7 -1,3 0,7 2,7 1,7 -4,3 -2,3 -3,3 -0,3 -2,3 5,7 1,7 0,7 3,7 4,7

-0,4 -0,4 -0,4 -0,4 -0,4 -0,4 -0,4 -0,4 -0,4 -0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4

-2,3 -2,3 -2,3 -2,3 -2,3 2,3 2,3 2,3 2,3 2,3 -2,3 -2,3 -2,3 -2,3 -2,3 2,3 2,3 2,3 2,3 2,3

0,6 0,6 0,6 0,6 0,6 -0,6 -0,6 -0,6 -0,6 -0,6 -0,6 -0,6 -0,6 -0,6 -0,6 0,6 0,6 0,6 0,6 0,6

-0,2 1,8 -0,2 -1,2 -0,2 1,4 -2,6 -0,6 1,4 0,4 -1,8 0,2 -0,8 2,2 0,2 2,4 -1,6 -2,6 0,4 1,4

Tomemos como ejemplo el primer individuo. Se trata de un paciente que no ha sido sometido a rehabilitacin y al que no se le ha administrado el frmaco. Este paciente presenta una capacidad motriz de 10 puntos.

Anlisis de varianza. JGM. 9/3/04

Pg. 66

Su desviacin total respecto a la media global (12,3) resulta ser 2,3. En efecto, por diversos motivos este paciente presenta una capacidad motriz inferior en 2,3 puntos al promedio de todos los pacientes estudiados.

La desviacin debida al primer factor es 0,4. Efectivamente, se trata de un paciente al que no se ha administrado el frmaco y por los promedios calculados con anterioridad sabemos que quienes no han recibido el frmaco tienen una capacidad motriz promedio de 11,9 frente al 12,3 global. Esta diferencia es la que queda reflejada en el valor de DA para el primer paciente.

Anlogamente, la desviacin debida al segundo factor es 2,3. Este valor es la diferencia entre la capacidad motriz promedio de quienes no siguieron un programa de rehabilitacin (10) y el promedio global (12,3).

La desviacin debida a la interaccin entre los factores es algo ms sutil. Si sumamos el efecto individual de cada uno de los niveles sobre la capacidad motriz razonaramos del siguiente modo: dado que se trata de un paciente al que no se ha administrado el frmaco, debe tener una capacidad motriz inferior al promedio global en 0,4 puntos; adems, dado que es un paciente que no ha sido sometido a un proceso de rehabilitacin debe tener una capacidad motriz inferior al promedio global en 2,3 puntos; en consecuencia, este paciente y todos los que estn en su grupo (no frmaco y no rehabilitacin) deberan presentar una capacidad motriz promedio inferior en 2,7 puntos al promedio global, esto es, 12,3-2,7=9,6. Sin embargo, segn los anlisis descriptivos previos sabemos que los pacientes que no han seguido ninguno de los dos tratamientos presentan una capacidad motriz promedio de 10,2, es decir, 0,6 puntos por encima de lo que cabra esperar si los efectos del frmaco y la rehabilitacin fueran meramente aditivos. Este valor (0,6) es el que queda reflejado en la desviacin debida a la interaccin (DAB).

Por ltimo, la desviacin debida a otros factores o desviacin no explicada recoge aquella parte de la desviacin total que no queda explicada ni por el frmaco ni por la rehabilitacin ni por la interaccin de estos dos factores. Razonamos del siguiente modo: sabemos que quienes no han seguido ninguno de los dos tratamientos tienen una capacidad motriz promedio de 10,2 puntos. Sin embargo, por razones que se desconocen, este paciente en particular tiene una capacidad motriz de 10 puntos, es

Anlisis de varianza. JGM. 9/3/04

Pg. 67

decir, 0,2 puntos por debajo de la capacidad motriz promedio de su grupo. Esta diferencia es la que se recoge en DNE. Obviamente se cumple la igualdad DT=DA+DB+DAB+DNE. Adems, esta igualdad se cumple para todos y cada uno de los 20 pacientes incluidos en el modelo. En cuanto a las restricciones existentes sobre estas desviaciones que determinarn los grados de libertad de las sumas de cuadrados, puede comprobarse fcilmente a partir de los datos de la tabla anterior que:

(Y
2 2 5 i =1 j =1 k =1

ijk

Y... ) = 0

n (Y
2 i =1 i. 2 .j

i ..

Y... ) = 10 (11,9 12,3) + 10 (12,7 12,3) = 0


Y... ) = 10 (10 12,3) + 10 (14,6 12,3) = 0

n (Y
j =1

. j.

n (Y
kB j =1 ij

ij .

5 (10,2 11,9 10 + 12,3) + 5 (13,6 11,9 14,6 + 12,3) = 0 Yi.. Y. j . + Y... ) = 0 i { ,2, 1 } 5 (9,8 12,7 10 + 12,3) + 5 (15,6 12,7 14,6 + 12,3) = 0 5 (10,2 11,9 10 + 12,3) + 5 (9,8 12,7 10 + 12,3) = 0 Yi.. Y. j . + Y... ) = 0 j { ,2} 1 5 (13,6 11,9 14,6 + 12,3) + 5 (15,6 12,7 14,6 + 12,3) = 0

n (Y
kA i =1 ij

ij .

4.6. Los cuadrados de las desviaciones. Sumas de cuadrados.


El anlisis de la desviacin total de cada individuo respecto a la media global es el paso previo para la obtencin de las sumas de cuadrados. No nos resulta suficiente con conocer las desviaciones respecto a la media de cada uno de los individuos. Por el contrario, necesitamos obtener una medida agregada de la dispersin del conjunto de individuos respecto a la media global y para ello deberamos sumar las desviaciones de todos ellos. No obstante, ya hemos visto que, debido a las propiedades bsicas de los promedios, las sumas de las desviaciones resultan ser siempre nulas.

Anlisis de varianza. JGM. 9/3/04

Pg. 68

Para evitar la compensacin de los signos optamos por elevar todas las desviaciones al cuadrado y sumarlas para el conjunto de individuos. Sabemos tambin que la suma para todos los individuos de la muestra de los elementos correspondientes a los dobles productos cruzados en el cuadrado del cuatrinomio es nula. De aqu que la expresin de la ecuacin fundamental del anlisis de varianza bifactorial se resuma en STC=SCA+SCB+SCAB+SCE, siendo: STC, la suma total de cuadrados o variacin total de la variable respuesta. Su expresin matemtica es
n = nij = 20
i =1 j =1 5 2 2

(Y
2 2 5 i =1 j =1 k =1

ijk

Y... ) . STC es la suma de cuadrados de


2

elementos

distintos,

sujetos

la

restriccin

de

que

(Y
2 2 i =1 j =1 k =1

ijk

Y... ) = 0 . En consecuencia STC tiene n 1 = 19 grados de libertad,

siendo n el nmero de individuos seleccionados en la muestra. SCA o suma de cuadrados del primer factor. Representa la parte de la variacin total de la variable dependiente que queda explicada por los diversos niveles del primer factor. Su expresin matemtica es

(Y
2 2 5 i =1 j =1 k =1

i .. Y... ) = 10 (Yi .. Y... ) . Esta 2 2 2 i =1

expresin es la suma ponderada- de los cuadrados de 2 elementos distintos. Estos elementos estn sujetos a una restriccin: su suma debe ser nula, es decir,

n (Y
2 i =1 i.

i ..

Y... ) = 0 , por lo que los grados de libertad de esta suma de cuadrados

resultan ser k A 1 = 1 . SCB o suma de cuadrados del segundo factor. Representa la parte de la variacin total de la variable dependiente que queda explicada por los diversos niveles del segundo factor. Su expresin matemtica es

(Y
2 2 5 i =1 j =1 k =1

. j.

Y...

= 10 (Y. j . Y... ) ,.
2 2 j =1

SCB es la suma de cuadrados ponderada por el nmero de individuos clasificados en cada uno de los niveles del segundo factor- de 2 elementos distintos. Estos elementos presentan la restriccin adicional de que

n (Y
2 j =1 .j

. j.

Y... ) = 0 por lo que los

grados de libertad de esta suma de cuadrados son k B 1 = 1 .


Anlisis de varianza. JGM. 9/3/04 Pg. 69

SCAB o suma de cuadrados de la interaccin. Representa la parte de la variacin total de la respuesta que queda explicada por la existencia de una interaccin entre los
2 2 5

dos

factores.
2 2

Su
2

expresin
2

matemtica

es

(Y
i =1 j =1 k =1

Y ij . Yi .. Y. j . + Y... ) = 5 ( ij . Yi .. Y. j . + Y... ) . Esta expresin es la


i =1 j =1

suma de cuadrados de k A k B = 4 elementos distintos. Para calcular los grados de libertad de esta suma de cuadrados debemos considerar las restricciones a que estn sometidos los sumandos. En concreto, para cada nivel del primer factor es decir,
i { ,2} - debe cumplirse que 5 (Yij . Yi.. Y. j . + Y... ) = 0 , lo que supone un 1
2 j =1

conjunto de 2 restricciones. Asimismo, para cada uno de los niveles del segundo factor - j { ,2}- debe cumplirse que 5 (Yij . Yi.. Y. j . + Y... ) = 0 , lo que aade 2 1
2 i =1

restricciones a las 2 ya existentes. Sin embargo, una de estas 4 restricciones es redundante ya que si se cumplen las 2 correspondientes a los niveles del primer factor y cualquiera de las correspondientes a los 2 niveles del segundo factor necesariamente debe cumplirse la restriccin restante correspondiente al segundo factor un razonamiento similar puede efectuarse si consideramos las 2 del segundo factor y cualquier restriccin del primero- En consecuencia, SCAB es una suma de cuadrados de 4 elementos distintos sujetos a 3 restricciones, por los que sus grados de libertad son k A k B (k A + k B 1) = (k A 1)(k B 1) = 1 1 = 1 .

SCE o suma de cuadrados de los errores, que representa la parte de la variacin total de la respuesta que no ha podido ser explicada por los factores ni por su interaccin. Su expresin es

(Y
2 2 5 i =1 j =1 k =1

ijk

Yij . ) . Para el clculo de los grados de libertad de esta


2

suma de cuadrados podemos razonar considerando que los grados de libertad de la suma total de cuadrados coincide con la suma de los grados de libertad de las sumas de cuadrados en los que aqulla se descompone, con es lo decir, que
gl (STC ) = gl (SCA) + gl (SCB ) + gl (SCAB ) + gl (SCE ) ,

gl (SCE ) = gl (STC ) gl (SCA) gl (SCB ) gl (SCAB ) = n k A k B = 20 2 2 = 16 .

Las sumas de cuadrados para nuestro ejemplo y sus grados de libertad son:

Anlisis de varianza. JGM. 9/3/04

Pg. 70

Tabla 10 Descomposicin de la suma total de cuadrados y grados de libertad

Suma de cuadrados

Grados de libertad

Total

(Y
kA kB nij i =1 j =1 k =1

ijk

Y... ) =158,2
2

n 1 =20-1=19

Frmaco (A)

n (Y
kA i =1 i.

i ..

Y... ) =3,2
2

k A 1 =1

Rehabilitacin (B)

n (Y
kB j =1 .j

. j.

Y... ) =105,8
2

k B 1 =1

Interaccin (AB)

n (Y
kA kB i =1 j =1 ij kA kB

ij .

Yi.. Y. j . + Y... ) =7,2


2

(k

1 kB 1 = 1

)(

Error (E)

(Y
nij i =1 j =1 k =1

ijk

Yij . ) =42
2

n k Ak B =20-4=16

Ntese

como

en

la

tabla

anterior

se

cumple

tanto

la

igualdad

STC=SCA+SCB+SCAB+SCE como la que corresponde a los grados de libertad de estas sumas de cuadrados.

5.6. Cuadrados medios


El anlisis de la variacin total de la variable dependiente, es decir, su descomposicin en sumas de cuadrados atribuibles a diversas fuentes de variacin, puede darnos una idea preliminar de la importancia relativa de los factores considerados a la hora de explicar la variable respuesta. No obstante, este anlisis est sesgado si no tomamos en cuenta los grados de libertad de cada una de estas sumas de cuadrados.

Anlisis de varianza. JGM. 9/3/04

Pg. 71

En efecto, para que podamos comparar unas sumas de cuadrados con otras debemos previamente dividirlas entre sus correspondientes grados de libertad obteniendo de este modo los llamados cuadrados medios. Los cuadrados medios de cada una de las fuentes de variacin podran considerarse como la parte que cada grado de libertad de la correspondiente suma de cuadrados explica de la variable dependiente27.
TP PT

El clculo de los cuadrados medios para los datos de nuestro ejemplo arroja el siguiente resultado:

27
TP PT

Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones

insesgadas de la varianza poblacional intergrupos e intragrupos respectivamente.

Anlisis de varianza. JGM. 9/3/04

Pg. 72

Tabla 11 Cuadrados medios

Cuadrados medios

Frmaco (A)

CMA =

n (Y
kA i =1 i.

i ..

Y... )

k A 1

= 3,2

Rehabilitacin (B)
CMB =

n (Y
kB j =1 .j

. j.

Y... )

kB 1

= 105,8

Interaccin (AB)
CMAB =

n (Y
kA kB i =1 j =1 ij

ij .

Yi.. Y. j . + Y... )

(k A 1)(k B 1)
nij

= 7,2

Error (E)

CME =

(Y
kA kB i =1 j =1 k =1

ijk

Yij . )

n k Ak B

42 = 2,625 16

A partir de los cuadrados medios s podemos realizar comparaciones entre la calidad predictiva de los diversos factores considerados. En concreto, vemos que tanto ambos factores como su interaccin explican por cada uno de sus grados de libertad- una mayor parte de la variabilidad de la respuesta que el resto de factores no considerados (2,625 es el menor de los cuadrados medios). La pregunta que nos hacemos a continuacin es Esta mayor capacidad predictiva de los factores es lo suficientemente grande como para considerarla significativa?. Para dar respuesta a esta pregunta debemos calcular los estadsticos de contraste y aprovechar nuestro conocimiento acerca de la distribucin en el muestreo de cada uno de estos estadsticos de contraste bajo los supuestos de que las respectivas hiptesis nulas son ciertas.

Anlisis de varianza. JGM. 9/3/04

Pg. 73

6.6. Los estadsticos de contraste. Distribucin en el muestreo y decisin.


Supondremos de cara a la resolucin del ejemplo que se trata de un modelo de efectos fijos. Un buen ejercicio sera realizar los clculos desde aqu hasta el final del ejercicio suponiendo un modelo de efectos aleatorios o un modelo mixto. Bajo el supuesto de que los factores son fijos el cuadrado medio que debe constar en el denominador de los estadsticos de contraste es el CME.
1.6.6. Primera prueba de hiptesis. El efecto del frmaco

La primera hiptesis nula formulada postulaba la ineficacia del frmaco de cara a la mejora de la capacidad motriz de los pacientes. En trminos matemticos la hiptesis nula relativa al frmaco ha sido presentada como i. .. = 0 i { ,2}. 1 Para decidir acerca de la veracidad o falsedad de esta hiptesis debemos comparar el cuadrado medio del primer factor (CMA) con el cuadrado medio del error (CME). A priori, observamos que el CMA (3,2) es superior a CME (2,625) lo que nos llevara a pensar en la existencia de un cierto efecto del frmaco sobre la capacidad motriz, pero es el efecto real o ha ocurrido por azar en esta muestra? Afortunadamente, conocemos cul es la distribucin en el muestreo del cociente de estos cuadrados medios cuando la hiptesis nula formulada es cierta. En concreto, sabemos que EC A =

(k A 1)CMA 2

k A 1

y que

(n k A k B )CME 2
2

n k Ak B

, por lo que

CMA = Fk A 1;n k Ak B . CME CMA , determinar su probabilidad crtica y CME

As, no tenemos ms que calcular EC A =

compararla con el nivel de significacin que hemos elegido. En caso de que la probabilidad crtica de EC A sea mayor que dicho nivel de significacin aceptaremos la hiptesis nula y en caso contrario la rechazaremos.

Anlisis de varianza. JGM. 9/3/04

Pg. 74

En nuestro caso EC A =

CMA 3,2 = = 1,219 . La probabilidad crtica de este cociente CME 2,625

representa la probabilidad de obtener este resultado en una muestra bajo el supuesto de que la hiptesis nula sea cierta, lo que se materializa en la probabilidad de que una F de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador tome un valor mayor que 1,219. Esta probabilidad es 0,286 y para un nivel de significacin estndar del 5% nos lleva a aceptar la hiptesis nula. En consecuencia, no tenemos pruebas suficientes para afirmar que el frmaco tenga algn efecto sobre la recuperacin de la capacidad motriz de los pacientes.

Grfico 4 Densidad de probabilidad de una F de Fisher-Snedecor de 1 y 16 grados de libertad

Una forma alternativa y plenamente equivalente de tomar la decisin sobre la veracidad o falsedad de la hiptesis nula es la siguiente: el anterior grfico muestra una distribucin F de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador. En color verde se presenta la zona de rechazo para la prueba de hiptesis planteada correspondiente a un nivel de significacin del 5%. El valor crtico resulta ser f1;16;0,05 =4,49 que, al ser mayor que el valor del estadstico de contraste de nuestra muestra nos lleva a aceptar la hiptesis nula que postula la ineficacia del frmaco para la recuperacin de la capacidad motriz.

Anlisis de varianza. JGM. 9/3/04

Pg. 75

En el grfico que se presenta a continuacin se muestra mediante el llamado diagrama de caja una comparacin de la capacidad motriz de los pacientes a los que se ha administrado el frmaco y la de aquellos a los que no se les ha administrado. La pequea diferencia que se observa entre uno y otro colectivo no es generalizable a la poblacin.

Grfico 5 Diagrama de caja para la capacidad motriz segn se haya o no administrado el frmaco
20

Puntuacin en la prueba de psicomotricidad

18

16

14

12

10

8 6
N= 10 10

NO

Se le administra o no el frmaco

2.6.6. Segunda prueba de hiptesis. El efecto de la rehabilitacin

La hiptesis nula acerca del efecto de la rehabilitacin se ha formulado como . j .. = 0 j { ,2} y afirma en trminos matemticos la ineficacia de la 1 rehabilitacin como terapia para la recuperacin de la capacidad motriz de los pacientes. En este caso, los cuadrados medios a comparar son CMB (105,8) y CME (2,625). Esta diferencia entre los cuadrados medios es muy superior a la existente en el caso del frmaco, lo que nos llevara a pensar que es ms probable que la rehabilitacin s tenga efecto sobre la capacidad motriz. Razonando anlogamente al caso del frmaco, deducimos que la distribucin en el muestreo del cociente de estos cuadrados medios cuando la hiptesis nula formulada es cierta es EC B = CMB = Fk B 1;n k Ak B . CME

Anlisis de varianza. JGM. 9/3/04

Pg. 76

As, no tenemos ms que calcular EC B =

CMB , determinar su probabilidad crtica y CME

compararla con el nivel de significacin que hemos elegido. En caso de que la probabilidad crtica de EC B sea mayor que dicho nivel de significacin aceptaremos la hiptesis nula y en caso contrario la rechazaremos. En nuestro caso EC B = CMB 105,8 = = 40,305 . La probabilidad crtica de este cociente CME 2,625

representa la probabilidad de obtener este resultado en una muestra bajo el supuesto de que la hiptesis nula sea cierta, esto es, la probabilidad de que una F de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador tome un valor mayor que 40,305. Esta probabilidad es prcticamente cero, lo que para cualquier nivel de significacin nos lleva a rechazar la hiptesis de que la rehabilitacin no incide en la recuperacin de la capacidad motriz. Disponemos de gran evidencia en favor de la rehabilitacin como un elemento que incide en la recuperacin de la capacidad motriz. Otra forma de ver este mismo resultado consiste en comparar el valor obtenido para el estadstico de contraste (40,305) con el valor crtico de una F de Fisher-Snedecor de 1 y 16 grados de libertad que deja a su derecha un rea igual al nivel de significacin elegido por ejemplo, para el 5%, el valor crtico es f1;16;0,05 =4,49- El mayor valor del estadstico de contraste nos lleva a rechazar la hiptesis nula. La diferencia que se presenta en el grfico que se muestra a continuacin y que compara a quienes siguieron un programa de rehabilitacin con quienes no lo siguieron s es generalizable a la poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 77

Grfico 6 Diagrama de caja para la capacidad motriz segn se haya o no seguido el programa de rehabilitacin

20

Puntuacin en la prueba de psicomotricidad

18

16

14

12

2 14

10

8 6
N= 10 10

NO

El paciente acude o no a rehabilitacin

3.6.6. Tercera prueba de hiptesis. El efecto de la interaccin entre el frmaco y la rehabilitacin

Adicionalmente al posible efecto individual del frmaco y de la rehabilitacin cabe pensar que entre estos dos factores exista una interaccin en el sentido de que, por ejemplo, el frmaco podra ser eficaz pero slo en el caso de que los pacientes se sometan a rehabilitacin o, por el contrario, slo en el caso de que no se sometan a rehabilitacin existiendo entre ambas terapias una contraindicacin. Para comprobar la existencia de este efecto de interaccin entre el frmaco y la rehabilitacin ij = .. + ( i. .. ) + (.j .. ) (i,j ) { ,2} { ,2} , que propone la no existencia de un 1 1 se ha formulado matemticamente la hiptesis nula

efecto de interaccin entre frmaco y rehabilitacin. En otras palabras, si el frmaco tiene efecto sobre la capacidad motriz lo tiene en la misma cuanta para quienes se someten a rehabilitacin y para quienes no se someten a ella. Anlogamente, si la rehabilitacin incide en la recuperacin de la capacidad motriz lo hace en igual medida para quienes toman el frmaco y para quienes no lo toman.

Anlisis de varianza. JGM. 9/3/04

Pg. 78

La decisin acerca de la veracidad de esta ltima hiptesis nula debe tomarse a partir de la comparacin de CMAB y CME . En concreto, el cociente entre estos dos cuadrados medios se distribuye bajo el supuesto de no interaccin como una F(k A 1)(k B 1);n k Ak B . En nuestro ejemplo, el valor del cociente de estos cuadrados medios resulta ser EC AB = CMAB 7,2 = = 2,743 , valor que deja a su derecha un rea de 0,117 en una F CME 2,625

de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador. En consecuencia, no tenemos evidencia suficiente para concluir que exista un efecto de interaccin entre la rehabilitacin y la administracin del frmaco. Los efectos de estos dos factores sobre la capacidad motriz de los pacientes son estrictamente aditivos. A la misma conclusin llegamos al comparar 2,743 con 4,49, el valor de f1;16;0,05 . Los siguientes grficos llamados grficos de perfil- muestran la interaccin que en la muestra existe entre los factores considerados.

Grfico 7 Grfico de perfil (frmaco en abscisas)

Medias marginales estimadas de Pu


16 15

14

Medias marginales estimadas

13

12

11

El paciente acude o
NO S S

10 9 NO

Se le administra o no el frmaco

Anlisis de varianza. JGM. 9/3/04

Pg. 79

Este primer grfico nos indica que en la muestra de pacientes la administracin del frmaco tiene un efecto positivo sobre la capacidad motriz de aquellos que acuden a rehabilitacin (la pendiente de la recta que discurre por la parte superior del grfico es positiva) mientras que tiene un pequeo efecto negativo sobre los pacientes que no acuden a rehabilitacin, que se manifiesta en la ligera pendiente negativa de la recta que discurre por la parte inferior del grfico.

Grfico 8 Grfico de perfil (rehabilitacin en abscisas)

Medias marginales estimadas de Pu


16 15

14

Medias marginales estimadas

13

12

11

Se le administra o n
NO S S

10 9 NO

El paciente acude o no a rehabilitacin

Por su parte, el segundo grfico nos muestra un efecto positivo de la inclusin del paciente en un programa de rehabilitacin tanto si se la administra como si no se le administra el frmaco. No obstante, el efecto positivo de la rehabilitacin es mayor en aquellos pacientes a los que se le administra el frmaco (mayor pendiente) que en aquellos a los que no se les administra. En cualquier caso, la prueba de hiptesis nos lleva a afirmar que estas interacciones presentes en la muestra no se pueden generalizar a la poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 80

Bibliografa
Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1999); Estadstica Para Administracin y Economa (7 edicin); Thomson. Brown, S.R.; Melamed, L.E. (1990); Experimental Design and Analysis; Sage. Canavos, G.C. (1988); Probabilidad y Estadstica; McGraw-Hill. Kuehl R.O. (2001); Diseo de Experimentos (2 edicin); Thomson. Tejedor, F.J. (1999); Anlisis de Varianza; Cuadernos de Estadstica n 3; Hesprides. Tejedor, F.J. (2003); Aplicaciones Diversas del Anlisis de Varianza; Cuadernos de Estadstica n 24; Hesprides.

Anlisis de varianza. JGM. 9/3/04

Pg. 81

Otros recursos

HTU

Weisstein.

E.W.;
HTU

MathWorld--A
UTH UTH

Wolfram

Web

Resource.

http://mathworld.wolfram.com
HTU

National Institute For Standards and Technology; Engineering Statistics Handbook; http://www.itl.nist.gov/div898/handbook/
UTH

The Statistics Homepage; http://www.statsoft.com/textbook/stathome.html


HTU UTH

Anlisis de varianza. JGM. 9/3/04

Pg. 82

Anexo
Valores de los cuantiles superiores de la distribucin del estadstico D de Kolmogorov-Smirnov
1

n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 Frmula para

0,80
0,900 0,684 0,565 0,494 0,446 0,410 0,381 0,358 0,339 0,322 0,307 0,295 0,284 0,274 0,266 0,258 0,250 0,244 0,237 0,231 0,210 0,190 0,180

0,85
0,925 0,726 0,597 0,525 0,474 0,436 0,405 0,381 0,360 0,342 0,326 0,313 0,302 0,292 0,283 0,274 0,266 0,259 0,252 0,246 0,220 0,200 0,190

0,90
0,950 0,776 0,642 0,564 0,510 0,470 0,438 0,411 0,388 0,368 0,352 0,338 0,325 0,314 0,304 0,295 0,286 0,278 0,272 0,264 0,240 0,220 0,210

0,95
0,975 0,842 0,708 0,624 0,565 0,521 0,486 0,457 0,432 0,410 0,391 0,375 0,361 0,349 0,338 0,328 0,318 0,309 0,301 0,294 0,270 0,240 0,23

0,99
0,995 0,929 0,828 0,733 0,669 0,618 0,577 0,543 0,514 0,490 0,468 0,450 0,433 0,418 0,404 0,392 0,381 0,371 0,363 0,356 0,320 0,290 0,270

1,07 n

1,14 n

1,22 n

1,36 n

1,63 n

n > 35
Fuente: Canavos (1988)

Anlisis de varianza. JGM. 9/3/04

Pg. 83

Das könnte Ihnen auch gefallen