Sie sind auf Seite 1von 60

1

ndice

Anlisis de la varianza

Jos Gabriel Palomo Snchez


gabriel.palomo@upm.es
E.U.A.T.
U.P.M.

Julio de 2011

ndice

ndice I

Introduccin
1
2

El problema de un factor con dos niveles


1
2
3
4
5

Comparacin de medias
El pricipio de aleatorizacin
Obtencin de los datos
Hiptesis para la resolucin del problema
Consecuencias de las hiptesis
Estimacin de los parmetros del modelo
Comparacin de dos niveles. Contraste de hiptesis

El Anlisis de la varianza con un factor


1
2
3
4

Introduccin
Obtencin de los datos
Anlisis de la varianza con un factor. Hiptesis del modelo
Anlisis de la varianza con un factor. Consecuencias de las
hiptesis

ndice

ndice II

El Anlisis de la varianza con un factor. (Continuacin)


5
6
7
8
9
10
11
12
13

Anlisis de la varianza con un factor. Estimacin de los


parmetros del modelo
Anlisis de la varianza con un factor. Planteamiento del
contraste de hiptesis
Anlisis de la varianza con un factor. Metodologa del Anlisis
de la varianza para la resolucin del contraste
Anlisis de la varianza con un factor. El test de la F
Anlisis de la varianza con un factor. La tabla ADEVA
Anlisis de la varianza con un factor. El coeciente de
determinacin
Anlisis de la varianza con un factor. Diagnosis y validacin del
modelo
Anlisis de la varianza con un factor. Inferencia sobre los
parmetros del modelo
Acepciones del Anlisis de la varianza. Observaciones

ndice

Comparacin de medias I

Problema

En ocasiones el investigador desea analizar si el comportamiento


medio de una variable respuesta depende del valor, nivel, al que se
encuentre otra, denominada factor.

ndice

Comparacin de medias II. Ejemplo

Un qumico desea comprobar si los distintos valores de la presin


(1, 2 3 atmsferas) inuyen en el rendimiento medio de una
reaccin qumica.
La variable respuesta, en este caso, es el rendimiento de la
reaccin qumica, y el factor la presin.
Cmo se hace esta comparacin?

ndice

Comparacin de medias III. El principio de


aleatorizacin

Una vez determinada la variable respuesta, el factor y sus


distintos niveles, se procede a la obtencin de datos mediante
la experimentacin.
Para ello se asignan los distintos niveles del factor a individuos
experimentales, elegidos aleatoriamente.
La eleccin aleatoria de los individuos a los que se les asignan
los niveles del factor tiene por objeto evitar que la inuencia de
otras variables, no contempladas en el experimento, invaliden
las conclusiones del diseo.
6

ndice

Comparacin de medias IV. El principio de


aleatorizacin. Ejemplo

Supngase que se desea analizar si existen diferencias entre la


efectividad de dos tratamientos antitabaco: A y B .
Para comparar los tratamientos se eligen 10 hombres
fumadores y se les aplica el tratamiento A.
Tambin se eligen 10 mujeres y se les aplica el tratamiento B .
Si se descubren diferencias entre ambos grupos, a qu sern
debidas?, a la mayor efectividad de uno de los tratamientos?,
o a una disposicin diferente entre los dos sexos a la mejora?
7

ndice

Comparacin de medias V. El principio de


aleatorizacin. Ejemplo

La aleatorizacin supone la eleccin al azar de las personas a las


que se somete a cada uno de los tratamientos. De esta forma habr
personas de los dos sexos en los dos grupos, y no ser atribuible al
sexo la posible mayor efectividad de un tratamiento sobre el otro.

ndice

Comparacin de dos niveles I

El caso ms sencillo de comparacin de medias es aqul en el que


existe un nico factor con dos niveles, 1 y 2.
Para analizar si existen diferencias en la respuesta atribuibles a
los dos niveles del factor, se eligen aleatoriamente n individuos.

ndice

Comparacin de dos niveles II

A n de ellos se les somete al nivel 1 y a los n = n n


restantes se les aplica el nivel 2, midindose a continuacin el
valor de la variable respuesta en cada individuo.
La tabla siguiente resume los datos de la experimentacin.
1

Nivel 1 Nivel 2
y
y
y
y
..
..
.
.
y n1
y n2
11

21

12

22

Observacin: No es necesario que n


conveniente que n
=n .

10

= n2 ,

aunque resulta

ndice

Comparacin de dos niveles III

Cabe esperar que exista


variabilidad entre los individuos
tratados con el mismo nivel del
factor.
Por ello, la comparacin de
los comportamientos de la
variable respuesta en los dos
niveles del factor se realiza a
travs de las medias.
11

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

ndice

Comparacin de dos niveles IV. Hiptesis para


la resolucin del problema

Para el anlisis del problema se supondr que se verican las


siguientes hiptesis:
La variable respuesta en un individuo se puede descomponer
segn el modelo:
yij = i + eij , con i = 1, 2

y j = 1, . . . , ni .

donde:
es la parte determinista del modelo, y representa el valor
i

medio de la variable respuesta cuando el factor se encuentra en


el nivel i .

e representa el error experimental, y representa la parte


ij

aleatoria del modelo.


12

ndice

Comparacin de dos niveles V. Hiptesis para


la resolucin del problema

Adems se supondr que:


Para todos los valores de i y j ,
eij N (0, ).

(El hecho de que el valor de la varianza del error experimental


no dependa de los valores de i y de j se conoce con el nombre
de homocedasticidad.)
Todos los eij son independientes entre s.
13

ndice

Comparacin de dos niveles VI. Consecuencias


de las hiptesis

Como consecuencia de las hiptesis, se cumple que:


La variable respuesta en los individuos tratados con el nivel i
del factor, F , con i = 1, 2, sigue una distribucin:
(Y |F = i ) N (i , ).

Todos los yij son independientes entre s.

14

ndice

Comparacin de dos niveles VII. Consecuencias


de las hiptesis

Grcamente,
Y

yij b
eij
i

15

16

ndice

Comparacin de dos niveles VIII. Estimacin


de los parmetros del modelo

Para estimar y , se utilizarn las medias muestrales de las


observaciones obtenidas en los distintos niveles de los factores:
1

1
= y1

2
= y2

con:
yi =

Pnj

j =1 yij
.
nj

17

ndice

Comparacin de dos niveles IX. Estimacin de


los parmetros del modelo

Para estimar se utilizar sR , con


2

SR =
2

(n1 1)S12 + (n2 1)S22


n1 + n2 2

Observacin: SR es una aproximacin de obtenida con los


2

n datos, mediante una ponderacin de las varianzas muestrales


corregidas, S y S de los dos grupos, que representan, ambas,
aproximaciones de .
2
1

2
2

ndice

Comparacin de dos niveles X. Contraste de


hiptesis

Se trata de contrastar la
hiptesis, H , de que tanto las
observaciones obtenidas con el
nivel 1 del factor, como las
obtenidas con el tratamiento 2,
provienen de la misma poblacin
N (, ).
Grcamente:
0

b
b
b
b
b
b
b
b
b
b
b

18

b
b
b
b
b
b
b
b
b
b
b

ndice

Comparacin de dos niveles XI. Contraste de


hiptesis

Frente a la hiptesis, H , de que


las observaciones del nivel 1 son
una muestra de una N ( , ),
mientras que las del nivel 2
provienen de otra poblacin
N ( , ). Con
1

1 6= 2 .

Grcamente:
19

b
b
b
b
b
1 bb
b
b
b
b

b
b
b
b
b
2 bb
b
b
b
b

ndice

Comparacin de dos niveles XII. Contraste de


hiptesis

La realizacin del contraste:


H

: 1 = 2 ,

frente a
H : 6= ,
se realiza a travs del estudio de la diferencia entre las medias de
las observaciones de cada uno de los grupos:
1

y y
1

20

21

ndice

Comparacin de dos niveles XIII. Contraste de


hiptesis

De manera efectiva el contraste se lleva a cabo teniendo en


cuenta que, si H es cierta y = , se cumple que
yq y
tn1 +n1 ,
SR n1 + n2
0

ndice

Comparacin de dos niveles XIV. Contraste de


hiptesis

En el caso en que


y1 y2
q

SR n1 + n1
1




> tn +n 2;/2 ,
1
1

se rechaza la hiptesis nula acerca de la igualdad de medias,


aceptndose en caso contrario.

22

23

ndice

Comparacin de dos niveles XV. Contraste de


hiptesis

La hiptesis de igualdad de varianzas se comprueba teniendo


en cuenta que, si es cierta la hiptesis nula:
H

: 12 = 22 ,

se verica que
s12
Fn1 1,n2 1 .
s12

ndice

Anlisis de la varianza con un factor I

Supngase que en el ejemplo anterior referido al rendimiento


de una reaccin qumica, se desea comparar K niveles de la
presin.
Observacin: En este caso se analiza un factor con K niveles.

Una solucin sera comparar los K niveles dos a dos.


Sin embargo, la realizacin de los K2 contrastes aumenta
considerablemente la probabilidad de encontrar diferencias
entre los niveles, aunque no existan.


Por su mayor eciencia se emplea el mtodo del Anlisis de la

varianza
24

25

ndice

Anlisis de la varianza con un factor II.


Obtencin de los datos

Para analizar si existen diferencias entre los K niveles, se eligen


aleatoriamente n individuos.

Se asigna aleatoriamente el nivel 1 a n individuos, el nivel 2 a


n individuos,. . . y el nivel k a nk individuos.
1

En general, se asigna el nivel i simo a ni individuos. Por


tanto,
K
X
i =1

ni

= n.

ndice

Anlisis de la varianza con un factor III.


Obtencin de los datos

Se obtendr una tabla de datos del tipo:


Nivel 1 Nivel 2
y
y
y
y
..
..
.
.
y n1
y n2
11

21

12

22

Observacin: No es necesario que n


es conveniente que n
= n
= nK .

26

Nivel K
yK
yK
..
.
yKnK
1

= n2 = nK ,

aunque

ndice

Anlisis de la varianza con un factor IV.


Obtencin de los datos

Cabe esperar que exista variabilidad entre los individuos obtenidos


al mismo nivel del factor. Grcamente,

b
b
b
b
b
b
b
b
b
b
b

27

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor V.


Hiptesis del modelo

Como en el caso de la comparacin de dos niveles se supondr que


se verican las siguientes hiptesis:
La variable respuesta en un individuo se puede descomponer
segn el modelo del Anlisis de la Varianza con un factor:
yij = i + eij , con i = 1, . . . , K
donde:

y j = 1, . . . , ni .

es la parte determinista del modelo, y representa el valor


i

medio de la variable respuesta cuando el factor se encuentra en


el nivel i .

e representa el error experimental, y representa la parte


ij

aleatoria del modelo.


28

ndice

Anlisis de la varianza con un factor VI.


Hiptesis del modelo

Adems se supondr que:


Para todos los valores de i y j ,
eij N (0, ).

(El hecho de que el valor de la varianza del error experimental


no dependa de los valores de i y de j se conoce con el nombre
de homocedasticidad.)
Todos los eij son independientes entre s.

ndice

Anlisis de la varianza con un factor VII.


Consecuencias de las hiptesis

Como consecuencia de las hiptesis, se cumple que:


La variable respuesta en los individuos sometidos al nivel i del
factor, F , con i = 1, 2, . . . , K sigue una distribucin:
(Y |F = i ) N (i , ).

Todos los yij son independientes entre s.

30

ndice

Anlisis de la varianza con un factor VIII.


Consecuencias de las hiptesis

Grcamente,
Y

yij b
eij
i

31

32

ndice

Anlisis de la varianza con un factor IX.


Estimacin de los parmetros del modelo

Para estimar , , . . . , K se utilizarn las medias muestrales


de las observaciones obtenidas en los distintos niveles de los
factores:
1

1
= y1 , 2
= y2 , . . . , K
= yK

con:
yi =

Pnj

j =1 yij
.
nj

33

ndice

Anlisis de la varianza con un factor X.


Estimacin de los parmetros del modelo

Para estimar se utilizar sR , con


2

SR =
2

PK Pni
2
i =1 j =1 (yij yi )

nK

Observacin: SR se denomina varianza residual, y es una


2

aproximacin de obtenida con los n datos. Posteriormente


se encontrar una interpretacin de este estimador de .
2

34

ndice

Anlisis de la varianza con un factor XI.


Contraste de hiptesis

Se trata de contrastar la hiptesis H , de que todas las


observaciones obtenidas provienen de la misma poblacin N (, ).
Grcamente:
0

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

35

ndice

Anlisis de la varianza con un factor XII.


Contraste de hiptesis

Frente a la hiptesis H de que existen niveles, por lo menos dos,


cuyas observaciones provienen de poblaciones normales con la
misma varianza, pero con medias distintas. Grcamente,
1

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor XIII.


Metodologa del A.V.

La discusin efectiva del contraste:


H

: 1 = 2 = = K = ,

frente a
H : Existen al menos dos medias, i y j , tales que
1

se realiza por medio del Anlisis de la varianza.

36

i 6= j ,

ndice

Anlisis de la varianza con un factor XIV.


Metodologa del A.V.

Supngase que se desea analizar la igualdad de las medias de los


distintos niveles en los dos casos siguientes:

b
b
b
b
b
b

y
2

b
b
b
b
b

y
3

y
1

y
1

y
2

y
3

ndice

Anlisis de la varianza con un factor XV.


Metodologa del A.V.

En el primer caso la variabilidad entre las medias de los distintos


niveles es ms grande, en relacin con la variabilidad total, que en
el segundo caso. Grcamente:

b
b

b
b
b
b
b
b
b
b
b
b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b

y
2

b
b
b
b
b

y
3

y
1

b
b

b
b

b
b

b
b

b
b

y
1

y
2

y
3

ndice

Anlisis de la varianza con un factor XVI.


Metodologa del A.V.

Sin embargo, en el primer caso la variabilidad entre las


observaciones correspondientes a un mismo nivel es ms pequea,
en relacin con la variabilidad total, que en el segundo caso.
Grcamente:
Y

b
b
b
b
b
b

b
b
b
b
b
b
b
b
b
b

b
b
b
b
b

b
b

39

b
b
b

b
b
b
b
b

b
b

ndice

Anlisis de la varianza con un factor XVII.


Metodologa del A.V.

La variabilidad total de todas las observaciones puede medirse a


travs de las diferencias entre las observaciones, yij , y la media
global, y : (yij y ). Grcamente,
Y
b
b
b
b
b
b
b
b
b
b
b

yij b
yij y

y
b

b
b
b
b
b
b
b
b
b
b
b

40

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor XVIII.


Metodologa del A.V.

La variabilidad entre las medias puede medirse a travs de las


diferencias yi y
Y
b
b
b
b
b
b
b
b
b
b
b

y
i b
y
b

b
b
b
b
b
b
b
b
b
b
b

41

y
i y

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor XIX.


Metodologa del A.V.

Y la variabilidad dentro de cada nivel puede medirse por las


diferencias yij yi
Y
b
b
b
b
b
b
b
b
b
b
b

yij b
y
i b
b
b
b
b
b
b
b
b
b
b
b

42

yij y
i

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor XX.


Metodologa del A.V.

Ahora bien,
(yij y ) = (
yi y ) + (yij yi )
Y
yij b
yij y

y
b

b
b
b
b
b
b
b
b
b
b
b

43

y
i

b
b
b
b
b
b
b
b
b
b
b

yij y
i
y
i y

b
b
b
b
b
b
b
b
b
b
b

ndice

Anlisis de la varianza con un factor XXI.


Metodologa del A.V.

Como en el caso del clculo de la varianza de una variable, el


anlisis de la variabilidad total se realizara por medio de la suma:
VT

pero
VT

44

ni
K X
X
i =1 j =1

ni
K X
X
i =1 j =1

(yij y )2 ,

ni
ni
K X
K X
X
X
(
yi y )2 +
(yij
yi )2 +2
(
yi y )(yij yi ).
i =1 j = 1

i = 1 j =1

ndice

Anlisis de la varianza con un factor XXII.


Metodologa del A.V.

Ahora bien, se puede demostrar que


2

ni
K X
X
i =1 j = 1

(
yi y )(yij yi ) = 0.

Y resulta que:
ni
K X
X
i =1 j =1

45

(
yi y ) =
2

K
X
i =1

ni (yi y )

ndice

Anlisis de la varianza con un factor XXIII.


Metodologa del A.V.

Por lo que:
VT

K
X
i =1

ni (yi y )

ni
K X
X
i =1 j = 1

(yij yi )2

El sumando Ki= ni (yi y ) representa la variabilidad


entre las medias de los distintos niveles, y se denomina
variabilidad explicada.
P

El sumando Ki= nj =i (yij yi ) representa la variabilidad


interna dentro de los distintos niveles del factor, y se denomina
variabilidad no explicada.
P

46

ndice

Anlisis de la varianza con un factor XXIV.


Metodologa del A.V.

En denitiva, se verica que:


VT

= VE + VNE

En la medida en que VE sea grande en relacin con VNE ,


habr evidencia de diferencia de valor entre las medias de los
niveles.
En la medida en que VE sea pequea en relacin con VNE ,
habr evidencia de igualdad entre los valores de las medias de
los niveles.
47

ndice

Anlisis de la varianza con un factor XXV.


Metodologa del A.V.

Para discutir la magnitud de la relacin entre VE y VNE es


necesario analizar sus distribuciones de probabilidad.

Teorema
1

Si se verica la hiptesis:
1 = 2 = = K = ,

la variable VE / se distribuye como una K .


2

La variable VNE / se distribuye, en cualquier caso, como


una nK y es independiente con la anterior.
2

48

ndice

Anlisis de la varianza con un factor XXVI.


Metodologa del A.V.

Consecuencia

Si se verica la hiptesis:
1 = 2 = = K = ,

la variable
VE

2 (K 1)

VNE

2 (n K )

49

F(K 1;nK )

ndice

Anlisis de la varianza con un factor XXVII.


Metodologa del A.V.

Llamando se al valor de VE /(K-1).


2

Y sR al valor de VNE /(n-K).


2

Se tiene que, cuando se cumpla que

= 2 = = K = ,

se2
F(K 1;nK )
sR2

51

ndice

Anlisis de la varianza con un factor XXVIII.


Metodologa del A.V.

Observaciones:

es una medida de la variabilidad de las medias de las


observaciones de los distintos niveles, ponderada por el nmero
de observaciones en cada uno de ellos.

se2

sR2

(yij yi )

es la varianza residual. Es una estimacin centrada de


que mide la variabilidad dentro de los distintos niveles.

es el residuo de la observacin j sima, diferencia


entre la observacin y el valor previsto por el modelo para una
observacin con el tratamiento i simo, yi .

52

ndice

Anlisis de la varianza con un factor XXIX.


El test de la

Empleando todo lo anterior, para discutir el contraste:


H

: 1 = 2 = = K = ,

frente a
H : Existen al menos dos medias, i y j , tales que
1

basta con analizar el valor del estadstico


F

s 2
= e2
sR

i 6= j ,

53

ndice

Anlisis de la varianza con un factor XXX. El


test de la

De manera que, si se denomina F al valor tal que


P (F(K ;nK ) > F ) = ,
1

cuando
F

s 2
= e2 < F
sR

se aceptar la hiptesis nula, que se rechazar en caso


contrario.
Observacin: Ntese que el test de la F es un contraste unilateral,

en coherencia con la hiptesis que se contrasta.

54

ndice

Anlisis de la varianza con un factor XXXI.


La tabla ADEVA

Los resultados del test de la F se resumen en la


Tabla ADEVA
Grados
de libertad

Varianzas F

Fuentes
de variacin

Suma
de cuadrados

Entre grupos

K 1

se2 = KVE
1

Residual

PP
(yij yi )2

nK

sR2 = nVNE
K

Total

PP
(yij y )2

n1

sY2

ni (yi y )

se2

sR2

p-v.
p

55

ndice

Anlisis de la varianza con un factor XXXII.


El coeficiente de determinacin

Una medida relativa de la variabilidad total explicada por los niveles


del factor es el coecente de determinacin, R :
2

VE
VT

Observaciones: En todo caso 0 R 1.


2

Adems, multiplicado por cien, representa el porcentaje de la


variabilidad total de la variable respuesta explicada por el modelo.

ndice

Anlisis de la varianza con un factor XXXIII.


Diagnosis y validacin del modelo

Una vez realizados los clculos y contrastes anteriores es


necesario vericar las hiptesis del modelo.
Esta vericacin se lleva a cabo por medio del anlisis de los
residuos.
La discusin de la normalidad se realiza a travs del papel
probabilstico normal.
La comprobacin de la homocedasticidad y de la independencia
requiere un grco de los residuos frente a los distintos niveles
del factor, que debe ser un grco sin estructura.

56

ndice

Anlisis de la varianza con un factor XXXIV.


Diagnosis y validacin del modelo

Observacin

En el caso en que el anlisis de los residuos no permita validar


el modelo, ser necesario estudiar transformaciones de los
datos que ofrezcan un comportamiento razonable del error
experimental.

57

58

ndice

Anlisis de la varianza con un factor XXXV.


Inferencia sobre los parmetros del modelo

Realizada la diagnosis del modelo, puede ser necesario hacer


inferencia respecto de los parmetros del mismo.
La inferencia respecto del valor de la media i se puede hacer
teniendo en cuenta que:
yi i
tnK
sR / ni
La comparacin de dos medias, i y j se puede estudiar si se
tiene en cuenta que:
(
yi yq
j ) (i j )
tnK
sR n1i + n1j

ndice

Anlisis de la varianza con un factor XXXVI.


Inferencia sobre los parmetros del modelo

La inferencia respecto de se realiza teniendo en cuenta que:


2

(n K )sR2
2nK
2

Observacin: Existen contrastes para estudiar la igualdad de


varianzas de los distintos niveles. Por ejemplo el test de
Bartlett o el de Cochran, que suelen estar implementados en
los distintos programas informticos. Su interpretacin, a
travs del p-valor se realiza de la forma habitual.

59

ndice

Acepciones del Anlisis de la varianza

Observacin

La expresin Anlisis de la varianza contempla dos acepciones


distintas, como se ha descrito en estas notas:
El problema de comparacin de K medias, analizado en este
captulo, se conoce como el Anlisis de la varianza con un
factor.
Por otra parte, la metodologa desarrollada para la discusin
del problema anterior, por medio de la comparacin de la
variabilidad explicada con la no explicada, se conoce por el
nombre de la metodologa del Anlisis de la varianza.
Esta metodologa es muy general, y se emplea en todos los
modelos del diseo experimental, as como en los de regresin.
60

Das könnte Ihnen auch gefallen