Sie sind auf Seite 1von 174

Anlise de Varincia (ANOVA)

A Regresso Linear visa modelar uma varivel resposta numrica


(quantitativa), custa de uma ou mais variveis preditoras, igualmente
numricas.
Mas uma varivel resposta numrica pode depender de uma ou mais
variveis qualitativas (categricas), ou seja, de um ou mais factores.
Por exemplo, podemos querer relacionar o rendimento de uma cultura
com os tipos de adubo disponveis no mercado.
Em tais situaes pode ser til uma Anlise de Varincia (ANOVA),
metodologia estatstica desenvolvida nos anos 30 na Estao
Experimental Agrcola de Rothamstead (Reino Unido), por R.A. Fisher.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

210 / 429

A ANOVA como caso particular do Modelo Linear


possvel formular a Anlise de Varincia como uma tcnica distinta
da Regresso Linear. Mas ambas so particularizaes do chamado
Modelo Linear.
Introduzir a ANOVA atravs das suas semelhanas com a Regresso
Linear permite aproveitar boa parte da teoria estudada at aqui.
Terminologia:
Varivel resposta Y : uma varivel numrica (quantitativa), que se
pretende estudar e modelar.
Factor : uma varivel preditora categrica (qualitativa);
Nveis do factor : valores (distintas categorias) do factor, ou seja,
diferentes situaes experimentais onde se faro
observaes de Y .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

211 / 429

A ANOVA a um Factor

Comeamos por analisar o mais simples de todos os modelos


ANOVA: a ANOVA a um Factor (totalmente casualizado).
Consideramos que a varivel resposta (numrica) Y depende de um
nico factor. Admite-se que os valores de Y podero variar por
corresponderem a nveis diferentes do factor, ou ainda devido a
flutuao aleatria.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

212 / 429

As n observaes
Para estudar os efeitos dum factor, com k nveis, sobre uma varivel
resposta Y , admitimos que temos n observaes independentes de
Y , sendo ni (i = 1, ..., k) correspondentes ao nvel i do factor. Logo,
n1 + n2 + + nk = n .
Embora fosse possvel continuar a indexar as n observaes de Y
com um nico ndice, variando de 1 a n (como se fez na Regresso),
prefervel utilizar dois ndices para indexar as observaes de Y :
um para indicar o nvel do factor a que a observao corresponde;
outro para distinguir cada observao dentro de um dado nvel.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

213 / 429

As n observaes (cont.)

Em geral, Yij indica a j-sima observao no i-simo nvel do factor,


com i = 1, ..., k e j = 1, ..., ni .
No caso de igual nmero de observaes em cada nvel,
n1 = n2 = n3 = = nk

( = nc ) ,

diz-se que estamos perante um delineamento equilibrado.


Os delineamentos equilibrados so aconselhveis, por vrias razes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

214 / 429

A modelao de Y

A natureza mais pobre da nossa varivel preditora estar associada a


um modelo mais simples do que na regresso.
Em geral, admitimos que o valor esperado (mdio) de Y pode diferir
em cada uma das k situaes (nveis do factor) em que observado.
Uma primeira formulao do modelo pode assim ser dada pela
equao de base:
E [Yij ] = i .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

215 / 429

A modelao de Y (cont.)
Para poder enquadrar a ANOVA na teoria j estudada, conveniente
re-escrever as mdias de nvel na forma:
E [Yij ] = i = + i .
O parmetro comum a todas as observaes, enquanto os
parmetros i so especficos para cada nvel (i) do factor.
Cada i designado o efeito do nvel i.
Admite-se ainda que Yij oscila aleatoriamente em torno do seu valor
mdio:
Yij = + i + ij ,
com E [ij ] = 0.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

216 / 429

O modelo ANOVA como um Modelo Linear


A equao de base do modelo ANOVA a um factor pode ser escrito na
forma matricial, tal como no modelo de regresso linear.
Seja
Y o vector n-dimensional com a totalidade das observaes
da varivel resposta. Admite-se que as n1 primeiras
correspondem ao nvel 1 do factor, as n2 seguintes ao
nvel 2, e assim de seguida.
1n o vector de n uns, j considerado na regresso.
Ii a varivel indicatriz de pertena ao nvel i do factor. Para
cada observao, esta varivel toma o valor 1 se a
observao corresponde ao nvel i do factor, e o valor 0
caso contrrio.
o vector dos n erros aleatrios.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

217 / 429

As variveis indicatrizes
Por exemplo, se se fizerem n = 9 observaes, com n1 = 3
observaes no primeiro nvel do factor, n2 = 4 no segundo nvel e
n3 = 2 observaes no terceiro nvel, as variveis I2 e I3 sero:

I2 =

J. Cadima (ISA)

0
0
0
1
1
1
1
0
0

I3 =

Estatstica e Delineamento

0
0
0
0
0
0
0
1
1

2010-11

218 / 429

A relao de base em notao vectorial


Em notao vectorial, a equao de base que descreve as n
observaes de Y pode escrever-se como no Modelo Linear:
Y = 1n + 1 I1 + 2 I2 + 3 I3 + .
No exemplo com as n1 = 3, n2 = 4 e n3 = 2 observaes:

Y11
Y12
Y13
Y21
Y22
Y23
Y24
Y31
Y32

J. Cadima (ISA)

1
1
1
1
1
1
1
1
1

1
1
1
0
0
0
0
0
0

0
0
0
1
1
1
1
0
0

0
0
0
0
0
0
0
1
1

11
12
13
21
22
23
24
31
32

1
+
2

Estatstica e Delineamento

2010-11

219 / 429

O problema do excesso de parmetros


Existe um problema tcnico: as colunas da matriz X so linearmente
dependentes, pelo que a matriz Xt X no invertvel.
Existe um excesso de parmetros no modelo. Solues possveis:
1
retirar o parmetro do modelo.

tomar 1 = 0: ser a soluo utilizada.

corresponde a retirar a coluna de uns da matriz X;


cada i equivale a i , a mdia do nvel;
no se pode generalizar a situaes mais complexas;
mais difcil de encaixar na teoria j dada.
corresponde a excluir a 1a. varivel indicatriz do modelo (e de X);
permite aproveitar a teoria do modelo RLM e generalizvel.

impor restries aos parmetros: e.g., ki=1 i = 0.

Foi a soluo clssica, ainda hoje frequente em livros de ANOVA;


mais difcil de encaixar na teoria j dada.

Cada soluo tem implicaes na forma de interpretar os parmetros.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

220 / 429

A relao de base para o nosso exemplo (cont.)


Admitindo 1 = 0, re-escrevemos o modelo como:

Y11
Y12
Y13
Y21
Y22
Y23
Y24
Y31
Y32

1
1
1
1
1
1
1
1
1

0
0
0
1
1
1
1
0
0

0
0
0
0
0
0
0
1
1

2 +

11
12
13
21
22
23
24
31
32

Agora 1 o valor mdio das observaes do nvel i = 1:


j = 1, ..., n1
E [Y1j ] = 1
E [Y2j ] = 1 + 2

E [Y3j ] = 1 + 3

j = 1, ..., n2
j = 1, ..., n3

Cada i (i > 1) representa um acrscimo mdia do primeiro nvel.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

221 / 429

A matrix X numa ANOVA a um factor


Neste contexto, a matriz X tem por colunas os vectors 1n , I2 , I3 , ... ,
Ik .
Nas ANOVAs, a matriz do modelo X indica quais as observaes
correspondentes a cada nvel do factor.
Como na Regresso, os valores ajustados de Y resultam de projectar
ortogonalmente os valores observados da varivel resposta Y sobre o
subespao de Rn gerado pelas colunas da matriz X.
Numa ANOVA a um factor, esse subespao C (X) tem uma natureza
especial.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

222 / 429

O subespao C (X) numa ANOVA a um factor


Qualquer vector no subespao C (X) tem de ter valores iguais para
todas as observaes dum mesmo nvel do factor:

a1

...

a
1

a +a
2
1

...

a +a
1
2

a1 1n + a2 I2 + a3 I3 + ... + ak Ik = a1 + a3

...

a1 + a3

(...)

a1 + ak

...
a1 + ak
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

223 / 429

Os estimadores dos parmetros


Como a equao do modelo ANOVA um caso particular da equao
do Modelo Linear, a frmula dos estimadores de mnimos quadrados
dos parmetros igualmente

= (Xt X)1 Xt Y .
Devido natureza das colunas da matriz X, tem-se:

n n2 n3 n4 nk
n2 n2 0 0 0

n3 0 n3 0 0

t
XX = n

4 0 0 n4 0
.
.
.. . .
..
..
..
. ..
.
.
.
nk

J. Cadima (ISA)

Estatstica e Delineamento

nk

2010-11

224 / 429

Os estimadores dos parmetros (cont.)


Tem-se tambm:

Xt X

1

=
n1

1
1
1
1
..
.
1

1
1

1
1
..
.
1

n1 +n3
n3

ni
Yij
ki=1 j=1
n2
j=1 Y2j
n3
Y3j
j=1
..
.
nk
j=1 Ykj

n1 +n2
n2

t
XY =

J. Cadima (ISA)

1
..
.
1

Estatstica e Delineamento

1
1
1
n1 +n4
n4

..
.
1

..
.

1
1
1
1
..
.
n1 +nk
nk

2010-11

225 / 429

Os estimadores dos parmetros (cont.)


Logo,

1
2

..
.

onde Y i =

1
ni

= Y 1
= Y 2 Y 1
=
..
.

Y 3 Y 1
..
.

= Y k Y 1

ni

Yij a mdia das ni observaes de Y no nvel i.

j=1

Ou seja, os parmetros so estimados pelas quantidades amostrais


correspondentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

226 / 429

Os estimadores das mdias de nvel


Dados os estimadores referidos no acetato anterior, e uma vez que as
mdias de cada nvel (alm do primeiro) so dadas por i = 1 + i ,
temos que os estimadores de cada mdia de nvel so

1
2
3
..
.
k

= Y 1
= Y 2
=
..
.

Y 3
..
.

= Y k

sendo Y i a mdia das ni observaes de Y no nvel i do factor.


ij =
i = Y i .
Qualquer observao no nvel i tem por valor ajustado Y
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

227 / 429

O modelo para efeitos inferenciais

Para se poder fazer inferncia neste modelo, admite-se no apenas


que cada observao individual Yij da forma
Yij = 1 + i + ij ,

i = 1, ..., k ,

j = 1, ..., ni ,

com E [ij ] = 0 e 1 = 0.
Admite-se ainda que os erros aleatrios ij tm as mesmas
propriedades que no modelo de regresso linear: Normais, de
varincia constante e independentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

228 / 429

O modelo ANOVA a um factor


Modelo ANOVA a um factor, com k nveis
Existem n observaes, Yij , ni das quais associadas ao nvel i
(i = 1, ..., k) do factor. Tem-se:
1
2
3

Yij = 1 + i + ij ,

2)

i = 1, ..., k ,

ij N (0 ,
{ij }ni=1 v.a.s independentes.

j = 1, ..., ni

(1 = 0).

O modelo tem k parmetros desconhecidos: a mdia de Y no


primeiro nvel do factor, 1 , e os acrscimos i (i > 1) que geram as
mdias de cada um dos k 1 restantes nveis do factor. Ou seja,

= (1 , 2 , 3 , , k )t .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

229 / 429

O modelo ANOVA a um factor - notao vectorial


De forma equivalente, em notao vectorial,

Modelo ANOVA a um factor - notao vectorial


O vector Y das n observaes verifica:
1

Y = 1 1n + 2 I2 + 3 I3 + ... + k Ik + , sendo 1n o vector


de n uns e I2 , I3 , ..., Ik as variveis indicatrizes dos nveis
indicados.
Nn (0 , 2 Inn ), sendo Inn a matriz identidade n n.

Trata-se de um modelo anlogo a um modelo de Regresso Linear


Mltipla, diferindo apenas na natureza das variveis preditoras, que
so aqui variveis indicatrizes dos nveis 2 a k do factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

230 / 429

O modelo ANOVA a um factor - notao


vectorial/matricial

Uma terceira forma equivalente de escrever o Modelo:

Modelo ANOVA a um factor - notao vectorial/matricial


O vector Y das n observaes verifica:
1
Y = X + ,
onde X = [ 1n | I2 | I3 | | Ik ] e = (1 , 2 , 3 , , k )t ,
sendo 1n o vector de n uns e I2 , I3 , ..., Ik as variveis
indicatrizes dos nveis indicados.
2
Nn (0 , 2 Inn ), sendo Inn a matriz identidade n n.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

231 / 429

O teste aos efeitos do factor

A hiptese de que nenhum dos nveis do factor afecte a mdia da


varivel resposta corresponde hiptese

2 = 3 = ... = k = 0 .

possvel testar esta hiptese, atravs dum teste F de ajustamento


global do modelo (ver acetato 160).
As Somas de Quadrados tm, neste contexto, frmulas especficas.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

232 / 429

Os resduos e SQRE
ij = i = Y i , pelo que o resduo da
Viu-se antes (acetato 227) que Y
observao Yij dado por:
ij = Yij Y i ,
Eij = Yij Y
Logo, a Soma de Quadrados dos Resduos dada por:
k

SQRE =

ni

i=1 j=1

onde Si2 =

1
ni 1

Yij Y i

2

(ni 1) Si2 ,

i=1

ni

(Yij Y i )2 a varincia amostral das ni

j=1

observaes no i-simo nvel do factor.


SQRE mede variabilidade no seio dos k nveis.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

233 / 429

A Soma de Quadrados associada ao Factor


A Soma de Quadrados associada Regresso toma, neste contexto,
a designao Soma de Quadrados associada ao Factor e ser
representada por SQF . dada por:
k

SQF

ni

i=1 j=1
k

sendo Y =

SQF

ni

i=1
1
n

2

ij Y
=
Y
Y i Y

ni

i=1 j=1

Y i Y

2

2

ni

Yij a mdia da totalidade das n observaes.

i=1 j=1

SQF mede variabilidade entre as mdias amostrais de cada nvel.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

234 / 429

A relao entre Somas de Quadrados


A relao fundamental entre as trs Somas de Quadrados ganha,
neste contexto, um significado particular:
SQT
k

ni

(Yij Y )2 =

i=1 j=1

SQF
k

ni (Y i Y )2 +

i=1

SQRE
k

(ni 1) Si2 .

i=1

onde:
SQT numerador da varincia amostral SY2 da totalidade das
n observaes de Y ;
SQF medida da variabilidade das k mdias de nvel
(variabilidade inter-nveis);
SQRE soma ponderada das varincias amostrais de Y em
cada um dos k nveis (variabilidade intra-nveis).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

235 / 429

Os graus de liberdade

Neste contexto, o nmero de parmetros do modelo p + 1 = k. Logo,


os graus de liberdade associados a cada Soma de Quadrados so:
SQxx
SQF
SQRE

g.l.
k 1
nk

Pode-se coleccionar esta informao numa tabela-resumo da ANOVA.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

236 / 429

O quadro-resumo da ANOVA a 1 Factor

Fonte

g.l.

SQ
k

k 1

SQF = ni (y i y )2

Resduos

nk

SQRE = (ni 1) si2

Total

n1

SQT = (n 1) sy2

Factor

J. Cadima (ISA)

QM
QMF =

i=1

QMRE =

i=1

Estatstica e Delineamento

fcalc
SQF
k 1

QMF
QMRE

SQRE
nk

2010-11

237 / 429

O Teste F aos efeitos do factor numa ANOVA


Sendo vlido o Modelo de ANOVA a um factor, tem-se ento:

Teste F aos efeitos do factor


Hipteses: H0 : i = 0 i=2,...,k
vs.
H1 : i=2,..,k t.q. i 6= 0.
[FACTOR NO AFECTA] vs. [FACTOR AFECTA Y ]
Estatstica do Teste: F =

QMF
QMRE

Nvel de significncia do teste:

F(k 1,nk )

se H0 .

0.4
0.3
0.2
0.0

0.1

Rejeitar H0 se Fcalc > f (k 1,nk )

df(x, 4, 16)

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

238 / 429

ANOVAs a um Factor no
Para efectuar uma ANOVA a um Factor no
, convm organizar os
dados numa data.frame com duas colunas:
1

uma para os valores (numricos) da varivel resposta;

outra para o factor (com a indicao dos seus nveis).

reconhece objectos do tipo factor, que so criados atravs do


O
comando factor, aplicado a um vector de tipo character, que
contenha os nomes dos vrios nveis:
> factor(c(Adubo 1, Adubo 1, ...

, Adubo k))

NOTA: Explore o comando rep para instrues curtas que criam


repeties de valores.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

239 / 429

ANOVAs a um Factor no

(cont.)

As frmulas utilizadas no
para indicar as ANOVAs pretendidas
so semelhantes s usadas na regresso linear, admitindo a
indicao de nomes de factores.
Por exemplo, se pretendemos efectuar uma ANOVA de comprimentos
das ptalas sobre espcies, nos dados relativos aos n = 150 lrios, a
frmula :
Petal.Length

Species

uma vez que a data frame iris contm uma coluna de nome Species
que foi definida como factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

240 / 429

ANOVAs a um factor no

(cont.)

Embora uma ANOVA seja um caso particular do Modelo Linear, e seja


para efectuar uma ANOVA, existe
possvel usar o comando lm do
outra funo que organiza a informao da forma mais tradicional
numa ANOVA: a funo aov.
E.g., a ANOVA de comprimento de ptalas sobre espcies para os
lrios invoca-se da seguinte forma:
> aov(Petal.Length ~ Species)
produzido o seguinte resultado (diferente do do comando lm):
Call:
Terms:

aov(formula = Petal.Length ~ Species, data=iris)

Species Residuals
Sum of Squares 437.1028
27.2226
Deg. of Freedom
2
147
Residual standard error: 0.4303345
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

241 / 429

ANOVAs a um factor no

(cont.)

A funo summary tambm pode ser aplicada ao resultado de uma


ANOVA, produzindo o quadro-resumo da ANOVA:
> iris.aov <- aov(Petal.Length ~ Species, data=iris)
> summary(iris.aov)
Df Sum Sq Mean Sq F value
Pr(>F)
Species
2 437.10 218.55 1180.2 < 2.2e-16 ***
Residuals
147 27.22
0.19
--Signif. codes: 0 ~***~ 0.001 ~**~ 0.01 ~*~ 0.05 ~.~ 0.1 ~ ~ 1

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

242 / 429

Os parmetros estimados, no
Para obter as estimativas dos parmetros 1 , 2 , 3 , ..., k , pode
aplicar-se a funo coef ao resultado da ANOVA.
No exemplo dos lrios, temos:
> coef(iris.aov)
(Intercept) Speciesversicolor
1.462
2.798

Speciesvirginica
4.090

Estes so os valores estimados dos parmetros


1 : mdia amostral de comprimentos de ptalas setosa;

2 : acrscimo que, somado mdia amostral da 1a. espcie, nos

d a mdia amostral dos comprimentos de ptalas versicolor ;


3 : acrscimo que, somado mdia amostral da 1a. espcie, nos

d a mdia amostral dos comprimentos de ptalas virginica.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

243 / 429

Parmetros estimados no

(cont.)

Para melhor interpretar os resultados, vejamos as mdias por nvel do


factor da varivel resposta, atravs da funo model.tables, com o
argumento type=means:
> model.tables(iris.aov , type="mean")
Tables of means
Grand mean
3.758
Species
Species
setosa versicolor
1.462
4.260

virginica
5.552

ordena os nveis de um factor por ordem alfabtica.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

244 / 429

ANOVAs como modelo Linear no


Tambm possvel estudar uma ANOVA atravs do comando lm,
nomeadamente para fazer inferncia sobre os parmetros do modelo:
> summary(lm(Petal.Length ~ Species , data=iris))
Call: lm(formula = Petal.Length ~ Species, data=iris)
Residuals:
Min
1Q Median
3Q
Max
-1.260 -0.258 0.038 0.240 1.348
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.46200
0.06086
24.02
<2e-16 ***
Speciesversicolor 2.79800
0.08607
32.51
<2e-16 ***
Speciesvirginica
4.09000
0.08607
47.52
<2e-16 ***
--Residual standard error: 0.4303 on 147 degrees of freedom
Multiple R-squared: 0.9414, Adjusted R-squared: 0.9406
F-statistic: 1180 on 2 and 147 DF, p-value: < 2.2e-16

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

245 / 429

A explorao ulterior de H1
A Hiptese Nula, no teste F numa ANOVA a 1 Factor, afirma que
todos os nveis do factor tm efeito nulo, isto , que a mdia da
varivel resposta Y igual nos k nveis do Factor:

2 = 3 = ... = k = 0
1 = 2 = 3 = = k
A Hiptese Alternativa diz que pelo menos um dos nveis do factor tem
uma mdia de Y diferente do primeiro nvel:

i =
6 0
6 i
tal que 1 =
tal que

(i > 1)
(i > 1)

Ou seja, nem todas as mdias de nvel de Y so iguais

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

246 / 429

A explorao ulterior de H1

(cont.)

Caso se opte pela Hiptese Alternativa, fica em aberto (excepto


quando k = 2) a questo de saber quais os nveis do factor cujas
mdias diferem entre si.
Mesmo com k = 3, a rejeio de H0 pode dever-se a:

1 = 2 6= 3
1 = 3 6= 2
1 6= 2 = 3
i todos diferentes

i.e., 2 = 0 ; 3 6= 0
i.e., 3 = 0 ; 2 6= 0
i.e., 2 = 3 6= 0;

i.e., 2 6= 3 e 2 , 3 6= 0.

Como optar entre estas diferentes alternativas?

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

247 / 429

A explorao ulterior de H1

(cont.)

Uma hiptese consiste em efectuar testes aos i s, com base na teoria


j estudada anteriormente.
Mas quanto maior fr k, mais sub-hipteses alternativas existem, mais
testes haver para fazer.
No se trata apenas de uma questo de serem necessrios muitos
testes. A multiplicao do nmero de testes faz perder o controlo do
nivel de significncia global para o conjunto de todos os testes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

248 / 429

As comparaes mltiplas
possvel construir testes de hipteses relativos a todas as diferenas
i j , definidas pelas mdias populacionais de Y nos nveis i, j de
um factor (i, j = 1, ..., k, com i 6= j), controlando o nvel de significncia
global do conjunto dos testes. Tais testes chamam-se testes de
comparaes mltiplas de mdias.
O nvel de significncia nos testes de comparao mltipla a
probabilidade de rejeitar qualquer das hipteses i = j , caso ela seja
verdade, ou seja, um nvel de significncia global.
O mais usado desses testes o teste de Tukey.
Alternativamente, podem-se construir intervalos de confiana para
cada diferena i j , com um nvel (1 ) 100% de confiana de
que os verdadeiros valores de i j pertencem a todos os intervalos.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

249 / 429

Distribuio de Tukey para Amplitudes Studentizadas


Teorema (Distribuio de Tukey)
Sejam {Wi }ki=1 variveis aleatrias independentes, com distribuio
2 ), i = 1, ..., k.
Normal, de iguais parmetros: Wi N (W , W
2 um estimador da varincia comum 2 , tal que
Seja SW
W

2
SW
2
W

2 .

Seja RW = max Wi min Wi a amplitude amostral.


i

Sejam Sw e Rw independentes.
W
Ento, a amplitude Studentizada, R
SW , tem a distribuio de Tukey, que
depende de dois parmetros: k e .

Os valores da funo distribuio cumulativa e os quantis duma


, atravs das funes
distribuio de Tukey so calculados no
ptukey e qtukey, respectivamente.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

250 / 429

A utilidade da distribuio de Tukey


Numa ANOVA a um factor, admitimos que
Yij = 1 + i +ij ,
| {z }

(1 = 0) ,

= i

pelo que (com os pressupostos relativos aos erros aleatrios do


modelo ANOVA)
Yij N (i , 2 ) .
Logo, a mdia amostral de cada nvel, Y i =

Y i N

J. Cadima (ISA)

2
i ,
ni

1
ni

ni

Yij , tem distribuio

j=1

Y i i N

Estatstica e Delineamento

2
0,
ni

2010-11

251 / 429

A utilidade da distribuio de Tukey (cont.)


Caso o delineamento seja equilibrado, isto ,
n1 = n2 = ... = nk (= nc ) ,

as k diferenas Y i i tero a mesma distribuio N 0 , 2 /nc , e
sero as variveis Wi do Teorema no acetato (250).
Um estimador da varincia comum 2 /nc dado por QMRE /nc , e:
(n k)

SQRE
QMRE /nc
2
=
nk
,
2
/nc
2

(acetatos 140 e 141, pois no modelo ANOVA h k parmetros).


Os valores ajustados Y i e os resduos que definem SQRE so
independentes, logo, a amplitude amostral
R = max(Y i i ) min(Y j j )
i

independente do estimador da varincia comum, QMRE /nc .


Aplica-se o Teorema do acetato (250).
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

252 / 429

Assim,
R
=
S

max(Y i i ) min(Y j j )
j
i
q
QMRE
nc

tem a distribuio de Tukey, com parmetros k e n k.


O quociente R
S no pode ser negativo, por definio.
Este resultado pode ser usado para construir testes de hipteses ou
intervalos de confiana para o conjunto de todas as diferenas de
mdias de nvel de Y , i j .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

253 / 429

Intervalos de Confiana para i j


Seja q (k ,nk ) o valor que numa distribuio de Tukey com parmetros
k e n k, deixa direita uma regio de probabilidade . Ento, por
definio:


R
P
< q (k ,nk ) = 1
S
Logo, um intervalo de confiana a (1 ) 100% para a amplitude R
dado por:
s
R < q (k ,nk )

J. Cadima (ISA)

QMRE
nc

Estatstica e Delineamento

2010-11

254 / 429

Intervalos de Confiana para i j (cont.)


Mas R = max(Y i i ) min(Y j j ) a maior de todas as
j
i


diferenas do tipo (Y i i ) (Y j j ) , para qualquer i, j = 1, ..., k.
Logo, para todos os pares de nveis i e j, tem-se, com grau de
confiana global (1 ) 100%,


q

y i y j (i j ) R < q (k ,nk ) QMRE
nc
q

QMRE
y i y j q (k ,nk ) nc
< (i j ) <

q

y i y j + q (k ,nk ) QMRE
nc

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

255 / 429

Testes de Hipteses para i j = 0 ,

i, j

Alternativamente, a partir do resultado do acetato (253) possvel


testar a Hiptese Nula de que todas as diferenas de pares de mdias
de nvel, i j , sejam nulas, em cujo caso


q
Y i Y j < q (k ,nk ) QMRE
,
nc
com probabilidade (1 ). Qualquer diferena de mdias amostrais
de nvel, Y i Y j , que exceda o limiar
q (k ,nk )

QMRE
nc

indica que, para esse par de nveis i, j, se deve considerar i 6= j .


O nvel (global) de significncia de todas estas comparaes , ou
seja, a probabilidade de se concluir que i 6= j (para algum par i, j),
se em todos os casos i = j , .
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

256 / 429

Comparaes Mltiplas de Mdias no


As comparaes mltiplas de mdias de nvel, com base no resultado
.
de Tukey, podem ser facilmente efectuadas no
Para se obter o termo de comparao nos testes de hipteses a que
i j = 0, o quantil de ordem 1 na distribuio de Tukey obtido a
partir do comando
> qtukey(1- , k, n k)

(com os valores numricos de , k e n k).

O valor de QMRE dado pelo comando aov, sob a designao


Residual standard error .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

257 / 429

Comparaes Mltiplas de Mdias no

(cont.)

Os intervalos de Confiana a (1 ) 100% para as diferenas de


mdias so obtidos atravs do comando TukeyHSD. Por exemplo, para
os dados dos lrios,
> TukeyHSD(aov(Sepal.Width ~ Species, data=iris))
Tukey multiple comparisons of means
95% family-wise confidence level
$Species
diff
lwr
upr
p adj
versicolor-setosa
-0.658 -0.81885528 -0.4971447 0.0000000
virginica-setosa
-0.454 -0.61485528 -0.2931447 0.0000000
virginica-versicolor 0.204 0.04314472 0.3648553 0.0087802

Neste exemplo, nenhum dos intervalos inclui o valor zero, pelo que
consideramos que i 6= j , para qualquer i 6= j, ou seja, todas as
mdias de espcie so diferentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

258 / 429

Comparaes Mltiplas de Mdias no

(cont.)

O valor de prova indicado (p adj) deve ser interpretado como o valor


de para o qual cada diferena de mdias, y i. y j. , seria, pela
primeira vez, considerado no significativo.
> TukeyHSD(aov(Sepal.Width ~ Species, data=iris))
Tukey multiple comparisons of means
95% family-wise confidence level
$Species
diff
lwr
upr
p adj
versicolor-setosa
-0.658 -0.81885528 -0.4971447 0.0000000
virginica-setosa
-0.454 -0.61485528 -0.2931447 0.0000000
virginica-versicolor 0.204 0.04314472 0.3648553 0.0087802

Assim, para = 0.00878, a diferena de mdias amostrais para as


espcies virginica e versicolor j seria considerada no significativa.
Ou seja, o intervalo a (1 ) 100% = 99.122% de confiana para
essa diferena de mdias j conteria o valor zero.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

259 / 429

Representao grfica das comparaes mltiplas


O
disponibiliza ainda um auxiliar grfico para visualizar as
comparaes das mdias de nvel, atravs da funo plot, aplicada
ao resultado da funo TukeyHSD.

virginicaversicolor virginicasetosa

versicolorsetosa

95% familywise confidence level

0.8

0.6

0.4

0.2

0.0

0.2

0.4

Differences in mean levels of Species

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

260 / 429

Delineamentos no equilibrados

Quando o delineamento da ANOVA a um Factor no equilibrado (isto


, existe diferente nmero de observaes nos vrios nveis do factor),
os resultados agora enunciados no so, em rigor, vlidos.
Mas, para delineamentos em que o desequilbrio no nmero de
observaes no seja muito acentuado, possvel ajustar os valores
incorpora essas
da distribuio de Tukey. A funo TukeyHSD do
correces.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

261 / 429

Anlise de Resduos na ANOVA a 1 Factor

A validade dos pressupostos do modelo estuda-se de forma idntica


ao que foi visto na Regresso Linear. Mas h algumas
particularidades.
Numa ANOVA a um factor, os resduos aparecem empilhados em k
colunas nos grficos de yij vs. eij , porque qualquer valor ajustado yij
igual para observaes num mesmo nvel do factor.
Este padro no indicia qualquer violao aos pressupostos do
modelo.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

262 / 429

Anlise de Resduos na ANOVA a 1 Factor (cont.)


Padro de resduos numa ANOVA a 1 Factor
(o exemplo considerado Sepal.Width Species, nos lrios)

1.0

Residuals vs Fitted
16

0.0
0.5
1.0

Residuals

0.5

118

42

2.8

2.9

3.0

3.1

3.2

3.3

3.4

Fitted values
aov(Sepal.Width ~ Species)

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

263 / 429

Inspeccionando a homogeneidade de varincias


Outra particularidade da ANOVA, resultante do facto de haver ni
repeties em cada um dos k nveis do factor: possvel testar
formalmente se as varincias dos erros aleatrios diferem entre os
nveis do factor.
O Teste de Bartlett testa as hipteses
H0 : 12 = 22 = = k2
vs.
H1 : i, i

t.q.

i2 6= i2 ,

sendo i2 a varincia comum dos erros aleatrios ij do nvel i.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

264 / 429

Mdias aritmticas e mdias geomtricas


Relao geral entre a mdia aritmtica e a mdia geomtrica (mesmo
que ponderadas) de quaisquer k nmeros positivos.
Sejam 1 , 2 , ..., k nmeros positivos, e
p1 , p2 , ..., pk nmeros entre 0 e 1, de soma 1.
A mdia aritmtica (ponderada com pesos pi ) dos i s
k

MA =

p i i .

i=1

A mdia geomtrica (ponderada com pesos pi ) dos i s


k

MG =

ip

i=1

Quando pi = k1 , i, temos as mdias aritmtica e geomtrica simples.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

265 / 429

A desigualdade entre mdia aritmtica e geomtrica


Quaisquer que sejam os valores (positivos) dos i e das ponderaes
pi , tem-se a seguinte desigualdade entre a mdia aritmtica e
geomtrica dos k valores de :
MG

MA

(4)

A igualdade em (4) verifica-se se e s se os k valores de so iguais:

1 = 2 = = k .
Quanto maior fr a disperso dos , maior ser a diferena entre
mdia geomtrica e mdia aritmtica.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

266 / 429

O nosso contexto

Admita-se que os erros aleatrios, e portanto as observaes Yij , do


nvel i do factor tm varincia comum V [ij ] = V [Yij ] = i2 , podendo, no
entanto os i2 diferir entre nveis.
Sejam MA e MG as mdias, respectivamente aritmtica e geomtrica,
das k varincias de nvel, {i2 }ki=1 , para um dado conjunto de pesos
pi . Tem-se sempre
MA
1,
MG
com a igualdade se e s se fr verdadeira a Hiptese Nula de que os
i2 so todos iguais.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

267 / 429

Estimando as varincias de nvel


Os i2 so desconhecidos. Mas podem ser estimados pelas varincias
amostrais das observaes de Y , i.e., cada i2 pode ser estimado por:
Si2 =

1
ni 1

ni

j=1

Yij Y i

2

Se usarmos como ponderaes


pi =

n 1
ni 1
= i
,
(n

1)
nk
i i

a mdia aritmtica ponderada dos estimadores Si2 o Quadrado


Mdio Residual da ANOVA (ver o Acetato 233):
k

MA =

i=1
J. Cadima (ISA)

ni 1 2
Si =
nk

ni

(Yij Y i )2

i=1 j=1

nk

Estatstica e Delineamento

= QMRE .
2010-11

268 / 429

A ideia subjacente ao teste de Bartlett


A mdia geomtrica dos k estimadores de varincias de nvel :
k

MG =

(Si2 )

ni 1
nk

i=1

Sabemos que MA/MG 1. Quanto maior fr este quociente, maior


ser a variabilidade dos Si2 , e portanto mais duvidosa ser a Hiptese
Nula da igualdade dos i2 .
MA
um candidato a estatstica do teste
Logo, o quociente MG
igualdade de varincias, com Regio Crtica unilateral direita.
Mas necessrio conhecer a distribuio de probabilidades duma
estatstica do Teste, sob H0 .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

269 / 429

O teste de Bartlett
Bartlett demonstrou que, sob H0 , uma transformao montona
crescente do quociente MA/MG tem distribuio assintoticamente 2 ,
caso as variveis subjacentes s varincias tenham distribuio
Normal. Concretamente, demonstrou que


MA
nk
nk
ln
(ln MA ln MG) ,
=
K =
C
MG
C
tem, assintoticamente distribuio k21 , sendo
1
C = 1+
3(k 1)

J. Cadima (ISA)

"

i=1

1
1

ni 1 n k

Estatstica e Delineamento

2010-11

270 / 429

O Teste de Bartlett
Teste de Bartlett homogeneidade de varincias
Hipteses: H0 : 12 = 22 = ... = k2
vs.
[Varincias homogneas]

H1 : i, i t.q. i2 6= i2
[Var. heterogneas]

Estatstica do Teste:
k

K =

(n k) ln QMRE (ni 1) ln Si2

onde C = 1 +

i=1

C
1
3(k 1)

Nvel de significncia do teste:

i=1

1
ni 1

1
nk

k21

Regio Crtica (Regio de Rejeio): Unilateral direita


Rejeitar H0 se Kcalc > 2(k 1)
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

271 / 429

O Teste de Bartlett no
No
, o teste de Bartlett invocado pelo comando bartlett.test,
tendo por argumento uma frmula (anloga usada no comando aov
para indicar a varivel resposta e o factor). E.g.,
> bartlett.test(Sepal.Width ~ Species, data=iris)
Bartlett test of homogeneity of variances
data: Sepal.Width by Species
Bartletts K-squared = 2.0911, df = 2, p-value = 0.3515
Neste caso, o teste de Bartlett indica a no rejeio de H0 , ou seja,
admissvel a hiptese de igualdade nas varincias em cada nvel do
factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

272 / 429

Precaues

Duas precaues na utilizao do teste de Bartlett:


O teste de Bartlett fortemente sensvel Normalidade das
observaes subjacentes.
A distribuio 2 apenas assinttica. Uma regra comum
considerar que o teste apenas deve ser usado caso ni 5,
i = 1, .., k.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

273 / 429

Violaes aos pressupostos da ANOVA

Violaes aos pressupostos do modelo no tm sempre igual


gravidade. Alguns comentrios gerais:
O teste F da ANOVA e as comparaes mltiplas de Tukey so
relativamente robustos a desvios hiptese de normalidade.
As violaes ao pressuposto de varincias homogneas so em
geral pouco graves no caso de delineamentos equilibrados, mas
podem ser graves em delineamentos no equilibrados.
A falta de independncia entre erros aleatrios a violao mais
grave dos pressupostos e deve ser evitada, o que em geral
possvel com um delineamento experimental adequado.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

274 / 429

Uma advertncia
Na formulao clssica do modelo ANOVA a um Factor, e a partir da
equao-base
Yij = + i + ij ,
em vez de impor a condio 1 = 0, impe-se a condio i i = 0.
Esta condio alternativa:
muda a forma de interpretar os parmetros ( agora uma
espcie de mdia geral das observaes e i o desvio mdio das
observaes do nvel i em relao a essa mdia geral);
Muda os estimadores dos parmetros.
No muda o resultado do teste F existncia de efeitos do factor,
nem a qualidade global do ajustamento.
A nossa formulao, alm de generalizvel a modelos com mais
Factores, permite aproveitar directamente os resultados da
Regresso Linear Mltipla.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

275 / 429

Delineamentos e Unidades experimentais


No delineamento das experincias para posterior anlise atravs
duma ANOVA (ou regresso linear), frequente que as n observaes
da varivel resposta correspondam a n diferentes individuos, ou
parcelas de terreno, ou outra entidade que se pode designar uma
unidade experimental.
As unidades experimentais nas quais se recolhem os dados devem
ser to homogneas quanto possvel,
tendo sido controladas de forma a eliminar variabilidade que possa
afectar a varivel resposta, para alm da variao nos preditores que
se estejam a analisar.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

276 / 429

Unidades experimentais (cont.)


Qualquer variabilidade no controlada nas unidades experimentais
(isto , que no se pode atribuir aos preditores) considerada no
modelo como variao aleatria, pelo que ir contribuir para aumentar
o valor de SQRE e de QMRE .
Aumentar QMRE significa, no teste aos efeitos do factor, diminuir o
valor calculado da estatstica F , afastando-a da regio crtica. Assim,

numa ANOVA
heterogeneidade no controlada nas unidades experimentais contribui
para esconder a presena de eventuais efeitos do factor.

numa Regresso Linear


heterogeneidade no controlada nas unidades experimentais contribui
para piorar a qualidade de ajustamento do modelo, diminuindo o seu
Coeficiente de Determinao.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

277 / 429

Controlar a heterogeneidade
Na prtica, frequentemente impossvel controlar totalmente todos os
factores que afectam as unidades experimentais.
A natural variabilidade de plantes, animais, terrenos, localidades
geogrficas, clulas, etc. significa que em muitas situaes existir
variabilidade indesejada entre unidades experimentais.
Alguma proteco contra efeitos no controlados resulta dos
princpios de:
repetio;
casualizao.
Deve-se associar nveis do factor s unidades experimentais de forma
aleatria (casualizada).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

278 / 429

Criar factores para controlar variabilidade

Mas, mesmo com a casualizao, a existncia de muita variabilidade


no controlada entre as unidades experimentais tende a inflacionar
SQRE , logo a diminuir a significncia de uma estatstica de teste,
mesmo que haja efeitos significativos do factor.
Caso se saiba que existe um factor de variabilidade nas unidades
experimentais, uma forma de tentar controlar os seus efeitos consiste
em contemplar a existncia desse factor de variabilidade no
delineamento e no modelo, de forma a filtrar os seus efeitos.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

279 / 429

Um exemplo
Pretende-se analisar o rendimento de 5 diferentes variedades de trigo.
Os rendimentos so tambm afectados pelos tipo de solos usados.
Nem sempre possvel ter terrenos homogneos numa experincia.
Mesmo que seja possvel, pode no ser desejvel, por se limitar a
validade dos resultados a um nico tipo de solos.
Admita-se que existem terrenos com quatro diferentes tipos de solos.
Cada terreno pode ser dividido em cinco parcelas viveis para o trigo.
Em vez de repartir aleatoriamente as 5 variedades pelas 20 parcelas,
prefervel forar cada tipo de terreno a conter uma parcela com cada
variedade. Apenas dentro dos terrenos haver casualizao.
Num delineamento experimental deste tipo, os terrenos designam-se
blocos casualizados.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

280 / 429

Um exemplo (cont.)
A situao descrita no acetato anterior a seguinte:
Bloco 1 (Solo 1)

Var.1

Var.3

Var.4

Var.5

Var.2

Bloco 2 (Solo 2)

Var.4

Var.3

Var.5

Var.1

Var.2

Bloco 3 (Solo 3)

Var.2

Var.4

Var.1

Var.3

Var.5

Bloco 4 (Solo 4)

Var.5

Var.2

Var.4

Var.1

Var.3

Houve uma restrio casualizao total: dentro de cada bloco h


casualizao, mas obriga-se cada bloco a ter uma parcela associada
a cada nvel do factor variedade.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

281 / 429

Delineamentos a dois factores


O delineamento agora exemplificado um caso particular de um
delineamento a dois factores, sendo um dos factores a variedade de
trigo e a outra o tipo de solos.
A existncia de mais do que um factor pode resultar de:
a tentativa de controlar a variabilidade experimental;
pretender-se realmente estudar eventuais efeitos de mais do que
um factor sobre a varivel resposta.
Historicamente, a primeira situao ficou associada designao
blocos, e na segunda fala-se apenas em factores. Mas so situaes
anlogas.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

282 / 429

Modelo ANOVA a 2 Factores (sem interaco)

A um delineamento com 2 factores pode ser associado um modelo


ANOVA que prev a existncia de dois diferentes tipos de efeitos: os
efeitos associados aos nveis de cada um dos factores.
Admita-se a existncia de:
Uma varivel resposta Y , da qual se efectuam n observaes.
Um Factor A, com a nveis.
Um Factor B, com b nveis.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

283 / 429

Modelo ANOVA a 2 Factores (sem interaco)

Notao: Cada observao da varivel resposta ser agora


identificada com trs ndices, Yijk , onde:
i indica o nvel i do Factor A.
j indica o nvel j do Factor B.
k indica a repetio k no nvel i do factor A e nvel j do Factor B.
Cada situao experimental dada pelo cruzamento dum nvel dum
Factor com um nvel do outro Factor, cruzamento chamado clula.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

284 / 429

Modelo ANOVA a 2 Factores (sem interaco)

O nmero de observaes na clula (i, j) representado por nij .


Tem-se

nij

= n.

i=1 j=1

Se o nmero de observaes fr igual em todas as clulas,


nij = nc ,

i, j ,

estamos perante um delineamento equilibrado.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

285 / 429

A modelao de Y

Vamos admitir que o valor esperado de cada observao depende


apenas dos nveis de cada Factor, sendo da forma:
E [Yijk ]

ij

+ i + j .

O parmetro comum a todas as observaes.


Cada parmetro i funciona como um acrscimo que pode diferir
entre nveis do Factor A, e designado o efeito do nvel i do factor A.
Cada parmetro j funciona como um acrscimo que pode diferir entre
nveis do Factor B, e designado o efeito do nvel j do factor B.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

286 / 429

A modelao de Y (cont.)

Admite-se que a variao de Yijk em torno do seu valor mdio


aleatria:
Yijk = + i + j + ijk ,
com E [ijk ] = 0.
Tambm neste caso, ser necessrio introduzir alguma restrio aos
parmetros, no podendo estimar-se parmetros i e j para todos os
nveis de cada Factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

287 / 429

A equao-base em notao vectorial

A equao de base do modelo ANOVA a dois factores (sem


interaco) tambm pode ser escrita na forma vectorial.
Seja
Y o vector n-dimensional com a totalidade das observaes
da varivel resposta.
1n o vector de n uns.
IAi a varivel indicatriz de pertena ao nvel i do Factor A.
IBj a varivel indicatriz de pertena ao nvel j do Factor B.
o vector dos n erros aleatrios.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

288 / 429

A equao-base em notao vectorial: primeira


tentativa
Se se admitem efeitos para todos os nveis de ambos os factores,
temos a equao-base:
Y = 1n + 1 IA1 + 2 IA2 + ... + a IAa + 1 IB1 + 2 IB2 + ... + b IBb +

A matriz X definida com base neste modelo teria dependncias


lineares por duas diferentes razes:
a soma das indicatrizes do Factor A daria a coluna dos uns, 1n ;
a soma das indicatrizes do Factor B daria a coluna dos uns, 1n .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

289 / 429

A matriz X na primeiro tentativa

X=

1
1

.
.
.

.
.

.
1

.
.
.

.
.

.
1
1

1n

1
1
1
.
.
.
1
1

0
0
0
.
.
.
0
0

.
.
.

0
.
.
.
0
0

IA

0
0
0
.
.
.
0
0

1
1
1
.
.
.
1
1

.
.
.

0
.
.
.
0
0

IA

...
...
...

0
1
0
0
1
0
0
0
1
.
.
.
.
.
.
.
.
.
.
.
.
...
0
0
0
...
0
0
0

...
0
1
0
...
0
1
0
...
0
1
0
.
.
.
.
.
.
.
.
.
.
.
.
...
0
0
0
...
0
0
0

.
.
.
.
.
.
.
.
.
.
.
.

...
1
1
0
.
.
.
.
.
.
.
.
.
.
.
.
...
1
0
0
...
1
0
0

IB
...
IAa
1

...
...
...
.

.
.
...
...

...
...
...
.

.
.
...
...

.
.

...
.

.
.
...
...

IB

0
0
0
.
.
.
1
1

0
0
0
.
.
.
1
1

.
.
.

0
.
.
.
1
1

...

IB

Nem mesmo a excluso da coluna 1n resolve o problema.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

290 / 429

A equao-base em notao vectorial: segunda


tentativa
Doravante, admitimos que foram excludas do modelo as parcelas
associadas ao primeiro nvel de cada Factor, isto :

1 = 0

1 = 0 .

Estas hipteses correspondem a excluir as colunas IA1 e IB1 da


matriz X.
A equao-base do modelo ANOVA a 2 Factores, sem interaco, fica:
Y = 1n + 2 IA2 + ... + a IAa + 2 IB2 + ... + b IBb +

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

291 / 429

A matriz do delineamento na ANOVA a 2 Factores


(sem interaco)

X=

J. Cadima (ISA)

1
1

.
.
.

.
.

.
1

.
.
.

.
.

.
1
1

1n

0
0
0
.
.
.
0
0

1
1
1
.
.
.
1
1

.
.
.

0
.
.
.
0
0

IA

...
...
...
..

.
...
...

...
...
...
.

.
.
...
...

.
.

...
.

.
.
...
...

...

0
0
...
0
0
0
...
0

0
1
...
0

.
.
.
.
.
.
.
.
.
.
.
.

0
0
...
1

0
0
...
1

0
0
...
0

0
0
...
0

0
0
...
0

.
.
.
.
.
.
.
.

.
.
.
.
0
0
...
1

0
0
...
1

.
.
.
.
.
.
.
.
.
.
.
.

1
0
...
0

.
.
.
.
.
.
.
.

.
.
.
.
1
0
...
1
1
0
...
1

...
IB
IB
IAa
b
2

Estatstica e Delineamento

2010-11

292 / 429

A natureza do parmetro

Uma observao de Y efectuada na clula (1, 1), correspondente ao


cruzamento do primeiro nvel de cada factor ser da forma:
Y11k = + 11k

E [Y11k ] =

O parmetro corresponde ao valor esperado da varivel resposta Y


na clula cujas indicatrizes foram excludas da matriz do
delineamento. Ser doravante chamado 11 .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

293 / 429

A natureza dos parmetros i


Uma observao de Y efectuada na clula (i, 1), com i > 1,
correspondente ao cruzamento dum nvel do factor A diferente do
primeiro, com o primeiro nvel do Factor B ser da forma:
Yi1k = 11 + i + i1k

E [Yi1k ] = 11 + i

O parmetro i corresponde ao acrscimo no valor esperado da


varivel resposta Y associado a observaes do nvel i > 1 do Factor
A (relativamente s observaes do primeiro nvel do Factor A).
Designa-se o efeito do nvel i do factor A.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

294 / 429

A natureza dos parmetros j


Uma observao de Y efectuada na clula (1, j), com j > 1,
correspondente ao cruzamento do primeiro nvel do factor A com um
nvel do Factor B diferente do primeiro ser da forma:
Y1jk = 11 + j + 1jk

E [Y1jk ] = 11 + j

O parmetro j corresponde ao acrscimo no valor esperado da


varivel resposta Y associado a observaes do nvel j do Factor B
(relativamente s observaes do primeiro nvel do Factor B).
Designa-se o efeito do nvel j do factor B.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

295 / 429

Observaes de Y no caso geral

Estas interpretaes dos parmetros i e j confirmam-se para


observaes de Y efectuadas numa clula genrica (i, j), com i, j > 1,
correspondente ao cruzamento de nveis diferentes do primeiro, quer
no Factor A, quer no Factor B. Essas observaes sero da forma:
Yijk = 11 + i + j + ijk

E [Yijk ] = 11 + i + j .

Os valores esperados de Y so, neste caso, acrescidos em relao ao


valor esperado duma observao na clula (1, 1), quer pela parcela
i , quer pela parcela j .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

296 / 429

O modelo ANOVA a dois factores, sem interaco


Juntando os pressupostos necessrios inferncia,

Modelo ANOVA a dois factores, sem interaco


Existem n observaes, Yijk , nij das quais associadas clula (i, j)
(i = 1, ..., a, j = 1, ..., b). Tem-se:
1

2
3

Yijk = 11 + i + j + ijk ,
(1 = 0; 1 = 0).

i=1,...,a ; j=1,...,b ; k =1,...,nij

ijk N (0 , 2 ), i, j, k
{ijk }i,j,k v.a.s independentes.

O modelo tem a + b 1 parmetros desconhecidos:

11 ;
os a1 acrscimos i (i > 1); e
os b1 acrscimos j (j > 1).
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

297 / 429

Testando a existncia de efeitos

Um teste global de ajustamento do modelo, como os que foram


estudados no contexto da Regresso Linear e da ANOVA a 1 Factor
pode ser efectuado, mas no ir distinguir entre os efeitos do Factor A
e os efeitos do Factor B.
Mais til ser testar a existncia dos efeitos de cada factor
separadamente. Seria til dispr de testes para as hipteses:
H0 : i = 0 ,
H 0 : j = 0 ,

J. Cadima (ISA)

i = 2, ..., a ; e

j = 2, ..., b.

Estatstica e Delineamento

2010-11

298 / 429

Teste aos efeitos do Factor B


O modelo do Acetato ANOVA a 2 Factores, sem interaco (Acetato
297) tem equao de base, em notao vectorial,
Y = 1n + 2 IA2 + ... + a IAa + 2 IB2 + ... + b IBb +
O facto de ser um Modelo Linear permite aplicar a teoria j conhecida
para este tipo de modelos, para testar as hipteses
H 0 : j = 0 ,

j = 2, ..., b

vs.

H1 : j

tal que j 6= 0 .

Trata-se dum teste F parcial comparando o modelo


(Modelo MA+B )

Yijk = 11 + i + j + ijk ,

com o submodelo de equao de base


(Modelo MA )

Yijk = 11 + i + ijk ,

que um modelo ANOVA a 1 Factor: o factor A.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

299 / 429

Teste aos efeitos do Factor A


Por sua vez, no modelo original
Y = 1n + 2 IA2 + ... + a IAa + 2 IB2 + ... + b IBb +
testar as hipteses
H0 : i = 0 ,

i = 2, ..., a

vs.

H1 : i

tal que i 6= 0 ,

equivale a efectuar um teste F parcial comparando o modelo


(Modelo MA+B )

Yijk = 11 + i + j + ijk ,

com o submodelo de equao de base


(Modelo MB )

Yijk = 11 + j + ijk ,

que um modelo ANOVA a 1 Factor: o factor B.


Em ambos os casos, sabemos fazer o teste F parcial adequado.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

300 / 429

A construo dos testes


Seja o delineamento equilibrado, ou no, podemos:
construir as matrizes X do delineamento para os trs modelos
(MA+B , MA e MB ).
Obter as respectivas estimativas de parmetros, = (Xt X)1 Xt Y,
para a matriz X correspondente a cada modelo.
Obter as respectivas Somas de Quadrados Residuais.
Efectuar os testes F parciais indicados, com as estatsticas de
Teste apropriadas:

J. Cadima (ISA)

(Efeitos Factor A)

(Efeitos Factor B)

Estatstica e Delineamento

SQREB SQREA+B
a1
SQREA+B
n(a+b1)
SQREA SQREA+B
b1
SQREA+B
n(a+b1)

2010-11

301 / 429

Frmulas para delineamentos equilibrados


Caso o delineamento seja equilibrado, ou seja, nij = nc , i, j , e
designando por:
Y i a mdia amostral das b nc observaes do nvel i do
Factor A, Y i =

1
b nc

nc

Yijk

j=1 k =1

Y j a mdia amostral das a nc observaes do nvel j do


Factor B, Y j =

1
a nc

nc

Yijk

i=1 k =1

Y a mdia amostral da totalidade das n = a b nc


observaes, Y =

1
n

nc

Yijk .

i=1 j=1 k =1

tem-se:
11 = Y 1 + Y 1 Y

i = Y i Y 1

j = Y j Y 1
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

302 / 429

Frmulas para delineamentos equilibrados (cont.)

Tendo em conta estas frmulas e a equao base do Modelo, tem-se


que os valores ajustados de cada observao dependem apenas das
mdias dos respectivos nveis em cada factor e da mdia geral de
todas as observaes:
ijk
Y

11 +
i + j

Y i + Y j Y

i, j, k

Consideremos agora as frmulas das trs Somas de Quadrados no


Modelo MA+B .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

303 / 429

As Somas de Quadrados (delineamento equilibrado)

preciso somar variando os 3 ndices:


a

SQT

nc

i=1 j=1 k =1
a

SQF

nc

i=1 j=1 k =1
a

SQRE =

nc

i=1 j=1 k =1

J. Cadima (ISA)

Yijk Y

2

2

ijk Y
Y

2
ijk
Yijk Y

Estatstica e Delineamento

2010-11

304 / 429

A Soma de Quadrados dos Factores


No Modelo MA+B , a Soma de Quadrados associada aos Factores
(SQFA+B ) tem, para delineamentos equilibrados, a seguinte
decomposio:
a

SQFA+B =

nc

i=1 j=1 k =1
a

nc

i=1 j=1

(Y i + Y j Y ) Y

2

(Y i Y ) + (Y j Y )

= b nc (Y i Y )2

i=1

J. Cadima (ISA)

2

{z

= SQA

Estatstica e Delineamento

a nc (Y j Y )2
j=1

{z

= SQB

2010-11

305 / 429

A Decomposio das SQs


Assim, para o Modelo ANOVA a 2 Factores, sem interaco, tem-se a
seguinte decomposio ulterior da Soma de Quadrados Total:
SQT

SQA
+ SQB} + SQREA+B
{z
|
=SQFA+B

As Somas de Quadrados

SQA Soma de Quadrados associada aos efeitos do Factor A


(pois mede a variabilidade das mdias amostrais nos
nveis do Factor A),
SQB Soma de Quadrados associada aos efeitos do Factor B
(pois mede a variabilidade das mdias amostrais nos
nveis do Factor B),
desempenham um papel crucial nos testes aos efeitos de cada Factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

306 / 429

SQB
No teste aos efeitos do Factor A, compara-se os modelos
(Modelo MA+B )

Yijk

= 11 + i + j + ijk

(Modelo MB )

Yijk

= 11 + j + ijk ,

O Modelo MB um Modelo a 1 Factor. Logo, nesse Modelo os


valores ajustados de Y so iguais em cada nvel e so dados pela
ijk = Y .j. . Assim, a Soma de
mdia das observaes desse nvel: Y
Quadrados do Factor no Modelo MB (SQFB ) dada (tendo em
ateno os trs ndices) por:
a

SQFB =

nc

(Yijk Y )2

i=1 j=1 k =1

= a nc (Y j Y )2 = SQB
j=1

Logo, a Soma de Quadrados Residual no Modelo MB (SQREB ) :


SQREB = SQT SQB
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

307 / 429

A estatstica do teste aos efeitos do Factor A

Assim, em delineamentos equilibrados, a estatstica do Teste F parcial


aos efeitos do Factor A vem:
F

SQREB SQREA+B
a1
SQREA+B
n(a+b1)
SQA
a1

QMREA+B

(SQT SQB)(SQT SQBSQA)


a1

QMREA+B
QMA
,
QMRE

onde QMA = SQA/(a 1).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

308 / 429

SQA
De forma anloga, no teste aos efeitos do Factor B, compara-se os
modelos
(Modelo MA+B )

Yijk

= 11 + i + j + ijk

(Modelo MA )

Yijk

= 11 + i + ijk ,

A Soma de Quadrados do Factor (SQF ) no Modelo MA dada por:


a

SQFA =

nc

(Yijk Y )2

i=1 j=1 k =1

= b nc (Y i Y )2 = SQA
i=1

Logo,
SQREA = SQT SQA

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

309 / 429

A estatstica de Teste aos efeitos do Factor B

Por analogia com o caso anterior, a estatstica do Teste aos efeitos do


Factor B vem:
QMB
F =
,
QMRE
onde QMB = SQB/(b 1).
Todas as quantidades envolvidas nos Teste aos efeitos, quer do Factor
A, quer do Factor B, obtm-se com base numa nica decomposio
de SQT :
SQT = SQA + SQB + SQREA+B .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

310 / 429

O quadro-resumo da ANOVA a 2 Factores


(sem interaco; delineamento equilibrado)

Fonte
Factor A
Factor B
Resduos

g.l.

SQ
a

a1

SQA = b nc (y i y )

b1

SQB = a nc y j y

i=1
b

j=1

n(a+b1)

nc

SQRE= (yijk yijk )2


i=1 j=1 k =1

Total

QM

n1

J. Cadima (ISA)

SQT = (n 1) sy2

Estatstica e Delineamento

2

fcalc

QMA =

SQA
a1

QMA
QMRE

QMB =

SQB
b1

QMB
QMRE

SQRE
QMRE= n(a+b1)

2010-11

311 / 429

O Teste F aos efeitos do factor A


Sendo vlido o Modelo de ANOVA a dois factores, sem interaco
(delineamento equilibrado) tem-se ento:

Teste F aos efeitos do factor A


Hipteses: H0 : i = 0 i=2,...,a
[A NO AFECTA Y ]
Estatstica do Teste: F =

QMA
QMRE

Nvel de significncia do teste:

vs.
vs.

H1 : i=2,..,a t.q. i 6= 0.
[A AFECTA Y ]

F(a1,n(a+b1))

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (a1,n(a+b1))

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

312 / 429

O Teste F aos efeitos do factor B


Sendo vlido o Modelo de ANOVA a dois factores, sem interaco
(delineamento equilibrado) tem-se ento:

Teste F aos efeitos do factor B


Hipteses: H0 : j = 0 j=2,...,b
[B NO AFECTA Y ]
Estatstica do Teste: F =

QMB
QMRE

Nvel de significncia do teste:

vs.
vs.

H1 : j=2,..,b t.q. j 6= 0.
[B AFECTA Y ]

F(b1,n(a+b1))

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (b1,n(a+b1))

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

313 / 429

ANOVA a dois Factores, sem interaco no


Para efectuar uma ANOVA a dois Factores (sem interaco) no
convm organizar os dados numa data.frame com trs colunas:
1

uma para os valores (numricos) da varivel resposta;

outra para o factor A (com a indicao dos seus nveis);

outra para o factor B (com a indicao dos seus nveis).

As frmulas utilizadas no
para indicar uma ANOVA a dois
Factores, sem interaco, so semelhantes s usadas na Regresso
Linear com dois preditores, devendo o nome dos dois factores ser
separado pelo smbolo +:
y

J. Cadima (ISA)

fA + fB

Estatstica e Delineamento

2010-11

314 / 429

Um exemplo
O rendimento de cinco variedades de aveia (manchuria,
svansota,velvet, trebi e peatland ) foi registado em seis diferentes
localidades 1 . Em cada localidade foi semeada uma e uma s parcela
com cada variedade (havendo casualizao em cada localidade).
> summary(aov(Y1 ~ Var + Loc, data=immer))
Df Sum Sq Mean Sq F value
Pr(>F)
Var
4 2756.6
689.2 4.2309
0.01214 *
Loc
5 17829.8 3566.0 21.8923 1.751e-07 ***
Residuals
20 3257.7
162.9

H alguma indicao de efeitos significativos entre variedades, e muita


entre localidades. E num modelo sem efeito de localidades (blocos)?
> summary(aov(Y1 ~ Var, data=immer))
Df Sum Sq Mean Sq F value Pr(>F)
Var
4 2756.6
689.2
0.817 0.5264
Residuals
25 21087.6
843.5
1 Dados em Immer, Hayes e LeRoy Powers, Statistical adaptation of barley varietal adaptation, Journal of the American
Society for Agronomy, 26, 403-419, 1934.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

315 / 429

Delineamentos no equilibrados
Se um delineamento no equilibrado, as frmulas do acetato 302, e
as que delas decorrem, no se aplicam.
possvel manter uma decomposio do tipo
SQT = SQA + SQB + SQRE
e justificar testes anlogos aos considerados nos acetatos (312) e
(313), mas de duas formas alternativas e diferentes:
Tomar
SQA = SQFA

SQB = SQREA SQREA+B

(6=SQFB )

SQA = SQREB SQREA+B

(6=SQFA )

Tomar
SQB = SQFB

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

316 / 429

Modelos com interaco


Um modelo ANOVA a 2 Factores, sem interaco, foi considerado
para um delineamento factorial, isto , em que se cruzam todos os
nveis de um e outro factor.
Um modelo sem efeitos de interaco utilizado sobretudo quando
existe uma nica observao em cada clula, i.e., nij = 1, i, j.
Na presena de repeties nas clulas, a forma mais natural de
modelar um delineamento com dois factores a de prever a existncia
de um terceiro tipo de efeitos: os efeitos de interaco.
A ideia incorporar na equao base do modelo para Yijk uma parcela
( )ij que permita que em cada clula haja um efeito especfico da
combinao dos nveis i do Factor A e j do Factor B:
Yijk = + i + j + ( )ij + ijk .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

317 / 429

Os valores esperados de Yijk


Vamos admitir as seguintes restries aos parmetros:

1 = 0 ;

1 = 0 ;

( )1j = 0 , j

( )i1 = 0 , i.

Tem-se:
Para a primeira clula (i = j = 1): E [Yijk ] = = 11 .
Nas restantes clulas (1, j) do primeiro nvel do Factor A:
E [Yijk ] = 11 + j .
Nas restantes clulas (i, 1) do primeiro nvel do Factor B:
E [Yijk ] = 11 + i .
Nas clulas genricas (i, j), com i > 1 e j > 1,
E [Yijk ] = 11 + i + j + ( )ij .
Os efeitos i e j designam-se efeitos principais de cada Factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

318 / 429

Variveis indicatrizes de clula


A verso vectorial do modelo com interaco associa os novos efeitos
( )ij a variveis indicatrizes de cada clula, exclundo, mais uma vez,
as clulas associadas ao primeiro nvel de qualquer factor.
A equao-base do modelo ANOVA a 2 Factores, com interaco, :
Y

1n + 2 IA2 + ... + a IAa + 2 IB2 + ... + b IBb +


+ ( )22 IA2 :B2 + ( )23 IA2 :B3 + ... + ( )ab IAa :Bb +

onde IAi :Bj representa a varivel indicatriz da clula correspondente


ao nvel i do Factor A e nvel j do factor B.
Existem neste modelo ab parmetros.
Cada indicatriz de clula da forma IAi :Bj = IAi IBj , com o operador
a indicar uma multiplicao, elemento a elemento, entre dois
vectores.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

319 / 429

Modelo ANOVA a 2 factores, com interaco (cont.)


O ajustamento deste modelo faz-se de forma anloga ao ajustamento
de modelos anteriores.
A matriz X do delineamento agora constituda por ab colunas:
uma coluna de uns, 1n , associada ao parmetro 11 .
a1 colunas de indicatrizes de nvel do factor A, IAi , (i > 1),
associadas aos parmetros i .
b1 colunas de indicatrizes de nvel do factor B, IBj , (j > 1),
associadas aos parmetros j .
(a1)(b1) colunas de indicatrizes de clula, IAi :Bj , (i, j > 1),
associadas aos efeitos de interaco ( )ij .
= HY, sendo H a matriz que projecta
Como em modelos anteriores, Y
ortogonalmente sobre o espao C (X) gerado pelas colunas desta
2.
matriz X. E tambm, SQREAB = kY Yk
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

320 / 429

Os trs testes ANOVA

Neste delineamento, desejamos fazer um teste existncia de cada


um dos trs tipos de efeitos:
H0 : ( )ij = 0 ,
H0 : i = 0 ,
H 0 : j = 0 ,

i = 2, ..., a , j = 2, ..., b ;

i = 2, ..., a ; e

j = 2, ..., b .

As estatsticas de teste para cada um destes testes obtm-se a partir


da decomposio da Soma de Quadrados Total em parcelas
convenientes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

321 / 429

O modelo ANOVA a dois factores, com interaco


Juntando os pressupostos necessrios inferncia,

Modelo ANOVA a dois factores, com interaco (Modelo MAB )


Existem n observaes, Yijk , nij das quais associadas clula (i, j)
(i = 1, ..., a; j = 1, ..., b). Tem-se:
1

2
3

Yijk = 11 + i + j + ( )ij + ijk , i=1,...,a ; j=1,...,b ; k =1,...,nij


(1 =0 ; 1 =0 ; ( )1j =0 , j; ( )i1 =0 , i).

ijk N (0 , 2 )
{ijk }i,j,k v.a.s independentes.

O modelo tem ab parmetros desconhecidos: 11 ; os a 1


acrscimos i (i > 1); os b 1 acrscimos j e os (a 1)(b 1) efeitos
de interaco ( )ij , para i > 1, j > 1.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

322 / 429

Testando efeitos de interaco


Para testar a existncia de efeitos de interaco,
H0 : ( )ij = 0 ,

i = 2, ..., a , j = 2, ..., b ,

pode efectuar-se um teste F parcial comparando o modelo


(Modelo MAB )

Yijk = 11 + i + j + ( )ij + ijk ,

com o submodelo
(Modelo MA+B )

Yijk = 11 + i + j + ijk ,

Designa-se Soma de Quadrados associada interaco diferena


SQAB = SQREA+B SQREAB

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

323 / 429

Testando os efeitos principais de cada Factor


Para testar os efeitos principais do Factor A
H0 : i = 0 ,

i = 2, ..., a

pode partir-se dos modelos


(Modelo MA+B )

Yijk

= 11 + i + j + ijk

(Modelo MB )

Yijk

= 11 + j + ijk ,

e tomar
SQA = SQREB SQREA+B
Nesse caso, pode ainda tomar-se
SQB = SQFB ,
associada ao QMF num teste aos efeitos do Factor B no Modelo MB .
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

324 / 429

A decomposio de SQT
Definimos :
SQAB = SQREA+B SQREAB
SQA = SQREB SQREA+B

SQB = SQFB

Somando estas Somas de Quadrados a SQREAB , obtm-se:


SQREAB + SQAB
+ SQA
{z + SQB} = SQT
|
= SQFAB

Esta decomposio de SQT gera as quantidades nas quais se


baseiam as estatsticas dos trs testes associados ao Modelo MAB .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

325 / 429

A decomposio alternativa de SQT


Alternativamente, para testar os efeitos principais do Factor B,
H0 : j = 0 , j = 2, ..., b , pode partir-se dos modelos
(Modelo MA+B )

Yijk

= 11 + i + j + ijk

(Modelo MA )

Yijk

= 11 + i + ijk ,

e tomar
SQB = SQREA SQREA+B
SQA = SQFA

Somando estas SQs a SQAB e SQREAB , obtm-se:


SQREAB + SQAB
+ SQA
|
{z + SQB} = SQT
= SQFAB

que uma decomposio de SQT alternativa.


J. Cadima (ISA)

Estatstica e Delineamento

2010-11

326 / 429

Delineamentos equilibrados

Quando o delineamento equilibrado, as duas decomposies dos


acetatos anteriores so iguais, pois nesse caso
SQA = SQREB SQREA+B

SQB = SQREA SQREA+B

SQFA

SQFB

Mas quando os delineamentos no so equilibrados, existem duas


formas alternativas de fazer os testes aos efeitos principais dos
factores, associados s duas possveis decomposies.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

327 / 429

O quadro-resumo

Com base nas decomposies dos acetatos 325 e/ou 326, podemos
construir o quadro resumo da ANOVA a 2 Factores, com interaco.
Fonte
Factor A

g.l.
a1

SQ
SQA

QM
QMA = SQA
a1

QMA
QMRE

Factor B

b1

SQB

QMB =

SQB
b1

QMB
QMRE

Interaco

(a 1)(b 1)

SQAB

Resduos
Total

n ab
n1

SQRE
SQT = (n 1) sy2

J. Cadima (ISA)

QMAB =

Estatstica e Delineamento

SQAB
(a1)(b1)

QMRE =

fcalc

QMAB
QMRE

SQRE
nab

2010-11

328 / 429

O Teste F aos efeitos de interaco


Sendo vlido o Modelo ANOVA a dois factores, com interaco:

Teste F aos efeitos de interaco


Hipteses: H0 : ( )ij = 0 i, j
vs.
H1 : i,j t.q. ( )ij 6= 0.
[NO H INTERACO] vs. [H INTERACO]
Estatstica do Teste: F =

QMAB
QMRE

Nvel de significncia do teste:

F((a1)(b1),nab)

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f ((a1)(b1),nab )

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

329 / 429

O Teste F aos efeitos principais do factor A


Sendo vlido o Modelo ANOVA a dois factores, com interaco
(delineamento equilibrado) tem-se ento:

Teste F aos efeitos principais do factor A


Hipteses: H0 : i = 0 i=2,...,a
[ EFEITOS DE A]
Estatstica do Teste: F =

QMA
QMRE

Nvel de significncia do teste:

vs.
vs.

H1 : i=2,..,a t.q. i 6= 0.
[ EFEITOS DE A]

F(a1,nab)

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (a1,nab)

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

330 / 429

O Teste F aos efeitos principais do factor B


Sendo vlido o Modelo ANOVA a dois factores, sem interaco
(delineamento equilibrado) tem-se ento:

Teste F aos efeitos principais do factor B


Hipteses: H0 : j = 0 j=2,...,b
[ EFEITOS DE B]
Estatstica do Teste: F =

QMB
QMRE

Nvel de significncia do teste:

vs.
vs.

H1 : j=2,..,b t.q. j 6= 0.
[ EFEITOS DE B]

F(b1,nab)

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (b1,nab)

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

331 / 429

ANOVA a dois Factores, com interaco no


Para efectuar uma ANOVA a dois Factor, com interaco, no
,
convm organizar os dados numa data.frame com trs colunas:
1

uma para os valores (numricos) da varivel resposta;

outra para o factor A (com a indicao dos seus nveis);

outra para o factor B (com a indicao dos seus nveis).

As frmulas utilizadas no
para indicar uma ANOVA a dois
Factores, com interaco, recorrem ao smbolo :
y

J. Cadima (ISA)

fA fB

Estatstica e Delineamento

2010-11

332 / 429

Estimao da interaco necessita de repeties

Para se poder estudar efeitos de interaco, necessrio que haja


repeties nas clulas.
Os graus de liberdade do SQRE so n ab. Se houver uma nica
observao em cada clula, tem-se n = ab, ou seja, tantos
parmetros quantas as observaes existentes.
Num delineamento com uma nica observao por clula
obrigatrio optar por um modelo sem interaco. Havendo repeties,
mais natural considerar um modelo com interaco.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

333 / 429

Valores ajustados de Y
Sejam
Y ij a mdia amostral das nij observaes da clula (i, j),
Y i a mdia amostral das j nij observaes do nvel i do
Factor A,
Y j a mdia amostral das i nij observaes do nvel j do
Factor B,
Y a mdia amostral da totalidade das n = i j nij
observaes.
ijk so iguais para todas as observaes numa
Os valores ajustados Y
mesma clula, e so dados por:
ijk = Y ij .
Y

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

334 / 429

A distribuio das mdias de clulas

As mdias de clula Y ij so calculadas com base em observaes


independentes e idnticamente distribudas, pois do modelo ANOVA a
2 Factores, com interaco, resulta que:
E [Yijk ] = 11 + i + j + ( )ij = ij ,
V [Yijk ] =

2,

Yijk N (ij , 2 ),

i, j, k.

i, j, k

i, j, k.

Yijk so independentes, porque os erros aleatrios so


independentes.
Logo, Y ij N (ij , 2 /nij ),

J. Cadima (ISA)

i, j.

Estatstica e Delineamento

2010-11

335 / 429

A distribuio das mdias de clulas (cont.)


Como Y ij N (ij , 2 /nij ), i, j, temos
Y ij ij
q
N (0, 1) .
2 /nij

Fazendo a usual substituio da varincia (desconhecida) dos erros


aleatrios, 2 , pelo seu estimador centrado QMRE , obtemos como
em casos anteriores, uma distribuio t-Student com graus de
liberdade iguais aos de QMRE :
p

Y ij ij
tnab .
QMRE /nij

A partir deste resultado, obtm-se ICs e estatsticas de teste para


inferncia sobre as mdias populacionais de clula, ij .
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

336 / 429

Testes de hipteses para a mdia ij da clula (i, j)


Sendo vlido o Modelo ANOVA a 2 Factores, com interaco, tem-se

Testes de Hipteses a ij = E[Yijk ]


Hipteses: H0 :

ij = c

Estatstica do Teste: T =

vs. H1 :

<
ij 6= c
>

=c

z}|{

Y ij ij |H0
r
QMRE
nij

tnab

sob H0 .

Nvel de significncia do teste:

Regio Crtica (Regio de Rejeio): Rejeitar H0 se


(Unilateral esquerdo)
Tcalc < t (nab)
|Tcalc | > t /2(nab)
(Bilateral)
Tcalc > t (nab)
(Unilateral direito)
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

337 / 429

Intervalos de confiana para mdias de clula

Um intervalo a (1 ) 100% de confiana para a mdia populacional


da clula (i, j), ij = E [Yijk ] :
#

y ij t /2 (nab)

J. Cadima (ISA)

QMRE
nij

y ij + t /2 (nab)

Estatstica e Delineamento

QMRE
nij

2010-11

"

338 / 429

ICs para mdias de clulas no


Uma vez que as mdias populacionais de clulas so os valores
esperados das observaes dessas clulas, possvel obter os ICs
agora indicados atravs do comando predict do
, como foi visto na
Regresso.
O comando para obter os ICs para cada ij da forma:
> predict(aov(y f1*f2,int="conf"))
1
2
3
4
5
6
7

fit
32.23333
32.23333
32.23333
53.60000
53.60000
53.60000
83.76667
...

lwr
27.28967
27.28967
27.28967
48.65634
48.65634
48.65634
78.82301
...

J. Cadima (ISA)

upr
37.17699
37.17699
37.17699
58.54366
58.54366
58.54366
88.71033
...
Estatstica e Delineamento

2010-11

339 / 429

Comparaes mltiplas de mdias de clulas

O nmero potencialmente grande de comparaes possveis entre


mdias de clula aconselha a utilizao de mtodos de comparao
mltipla, que permitam controlar globalmente o nvel de significncia
do conjunto de testes de hipteses (ou grau de confiana do conjunto
de intervalos de confiana).
O mais utilizado dos mtodos de comparao mltipla est associado
ao nome de Tukey. Foi j introduzido no estudo de delineamentos a 1
Factor. Adapta-se facilmente comparao mltipla de mdias de
clulas.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

340 / 429

O Teste de Tukey
Teste de Tukey para mdias de clulas
Admite-se que o delineamento equilibrado, com nc repetioes em
todas as ab clulas.
Rejeita-se a igualdade das mdias das clulas (i, j) e (i , j ), a favor da
hiptese ij 6= i j , se
|Y ij Y i j |

>

q (ab,nab)

QMRE
,
nc

sendo q (ab,nab) o valor que deixa direita uma regio de


probabilidade numa distribuio de Tukey com parmetros k = ab (o
nmero total de mdias de clula) e = n ab (os graus de liberdade
associados ao QMRE ).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

341 / 429

Intervalos de Confiana para ij i j

Com grau de confiana global (1 ) 100%, todas as diferenas de


mdias de pares de clulas, ij i j , esto em intervalos da forma:
h
i
q
q


QMRE

,
y ij y i j q (ab,nab) QMRE
y
y
+
q

(ab,nab)
ij
ij
nc
nc
Conclui-se que ij 6= i j se o intervalo correspondente a este par de
clulas no contm o valor zero.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

342 / 429

Tukey no

A obteno dos Intervalos de Confiana de Tukey no


, para a
diferena da mdia de clulas, no caso de um delineamento a dois
Factores, anlogo ao caso de um nico factor:
> TukeyHSD(aov(y fA * fB))
O
produz tambm intervalos de confiana para as mdias de nvel
de cada Factor isoladamente.
possvel representar graficamente estes Intervalos de Confiana
encaixando o comando anterior na funo plot.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

343 / 429

Estimadores de parmetros
Os estimadores dos parmetros num modelo ANOVA a 2 Factores,
com interaco, so:
11 = Y 11

i = Y i1 Y 11

j = Y 1j Y 11

(i > 1)
(j > 1)

)ij = (Y ij + Y 11 ) (Y i1 + Y 1j )
(

(i, j > 1).

Intervalos de confiana ou testes de hipteses para qualquer dos


parmetros individuais, ou combinaes lineares desses parmetros,
podem ser efectuados utilizando a teoria geral do Modelo Linear.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

344 / 429

Anlise dos Resduos

A validade dos pressupostos do Modelo relativos aos erros aleatrios


pode ser estudada de forma anloga ao que foi visto para um
delineamento a 1 Factor.
Os resduos relativos a uma mesma clula aparecem em ab colunas
ijk .
verticais num grfico de Eijk vs. Y
A hiptese de heterogeneidade de varincias entre diferentes clulas
pode ser testada recorrendo ao Teste de Bartlett, caso a dimenso da
amostra seja grande (e.g., nij 5 em todas as clulas).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

345 / 429

O Teste de Bartlett para delineamentos a dois factores


Teste de Bartlett homogeneidade de varincias
2 = 2 = ... = 2
Hipteses: H0 : 11
12
ab
[Varincias homogneas]

vs.

H1 : i,j,i ,j : ij2 6= i2 j
[Var. heterogneas]

Estatstica do Teste:
b

K =

(n ab) lnQMRE (nij 1) ln Sij2

onde C = 1 +

i=1 j=1

C
1
3(ab1)

"

i=1 j=1

1
nij 1

1
nab

2
ab1

Nvel de significncia do teste:


Regio Crtica (Regio de Rejeio): Unilateral direita
Rejeitar H0 se Kcalc > 2(ab1)
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

346 / 429

O Teste de Bartlett no

, para 2 Factores

No
, o comando bartlett.test apenas aceita a indicao de um
factor. Mas a extenso do teste de Bartlett s varincias de clulas
imediata se as ab clulas forem identificadas como ab nveis de 1
Factor.
Um comando que permite criar um vector que distinga entre clulas
definidas por factores fA e fB para posterior utilizao num teste de
Bartlett :
> celulas <-paste( fA , 0 , fB , sep=)
> bartlett.test( y celulas)

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

347 / 429

Uma advertncia
Na formulao clssica do modelo ANOVA a dois Factores, com
interaco, e a partir da equao-base Yijk = + i + j + ( )ij + ijk ,
em vez de impor as condies 1 = 1 = ( )i1 = ( )1j = 0 ( i, j),
admite-se a existncia de acrscimos de todos os tipos para qualquer
valor de i e j e impe-se as condies:
i i = 0;
j j = 0;
i ( )ij = 0 ,
j ( )ij = 0 ,

j;
i.

Esta condio alternativa:


muda a forma de interpretar os parmetros;
Muda os estimadores dos parmetros.
No muda o resultado dos testes F existncia de efeitos.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

348 / 429

Visualizao grfica de efeitos de interaco

A existncia de efeitos de interaco transparece em grficos onde:


O eixo horizontal associado aos nveis de um factor (e.g., fA);
o eixo vertical associado a valores (mdios) da varivel
resposta (Y );
para cada nvel do segundo factor (e.g., fB), indica-se um ponto
para cada nvel do primeiro factor e respectiva mdia de clula da
varivel resposta;
unem-se os pontos correspondentes a um mesmo nvel do
segundo factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

349 / 429

2.0

Exemplo (Dados do Exerccio 8 das prticas)

ambiente

1.6
1.4
1.0

1.2

mean of perda.peso

1.8

Amb.2
Amb.3
Amb.4
Amb.1

1 mes

2 meses

3 meses

tempo

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

350 / 429

Como ler os grficos de interaco

90

A inexistncia de interaco produz linhas paralelas


(ver exemplo da direita).
Havendo interaco, as linhas estaro longe de qualquer paralelismo
(ver exemplo da esquerda).

tempo.exposicao
120

110
90
80
70

30
T1

T2

T3

Golden.rain

temperatura

J. Cadima (ISA)

0.6cwt
0.4cwt
0.2cwt
0.0cwt

100

mean of Y

70
60
50
40

mean of absorcao$absorcao

80

E3
E2
E1

Victory
V

Estatstica e Delineamento

2010-11

351 / 429

Delineamentos factoriais a vrios factores


Um delineamento com observaes para todas as combinaes de
nveis de cada factor (clulas) designa-se um delineamento factorial.
Delineamentos factoriais podem ter qualquer nmero de factores.
Num delineamento factorial a trs factores A, B e C cada
observao da varivel resposta indexa-se com quatro ndices: Yijkl
indica a observao l no nvel i do Factor A, nvel j do Factor B e nvel
k do Factor C. A equao de base para Yijkl prev a existncia de sete
tipos de efeitos:
trs efeitos principais de cada factor, i , j e k .
trs efeitos de interaco dupla associados a cada combinao
de nveis de dois Factores diferentes: ( )ij , ( )ik e ( )kl .
um efeito de tripla interaco para as clulas onde se cruzam
nveis dos trs factores: ( )ijk

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

352 / 429

O modelo a trs factores


A equao de base do modelo agora da forma:
Yijkl = 111 + i + j + k + ( )ij + ( )ik + ( )jk + ( )ijk + ijkl ,
exclundo-se efeitos sempre que um dos ndices fr 1.
O modelo tem abc parmetros.
A Soma de Quadrados Total vai ser agora decomposta em oito
parcelas: SQA, SQB, SQC, SQAB, SQAC, SQBC, SQABC e SQRE .
As sete SQs associadas a efeitos so definidas pela diferena das
Somas de Quadrados Residuais de modelos onde se vo
sucessivamente omitindo os efeitos correspondentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

353 / 429

O modelo a trs factores (cont.)

Os graus de liberdade associados a cada tipo de efeito generalizam


conceitos anteriores:
Para as SQs de efeitos principais de factor, so os nmeros de
nveis, menos um: a 1, b 1 e c 1.

para as interaces duplas, so o produto dos graus de liberdade


de cada factor: (a 1)(b 1), (a 1)(c 1) e (b 1)(c 1).
para as interaces triplas, so o produto dos graus de liberdade
dos trs efeitos principais: (a 1)(b 1)(c 1).
para o residual, o nmero de observaes menos o nmero de
parmetros, n abc.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

354 / 429

O modelo a trs factores (cont.)

Haver sete testes: um para cada tipo de efeitos.


As estatsticas desses sete testes so todas do tipo
designa o tipo de efeitos em questo.

QMx
QMRE ,

onde x

As estatsticas desses testes tero, sob H0 , distribuio F com graus


de liberdade dados pelos g.l. do numerador e do denominador,
respectivamente.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

355 / 429

Um exemplo
No
, ANOVAs factoriais a 3 Factores fazem-se de forma anloga s
de dois factores:
> summary(aov(yield ~ N*P*K, data=npk))
Df Sum Sq Mean Sq F value Pr(>F)
N
1 189.28 189.28 6.1608 0.02454 *
P
1
8.40
8.40 0.2735 0.60819
K
1 95.20
95.20 3.0986 0.09746 .
N:P
1 21.28
21.28 0.6927 0.41750
N:K
1 33.14
33.14 1.0785 0.31448
P:K
1
0.48
0.48 0.0157 0.90192
N:P:K
1 37.00
37.00 1.2043 0.28870
Residuals
16 491.58
30.72

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

356 / 429

Delineamentos hierarquizados
Delineamentos que, superficialmente, podem confundir-se com os
delineamentos factoriais so delineamentos onde surgem dois (ou
mais) factores, mas em que os nveis de um dos factores variam
consoante os nveis do outro factor.
Por exemplo, considere uma varivel resposta rendimento de trigo,
que se pretende modelar com os factores variedade e adubao.
Suponha que
na variedade 1 as adubaes mais frequentes so X, Y e Z;
na variedade 2 as adubaes mais utilizadas so K, L e M.
Um delineamento factorial obriga a ter ab = 2 6 = 12 clulas,
sabendo-se de antemo que no interessam as clulas que
combinam a variedade 1 com as adubaes K,L,M e as clulas que
combinam a variedade 2 com as adubaes X,Y,Z.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

357 / 429

Delineamentos hierarquizados (cont.)

Uma alternativa considerar uma hierarquia dos factores: s


identificamos os nveis do factor adubo aps ter identificado o nvel do
factor variedade com que se trabalha. O nmero total de clulas ficou
reduzido a 3+3=6.

Variedade 1
Variedade 2

FACTOR A
(Variedade)

FACTOR B
(Adubacao)
X

Y Z

K L M

Um tal delineamento diz-se hierarquizado (nested , em ingls).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

358 / 429

O modelo a 2 Factores, hierarquizados


Cada observao representada por uma v.a com trs ndices, Yijk :
i nvel do factor dominante (i = 1, ..., a);
j nvel do factor subordinado (j = 1, ..., bi );
k repetio para a clula (i, j), com k = 1, ..., nij .
Nota: bi pode ser diferente para cada nvel i do factor dominante.
A equao base do modelo
Yijk = + i + j(i) + ijk ,
com 1 = 0 e 1(i) = 0, i. Aqui, j(1) pode ser diferente de zero
(excepto para j = 1).
No faz sentido falar em efeitos do nvel j do Factor B, sem especificar
qual o nvel do Factor A a que nos referimos. No faz sentido falar em
efeitos de interaco.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

359 / 429

Variveis indicatrizes e nmero de parmetros


Tal como em modelos anteriores, a cada parmetro associa-se uma
varivel indicatriz que identifica as observaes correspondentes.
Assim, teremos:
um parmetro 11 , associado coluna de uns, 1n .
(a 1) parmetros i , associados s indicatrizes IAi de cada
nvel i > 1 do Factor A.
a

(bi 1) parmetros j(i), associados s indicatrizes IBj(i) de

i=1

cada nvel j > 1 do Factor B, para i = 1, ..., a e j = 1, ..., bi .


Assim, o nmero total de parmetros :
a

1 + (a 1) + (bi 1) =
i=1

bi

i=1

Se o nmero bi de nveis do Factor B, em cada nvel i do Factor


A, fr sempre igual a b, haver ab parmetros no modelo.
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

360 / 429

Os valores esperados de Yijk


Tem-se:
Para a primeira clula (i = j = 1): E [Yijk ] = = 11 .
Nas restantes clulas (i = 1; j > 1) do primeiro nvel do Factor A:
E [Yijk ] = 11 + j(1) .
Nas clulas do primeiro nvel do factor B em cada nvel de A
excepto o primeiro (i > 1; j = 1): E [Yijk ] = 11 + i .
Nas clulas genricas (i, j), com i > 1 e j > 1,
E [Yijk ] = 11 + i + j(i).
Os efeitos i e j(i) designam-se efeitos de cada Factor, sendo os
efeitos do Factor subordinado (B) exclusivos do nvel do factor
dominante (nvel i) a que se referem.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

361 / 429

O modelo ANOVA a dois factores, hierarquizados


Juntando os pressupostos necessrios inferncia,

Modelo ANOVA a dois factores, hierarquizados (Modelo MA/B )


Seja A o Factor dominante e B o Factor subordinado.
Existem n observaes, Yijk , nij das quais associadas clula (i, j)
(i = 1, ..., a ; j = 1, ..., bi ). Tem-se:
1

2
3

Yijk = 11 + i + j(i) + ijk ,


(1 = 0 ; 1(i) = 0 , i).

i=1,...,a ; j=1,...,bi ; k =1,...,nij

ijk N (0 , 2 ) ,
i, j, k
{ijk }i,j,k v.a.s independentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

362 / 429

Os dois testes ANOVA


Neste delineamento, desejamos fazer um teste existncia de cada
um de dois tipos de efeitos:
H0 : i = 0 ,
H0 : j(i) = 0 ,

i = 2, ..., a ; e

i = 1, ..., a e j = 2, ..., bi .

As estatsticas de teste para cada um destes testes obtm-se a partir


da decomposio da Soma de Quadrados Total em parcelas
convenientes.
Como em delineamentos anteriores, as Somas de Quadrados
associadas a cada tipo de efeito resultam de tomar as diferenas das
Somas de Quadrados Residuais de modelos onde se vo
sucessivamente omitindo os efeitos correspondentes.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

363 / 429

A decomposio de SQT
Para efectuar a decomposio da Soma de Quadrados Total,
consideremos os modelos
(Modelo MA/B )
(Modelo MA )

Yijk = 11 + i + j(i) + ijk ,


Yijk = 11 + i + ijk ,

Designa-se Soma de Quadrados associada aos efeitos de B a


SQB(A) = SQREA SQREA/B
e Soma de Quadrados associada aos efeitos de A diferena
SQA = SQFA = SQT SQREA
Juntamente com SQREA/B , tem-se:
SQT = SQA + SQB(A) + SQREA/B
J. Cadima (ISA)

Estatstica e Delineamento

2010-11

364 / 429

Graus de liberdade

Os graus de liberdade associados a cada tipo de efeito so dados por:


g.l.(SQA) = a 1, o nmero de parmetros associados aos
efeitos de nvel de A.
a

g.l.[SQB(A)] = (bi 1), o nmero de parmetros associados


i=1

aos efeitos de nvel de B.


a

g.l.(SQRE ) = n bi , o nmero de observaes menos o


i=1

nmero total de parmetros do modelo.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

365 / 429

Quadro-resumo da ANOVA a 2 Factores


hierarquizados

g.l.
a1

SQ
SQA

(bi 1)

SQB(A)

Fonte
Factor A
Factor B(A)

QM
QMA = SQA
a1
QMB(A) =

i=1

SQB(A)
a

(bi 1)

fcalc
QMA
QMRE
QMB(A)
QMRE

i=1

Resduos

n bi

SQRE

QMRE =

n1

Total

J. Cadima (ISA)

SQT = (n 1) Sy2

Estatstica e Delineamento

SQRE
a

n bi
i=1

2010-11

366 / 429

O Teste F aos efeitos do factor A (dominante)


Sendo vlido o Modelo de ANOVA a dois factores hierarquizados,
tem-se:

Teste F aos efeitos do factor A (dominante)


Hipteses: H0 : i = 0 i=2,...,a
vs.
H1 : i=2,..,a t.q. i 6= 0.
[FACTOR A NO AFECTA] vs. [FACTOR A AFECTA Y ]
Estatstica do Teste: F =

QMA
QMRE

Nvel de significncia do teste:

F(a1,ni bi )

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (a1 ,ni bi )

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

367 / 429

O Teste F aos efeitos do factor B (subordinado)


Sendo vlido o Modelo de ANOVA a dois factores hierarquizado,

Teste F aos efeitos do factor B (subordinado)


Hipteses: H0 : j(i) = 0 j=2,...,bi , i=1,...,a vs. H1 : i,j t.q. j(i) 6= 0.
[FACTOR B NO AFECTA] vs. [FACTOR B AFECTA Y ]
Estatstica do Teste: F =

QMB(A)
QMRE

Nvel de significncia do teste:

F(i (bi 1),ni bi )

se H0 .

0.4

df(x, 4, 16)

0.3
0.2
0.1
0.0

Rejeitar H0 se
Fcalc > f (i (bi 1),ni bi )

0.5

0.6

0.7

Regio Crtica (Regio de Rejeio): Unilateral direita

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

368 / 429

ANOVA a dois Factores hierarquizados no


Para efectuar uma ANOVA a dois Factor hierarquizados no
,
convm organizar os dados numa data.frame com trs colunas:
1

uma para os valores (numricos) da varivel resposta;

outra para o factor A (com a indicao dos seus nveis);

outra para o factor B (com a indicao dos seus nveis).

As frmulas utilizadas no
para indicar uma ANOVA a dois
Factores, sem interaco, so semelhantes s usadas na Regresso
Linear com dois preditores, devendo o nome dos dois factores ser
separado pelo smbolo /. Se o factor fA dominante:
y

J. Cadima (ISA)

fA / fB

Estatstica e Delineamento

2010-11

369 / 429

Um exemplo
Um estudo sobre rendimentos (Y ), de vrias variedades de aveia
(factor V ), tendo sido usadas vrias adubaes azotadas (factor N),
mas nem sempre iguais para cada variedade.
> summary(aov(Y ~ V/N, data=oats))
Df Sum Sq Mean Sq F value
Pr(>F)
V
2 1786.4
893.2 1.7949 0.1749504
V:N
9 20342.2 2260.2 4.5421 0.0001397 ***
Residuals
60 29857.3
497.6
--Signif. codes: 0 ~***~ 0.001 ~**~ 0.01 ~*~ 0.05 ~.~ 0.1 ~ ~ 1

Neste caso, apenas o factor subordinado parece ter efeitos sobre a


varivel resposta.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

370 / 429

Comparaes mltiplas de mdias


Caso se conclua pela existncia de efeitos do factor subordinado,
natural querer comparar mdias da varivel resposta nas aj=1 bi
diferentes situaes experimentais.
Os testes/intervalos de confiana de Tukey podem ser utilizados, caso
o delineamento seja equilibrado, isto , se houver o mesmo nmero
de observaes em cada situao experimental.
Neste caso, os parmetros da distribuio de Tukey sero
a

o nmero de situaes experimentais, k = bi ; e


i=1

os graus de liberdade associados ao QMRE , = n bi .


i=1

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

371 / 429

Anlise de resduos

Tambm no que respeita anlise de resduos para validar os


pressupostos do modelo, a situao anloga de casos anteriores.
Pode efectuar-se um teste de Bartlett para testar a hiptese que as
a

varincias populacionais so iguais em cada uma das k = bi


i=1

diferentes situaes experimentais. A estatstica de teste e os graus


de liberdade da respectiva distribuio assinttica so iguais aos
casos anteriores (ver acetato 271), com este valor de k.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

372 / 429

Comentrios finais ANOVA


1. Outros tipos de delineamentos experimentais
Existem numerosos outros tipos de delineamentos experimentais mais
complexos.
Alguns delineamentos visam reduzir o nmero de situaes
experimentais que seria necessrio estudar (objectivo que tambm
pode motivar um delineamento hierarquizado). Entre estes,
refiram-se:
Os quadrados latinos; ou
os delineamentos em blocos incompletos.
Outros delineamentos visam ultrapassar dificuldades prticas na
execuo de uma experincia, como o caso dos delineamentos em
parcelas divididas (split plots).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

373 / 429

2. ANOVAs como comparao de k amostras

Alguns testes ANOVA generalizam os testes t de comparao de


mdias de duas amostras, estudados na disciplina de Estatstica,
para o caso de haver mais do que duas amostras.
Na disciplina de Estatstica estudaram-se testes para comparar:
As mdias de 2 populaes, com amostras independentes; e
As mdias de 2 populaes, com amostras emparelhadas.
Em ambos os casos efectuava-se um teste t.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

374 / 429

2. ANOVAs como comparao de k amostras (cont.)

A estatstica F do teste aos efeitos do factor, num modelo ANOVA


a 1 Factor com k = 2 nveis, o quadrado da estatstica t
diferena de mdias, no caso de amostras independentes.
A estatstica F do teste aos efeitos do Factor, num modelo
ANOVA a 1 Factor com blocos casualizados (i.e., sem interaco
e uma nica observao por clula), quando a = 2, o quadrado
da estatstica t diferena de mdias, no caso de amostras
emparelhadas.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

375 / 429

3. Comparaes mltiplas alternativas na ANOVA

A comparao de mltiplas mdias, que abordmos pela teoria de


Tukey, tem alternativas.
A alternativa mais conceituada baseia-se na teoria de Scheff. Produz
intervalos de confiana maiores (ao mesmo nvel (1 ) 100% de
confiana) do que os intervalos de Tukey.
Quer Tukey, quer Scheff, podem ser generalizados para obter
testes/intervalos de confiana sobre combinaes lineares genricas
das mdias de nvel ou de clulas. Neste caso, a teoria de Scheff
tem melhor desempenho.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

376 / 429

4. A correco de Bonferroni

Outra alternativa a Tukey consiste em efectuar testes de hipteses


usuais para comparar duas mdias, mas reduzir o nvel de
significncia para cada teste individual de comparao de mdias, de
forma a garantir que o nvel de significncia global no exceda .
Equivalentemente, aumenta-se o grau de confiana de cada intervalo
de confiana individual para a diferena de mdias, de forma a
garantir que o grau de confiana global no fique abaixo de 1 .
As alteraes nos graus de confiana/nveis de significncia
baseiam-se na desigualdade de Bonferroni.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

377 / 429

4. A desigualdade de Bonferroni
Admita que se pretendem efectuar r comparaes de mdias, atravs
de ICs, e que se deseja um grau de confiana global 1 .
Seja Aj o acontecimento aleatrio o j-simo intervalo contm a
verdadeira diferena de mdias populacionais,
e 1 j a respectiva
"
#
r
T

probabilidade. Queremos que P

j=1

"

r
\

Aj

j=1

= 1P

"

r
[

Aj

j=1

Aj exceda 1 . Ora,
r

j=1

j=1

1 P[Aj ] = 1 j .

Logo, desde que se escolha j = , tem-se a garantia de um grau


j=1

de confiana global de pelo menos 1 . O usual escolher j = /r .

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

378 / 429

4. A correco de Bonferroni (cont.)


A correco de Bonferroni aplicvel em qualquer situao onde se
deseje efectuar vrios testes de hipteses/intervalos de confiana e se
pretende controlar o nvel de significncia/grau de confiana global.
aplicvel mesmo quando os delineamentos no so equilibrados.
Inconveniente: para r grande, exige valores muito pequenos para /r .
Por exemplo, para r = 10 comparaes, um nvel global = 0.05 s se
garante se cada comparao fr ao nvel /10 = 0.005.
(NOTA: Trata-se de uma desigualdade, pelo que poderia no ser
necessrio reduzir tanto o valor de j em cada caso individual, mas
no o sabemos).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

379 / 429

5. Mtodos no paramtricos de tipo ANOVA


Uma forma alternativa de estudar problemas anlogos aos objectivos
de ANOVAs resulta da utilizao de mtodos no paramtricos.
Mtodos no paramtricos so mtodos em que no se exigem
hipteses to fortes como os mtodos clssicos, (e.g., a hiptese de
normalidade). A sua maior generalidade tem como contrapartida uma
menor capacidade de rejeitar as hipteses nulas caso elas sejam
falsas (i.e., tm menor potncia), quando os pressupostos adicionais
dos mtodos clssicos so vlidos.
Embora nem sempre, com grande frequncia os mtodos no
paramtricos substituem os valores observados da varivel resposta
pelas ordens (ranks) dessas observaes. As estatsticas de teste so
ento funes dessas ordens.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

380 / 429

5. Mtodos no paramtricos de tipo ANOVA (cont.)

O teste de Kruskal-Wallis uma alternativa no paramtrica ANOVA


a 1 Factor, em que:
Cada observao substituda pela sua ordem;
A estatstica de teste compara as ordens mdias em cada nvel
do factor com a ordem mdia global.
A hiptese nula que nos vrios nveis do factor as observaes
seguem a mesma distribuio.
A hiptese alternativa que a distribuio dos vrios nveis difere
apenas nas suas localizaes (medianas).

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

381 / 429

5. Mtodos no paramtricos de tipo ANOVA (cont.)


O teste de Friedman uma alternativa no paramtrica ANOVA a 1
Factor, com blocos casualizados, ou seja, a dois Factores, sem
interaco, nem repeties nas clulas, em que:
Cada observao substituda pela sua ordem no seio do seu
bloco;
A estatstica de teste compara as ordens mdias em cada nvel
do factor com a ordem mdia global.
A hiptese nula que nos vrios nveis do factor as observaes
seguem a mesma distribuio, excepto devido a translaes
associadas a cada bloco.
A hiptese alternativa que a distribuio dos vrios nveis difere
tambm devido a translaes associadas aos nveis do factor.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

382 / 429

5. Pontes entre ANOVAs e mtodos no paramtricos

Em ambos os casos, as estatsticas de teste podem ser escritas como


funes das Somas de Quadrados usuais, aplicadas s ordens, em
vez de aos valores observados de Y .
Os mtodos no paramtricos so uma alternativa vivel quando haja
violao grave dos pressupostos dos modelos ANOVA clssicos.

J. Cadima (ISA)

Estatstica e Delineamento

2010-11

383 / 429

Das könnte Ihnen auch gefallen