Beruflich Dokumente
Kultur Dokumente
INTRODUÇÃO
Exemplos
Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D.
Pretende-se saber se existem diferenças significativas nos tratamentos no que
diz respeito ao tempo necessário para eliminar a doença.
...
ANÁLISE DE VARIÂNCIA
Sejam X1, X2, ..., Xk as variáveis aleatórias que representam tal característica nas
populações 1, 2, ...,k, respectivamente.
Hipóteses a testar:
H0: P1 = P2 = ... = Pk
H1: Pi z Pj para algum i e algum j tais que i z j.
2
ANÁLISE DE VARIÂNCIA
Exemplo
Para curar uma certa doença existem quatro tratamentos possíveis: A, B, C e D.
ANÁLISE DE VARIÂNCIA
Exemplo
Suponhamos agora que existe a suspeita de que uma estação quente é um factor
determinante para uma cura rápida.
Então, o estudo deve ser conduzido tendo em conta este segundo factor, Estação do
Ano.
Aqui, a técnica estatística apropriada será a análise de variância com dois factores,
também designada por "two-way ANOVA".
Neste caso, pode-se testar se existe diferença entre os tratamentos e também se existe
diferença entre as estações do ano, no que respeita ao tempo de tratamento até à
eliminação da doença.
4
ANÁLISE DE VARIÂNCIA
ANÁLISE DE VARIÂNCIA COM UM FACTOR
Exemplo 1
O Sr. Fernando Estradas é dono de várias lojas que vendem todo o tipo de material para
desportos radicais. Para uma determinada loja foram recolhidas três amostras aleatórias e
independentes das vendas semanais (em u.m.); cada uma destas amostras constituída por
cinco observações (vendas em 5 semanas, n=5).
Dados recolhidos:
Amostra 1 Amostra 2 Amostra 3
49 52 55
55 51 51
51 55 52
52 58 52
48 49 50
X 51 53 52 Æ3 valores observados da v. a. X
ANÁLISE DE VARIÂNCIA
Exemplo 1
Naturalmente, obtivemos nas três amostras volumes de vendas médios diferentes, o que
se deve, como sabemos, às flutuações amostrais.
A variação de X , de amostra para amostra, pode ser medida pela sua variância:
V X2
V X2 .
n
Em geral,
6
ANÁLISE DE VARIÂNCIA
Exemplo 1
Calculamos a média dos valores observados de X a média das médias amostrais:
51 53 52
x 52 (estimativa)
3
1 k
Usámos o estimador: X ¦ Xi (onde k é o número de amostras)
ki 1
s 2X
1
3 1
>51 522 53 522 52 522 @ 1
2
1 1 0 1 (estimativa)
2
1 k
Usámos o estimador: S X2
¦ Xi X
k 1i 1
ANÁLISE DE VARIÂNCIA
Exemplo 2
Suponhamos agora, que o Sr Fernando Estradas pretende comparar três lojas quanto ao
volume de vendas.
Para isso, para cada loja, ele selecciona aleatoriamente cinco semanas, onde observa o
volume de vendas. Obtém assim uma amostra das vendas semanais para cada loja (as
três amostras são independentes). Os dados estão registados na tabela seguinte.
Loja 1 Loja 2 Loja 3
47 55 54
53 54 50
49 58 51
50 61 51
46 52 49
X i (médias amostrais) x1 = 49 x2 = 56 x3 = 51 x = 52
X i X 2 9 16 1 2
¦ xi x = 26
8
ANÁLISE DE VARIÂNCIA
Exemplo 2
Representemos por Xi o volume de vendas numa semana na loja i (i = 1,2,3) e por P i o
valor médio de Xi.
Este exemplo tem apenas um factor de interesse, o factor Loja, e este apresenta três
níveis ou grupos: Loja 1, Loja 2 e Loja 3.
Pretende-se saber se as médias dos três níveis, ou populações, são iguais, isto é,
pretende-se saber se é de rejeitar ou não a hipótese
ANÁLISE DE VARIÂNCIA
Exemplo 2
Questão:
Serão as médias amostrais x1 =49, x2 =56 e x3 =51 diferentes porque há diferenças entre
as médias populacionais P1, P 2 e P 3 ?
10
ANÁLISE DE VARIÂNCIA
Suponhamos que, de facto, as vendas médias das três lojas são iguais, isto é P1 = P 2 = P 3 .
Admitindo a independência entre os três testes e fixando para cada teste um nível de
significância de 0.05, o nível de significância para o conjunto dos três testes, isto é, a
probabilidade de decidirmos erradamente que as três médias não são iguais quando de
facto o são, seria aproximadamente 0.1426.
ANÁLISE DE VARIÂNCIA
12
ANÁLISE DE VARIÂNCIA
P
Distribuições populacionais quando H0 é verdadeira (P1=P2=P3=P).
13
ANÁLISE DE VARIÂNCIA
As médias das populações não são iguais, ou seja pelo menos duas lojas têm volumes
de vendas médios diferentes. As amostras recolhidas provêm de populações
diferentes.
P3 P1 P2
Distribuições populacionais quando H0 é falsa (as médias não são todas iguais).
14
ANÁLISE DE VARIÂNCIA
Note que é suposto que V 12 V 22 V k2 V .2
Como todas as amostras são extraídas de populações com a mesma variância V 2 , então,
para estimar este parâmetro, poderíamos utilizar qualquer uma das amostras. Assim,
poderíamos obter k estimativas de V 2 , uma por cada amostra.
15
ANÁLISE DE VARIÂNCIA
Exemplo 2
Temos as seguintes estimativas de V 2 :
s12
1
5 1
>47 492 53 492 49 492 50 492 46 492 7.5 @
s 22
1
5 1
>55 562 54 562 58 562 61 562 52 562 12.5@
s32
1
5 1
> @
54 512 50 512 51 512 51 512 49 512 3.5 .
s12 s 22 s32
s 2p 7.83
3
16
ANÁLISE DE VARIÂNCIA
O que fizemos foi combinar as três estimativas anteriores, de modo a produzir uma outra
estimativa que use a informação contida nas três amostras recolhidas.
s12 s 22 s k2
s 2p
k
onde,
si2 Æ variância amostral da amostra i.
Note que esta estimativa não é afectada pela veracidade ou falsidade de H0, o que já não
acontece com a que iremos obter pelo processo seguinte.
17
ANÁLISE DE VARIÂNCIA
Distribuição populacional: X ~ N ( P , V 2 )
18
ANÁLISE DE VARIÂNCIA
Os valores médios observados nas três amostras, x1 , x 2 e x 3 , podem ser encarados como
três valores observados de uma v. a. X ~ N ( P , V 2 / n) .
V2
V X2 V2 n.V X2 ,
n
sb2 n.s 2X ,
com
2
1 k
s X2 ¦ xi x Æ estimativa de V X .
2
k 1i 1
19
ANÁLISE DE VARIÂNCIA
Se H0 for falsa
Pelo menos duas distribuições populacionais são diferentes. Isto é, as variáveis aleatórias
Xi têm distribuições normais, com iguais variâncias, mas, pelo menos duas, têm médias
diferentes.
Então também X 1 , X 2 e X 3 , vão ter distribuições diferentes:
X 1 ~ N ( P1 ,V 2 / n) , X 2 ~ N ( P 2 ,V 2 / n) e X 3 ~ N ( P 3 ,V 2 / n) ,
P3 P1 P2
20
ANÁLISE DE VARIÂNCIA
Exemplo 2:
s X2
1
3 1
>49 522 56 522 51 522 @ 26
2
13
sb2 n.s X2 5 u 13 65 .
21
ANÁLISE DE VARIÂNCIA
ESTATÍSTICA DE TESTE – F
H0.
A estatística de teste é,
n.S X2 S b2
F .
S 2p S 2p
22
ANÁLISE DE VARIÂNCIA
Se H0 for falsa, as diferenças nas médias populacionais P1, P 2 e P3 vão provocar maior
n.S X2 S b2
F ~ Fkk(n11) .
S 2p S 2p
23
ANÁLISE DE VARIÂNCIA
P Fkk(n11) t pc D = nível de significância.
24
ANÁLISE DE VARIÂNCIA
Exemplo 2
Vamos ver o que podemos concluir ao nível de significância de 0.05.
Se a hipótese H0 é verdadeira,
S b2
F ~ F122 .
S 2p
F1D ,2,12 3.89 (quantil de probabilidade 1-D da distribuição F122 )
R.C.=[3.89,+f[
65
O valor observado da estatística F é: Fobs 8.3 R.C.
7.83
Então a hipótese H0 é rejeitada ao nível de significância de 0.05, isto é, existem
diferenças significativas entre as médias amostrais das vendas. Há portanto evidência de
que existem pelo menos duas lojas com volumes médios de vendas diferentes. Por outras
palavras, o factor Loja exerce uma influência significativa sobre o volume de vendas.
25
ANÁLISE DE VARIÂNCIA
TABELA DE ANÁLISE DE VARIÂNCIA (ANOVA)
Amostra ( j )
1 2 3 ... k
x11 x12 x13 ... x1k
Observações ( i ) x21 x22 x23 ... x2k
x31 x32 x33 ... x3k
26
ANÁLISE DE VARIÂNCIA
Os cálculos para a análise de variância podem ser sumariados numa tabela chamada
Tabela ANOVA:
j 1i 1
27
ANÁLISE DE VARIÂNCIA
Note que:
n n n
2 2 2
¦ xi1 x1 ¦ xi 2 x2 ¦ xik xk
i 1
i 1
i 1
s 2p s12 s22 sk2 n 1 n 1 n 1
k k
k n
¦ ¦ xij x j
2
j 1i 1 SS E
= MSE
k (n 1) k (n 1)
e,
k
¦ x j x
2
s b2 j 1 SS A
n.s X2 = n u = MSA
k 1 k 1
28
ANÁLISE DE VARIÂNCIA
k n
SST= ¦ ¦ xij x 2
j 1i 1
Æ é a soma de quadrados total e mede a variação total nos dados;
29
ANÁLISE DE VARIÂNCIA
30
ANÁLISE DE VARIÂNCIA
x n j nº de observações na amostra j
x k nº de amostras
k
x N ¦ j 1n j (total de observações)
k ni k
¦ ¦ xij ¦njxj
j 1i 1 j 1
x x média ponderada das médias amostrais
n1 n2 nk n1 n2 nk
31
ANÁLISE DE VARIÂNCIA
Soma média de quadrados entre grupos Soma média de quadrados dentro dos grupos ou
residual
k
¦ n j x j x k nj
2
¦ ¦ xij x j
2
j 1 SS A
MSA= . j 1i 1 SS E
k 1 k 1 MSE .
n1 n2 nk k N k
j 1i 1
32
ANÁLISE DE VARIÂNCIA
Exemplo 3
Suponha que é director de marketing de uma empresa que pretende relançar um produto
no mercado. Você estudou três campanhas de marketing diferentes, cada uma deles
combina de modo diferente factores como o preço do produto, a apresentação do
produto, promoções associadas, etc. Qualquer uma destas campanhas é levada a cabo no
ponto de venda, não havendo qualquer publicidade nos meios de comunicação. Para
saber se há diferença entre as três campanhas relativamente à sua eficácia, cada uma
delas é feita num conjunto de lojas seleccionadas aleatoriamente, durante um período de
duração limitada. Note que as lojas são seleccionadas de modo a que as três amostras
sejam aleatórias e independentes entre si. As vendas (em unidades monetárias – u. m.)
registadas durante este período constam da tabela seguinte.
33
ANÁLISE DE VARIÂNCIA
Seja Xi a v.a. que representa o volume de vendas de uma loja sujeita à campanha i
(i=1,2 ou 3).
Admitamos que X1, X2 e X3 têm distribuição normal com iguais variâncias.
34
ANÁLISE DE VARIÂNCIA
As hipóteses em teste são:
H0: P1= P 2 = P3
(não há diferença entre as campanhas de marketing relativamente ao volume médio
de vendas a que conduzem)
H1: Pi z P j para algum i e algum j tais que izj
(pelo menos duas campanhas de marketing conduziram a volumes médios de
vendas diferentes)
R.C.=[6.36,+f[
35
ANÁLISE DE VARIÂNCIA
22.015
O valor observado da estatística F é: Fobs 10.9174 R.C.
2.0165
36
ANÁLISE DE VARIÂNCIA
37
ANÁLISE DE VARIÂNCIA
Existem muitos testes deste tipo, no entanto, aqui vamos abordar apenas dois:
teste HSD (honestly significant difference) de Tuckey
teste de Scheffé
Estes testes permitem examinar simultaneamente pares de médias amostrais
para identificar quais os pares onde se registam diferenças significativas.
38
ANÁLISE DE VARIÂNCIA
Pressupostos:
1. As amostras devem ser aleatórias e independentes.
2. As amostras devem ser extraídas de populações normais.
Notação:
k
N = ¦nj
j 1
k nj
¦ ¦ xij x j
2
j 1i 1 SS E
MSE
n1 n2 nk k N k
39
ANÁLISE DE VARIÂNCIA
TESTE HSD DE TUCKEY
Quando as amostras têm tamanhos iguais este teste é mais adequado do que o teste de
Scheffé.
O teste HSD de Tuckey foi originalmente desenvolvido para amostras de igual tamanho,
no entanto, muitos estatísticos sustentam que este é um método robusto a desvios
moderados deste pressuposto.
Neste teste, duas médias amostrais são comparadas usando
MS E §¨ 1 1 ·¸
ST (1D ) .
2 ¨© ni n j ¸¹
onde, ST (1D ) é o quantil de probabilidade (1-D) da distribuição da “Studentized Range”
P W d ST (1D ) 1 D , W ~ ST (k , N - k) .
40
ANÁLISE DE VARIÂNCIA
significativamente diferentes, se
MS E §1 1 ·
xi x j t S T (1D ) . ¨ ¸.
2 ¨n n ¸
© i j ¹
Exemplo 2
x1 x2 49 56 7
x1 x3 49 51 2
x2 x3 56 51 5
41
ANÁLISE DE VARIÂNCIA
MS E §¨ 1 1 ·¸ 7.83 2
ST (1D ) . = 3.77 u = 4.718
2 ¨© ni n j ¸¹ 2 5
Assim, há evidência de que a loja 2 tem um volume médio de vendas diferente das lojas
1 e 3. Isto é, a média observada para a loja 2 difere significativamente das médias
observadas para as lojas 1 e 3, enquanto que, a diferença registada entre o volume de
vendas da loja 1 e da loja 3 não é significativa.
42
ANÁLISE DE VARIÂNCIA
TESTE SCHEFFÉ
Neste teste a hipótese nula H0: Pi = Pj é rejeitada se
§1 1·
xi x j t (k - 1)F(1-D ) . MS E ¨ ¸
¨n n ¸
© i j¹
P FNk 1k d F(1D ) 1D
Exemplo 3
x1 x2 6.4 9.5714 3.1714
ANÁLISE DE VARIÂNCIA
§1 1·
x x1 x2 MS E ¨ ¸ =
3.1714> ( k 1) F(1D ) .
¨n n ¸
© i j¹
§1 1·
= 2 u 6.36 . 2.0165¨ ¸ =2.97, o rejeita-se a hipótese H0: P1= P2;
©5 7¹
§1 1·
x x1 x 3 0.0667< 2 u 6.36 . 2.0165¨ ¸ =3.0667 o não se rejeita H0: P1= P3;
©5 6¹
§1 1·
x x 2 x3 3.2318 > 2 u 6.36 . 2.0165¨ ¸ =2.8177, o rejeita-se H0: P2= P3.
©7 6¹
44
ANÁLISE DE VARIÂNCIA
TESTES PARA A COMPARAÇÃO ENTRE K VARIÂNCIAS
TESTE DE BARTLETT
Este teste tem como pressuposto que as populações tenham distribuição normal.
Além disso, só é aplicável quando as diferentes amostras envolvidas tenham dimensões
nj não inferiores a quatro ( n j t 4 , para todo o j).
45
ANÁLISE DE VARIÂNCIA
1ª k º sobH 0
Estatística de teste: B 2
¦ (n j 1) ln ~ F k21
«( N k ) ln S p
C «¬
S 2j »
j 1 ¼»
onde,
k
N= ¦ n j
j 1
1 n j
S 2j ¦ ( X ij X j )
2
n j 1i 1
k
1
S 2p
N k
¦ (n j 1) S 2j
j 1
1 ªk 1 1 º
C 1 « ¦ »
3(k 1) ¬« j 1n j 1 N k »¼
Ao nível de significância de 0.01, não se pode rejeitar a hipótese de que as três variáveis
populacionais tenham iguais variâncias.
47