Sie sind auf Seite 1von 135

Universidade de Lisboa

Faculdade de Motricidade Humana


Secção de Métodos Matemáticos

Tópicos de Estatística

Texto de apoio para a unidade curricular de Estatística II, do 2º ano,

das licenciaturas em Ciências do Desporto e Ergonomia

Paula Marta Bruno, Ana Isabel Carita, Ana Diniz, Inês Gonçalves, Júlia Teles

Lisboa, setembro de 2018


Índice

7 Inferência estatística para duas populações


7.1. Introdução ............................................................................................................... 1
7.2. Amostras independentes .......................................................................................... 2
7.2.1. Inferência paramétrica para a diferença de valores médios ........................... 2
7.2.2. Inferência paramétrica para o quociente de variâncias ............................... 12
7.2.3. Teste de Wilcoxon-Mann-Whitney ............................................................. 15
7.3. Amostras emparelhadas......................................................................................... 18
7.3.1. Introdução .................................................................................................. 18
7.3.2. Inferência paramétrica para a diferença de valores médios ......................... 19
7.3.3. Teste de Wilcoxon ...................................................................................... 23
7.4. Ilustrações com SPSS .............................................................................................. 28

8 Inferência estatística para mais de duas populações com base em amostras


independentes
8.1. Introdução ............................................................................................................. 35
8.2. Análise de variância simples .................................................................................. 36
8.3. Validação de pressupostos da ANOVA simples........................................................ 42
8.4. Teste de Kruskal-Wallis ........................................................................................ 44
8.5. Ilustrações com SPSS .............................................................................................. 47

9 Inferência estatística para mais de duas populações com base em medidas


repetidas
9.1. Introdução ............................................................................................................. 53
9.2. Análise de variância simples para medidas repetidas ............................................ 54
9.3. Validação de pressupostos da ANOVA simples para medidas repetidas .................. 60
9.4. Teste de Friedman ................................................................................................ 61
9.5. Ilustrações com SPSS .............................................................................................. 64
10 Inferência estatística sobre proporções
10.1. Introdução ............................................................................................................. 71
10.2. Inferência sobre a proporção ................................................................................. 72
10.3. Inferência para a diferença de proporções com base em amostras independentes .. 77
10.4. Ilustrações com SPSS .............................................................................................. 82

11 Testes do qui quadrado


11.1. Introdução ............................................................................................................. 83
11.2. Testes de ajustamento ........................................................................................... 83
11.3. Testes de independência em tabelas de contingência ............................................. 87
11.4. Testes de homogeneidade em tabelas de contingência ........................................... 91
11.5. Ilustrações com SPSS .............................................................................................. 94

12 Regressão linear
12.1. Introdução ............................................................................................................. 99
12.2. Regressão linear simples ....................................................................................... 100
12.2.1. Modelo ....................................................................................................... 105
12.2.2. Inferência estatística sobre os coeficientes de regressão ............................. 105
12.2.3. Validação de pressupostos ......................................................................... 111
12.3. Regressão linear múltipla ..................................................................................... 111
12.3.1. Modelo ....................................................................................................... 111
12.3.2. Inferência estatística sobre os coeficientes de regressão ............................. 115
12.3.3. Validação de pressupostos ......................................................................... 117
12.3.4. Métodos stepwise para seleção de variáveis ............................................... 118
12.4. Ilustrações com SPSS ............................................................................................. 120

Bibliografia
Capítulo 7
Inferência estatística para duas populações

7 Inferência estatística para duas populações

7.1. Introdução

Neste capítulo vamos apresentar intervalos de confiança e testes de hipóteses para a


diferença de valores médios populacionais, quer com base em amostras independentes
quer em amostras emparelhadas. Vamos também apresentar intervalos de confiança e
testes de hipóteses para o quociente de variâncias populacionais, para amostras
independentes provenientes de populações normais.

Os métodos de inferência paramétrica para a comparação dos valores médios de duas


populações têm alguns pressupostos que quando não são verificados nos remetem para a
utilização de métodos não paramétricos, como é o caso do teste de
Wilcoxon-Mann-Whitney e do teste de Wilcoxon.

Alguns dos métodos de inferência apresentados são ilustrados através de aplicações com
o software estatístico SPSS.
Estatística II

7.2. Amostras independentes

7.2.1. Inferência paramétrica para a diferença de valores


médios

Sejam X11, X12, , X1n1  e X 21, X 22, , X 2n2  duas amostras aleatórias independentes, de
dimensões n1 e n2 , provenientes de duas populações X1 e X 2 , com E X1   1 e
E X 2   2 , respetivamente.
Uma estimativa pontual para 1  2 é x 1  x 2 .

Populações com distribuição normal e desvios padrões


conhecidos

Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 conhecidos.


Nestas condições, as distribuições das médias amostrais são
     
 
X1  N 1, 1  e X 2  N 2, 2  .
 n1   n2 

Tendo em conta que a diferença entre variáveis aleatórias normais independentes tem
distribuição normal e que
E X1  X 2   E X1   E X 2   1  2
e
12 22
var X1  X 2   var X1   var X 2    ,
n1 n2
então a distribuição da diferença entre médias amostrais é
 2 2 
X1  X 2  N 1  2, 1  2  ,
 n1 n2 

o que é equivalente a

X1  X2   1  2 
Z  N 0,1 .
12 22

n1 n2

Conhecendo a distribuição de Z , podemos usar esta variável aleatória como estimador e


deduzir um intervalo a 1    100% de confiança para 1  2 .
Na construção de intervalos de confiança e testes de hipóteses para a diferença entre
valores médios procede-se de forma análoga à realizada para uma população.

2
Inferência estatística para duas populações

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 12 22 12 22 


 x x z
 1 2 1 /2
 , x1  x 2   z1 /2  
 n1 n2 n1 n2 
 

em que z1 / 2 é o quantil de probabilidade 1   / 2 da distribuição normal


standard.

Testes de hipóteses para a diferença entre valores médios 1  2

Para avaliar a igualdade entre valores médios, realiza-se o teste de hipóteses


H0 : 1  2 vs H1 : 1  2
ou, de forma equivalente,
H0 : 1  2  0 vs H1 : 1  2  0 .
Mais geralmente, pode ter interesse considerar
H0 : 1  2  0 vs H1 : 1  2  0 .

Hipóteses a testar:
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0

Estatística de teste:

X1  X2   0
Z 
12 22

n1 n2
que, sob a validade de H0 , tem distribuição N 0,1 .

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : 1  2  0 vs H1 : 1  2  0 | z |  z1 / 2
H0 : 1  2  0 vs H1 : 1  2  0 z  z1
H0 : 1  2  0 vs H1 : 1  2  0 z  z1

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor


observado da estatística de teste Z .

3
Estatística II

Exemplo 7.1
Admite-se que as alturas (em metros) de indivíduos adultos do sexo masculino em
dois países P1 e P2 seguem distribuições normais com valores médios 1 e 2 ,
respetivamente, e a mesma variância  2  0.0064 m2 . A informação obtida em
duas amostras independentes recolhidas nos referidos países é
n1  18, x1  1.68 m e n2  15, x 2  1.71 m .

a) Teste, para um nível de significância   0.05 , se existe diferença significativa


entre os valores médios.
b) Obtenha um intervalo a 95% de confiança para 1  2 .

Resolução:
Sejam as variáveis aleatórias:
X1 – altura de um indivíduo adulto do sexo masculino no país P1 ,
X 2 – altura de um indivíduo adulto do sexo masculino no país P2 .
X1  N 1, 0.08 , X 2  N 2, 0.08 , X1 e X 2 independentes.

a) Pretendemos testar as hipóteses:


H0 : 1  2 vs H1 : 1  2
o que é equivalente a testar
H0 : 1  2  0 vs H1 : 1  2  0 .
Calculamos o valor observado da estatística de teste,
x1  x 2  0 1.68  1.71
z   1.073 .
12 22 0.0064 0.0064
 
n1 n2 18 15

Considerando   0.05 e consultando a tabela da distribuição normal


standard,
| z |  1.073  z 0.975  1.96
e assim não rejeitamos a hipótese nula para   0.05 , ou seja, não é de admitir
que existe diferença significativa entre os valores médios da altura dos
indivíduos adultos do sexo masculino nos dois países.

b) O intervalo a 95% de confiança para 1  2 é dado por


 12 22 12 22 
 x x z
 1 2 0.975
 , x1  x 2   z 0.975  ,
 n1 n2 n1 n2 

portanto

4
Inferência estatística para duas populações

 
   18 15
 18

 1.681.71  1.96 0.0064  0.0064 , 1.681.71  1.96 0.0064  0.0064
15
,

 
donde obtemos o intervalo 0.085 , 0.025 .
 

Nota:
Num teste de hipóteses bilateral,
H0 : 1  2  0 vs H1 : 1  2  0
não rejeitamos a hipótese nula, ao nível de significância  , se e só se o intervalo a
100  1   % de confiança para 1  2 contém o ponto 0.

Populações com distribuição normal e desvios padrões


desconhecidos

Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 desconhecidos.


O modo como é feita a inferência sobre a diferença de valores médios depende do facto
de podermos ou não admitir como válida a suposição de igualdade de variâncias. Temos
então que considerar duas situações distintas. A primeira situação corresponde a admitir
que as variâncias populacionais (ou desvios padrões) são iguais e a segunda situação
corresponde a admitir que as variâncias populacionais (ou desvios padrões) são distintas.

• 1ª situação: se pudermos admitir que 1  2   , então utilizamos a variável


aleatória

X1  X2   1  2 
T  tn1 n2 2
1 1
Sp 
n1 n2

onde

n1  1 S12  n2  1 S22


Sp 
n1  n2  2

como estatística para fazer inferência sobre 1  2 .

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 1 1 1 1 
 x1  x 2   t n n 2;1/2 s p  , x1  x 2   tn1 n2 2;1/2 s p 
 1 2 
 n1 n2 n1 n2 

5
Estatística II

em que t n n 2;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de


1 2 
Student com n1  n2  2 graus de liberdade e

n1  1s12  n2  1s22


sp  .
n1  n2  2

Testes de hipóteses para a diferença entre valores médios 1  2

Hipóteses a testar:
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0

Estatística de teste:

X1  X2   0
T 
1 1
Sp 
n1 n2
que, sob a validade de H0 , tem distribuição t de Student com n1  n2  2 graus
de liberdade.

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : 1  2  0 vs H1 : 1  2  0 | t |  t(n1 n2 2;1 / 2)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(n1 n2 2;1)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(n1 n2 2;1)

sendo tn1 n2 2;   o quantil de probabilidade  da distribuição t de Student com


n1  n2  2 graus de liberdade e t o valor observado da estatística de teste T .

Nota:
Este teste de comparação de valores médios é vulgarmente conhecido como teste t
para amostras independentes.

Exemplo 7.2
Um investigador está interessado em comparar duas populações de crianças, A e
B , relativamente à média da idade com que começam a andar. O investigador
admite que as idades (em meses) com que as crianças das duas populações
começam a andar são variáveis aleatórias com distribuição normal com valores

6
Inferência estatística para duas populações

médios A e B , respetivamente. Os dados disponíveis, relativos à idade com que


12 crianças de cada uma das populações começam a andar, são os seguintes:

idade criança A 12.0 13.3 11.8 11.7 12.7 11.0 12.0 12.1 10.6 11.7 11.2 11.7
idade criança B 12.2 12.5 13.1 13.7 14.0 12.5 11.8 13.8 14.0 11.5 13.7 12.9

a) Teste, ao nível de significância de 5%, se é de admitir que as duas populações


de crianças diferem na média da idade com que começam a andar.
b) Determine um intervalo a 95% de confiança para A  B .

Resolução:
Sejam as variáveis aleatórias:
X A – idade com que uma criança da população A começa a andar,
X B – idade com que uma criança da população B começa a andar.
X A  N A, A  , X B  N B , B  , com A e B desconhecidos e X A e X B
independentes.

a) Pretendemos testar as hipóteses:


H0 : A  B  0 vs H1 : A  B  0 .
Começamos por calcular as médias e as variâncias das duas amostras
x A  11.817, x B  12.975, sA2  0.518, sB2  0.770 .
Para a resolução deste problema vamos começar por admitir que A  B  
desconhecido. O parâmetro  é estimado por s p , com

nA  1sA2  nB  1sB2


sp 
nA  nB  2

12  1  0.518  12  1  0.770


  0.644  0.802 .
12  12  2
Calculamos o valor observado para a estatística de teste
xA  xB 11.817  12.975
t   3.537 .
1 1 1 1
sp  0.802  
nA nB 12 12

Considerando   0.05 e consultando a tabela da distribuição t de Student,


| t |  3.537  t22;0.975  2.074

e assim rejeitamos a hipótese nula para   0.05 , ou seja, concluímos que a


idade média com que as crianças começam a andar difere da população A para
a população B .

7
Estatística II

b) Como estamos a admitir que A  B   , um intervalo a 95% de confiança


para A  B é dado por
 
 
 x A x B  t n n 2;0.975 s p
A B 
1

nA nB
1
 
, x A x B  tnA nB 2;0.975 s p
1

nA nB
1 ,

 
portanto
 
   
 11.81712.975 2.0740.802 1  1 , 11.81712.975 2.0740.802 1  1  ,
 12 12 12 12 

donde obtemos o intervalo 1.837 ,  0.479 .
 
De notar que o ponto 0 não pertence ao intervalo obtido, o que indica que ao
nível de significância de 5%, podemos admitir que A  B  0 , isto é, que
A  B . Este resultado está de acordo com a conclusão obtida pelo teste de
hipóteses ao mesmo nível de significância.

• 2ª situação: se não pudermos admitir a igualdade de variâncias, isto é, se 1  2 ,


então demonstra-se que

X1  X2   1  2  aprox .


T  t ,
S12 S22

n1 n2

sendo o número de graus de liberdade  estimado por


 S12 S 22 2
  
 n1 n2 
ˆ  .
S14 S 24

n12 n1  1 n22 n2  1

Este estimador designa-se por estimador de Welch-Satterthwaite. Na prática,


quando se determina uma estimativa para  , é usual aproximar essa estimativa ao
número inteiro mais próximo.

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 s12 s22 s12 s22 


 x x t
 1 2 ˆ;1 /2 n
 , x 1  x 2   tˆ;1 /2  
 n2 n1 n2 
 1 

em que t ˆ;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de Student


 
com ̂ (estimativa de Welch-Satterthwaite) graus de liberdade.

8
Inferência estatística para duas populações

Testes de hipóteses para a diferença entre valores médios 1  2

Estatística de teste:

X1  X2   0
T
S12 S22

n1 n2

que, sob a validade de H0 , tem distribuição aproximada t de Student com 


graus de liberdade.

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : 1  2  0 vs H1 : 1  2  0 | t |  t(ˆ;1 / 2)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(ˆ;1)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(ˆ;1)

sendo tˆ;   o quantil de probabilidade  da distribuição t de Student com ̂


graus de liberdade e t o valor observado da estatística de teste T .

Exemplo 7.2 (continuação)


a) Recorde que se pretende testar H0 : A  B  0 vs H1 : A  B  0 .
Se não admitirmos válida a suposição de igualdade de variâncias, isto é, se
A  B , então o valor observado da estatística de teste é
xA  xB 11.817  12.975
t   3.535 .
sA2 sB2 0.518 0.770
 
nA nB 12 12

Utiliza-se o estimador de Welch-Satterthwaite para determinar uma estimativa


do número de graus de liberdade da distribuição de amostragem da estatística
de teste,
 sA2 2 2

ˆ 
  sB 
 nA nB 

12 12 
0.518 0.770 2

 21.189 ;

sA4 sB4 0.5182 0.7702
 
nA2 nA  1 nB2 nB  1 122  11 122  11

assim, na prática usa-se ˆ  21 . Considerando   0.05 e consultando a tabela


da distribuição t de Student, t21;0.975  2.080 . Como
| t |  3.535  2.080

9
Estatística II

rejeitamos a hipótese nula para   0.05 , ou seja, é de admitir que a idade


média com que as crianças começam a andar difere da população A para a
população B .

b) Para a situação A  B , o intervalo a 95% de confiança para A  B é dado


por
 sA2 sB2 sA2 sB2 
 x x t .
 A B  ˆ;0.975 n
 , x A
 x B   tˆ;0.975 n
 
 nB nB 
 A A 
Como ˆ  21 vem
 sA2 sB2 sA2 sB2 
 x x t 
 A B 21;0.975 n
 ,  A B  21;0.975 n n
x  x  t  
 A
nB A B 

 
 
  11.81712.975  2.080
0.518 0.770
12

12
 
, 11.81712.975  2.080
0.518 0.770
12

12
,

 
donde obtemos o intervalo   1.839 ,  0.477  .
 

Populações com distribuições não normais

Sejam X1 e X 2 variáveis aleatórias com distribuições não normais, tais que E X1   1 ,
E X 2   2 e var X1   12 , var X 2   22 finitas, com n1  30 e n2  30 .
Atendendo ao teorema limite central tem-se

X1  X2   1  2  aprox .


Z  N 0,1 .
12 22

n1 n2

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 12 22 12 22 


 x x z
 1 2 1 /2
 ,  1 2  1/2 n  n 
x  x  z
 n1 n2 2 
 1

em que z1 / 2 é o quantil de probabilidade 1   / 2 da distribuição normal


standard. Se 1 e 2 forem desconhecidos, são substituídos por s1 e s2 ,
respetivamente.

10
Inferência estatística para duas populações

Testes de hipóteses para a diferença entre valores médios 1  2

Hipóteses a testar:
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0

Estatística de teste:

X1  X2   0
Z 
12 22

n1 n2
que, sob a validade de H0 , tem distribuição aproximada N 0,1 .
No caso de 1 e 2 serem desconhecidos, no cálculo do valor observado da
estatística de teste substitui-se 1 e 2 por s1 e s2 , respetivamente.

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : 1  2  0 vs H1 : 1  2  0 | z |  z1 / 2
H0 : 1  2  0 vs H1 : 1  2  0 z  z1
H0 : 1  2  0 vs H1 : 1  2  0 z  z1

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor


observado da estatística de teste Z .

Nota:
No caso em que as distribuições de X1 e X 2 são não normais e as dimensões de
ambas as amostras são superiores ou iguais a 30 podemos usar uma metodologia
paramétrica. A estatística de teste a utilizar é a estatística Z com distribuição
aproximadamente N 0,1 . Como para valores elevados do número de graus de
liberdade, a distribuição t de Student se aproxima da distribuição N 0,1 , o SPSS,
assim como outros softwares estatísticos, não utiliza a distribuição normal mas sim
a distribuição t de Student, o que embora não seja teoricamente correto, não traz
consequências práticas e simplifica a sua utilização.

11
Estatística II

7.2.2. Inferência paramétrica para o quociente de


variâncias

Sejam X11, X12, , X1n1  e X 21, X 22, , X 2n2  duas amostras aleatórias independentes, de
dimensões n1 e n2 , provenientes de duas populações X1 e X 2 , tais que E X1   1 ,
E X 2   2 e var X1   12 , var X 2   22 , respetivamente.
Uma estimativa pontual para 12 / 22 é s12 / s22 .

Se X1  N 1, 1  e X 2  N 2, 2  , prova-se que


S12
12 S12 22
F   Fn 1, n ,
S 22 S 22 12 1 2 1

22

isto é, a distribuição de amostragem da estatística de teste F é a distribuição F de


Fisher-Snedecor com n1  1 graus de liberdade no numerador e n2  1 graus de
liberdade no denominador.
Usando esta variável aleatória como estimador, podemos deduzir um intervalo a
1    100% de confiança para 12 / 22 .

Intervalo a 1    100% de confiança para o quociente de variâncias 12 / 22

 
 s12 s12 
 2 , 
 s2 F n 1,n 1;1 /2 s22 F n 1,n 1; /2 
 1 2  1 2  

em que Fn1 1,n2 1;   é o quantil de probabilidade  da distribuição F de


Fisher-Snedecor com n1  1 graus de liberdade no numerador e n2  1 graus de
liberdade no denominador.

Atendendo a que o desvio padrão populacional é a raiz quadrada da variância


populacional, o intervalo de confiança para 1 / 2 é dado por:
 
 s1 s1 
 , .
 
 s2 Fn 1,n 1;1 /2 s2 Fn 1,n 1; /2 
 1 2 1 2 

12
Inferência estatística para duas populações

Testes de hipóteses para o quociente de variâncias 12 / 22

Pretende-se testar a hipótese de igualdade de variâncias:


H0 : 12  22 vs H1 : 12  22
ou, de forma equivalente,
12 12
H0 : 1 vs H1 : 1
22 22

Hipóteses a testar:
H0 : 12  22 vs H1 : 12  22
ou H0 : 12  22 vs H1 : 12  22
ou H0 : 12  22 vs H1 : 12  22

Estatística de teste:
S12 22 S12 S12
F  1 
S 22 12 S 22 S 22
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com n1  1
graus de liberdade no numerador e n2  1 graus de liberdade no denominador.

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1; / 2 ou f  Fn1 1,n2 1;1 / 2
H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1;1
H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1;

sendo Fn1 1,n2 1;   o quantil de probabilidade  da distribuição F de


Fisher-Snedecor com n1  1 graus de liberdade no numerador e n2  1 graus de
liberdade no denominador, e f o valor observado da estatística de teste F .

Nota:
Uma alternativa mais robusta a este teste para a igualdade de variâncias é o teste
de Levene, que pode ser usado para estudar a igualdade de variâncias quer em
duas quer em mais de duas populações independentes e que pode ser efetuado por
exemplo no software SPSS.

13
Estatística II

Exemplo 7.2 (continuação)


Neste exemplo, antes de termos efetuado o teste para a comparação de valores
médios, deveríamos ter testado a hipótese de igualdade (homogeneidade) de
variâncias:
H0 : A2  B2 vs H1 : A2  B2
ou, de forma equivalente,
A2 A2
H0 : 1 vs H1 :  1.
B2 B2
O valor observado da estatística de teste é
sA2 0.518
f    0.673 .
sB2 0.770

Considerando   0.05 e consultando a tabela da distribuição F de


Fisher-Snedecor, obtemos
F(n  F(11,11;0.975)  3.474 e
A 1,nB 1;1 /2)
1 1
F(n  F(11,11;0.025)    0.288.
A 1,nB 1;  /2) F(11,11;0.975) 3.474

Como
f  0.673  0.288 e f  0.673  3.474 ,

concluímos que não há evidência estatística, ao nível de significância   0.05 ,


para rejeitar a hipótese nula de igualdade das variâncias.

Assim, a comparação dos valores médios e a obtenção de intervalos de confiança


para a diferença de valores médios deve ser feita de acordo com a suposição
A  B   .

Um intervalo a 95% de confiança para A2 / B2 é dado por


 sA2 sA2 
 , ,
 sB F121,121;0.975 sB F121,121;0.025
2 2 
 

o que é equivalente a
 0.518 0.518 
 , ,
 0.770  3.474 0.770  0.288 

donde obtemos o intervalo 0.194 , 2.336 .


 

14
Inferência estatística para duas populações

Nota:
Num teste de hipóteses bilateral,
A2 A2
H0 : 1 vs H1 : 1
B2 B2
não rejeitamos a hipótese nula, ao nível de significância  , se e só se o intervalo a
100  1   % de confiança para A2 / B2 contém o ponto 1.

7.2.3. Teste de Wilcoxon-Mann-Whitney

O teste de Wilcoxon-Mann-Whitney é um método não paramétrico para a comparação


de duas populações com base em amostras independentes. Este teste pode constituir
também uma alternativa ao teste paramétrico para comparação de dois valores médios
com base em amostras independentes (teste t para amostras independentes) em alguma
das seguintes situações: (i) pelo menos uma das amostras ter dimensão reduzida; (ii)
pelo menos uma das amostras não ser proveniente de uma população normal; (iii) as
variáveis estarem numa escala ordinal.

Hipóteses a testar:
H0 : As distribuições dos ranks das duas populações são idênticas
vs
H1 : As distribuições dos ranks das duas populações não são idênticas.

O teste de Wilcoxon-Mann-Whitney utiliza as ordens (ranks) das observações em vez


das próprias observações. Se a hipótese nula for verdadeira é de esperar que qualquer
ordem possa ser atribuída a qualquer observação de cada uma das amostras. Se a
hipótese nula não for verdadeira, as observações de uma das amostras tendem a ter
ranks inferiores e as observações da outra amostra ranks superiores.

Seja n1 a menor das dimensões das duas amostras, n2 a dimensão da outra amostra e
N  n1  n2 a dimensão da amostra constituída pelas observações das duas amostras
combinadas. Começamos por atribuir ordens, no sentido crescente, à amostra combinada
x1:N , x 2:N , , x N :N  .

Caso exista empates atribui-se a cada uma das observações empatadas o respetivo rank
médio.

Estatística de teste:
Tn ,n   ranks das observações da amostra de dimensão n1 na amostra combinada .
1 2

15
Estatística II

Tn1,n2 tem, sob a validade de H0 , uma distribuição exata, com pontos críticos
tabelados por Wilcoxon-Mann-Whitney (tabela não disponibilizada).

Regra de decisão:
Nas tabelas do teste de Wilcoxon-Mann-Whitney são dados os p-values. A partir
do valor p , a regra de decisão ao nível de significância  consiste em rejeitar H 0
se p   .

Atendendo ao facto da estatística de teste ser uma soma, o teorema limite central
permite, sob certas condições (considerar n1  8 ou n2  8 é prática usual), efetuar a
aproximação da distribuição de Tn1,n2 à distribuição normal com valor médio e variância
dados, respetivamente, por
N 1
E Tn1,n2   n1
2
e
n1n2 N  1
var Tn1,n2   .
12
Deste modo,

Z 
Tn ,n  E Tn ,n
1 2
 1 2


var Tn ,n
1 2

tem, sob a validade de H0 , distribuição aproximada N 0,1 .
No caso de haver empates, a variância de Tn1,n2 deve ser corrigida,
g
n1n2 N  1 n1n2
var Tn1,n2  
12N N  1 
12
 i  1 i i  1 ,
i 1

sendo g o número de grupos de observações empatadas e i o número de observações


empatadas no iésimo grupo de empates.
Neste caso, rejeita-se H0 , ao nível de significância  , se | z |  z1 / 2 , sendo z o valor
observado da estatística de teste e z1 / 2 o quantil de probabilidade 1   / 2 da
distribuição normal reduzida.

Notas:
1. Em geral, os softwares estatísticos fornecem os p-values deste teste, quer para a
estatística Tn1,n2 (p-value exato), quer para a estatística Z (p-value aproximado).
Sempre que se dispõe de valores exatos são estes que devem ser utilizados.
2. Nesta disciplina não serão utilizadas as tabelas com os pontos críticos do teste
de Wilcoxon-Mann-Whitney. Para efetuar este teste recorre-se à aproximação à
distribuição normal ou à utilização das tabelas do output do software SPSS.

16
Inferência estatística para duas populações

3. No software SPSS, o teste de Wilcoxon-Mann-Whitney está identificado por


teste de Mann-Whitney.

Exemplo 7.3
Para comparar as alturas dos alunos da FMH e do ISA foram aleatoriamente
recolhidas duas amostras de alturas (em cm) de 10 alunos da FMH e de 13 alunos
do ISA, respetivamente. Os valores registados são apresentados na tabela

altura aluno FMH 172 174 173 181 179 166 176 180 177 150
altura aluno ISA 168 179 171 182 184 178 179 183 175 185 182 186 179

Resolução:
Considere as variáveis aleatórias:
X FMH – altura de um aluno da FMH,
X ISA – altura de um aluno do ISA.
Efetuámos, no software SPSS, testes de normalidade para as variáveis X FMH e
X ISA (ver Secção 7.4) e verificámos que para a variável X FMH essa condição não é
satisfeita. Assim, na impossibilidade de efetuar o teste t para amostras
independentes vamos utilizar o teste de Wilcoxon-Mann-Whitney.
Pretendemos testar as hipóteses:
H0 : As distribuições dos ranks de X FMH e X ISA são idênticas
vs
H1 : As distribuições dos ranks de X FMH e X ISA não são idênticas.

Neste caso, n1  10 , n2  13 e N  23 . Efetuando a ordenação da amostra


combinada obtemos a seguinte tabela que apresenta os ranks atribuídos às
observações da amostra conjunta

altura aluno FMH 172 174 173 181 179 166 176 180 177 150
rank altura aluno FMH 5 7 6 17 13.5 2 9 16 10 1
altura aluno ISA 168 179 171 182 184 178 179 183 175 185 182 186 179
rank altura aluno ISA 3 13.5 4 18.5 21 11 13.5 20 8 22 18.5 23 13.5

O valor observado da estatística de teste é


T10,13  5  7  6  17  13.5  2  9  16  10  1  86.5 .
Como n1  10 e n2  13 (superiores a 8) podemos efetuar a aproximação à
distribuição normal. O valor médio de T10,13 é
23  1
E T10,13   10   120
2

e, como existem 2 grupos de empates, então g  2 e a variância é

17
Estatística II

2
10  13  24 10  13
var T10,13  
12  23  22 
12
 i  1 i i  1
i 1

 260  0.0214  1  1 1 1  1  2  1 2 2  1 .


Como há 4 observações empatadas, referentes à altura de 179 cm, no primeiro
grupo de empates então 1  4 . Do mesmo modo, como há 2 observações
empatadas, referentes à altura de 182 cm, no segundo grupo de empates então
2  2 . Assim,
var T10,13   260  0.0214  3  4  5  1  2  3  258.59
e a aproximação é dada por
aprox . T10,13  120 aprox .
T10,13  
 N 120, 258.59 , isto é, Z 
258.59
 N 0,1 .

O valor observado da estatística de teste Z é


86.5  120
z  2.083 .
16.08

Como | z |  2.083  z 0.975  1.96 , rejeita-se a hipótese nula ao nível de significância


de 5%, ou seja, conclui-se que as distribuições dos ranks das alturas dos alunos da
FMH e do ISA não são idênticas.

Nota:
Tal como nos testes paramétricos, também é possível enunciar e efetuar testes não
paramétricos unilaterais.

7.3. Amostras emparelhadas

7.3.1. Introdução

Em determinados estudos, a comparação dos valores médios de duas populações é feita à


custa de amostras emparelhadas. De um modo geral, dizemos que as amostras são
emparelhadas quando as observações de que dispomos dizem respeito a duas medições
da mesma característica ou de características comparáveis para cada indivíduo; por
exemplo, o peso de um indivíduo antes do início de uma dieta e o peso do indivíduo no
final da dieta. Convém, no entanto, referir que as amostras emparelhadas podem

18
Inferência estatística para duas populações

contemplar outras situações. Podemos estar interessados em comparar as idades do


marido e da mulher e, deste modo, temos duas observações para cada casal; neste caso a
unidade experimental não é o indivíduo, mas sim o casal.
Quando pretendemos fazer inferência paramétrica para a diferença de valores médios no
caso de duas amostras emparelhadas devemos proceder do seguinte modo: considerar
uma nova amostra, constituída pelas diferenças entre os pares de valores das amostras
iniciais, a qual passa a ser tratada como proveniente de uma só população – a população
das diferenças. Para esta população, os intervalos de confiança e os testes de hipóteses
são os idênticos aos intervalos de confiança e testes de hipóteses para uma população,
que já foram estudados na unidade curricular de Estatística I.

7.3.2. Inferência paramétrica para a diferença de valores


médios

Sejam X11, X12, , X1n  e X 21, X 22, , X 2n  duas amostras aleatórias emparelhadas, de
dimensão n , provenientes de duas populações X1 e X 2 com valores médios 1 e 2 e
variâncias 12 e 22 , respetivamente.
Quando pretendemos fazer inferência paramétrica para a diferença de valores médios,
consideramos uma nova variável aleatória D  X1  X 2 , tal que E D   D e
var D   D2 , sendo, em geral, D2 desconhecido.
Uma estimativa pontual para D  1  2 é d  x1  x 2 .

É fácil verificar que testar a hipótese de igualdade dos valores médios


H0 : 1  2 vs H1 : 1  2
é equivalente a testar
H0 : D  0 vs H1 : D  0 .

População com distribuição normal e desvio padrão


desconhecido

Seja D1, D2, , Dn  uma amostra aleatória de dimensão n proveniente da diferença de


duas variáveis emparelhadas X1 e X 2 , D  X1  X 2 , D  N D , D  , com D
desconhecido.

19
Estatística II

Intervalo a 1    100% de confiança para o valor médio D

 sD sD 
d  t , d  t
 n 1;1 /2 n 1;1 /2 
 n n 

em que tn 1;1 / 2 é o quantil de probabilidade 1   / 2 da distribuição t de


Student com n  1 graus de liberdade.

Testes de hipóteses para o valor médio D

Hipóteses a testar:
H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0

Estatística de teste:
D  0
T 
SD
n
que, sob a validade de H0 , tem distribuição t de Student com n  1 graus de
liberdade.

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : D  0 vs H1 : D  0 | t |  t(n 1;1 / 2)
H0 : D  0 vs H1 : D  0 t  t(n 1;1)
H0 : D  0 vs H1 : D  0 t  t(n 1;1)

sendo tn 1;   o quantil de probabilidade  da distribuição t de Student com n  1


graus de liberdade e t o valor observado da estatística de teste T .

Notas:
1. Este teste de comparação de valores médios é vulgarmente conhecido como
teste t para amostras emparelhadas.
2. Se X1 e X 2 são variáveis aleatórias com distribuição normal, então
D  X1  X 2 é uma variável aleatória com distribuição normal. Contudo, pode
acontecer que alguma ou as duas variáveis X1 e X 2 não tenham distribuição
normal, e a variável aleatória D tenha essa distribuição. Para realizar o teste t

20
Inferência estatística para duas populações

para amostras emparelhadas basta que se verifique a normalidade da variável


aleatória D .

Exemplo 7.4
O peso (em kg) de estudantes que participam num programa de emagrecimento é
registado no início e no final desse programa. Numa amostra de dimensão 12,
obtiveram-se as seguintes observações:

estudante 1 2 3 4 5 6 7 8 9 10 11 12
peso inicial 69.0 71.0 74.2 65.8 74.2 73.6 76.1 71.7 68.5 72.9 77.1 64.4
peso final 67.0 71.5 72.8 68.0 73.9 74.4 72.4 71.8 67.9 72.7 76.2 64.3

a) Será que o programa de emagrecimento é eficaz? Considere   0.05 .


b) Determine um intervalo a 95% de confiança para a diferença dos pesos médios.

Resolução:
Sejam as variáveis aleatórias:
X1 – peso de um estudante no início do programa de emagrecimento,
X 2 – peso de um estudante no final do programa de emagrecimento.
Considere que a alteração de peso de um estudante, isto é, peso inicial menos peso
final, é uma variável aleatória D  X1  X 2 com distribuição N D , D  , com D
desconhecido. Os valores observados da variável aleatória D são:

estudante 1 2 3 4 5 6 7 8 9 10 11 12
d 2.0 −0.5 1.4 −2.2 0.3 −0.8 3.7 −0.1 0.6 0.2 0.9 0.1

a) Pretendemos testar as hipóteses:


H0 : 1  2 vs H1 : 1  2
em que 1  E X1  e 2  E X 2  . De forma equivalente, as hipóteses podem
ser formuladas por
H0 : D  0 vs H1 : D  0 .
Começamos por calcular a média da amostra das diferenças
12
1 5.6
d  
12 i 1
di 
12
 0.467 .

Uma vez que D é desconhecido, vamos estimá-lo por sD , onde

12  12 2
12 di2   di 
i 1

i 1  12  26.7  (5.6)2
sD    2.1897  1.480 .
12  11 12  11

21
Estatística II

Calculando o valor observado da estatística de teste, obtemos


d  0 0.467
t sD  1.480  1.093 .
n 12

Considerando   0.05 e consultando a tabela da distribuição t de Student,


t  1.093  t11;0.95  1.796
e assim não rejeitamos a hipótese nula para   0.05 , ou seja, não existe
evidência estatística de que o programa de emagrecimento seja eficaz.

b) O intervalo a 95% de confiança para D é dado por


d  t sD sD 
 n 1;0.975 n , d  tn 1;0.975 n  ,
 

portanto
 
0.467  2.201 1.480 , 0.467  2.201 1.480  ,
 
 12 12 

donde obtemos o intervalo 0.473 , 1.407  .


 

População com distribuição não normal

Seja D1, D2, , Dn  uma amostra aleatória de dimensão n , proveniente da diferença de


duas variáveis emparelhadas X1 e X 2 , D  X1  X 2 , D com distribuição não normal,
E D   D e var D   D2 finita, tal que n  30 .

Intervalo a 1    100% de confiança para o valor médio D

 sD sD 
d  z , d  z
 1 /2 1 /2 
 n n 

em que z1 / 2 é o quantil de probabilidade 1   / 2 da distribuição normal


standard.

22
Inferência estatística para duas populações

Testes de hipóteses para o valor médio D

Hipóteses a testar:
H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0

Estatística de teste:
D  0
Z 
SD
n
que, sob a validade da hipótese nula, tem distribuição aproximada N 0,1 .

Regra de decisão:

Hipótese a testar Rejeitar H0 se


H0 : D  0 vs H1 : D  0 | z |  z1 / 2
H0 : D  0 vs H1 : D  0 z  z1
H0 : D  0 vs H1 : D  0 z  z1

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor


observado da estatística de teste Z .

Nota:
No caso em que a distribuição de D é não normal e a dimensão da amostra das
diferenças é superior ou igual a 30 podemos usar uma metodologia paramétrica. A
estatística de teste a utilizar é a estatística Z com distribuição aproximadamente
N 0,1 . Como para valores elevados do número de graus de liberdade, a
distribuição t de Student se aproxima da distribuição N 0,1 , o SPSS, assim como
outros softwares estatísticos, não utiliza a distribuição normal mas sim a
distribuição t de Student, o que embora não seja teoricamente correto, não traz
consequências práticas e simplifica a sua utilização.

7.3.3. Teste de Wilcoxon

O teste de Wilcoxon é um método não paramétrico para a comparação de duas


populações com base em amostras emparelhadas. Este teste pode constituir também
uma alternativa ao teste paramétrico para comparação de dois valores médios com base
em amostras emparelhadas (teste t para amostras emparelhadas) em alguma das

23
Estatística II

seguintes situações: (i) as amostras terem dimensão reduzida; (ii) a amostra das
diferenças não ser proveniente de uma população normal; (iii) as variáveis estarem numa
escala ordinal.

Sejam X11, X12, , X1n  e X 21, X 22, , X 2n  duas amostras aleatórias emparelhadas, de
dimensão n , provenientes de duas populações X1 e X 2 . Podemos considerar, tal como
no teste paramétrico, uma variável aleatória D  X1  X 2 .

Hipóteses a testar:
H0 : As distribuições dos ranks das duas populações são idênticas
vs
H1 : As distribuições dos ranks das duas populações não são idênticas.

O teste de Wilcoxon utiliza as ordens (ranks) das diferenças em vez das próprias
diferenças. Os valores absolutos das diferenças são ordenados crescentemente, sendo
depois atribuído ao rank o respetivo sinal (positivo ou negativo). Se a hipótese nula for
verdadeira é de esperar que entre as maiores diferenças umas sejam positivas e outras
negativas. Deste modo, somando os ranks de sinal positivo e somando os de sinal
negativo, é de esperar que, sob a validade de H0 , essas somas sejam idênticas. Pelo
contrário, as duas somas serem muito distintas é um indicador de diferença entre as
duas populações. Assim, considera-se

Estatística de teste:

T    ranks das diferenças positivas ,


ou

T    ranks das diferenças negativas .

Se alguma diferença for nula (isto é, se algum di  0 ), essa diferença não é


considerada na ordenação, e toma-se como dimensão da amostra a diferença entre
o n inicial e o número de diferenças nulas, isto é, a dimensão da amostra passa a
ser
n  nº de diferenças nulas .
Pode ainda ocorrer outro tipo de empates: dois ou mais di com a mesma
magnitude. Nesse caso, atribui-se a cada uma das diferenças empatadas o respetivo
rank médio.

T  e T  têm, sob a validade de H0 , distribuições exatas, com pontos críticos


tabelados por Wilcoxon (tabela não disponibilizada).

24
Inferência estatística para duas populações

Regra de decisão:
Nas tabelas do teste de Wilcoxon são dados os p-values. A partir do valor p , a
regra de decisão ao nível de significância  consiste em rejeitar H 0 se p   .

Atendendo ao facto da estatística de teste ser uma soma, o teorema limite central
permite, sob certas condições (considerar n  15 é uma prática usual), efetuar a
aproximação da distribuição de T  à distribuição normal com valor médio e variância
dados, respetivamente, por
n n  1
E T   
4
e
n n  12n  1
var T    .
24
Assim,

Z 
 
T E T

var T  

tem, sob a validade de H0 , distribuição aproximada N 0,1 .


No caso de haver empates é necessário corrigir a variância
g
n n  12n  1 1
var T   
24
    1 i i  1
48 i 1 i
sendo g o número de grupos com ranks empatados e i o número de diferenças
empatadas no iésimo grupo de empates.
Neste caso, rejeita-se H0 , ao nível de significância  , se | z |  z1 / 2 , sendo z o valor
observado da estatística de teste e z1 / 2 o quantil de probabilidade 1   / 2 da
distribuição normal reduzida.

Notas:
1. Em geral, os softwares estatísticos fornecem os p-values deste teste, quer para a
estatística T  (p-value exato), quer para a estatística Z (p-value aproximado).
Sempre que se dispõe de valores exatos são estes que devem ser utilizados.
2. Nesta disciplina não serão utilizadas as tabelas com os pontos críticos do teste
de Wilcoxon. Para efetuar este teste recorre-se à aproximação à distribuição
normal ou à utilização das tabelas do output do software SPSS.
3. No software SPSS, por vezes, a aproximação é feita com base na estatística T  .

25
Estatística II

Exemplo 7.5
Com o objetivo de comparar os tempos (em segundos) despendidos por crianças na
realização de uma tarefa antes e depois de um processo de aprendizagem, foram
aleatoriamente escolhidas 10 crianças para participar num estudo, tendo cada uma
delas sido submetida a uma avaliação no desempenho dessa tarefa. Depois de um
mês de aprendizagem foram novamente avaliadas no desempenho da mesma tarefa.
Os resultados constam da tabela

criança 1 2 3 4 5 6 7 8 9 10
tempo antes da aprendizagem 68 60 41 90 86 72 56 61 87 80
tempo depois da aprendizagem 69 57 39 89 88 74 54 59 77 81

Resolução:
Sejam as variáveis aleatórias:
X1 – tempo despendido por uma criança na realização da tarefa antes do
processo de aprendizagem,
X 2 – tempo despendido por uma criança na realização da tarefa depois do
processo de aprendizagem.
Considere que a alteração de tempo de uma criança, isto é, tempo inicial menos
tempo final, é uma variável aleatória D  X1  X 2 . Os valores observados da
variável aleatória D são:

criança 1 2 3 4 5 6 7 8 9 10
d −1 3 2 1 −2 −2 2 2 10 −1

Efetuámos, no software SPSS, o teste de normalidade para a variável D (ver Secção


7.4) e constatámos que essa condição não é verificada. Assim, na impossibilidade
de efetuar o teste t para amostras emparelhadas vamos utilizar o teste não
paramétrico de Wilcoxon.
Pretendemos testar as hipóteses:
H0 : As distribuições dos ranks de X1 e X 2 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas.
Efetuando a ordenação da amostra (em valor absoluto) obtemos a seguinte tabela
de ranks

criança 1 10 4 5 6 3 7 8 2 9
d −1 −1 1 −2 −2 2 2 2 3 10
rank | d | 2 2 2 6 6 6 6 6 9 10
sinal d       
   

26
Inferência estatística para duas populações

Assim,
T   2  6  6  6  9  10  39 e T   2  2  6  6  16 .
Consultando uma tabela da distribuição exata da estatística de teste de Wilcoxon
(fora do âmbito desta disciplina) encontramos o p-value deste teste de hipóteses
fazendo
p  2  P T   39  2  0.14  0.28 .

Como p  0.28  0.05 , não rejeitamos a hipótese nula para   0.05 , ou seja, não
existe evidência estatística de que tenha havido alteração no tempo de desempenho
da tarefa depois do processo de aprendizagem.

Neste caso, tem-se n  15 e portanto não se verifica a condição necessária para


aproximação à distribuição normal. No entanto, para efeito meramente ilustrativo,
vamos efetuar a referida aproximação.

O valor médio de T  é
10  (10  1)
E T     27.5
4

e, como existem 2 grupos de empates, então g  2 e a variância é


2
10  11  (20  1) 1
48 
var T   
24
 i  1 i i  1
i 1

1 
 96.25     1 1 1  1  2  1 2 2  1 .
48  1
Como há 3 observações empatadas no primeiro grupo de empates então 1  3 . Do
mesmo modo, como há 5 observações empatadas no segundo grupo de empates,
então 2  5 . Assim,
1
var T    96.25  2  3  4  4  5  6  93.25
48
e a aproximação é dada por
aprox . aprox .

 
T   N 27.5, 93.25 , isto é, Z 
T   27.5
93.25
 N 0,1 .

O valor observado da estatística de teste Z é


39  27.5
z  1.191 .
93.25

Como | z |  1.191  z 0.975  1.96 , não se rejeita a hipótese nula ao nível de


significância de 5%, ou seja, não é de admitir que haja diferença significativa nas
distribuições dos ranks dos tempos antes e depois da aprendizagem.

27
Estatística II

Nota:
Tal como no teste de Wilcoxon-Mann-Whitney, também para o teste não
paramétrico de Wilcoxon é possível enunciar e efetuar testes de hipóteses
unilaterais.

7.4. Ilustrações com SPSS

Exemplo 7.2
Recordemos que
X A – idade com que uma criança da população A começa a andar,
X B – idade com que uma criança da população B começa a andar.
Comecemos por averiguar se podemos considerar válidas as suposições de
normalidade das variáveis X A e X B .
Utilizando o software estatístico SPSS, obtemos o output

Explore

população
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk

população Statistic df Sig. Statistic df Sig.


*
idade começam a andar A ,186 12 ,200 ,955 12 ,717
B ,212 12 ,141 ,915 12 ,249
*.
a.

Relativamente aos testes de normalidade


H0 : X A tem distribuição normal vs H1 : X A não tem distribuição normal ,
o valor observado da estatística de teste de Shapiro-Wilk é w  0.955 , ao qual
corresponde o p-value p  0.717 .
H0 : X B tem distribuição normal vs H1 : X B não tem distribuição normal ,
o valor observado da estatística de teste de Shapiro-Wilk é w  0.915 , ao qual
corresponde o p-value p  0.249 .
Deste modo, ao nível de significância de 5%, podemos admitir válidas as suposições
de normalidade de cada uma das populações (pois em cada um dos casos o p-value
é superior a 0.05).
28
Inferência estatística para duas populações

Em seguida, é necessário avaliar a hipótese de igualdade de variâncias:


H0 : A2  B2 vs H1 : A2  B2 .
O resultado do teste de Levene é disponibilizado, no software estatístico SPSS,
conjuntamente com a tabela do teste t

T-Test
Group Statistics

população N Mean Std. Deviation

idade começam a andar A 12 11,817 ,7196 ,2077


B 12 12,975 ,8771 ,2532

Independent Samples Test

t-test for Equality of Means

F Sig. t df Lower Upper


idade começam a andar
1,665 ,210 -3,537 22 ,002 -1,1583 ,3275 -1,8376 -,4791

-3,537 21,191 ,002 -1,1583 ,3275 -1,8391 -,4776

O valor observado da estatística de teste de Levene é f  1.665 , ao qual


corresponde o p-value p  0.210 . Para o nível de significância de 5% não se rejeita
a hipótese de homogeneidade de variâncias (pois p  0.05 ).
Assim, estamos em condições de efetuar o teste t para comparação de valores
médios, cujas hipóteses a testar são
H0 : A  B vs H1 : A  B .
O valor observado da estatística de teste é t  3.537 , a que corresponde o p-value
p  0.002 . Para o nível de significância de 5% rejeita-se H0 , sendo portanto de
admitir que a idade média com que as crianças começam a andar não é a mesma
nas duas populações.
De referir que a 1ª tabela do teste t fornece as características amostrais relevantes
para o cálculo do valor observado da estatística de teste. Na 2ª tabela do output
do teste de hipóteses é também apresentado um intervalo a 95% de confiança, para
a diferença dos valores médios A  B :
1.838,  0.479 .
 

A obtenção do intervalo de confiança para B  A é trivial: 0.479,1.838 .


 

29
Estatística II

Exemplo 7.3
Recordemos que
X FMH – altura de um aluno da FMH,
X ISA – altura de um aluno do ISA,
e que pretendemos comparar as alturas dos alunos da FMH e do ISA.
Comecemos por averiguar se podemos considerar válidas as suposições de
normalidade das variáveis X FMH e X ISA .
Utilizando o software estatístico SPSS, obtemos o output

Explore

faculdade
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk

faculdade Statistic df Sig. Statistic df Sig.


altura FMH ,265 10 ,045 ,794 10 ,012
*
ISA ,173 13 ,200 ,921 13 ,256
*.
a.

Relativamente aos testes de normalidade


H0 : X FMH tem distribuição normal
vs
H1 : X FMH não tem distribuição normal ,
o valor observado da estatística de teste de Shapiro-Wilk é w  0.794 , ao qual
corresponde o p-value p  0.012 .
Deste modo, ao nível de significância de 5%, não podemos admitir válidas as
suposições de normalidade de cada uma das populações (pois, há um p-value
inferior a 0.05).
Como o resultado do teste de normalidade de Shapiro-Wilk não permite considerar
válida a suposição de normalidade da altura dos alunos da FMH, a comparação
das alturas dos alunos da FMH e do ISA deve ser feita recorrendo ao teste de
Wilcoxon-Mann-Whitney.
Para testar as hipóteses
H0 : As distribuições dos ranks de X FMH e X ISA são idênticas
vs
H1 : As distribuições dos ranks de X FMH e X ISA não são idênticas
efetua-se o teste de Wilcoxon-Mann-Whitney cujo output do software SPSS é

30
Inferência estatística para duas populações

NPar Tests

Mann-Whitney Test
Ranks

faculdade N Mean Rank


altura FMH 10 8,65 86,50
ISA 13 14,58 189,50
Total 23

a
Test Statistics

altura
Mann-Whitney U 31,500
Wilcoxon W 86,500
Z -2,083
Asymp. Sig. (2-tailed) ,037
b
Exact Sig. [2*(1-tailed Sig.)] ,036
Exact Sig. (2-tailed) ,037
Exact Sig. (1-tailed) ,018
Point Probability ,001
a.

b.

O valor observado da estatística de teste é T10,13  86.5 (pode ser apresentado o


valor da estatística U  31.5 ) ao qual corresponde o p-value p  0.037 (Exact Sig.
(2-tailed)). Deste modo, ao nível de significância de 5%, rejeitamos a hipótese nula
e conclui-se que há diferença significativa na distribuição dos ranks das alturas dos
alunos da FMH e do ISA.

Exemplo 7.4
Recordemos que
X1 – peso de um estudante no início do programa de emagrecimento,
X 2 – peso de um estudante no final do programa de emagrecimento,
D  X1  X 2 .
Pretendemos testar as hipóteses:
H0 : D  0 vs H1 : D  0 .
Começamos por testar as hipóteses
H0 : D tem distribuição normal vs H1 : D não tem distribuição normal .
Utilizando o software estatístico SPSS, obtemos o output

31
Estatística II

Explore
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
*
peso inicial - peso final ,135 12 ,200 ,962 12 ,818
*.
a.

Como o valor observado da estatística do teste de Shapiro-Wilk é w  0.962 , ao


qual corresponde o p-value p  0.818 , não rejeitamos H0 ao nível de significância
de 5% (pois p  0.05 ). É, portanto, de admitir a normalidade da variável que
representa a diferença de peso e, assim, podemos efetuar o teste t para amostras
emparelhadas. O output do software SPSS referente a este teste é

T-Test
Paired Samples Statistics

Mean N Std. Deviation


Pair 1 peso inicial 71,542 12 3,9530 1,1411
peso final 71,075 12 3,5087 1,0129

Paired Samples Correlations

N Correlation Sig.
Pair 1 peso inicial & peso final 12 ,928 ,000

Paired Samples Test

Paired Differences

Mean Lower Upper t df Sig. (2-tailed)


Pair 1 peso inicial - peso final ,4667 1,4798 ,4272 -,4735 1,4069 1,092 11 ,298

O valor observado da estatística de teste é t  1.092 , a que corresponde o p-value


p  0.298 / 2  0.149 (o p-value apresentado no output é do teste de hipóteses
bilateral, sendo necessário dividir por 2 para obter o p-value do teste de hipóteses
unilateral anteriormente enunciado). Assim, para o nível de significância de 5%
não se rejeita H0 , não sendo portanto possível concluir que o programa de
emagrecimento é eficaz.
De referir que a 1ª tabela do teste t fornece as características amostrais para cada
uma das amostras. Na 2ª tabela é apresentado o coeficiente de correlação linear de
Pearson entre X1 e X 2 , r  0.928 , o que evidencia uma correlação elevada entre
as duas variáveis. Na 3ª tabela do output do teste de hipóteses é apresentado um
intervalo a 95% de confiança, para a diferença dos valores médios 1  2 :
0.474 ,1.407  .
 

32
Inferência estatística para duas populações

Exemplo 7.5
Recordemos que
X1 – tempo despendido por uma criança na realização da tarefa antes do
processo de aprendizagem,
X 2 – tempo despendido por uma criança na realização da tarefa depois do
processo de aprendizagem,
D  X1  X 2 ,
e que pretendemos comparar os tempos obtidos pelas crianças antes e depois da
aprendizagem.
Começamos por testar as hipóteses
H0 : D tem distribuição normal vs H1 : D não tem distribuição normal .
Utilizando o software estatístico SPSS, obtemos o output

Explore
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.

.233 10 .134 .817 10 .023

a.

Como o valor observado da estatística do teste de Shapiro-Wilk é w  0.817 , ao


qual corresponde o p-value p  0.023 , rejeitamos H0 ao nível de significância de
5% (pois p  0.05 ). Dado que não é válida a suposição de normalidade da
diferença, a comparação dos tempos deve ser feita recorrendo ao teste de Wilcoxon.
Para testar as hipóteses
H0 : As distribuições dos ranks de X1 e X 2 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas
efetua-se o teste de Wilcoxon cujo output do software SPSS é

NPar Tests

Wilcoxon Signed Ranks Test


Ranks

N
a
Negative Ranks 4 4.00 16.00
Positive Ranks b
6 6.50 39.00
c
Ties 0
Total 10
a.

b.
c.

33
Estatística II

a
Test Statistics

Z -1.191 b
Asymp. Sig. (2-tailed) .234
Exact Sig. (2-tailed) .281
Exact Sig. (1-tailed) .141
Point Probability .035
a.

b.

O valor observado da estatística de teste é T   39 ao qual corresponde o p-value


p  0.281 (Exact Sig. (2-tailed)). Deste modo, ao nível de significância de 5%, não
rejeitamos a hipótese nula, o que significa que não é de admitir que haja diferença
significativa nas distribuições dos ranks dos tempos antes e depois da
aprendizagem.

De notar que, neste caso, tem-se n  15 e portanto não se verifica a condição


necessária para aproximação à distribuição normal. De qualquer modo, o software
SPSS apresenta sempre o resultado do teste com a aproximação da distribuição de
T  ou T  à distribuição normal. No caso deste exemplo, o software SPSS efetua a
aproximação da distribuição de T  à distribuição normal e, assim, o valor
apresentado para z é o simétrico do valor obtido quando se faz a aproximação com
base na estatística T  .

34
Capítulo 8
Inferência estatística para mais de duas populações
com base em amostras independentes
8 Inferência estatística para mais de duas populações com base em amostras independentes

8.1. Introdução

Neste capítulo vamos apresentar testes de hipóteses para a comparação de valores


médios – análise de variância simples – e para a comparação de variâncias – teste de
Levene – de populações normais, com base em mais de duas amostras independentes.
Como sabemos os métodos de inferência paramétrica para a comparação dos valores
médios têm alguns pressupostos que não sendo verificados nos remetem para a utilização
de métodos não paramétricos, como por exemplo o teste de Kruskal-Wallis.

Os métodos de inferência apresentados são ilustrados através de aplicações com o


software estatístico SPSS.

Exemplo 8.1
O diretor de um estabelecimento de ensino pré-escolar pretende comparar o tempo
médio de execução, em quatro tarefas distintas, realizado por crianças com cinco
anos de idade. As crianças são selecionadas aleatoriamente para fazer parte do
estudo, sendo também aleatória a atribuição das tarefas. Deste modo,
constituem-se quatro grupos de crianças, cada um dos quais irá desempenhar uma
tarefa e regista-se os tempos (em minutos) de execução das tarefas.

Como fazer para averiguar se existe diferença significativa entre o tempo médio de
execução das quatro tarefas?
Estatística II

Considere que no estudo participaram 36 crianças e designemos por A , B , C , D


as quatro tarefas. Os tempos de execução (em minutos) obtidos pelas crianças nas
tarefas foram os seguintes

observações
tempo tarefa A 31 25 28 30 32 28 29 31 27
tempo tarefa B 24 26 27 25 30 32 28 27 29 25
tempo tarefa C 30 31 30 28 31 30 28 32
tempo tarefa D 25 27 26 23 21 22 24 22 26

Será admissível utilizar C 24  6 vezes o teste t para a comparação entre dois


valores médios em amostras independentes?

Se efetuarmos um teste t , ao nível de significância   0.05 , para a comparação


de dois valores médios, a probabilidade de não rejeitar a hipótese nula sendo ela
verdadeira é 0.95. Assim, se os 6 testes t fossem independentes, a probabilidade
conjunta de não rejeitar a hipótese nula sendo ela verdadeira seria

0.95  0.95  0.95  0.95  0.95  0.95  0.735

e a probabilidade conjunta de cometer um erro de tipo I seria


  1  0.735  0.265 . O que mostra que ao efetuar vários testes t deixamos de
conseguir controlar o nível de significância do teste.

Quando pretendemos comparar os valores médios de mais de duas populações devemos


utilizar, caso se verifiquem as condições de aplicabilidade, o método de análise de
variância simples, que permite testar simultaneamente a igualdade de todos os valores
médios. Este método não é mais do que a generalização a mais de duas populações do
teste t para a comparação de valores médios com base em amostras independentes.

8.2. Análise de variância simples

Sejam X11, X12, , X1n1  , X 21, X 22, , X 2n2  ,  , Xk 1, Xk 2, , Xknk  k amostras
aleatórias independentes, de dimensões n1 , n2 ,  , nk , provenientes de k populações
(ou grupos) com distribuição normal, X1  N 1, 1  , X 2  N 2, 2  ,  ,
Xk  N k , k  , respetivamente. Pretende-se testar

36
Inferência estatística para mais de duas populações com base em amostras independentes

H0 : 1  2    k vs H1 : pelo menos dois dos valores médios são diferentes .


Para fazer inferência sobre os parâmetros i , i  1, , k , consideramos um efeito médio
global que pode ser avaliado por
k ni
1
X
N   Xi j ,
i 1 j 1

onde N  n1  n2    nk é a dimensão da amostra global, e um efeito médio em cada


grupo, que pode ser avaliado por
ni
1
Xi 
ni
 Xi j , i  1,, k .
j 1

Para inferir sobre os valores médios é necessário considerar a variabilidade global que
pode ser medida por
k ni k ni

   
2 2
SST    Xij  X    Xij  Xi  Xi  X
i 1 j 1 i 1 j 1

k ni k ni k
  Xi j  Xi    ni Xi  X 
2 2
   Xi j  Xi   2 Xi  X .
i 1 j 1 i 1 j 1 i 1

Tendo em conta que


ni k ni

 Xi j  Xi   0  2  Xi  X   X ij  Xi   0 ,
j 1 i 1 j 1

logo
k ni k
 .
2 2
SST    Xij  Xi    ni Xi  X
i 1 j 1 i 1

Deste modo, a variação total é decomposta em duas parcelas,


k ni
2
  Xij  Xi   SSW
i 1 j 1

que mede a variabilidade dentro dos grupos e


k
 ni Xi  X 
2
 SS B
i 1

que mede a variabilidade entre os grupos.


Admitindo a homogeneidade de variâncias, isto é, que 12  22    k2   2 , e sob a
validade de H0 , 1  2    k   , prova-se que

37
Estatística II

SS B
k  1
F 
2
 Fk 1,N k ,
SSW
N  k 
2

isto é, a distribuição de amostragem da estatística de teste F é a distribuição F de


Fisher-Snedecor com k  1 graus de liberdade no numerador e N  k graus de liberdade
no denominador.
Designando por
SS B SSW
MS B  e MSW 
k 1 N k

os quadrados médios entre grupos e os quadrados médios dentro dos grupos,


respetivamente, a estatística F é dada por
MS B
F .
MSW

Se a hipótese nula for verdadeira, é de esperar que MS B e MSW sejam idênticos e,


portanto, o quociente entre ambos assuma valores próximos da unidade. Caso contrário,
isto é, se a hipótese nula for falsa, será de esperar que MS B seja superior a MSW e como
consequência que o quociente MS B / MSW assuma valores superiores a 1.

Testes de hipóteses para a comparação de valores médios

Hipóteses a testar:
H0 : 1  2    k
vs
H1 : r  s para algum par r , s  com r , s  1, 2,  , k  e r  s.

Estatística de teste:
SS B
MS B
F  k 1 
SSW MSW
N k
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com k  1 e
N  k graus de liberdade.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se f  Fk 1,N k ;1 , sendo f o valor
observado da estatística de teste e Fk 1,N k ;1 o quantil de probabilidade 1  
da distribuição F de Fisher-Snedecor com k  1 graus de liberdade no numerador
e N  k graus de liberdade no denominador.

38
Inferência estatística para mais de duas populações com base em amostras independentes

Nota:
Os parâmetros sobre os quais se está a fazer inferência são os valores médios, no
entanto, a estatística de teste é definida à custa da decomposição da variabilidade,
razão pela qual se chama a este método análise de variância.

Para tornar a tarefa de cálculo menos árdua é habitual substituir as expressões


apresentadas por outras equivalentes e de cálculo mais fácil. Assim, demonstra-se que
k ni k ni

 
2
SST    Xij  X    Xij2  NX 2 ,
i 1 j 1 i 1 j 1

k k
   n X
2
SS B   ni Xi  X i
2
i  NX 2 ,
i 1 i 1

k ni k ni k
2
SSW    Xij  Xi     Xij2   ni Xi2 .
i 1 j 1 i 1 j 1 i 1

Os dados relativos à análise de variância podem ser sumariados e apresentados numa


tabela do tipo

observações dimensões somas médias

1 x 11 x 12  x 1n1 n1 n
 j 11 x 1 j x1
x 21 x 22  x 2n2 n2 n
 j 2 1 x 2 j x2
grupos

2
       
k xk1 xk 2  x knk nk nk
j 1 x kj xk
N   x ij x

No que respeita aos resultados, estes costumam ser apresentados sob a forma de um
quadro que designamos por tabela ANOVA, mais precisamente, one-way ANOVA

Fonte de Soma de Graus de Quadrados


F
variação quadrados liberdade médios
Entre os grupos SS B k 1 MS B MS B
MSW
Dentro dos grupos SSW N k MSW

Total SST N 1

Exemplo 8.1 (continuação)

Assumindo que existe normalidade e igualdade de variâncias dos tempos de


execução das tarefas, vamos averiguar se existe diferença significativa entre os
tempos médios de execução das quatro tarefas, para o nível de significância de 5%.

39
Estatística II

Resolução:
Sejam as variáveis aleatórias
Xi – tempo de execução da i -ésima tarefa realizada por uma criança de 5 anos,
em que Xi  N i ,   , i  A, B,C , D .
Pretendemos testar as hipóteses
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes.
Para calcular o valor observado da estatística de teste, é conveniente completar a
tabela de dados escrevendo
n
observações ni j
i
1 x ij xi
tempo tarefa A 31 25 28 30 32 28 29 31 27 9 261 29
tempo tarefa B 24 26 27 25 30 32 28 27 29 25 10 273 27.3
tempo tarefa C 30 31 30 28 31 30 28 32 8 240 30
tempo tarefa D 25 27 26 23 21 22 24 22 26 9 216 24
N  36 990 x  27.5

Com estes valores já é mais fácil obter as somas dos quadrados


4 ni
SST    x ij2  N x 2  27552  36  27.52  27552  27225  327.0 ,
i 1 j 1

4
SS B   ni x i2  N x 2  9  292  10  27.32  8  302  9  242   27225
i 1
 27405.9  27225  180.9,
4 ni 4
SSW    x ij2   ni x i2  27552  27405.9  146.1 .
i 1 j 1 i 1

A tabela ANOVA para este conjunto de dados é:

Fonte de Soma de Graus de Quadrados


F
variação quadrados liberdade médios
Entre os grupos 180.9 3 60.3 13.207
Dentro dos grupos 146.1 32 4.566
Total 327.0 35

Para   0.05 e consultando a tabela da distribuição F de Fisher-Snedecor,


obtemos
F(k 1,N k ;1)  F(3,32;0.95)  F(3,30;0.95)  2.922 .

40
Inferência estatística para mais de duas populações com base em amostras independentes

Como f  13.207  2.922 , rejeitamos a hipótese nula para   0.05 , isto é, para
este nível de significância podemos concluir que existe diferença significativa entre
pelo menos dois dos tempos médios de execução das tarefas.

Neste exemplo. verificámos a existência de diferenças significativas entre os tempos


médios de execução de pelo menos duas das tarefas A , B , C ou D . Mas quais as
tarefas responsáveis pela rejeição da hipótese de igualdade dos tempos médios de
execução? Para responder a esta questão temos que efetuar um teste de comparações
múltiplas.

Nota:
O exemplo apresentado é um exemplo meramente académico no sentido em que
apresenta uma situação pouco aconselhável para a aplicação da análise de
variância simples pelo facto das amostras terem dimensão reduzida. A razão para a
utilização destes dados prende-se com a necessidade de exemplificar os cálculos
associados ao método de análise de variância simples.

Testes de comparações múltiplas para a ANOVA simples

Quando verificamos que os k valores médios não são todos iguais, estamos interessados
em saber quais desses k valores médios são responsáveis pelas diferenças. Como já foi
referido, a aplicação de testes t de Student para a comparação de cada par de valores
médios não é correta, pois teríamos que efetuar um elevado número de testes, mais
precisamente C 2k , sendo difícil conhecer com exatidão o nível de significância global.
A solução para este problema consiste em formular testes de comparações múltiplas, que
permitem investigar onde se encontram as possíveis diferenças entre os k valores
médios, controlando simultaneamente o nível de significância global. O teste HSD
(honestly significant difference) de Tukey, o teste de Scheffé e o teste de Duncan são
alguns exemplos de testes de comparações múltiplas. Estes testes diferem no modo como
analisam as diferenças entre os valores médios e no método de controlo do nível de
significância. Em qualquer um destes testes, efetua-se
k! k k  1
C 2k  
2! k  2 ! 2

comparações cujas hipóteses são


H0 : r  s vs H1 : r  s , com r , s  1,2, , k  e r  s.
Utilizaremos o software SPSS sempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de Tukey
são apresentadas na Secção 8.5.
41
Estatística II

8.3. Validação de pressupostos da ANOVA simples

O método de análise de variância simples pressupõe a existência de normalidade e de


igualdade das variâncias das k populações. Assim, antes de testarmos a igualdade dos
valores médios, devemos validar estes dois pressupostos.

Para testar a normalidade das populações recorre-se a um dos testes de normalidade, o


teste de Shapiro-Wilk ou o teste de Kolmogorov-Smirnov.

Para testar a igualdade de variâncias das k populações, utiliza-se o teste de Levene,


cujas hipóteses são
H0 : 12  22    k2
vs
H1 : r2  s2 para algum par r , s  com r , s  1,2, , k  e r  s.
Considera-se uma nova variável Dij (i  1, 2,  , k , j  1, 2,  , ni ) tal que
Dij  Xij  Xi
isto é, os valores observados de Dij correspondem ao módulo da diferença entre os
valores observados para cada indivíduo, Xij , e a média do grupo a que o indivíduo
pertence, Xi . Para realizar o teste de Levene utiliza-se esta nova variável sobre a qual é
efetuada uma análise de variância simples.

Exemplo 8.1 (continuação)


Utilizando o teste de Levene e o nível de significância de 5%, verifique se podemos
admitir a igualdade de variâncias dos tempos de execução das quatro tarefas.

Resolução:
Para testar a igualdade de variâncias
H0 : A2  B2  C2  D2
vs
H1 : pelo menos duas das variâncias são diferentes.

Os valores observados da variável Dij são apresentados na tabela

dij ni di
tempo tarefa A 2 4 1 1 3 1 0 2 2 9 1.778
tempo tarefa B 3.3 1.3 0.3 2.3 2.7 4.7 0.7 0.3 1.7 2.3 10 1.960
tempo tarefa C 0 1 0 2 1 0 2 2 8 1.000
tempo tarefa D 1 3 2 1 3 2 0 2 2 9 1.778

N  36 d  1.656

42
Inferência estatística para mais de duas populações com base em amostras independentes

Depois calcula-se
SST  146.1  36  1.6562  47.429 ,

SS B  9  1.7782  10  1.962  8  12  9  1.7782   36  1.6562  4.634 ,

SSW  146.1  9  1.7782  10  1.962  8  12  9  1.7782   42.795 .

A tabela ANOVA para este conjunto de dados é:

Fonte de Soma de Graus de Quadrados


F
variação quadrados liberdade médios
Entre os grupos 4.634 3 1.545 1.155
Dentro dos grupos 42.795 32 1.337
Total 47.429 35

Para   0.05 e consultando a tabela da F de Fisher-Snedecor, F3,32;0.95  2.922 .


Como f  1.155  F3,32;0.95  2.922 , não rejeitamos a hipótese nula para
  0.05 , ou seja, para este nível de significância podemos admitir que existe
igualdade (homogeneidade) de variâncias.

Notas:
1. Sendo a homogeneidade de variâncias um pressuposto da ANOVA, o teste de
Levene deve ser efetuado antes do teste de análise de variância simples para
comparação de valores médios. Utilizaremos o software SPSS sempre que for
necessário efetuar o teste de Levene. A ilustração e a interpretação deste teste
são apresentadas na Secção 8.5.
2. Tal como para o teste t para amostras independentes, também para a análise
de variância simples, Welch propôs uma correção à estatística de teste no caso
em que falha a suposição de igualdade de variâncias. Utilizaremos o software
SPSS sempre que for necessário efetuar o cálculo da estatística de Welch.
3. O teste de Tukey pode ser uma opção para teste de comparações múltiplas
quando se verifica a igualdade de variâncias. Quando este pressuposto falha,
pode utilizar-se, por exemplo, o teste de Games-Howell. Utilizaremos o software
SPSS sempre que for necessário efetuar os testes de comparações múltiplas de
Tukey ou de Games-Howell.

43
Estatística II

8.4. Teste de Kruskal-Wallis

O teste de Kruskal-Wallis é um método não paramétrico para a comparação de mais de


duas populações com base em amostras independentes. Este teste pode constituir
também uma alternativa ao teste paramétrico para comparação de mais de dois valores
médios com base em amostras independentes (análise de variância simples) em alguma
das seguintes situações: (i) pelo menos uma das amostras ter dimensão reduzida; (ii)
pelo menos uma das amostras não ser proveniente de uma população normal; (iii) as
variáveis estarem numa escala ordinal.
Este teste é uma generalização do teste de Wilcoxon-Mann-Whitney para mais de dois
grupos.

Hipóteses a testar:

H0 : As distribuições dos ranks das k populações são idênticas


vs
H1 : As distribuições dos ranks das k populações não são idênticas.

O teste de Kruskal-Wallis utiliza as ordens (ranks) das observações em vez das próprias
observações. Se a hipótese nula for verdadeira é de esperar que qualquer ordem possa ser
atribuída a qualquer uma das observações das k amostras. Se a hipótese nula não for
verdadeira, pelo menos uma das amostras tem ranks bastante distintos das restantes.

Seja ni , i  1, , k , a dimensão da i -ésima amostra e N  n1    nk a dimensão da


amostra combinada. Representa-se por Ri , i  1, , k , a soma dos ranks, na amostra
combinada, das observações da i -ésima amostra e por Ri  Ri / ni a respetiva média.

Estatística de teste:
k
12 Ri2
N N  1 
H   3 N  1
i 1
ni

que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k  1


graus de liberdade.

No caso de haver empates na ordenação da amostra conjunta atribui-se, a cada


observação empatada de um dado grupo de empates, o rank médio das observações
desse grupo de empates e, neste caso, deve corrigir-se a estatística de teste e
utilizar

44
Inferência estatística para mais de duas populações com base em amostras independentes

k
12 Ri2
N N  1  ni
 3 N  1
i 1
H  g

 l3  l 
l 1
1
N3 N

sendo g o número de grupos de observações empatadas e l o número de


observações empatadas no l –ésimo grupo de empates.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se H  2k 1;1 , sendo H o valor
observado da estatística de teste e 2k 1; o quantil de probabilidade  da
distribuição qui-quadrado com k  1 graus de liberdade.

Exemplo 8.2
Um investigador pretende comparar a sociabilidade de alunos universitários de
diferentes áreas (Letras, Desporto e Ciências). Com esse objetivo, selecionou
aleatoriamente alunos de cada uma das três áreas e aplicou um teste padronizado
de sociabilidade, tendo obtido os scores (numa escala de 0 a 100)

score aluno Letras 56 89 65 78 64


score aluno Desporto 88 80 75 82 70 81
acore aluno Ciências 23 49 57 50 58 61

Para   0.05, será que existe diferença entre os scores de sociabilidade de alunos
das três áreas?

Resolução:
Considere as variáveis aleatórias
X1 – score de sociabilidade de um aluno de Letras,
X 2 – score de sociabilidade de um aluno de Desporto,
X 3 – score de sociabilidade de um aluno de Ciências.

Como as amostras têm dimensão reduzida, vai utilizar-se o teste de Kruskal-Wallis


para testar as hipóteses
H0 : As distribuições dos ranks de X1, X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1, X 2 e X 3 não são idênticas.

Neste caso k  3 , n1  5 , n2  6 , n 3  6 e N  17 .
Efetuando a ordenação da amostra combinada obtemos a seguinte tabela

45
Estatística II

score aluno Letras 56 89 65 78 64


rank score aluno Letras 4 17 9 12 8
score aluno Desporto 88 80 75 82 70 81
rank score aluno Desporto 16 13 11 15 10 14
score aluno Ciências 23 49 57 50 58 61
rank score aluno Ciências 1 2 5 3 6 7

As somas dos ranks das amostras são dadas por


R1  4  17  9  12  8  50 ,

R2  16  13  11  15  10  14  79 ,

R3  1  2  5  3  6  7  24 .
O valor observado da estatística de teste é
3
12 Ri2
H    3  18
17  18 i 1 ni
12  502 792 242 
       3  18  10.163.
17  18  5 6 6 

Como H  10.163  22;0.95  5.991 , rejeita-se a hipótese nula ao nível de


significância de 5%, logo é de admitir que há diferença significativa na
sociabilidade dos alunos de pelo menos duas das áreas.

Testes de comparações múltiplas para o teste de Kruskal-Wallis

Os testes de comparações múltiplas para o teste de Kruskal-Wallis permitem também


investigar onde se encontram as possíveis diferenças, controlando simultaneamente o
nível de significância global. O teste de Dunn-Bonferroni e o teste de Conover e Iman
são dois exemplos desses testes de comparações múltiplas. Tal como nas comparações
múltiplas paramétricas, pretende efetuar-se, simultaneamente, C 2k comparações cujas
hipóteses são
H0 : As distribuições dos ranks das populações r e s são idênticas
vs
H1 : As distribuições dos ranks das populações r e s não são idênticas,
com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSS sempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de
Dunn-Bonferroni são apresentadas na Secção 8.5.

46
Inferência estatística para mais de duas populações com base em amostras independentes

Notas:
1. Pela mesma razão que não fazemos vários testes t de Student para perceber
entre que grupos existem diferenças significativas quando se rejeita a hipótese
nula da análise de variância, também não é correto utilizar vários testes de
Wilcoxon-Mann-Whitney para detetar entre que grupos existem diferenças
significativas quando se rejeita a hipótese nula do teste de Kruskal-Wallis.
2. O software SPSS disponibiliza o teste de Dunn-Bonferroni que, no entanto, não é
tão potente quanto o de Conover e Iman.

8.5. Ilustrações com SPSS

Exemplo 8.1
Recordemos que
Xi – tempo de execução da i -ésima tarefa realizada por uma criança de 5 anos,
em que E Xi   i e v a r Xi   i2 , i  A, B,C , D .
Pretendemos testar as hipóteses:
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes .

Comecemos por verificar os pressupostos da ANOVA simples.


Para averiguar a suposição de normalidade efetuamos quatro testes de hipóteses

H0 : Xi tem distribuição normal vs H1 : Xi não tem distribuição normal ,


i  A, B,C , D .
Utilizando o software estatístico SPSS, obtemos o output

Explore
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk

tarefa Statistic df Sig. Statistic df Sig.


*
tempo A ,148 9 ,200 ,962 9 ,817
*
B ,148 10 ,200 ,960 10 ,783
C ,250 8 ,150 ,897 8 ,273
*
D ,160 9 ,200 ,938 9 ,564
*.
a.

47
Estatística II

Os valores observados da estatística de teste de Shapiro-Wilk são wA  0.962 ,


wB  0.960 , wC  0.897 e wD  0.938 aos quais corresponde os p-values
pA  0.817 , pB  0.783 , pC  0.273 e pD  0.564 , respetivamente. Deste modo,
ao nível de significância de 5%, podemos admitir válidas as suposições de
normalidade de cada uma das populações (todos os p-values são superiores a 0.05).
No que respeita à homogeneidade de variâncias vamos testar as hipóteses
H0 : A2  B2  C2  D2
vs
H1 : pelo menos duas das variâncias são diferentes.

O teste de Levene é disponibilizado, no software estatístico SPSS, conjuntamente


com a tabela da ANOVA

Oneway
Descriptives

tempo

N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
A 9 29,00 2,236 ,745 27,28 30,72 25 32
B 10 27,30 2,497 ,790 25,51 29,09 24 32
C 8 30,00 1,414 ,500 28,82 31,18 28 32
D 9 24,00 2,121 ,707 22,37 25,63 21 27
Total 36 27,50 3,057 ,509 26,47 28,53 21 32

Test of Homogeneity of Variances

tempo

df1 df2 Sig.


1,155 3 32 ,342

ANOVA

tempo

df Mean Square F Sig.


Between Groups 180,900 3 60,300 13,207 ,000
Within Groups 146,100 32 4,566
Total 327,000 35

O valor observado para a estatística do teste de Levene é f  1.155 , ao qual


corresponde o p-value p  0.342 . Assim, para o nível de significância de 5%, não
se rejeita a hipótese de homogeneidade de variâncias (pois p  0.05 ).
Estamos, agora, em condições de efetuar o teste de análise de variância para
comparação de valores médios, isto é
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes .

48
Inferência estatística para mais de duas populações com base em amostras independentes

O valor observado da estatística de teste da ANOVA é f  13.207 , a que


corresponde o p-value p  0.001 . Para o nível de significância de 5% rejeita-se H0
(pois p  0.05 ), sendo portanto de admitir que o tempo médio de execução não é
idêntico para todas as tarefas. Vamos efetuar o teste de Tukey para comparações
múltiplas de modo a identificar as tarefas responsáveis pelas diferenças. Fazemos
C 24  6 comparações simultâneas, com as hipóteses
H0 : r  s vs H1 : r  s , com r , s  A, B,C , D e r  s .

Post Hoc Tests

Ao testar
H0 : A  B vs H1 : A  B ,
obtém-se para a estatística de teste o valor de 1.7/0.982  1.732 , a que
corresponde o p-value p  0.325 .
Ao testar
H0 : A  C vs H1 : A  C ,
obtém-se para a estatística de teste o valor de 1.0/1.038  0.963 , a que
corresponde o p-value p  0.771 .
Ao testar
H0 : A  D vs H1 : A  D ,
obtém-se para a estatística de teste o valor de 5.0/1.007  4.964 , a que
corresponde o p-value p  0.001 .

49
Estatística II

Ao testar
H0 : B  C vs H1 : B  C ,
obtém-se para a estatística de teste o valor de 2.7/1.014  2.664 , a que
corresponde o p-value p  0.055 .
Ao testar
H0 : B  D vs H1 : B  D ,
obtém-se para a estatística de teste o valor de 3.3/0.982  3.361 , a que
corresponde o p-value p  0.010 .
Ao testar
H0 : C  D vs H1 : C  D ,
obtém-se para a estatística de teste o valor de 6.0/1.038  5.779 , a que
corresponde o p-value p  0.001 .
Assim, ao nível de significância de 5%, rejeita-se as hipóteses nulas A  D
( p  0.001  0.05 ), B  D ( p  0.010  0.05 ) e C  D ( p  0.001  0.05 ),
concluindo-se que existe diferença significativa entre os tempos médios de execução
da tarefa D e os tempos médios de execução das outras três tarefas ( A , B e C ).

Exemplo 8.2
Recordemos que
X1 – score de sociabilidade de um aluno de Letras,
X 2 – score de sociabilidade de um aluno de Desporto,
X 3 – score de sociabilidade de um aluno de Ciências.
Atendendo às dimensões das amostras, tal como foi referido anteriormente, vamos
efetuar o teste de Kruskal-Wallis, testando as hipóteses
H0 : As distribuições dos ranks de X1, X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1, X 2 e X 3 não são idênticas.
Utilizando o software estatístico SPSS, obtemos o output

NPar Tests

Kruskal-Wallis Test
Ranks

área N Mean Rank


score de sociabilidade Letras 5 10,00
Desporto 6 13,17
Ciências 6 4,00
Total 17

50
Inferência estatística para mais de duas populações com base em amostras independentes

Test Statistics a,b

Chi-Square 10,163
df 2

Asymp. Sig. ,006


Exact Sig. ,002
Point Probability ,000
a.

b.

O valor observado para a estatística do teste de Kruskal-Wallis é H  10.163 , ao


qual corresponde o p-value p  0.002 (Exact Sig.). Assim, para   0.05 ,
rejeita-se a hipótese de igualdade dos scores de sociabilidade dos alunos das três
áreas (pois p  0.05 ).
Um valor da estatística de teste significativo indica que existe, pelo menos, um par
de grupos que diferem entre si. Para encontrar quais os grupos que diferem, é
necessário efetuar um teste de comparações múltiplas, por exemplo, o teste de
Dunn-Bonferroni, cujo output é

Ao testar
H0 : As distribuições dos ranks de X1 e X 2 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas
obtém-se para a estatística de teste o valor de −1.036, a que corresponde o p-value
p  0.901 .
Ao testar
H0 : As distribuições dos ranks de X1 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 3 não são idênticas
obtém-se para a estatística de teste o valor de 1.962, a que corresponde o p-value
p  0.149 .

51
Estatística II

Ao testar
H0 : As distribuições dos ranks de X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X 2 e X 3 não são idênticas
obtém-se para a estatística de teste o valor de 3.144, a que corresponde o p-value
p  0.005 .
Ao nível de significância de 5%, conclui-se que apenas existe diferença significativa
entre os scores de sociabilidade dos alunos de Desporto e Ciências.

Nota:
A obtenção do p-value exato para o teste de Kruskal-Wallis requer um esforço
computacional elevado, sendo, em geral, difícil de obter, pelo que se utiliza
habitualmente o p-value assintótico.

52
Capítulo 9
Inferência estatística para mais de duas populações
com base em medidas repetidas
9 Inferência estatística para mais de duas populações com base em medidas repetidas

9.1. Introdução

Usa-se a expressão medidas repetidas para descrever situações em que a mesma


característica é avaliada, no mesmo indivíduo, em mais que uma situação ou ocasião. Os
conjuntos de dados resultantes de medições repetidas caracterizam-se pela existência de
dependência entre as observações referentes ao mesmo indivíduo. Comparativamente aos
delineamentos experimentais com observações independentes, os delineamentos com
medidas repetidas são, potencialmente, mais capazes de detetar os efeitos dos fatores em
estudo uma vez que diminuem a variabilidade não sistemática (variabilidade aleatória).
São exemplos de medidas repetidas os tempos obtidos por um conjunto de crianças de 5
anos na execução de diferentes tarefas, ou o peso registado semanalmente para os
participantes num programa de controlo de peso.

Exemplo 9.1
O diretor de um estabelecimento de ensino pré-escolar pretende comparar o tempo
médio de execução, em quatro tarefas distintas, realizado por crianças com 5 anos
de idade. As crianças são selecionadas aleatoriamente para fazer parte do estudo, e
cada uma das crianças irá desempenhar cada uma das tarefas por ordem também
aleatória.
Considere que no estudo participaram 8 crianças e designemos por A , B , C , D as
quatro tarefas. Os tempos de execução (em minutos) obtidos pelas crianças nas
tarefas foram os seguintes:
Estatística II

criança
1 2 3 4 5 6 7 8
tempo tarefa A 31 25 28 30 32 28 28 30
tempo tarefa B 24 26 27 25 30 32 28 27
tempo tarefa C 30 31 30 28 31 30 31 33
tempo tarefa D 25 27 26 23 21 22 26 25

Existirá diferença significativa entre os tempos médios de execução das quatro


tarefas?

Numa primeira análise, este exemplo parece idêntico ao Exemplo 8.1, no entanto, a
experiência foi planeada de forma bem distinta. No Exemplo 8.1 foram selecionadas 36
crianças, aqui apenas 8. No Exemplo 8.1 cada criança desempenhava apenas uma das
tarefas, aqui cada criança realiza as quatro tarefas. Neste caso, a análise a efetuar tem
que ter em conta o efeito do indivíduo, pois trata-se de uma experiência com medidas
repetidas.

9.2. Análise de variância simples para medidas repetidas

Considere-se uma experiência na qual um fator com k níveis é avaliado em n indivíduos.

Seja Xij , i  1,, k e j  1,, n , a variável aleatória que representa o valor observado
no i-ésimo nível do fator para o j-ésimo indivíduo. As variáveis Xij , com j  1,, n , são
 
independentes e identicamente distribuídas à variável Xi , sendo E Xi j  E Xi   i ,
para i  1,, k . Admita-se que as k amostras aleatórias são provenientes de uma
população com distribuição normal multivariada e que as variâncias das diferenças da
variável dependente entre cada par de níveis do fator são iguais.

Para averiguar se existe diferença nos valores médios de Xi entre os níveis do fator deve
testar-se, à semelhança do que acontece na análise de variância simples, as hipóteses
H0 : 1  2    k
vs
H1 : r  s para algum par r , s  com r , s  1, 2,  , k  e r  s.
Tal como no Capítulo 8, para inferir sobre os valores médios precisamos considerar a
variabilidade global. O efeito médio global pode ser avaliado por

54
Inferência estatística para mais de duas populações com base em medidas repetidas

k n
1
X
kn   Xi j
i 1 j 1

e o efeito médio associado ao indivíduo j pode ser avaliado por


k
1
Xj 
k  Xi j , j  1,, n .
i 1

Quando trabalhamos com observações independentes, a variabilidade global


k n
 
2
SST    Xij  X
i 1 j 1

é decomposta na soma de duas parcelas SS B e SSW , onde SS B representa a variabilidade


entre os grupos e SSW a variabilidade dentro dos grupos.
No contexto do planeamento com medidas repetidas pode ser feita a mesma
decomposição mas, neste caso, SS B representa a variabilidade que resulta das diferenças
entre indivíduos,
n
 ,
2
SS B  k  X j  X
j 1

e SSW a variabilidade que resulta da diferença “dentro” dos indivíduos


k n
2
SSW    Xij  X j  .
i 1 j 1

A diferença fundamental é que no planeamento com medidas repetidas, a variabilidade


devida ao fator em estudo está incluída na variabilidade “dentro” dos indivíduos e não na
variabilidade entre indivíduos. Neste caso, como há várias observações para cada
indivíduo (correspondentes aos níveis do fator), a variabilidade “dentro” dos indivíduos
não é apenas devida a fatores aleatórios, como acontecia na análise de variância simples
com base em amostras independentes, mas é também devida ao efeito do fator em estudo.
Neste caso,
n
1
Xi 
n  Xi j i  1,, k
j 1

permite avaliar o efeito médio do nível i do fator. Então SSW pode ser decomposta em
duas parcelas
k n k n
 
2
 
2
SSW    Xij  X j    Xij  Xi  Xi  X  X  X j
i 1 j 1 i 1 j 1

k n k n k n
      
2 2
   Xi X    Xij Xi X j X  2   Xi X Xij Xi X j X .
i 1 j 1 i 1 j 1 i 1 j 1

Tendo em conta que


k n k n
  
Xi  X  0  
2  X i  X X i j  X i  X j  X  0 ,  
i 1 j 1 i 1 j 1

55
Estatística II

logo
k k n
   
2 2
SSW  n  Xi  X    Xij  Xi  X j  X .
i 1 i 1 j 1

Podemos escrever
SSW  SS fator  SS E ,

onde
k
 ,
2
SS fator  n  Xi  X
i 1

k n
 
2
SS E    Xij  Xi  X j  X .
i 1 j 1

Representa-se por
SS B SSW SS fator SS E
MS B  , MSW  , MS fator  e MS E 
n 1 n(k  1) k 1 k  1n  1
o quadrado médio entre indivíduos, o quadrado médio “dentro” dos indivíduos, o
quadrado médio do fator em estudo e o quadrado médio do erro, respetivamente. Para
testar se existe diferença, em termos médios, entre os níveis do fator em estudo, utiliza-se
a estatística F dada por
MS fator
F
MS E

que tem distribuição F de Fisher-Snedecor com k  1 graus de liberdade no numerador e


k  1n  1 graus de liberdade no denominador.
Se a hipótese nula for verdadeira, é de esperar que MS fator e MS E sejam idênticos e,
portanto, o quociente entre ambos assuma valores próximos da unidade. Caso contrário,
isto é, se a hipótese nula for falsa, será de esperar que MS fator seja superior a MS E e
como consequência que o quociente MS fator MS E assuma valores superiores a 1.

Testes de hipóteses para a comparação de valores médios

Hipóteses a testar:
H0 : 1  2    k
vs
H1 : r  s para algum par r , s  com r , s  1, 2,  , k  e r  s.

56
Inferência estatística para mais de duas populações com base em medidas repetidas

Estatística de teste:
SS fator
k 1 MS fator
F 
SS E MS E
k  1n  1
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com k  1 graus
de liberdade no numerador e k  1n  1 graus de liberdade no denominador.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se f  Fk 1,k 1n 1;1 , sendo f o valor
observado da estatística de teste e Fk 1,k 1n 1;1 o quantil de probabilidade
1   da distribuição F de Fisher-Snedecor com k  1 graus de liberdade no
numerador e k  1n  1 graus de liberdade no denominador.

Nota:
Os cálculos a efetuar para a obtenção do valor observado para a estatística de teste
podem ser facilitados utilizando as expressões equivalentes
k n
X 2
SST    Xij2  ,
i 1 j 1 kn

n X 2j X 2
SSB    ,
j 1 k kn

k n n X 2j
SSW    Xij2   ,
i 1 j 1 j 1 k

k Xi2 X 2
SS fator    ,
i 1 n kn

SSE  SSW  SS fator ,


em que
k n n k
X     Xij , Xi    Xij e X  j   Xij .
i 1 j 1 j 1 i 1

Os dados relativos à análise de variância para medidas repetidas podem ser


sumariados e apresentados numa tabela do tipo

57
Estatística II

indivíduo

1 2  n somas

1 x 11 x 12  x 1n x 1
x 21 x 22  x 2n x 2

fator
2
     
k xk1 xk 2  x kn xk 
somas x 1 x 2  x n x 

No que respeita aos resultados, estes costumam ser apresentados sob a forma de um
quadro que designamos por tabela ANOVA para medidas repetidas

Fonte de Soma de Graus de Quadrados


variação quadrados liberdade médios
F
Entre os indivíduos SSB n 1 MSB

Dentro dos indivíduos SSW n k  1 MSW

Fator SS fator k 1 MS fator MS fator


MSE
Erro SSE k  1n  1 MSE

Total SST kn  1

Exemplo 9.1 (continuação)


Sejam as variáveis aleatórias
Xij – tempo de execução da i -ésima tarefa realizada pela j -ésima criança,
i  A, B,C , D , j  1, , 8 , em que E Xi j   i .
Pretendemos testar as hipóteses
H0 : A  B  C  D
vs
H1 : pelo menos dois valores médios são diferentes.
Para facilitar o cálculo do valor observado da estatística de teste podemos completar
a tabela apresentada na Secção 9.1,

criança
1 2 3 4 5 6 7 8 somas
tempo tarefa A 31 25 28 30 32 28 28 30 232
tempo tarefa B 24 26 27 25 30 32 28 27 219
tempo tarefa C 30 31 30 28 31 30 31 33 244
tempo tarefa D 25 27 26 23 21 22 26 25 195
somas 110 109 111 106 114 112 113 115 890

58
Inferência estatística para mais de duas populações com base em medidas repetidas

donde,
4 8
x 2 8902
SST    x ij2   25046   25046  24753.125=292.875 ,
i 1 j 1
48 32
8 x 2j x2 99072
SS B       24753.125  24768  24753.125=14.875 ,
j 1
4 48 4
4 8 8 x 2j
SSW    x ij2    25046  24768  278.000 ,
i 1 j 1 j 1
4

4 x i2 x 2 199346


SS fator      24753.125  165.125 ,
i 1 8 48 8

SSE  SSW  SS fator  278  165.125  112.875 .

A tabela ANOVA para medidas repetidas para este conjunto de dados é

Fonte de Soma de Graus de Quadrados F


variação quadrados liberdade médios
Entre os indivíduos 14.875 7 2.125
Dentro dos indivíduos 278.000 24 11.583
Fator 165.125 3 55.042 10.240
Erro 112.875 21 5.375
Total 292.875 31

Para   0.05 e consultando a tabela da distribuição F de Fisher-Snedecor,


obtemos
F k 1, k 1 n 1 ;1  F(3,21;0.95)  F(3,20;0.95)  3.098 .
    

Como f  10.240  3.098 , rejeitamos a hipótese nula para   0.05 , isto é, para
este nível de significância podemos concluir que existe diferença significativa entre
pelo menos dois dos tempos médios de execução das tarefas.

Testes de comparações múltiplas para a ANOVA simples para medidas repetidas

À imagem do que acontece na análise de variância simples para amostras independentes,


também na análise de variância simples para medidas repetidas, quando se rejeita a
hipótese de igualdade dos valores médios tem interesse saber entre que níveis do fator em
estudo se verificam essas diferenças. Para isso devem ser efetuados testes de comparações
múltiplas, com os ajustamentos de por exemplo Bonferroni ou Sidak, que permitem
averiguar entre que níveis há diferenças. Em qualquer um destes testes, efetua-se

59
Estatística II

k! k k  1
C 2k  
2! k  2 ! 2

comparações cujas hipóteses são


H0 : r  s vs H1 : r  s , com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSSsempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas com correção
de Bonferroni são apresentadas na Secção 9.5.

9.3. Validação de pressupostos da ANOVA simples para medidas


repetidas

Tal como no caso da ANOVA simples com base em amostras independentes, também na
ANOVA simples para medidas repetidas há pressupostos que é necessário verificar. Os
pressupostos da análise de variância simples para medidas repetidas incluem suposições
de normalidade e esfericidade (dado que se trata de observações não independentes, é
necessário impor condições sobre as variâncias e as covariâncias).

No que diz respeito à normalidade, as k amostras devem ser provenientes de uma


população com distribuição normal multivariada. Contudo, na prática, é usual averiguar
simplesmente se cada uma das k amostras é proveniente de uma população com
distribuição normal. Para verificar a condição de normalidade de cada população
recorre-se a um dos testes de normalidade, o teste de Shapiro-Wilk ou o teste de
Kolmogorov-Smirnov.

Em geral, a cov Xi , Xl  , i, l  1,2, , k , i  l , é não nula, pois as variáveis Xi e Xl não


são independentes, uma vez que são relativas ao mesmo indivíduo. Para efetuar o teste
ANOVA simples para medidas repetidas é necessário admitir a condição de esfericidade,
isto é, as var Xi  Xl  , i, l  1,2, , k , i  l , serem iguais. Para testar a esfericidade
utiliza-se o teste de Mauchly. As hipóteses deste teste podem ser escritas, de um modo
simplificado, como
H0 : existe esfericidade vs H1 : não existe esfericidade .
Utilizaremos o software SPSS sempre que for necessário efetuar o teste de Mauchly. A
ilustração e a interpretação deste teste são apresentadas na Secção 9.5.

60
Inferência estatística para mais de duas populações com base em medidas repetidas

Notas:
1. Quando falha o pressuposto de esfericidade, deve fazer-se uma correção ao
número de graus de liberdade da distribuição da estatística de teste, como por
exemplo a correção de Greenhouse-Geisser ou a de Huynh-Feldt. Utilizaremos o
software SPSS sempre que for necessário efetuar esta correção.
2. No caso em que falha o pressuposto de esfericidade, os testes de comparações
múltiplas com correções de Bonferroni ou de Sidak mantêm-se válidos.

9.4. Teste de Friedman

O teste de Friedman é um método não paramétrico para a comparação de mais de duas


populações com base em medidas repetidas. Este teste pode constituir também uma
alternativa ao teste paramétrico para comparação de mais de dois valores médios com
base em medidas repetidas (análise de variância simples para medidas repetidas) em
alguma das seguintes situações: (i) as amostras terem dimensão reduzida; (ii) as amostras
não serem provenientes de uma população com distribuição normal multivariada; (iii) as
variáveis estarem numa escala ordinal.

Hipóteses a testar:
H0 : As distribuições dos ranks das k populações são idênticas
vs
H1 : As distribuições dos ranks das k populações não são idênticas.

O teste de Friedman utiliza as ordens (ranks) das observações em vez das próprias
observações. Para efetuar o teste de Friedman atribuímos ordens às observações de cada
indivíduo separadamente. Se a hipótese nula for verdadeira é de esperar que a
distribuição das ordens seja idêntica em cada amostra.
Seja n a dimensão de cada uma das k amostras. Sob a validade de H0 , o valor esperado
para a soma das ordens em cada amostra (isto é, em cada nível do fator) é n k  1 / 2 . O
teste de Friedman determina quanto é que a soma das ordens para cada amostra, Ri ,
i  1, , k , difere do valor esperado.

Estatística de teste:
k
12
nk k  1 
F Ri2  3n k  1
i 1

61
Estatística II

que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k  1


graus de liberdade.
Quando há empates na ordenação das observações de cada indivíduo atribui-se, a
cada observação empatada de um dado grupo de empates, o rank médio dessas
observações e, neste caso, deve corrigir-se a estatística de teste e utilizar
k
12
nk k  1  Ri2  3n k  1
i 1
F n gj

   jl3   jl 
j 1 l 1
1
nk k 2  1

sendo g j o número de grupos de observações empatadas para o j -ésimo indivíduo e


 jl o número de observações empatadas no l –ésimo grupo de empates do j -ésimo
indivíduo.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se F  2k 1;1 , sendo F o valor
observado da estatística de teste e 2k 1;1 o quantil de probabilidade 1   da
distribuição qui-quadrado com k  1 graus de liberdade.

Exemplo 9.2
A fim de avaliar se houve diferença no aproveitamento dos alunos ao longo do ano
letivo, um professor observou as médias das classificações de dez alunos no final de
cada período

aluno 1 2 3 4 5 6 7 8 9 10
média 1º período 8 15 13 7 13 14 9 13 7 14
média 2º período 14 17 12 10 14 12 8 14 13 16
média 3º período 15 17 14 12 16 13 11 16 12 17

Que conclusão pode tirar, ao nível de significância de 5%, sobre as médias das
classificações obtidas pelos alunos no final dos três períodos?

Resolução:
Considere as variáveis aleatórias,
Xij – média da classificação no final do período i do aluno j, i  1,2, 3, j  1, ,10,
Xi – média da classificação no final do período i, i  1, 2, 3 .

Como X1 não segue uma distribuição normal (ver ilustração na Secção 9.5), vai
utilizar-se o teste de Friedman para testar as hipóteses

62
Inferência estatística para mais de duas populações com base em medidas repetidas

H0 : As distribuições dos ranks de X1, X 2 e X 3 são idênticas


vs
H1 : As distribuições dos ranks de X1, X 2 e X 3 não são idênticas.

Neste caso, k  3 e n  10 . Efetuando a ordenação das observações de cada aluno


obtemos a tabela de ranks

aluno 1 2 3 4 5 6 7 8 9 10
rank média 1º período 1 1 2 1 1 3 2 1 1 1
rank média 2º período 2 2.5 1 2 2 1 1 2 3 2
rank média 3º período 3 2.5 3 3 3 2 3 3 2 3

As somas dos ranks em cada período são dadas por


R1  1  1  2  1  1  3  2  1  1  1  14 ,

R2  2  2.5  1  2  2  1  1  2  3  2  18.5 ,

R3  3  2.5  3  3  3  2  3  3  2  3  27.5 .
Neste caso, só há empates na ordenação do 2º indivíduo; assim,
g1  g 3  g 4    g10  0 , g2  1 e 21  2 , pelo que o valor observado da
estatística de teste é
k
12
nk k  1
 Ri2  3n k  1
i 1
F  gj
n
   jl3   jl 
1  j 1 l 1
nk k 2  1
12
10  3  4
142  18.52  27.52   3  10  4
  9.692.
23  2
1
10  3  8

Como F  9.692  22;0.95  5.991 , rejeita-se a hipótese nula ao nível de


 
significância de 5%, sendo de admitir que há diferença significativa entre pelo menos
duas das distribuições dos ranks da média da classificação no final do período.

Testes de comparações múltiplas para o teste de Friedman

Os testes de comparações múltiplas para o teste de Friedman permitem investigar onde se


encontram as possíveis diferenças entre as distribuições dos ranks, controlando
simultaneamente o nível de significância global. O teste de Dunn-Bonferroni é um

63
Estatística II

exemplo desses testes de comparações múltiplas. Este teste permite efetuar,


simultaneamente, C 2k comparações cujas hipóteses são
H0 : As distribuições dos ranks das populações r e s são idênticas
vs
H1 : As distribuições dos ranks das populações r e s não são idênticas,
com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSS sempre que for necessário efetuar este teste de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de Dunn-
Bonferroni são apresentadas na Secção 9.5.

9.5. Ilustrações com SPSS

Exemplo 9.1
Recordemos que
Xij – tempo de execução da i -ésima tarefa realizada pela j -ésima criança,
i  A, B,C , D , j  1, , 8 , em que E Xi j   i .
Pretendemos testar as hipóteses
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes.
Comecemos por verificar os pressupostos da ANOVA para medidas repetidas.
Para averiguar a suposição de normalidade efetuamos os testes de hipóteses

H0 : Xi tem distribuição normal vs H1 : Xi não tem distribuição normal ,


i  A, B,C , D , e Xi representa o tempo de execução da tarefa i.
Utilizando o software estatístico SPSS, obtemos o output

Explore

64
Inferência estatística para mais de duas populações com base em medidas repetidas

Os valores observados da estatística de teste de Shapiro-Wilk são wA  0.938 ,


wB  0.958 , wC  0.912 e wD  0.922 aos quais corresponde os p-values
pA  0.592 , pB  0.791 , pC  0.368 e pD  0.446 , respetivamente. Deste modo, ao
nível de significância de 5%, podemos admitir válidas as suposições de normalidade
de cada uma das populações (todos os p-values são superiores a 0.05).
No que respeita à esfericidade, o teste de Mauchly é disponibilizado, no software
estatístico SPSS, conjuntamente com a tabela da ANOVA para medidas repetidas

General Linear Model


Within-Subjects Factors

Measure: tempo_execução

tarefa Dependent Variable


1 tempo_execução_tarefa_A
2 tempo_execução_tarefa_B
3 tempo_execução_tarefa_C
4 tempo_execução_tarefa_D

Descriptive Statistics

Mean Std. Deviation N

tempo execução tarefa A 29,00 2,204 8

tempo execução tarefa B 27,38 2,615 8

tempo execução tarefa C 30,50 1,414 8

tempo execução tarefa D 24,38 2,134 8

a
Mauchly's Test of Sphericity

Measure: tempo_execução
b
Epsilon

Within Subjects Effect Mauchly's W df Sig. Huynh-Feldt Lower-bound


tarefa ,305 6,801 5 ,242 ,703 1,000 ,333

a.

b.

Tests of Within-Subjects Effects

Measure: tempo_execução

Source df Mean Square F Sig.


tarefa Sphericity Assumed 165,125 3 55,042 10,240 ,000
Greenhouse-Geisser 165,125 2,108 78,342 10,240 ,001
Huynh-Feldt 165,125 3,000 55,042 10,240 ,000
Lower-bound 165,125 1,000 165,125 10,240 ,015
Error(tarefa) Sphericity Assumed 112,875 21 5,375
Greenhouse-Geisser 112,875 14,754 7,650
Huynh-Feldt 112,875 21,000 5,375
Lower-bound 112,875 7,000 16,125

65
Estatística II

As hipóteses a testar são:


H0 : existe esfericidade vs H1 : não existe esfericidade .
O valor observado para a estatística do teste de Mauchly é w  0.305 , ao qual
corresponde o p-value p  0.242 . Assim, para o nível de significância de 5%, não se
rejeita a hipótese de esfericidade (pois p  0.05 ).
Estamos agora em condições de comparar os tempos médios de execução das tarefas,
efetuando o teste de análise de variância para medidas repetidas, isto é
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes.
O valor observado da estatística de teste é f  10.240 , a que corresponde o p-value
p  0.001 . Para o nível de significância de 5% rejeita-se H0 (pois p  0.05 ), sendo
portanto de admitir que o tempo médio de execução não é idêntico para todas as
tarefas. Assim, vamos efetuar o teste de comparações múltiplas com correção de
Bonferroni de modo a identificar as tarefas responsáveis pelas diferenças. Fazemos
C 24  6 comparações simultâneas, com as hipóteses
H0 : r  s vs H1 : r  s , com r , s  A, B,C , D e r  s .

Estimates

Measure: tempo_execução

95% Confidence Interval

tarefa Mean Std. Error Lower Bound Upper Bound


1 29,000 ,779 27,157 30,843
2 27,375 ,925 25,189 29,561
3 30,500 ,500 29,318 31,682
4 24,375 ,754 22,591 26,159

66
Inferência estatística para mais de duas populações com base em medidas repetidas

Ao testar
H0 : A  B vs H1 : A  B ,
obtém-se para a estatística de teste o valor de 1.625/1.224  1.328 , a que
corresponde o p-value p  1.000 .
Ao testar
H0 : A  C vs H1 : A  C ,
obtém-se para a estatística de teste o valor de 1.500/0.945  1.587 , a que
corresponde o p-value p  0.939 .
Ao testar
H0 : A  D vs H1 : A  D ,
obtém-se para a estatística de teste o valor de 4.625/1.388  3.332 , a que
corresponde o p-value p  0.075 .
Ao testar
H0 : B  C vs H1 : B  C ,
obtém-se para a estatística de teste o valor de 3.125/0.953  3.279 , a que
corresponde o p-value p  0.081 .
Ao testar
H0 : B  D vs H1 : B  D ,
obtém-se para a estatística de teste o valor de 3.000/1.488  2.016 , a que
corresponde o p-value p  0.502 .

67
Estatística II

Ao testar
H0 : C  D vs H1 : C  D ,
obtém-se para a estatística de teste o valor de 6.125/0.789  7.761 , a que
corresponde o p-value p  0.001 .
Ao nível de significância de 5%, apenas se rejeita a hipótese nula C  D
( p  0.001  0.05 ), logo existe diferença significativa entre os tempos médios de
execução das tarefas C e D .

Exemplo 9.2
Recordemos que
Xij – média da classificação no final do período i do aluno j, i  1, 2, 3, j  1,  ,10.
Comecemos por verificar os pressupostos da ANOVA para medidas repetidas.
Para averiguar a suposição de normalidade efetuamos os testes de hipóteses

H0 : Xi tem distribuição normal vs H1 : Xi não tem distribuição normal ,


i  1, 2, 3 , e Xi representa a média da classificação no final do período i.
Utilizando o software estatístico SPSS, obtemos o output

Explore
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
média classificação 1º período ,304 10 ,009 ,834 10 ,038
*
média classificação 2º período ,154 10 ,200 ,963 10 ,822
*
média classificação 3º período ,179 10 ,200 ,915 10 ,319
*.
a.

Os valores observados da estatística de teste de Shapiro-Wilk são w1  0.834 ,


w 2  0.963 e w 3  0.915 aos quais corresponde os p-values p1  0.038 , p2  0.822 e
p3  0.319 , respetivamente. Deste modo, ao nível de significância de 5%, não
podemos admitir válida a suposição de normalidade da população X1 ( p1  0.05 ).
Deste modo, vamos efetuar o teste de Friedman, cujas hipóteses a testar são
H0 : As distribuições dos ranks de X1, X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1, X 2 e X 3 não são idênticas.
Utilizando o software estatístico SPSS, obtemos o output

68
Inferência estatística para mais de duas populações com base em medidas repetidas

Friedman Test
Ranks

Mean Rank
média classificação 1º período 1,40
média classificação 2º período 1,85
média classificação 3º período 2,75

a
Test Statistics

N 10
Chi-Square 9,692
df 2

Asymp. Sig. ,008


Exact Sig. ,005
Point Probability ,001
a.

O valor observado para a estatística do teste de Friedman é f  9.692 , ao qual


corresponde o p-value p  0.005 (Exact Sig.). Assim, para   0.05 , rejeita-se a
hipótese de igualdade das distribuições dos ranks das médias das classificações nos
três períodos (pois p  0.05 ).
Um valor da estatística de teste significativo indica que existe, pelo menos, um par
de períodos cujas distribuições dos ranks diferem entre si. Para encontrar quais, é
necessário efetuar um teste de comparações múltiplas, por exemplo, o teste de
Dunn-Bonferroni, cujo output é

Ao testar
H0 : As distribuições dos ranks de X1 e X 2 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas
obtém-se para a estatística de teste o valor de −1.006, a que corresponde o p-value
p  0.943 .

69
Estatística II

Ao testar
H0 : As distribuições dos ranks de X1 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 3 não são idênticas
obtém-se para a estatística de teste o valor de −3.019, a que corresponde o p-value
p  0.008 .
Ao testar
H0 : As distribuições dos ranks de X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X 2 e X 3 não são idênticas
obtém-se para a estatística de teste o valor de −2.012, a que corresponde o p-value
p  0.133 .
Ao nível de significância de 5%, conclui-se que apenas existe diferença significativa
entre as distribuições dos ranks das médias das classificações no final do 1º e 3º
períodos.

Nota:
O p-value exato para a estatística de teste do teste de Friedman é frequentemente
disponibilizado pelos softwares estatísticos. Sempre que se dispõe de valores exatos
são estes que devem ser utilizados.

70
Capítulo 10
Inferência estatística sobre proporções
10 Inferência estatística paramétrica sobre proporções

10.1. Introdução

Exemplo 10.1
Com o objetivo de estudar a incidência de determinada lesão nos praticantes de
uma modalidade de ginástica foram inquiridos 58 praticantes dessa modalidade,
dos quais 9 referiram ter tido a lesão.
A variável de interesse é ter ou não ter contraído a lesão. Esta variável é uma
variável qualitativa, mais precisamente, uma variável dicotómica pois apenas
assume dois valores distintos, sim e não. Os métodos de inferência apresentados
nos capítulos anteriores não podem ser aplicados neste tipo de variáveis.

Neste capítulo vamos abordar métodos de inferência para dados dicotómicos,


provenientes de populações em que os indivíduos estão classificados em uma de duas
categorias. Para este tipo de dados, o parâmetro de interesse é a proporção, isto é, a
frequência relativa. No Exemplo 10.1 terá interesse estimar a proporção de praticantes
da modalidade de ginástica que sofreram a lesão.
Vamos apresentar intervalos de confiança e testes de hipóteses para a proporção de uma
população binomial e para a diferença de proporções de duas populações binomiais, com
base em amostras independentes.
Estatística II

10.2. Inferência sobre a proporção

Considere-se uma população constituída por indivíduos que pertencem a uma de duas
categorias, A ou A , e represente-se por p a proporção de indivíduos que pertencem à
categoria A . Seja X1, X 2 , , Xn  uma amostra aleatória de dimensão n proveniente
dessa população tal que

1 se o indivíduo i pertence à categoria A
Xi   .

0 se o indivíduo i não pertence à categoria A

Deste modo, a variável aleatória
n
X   Xi
i 1

representa o número de indivíduos que, numa amostra de dimensão n , pertencem à


categoria A .
A variável aleatória X , assim definida, tem distribuição binomial de parâmetros n e p ,
X  B n, p  , com p desconhecido.
Um estimador para o parâmetro p é a proporção amostral
X
,
n
e uma estimativa pontual para p é pˆ  x / n que representa a frequência relativa da
característica A numa amostra de dimensão n . No Exemplo 10.1, uma estimativa
pontual para a proporção de lesionados na modalidade de ginástica é pˆ  9 / 58  0.155 .

Intervalo a 1    100% de confiança para a proporção p

Considerando como estimador, a variável aleatória X , com distribuição binomial de


parâmetros n e p , pode deduzir-se (está fora do âmbito da disciplina) o intervalo de
confiança de Clopper-Pearson para a proporção p que tem a seguinte forma
 1  1 

1  n x 1  , 1  n x  
    
 x F(2x ,2(n x 1);  /2)   x  1 F(2(x 1),2(n x );1/2)  
 

para 0  x  n , em que Fm,n ;  é o quantil de probabilidade  da distribuição F


de Fisher-Snedecor com m graus de liberdade no numerador e n graus de
liberdade no denominador.
 1/n 
Se x  0 , o intervalo de confiança é dado por  0, 1   / 2  e, para x  n , o
 1/n   
intervalo é  / 2 , 1  .
 

72
Inferência estatística sobre proporções

Atendendo ao facto da variável aleatória X ser uma soma, pelo teorema limite central,
se n for suficientemente grande, tem-se

 
aprox .
X  N np, np 1  p  ,

pelo que

X  p 1  p  
 N p,
aprox .

n n  ,
 

o que é equivalente a
X
p aprox .
Z  n  N 0,1 .
p 1  p 
n

Considerando como estimador a variável aleatória Z , com distribuição aproximada


normal standard, pode deduzir-se o intervalo de confiança de Wald para a proporção p
(procedendo de forma idêntica ao efetuado nos capítulos anteriores para os outros
parâmetros populacionais), cuja expressão geral é dada por
 pˆ 1  pˆ pˆ 1  pˆ 
ˆ 
 p  z1 / 2 n
, pˆ  z1 / 2
n 
 
 

em que z1/2 é o quantil de probabilidade 1   / 2 da distribuição normal


standard.
Em termos práticos, tendo em conta a aproximação efetuada, este intervalo de
confiança só deve ser utilizado se 0.2  pˆ  0.8 , npˆ  5 e n 1  pˆ  5 .

Notas:
1. O ponto médio do intervalo de confiança de Clopper-Pearson pode não coincidir
com a estimativa pontual da proporção, contrariamente ao que acontece com o
intervalo de confiança de Wald.
2. O software SPSS disponibiliza o intervalo de confiança de Clopper-Pearson, mas
não o intervalo de confiança de Wald.

Testes de hipóteses para a proporção p

Na construção dos testes de hipóteses para a proporção procede-se de forma análoga ao


realizado para os outros parâmetros populacionais.

73
Estatística II

Hipóteses a testar:
H 0 : p  p0 vs H1 : p  p0
ou H 0 : p  p0 vs H1 : p  p0
ou H 0 : p  p0 vs H1 : p  p0

Estatística de teste: X
que, sob a validade de H0 , tem distribuição B n, p0  .

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se p -value   , em que p -value é obtido
do seguinte modo:

Hipóteses a testar p-value


n n i
H 0 : p  p0 vs H1 : p  p0 pU  P X  x    C in p0i 1  p0 
i x
x n i
H 0 : p  p0 vs H1 : p  p0 pL  P X  x    C in p0i 1  p0 
i 0
H 0 : p  p0 vs H1 : p  p0 2  min pL , pU 

Nota:
Este teste que utiliza a distribuição binomial é vulgarmente conhecido como teste
binomial para a proporção.

Atendendo ao facto da estatística de teste ser uma soma, como vimos anteriormente,
pelo teorema limite central, se n for suficientemente grande, tem-se
X
p aprox .
Z  n  N 0,1 .
p 1  p 
n

Assim, pode utilizar-se como estatística de teste


X
 p0
Z  n
p0 1  p0 
n
que, sob a validade de H0 , tem distribuição aproximada N 0,1 .
Em termos práticos, tendo em conta a aproximação efetuada, esta estatística de
teste só deve ser utilizada se 0.2  pˆ  0.8 , npˆ  5 e n 1  pˆ  5 .

74
Inferência estatística sobre proporções

No que respeita à regra de decisão é a usual para os casos em que a distribuição de


amostragem da estatística de teste é a distribuição normal standard:

Hipóteses a testar Rejeitar H0 se


H0 : p  p0 vs H1 : p  p0 | z |  z1 / 2
H 0 : p  p0 vs H1 : p  p0 z  z1
H 0 : p  p0 vs H1 : p  p0 z  z1

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor


observado da estatística de teste Z .

Nota:
O software SPSS disponibiliza o teste binomial para a proporção, mas não o teste
que utiliza a aproximação à distribuição normal.

Exemplo 10.2
Numa amostra, obtida aleatoriamente, de 50 alunos da FMH, 38 afirmam gostar
de fazer férias de verão na praia.
a) Ao nível de significância   0.05 , teste se é de admitir que a percentagem de
alunos da FMH que gostam de fazer férias de verão na praia é superior a 70%.
b) Determine um intervalo a 95% de confiança para a proporção de alunos da
FMH que gostam de fazer férias de verão na praia.

Resolução:
Designemos por
X – variável aleatória que representa o número de alunos da FMH, numa
amostra de dimensão 50, que gostam de fazer férias de verão na praia
X  B 50, p  , onde p é a proporção de alunos da FMH que gostam de fazer
férias de verão na praia.

a) Pretendemos testar
H0 : p  0.7 vs H1 : p  0.7 .
Utilizando o teste binomial, o valor observado da estatística de teste é x  38 e
o respetivo p-value
50
p  pU  P X  38   C i50  0.7i  0.350i  0.223 .
i 38

75
Estatística II

O valor do somatório pode ser obtido com auxílio do software EXCEL


 
1  DIST .BINOM 37;50; 0, 7;1 . Como p  0.05 então, para o nível de
significância de 5%, não se rejeita H0 .

Para a amostra recolhida, tem-se


38
n  50 e pˆ   0.76 .
50

Como

0.2  pˆ  0.8



npˆ  50  0.76  38  5 ,


n 1  pˆ  50  (1  0.76)  12  5


podemos, alternativamente, utilizar a estatística de teste com distribuição
aproximada à distribuição normal.
Neste caso, o valor observado da estatística de teste é
pˆ  p0 0.76  0.7
z   0.926 .
p0 1  p0  0.7  0.3
n 50

Como   0.05 , tem-se z1  z 0.95  1.645 . Dado que z  0.926  1.645 , não
rejeitamos a hipótese nula ao nível de significância de 5%.

Para o nível de significância de 5%, não existe evidência de que a percentagem


de alunos que gostam de fazer férias de verão na praia seja superior a 70%.

b) O intervalo a 95% de confiança de Clopper-Pearson para a proporção p é


 1  1 

1  n x 1  , 1  n x  
    
 x F(2x ,2(n x 1); 0.025)
 
 x  1 F(2(x 1),2(n x ); 0.975)  
 
 1  1 
 50  38  1   50  38 
  1   , 1   
 
 
 38  F(238,2(5038 1);0.025)   (38  1)  F(2(38 1),2(5038);0.975)  

 
 1  1 
 13   12  
  1   , 1   
 
 
 38  F(76,26;0.025)   39  F(78,24;0.975)  

 
 1  1 

  1 
13  12   0.618, 0.869 .
 , 1     
  38  1.8041   39  2.048  

76
Inferência estatística sobre proporções

Utilizando a aproximação à distribuição normal, o intervalo a 95% de confiança


de Wald para a proporção p é dado por
 
 pˆ 1  pˆ pˆ 1  pˆ 
 pˆ  z 0.975 , pˆ  z 0.975 
 n n 
 
 0.76  0.24 0.76  0.24 
  0.76  1.96  , 0.76  1.96     0.642 , 0.878  .
50 50   
 

10.3. Inferência para a diferença de proporções com base em


amostras independentes

Considere-se duas populações constituídas por indivíduos que pertencem a uma de duas
categorias, A ou A , e represente-se por p1 e p2 as proporções de indivíduos que, em
cada uma das populações, pertencem à categoria A . Sejam X11, X12,  , X1n1  e
X21, X22, , X2n2  duas amostras aleatórias independentes de dimensões n1 e n2 ,
provenientes dessas populações, tais que
1 se o indivíduo i da população 1 pertence à categoria A
X1i   i  1,, n1 ,
0 se o indivíduo i da população 1 não pertence à categoria A

1 se o indivíduo i da população 2 pertence à categoria A
X 2i   i  1,, n2 .
0 se o indivíduo i da população 2 não pertence à categoria A

Deste modo, as variáveis aleatórias
n1 n2
X1   X1i e X 2   X 2i
i 1 i 1

representam o número de indivíduos que pertencem à categoria A , nas amostras de


dimensão n1 e n2 , respetivamente.
As variáveis aleatórias X1 e X 2 têm distribuição binomial, X1  B n1, p1  e
X 2  B n2, p2  , com p1 e p2 desconhecidos.
Um estimador para p1  p2 é a diferença entre proporções amostrais
X1 X 2
 ,
n1 n2

e uma estimativa pontual para p1  p2 é

77
Estatística II

x1 x 2
pˆ1  pˆ2   ,
n1 n2

que representa a diferença entre as frequências relativas da característica A em


amostras de dimensão n1 e n2 de cada uma das populações.

Pelo teorema limite central, se n1 e n2 forem suficientemente grandes, tem-se

X1 aprox .  p 1  p1   X2 aprox .


 p 1  p2  
 N p1, 1  e  N p2 , 2  .
n1  n1  n2  n2 

Deste modo, a distribuição da diferença entre proporções amostrais é dada por

X1 X 2 aprox .  p 1  p1  p2 1  p2  


  N p1  p2, 1   ,
n1 n2  n1 n2 

o que é equivalente a
 X1 X 2 
    p1  p2 
 n1 n2  aprox .
Z  N 0,1 .
p1 1  p1  p2 1  p2 

n1 n2

Conhecendo a distribuição de Z , podemos usar esta variável aleatória como estimador e


deduzir o intervalo de confiança de Wald para p1  p2 .

Intervalo a 1    100% de confiança para a diferença entre proporções p1  p2

 pˆ1 1  pˆ1  pˆ2 1  pˆ2  pˆ 1  pˆ1  pˆ2 1  pˆ2  


 
 pˆ1  pˆ2   z1 2 n

n
, pˆ1  pˆ2   z1 2 1
n

n2 
 1 2 1 

em que z1/2 é o quantil de probabilidade 1   / 2 da normal standard.


Em termos práticos, tendo em conta a aproximação efetuada, este intervalo de
confiança só deve ser utilizado se 0.2  pˆj  0.8 , n j pˆj  5 e n j 1  pˆj   5 , para
j  1,2 .

Testes de hipóteses para a diferença entre proporções p1  p2

Hipóteses a testar:
H0 : p1  p2  p0 vs H1 : p1  p2  p0
ou H0 : p1  p2  p0 vs H1 : p1  p2  p0
ou H0 : p1  p2  p0 vs H1 : p1  p2  p0

78
Inferência estatística sobre proporções

Estatística de teste:
X X 2 
 1
 n1  n2   p0
Z 
p1 1  p1  p2 1  p2 

n1 n2
que, sob a validade de H0 , tem distribuição aproximada N 0,1 . Como p1 e p2
são desconhecidos são substituídos por p̂1 e p̂2 , respetivamente.
Em termos práticos, tendo em conta a aproximação efetuada, esta estatística de
teste só deve ser utilizada se 0.2  pˆj  0.8 , n j pˆj  5 e n j 1  pˆj   5 , para
j  1,2 .

Regra de decisão:

Hipóteses a testar Rejeitar H0 se


H0 : p1  p2  p0 vs H1 : p1  p2  p0 | z |  z1 / 2
H0 : p1  p2  p0 vs H1 : p1  p2  p0 z  z1
H0 : p1  p2  p0 vs H1 : p1  p2  p0 z  z1

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor


observado da estatística de teste Z .

Nota:
O software SPSS não disponibiliza, nem o intervalo de confiança nem o teste de
hipóteses para a diferença de proporções com aproximação à distribuição normal.
No capítulo seguinte iremos ver um teste realizável no software SPSS para
comparação de duas proporções em amostras independentes.

Exemplo 10.3
Em amostras aleatórias de 400 adultos e 600 adolescentes, de determinadas
populações, que assistiram a um debate sobre desporto na televisão, 100 adultos e
180 adolescentes afirmaram que o debate lhes agradou. O diretor da estação de
televisão defende que a proporção de audiência que gostou do debate entre os
adolescentes é diferente da proporção entre os adultos.
a) Para o nível de significância   0.1 , averigue se é admissível que o diretor da
estação televisiva faça tal afirmação.
b) Determine um intervalo a 90% de confiança para a diferença de proporções.

Resolução:
Consideremos as variáveis aleatórias

79
Estatística II

X1 – número de adultos, numa amostra de dimensão 400, que gostaram do


programa,
X 2 – número de adolescentes, numa amostra de dimensão 600, que gostaram do
programa.
As variáveis aleatórias X1 e X 2 são independentes e têm distribuição binomial
X1  B 400, p1  e X 2  B 600, p2  ,

onde
p1 – proporção de adultos que gostaram do programa,
p2 – proporção de adolescentes que gostaram do programa.

a) Pretende testar-se
H0 : p1  p2 vs H1 : p1  p2
o que é equivalente a testar
H0 : p1  p2  0 vs H1 : p1  p2  0 .
Neste caso, tem-se
100 180
n1  400, n2  600, pˆ1   0.25 e pˆ2   0.3 .
400 600

Como
0.2  pˆ  0.8
 1
0.2  pˆ  0.8
 2
n1pˆ1  400  0.25  100  5
 ,
n2 pˆ2  600  0.3  180  5

n1 1  pˆ1   400  (1  0.25)  300  5

n2 1  pˆ2   600  (1  0.3)  420  5
podemos utilizar a estatística de teste com distribuição aproximada à
distribuição normal.
O valor observado da estatística de teste é
pˆ1  pˆ2   p0
z 
pˆ1 1  pˆ1  pˆ2 1  pˆ2 

n1 n2

0.25  0.3  0
  1.747 .
0.25  1  0.25 0.3  1  0.3

400 600
Como   0.1 , tem-se z1 /2  z 0.95  1.645 . Dado que | z |  1.747  1.645 ,
rejeitamos a hipótese nula ao nível de significância de 10%, ou seja, é de
admitir que a proporção de audiência que gostou do programa entre os

80
Inferência estatística sobre proporções

adolescentes é diferente da proporção de audiência que gostou do programa


entre os adultos. É, portanto, de admitir válida a afirmação efetuada pelo
diretor da estação televisiva.

b) Como
0.2  pˆ  0.8
 1
0.2  pˆ  0.8
 2
n1pˆ1  400  0.25  100  5
 ,
n2 pˆ2  600  0.3  180  5

n1 1  pˆ1   400  (1  0.25)  300  5

n2 1  pˆ2   600  (1  0.3)  420  5
podemos utilizar o intervalo de confiança de Wald para a diferença de
proporções.
Assim, um intervalo a 90% de confiança para a diferença entre proporções
p1  p2 é dado por
 pˆ1 1pˆ1  pˆ2 1pˆ2  pˆ 1pˆ1  pˆ2 1pˆ2  
 pˆ pˆ   z  , pˆ1pˆ2   z 0.95 1  .
 1 2 0.95
n n n n2 
 
1 2 1

Como pˆ1  0.25 e pˆ2  0.3 , então

pˆ1 1  pˆ1  pˆ2 1  pˆ2  0.25  0.75 0.3  0.7


    0.029
n1 n2 400 600

e obtém-se o intervalo
 0.25  0.3  1.645  0.029 , 0.25  0.3  1.645  0.029 
 

   0.097 ,  0.003  .
 

Nota:
Num teste de hipóteses bilateral,
H0 : p1  p2  0 vs H1 : p1  p2  0
não rejeitamos a hipótese nula, ao nível de significância  , se e só se o intervalo a
100  1   % de confiança para p1  p2 contém o ponto 0.

81
Estatística II

10.4. Ilustrações com SPSS

Exemplo 10.2
Recordemos que
X – variável aleatória que representa o número de alunos da FMH, numa
amostra de dimensão 50, que gostam de fazer férias de verão na praia
X  B 50, p  , onde p é a proporção de alunos da FMH que gostam de fazer
férias de verão na praia.

a) Pretendemos testar
H0 : p  0.7 vs H1 : p  0.7 .
O resultado do teste binomial para a proporção disponibilizado no software
estatístico SPSS é

NPar Tests

O valor observado da estatística de teste é x  38 , a que corresponde o p-value


do teste de hipóteses unilateral à direita p  0.223 (Exact Sig. (1-tailed)). Para
o nível de significância de 5% não se rejeita H0 (pois p  0.05 ), não existindo
evidência estatística que permita concluir que a percentagem de alunos da FMH
que gostam de fazer férias de verão na praia seja superior a 70%.

b) A tabela de resultados do software SPSS, a seguir apresentada, indica que a


estimativa pontual para a proporção p é pˆ  0.76 e o correspondente intervalo
a 95% de confiança de Clopper-Pearson é 0.618, 0.869 .
 
Nonparametric Tests

82
Capítulo 11
Testes do qui-quadrado
11 Testes do qui-quadrado

11.1. Introdução

Neste capítulo vamos abordar métodos de inferência para dados qualitativos com base
em tabelas de frequências observadas. Vamos estudar testes de ajustamento, testes de
independência e testes de homogeneidade em tabelas de contingência. Em qualquer dos
casos, a estatística de teste compara valores observados com valores esperados e tem
uma distribuição aproximada de qui-quadrado.

11.2. Testes de ajustamento

Num estudo estatístico é interessante e fundamental a formulação de modelos. Torna-se


também importante questionar se esses modelos são adequados. Para esse efeito, existe
um tipo particular de testes de hipóteses – os testes de ajustamento.

Exemplo 11.1
Suponha que conhecemos o modelo para a distribuição dos grupos sanguíneos de
uma determinada população
Estatística II

Grupo sanguíneo A B AB O
Percentagem 41% 9% 4% 46%

Com o objetivo de verificar se este modelo é admissível quando consideramos a


subpopulação feminina, recolheu-se aleatoriamente uma amostra de dimensão 200,
para a qual se observou

Grupo sanguíneo A B AB O
Nº de observações 80 20 9 91

Seja pi a proporção de indivíduos do sexo feminino que pertencem ao grupo


sanguíneo i , i A, B, AB,O .
A hipótese que pretendemos testar é a de que a distribuição conhecida para a
população se mantém válida para a subpopulação feminina, isto é,
H0 : pA  0.41, pB  0.09, pAB  0.04, pO  0.46
vs
H1 : pA  0.41 ou pB  0.09 ou pAB  0.04 ou pO  0.46.
Para tomar uma decisão sobre a hipótese nula precisamos de uma estatística de
teste. Neste exemplo, sob a validade de H0 , esperamos que o número de indivíduos
do sexo feminino em cada grupo sanguíneo seja
eA  200  0.41  82 ,

eB  200  0.09  18 ,

eAB  200  0.04  8 ,

eO  200  0.46  92 .
Temos assim a possibilidade de comparar os valores observados, oi , com os valores
esperados, ei , i  A, B, AB,O .

Seja n a dimensão da amostra e k o número de classes. Se os dados forem qualitativos


(como no exemplo), as classes correspondem às diferentes categorias. Se os dados forem
quantitativos discretos, as classes serão os diferentes valores que a variável pode
assumir. Finalmente, se os dados forem quantitativos contínuos, terão que ser agrupados
em classes.

Para quantificar os desvios entre os valores observados na amostra e os valores que seria
esperado observar caso H0 fosse verdadeira, é necessário encontrar uma estatística de
teste que quantifique o erro global. Como
k
 oi  ei   0 ,
i 1

84
Testes do qui-quadrado

esta soma não tem interesse como medida do erro global. Para ultrapassar o problema
consideramos o quadrado dos erros, mais precisamente, utilizamos a soma dos erros
quadráticos relativizados
2
k
oi  ei 
 ei
.
i 1

Cada oi é um valor observado de uma variável aleatória Oi com distribuição binomial


de parâmetros n e pi , Oi  B n, pi  . Se H0 for verdadeira tem-se
ei  E Oi   n  pi , i  1, , k .
Admitindo que é possível aproximar a distribuição binomial à distribuição de Poisson,
tem-se
aprox .
Oi  P ei  .

Admitindo ainda que estamos em condições de aproximar a distribuição de Poisson à


normal
aprox .
Oi  ei aprox .


Oi  N ei , ei , isto é, ei
 N 0,1 .

Vimos no Capítulo 3 (unidade curricular Estatística I) que o quadrado de uma variável


aleatória com distribuição normal standard tem distribuição qui-quadrado com 1 grau
de liberdade, pelo que
2
Oi  ei  aprox .
 12 ,
ei

donde
2
k
Oi  ei  aprox .
X  2
 k21 .
i 1
ei

Se H0 for verdadeira, os valores observados e os valores esperados não devem exibir


grandes diferenças, isto é, os valores de X 2 não se afastem muito de zero.
Para um nível de significância  , o ponto crítico é 2k 1;1 e a região de rejeição é
dada por
 
R   2k 1;1 ,    .
 

85
Estatística II

Testes de ajustamento

Hipóteses a testar:
H0 : A população possui uma determinada distribuição de probabilidade
vs
H1 : A população não possui a distribuição de probabilidade indicada em H0

Estatística de teste:
2
k
Oi  ei 
X 
2

i 1
ei
que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k1
graus de liberdade, onde k é o número de classes.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se X 2  2k 1;1 , sendo X 2 o valor
observado da estatística de teste e 2k 1;1 o quantil de probabilidade 1   da
distribuição qui-quadrado com k  1 graus de liberdade.

Exemplo 11.1 (continuação)


Recorde que se pretende testar se a distribuição dos grupos sanguíneos da
população se mantém válida para a subpopulação feminina. Para obter o valor
observado da estatística de teste é necessário calcular as respetivas parcelas

Grupo sanguíneo A B AB O Total


oi 80 20 9 91 200
ei 82 18 8 92 200
2
oi  ei  80822 20182 982 91922
0.407
ei 82 18 8 92

O valor observado para a estatística de teste é


2
4
oi  ei 
X 2
 0.407 .
i 1
ei

Ao nível de significância   0.05 , o quantil de probabilidade 0.95 da distribuição


qui-quadrado com 3 graus de liberdade é (32
; 0.95)  7.815 .
Como X 2  0.407  7.815 , não se rejeita H0 , o que significa que o modelo para a
distribuição dos grupos sanguíneos é também admissível na subpopulação feminina.

86
Testes do qui-quadrado

Nota:
A distribuição da estatística de teste é uma distribuição aproximada, por esta
razão devemos estar atentos às condições que permitem usar esta aproximação.
Uma regra prática para a utilização desta aproximação consiste na verificação
simultânea das seguintes condições:
• menos de 20% das classes terem ei inferior a 5;
• no máximo uma classe ter ei inferior a 1.

Nota:
Existem muitos testes de ajustamento para além do teste de ajustamento do
qui-quadrado. Alguns desses testes são específicos para a avaliação do ajustamento
a uma determinada distribuição, como é o caso do teste de Shapiro-Wilk (já
referido na disciplina de Estatística I) que permite testar o ajustamento à
distribuição normal e que por isso é classificado como sendo um teste de
normalidade. O teste de Kolmogorov-Smirnov (também referido na disciplina de
Estatística I) pode ser usado quer para testar a normalidade quer para testar o
ajustamento a outras distribuições. No software SPSS é possível utilizar o teste de
Kolmogorov-Smirnov para avaliar o ajustamento às distribuições normal, uniforme,
exponencial e Poisson.

11.3. Testes de independência em tabelas de contingência

Os testes de independência em tabelas de contingência permitem investigar se duas


variáveis qualitativas estão ou não associadas – por exemplo, o género (feminino,
masculino) e a prática desportiva (pratica desporto, não pratica desporto).
Consideremos que se obteve aleatoriamente uma amostra de n indivíduos, que são
classificados segundo duas variáveis qualitativas, X e Y .
Pretendemos testar as hipóteses
H0 : X e Y são independentes vs H1 : X e Y não são independentes ,
o que é equivalente a
H0 : X e Y não estão associadas vs H1 : X e Y estão associadas .
Designemos por Ai i  1, , r  as categorias da variável X e por B j  j  1, , s  as
categorias da variável Y . Consideremos ainda que oij é o número de indivíduos da

87
Estatística II

amostra que estão simultaneamente em Ai e B j , isto é, para os quais se observou Ai na


variável X e B j na variável Y . Podemos apresentar as frequências observadas numa
tabela que designamos por tabela de contingência r  s

Variável Y
Variável X B1 B2  Bs Total
A1 o11 o12  o1s o1
A2 o21 o22  o2s o2
     
Ar or 1 or 2  ors or 
Total o1 o2  os n

A partir da tabela é possível escrever


s
oi    oij é o número de indivíduos da amostra que estão em Ai ,
j 1

r
o j   oij é o número de indivíduos da amostra que estão em B j ,
i 1
r s s r
  oij   o j   oi   n é a dimensão da amostra.
i 1 j 1 j 1 i 1

Designando por
pij – a probabilidade (conjunta) de um indivíduo, escolhido ao acaso, ser
classificado na categoria Ai de X e B j de Y ,

pi  – a probabilidade (marginal) de um indivíduo, escolhido ao acaso, ser


classificado na categoria Ai da variável X ;

p j – a probabilidade (marginal) de um indivíduo, escolhido ao acaso, ser


classificado na categoria B j da variável Y ,
tem-se que
oij
pˆij  é uma estimativa de pij ,
n
o
pˆi   i  é uma estimativa de pi  ,
n
o
pˆ j   j é uma estimativa de p j .
n

As hipóteses a testar podem ser formalmente apresentadas como


H0 : pij  pi •  p j i  1, , r , j  1, , s
vs
H1 : pij  pi •  p j para algum par (i, j ).

88
Testes do qui-quadrado

Cada oij é um valor observado de uma variável aleatória Oij  B n, pij  . Então
eij  E Oij   n  pij
é o número esperado de indivíduos na categoria Ai de X e B j de Y .

Se H0 for verdadeira, tem-se


oi • o j o  o j
eij  n  pij  n  pi •  p j  n    i• .
n n n

Com uma dedução análoga à que foi descrita para o teste de ajustamento, a estatística
de teste é
2
r s
Oij  eij 
X  
2

i 1 j 1
eij

e, sob a validade da hipótese nula, tem-se


2
r s
Oij  eij  aprox .
X  
2
 2r 1s 1 .
i 1 j 1
eij

A regra de decisão, ao nível de significância  , consiste em rejeitar H0 se


X 2  2r 1s 1;1 ,

o que equivale a dizer que a região de rejeição, ao nível de significância  , é

R   2r 1s 1;1 ,    .


 

Nota:
A distribuição da estatística de teste é uma distribuição aproximada, por esta
razão devemos estar atentos às condições que permitem usar esta aproximação.
Uma regra prática para a utilização desta aproximação consiste na verificação
simultânea das seguintes condições:
• menos de 20% dos eij inferiores a 5;
• no máximo um eij inferior a 1.

Exemplo 11.2
Efetuou-se um inquérito a 1000 alunos do ensino superior, de ambos os géneros,
perguntando qual a modalidade desportiva preferida em três alternativas possíveis.
Os resultados obtidos são apresentados no quadro seguinte

89
Estatística II

Futebol Basquetebol Andebol Total


Feminino 150 50 150 350
Masculino 350 200 100 650
Total 500 250 250 1000

Pretendemos averiguar, considerando o nível de significância de 5%, se a


modalidade desportiva preferida é independente do género.

Resolução:
Consideremos as variáveis aleatórias
X – género (2 categorias);
Y – modalidade desportiva preferida (3 categorias).
As hipóteses a testar são
H0 : X e Y são independentes vs H1 : X e Y não são independentes .
A estatística de teste é dada por
2
2 3
Oij  eij 
X2   
i 1 j 1
eij

e, sob a validade de H0 , tem-se


aprox . aprox .
X 2  22131, isto é, X 2  22 .

Para calcular o valor observado da estatística de teste vamos construir uma tabela
com as frequências observadas (nas células a branco) e as frequências esperadas
(nas células sombreadas)

Modalidade →
Futebol Basquetebol Andebol Total
↓ Género
Feminino 150 175 50 87.5 150 87.5 350
Masculino 350 325 200 162.5 100 162.5 650
Total 500 250 250 1000

O valor observado da estatística de teste é


2 2 2
150  175 50  87.5 150  87.5
X2   
175 87.5 87.5
2 2 2
350  325 200  162.5 100  162.5
    98.901.
325 162.5 162.5

Consultando a tabela da distribuição qui-quadrado, 22 ; 0.95  5.991 .


 

90
Testes do qui-quadrado

Como X 2  98.901  22 ; 0.95  5.991 , rejeitamos H0 para   0.05 . Podemos


 
então concluir que a preferência por uma modalidade desportiva não é
independente do género.

11.4. Testes de homogeneidade em tabelas de contingência

Nos testes de independência, o processo de amostragem origina uma tabela com dupla
classificação em que ambas as margens são aleatórias (“livres”). Contudo, por vezes,
tem mais interesse escolher um certo número de indivíduos em cada uma das categorias
da variável X (ou Y ) e observar quantos desses indivíduos pertencem a cada uma das
categorias da outra variável. Neste caso, os totais de uma das variáveis estão fixos e as
probabilidades de interesse são condicionais em vez de conjuntas. O que nos interessa é
avaliar se a distribuição de Y é homogénea nas diferentes categorias da variável X e,
portanto, não fazemos um teste de independência, mas sim um teste de homogeneidade.

Num teste de homogeneidade em tabelas de contingência r  s  , testa-se as hipóteses


H0 : A distribuição de Y é homogénea nas diferentes categorias de X
vs
H1 : A distribuição de Y não é homogénea nas diferentes categorias de X .
Mais formalmente,
H0 : p j |1  p j |2    p j |r j  1, , s
vs
H1 : p j |i  p j |k para algum j e algum par (i, k ) com i  k ,

onde r é o número de categorias da variável X (margem fixa), s o número de


categorias da variável Y (margem livre) e p j |i é a probabilidade condicional, isto é, a
probabilidade de ser classificado em B j sabendo que é do nível Ai .
Cada oij é um valor observado de uma variável aleatória Oij  B oi •, p j |i  . Então
eij  E Oij   oi •  p j |i
é o número esperado de indivíduos na categoria Ai de X e B j de Y simultaneamente.
o
Uma estimativa de p j |i é ij . Por uma regra das proporções tem-se, sob a validade de
oi •
H0 ,
oij o• j

oi • n

91
Estatística II

e, deste modo,
oi •  o• j
eij  oi •  p j |i  .
n

A estatística de teste é dada por


2
r s
Oij  eij 
X  
2

i 1 j 1
eij

e, sob a validade de H0 , tem-se


2
r s
Oij  eij  aprox .
X2     2r 1s 1 .
i 1 j 1
eij

A regra de decisão, ao nível de significância  , consiste em rejeitar H0 se


X 2  2r 1s 1;1 ,

o que equivale a dizer que a região de rejeição, ao nível de significância  , é

R   2r 1s 1;1 ,    .


 

Nota:
A distribuição da estatística de teste é uma distribuição aproximada. As condições
que permitem usar esta aproximação são as mesmas que as apresentadas para os
testes de independência em tabelas de contingência.

Exemplo 11.3
Dois grupos de nadadores foram sujeitos a dois métodos de treino: um grupo
realizou o método A (com crocodilo bebé na piscina) e o outro grupo o método B
(sem crocodilo bebé na piscina), tendo-se obtido os seguintes resultados

Sucesso Insucesso
Método A 14 17
Método B 11 18

As percentagens de sucesso dos dois métodos de treino diferem significativamente?


Considere   0.05 .

92
Testes do qui-quadrado

Resolução:
Os grupos em estudo são dois, o grupo de nadadores que foram sujeitos ao método
de treino A e o grupo de nadadores que foram sujeitos ao método de treino B.
Consideremos
X – identificação do método de treino (2 categorias);
Y – resultado do método de treino (2 categorias).
As hipóteses a testar são
H0 : A distribuição de Y é homogénea nas duas categorias de X
vs .
H1 : A distribuição de Y não é homogénea nas duas categorias de X .

A estatística de teste é dada por


2
2 2
Oij  eij 
X  
2

i 1 j 1
eij

e, sob a validade de H0 , tem-se


aprox . aprox .
X 2  22121, isto é, X 2  12 .

Para calcular o valor observado da estatística de teste são apresentadas numa


tabela as frequências observadas (nas células a branco) e as frequências esperadas
(nas células sombreadas)

Sucesso Insucesso Total


Método A 14 12.917 17 18.083 31
Método B 11 12.083 18 16.917 29
Total 25 35 60

O valor observado da estatística de teste é


14  12.9172 11  12.0832 17  18.0832 18  16.9172
X2      0.322
12.917 12.083 18.083 16.917

e, consultando a tabela da distribuição qui-quadrado, 21; 0.95  3.841 .


 
Como X 2  0.322  21; 0.95  3.841 , não rejeitamos H0 para   0.05 . Podemos
 
admitir que as percentagens de sucesso não diferem significativamente, isto é, os
métodos de treino são homogéneos em relação à percentagem de sucessos.

Nota:
O teste de homogeneidade do qui-quadrado pode ser utilizado na comparação de
duas proporções em populações independentes. Este teste é, portanto, uma
alternativa ao teste que usa a aproximação à distribuição normal, apresentado no

93
Estatística II

capítulo anterior. Deste modo, quando pretendemos utilizar o software SPSS na


comparação de proporções em duas populações independentes, podemos efetuar o
teste de homogeneidade do qui-quadrado (ver a ilustração do Exemplo 10.3
apresentada na Secção 11.5).

11.5. Ilustrações com SPSS

Exemplo 11.1
Recordemos que se pretende testar as hipóteses
H0 : pA  0.41,
pB  0.09, pAB  0.04, pO  0.46
vs
H1 : pA  0.41 ou pB  0.09 ou pAB  0.04 ou pO  0.46.
Utilizando o software estatístico SPSS, obtemos os outputs

NPar Tests

Chi-Square Test

Frequencies
grupo sanguineo

Observed N Expected N Residual


A 80 82,0 -2,0
B 20 18,0 2,0
AB 9 8,0 1,0
O 91 92,0 -1,0
Total 200

Test Statistics

grupo sanguineo
a
Chi-Square ,407
df 3

Asymp. Sig. ,939


Exact Sig. ,939
Point Probability ,003
a.

O valor observado da estatística de teste é X 2  0.407 , ao qual corresponde o


p-value p  0.939 (Exact Sig.).

94
Testes do qui-quadrado

Deste modo, ao nível de significância de 5%, não rejeitamos a hipótese nula (pois
p  0.05 ), o que significa que o modelo para a distribuição dos grupos sanguíneos
é também admissível na subpopulação feminina.

Exemplo 11.2
Recordemos que
X – género (2 categorias);
Y – modalidade desportiva preferida (3 categorias).
As hipóteses a testar são
H0 : X e Y são independentes vs H1 : X e Y não são independentes .
Utilizando o software estatístico SPSS, obtemos os outputs

Crosstabs
género * modalidade desportiva preferida Crosstabulation

modalidade desportiva preferida


futebol basquetebol andebol Total

género feminino Count 150 50 150 350

Expected Count 175,0 87,5 87,5 350,0


masculino Count 350 200 100 650

Expected Count 325,0 162,5 162,5 650,0


Total Count 500 250 250 1000

Expected Count 500,0 250,0 250,0 1000,0

Chi-Square Tests

Value df
a
Pearson Chi-Square 98,901 2 ,000 ,000
Likelihood Ratio 97,322 2 ,000 ,000
Fisher's Exact Test 96,950 ,000
b
Linear-by-Linear Association 48,902 1 ,000 ,000 ,000 ,000
N of Valid Cases 1000
a.

b.

O valor observado da estatística de teste é X 2  98.901 , ao qual corresponde o


p-value p  0.001 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 5%, rejeitamos a hipótese nula (pois
p  0.05 ). Podemos então concluir que a preferência pela modalidade desportiva
não é independente do género.

Exemplo 11.3
Recordemos que

95
Estatística II

X – identificação do método de treino (2 categorias);


Y – resultado do método de treino (2 categorias).
As hipóteses a testar são
H0 : A distribuição de Y é homogénea nas duas categorias de X
vs .
H1 : A distribuição de Y não é homogénea nas duas categorias de X .

Utilizando o software estatístico SPSS, obtemos os outputs

Crosstabs
método de treino * resultado Crosstabulation

resultado
sucesso insucesso Total
método de treino A Count 14 17 31

Expected Count 12,9 18,1 31,0


B Count 11 18 29

Expected Count 12,1 16,9 29,0


Total Count 25 35 60

Expected Count 25,0 35,0 60,0

Chi-Square Tests

Value df
a
Pearson Chi-Square ,322 1 ,570 ,609 ,380
b
Continuity Correction ,093 1 ,760
Likelihood Ratio ,323 1 ,570 ,609 ,380
Fisher's Exact Test ,609 ,380
c
Linear-by-Linear Association ,317 1 ,573 ,609 ,380 ,177
N of Valid Cases 60
a.

b.
c.

O valor observado da estatística de teste é X 2  0.322 , ao qual corresponde o


p-value p  0.609 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 5%, não rejeitamos a hipótese nula (pois
p  0.05 ). Podemos admitir que as percentagens de sucesso não diferem
significativamente, isto é, não rejeitamos a hipótese dos métodos de treino serem
homogéneos em relação à percentagem de sucesso.

Exemplo 11.4
Recordemos que no Exemplo 10.3 (do capítulo anterior) se pretendia testar se a
proporção de audiência que gostou do debate entre os adolescentes é diferente da
proporção entre os adultos.
Designando por

96
Testes do qui-quadrado

p1 – proporção de adultos que gostaram do debate,


p2 – proporção de adolescentes que gostaram do debate,
pretendemos testar
H0 : p1  p2 vs H1 : p1  p2 .

Estas hipóteses podem ser avaliadas através do teste de homogeneidade do


qui-quadrado, considerando
X – identificação do grupo (2 categorias),
Y – opinião sobre o debate (2 categorias),
e testando
H0 : A distribuição de Y é homogénea nas duas categorias de X
vs .
H1 : A distribuição de Y não é homogénea nas duas categorias de X .

Utilizando o software estatístico SPSS, obtemos os outputs

Crosstabs
classe etária * Gostou do debate? Crosstabulation

Gostou do debate?
sim não Total
classe etária adolescente Count 180 420 600

Expected Count 168,0 432,0 600,0


adulto Count 100 300 400

Expected Count 112,0 288,0 400,0


Total Count 280 720 1000

Expected Count 280,0 720,0 1000,0

Chi-Square Tests

Value df
a
Pearson Chi-Square 2,976 1 ,084 ,098 ,049
b
Continuity Correction 2,733 1 ,098
Likelihood Ratio 3,001 1 ,083 ,085 ,049
Fisher's Exact Test ,098 ,049
c
Linear-by-Linear Association 2,973 1 ,085 ,098 ,049 ,013
N of Valid Cases 1000
a.

b.
c.

O valor observado da estatística de teste é X 2  2.976 , ao qual corresponde o


p-value p  0.098 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 10%, rejeitamos a hipótese nula (pois
p  0.10 ) e podemos concluir que a proporção de audiência que gostou do debate
entre os adolescentes é diferente da proporção entre os adultos.

97
Estatística II

Nota:
Os softwares estatísticos fornecem-nos o p-value exato e o p-value aproximado deste
teste. Sempre que se dispõe de valores exatos são estes que devem ser utilizados.

98
Capítulo 12
Regressão linear

12 Regressão linear

12.1. Introdução

O peso é uma variável importante da composição corporal, dado que valores muito altos
ou muito baixos condicionam a saúde e o bem-estar. Suponha que se pretende
desenvolver um modelo para descrever o peso. Como é sabido, o peso depende, em
parte, da altura do indivíduo. Deste modo, a modelação do peso pode ser feita em
função da altura e, neste caso, o fenómeno em estudo envolve duas variáveis: Y – peso
e X – altura. Note-se que, mesmo conhecendo a altura, o peso varia devido a outros
fatores, isto é, a altura não é o único fator que explica a variabilidade do peso.
O peso e a altura são variáveis que estão relacionadas, tal como também o estão o peso
e a pressão arterial ou o esforço a que um indivíduo é sujeito e o consumo de oxigénio.
Os exemplos de variáveis que estão relacionadas entre si não se resumem a
características físicas ou fisiológicas, podemos encontrá-los nos mais variados domínios.
Basta pensar em situações do quotidiano, a classificação obtida num exame e o tempo
despendido com o estudo, o tempo obtido numa prova desportiva e o tempo de treino
realizado, ou o preço de um carro usado e a sua quilometragem.
Uma vez que admitimos que o valor de X é conhecido e que o valor de Y depende, em
parte, do valor de X considerado, as variáveis Y e X são denominadas,
respetivamente, variável dependente (ou resposta) e variável independente (ou
explicativa, ou preditora). Dada uma variável resposta Y e uma variável explicativa X ,
designa-se por regressão simples o procedimento que tem como objetivo desenvolver um
modelo explicativo que relacione as variáveis Y e X .
Estatística II

12.2. Regressão linear simples

Exemplo 12.1
Com o objetivo de descrever o peso em função da altura, foi recolhida
aleatoriamente uma amostra de 26 jovens atletas do sexo feminino, tendo-se
registado, para cada uma, o valor da altura (m) e do respetivo peso (kg).

jovem altura peso


1 1.62 66.4
2 1.64 62.5
3 1.59 53.8
4 1.62 50.5
5 1.61 54.3
6 1.61 57.4
7 1.82 79.6
8 1.81 68.4
9 1.79 75.1
10 1.92 76.5
11 1.61 49.4
12 1.87 72.7
13 1.88 82.0
14 1.84 80.0
15 1.80 66.0
16 1.87 79.8
17 1.67 60.6
18 1.89 81.2
19 1.70 61.2
20 1.71 74.2
21 1.53 48.0
22 1.68 62.4
23 1.64 68.9
24 1.59 53.1
25 1.51 45.4
26 1.52 44.4

Os dados de que dispomos constituem uma coleção de 26 pares ordenados (x i , yi ) ,


em que x i e yi são, respetivamente, um valor observado da variável independente
e uma realização da variável aleatória resposta.
A primeira abordagem para a análise deste conjunto de dados deve ser gráfica e
consiste na elaboração do diagrama de dispersão onde se representa o peso versus a
altura.

100
Regressão linear

90

80

peso (kg)
70

60

50

40

1.5 1.6 1.7 1.8 1.9 2.0

altura (m)

Se a regressão linear for um procedimento estatístico adequado para relacionar as


variáveis, então os dados deverão revelar uma tendência linear (positiva ou
negativa). Esta representação gráfica é também útil pois permite identificar
possíveis outliers. O diagrama sugere que os pontos se distribuem de forma
aproximadamente linear (isto é, em torno de uma reta). Como y representa o peso
e x representa a altura, podemos admitir que a relação entre y e x é linear, isto
é, pode traduzir-se através da equação de uma reta y  b0  b1x .
Se selecionarmos duas jovens da mesma altura, o peso quase certamente não é o
mesmo. Isto acontece porque as jovens podem ser diferentes noutras características
como, por exemplo, a idade ou os valores das pregas adiposas, ou por mero efeito
aleatório. Para que o modelo de regressão linear tenha em conta essas diferenças
devemos incorporar-lhe um termo ei ,
yi  b0  b1x i  ei , i  1, ,26 ,
em que ei é o erro de ajustamento (ou resíduo) associado ao i -ésimo indivíduo.

Há vários métodos para ajustar uma reta a um conjunto de pontos. Um bom método é,
como vimos no Capítulo 4 (unidade curricular Estatística I) o método dos mínimos
quadrados. Representando por yˆi o valor estimado para yi ,
yˆi  b0  b1x i , i  1, , n ,
verificando-se que
yi  yˆi  ei , i  1, , n .
Assim, para cada ponto no gráfico, o resíduo pode ser definido como a distância vertical
entre a observação e a reta ajustada,
ei  yi  yˆi , i  1, , n .

101
Estatística II

90

80

peso (kg)
70

60

50

40

1.5 1.6 1.7 1.8 1.9 2.0

altura (m)

Uma medida da qualidade do ajustamento global é dada pela soma dos quadrados dos
resíduos,  ei2 , que é habitualmente representada por SS E . A reta de mínimos
quadrados ajustada é a que produz um valor mínimo para SS E . Assim, minimizando
n n n
 ei2   yi  yˆi    yi  b0  b1x i  ,
2 2

i 1 i 1 i 1

obtém-se, como vimos no Capítulo 4 (unidade curricular Estatística I), as estimativas


dos coeficientes de regressão,
n
 xi  x yi  y 
i 1
b1  n e b0  y  b1x .
 xi  x 
2

i 1

O coeficiente b0 corresponde à ordenada na origem (ou constante) da reta de regressão


estimada, isto é, ao valor estimado da variável dependente y , quando a variável
independente x é igual a zero. O coeficiente b1 corresponde ao declive da reta de
regressão estimada, isto é, à variação estimada para y , quando x varia uma unidade.

Nota:
Formas equivalentes de obter o coeficiente b1 são dadas por
n n n
n  x iyi   x i  yi
cov  x, y  s
b1  i 1 i 1 i 1
ou b1  r y ,
n   n 2
sx2 sx
n  x i 2    x i 
i 1
 i 1 
como vimos no Capítulo 4 (unidade curricular Estatística I).

Com o objetivo de quantificar a qualidade do ajustamento da reta de regressão, é usual


considerar uma medida baseada na decomposição da variabilidade global. O gráfico

102
Regressão linear

yi
yi  yˆi (erro não explicado)

yi  y yˆi
(erro total)
yˆi  y (erro explicado devido à regressão)
y

ilustra a igualdade
yi  y   yi  yˆi   yˆi  y , i  1, , n .
Como
2 2 2
yi  y   yi  yˆi   yˆi  y   2 yi  yˆi   yˆi  y  , i  1,  , n
e a soma dos produtos cruzados é nula, podemos desdobrar a soma de quadrados da
seguinte forma
n n n
 yi  y    yi  yˆi    yˆi  y  .
2 2 2

i 1 i 1 i 1

A parcela do lado esquerdo representa a soma de quadrados total ( SST ), a primeira


parcela do lado direito, a soma de quadrados devida ao erro ( SS E ) e a outra parcela
representa a soma de quadrados devida à regressão ( SS R ). A expressão anterior pode
então ser escrita como
SST  SS E  SS R .
Designa-se por coeficiente de determinação, e representa-se por r 2 , o valor dado por
n
 yˆi  y 
2

i 1 SS R
r2  n  .
SST
 yi  y 
2

i 1

O valor de r2 corresponde à proporção da variação de y que é explicada pela


variabilidade de x . Assim, é usual utilizar o coeficiente de determinação como medida
da qualidade do ajustamento da reta de regressão.
Prova-se que o coeficiente de determinação é igual ao quadrado do coeficiente de
correlação linear de Pearson entre y e ŷ (o que é equivalente à correlação linear de
Pearson entre x e y ). O valor de r 2 varia entre 0 e 1 e, quanto mais próximo de 1 for o
valor de r 2 maior é o poder explicativo da reta de regressão linear.

Exemplo 12.1 (continuação)


As estimativas dos coeficientes de regressão são

103
Estatística II

n
 xi  x yi  y 
i 1
b1  n
 86.249
2
 xi  x 
i 1

e b0  y  b1x  82.710 ,
pelo que podemos escrever a equação da reta de regressão estimada como
yˆ  82.710  86.249 x .
Podemos representar a reta de regressão linear estimada sobreposta aos pontos no
diagrama de dispersão
90

80
peso (kg)

70

60

50

40

1.5 1.6 1.7 1.8 1.9 2.0

altura (m)

O declive, b1  86.249 , indica que à variação de 1 m na altura corresponde a


variação de 86.249 kg na estimativa do peso. Atendendo à unidade de medida das
variáveis faz mais sentido dizer que à variação de 10 cm na altura corresponde a
variação de 8.6249 kg na estimativa do peso.
A ordenada na origem, b0  82.710 , não tem neste caso interesse, pois indicaria
o peso estimado para uma jovem com 0 m de altura, o que é certamente absurdo!
O coeficiente de determinação,
n 2

SS R  yˆi  y 
i 1
r2   n
 0.828 ,
SST 2
 yi  y 
i 1

indica que cerca de 83% da variação do peso é explicada pela variação da altura.
Com valores desta ordem de grandeza para r 2 , o modelo pode ser utilizado para
obter estimativas do peso de outras jovens. Assim, se pretendermos estimar o peso
de uma jovem que tem 1.60 m de altura, esse valor será dado por


yˆ1.60  82.710  86.249 1.60  55.3 kg . 

104
Regressão linear

Nota:
Uma das utilizações do modelo de regressão linear simples consiste em prever o
valor de y para um dado valor x . Convém salientar que só devemos usar o
modelo de regressão para efetuar previsão se
(i) o valor do coeficiente de determinação for elevado (na literatura várias
sugestões são apresentadas, sendo mais ou menos consensual que se deve
considerar coeficientes de determinação com valores superiores a 0.7);
(ii) o valor relativamente ao qual pretendemos fazer previsão pertencer ao
intervalo dos valores de x que serviram de base para a determinação da reta.

12.2.1. Modelo

Designa-se por modelo de regressão linear simples a equação


Yi  0  1Xi  i , i  1, , n ,
em que
Xi é a variável independente,
Yi é a variável dependente,
0 e 1 são os coeficientes de regressão,
i é o erro aleatório,
e onde se assume que cada i , i  1,, n , é uma variável aleatória com distribuição
normal, de valor médio E(i )  0 e variância var(i )  2 , i  1,, n , e que as
variáveis aleatórias 1, 2,, n são independentes.

12.2.2. Inferência estatística sobre os coeficientes de


regressão

As estimativas, ̂0 e ̂1 , obtidas pelo método dos mínimos quadrados são concretizações
de variáveis aleatórias que variam de amostra para amostra. Por isso, para além de
estimativas pontuais é importante obter também estimativas intervalares para os
parâmetros 0 e 1 . Por outro lado, se 1  0 então a reta de regressão resume-se a
Y  0   e, neste caso, o conhecimento de X em nada altera a informação sobre Y
(não existe relação entre X e Y ). Deste modo, é pertinente averiguar se existe uma
relação linear efetiva entre as variáveis. Para tal, deve efetuar-se o teste de hipóteses
H0 : 1  0 vs H1 : 1  0 .
Sob a validade das suposições do modelo de regressão linear podemos efetuar testes de
hipóteses sobre 1 e também sobre 0 e, além disso, obter estimativas intervalares para
os coeficientes de regressão.

105
Estatística II

Inferência paramétrica para o declive

Um estimador para 1 é
n
 Xi  X Yi Y 
ˆ1  b1  i 1
n 2
 Xi  X 
i 1

sendo a sua variância dada por


2
 
var ˆ1  n 2
.
 Xi  X 
i 1

Se  for desconhecido é substituído pelo estimador


n 2
 Yi Yˆi 
i 1
S 
n 2
e, nestas condições, a variável aleatória
ˆ1  1
T 
1
S n 2
 Xi  X 
i 1

tem uma distribuição t de Student com n  2 graus de liberdade e pode ser usada para
fazer inferência sobre o declive.

Intervalo a 1    100% de confiança para o declive 1

 
 
 1 1 
 ˆ1  tn 2;1 / 2 s  n , ˆ1  tn 2;1 / 2 s  n 
 2 
 xi  x    i  
2
 x  x
 i 1 i 1 
em que tn 2;1 / 2 é o quantil de probabilidade 1   / 2 da distribuição t de
Student com n  2 graus de liberdade.

Testes de hipóteses para o declive 1

Hipóteses a testar:
H0 : 1  10 vs H1 : 1  10

106
Regressão linear

Estatística de teste:
ˆ1  10
T 
1
S n 2
 Xi  X 
i 1

que, sob a validade de H0 , tem distribuição t de Student com n  2 graus de


liberdade.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se | t |  t(n 2;1 / 2) , sendo t o valor
observado da estatística de teste e t(n 2;1 / 2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  2 graus de liberdade.

Nota:
Em particular, considerando 10  0 , o teste de hipóteses
H0 : 1  0 vs H1 : 1  0 ,
permite verificar se o modelo de regressão linear simples é significativo.

Exemplo 12.1 (continuação)


Para testar as hipóteses
H0 : 1  0 vs H1 : 1  0 ,
utilizamos a estatística de teste,
ˆ1
T  .
1
S n 2
 Xi  X 
i 1

Como
ˆ1  86.249 ,

n 2
 yi  yˆi  1
i 1
s   5.114 , logo s   8.031 ,
n 2 n 2
 xi  x 
i 1

86.249
então um valor observado da estatística de teste é t   10.739 .
8.031
Considerando   0.05, temos tn 2;1/2  t24;0.975  2.064 .

107
Estatística II

Como | t |  10.739  2.064 , rejeitamos a hipótese nula ao nível de significância de


5%, ou seja é de admitir que o parâmetro 1 é significativamente diferente de zero,
isto é, a variável X é significativa para o modelo.

Um intervalo a 1    100% de confiança para 1 é dado por


 
 
 1 1 
 ˆ1  tn 2;1 / 2 s  n , ˆ1  tn 2;1 / 2 s  n .
 2 
 xi  x   xi  x  
2

 i 1 i 1 
Como

1
ˆ1  86.249 , t24;0.975  2.064 e s  n
 8.031 ,
2
 xi  x 
i 1

então um intervalo a 95% de confiança para 1 é


 86.249  2.064  8.031 , 86.249  2.064  8.031  ,
 
donde obtemos o intervalo  69.673 , 102.825  .
 

Inferência paramétrica para a ordenada na origem

Um estimador para 0 é
ˆ0  b0  Y  b1X
sendo a sua variância dada por
n
2  Xi2
 
var ˆ0  n
i 1
2
.
n  Xi  X 
i 1

Se  for desconhecido é substituído pelo estimador S  e, nestas condições, a variável


aleatória

ˆ0  0
T 
n
 Xi2
i 1
S n 2
n  X i  X 
i 1

tem uma distribuição t de Student com n  2 graus de liberdade. Assim, pode


utilizar-se a variável aleatória T para fazer inferência sobre a ordenada na origem.

108
Regressão linear

Intervalo a 1    100% de confiança para a ordenada na origem 0

 n n 

  i x 2
 i x 2 

 ˆ0  t s i  1
, ˆ t
 s i  1 
 n 2;1  / 2  n 0 n 2;1  / 2  n
2 
n  x i  x  n  x i  x  
2

 
 i  1 i 1 
em que tn 2;1/2 é o quantil de probabilidade 1   / 2 da distribuição t de
Student com n  2 graus de liberdade.

Testes de hipóteses para a ordenada na origem 0

Hipóteses a testar:
H0 : 0  00 vs H1 : 0  00

Estatística de teste:

ˆ0  00
T 
n
 Xi2
i 1
S n 2
n  Xi  X 
i 1

que, sob a validade de H0 , tem distribuição t de Student com n  2 graus de


liberdade.

Regra de decisão:
Rejeitar H0 , ao nível de significância  , se | t |  t(n 2;1/2) , sendo t o valor
observado da estatística de teste e t(n 2;1/2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  2 graus de liberdade.

Nota:
O teste de hipóteses
H 0 : 0  0 vs H1 : 0  0
permite verificar se a constante é significativa para o modelo. No entanto, mesmo
que a constante seja não significativa, a validade do modelo não é posta em causa.

Exemplo 12.1 (continuação)


Para testar as hipóteses
H 0 : 0  0 vs H1 : 0  0 ,
utilizamos a estatística de teste

109
Estatística II

ˆ0
T  .
n
 Xi2
i 1
S n 2
n  X i  X 
i 1

Como
ˆ0  82.710 ,

n
 xi2
i 1
s   5.114 , logo s  n
 13.733 ,
2
n  x i  x 
i 1

82.710
então um valor observado da estatística de teste é t   6.023 .
13.733
Considerando   0.05, logo t24;0.975  2.064 .

Como | t |  6.023  2.064 , rejeitamos a hipótese nula ao nível de significância de


5%, ou seja é de admitir que o parâmetro 0 é significativamente diferente de zero.

Um intervalo a 1    100% de confiança para 0 é dado por


 n n 

  xi2  xi2 

 ˆ0  t i 1
, ˆ0  tn 2;1 / 2 s  i 1 .
 n 2;1 / 2 s  n n
2 
n  x i  x  n  x i  x  
2

 
 i 1 i 1 
Como
n
 xi2
ˆ0  82.710 , t24;0.975  2.064 e s  n
i 1
 13.733 ,
2
n  x i  x 
i 1

então um intervalo a 95% de confiança para 0 é


  82.710  2.064  13.733 ,  82.710  2.064  13.733  ,
 
donde obtemos o intervalo   111.054 ,  54.367  .
 

110
Regressão linear

12.2.3. Validação de pressupostos

A inferência sobre a reta de regressão é válida se as suposições sobre os erros aleatórios


do modelo se verificarem. É então necessário verificar que cada i é uma variável
aleatória com distribuição normal, de valor médio E(i )  0 e variância var(i )  2 ,
i  1,, n , e que as variáveis aleatórias 1, 2,, n são independentes. Uma das
técnicas de validação destes pressupostos é a análise de resíduos.

A primeira suposição corresponde à hipótese de normalidade dos erros aleatórios. Esta


hipótese pode ser testada averiguando se os resíduos ei , i  1, , n , são provenientes de
uma população com distribuição normal. Para isso, podemos utilizar um dos testes de
normalidade: teste de Kolmogorov-Smirnov ou teste de Shapiro-Wilk.

A segunda suposição corresponde à hipótese de variância constante (ou


homocedasticidade) para os erros aleatórios. A análise gráfica é a forma mais simples de
verificar esta hipótese. Um procedimento gráfico consiste em efetuar um diagrama de
dispersão dos resíduos ei versus os valores preditos (ou estimados) yˆi , i  1, , n . Se o
modelo for adequado, os resíduos distribuem-se aleatoriamente em torno da respetiva
média (de valor zero), ao longo dos valores preditos.

Nota:
No caso em que as hipóteses estabelecidas sobre os i , i  1, , n , não se verificam
é questionável
(i) a validade dos testes realizados e do coeficiente de determinação,
(ii) as estimativas obtidas para os coeficientes e para os intervalos de confiança,
(iii) a precisão das previsões.

12.3. Regressão linear múltipla

12.3.1. Modelo

O modelo de regressão linear múltipla corresponde à generalização do modelo de


regressão linear simples. Designa-se por modelo de regressão linear múltipla a equação
Yi  0  1X1i  2X 2i    k Xki  i , i  1, , n ,
em que

111
Estatística II

X1i , X 2i , , Xki são as variáveis independentes,


Yi é a variável dependente,
0 , 1, , k são os coeficientes de regressão,
i é o erro aleatório,
e onde se assume que cada i , i  1,, n , é uma variável aleatória com distribuição
normal, de valor médio E(i )  0 e variância var(i )  2 , i  1,, n e que as
variáveis aleatórias 1, 2,, n são independentes. As variáveis explicativas
X1, X 2 , , Xk devem ser linearmente independentes.

Exemplo 12.2
Com o objetivo de explicar a massa gorda (%), em função da idade (anos), da
altura (m) e das pregas adiposas (mm) dos membros superior e inferior, foi
aleatoriamente recolhida uma amostra de 26 jovens atletas do sexo feminino,
tendo-se registado, para cada uma, os valores das cinco variáveis.

jovem idade altura prega MS prega MI massa gorda


1 16 1.62 30.5 23.0 28.9
2 17 1.64 22.5 20.5 22.4
3 14 1.59 21.2 22.0 25.5
4 13 1.62 15.5 16.0 23.0
5 14 1.61 15.5 15.5 19.5
6 14 1.61 20.0 28.0 27.2
7 15 1.82 24.7 21.5 26.6
8 15 1.81 18.5 18.8 23.8
9 16 1.79 17.0 16.3 20.6
10 17 1.92 20.5 23.3 27.8
11 15 1.61 10.8 9.8 13.8
12 18 1.87 17.5 14.8 21.3
13 16 1.88 24.5 36.5 28.2
14 17 1.84 18.2 15.5 22.5
15 16 1.80 18.8 14.8 21.4
16 15 1.87 20.5 30.0 23.3
17 17 1.67 19.2 17.5 19.5
18 17 1.89 19.5 15.8 19.0
19 17 1.70 12.3 16.5 14.5
20 14 1.71 26.0 30.5 28.6
21 16 1.53 17.5 24.5 23.5
22 16 1.68 18.5 33.8 25.5
23 14 1.64 20.5 34.5 33.8
24 15 1.59 14.5 13.0 16.6
25 14 1.51 15.5 15.5 23.6
26 14 1.52 10.0 7.2 8.8

A primeira abordagem para a análise deste conjunto de dados deve ser gráfica e
consiste na representação da matriz de diagramas de dispersão que combina os
vários pares de variáveis

112
Regressão linear

massa gorda (%)


idade (anos)
altura (m)
membro superior
prega adiposa

(mm)
membro inferior
prega adiposa

(mm)

massa gorda (%) idade (anos) altura (m) prega adiposa prega adiposa
membro superior membro inferior
(mm) (mm)

Estes diagramas permitem visualizar a relação entre cada par de variáveis. Cada
célula da matriz apresenta o diagrama de dispersão de uma das cinco variáveis
versus uma das outras. De notar que os gráficos abaixo da diagonal são o espelho
dos que estão acima da diagonal. Por exemplo, o gráfico que se encontra na linha 3
e na coluna 2 representa a altura versus a idade, na linha 2 e coluna 3 encontra-se
o gráfico onde se representa a idade versus a altura.
A observação dos diagramas sugere que existe uma relação linear razoável entre a
massa gorda e as pregas adiposas dos membros superior e inferior, sendo fraca a
relação linear da massa gorda com a altura e praticamente inexistente com a idade.
Podemos ainda verificar que a relação linear entre cada par de variáveis
explicativas não é forte.
Além desta análise gráfica, é também importante determinar as correlações entre a
variável dependente e cada uma das variáveis independentes. Na tabela seguinte,
reporta-se os valores do coeficiente de correlação linear de Pearson entre cada par
de variáveis

massa gorda idade altura prega MS


idade −0.120
altura 0.215 0.550
prega MS 0.788 0.117 0.317
prega MI 0.809 −0.080 0.197 0.643

113
Estatística II

Os valores do coeficiente de correlação linear de Pearson indicam a existência de


correlações lineares (positivas) elevadas (|r |  0.7 ) entre a massa gorda e as pregas
adiposas dos membros superior e inferior e correlações fracas (|r |  0.3 ) entre a
massa gorda e as outras duas variáveis, sendo a correlação entre a massa gorda e a
idade bastante fraca. Dado o valor desta correlação, optámos por não incluir a
variável idade no modelo de regressão para explicar a massa gorda.

Se pretendêssemos ajustar um modelo de regressão linear simples para a massa


gorda, considerando como variáveis candidatas a preditor as variáveis
apresentadas, a escolha deveria recair na variável prega adiposa do membro
inferior, uma vez que é a que apresenta uma correlação linear mais elevada com a
variável resposta.

Se Y representar a massa gorda e X a prega adiposa do membro inferior, o


modelo de regressão linear simples ajustado é yˆ  11.021  0.566 x , sendo o
coeficiente de determinação do modelo dado por r 2  0.654 (ver ilustração com
SPSS, na Secção 12.4). Atendendo a que apenas 65.4% da variabilidade da massa
gorda é explicada pelo modelo, caso pretendêssemos obter um modelo para estimar
(predizer) a massa gorda, deveríamos avaliar se adicionando mais variáveis
explicativas ao modelo conseguiríamos um acréscimo nesta percentagem.

Vejamos o que acontece se considerarmos ajustar um modelo de regressão linear


múltipla com os três preditores que apresentam correlações mais elevadas com a
massa gorda. Se Y representar a massa gorda, X1 a altura, X 2 a prega adiposa do
membro superior e X 3 a prega adiposa do membro inferior, o modelo de regressão
linear múltipla que explica a percentagem de massa gorda, em função da altura e
das pregas adiposas dos membros superior e inferior é dado por
Yi  0  1X1i  2X 2i  3X 3i  i , i  1, ,26 .

Tal como acontece no modelo de regressão linear simples, também neste caso, os
verdadeiros valores dos coeficientes de regressão, 0 , 1 , 2 e 3 , não são conhecidos. O
procedimento a adotar consiste em obter estimadores b0 , b1 , b2 e b3 , com base na
informação amostral disponível, por exemplo, pelo método dos mínimos quadrados.
Uma medida da qualidade do ajustamento continua a ser dada pelo coeficiente de
determinação. Tal como definido no modelo de regressão linear simples,
n 2
 yˆi  y  SS R
i 1
r2  n
 ,
2 SST
 yi  y 
i 1

114
Regressão linear

sendo agora yˆi dado por


yˆi  b0  b1x 1i    bk x ki , i  1, , n .
No modelo de regressão linear múltipla, o coeficiente de determinação corresponde à
proporção da variação de y que é explicada pela variabilidade de x1,  , x k . Também
aqui, o coeficiente de determinação corresponde ao quadrado do coeficiente de correlação
linear de Pearson entre y e ŷ , tomando valores entre 0 e 1.

Nota:
Tal como na regressão linear simples, uma das utilizações do modelo de regressão
linear múltipla consiste em prever o valor de y para um dado conjunto de valores
x1,  , x k . Convém salientar, contudo, que só devemos usar o modelo de regressão
para efetuar previsão se
(i) o valor do coeficiente de determinação for elevado;
(ii) os valores para os quais se pretende fazer previsão pertencerem aos intervalos
de valores originais.

12.3.2. Inferência estatística sobre os coeficientes de


regressão

À semelhança do que é feito no modelo de regressão linear simples, para além de


estimativas pontuais é importante obter estimativas intervalares e efetuar testes de
hipóteses sobre os coeficientes de regressão.

Avaliação global do modelo

No modelo de regressão linear múltipla, é necessário averiguar se o modelo é


globalmente significativo antes de realizar a inferência sobre cada um dos coeficientes.
Para tal, efetua-se o teste de aderência global do modelo, cujas hipóteses a testar são
H0 : 1  2    k  0 vs H1 :  j  0 para algum j  1, , k  .
A relação estabelecida anteriormente, para o modelo de regressão simples,
SST  SS E  SS R ,
mantém-se válida, sendo agora yˆi dado por
yˆi  b0  b1x 1i    bk x ki , i  1, , n .
Assim, a estatística
MS R SS R / k
F 
MS E SS E / n  k  1

115
Estatística II

tem, sob a validade de H0 , distribuição F de Fisher-Snedecor com k graus de


liberdade no numerador e n  k  1 graus de liberdade no denominador.
A regra de decisão consiste em rejeitar H0 , ao nível de significância  , se
f  Fk ,n k 1;1 , sendo f o valor observado da estatística de teste e Fk ,n k 1;1 o
quantil de probabilidade 1   da distribuição F de Fisher-Snedecor com k graus de
liberdade no numerador e n  k  1 graus de liberdade no denominador.

Notas:
1. Este teste não indica se todas as variáveis são significativas, apenas permite
verificar se o modelo de regressão linear múltipla é globalmente significativo.
2. No modelo de regressão linear simples, a avaliação global do modelo consiste em
efetuar o teste que tem como hipóteses
H0 : 1  0 vs H1 : 1  0 .
Estas hipóteses coincidem com as hipóteses do teste efetuado para avaliar se o
declive é significativo. Os valores observados para cada uma das estatísticas de
teste são distintos, pois um teste utiliza a estatística T e o outro utiliza a
estatística F , mas os p-values obtidos são, necessariamente, os mesmos.

Avaliação individual dos coeficientes

À semelhança do que acontece no modelo de regressão linear simples, em que se faz


inferência paramétrica para o declive e para a ordenada na origem, também no modelo
de regressão linear múltipla tem interesse efetuar testes individuais sobre cada um dos
coeficientes de regressão. Assim, deve efetuar-se k  1 testes, cujas hipóteses a testar são
H 0 : 0  0 vs H1 : 0  0 ,

H0 : 1  0 vs H1 : 1  0 ,

H0 : k  0 vs H1 : k  0 .
A construção de um intervalo de confiança para cada um dos k  1 parâmetros é
também um procedimento a realizar.
Dado o estimador ˆj , do parâmetro  j , e a sua variância, var ˆj  , a variável aleatória
ˆj
Tj  , j  0, , k ,
 
var ˆj

tem, sob a validade de H0 , uma distribuição t de Student com n  k  1 graus de


liberdade, pelo que se pode utilizar esta variável aleatória para fazer inferência sobre  j .

116
Regressão linear

Testes de hipóteses para os coeficientes de regressão

Hipóteses a testar:
H(j)
0
: j  0 vs H(j)
1
: j  0 j  0, , k

Estatística de teste:
ˆj
Tj  , j  0, , k
 
var ˆj

que, sob a validade de H0 , tem distribuição t de Student com n  k  1 graus de


liberdade.

Regra de decisão:
Rejeitar H(j)
0
, ao nível de significância  , se | t j |  t(n k 1;1 /2) , sendo t j o valor
observado da estatística de teste e t(n k 1;1/2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  k  1 graus de liberdade.

Notas:
1. No caso da regressão linear múltipla, o teste t permite verificar se cada
coeficiente de regressão é individualmente significativo, mas tendo em conta a
presença das outras variáveis explicativas. O intervalo de confiança para cada
coeficiente tem também em conta a presença das outras variáveis explicativas.
2. O teste de hipóteses
H 0 : 0  0 vs H1 : 0  0
permite verificar se a constante é significativa para o modelo. No entanto,
mesmo que a constante seja não significativa, a validade do modelo não é posta
em causa.

12.3.3. Validação de pressupostos

A inferência sobre o modelo de regressão é válida se as suposições sobre os erros


aleatórios do modelo se verificarem. É então necessário verificar que cada i é uma
variável aleatória com distribuição normal, de valor médio E(i )  0 e variância
var(i )  2 , i  1,, n , e que as variáveis aleatórias 1, 2,, n são independentes.
Mais uma vez, vamos utilizar a análise de resíduos para validar as hipóteses relativas
aos erros aleatórios.

A hipótese de normalidade dos erros aleatórios pode ser testada averiguando se os


resíduos ei , i  1, , n , são provenientes de uma população com distribuição normal.

117
Estatística II

Para isso, podemos utilizar um dos testes de normalidade: teste de Kolmogorov-Smirnov


ou teste de Shapiro-Wilk.

A hipótese de homocedasticidade – variância dos erros aleatórios constante – é avaliada


informalmente com um diagrama de dispersão dos resíduos ei versus os valores preditos
yˆi , i  1, , n . Se o modelo for adequado, os resíduos distribuem-se aleatoriamente em
torno da respetiva média (de valor zero), ao longo dos valores preditos.
As variáveis explicativas X1, X 2 , , Xk devem ser linearmente independentes, isto é,
deve ser verificada a hipótese de não colinearidade das variáveis explicativas. A
colinearidade pode surgir quando se verifica forte correlação entre duas variáveis
explicativas ou combinações lineares de dois conjuntos distintos de variáveis
explicativas. Uma abordagem simples, ainda que muito incompleta, consiste em calcular
o coeficiente de correlação linear de Pearson entre cada par de variáveis explicativas
Xi , X j  , i, j  1,, k e i  j , e verificar a sua magnitude. Na literatura várias
sugestões são apresentadas, sendo mais ou menos consensual que se deve evitar
coeficientes de correlação com valor absoluto superior a 0.7.

No modelo de regressão linear múltipla convém ainda verificar a adequabilidade da


forma do modelo. Um procedimento gráfico consiste em efetuar k diagramas de
dispersão dos resíduos ei versus os valores de cada uma das variáveis explicativas x i ,
i  1, , n . Se o modelo linear for adequado, os resíduos distribuem-se aleatoriamente
em torno da respetiva média (de valor zero), ao longo dos valores de cada uma das
variáveis explicativas.
De notar que, no modelo de regressão linear simples não validámos esta hipótese, uma
vez que nesse caso, o diagrama de dispersão dos resíduos ei versus os valores da variável
explicativa x i , i  1, , n , coincide com o diagrama de dispersão dos resíduos ei versus
os valores preditos yˆi , i  1, , n .

12.3.4. Métodos stepwise para seleção de variáveis

No Exemplo 12.2 considerámos como variáveis explicativas a altura e as pregas adiposas


do membro superior e inferior, mas será que todas estas variáveis contribuem para a
explicação da massa gorda, ou será que alguma delas é redundante?
Um problema importante com interesse prático é o de escolher, entre as variáveis
explicativas, um subconjunto com o maior poder explicativo possível, merecedor de
constar no modelo de regressão linear. Assim, quando se pretende encontrar um modelo
deve considerar-se uma lista admissível de variáveis candidatas a variáveis explicativas.
A partir dessa lista é escolhido um subconjunto, constituído pelas variáveis que serão
“as mais” explicativas para a variável resposta. O procedimento parece lógico, no

118
Regressão linear

entanto, não é elementar. Como vamos decidir quais as variáveis “mais” explicativas?
No caso em que o número de variáveis candidatas a variáveis explicativas é reduzido, é
possível obter todos os modelos de regressão e escolher o “melhor”.

Exemplo 12.2 (continuação)


As variáveis explicativas consideradas são X1 – a altura, X 2 – a prega adiposa do
membro superior e X 3 – a prega adiposa do membro inferior. Com três candidatas
a variáveis explicativas, podem construir-se oito modelos de regressão linear
Yi  0  1X1i  2X 2i  3X 3i  i ,

Yi  0  1X1i  2X 2i  i ,

Yi  0  1X1i  3X 3i  i ,

Yi  0  2X 2i  3X 3i  i ,

Yi  0  1X1i  i ,

Yi  0  2X 2i  i ,

Yi  0  3X 3i  i ,

Yi  0  i ,

i  1, , n .
Enunciámos todos os modelos lineares que é possível construir com três variáveis
explicativas. Por qual optar? Qual destes modelos “melhor” explica a massa gorda?

Uma medida do poder explicativo de um modelo de regressão linear é dada pelo


coeficiente de determinação. Na comparação de diferentes modelos para uma variável
dependente, uma possibilidade para selecionar o “melhor” modelo, poderia ser calcular o
valor de r 2 para cada um dos modelos considerados e optar por aquele que tem valor
mais elevado. No entanto, o modelo com maior valor de r 2 é o que inclui todas as
variáveis explicativas. Um modelo deve ser parcimonioso, isto é, deve procurar o
equilíbrio entre o poder explicativo que tem e o número de variáveis que inclui.
Assim, o valor de r 2 deve ser ajustado tendo em conta o número total de variáveis
presentes no modelo. Essa medida designa-se por coeficiente de determinação ajustado,
2
representa-se por rajust , e obtém-se como
n 1
2
rajust  1  1  r 2  .
n k 1
Na comparação de modelos com um número diferente de variáveis explicativas deve
2
usar-se o coeficiente rajust e não o coeficiente r 2 .

119
Estatística II

No Exemplo 12.2 considerámos apenas três variáveis explicativas candidatas a entrar no


modelo e verificámos que o número de possíveis modelos é oito, se o número de variáveis
candidatas for cinco então o número de possíveis modelos passa a ser 32, e se o número
de variáveis candidatas for 20? Tendo em conta que o número de possíveis modelos é
dado por 2k , será 1048576, o que torna impraticável enunciar e calcular o coeficiente de
determinação ajustado para cada um desses modelos.
O problema é contornado recorrendo a métodos que efetuam a seleção das variáveis
explicativas de forma criteriosa. Alguns desses métodos designam-se por stepwise. Há
vários tipos de métodos stepwise, os mais comuns são: stepwise forward, stepwise
backward e stepwise forward-with-a-backward-look. O método stepwise forward começa
por escolher a variável explicativa mais correlacionada com a variável resposta. Depois,
em cada passo, escolhe de entre as variáveis explicativas ainda não consideradas, aquela
que produz o maior acréscimo na explicação da variável resposta, tendo em conta as que
já estão no modelo. O método stepwise backward efetua o procedimento ao contrário,
coloca no modelo todas as variáveis explicativas e, em cada passo, remove a menos
significativa. O método stepwise forward-with-a-backward-look seleciona, em cada passo,
a “melhor” variável a introduzir no modelo de regressão e verifica se, com a introdução
dessa variável, alguma das anteriormente incluídas no modelo deve ser removida.

12.4. Ilustrações com SPSS

Exemplo 12.1
Recordemos que
Y representa o peso e X representa a altura.
Admite-se que a relação entre Y e X é linear, isto é
Yi  0  1Xi  i , i  1, ,26 .
Ajustando o modelo de regressão linear simples, disponível no SPSS, obtém-se

Regression
a
Variables Entered/Removed

Model Method
b .
1 altura (m) Enter

a.

b.

120
Regressão linear

Model Summary b

Model R R Square
a
1 ,910 ,828 ,821 5,1139
a.

b.

a
ANOVA

Model df Mean Square F Sig.


1 b
Regression 3016,053 1 3016,053 115,327 ,000
Residual 627,653 24 26,152
Total 3643,706 25

a.

b.

a
Coefficients

Unstandardized Coefficients 95,0% Confidence Interval for B

Model B Std. Error Beta t Sig. Lower Bound Upper Bound


1 (Constant) -82,710 13,733 -6,023 ,000 -111,054 -54,367
altura (m) 86,249 8,031 ,910 10,739 ,000 69,673 102,825
a.

Analisando os outputs verifica-se que o coeficiente de correlação entre y e ŷ é


r  0.910 e que o coeficiente de determinação é r 2  0.828 (tabela Model Summary).
A reta ajustada (tabela Coefficients) tem equação dada por
yˆ  82.710  86.249 x ,
sendo a ordenada na origem b0  82.710 e o declive b1  86.249 . Intervalos a
95% de confiança para 0 e 1 são dados, respetivamente, por
  111.054 ,  54.367  e  69.673 , 102.825  .
   
As hipóteses
H 0 : 0  0 vs H1 : 0  0 (1),

H0 : 1  0 vs H1 : 1  0 (2),
testam, individualmente, cada um dos coeficientes. A estatística de teste para as
hipóteses (1) tem como valor observado t  6.023 , a que corresponde o p-value
p  0.001 . A estatística de teste correspondente às hipóteses apresentadas em (2)
tem como valor observado t  10.739 , ao qual corresponde um p-value p  0.001
(tabela Coefficients). Os valores dos p-values (ambos inferiores a 0.05) levam à
rejeição de cada uma das hipóteses nulas ao nível de significância de 5%, o que
permite inferir que os parâmetros 0 e 1 são significativamente diferentes de zero.

Vejamos se o modelo verifica as suposições.

121
Estatística II

Normalidade

H0 : Os erros aleatórios têm distribuição normal


vs
H1 : Os erros aleatórios não têm distribuição normal .
Utilizando o teste de Shapiro-Wilk disponível no software SPSS

Explore
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
*
Standardized Residual ,094 26 ,200 ,939 26 ,127
*.
a.

O valor observado da estatística de teste é w  0.939 , a que corresponde o p-value


p  0.127 . Como p  0.05 , não se rejeita a hipótese nula, ao nível de
significância de 5%, admitindo-se assim a normalidade dos erros aleatórios.

Homocedasticidade
Para avaliar a homocedasticidade dos erros aleatórios representa-se o diagrama de
dispersão dos resíduos versus os valores preditos
2
Standardized Residual

-1

-2

40 50 60 70 80 90

Unstandardized Predicted Value

Os resíduos apresentam um padrão constante ao longo dos valores preditos, o que


sugere que a variância dos erros aleatórios deverá ser constante.

Exemplo 12.2
Recordemos que
Y representa a massa gorda e X representa a prega adiposa do membro
inferior.
Considera-se o modelo de regressão linear simples para Y , em que X é a
variável explicativa, isto é
Yi  0  1Xi  i , i  1, ,26 .

122
Regressão linear

Ajustando o modelo no software SPSS, obtém-se

Regression
a
Variables Entered/Removed

Model Variables Entered Variables Removed Method


b .
1 prega adiposa membro inferior (mm) Enter

a.

b.

Model Summary

Model R R Square
a
1 ,809 ,654 ,639 3,2365
a.

a
ANOVA

Model df Mean Square F Sig.


1 b
Regression 474,758 1 474,758 45,322 ,000
Residual 251,404 24 10,475
Total 726,162 25

a.

b.

a
Coefficients

Unstandardized Coefficients

Model B Std. Error Beta t Sig.


1 (Constant) 11,021 1,842 5,983 ,000
prega adiposa membro inferior (mm) ,566 ,084 ,809 6,732 ,000
a.

Analisando os outputs verifica-se que o coeficiente de correlação entre y e ŷ é


r  0.809 , o coeficiente de determinação é r 2  0.654 e o coeficiente de
2
determinação ajustado é rajust  0.639 (tabela Model Summary). Verifica-se que cerca
de 65% da variabilidade total da massa gorda é explicada pela variabilidade dos
valores da prega adiposa do membro inferior.
O modelo ajustado (tabela Coefficients) tem equação dada por
yˆ  11.021  0.566 x .
Numa tentativa de aumentar a percentagem de variabilidade da massa gorda
explicada pelo modelo de regressão vamos experimentar incluir mais dois
preditores no modelo (a prega adiposa do membro superior e a altura).
Designemos por
Y a massa gorda,
X1 a altura,
X 2 a prega adiposa do membro superior,
X 3 a prega adiposa do membro inferior,

123
Estatística II

e admite-se o modelo de regressão linear múltipla


Yi  0  1X1i  2X 2i  3X 3i  i , i  1, ,26 .
Ajustando o modelo de regressão linear, disponível no software SPSS, obtém-se

Regression
a
Variables Entered/Removed

Model Variables Entered Variables Removed Method


1
.
Enter
b

a.

b.

Model Summary

Model R R Square
a
1 ,882 ,778 ,748 2,7078
a.

a
ANOVA

Model df Mean Square F Sig.


1 b
Regression 564,852 3 188,284 25,679 ,000
Residual 161,310 22 7,332
Total 726,162 25

a.

b.

a
Coefficients

Unstandardized Coefficients 95,0% Confidence Interval for B

Model B Std. Error Beta t Sig. Lower Bound Upper Bound


1 (Constant) 7,416 7,273 1,020 ,319 -7,667 22,499
altura (m) -1,473 4,485 -,035 -,329 ,746 -10,774 7,827

,550 ,159 ,469 3,459 ,002 ,220 ,880

,359 ,092 ,514 3,917 ,001 ,169 ,550

a.

Analisando o output verifica-se que o coeficiente de correlação entre y e ŷ é


r  0.882 , o coeficiente de determinação é r 2  0.778 e o coeficiente de
2
determinação ajustado é rajust  0.748 (tabela Model Summary). Verifica-se que cerca
de 78% da variabilidade total da massa gorda é explicada pela variabilidade das
variáveis explicativas, logo o ajustamento é razoável. Relativamente ao modelo de
regressão linear simples ajustado houve um acréscimo de 13% na percentagem de
variabilidade da massa gorda explicada pelo modelo de regressão.
O modelo ajustado (tabela Coefficients) tem equação dada por
yˆ  7.416  1.473 x1  0.550 x 2  0.359 x 3 .

124
Regressão linear

Intervalos a 95% de confiança para 0 , 1 , 2 , 3 são dados, respetivamente, por


  7.667 , 22.499  ,   10.774 , 7.827  ,  0.220 , 0.880  e  0.169 , 0.550  .
       
De notar que, por exemplo, que o intervalo a 95% de confiança para 2 é
 0.220 , 0.880  , tendo em conta a presença das variáveis explicativas X e X no
  1 3
modelo. Caso as variáveis presentes no modelo sejam outras, o intervalo de
confiança será distinto. O mesmo acontece para os intervalos de confiança dos
outros coeficientes.
Vamos, em seguida, proceder à avaliação global do modelo, isto é, vamos efetuar o
teste que tem como hipóteses
H0 : 1  2  3  0 vs H1 : 1  0 ou 2  0 ou 3  0 .
O valor observado da estatística de teste é f  25.679 , a que corresponde um
p-value p  0.001 (tabela ANOVA). Assim, rejeita-se a hipótese nula (pois
p  0.05 ), ao nível de significância de 5%. Podemos concluir que pelo menos um
dos coeficientes do modelo é diferente de zero, isto é, pelo menos uma das variáveis
explicativas presentes no modelo tem poder explicativo.
As hipóteses
H 0 : 0  0 vs H1 : 0  0 (1),

H0 : 1  0 vs H1 : 1  0 (2),

H0 : 2  0 vs H1 : 2  0 (3),

H 0 : 3  0 vs H1 : 3  0 (4),
testam, individualmente, cada um dos coeficientes de regressão, tendo em conta a
presença das outras variáveis explicativas. As hipóteses (1) testam se a constante é
significativa para o modelo. O valor observado da estatística de teste é t  1.020 ,
a que corresponde um p-value p  0.319 (tabela Coefficients), pelo que não se
rejeita a hipótese 0  0 ao nível de significância de 5% (pois p  0.05 ). Como,
mesmo quando a constante não é significativa, a validade do modelo não é posta
em causa, opta-se numa situação destas por mantê-la no modelo de regressão. A
estatística de teste para as hipóteses (2) tem como valor observado t  0.329 , a
que corresponde um p-value p  0.746 (tabela Coefficients), pelo que não se rejeita
a hipótese 1  0 ao nível de significância de 5% (pois p  0.05 ). Dado que os
restantes p-values são inferiores a 0.05, conclui-se que, estando no modelo as
variáveis explicativas prega adiposa do membro superior e prega adiposa do
membro inferior, a variável altura não tem efeito significativo sobre a massa gorda.
Deste modo, o modelo de regressão linear múltipla que inclui estas três variáveis
explicativas não parece ser o mais conveniente. Vai então eliminar-se a variável

125
Estatística II

explicativa altura (visto não ser significativa para o modelo) e ajustar um novo
modelo de regressão linear múltipla

Regression
a
Variables Entered/Removed

Model Variables Entered Variables Removed Method


.
1 Enter
b

a.

b.

Model Summary

Model R R Square
a
1 .881 .777 .757 2.6548

a.

a
ANOVA

Model df Mean Square F Sig.


1 Regression 564.060 2 282.030 40.016 .000 b

Residual 162.101 23 7.048


Total 726.162 25
a.

b.

a
Coefficients

Unstandardized Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 5.148 2.237 2.301 .031
.537 .151 .458 3.560 .002

.360 .090 .514 3.999 .001

a.

O modelo que inclui as variáveis explicativas prega adiposa do membro inferior e


prega adiposa do membro superior apresenta r 2  0.777 (inferior ao r 2 do modelo
inicial, uma vez que tem menos variáveis e, portanto, é “menos” explicativo) e
2 2
rajust  0.757 (superior ao rajust do modelo inicial, uma vez que é “mais”
parcimonioso) (tabela Model Summary).
Para avaliar globalmente o modelo, testa-se as hipóteses
H0 : 2  3  0 vs H1 : 2  0 ou 3  0 .

126
Regressão linear

O valor observado da estatística de teste é f  40.016 , a que corresponde um


p-value p  0.001 (tabela ANOVA), sugerindo que o modelo ajustado é significativo,
isto é, pelo menos uma das variáveis explicativas do modelo, prega adiposa do
membro inferior ou prega adiposa do membro superior, dá um contributo
significativo para a explicação da massa gorda.
Para avaliar individualmente os coeficientes de regressão, as hipóteses são
H 0 : 0  0 vs H1 : 0  0 (1),

H0 : 2  0 vs H1 : 2  0 (2),

H 0 : 3  0 vs H1 : 3  0 (3).
Aos valores observados das estatísticas de teste correspondem p-values p  0.05
(tabela Coefficients). Assim, rejeita-se cada uma das hipóteses 0  0 , 2  0 e
3  0 , ao nível de significância de 5%, o que permite inferir que esses parâmetros
são significativamente diferentes de zero.
Deste modo, o modelo estimado tem equação dada por
yˆ  5.148  0.537x 2  0.360x 3 .

O mesmo modelo poderia ser obtido com a utilização do método stepwise para
seleção de variáveis (stepwise forward-with-a-backward-look)

Regression
a
Variables Entered/Removed

Model Variables Entered Variables Removed Method


1 .

2 .

a.

c
Model Summary

Model R R Square
a
1 ,809 ,654 ,639 3,2365
2 b
,881 ,777 ,757 2,6548
a.

b.

c.

127
Estatística II

a
ANOVA

Model df Mean Square F Sig.


1 b
Regression 474,758 1 474,758 45,322 ,000
Residual 251,404 24 10,475
Total 726,162 25
c
2 Regression 564,060 2 282,030 40,016 ,000
Residual 162,101 23 7,048
Total 726,162 25

a.

b.
c.

a
Coefficients

Unstandardized Coefficients 95,0% Confidence Interval for B

Model B Std. Error Beta t Sig. Lower Bound Upper Bound


1 (Constant) 11,021 1,842 5,983 ,000 7,219 14,822

,566 ,084 ,809 6,732 ,000 ,392 ,739

2 (Constant) 5,148 2,237 2,301 ,031 ,520 9,776

,360 ,090 ,514 3,999 ,001 ,174 ,546

,537 ,151 ,458 3,560 ,002 ,225 ,849

a.

Pelo método stepwise para seleção de variáveis foram estimados dois modelos:
(i) o modelo 1, que inclui apenas a variável prega adiposa do membro inferior
como variável explicativa (das três variáveis em questão é a que melhor
explica a variável resposta);
(ii) o modelo 2, que inclui as variáveis explicativas prega adiposa do membro
inferior e prega adiposa do membro superior (das duas variáveis não incluídas
no modelo 1, a prega adiposa do membro superior é a que conjuntamente com
prega adiposa do membro inferior melhor explica a variável resposta).
O procedimento stepwise termina, pois a inclusão da outra variável não melhora o
modelo. O modelo final (modelo 2) não inclui a variável altura, estando presentes
apenas as variáveis prega adiposa do membro inferior e prega adiposa do membro
superior. Este modelo corresponde ao modelo já estudado atrás.

Para terminar, devemos validar as suposições associadas ao modelo final


encontrado.

128
Regressão linear

Normalidade

H0 : Os erros aleatórios têm distribuição normal


vs
H1 : Os erros aleatórios não têm distribuição normal .
Utilizando o teste de Shapiro-Wilk disponível no software SPSS

Explore
Tests of Normality

a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
*
Standardized Residual ,075 26 ,200 ,975 26 ,752
*.
a.

O valor observado da estatística de teste é w  0.975 , a que corresponde o p-value


p  0.752 . Como p  0.05 , não se rejeita a hipótese nula, ao nível de significância
de 5%, admitindo-se assim a normalidade dos erros aleatórios.

Homocedasticidade
Para avaliar a homocedasticidade dos erros aleatórios representa-se o diagrama de
dispersão dos resíduos versus os valores preditos
2
Standardized Residual

-1

-2

10 15 20 25 30 35

Unstandardized Predicted Value

O diagrama parece ilustrar que os pontos se distribuem aleatoriamente em torno


de zero, ao longo dos valores preditos, não existindo valores dos resíduos muito
discordantes. Isto sugere que os erros aleatórios são homocedásticos.

Não colinearidade
Para avaliar a hipótese de não colinearidade das variáveis explicativas calcula-se

129
Estatística II

Correlations
Correlations

Pearson Correlation 1 .643 **

Sig. (2-tailed) .000


N 26 26
**
Pearson Correlation .643 1

Sig. (2-tailed) .000


N 26 26

**.

O valor do coeficiente de correlação linear de Pearson entre as duas variáveis


explicativas X 2 e X 3 é r  0.643 , sendo de admitir que as variáveis X 2 e X 3 não
são linearmente correlacionadas (pois |r |  0.7 ).

Forma do modelo
Para avaliar a forma do modelo representa-se o diagrama de dispersão dos resíduos
versus os valores de cada uma das variáveis explicativas
2 2
Standardized Residual

Standardized Residual

1 1

0 0

-1 -1

-2 -2

10 15 20 25 30 35 0 10 20 30 40

Prega adiposa membro superior (mm) Prega adiposa membro inferior (mm)

Os diagramas parecem ilustrar que os pontos se distribuem aleatoriamente em


torno de zero, ao longo dos valores de cada uma das variáveis explicativas.

130
Bibliografia

bibliografia

Bruno, P., Carita, A., Diniz, A., Gonçalves, I., e Teles, J. (2008), Introdução à Teoria
das Probabilidades, Lisboa: Edições FMH.

Chatfield, C. (1995), Problem Solving – a Statistician’s Guide (2nd ed.), Boca Raton:
Chapman and Hall/CRC.

Field, A. (2005), Discovering Statistics Using SPSS (2nd ed.), London: Sage.

Marôco, J. (2010), Análise Estatística com o PASW Statistics (ex-SPSS), Lisboa:


Report Number.

Murteira, B. e Antunes, M. (2012), Probabilidades e Estatística, Volume II, Lisboa:


Escolar Editora.

Murteira, B., Ribeiro, C. S., Silva, J. A., e Pimenta, C. (2007), Introdução à Estatística
(2ª ed.), Lisboa: McGraw-Hill.

Pallant, J. (2007), SPSS – Survival Manual (3rd ed.), Glasgow: McGraw-Hill.

Pestana, D., e Velosa, S. (2006), Introdução à Probabilidade e à Estatística (Vol. I, 2ª


ed.), Lisboa: Fundação Calouste Gulbenkian.

Das könnte Ihnen auch gefallen