Tópicos de Estatística - Estatística II - Versãoset2018 PDF

Universidade de Lisboa
Faculdade de Motricidade Humana

Secção de Métodos Matemáticos
Tópicos de Estatística
Texto de apoio para a unidade curricular de Estatística II, do 2º ano,
das licenciaturas em Ciências do Desporto e Ergonomia
Paula Marta Bruno, Ana Isabel Carita, Ana Diniz, Inês Gonçalves, Júlia Teles
Lisboa, setembro de 2018

Índice
7 Inferência estatística para duas populações

7.1. Introdução ............................................................................................................... 1
7.2. Amostras independentes .......................................................................................... 2
7.2.1. Inferência paramétrica para a diferença de valores médios ........................... 2
7.2.2. Inferência paramétrica para o quociente de variâncias ............................... 12
7.2.3. Teste de Wilcoxon-Mann-Whitney ............................................................. 15
7.3. Amostras emparelhadas......................................................................................... 18
7.3.1. Introdução .................................................................................................. 18
7.3.2. Inferência paramétrica para a diferença de valores médios ......................... 19
7.3.3. Teste de Wilcoxon ...................................................................................... 23
7.4. Ilustrações com SPSS .............................................................................................. 28
8 Inferência estatística para mais de duas populações com base em amostras

independentes
8.1. Introdução ............................................................................................................. 35
8.2. Análise de variância simples .................................................................................. 36
8.3. Validação de pressupostos da ANOVA simples........................................................ 42
8.4. Teste de Kruskal-Wallis ........................................................................................ 44
9 Inferência estatística para mais de duas populações com base em medidas

repetidas
9.1. Introdução ............................................................................................................. 53
9.2. Análise de variância simples para medidas repetidas ............................................ 54
9.3. Validação de pressupostos da ANOVA simples para medidas repetidas .................. 60
9.4. Teste de Friedman ................................................................................................ 61
10 Inferência estatística sobre proporções
10.1. Introdução ............................................................................................................. 71
10.2. Inferência sobre a proporção ................................................................................. 72
10.3. Inferência para a diferença de proporções com base em amostras independentes .. 77
11 Testes do qui quadrado

11.1. Introdução ............................................................................................................. 83
11.2. Testes de ajustamento ........................................................................................... 83
11.3. Testes de independência em tabelas de contingência ............................................. 87
11.4. Testes de homogeneidade em tabelas de contingência ........................................... 91
12 Regressão linear
12.1. Introdução ............................................................................................................. 99
12.2. Regressão linear simples ....................................................................................... 100
12.2.1. Modelo ....................................................................................................... 105
12.2.2. Inferência estatística sobre os coeficientes de regressão ............................. 105
12.2.3. Validação de pressupostos ......................................................................... 111
12.3. Regressão linear múltipla ..................................................................................... 111
12.3.1. Modelo ....................................................................................................... 111
12.3.2. Inferência estatística sobre os coeficientes de regressão ............................. 115
12.3.3. Validação de pressupostos ......................................................................... 117
12.3.4. Métodos stepwise para seleção de variáveis ............................................... 118
12.4. Ilustrações com SPSS ............................................................................................. 120
Bibliografia
Capítulo 7
Inferência estatística para duas populações
7 Inferência estatística para duas populações
7.1. Introdução
Neste capítulo vamos apresentar intervalos de confiança e testes de hipóteses para a

diferença de valores médios populacionais, quer com base em amostras independentes
quer em amostras emparelhadas. Vamos também apresentar intervalos de confiança e
testes de hipóteses para o quociente de variâncias populacionais, para amostras
independentes provenientes de populações normais.
Os métodos de inferência paramétrica para a comparação dos valores médios de duas

populações têm alguns pressupostos que quando não são verificados nos remetem para a
utilização de métodos não paramétricos, como é o caso do teste de
Wilcoxon-Mann-Whitney e do teste de Wilcoxon.
Alguns dos métodos de inferência apresentados são ilustrados através de aplicações com
o software estatístico SPSS.
Estatística II
7.2. Amostras independentes
7.2.1. Inferência paramétrica para a diferença de valores

médios
Sejam X11, X12, , X1n1  e X 21, X 22, , X 2n2  duas amostras aleatórias independentes, de
dimensões n1 e n2 , provenientes de duas populações X1 e X 2 , com E X1   1 e
E X 2   2 , respetivamente.
Uma estimativa pontual para 1  2 é x 1  x 2 .
Populações com distribuição normal e desvios padrões

conhecidos
Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 conhecidos.

Nestas condições, as distribuições das médias amostrais são
     
 
X1  N 1, 1  e X 2  N 2, 2  .
 n1   n2 
Tendo em conta que a diferença entre variáveis aleatórias normais independentes tem
distribuição normal e que
E X1  X 2   E X1   E X 2   1  2
e
12 22
var X1  X 2   var X1   var X 2    ,
n1 n2
então a distribuição da diferença entre médias amostrais é
 2 2 
X1  X 2  N 1  2, 1  2  ,
 n1 n2 
o que é equivalente a
X1  X2   1  2 
Z  N 0,1 .
12 22

n1 n2
Conhecendo a distribuição de Z , podemos usar esta variável aleatória como estimador e

deduzir um intervalo a 1    100% de confiança para 1  2 .
Na construção de intervalos de confiança e testes de hipóteses para a diferença entre
valores médios procede-se de forma análoga à realizada para uma população.
2
Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2
 12 22 12 22 

 x x z
 1 2 1 /2
 , x1  x 2   z1 /2  
 n1 n2 n1 n2 
 
em que z1 / 2 é o quantil de probabilidade 1   / 2 da distribuição normal

standard.
Testes de hipóteses para a diferença entre valores médios 1  2
Para avaliar a igualdade entre valores médios, realiza-se o teste de hipóteses

H0 : 1  2 vs H1 : 1  2
ou, de forma equivalente,
H0 : 1  2  0 vs H1 : 1  2  0 .
Mais geralmente, pode ter interesse considerar
H0 : 1  2  0 vs H1 : 1  2  0 .
Hipóteses a testar:
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
Estatística de teste:
X1  X2   0
Z 
12 22

n1 n2
que, sob a validade de H0 , tem distribuição N 0,1 .
Regra de decisão:
Hipóteses a testar Rejeitar H0 se

H0 : 1  2  0 vs H1 : 1  2  0 | z |  z1 / 2
H0 : 1  2  0 vs H1 : 1  2  0 z  z1
H0 : 1  2  0 vs H1 : 1  2  0 z  z1
sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor

observado da estatística de teste Z .
3
Estatística II
Exemplo 7.1
Admite-se que as alturas (em metros) de indivíduos adultos do sexo masculino em
dois países P1 e P2 seguem distribuições normais com valores médios 1 e 2 ,
respetivamente, e a mesma variância  2  0.0064 m2 . A informação obtida em
duas amostras independentes recolhidas nos referidos países é
n1  18, x1  1.68 m e n2  15, x 2  1.71 m .
a) Teste, para um nível de significância   0.05 , se existe diferença significativa

entre os valores médios.
b) Obtenha um intervalo a 95% de confiança para 1  2 .
Resolução:
Sejam as variáveis aleatórias:
X1 – altura de um indivíduo adulto do sexo masculino no país P1 ,
X 2 – altura de um indivíduo adulto do sexo masculino no país P2 .
X1  N 1, 0.08 , X 2  N 2, 0.08 , X1 e X 2 independentes.
a) Pretendemos testar as hipóteses:

H0 : 1  2 vs H1 : 1  2
o que é equivalente a testar
H0 : 1  2  0 vs H1 : 1  2  0 .
Calculamos o valor observado da estatística de teste,
x1  x 2  0 1.68  1.71
z   1.073 .
12 22 0.0064 0.0064
 
n1 n2 18 15
Considerando   0.05 e consultando a tabela da distribuição normal

standard,
| z |  1.073  z 0.975  1.96
e assim não rejeitamos a hipótese nula para   0.05 , ou seja, não é de admitir
que existe diferença significativa entre os valores médios da altura dos
indivíduos adultos do sexo masculino nos dois países.
b) O intervalo a 95% de confiança para 1  2 é dado por

 12 22 12 22 
 x x z
 1 2 0.975
 , x1  x 2   z 0.975  ,
 n1 n2 n1 n2 

portanto
4
 
   18 15
 18

 1.681.71  1.96 0.0064  0.0064 , 1.681.71  1.96 0.0064  0.0064
15
,

 
donde obtemos o intervalo 0.085 , 0.025 .
 
Nota:
Num teste de hipóteses bilateral,
H0 : 1  2  0 vs H1 : 1  2  0
não rejeitamos a hipótese nula, ao nível de significância  , se e só se o intervalo a
100  1   % de confiança para 1  2 contém o ponto 0.
Populações com distribuição normal e desvios padrões

desconhecidos
Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 desconhecidos.

O modo como é feita a inferência sobre a diferença de valores médios depende do facto
de podermos ou não admitir como válida a suposição de igualdade de variâncias. Temos
então que considerar duas situações distintas. A primeira situação corresponde a admitir
que as variâncias populacionais (ou desvios padrões) são iguais e a segunda situação
corresponde a admitir que as variâncias populacionais (ou desvios padrões) são distintas.
• 1ª situação: se pudermos admitir que 1  2   , então utilizamos a variável

aleatória
X1  X2   1  2 
T  tn1 n2 2
1 1
Sp 
n1 n2
onde
n1  1 S12  n2  1 S22

Sp 
n1  n2  2
como estatística para fazer inferência sobre 1  2 .
 1 1 1 1 
 x1  x 2   t n n 2;1/2 s p  , x1  x 2   tn1 n2 2;1/2 s p 
 1 2 
 n1 n2 n1 n2 
5
Estatística II
em que t n n 2;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de

1 2 
Student com n1  n2  2 graus de liberdade e
n1  1s12  n2  1s22

sp  .
n1  n2  2
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
X1  X2   0
T 
1 1
Sp 
n1 n2
que, sob a validade de H0 , tem distribuição t de Student com n1  n2  2 graus
de liberdade.
Regra de decisão:

H0 : 1  2  0 vs H1 : 1  2  0 | t |  t(n1 n2 2;1 / 2)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(n1 n2 2;1)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(n1 n2 2;1)
sendo tn1 n2 2;   o quantil de probabilidade  da distribuição t de Student com

n1  n2  2 graus de liberdade e t o valor observado da estatística de teste T .
Nota:
Este teste de comparação de valores médios é vulgarmente conhecido como teste t
para amostras independentes.
Exemplo 7.2
Um investigador está interessado em comparar duas populações de crianças, A e
B , relativamente à média da idade com que começam a andar. O investigador
admite que as idades (em meses) com que as crianças das duas populações
começam a andar são variáveis aleatórias com distribuição normal com valores
6
médios A e B , respetivamente. Os dados disponíveis, relativos à idade com que

12 crianças de cada uma das populações começam a andar, são os seguintes:
idade criança A 12.0 13.3 11.8 11.7 12.7 11.0 12.0 12.1 10.6 11.7 11.2 11.7
idade criança B 12.2 12.5 13.1 13.7 14.0 12.5 11.8 13.8 14.0 11.5 13.7 12.9
a) Teste, ao nível de significância de 5%, se é de admitir que as duas populações

de crianças diferem na média da idade com que começam a andar.
b) Determine um intervalo a 95% de confiança para A  B .
Resolução:
X A – idade com que uma criança da população A começa a andar,
X B – idade com que uma criança da população B começa a andar.
X A  N A, A  , X B  N B , B  , com A e B desconhecidos e X A e X B
independentes.

H0 : A  B  0 vs H1 : A  B  0 .
Começamos por calcular as médias e as variâncias das duas amostras
x A  11.817, x B  12.975, sA2  0.518, sB2  0.770 .
Para a resolução deste problema vamos começar por admitir que A  B  
desconhecido. O parâmetro  é estimado por s p , com
nA  1sA2  nB  1sB2

sp 
nA  nB  2
12  1  0.518  12  1  0.770

  0.644  0.802 .
12  12  2
Calculamos o valor observado para a estatística de teste
xA  xB 11.817  12.975
t   3.537 .
1 1 1 1
sp  0.802  
nA nB 12 12
Considerando   0.05 e consultando a tabela da distribuição t de Student,

| t |  3.537  t22;0.975  2.074
e assim rejeitamos a hipótese nula para   0.05 , ou seja, concluímos que a

idade média com que as crianças começam a andar difere da população A para
a população B .
7
Estatística II
b) Como estamos a admitir que A  B   , um intervalo a 95% de confiança

para A  B é dado por
 
 
 x A x B  t n n 2;0.975 s p
A B 
1

nA nB
1
 
, x A x B  tnA nB 2;0.975 s p
1

nA nB
1 ,

 
portanto
 
   
 11.81712.975 2.0740.802 1  1 , 11.81712.975 2.0740.802 1  1  ,
 12 12 12 12 

donde obtemos o intervalo 1.837 ,  0.479 .
 
De notar que o ponto 0 não pertence ao intervalo obtido, o que indica que ao
nível de significância de 5%, podemos admitir que A  B  0 , isto é, que
A  B . Este resultado está de acordo com a conclusão obtida pelo teste de
hipóteses ao mesmo nível de significância.
• 2ª situação: se não pudermos admitir a igualdade de variâncias, isto é, se 1  2 ,

então demonstra-se que
X1  X2   1  2  aprox .

T  t ,
S12 S22

n1 n2
sendo o número de graus de liberdade  estimado por

 S12 S 22 2
  
 n1 n2 
ˆ  .
S14 S 24

n12 n1  1 n22 n2  1
Este estimador designa-se por estimador de Welch-Satterthwaite. Na prática,

quando se determina uma estimativa para  , é usual aproximar essa estimativa ao
número inteiro mais próximo.
 s12 s22 s12 s22 

 x x t
 1 2 ˆ;1 /2 n
 , x 1  x 2   tˆ;1 /2  
 n2 n1 n2 
 1 
em que t ˆ;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de Student

 
com ̂ (estimativa de Welch-Satterthwaite) graus de liberdade.
8
X1  X2   0
T
S12 S22

n1 n2
que, sob a validade de H0 , tem distribuição aproximada t de Student com 

graus de liberdade.
Regra de decisão:

H0 : 1  2  0 vs H1 : 1  2  0 | t |  t(ˆ;1 / 2)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(ˆ;1)
H0 : 1  2  0 vs H1 : 1  2  0 t  t(ˆ;1)
sendo tˆ;   o quantil de probabilidade  da distribuição t de Student com ̂

graus de liberdade e t o valor observado da estatística de teste T .
Exemplo 7.2 (continuação)

a) Recorde que se pretende testar H0 : A  B  0 vs H1 : A  B  0 .
Se não admitirmos válida a suposição de igualdade de variâncias, isto é, se
A  B , então o valor observado da estatística de teste é
xA  xB 11.817  12.975
t   3.535 .
sA2 sB2 0.518 0.770
 
nA nB 12 12
Utiliza-se o estimador de Welch-Satterthwaite para determinar uma estimativa

do número de graus de liberdade da distribuição de amostragem da estatística
de teste,
 sA2 2 2
ˆ 
  sB 
 nA nB 

12 12 
0.518 0.770 2

 21.189 ;

sA4 sB4 0.5182 0.7702
 
nA2 nA  1 nB2 nB  1 122  11 122  11
assim, na prática usa-se ˆ  21 . Considerando   0.05 e consultando a tabela

da distribuição t de Student, t21;0.975  2.080 . Como
| t |  3.535  2.080
9
Estatística II
rejeitamos a hipótese nula para   0.05 , ou seja, é de admitir que a idade

média com que as crianças começam a andar difere da população A para a
população B .
b) Para a situação A  B , o intervalo a 95% de confiança para A  B é dado

por
 sA2 sB2 sA2 sB2 
 x x t .
 A B  ˆ;0.975 n
 , x A
 x B   tˆ;0.975 n
 
 nB nB 
 A A 
Como ˆ  21 vem
 sA2 sB2 sA2 sB2 
 x x t 
 A B 21;0.975 n
 ,  A B  21;0.975 n n
x  x  t  
 A
nB A B 
 
 
  11.81712.975  2.080
0.518 0.770
12

12
 
, 11.81712.975  2.080
0.518 0.770
12

12
,

 
donde obtemos o intervalo   1.839 ,  0.477  .
 
Populações com distribuições não normais
Sejam X1 e X 2 variáveis aleatórias com distribuições não normais, tais que E X1   1 ,
E X 2   2 e var X1   12 , var X 2   22 finitas, com n1  30 e n2  30 .
Atendendo ao teorema limite central tem-se
X1  X2   1  2  aprox .

Z  N 0,1 .
12 22

n1 n2
 12 22 12 22 

 x x z
 1 2 1 /2
 ,  1 2  1/2 n  n 
x  x  z
 n1 n2 2 
 1

standard. Se 1 e 2 forem desconhecidos, são substituídos por s1 e s2 ,
respetivamente.
10
H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
ou H0 : 1  2  0 vs H1 : 1  2  0
X1  X2   0
Z 
12 22

n1 n2
que, sob a validade de H0 , tem distribuição aproximada N 0,1 .
No caso de 1 e 2 serem desconhecidos, no cálculo do valor observado da
estatística de teste substitui-se 1 e 2 por s1 e s2 , respetivamente.
Regra de decisão:

H0 : 1  2  0 vs H1 : 1  2  0 | z |  z1 / 2
H0 : 1  2  0 vs H1 : 1  2  0 z  z1
H0 : 1  2  0 vs H1 : 1  2  0 z  z1

Nota:
No caso em que as distribuições de X1 e X 2 são não normais e as dimensões de
ambas as amostras são superiores ou iguais a 30 podemos usar uma metodologia
paramétrica. A estatística de teste a utilizar é a estatística Z com distribuição
aproximadamente N 0,1 . Como para valores elevados do número de graus de
liberdade, a distribuição t de Student se aproxima da distribuição N 0,1 , o SPSS,
assim como outros softwares estatísticos, não utiliza a distribuição normal mas sim
a distribuição t de Student, o que embora não seja teoricamente correto, não traz
consequências práticas e simplifica a sua utilização.
11
Estatística II
7.2.2. Inferência paramétrica para o quociente de

variâncias
Sejam X11, X12, , X1n1  e X 21, X 22, , X 2n2  duas amostras aleatórias independentes, de
dimensões n1 e n2 , provenientes de duas populações X1 e X 2 , tais que E X1   1 ,
E X 2   2 e var X1   12 , var X 2   22 , respetivamente.
Uma estimativa pontual para 12 / 22 é s12 / s22 .
Se X1  N 1, 1  e X 2  N 2, 2  , prova-se que

S12
12 S12 22
F   Fn 1, n ,
S 22 S 22 12 1 2 1
22
isto é, a distribuição de amostragem da estatística de teste F é a distribuição F de

Fisher-Snedecor com n1  1 graus de liberdade no numerador e n2  1 graus de
liberdade no denominador.
Usando esta variável aleatória como estimador, podemos deduzir um intervalo a
1    100% de confiança para 12 / 22 .
Intervalo a 1    100% de confiança para o quociente de variâncias 12 / 22
 
 s12 s12 
 2 , 
 s2 F n 1,n 1;1 /2 s22 F n 1,n 1; /2 
 1 2  1 2  
em que Fn1 1,n2 1;   é o quantil de probabilidade  da distribuição F de

Atendendo a que o desvio padrão populacional é a raiz quadrada da variância

populacional, o intervalo de confiança para 1 / 2 é dado por:
 
 s1 s1 
 , .
 
 s2 Fn 1,n 1;1 /2 s2 Fn 1,n 1; /2 
 1 2 1 2 
12
Testes de hipóteses para o quociente de variâncias 12 / 22
Pretende-se testar a hipótese de igualdade de variâncias:

H0 : 12  22 vs H1 : 12  22
12 12
H0 : 1 vs H1 : 1
22 22
H0 : 12  22 vs H1 : 12  22
ou H0 : 12  22 vs H1 : 12  22
ou H0 : 12  22 vs H1 : 12  22
S12 22 S12 S12
F  1 
S 22 12 S 22 S 22
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com n1  1
graus de liberdade no numerador e n2  1 graus de liberdade no denominador.
Regra de decisão:

H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1; / 2 ou f  Fn1 1,n2 1;1 / 2
H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1;1
H0 : 12  22 vs H1 : 12  22 f  Fn1 1,n2 1;
sendo Fn1 1,n2 1;   o quantil de probabilidade  da distribuição F de

liberdade no denominador, e f o valor observado da estatística de teste F .
Nota:
Uma alternativa mais robusta a este teste para a igualdade de variâncias é o teste
de Levene, que pode ser usado para estudar a igualdade de variâncias quer em
duas quer em mais de duas populações independentes e que pode ser efetuado por
exemplo no software SPSS.
13
Estatística II

Neste exemplo, antes de termos efetuado o teste para a comparação de valores
médios, deveríamos ter testado a hipótese de igualdade (homogeneidade) de
variâncias:
H0 : A2  B2 vs H1 : A2  B2
A2 A2
H0 : 1 vs H1 :  1.
B2 B2
O valor observado da estatística de teste é
sA2 0.518
f    0.673 .
sB2 0.770
Considerando   0.05 e consultando a tabela da distribuição F de

Fisher-Snedecor, obtemos
F(n  F(11,11;0.975)  3.474 e
A 1,nB 1;1 /2)
1 1
F(n  F(11,11;0.025)    0.288.
A 1,nB 1;  /2) F(11,11;0.975) 3.474
Como
f  0.673  0.288 e f  0.673  3.474 ,
concluímos que não há evidência estatística, ao nível de significância   0.05 ,

para rejeitar a hipótese nula de igualdade das variâncias.
Assim, a comparação dos valores médios e a obtenção de intervalos de confiança

para a diferença de valores médios deve ser feita de acordo com a suposição
A  B   .
Um intervalo a 95% de confiança para A2 / B2 é dado por

 sA2 sA2 
 , ,
 sB F121,121;0.975 sB F121,121;0.025
2 2 
 
 0.518 0.518 
 , ,
 0.770  3.474 0.770  0.288 
donde obtemos o intervalo 0.194 , 2.336 .

 
14
Nota:
A2 A2
H0 : 1 vs H1 : 1
B2 B2
100  1   % de confiança para A2 / B2 contém o ponto 1.
7.2.3. Teste de Wilcoxon-Mann-Whitney
O teste de Wilcoxon-Mann-Whitney é um método não paramétrico para a comparação

de duas populações com base em amostras independentes. Este teste pode constituir
também uma alternativa ao teste paramétrico para comparação de dois valores médios
com base em amostras independentes (teste t para amostras independentes) em alguma
das seguintes situações: (i) pelo menos uma das amostras ter dimensão reduzida; (ii)
pelo menos uma das amostras não ser proveniente de uma população normal; (iii) as
variáveis estarem numa escala ordinal.
H0 : As distribuições dos ranks das duas populações são idênticas
vs
H1 : As distribuições dos ranks das duas populações não são idênticas.
O teste de Wilcoxon-Mann-Whitney utiliza as ordens (ranks) das observações em vez

das próprias observações. Se a hipótese nula for verdadeira é de esperar que qualquer
ordem possa ser atribuída a qualquer observação de cada uma das amostras. Se a
hipótese nula não for verdadeira, as observações de uma das amostras tendem a ter
ranks inferiores e as observações da outra amostra ranks superiores.
Seja n1 a menor das dimensões das duas amostras, n2 a dimensão da outra amostra e
N  n1  n2 a dimensão da amostra constituída pelas observações das duas amostras
combinadas. Começamos por atribuir ordens, no sentido crescente, à amostra combinada
x1:N , x 2:N , , x N :N  .
Caso exista empates atribui-se a cada uma das observações empatadas o respetivo rank
médio.
Tn ,n   ranks das observações da amostra de dimensão n1 na amostra combinada .
1 2
15
Estatística II
Tn1,n2 tem, sob a validade de H0 , uma distribuição exata, com pontos críticos
tabelados por Wilcoxon-Mann-Whitney (tabela não disponibilizada).
Regra de decisão:
Nas tabelas do teste de Wilcoxon-Mann-Whitney são dados os p-values. A partir
do valor p , a regra de decisão ao nível de significância  consiste em rejeitar H 0
se p   .
Atendendo ao facto da estatística de teste ser uma soma, o teorema limite central
permite, sob certas condições (considerar n1  8 ou n2  8 é prática usual), efetuar a
aproximação da distribuição de Tn1,n2 à distribuição normal com valor médio e variância
dados, respetivamente, por
N 1
E Tn1,n2   n1
2
e
n1n2 N  1
var Tn1,n2   .
12
Deste modo,
Z 
Tn ,n  E Tn ,n
1 2
 1 2


var Tn ,n
1 2

tem, sob a validade de H0 , distribuição aproximada N 0,1 .
No caso de haver empates, a variância de Tn1,n2 deve ser corrigida,
g
n1n2 N  1 n1n2
var Tn1,n2  
12N N  1 
12
 i  1 i i  1 ,
i 1
sendo g o número de grupos de observações empatadas e i o número de observações

empatadas no iésimo grupo de empates.
Neste caso, rejeita-se H0 , ao nível de significância  , se | z |  z1 / 2 , sendo z o valor
observado da estatística de teste e z1 / 2 o quantil de probabilidade 1   / 2 da
distribuição normal reduzida.
Notas:
1. Em geral, os softwares estatísticos fornecem os p-values deste teste, quer para a
estatística Tn1,n2 (p-value exato), quer para a estatística Z (p-value aproximado).
Sempre que se dispõe de valores exatos são estes que devem ser utilizados.
2. Nesta disciplina não serão utilizadas as tabelas com os pontos críticos do teste
de Wilcoxon-Mann-Whitney. Para efetuar este teste recorre-se à aproximação à
distribuição normal ou à utilização das tabelas do output do software SPSS.
16
3. No software SPSS, o teste de Wilcoxon-Mann-Whitney está identificado por

teste de Mann-Whitney.
Exemplo 7.3
Para comparar as alturas dos alunos da FMH e do ISA foram aleatoriamente
recolhidas duas amostras de alturas (em cm) de 10 alunos da FMH e de 13 alunos
do ISA, respetivamente. Os valores registados são apresentados na tabela
altura aluno FMH 172 174 173 181 179 166 176 180 177 150
altura aluno ISA 168 179 171 182 184 178 179 183 175 185 182 186 179
Resolução:
Considere as variáveis aleatórias:
X FMH – altura de um aluno da FMH,
X ISA – altura de um aluno do ISA.
Efetuámos, no software SPSS, testes de normalidade para as variáveis X FMH e
X ISA (ver Secção 7.4) e verificámos que para a variável X FMH essa condição não é
satisfeita. Assim, na impossibilidade de efetuar o teste t para amostras
independentes vamos utilizar o teste de Wilcoxon-Mann-Whitney.
Pretendemos testar as hipóteses:
H0 : As distribuições dos ranks de X FMH e X ISA são idênticas
vs
H1 : As distribuições dos ranks de X FMH e X ISA não são idênticas.
Neste caso, n1  10 , n2  13 e N  23 . Efetuando a ordenação da amostra

combinada obtemos a seguinte tabela que apresenta os ranks atribuídos às
observações da amostra conjunta
altura aluno FMH 172 174 173 181 179 166 176 180 177 150
rank altura aluno FMH 5 7 6 17 13.5 2 9 16 10 1
altura aluno ISA 168 179 171 182 184 178 179 183 175 185 182 186 179
rank altura aluno ISA 3 13.5 4 18.5 21 11 13.5 20 8 22 18.5 23 13.5

T10,13  5  7  6  17  13.5  2  9  16  10  1  86.5 .
Como n1  10 e n2  13 (superiores a 8) podemos efetuar a aproximação à
distribuição normal. O valor médio de T10,13 é
23  1
E T10,13   10   120
2
e, como existem 2 grupos de empates, então g  2 e a variância é
17
Estatística II
2
10  13  24 10  13
var T10,13  
12  23  22 
12
 i  1 i i  1
i 1
 260  0.0214  1  1 1 1  1  2  1 2 2  1 .

Como há 4 observações empatadas, referentes à altura de 179 cm, no primeiro
grupo de empates então 1  4 . Do mesmo modo, como há 2 observações
empatadas, referentes à altura de 182 cm, no segundo grupo de empates então
2  2 . Assim,
var T10,13   260  0.0214  3  4  5  1  2  3  258.59
e a aproximação é dada por
aprox . T10,13  120 aprox .
T10,13  
 N 120, 258.59 , isto é, Z 
258.59
 N 0,1 .
O valor observado da estatística de teste Z é

86.5  120
z  2.083 .
16.08
Como | z |  2.083  z 0.975  1.96 , rejeita-se a hipótese nula ao nível de significância

de 5%, ou seja, conclui-se que as distribuições dos ranks das alturas dos alunos da
FMH e do ISA não são idênticas.
Nota:
Tal como nos testes paramétricos, também é possível enunciar e efetuar testes não
paramétricos unilaterais.
7.3. Amostras emparelhadas
7.3.1. Introdução
Em determinados estudos, a comparação dos valores médios de duas populações é feita à

custa de amostras emparelhadas. De um modo geral, dizemos que as amostras são
emparelhadas quando as observações de que dispomos dizem respeito a duas medições
da mesma característica ou de características comparáveis para cada indivíduo; por
exemplo, o peso de um indivíduo antes do início de uma dieta e o peso do indivíduo no
final da dieta. Convém, no entanto, referir que as amostras emparelhadas podem
18
contemplar outras situações. Podemos estar interessados em comparar as idades do

marido e da mulher e, deste modo, temos duas observações para cada casal; neste caso a
unidade experimental não é o indivíduo, mas sim o casal.
Quando pretendemos fazer inferência paramétrica para a diferença de valores médios no
caso de duas amostras emparelhadas devemos proceder do seguinte modo: considerar
uma nova amostra, constituída pelas diferenças entre os pares de valores das amostras
iniciais, a qual passa a ser tratada como proveniente de uma só população – a população
das diferenças. Para esta população, os intervalos de confiança e os testes de hipóteses
são os idênticos aos intervalos de confiança e testes de hipóteses para uma população,
que já foram estudados na unidade curricular de Estatística I.
7.3.2. Inferência paramétrica para a diferença de valores

médios
Sejam X11, X12, , X1n  e X 21, X 22, , X 2n  duas amostras aleatórias emparelhadas, de
dimensão n , provenientes de duas populações X1 e X 2 com valores médios 1 e 2 e
variâncias 12 e 22 , respetivamente.
Quando pretendemos fazer inferência paramétrica para a diferença de valores médios,
consideramos uma nova variável aleatória D  X1  X 2 , tal que E D   D e
var D   D2 , sendo, em geral, D2 desconhecido.
Uma estimativa pontual para D  1  2 é d  x1  x 2 .
É fácil verificar que testar a hipótese de igualdade dos valores médios

H0 : 1  2 vs H1 : 1  2
é equivalente a testar
H0 : D  0 vs H1 : D  0 .
População com distribuição normal e desvio padrão

desconhecido
Seja D1, D2, , Dn  uma amostra aleatória de dimensão n proveniente da diferença de

duas variáveis emparelhadas X1 e X 2 , D  X1  X 2 , D  N D , D  , com D
desconhecido.
19
Estatística II
Intervalo a 1    100% de confiança para o valor médio D
 sD sD 
d  t , d  t
 n 1;1 /2 n 1;1 /2 
 n n 
em que tn 1;1 / 2 é o quantil de probabilidade 1   / 2 da distribuição t de

Student com n  1 graus de liberdade.
Testes de hipóteses para o valor médio D
H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
D  0
T 
SD
n
que, sob a validade de H0 , tem distribuição t de Student com n  1 graus de
liberdade.
Regra de decisão:

H0 : D  0 vs H1 : D  0 | t |  t(n 1;1 / 2)
H0 : D  0 vs H1 : D  0 t  t(n 1;1)
H0 : D  0 vs H1 : D  0 t  t(n 1;1)
sendo tn 1;   o quantil de probabilidade  da distribuição t de Student com n  1

graus de liberdade e t o valor observado da estatística de teste T .
Notas:
1. Este teste de comparação de valores médios é vulgarmente conhecido como
teste t para amostras emparelhadas.
2. Se X1 e X 2 são variáveis aleatórias com distribuição normal, então
D  X1  X 2 é uma variável aleatória com distribuição normal. Contudo, pode
acontecer que alguma ou as duas variáveis X1 e X 2 não tenham distribuição
normal, e a variável aleatória D tenha essa distribuição. Para realizar o teste t
20
para amostras emparelhadas basta que se verifique a normalidade da variável

aleatória D .
Exemplo 7.4
O peso (em kg) de estudantes que participam num programa de emagrecimento é
registado no início e no final desse programa. Numa amostra de dimensão 12,
obtiveram-se as seguintes observações:
estudante 1 2 3 4 5 6 7 8 9 10 11 12
peso inicial 69.0 71.0 74.2 65.8 74.2 73.6 76.1 71.7 68.5 72.9 77.1 64.4
peso final 67.0 71.5 72.8 68.0 73.9 74.4 72.4 71.8 67.9 72.7 76.2 64.3
a) Será que o programa de emagrecimento é eficaz? Considere   0.05 .

b) Determine um intervalo a 95% de confiança para a diferença dos pesos médios.
Resolução:
X1 – peso de um estudante no início do programa de emagrecimento,
X 2 – peso de um estudante no final do programa de emagrecimento.
Considere que a alteração de peso de um estudante, isto é, peso inicial menos peso
final, é uma variável aleatória D  X1  X 2 com distribuição N D , D  , com D
desconhecido. Os valores observados da variável aleatória D são:
estudante 1 2 3 4 5 6 7 8 9 10 11 12
d 2.0 −0.5 1.4 −2.2 0.3 −0.8 3.7 −0.1 0.6 0.2 0.9 0.1

H0 : 1  2 vs H1 : 1  2
em que 1  E X1  e 2  E X 2  . De forma equivalente, as hipóteses podem
ser formuladas por
H0 : D  0 vs H1 : D  0 .
Começamos por calcular a média da amostra das diferenças
12
1 5.6
d  
12 i 1
di 
12
 0.467 .
Uma vez que D é desconhecido, vamos estimá-lo por sD , onde
12  12 2
12 di2   di 
i 1

i 1  12  26.7  (5.6)2
sD    2.1897  1.480 .
12  11 12  11
21
Estatística II
Calculando o valor observado da estatística de teste, obtemos

d  0 0.467
t sD  1.480  1.093 .
n 12
Considerando   0.05 e consultando a tabela da distribuição t de Student,

t  1.093  t11;0.95  1.796
e assim não rejeitamos a hipótese nula para   0.05 , ou seja, não existe
evidência estatística de que o programa de emagrecimento seja eficaz.
b) O intervalo a 95% de confiança para D é dado por

d  t sD sD 
 n 1;0.975 n , d  tn 1;0.975 n  ,
 
portanto
 
0.467  2.201 1.480 , 0.467  2.201 1.480  ,
 
 12 12 
donde obtemos o intervalo 0.473 , 1.407  .

 
População com distribuição não normal
Seja D1, D2, , Dn  uma amostra aleatória de dimensão n , proveniente da diferença de

duas variáveis emparelhadas X1 e X 2 , D  X1  X 2 , D com distribuição não normal,
E D   D e var D   D2 finita, tal que n  30 .
Intervalo a 1    100% de confiança para o valor médio D
 sD sD 
d  z , d  z
 1 /2 1 /2 
 n n 

standard.
22
Testes de hipóteses para o valor médio D
H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
ou H0 : D  0 vs H1 : D  0
D  0
Z 
SD
n
que, sob a validade da hipótese nula, tem distribuição aproximada N 0,1 .
Regra de decisão:
Hipótese a testar Rejeitar H0 se

H0 : D  0 vs H1 : D  0 | z |  z1 / 2
H0 : D  0 vs H1 : D  0 z  z1
H0 : D  0 vs H1 : D  0 z  z1

Nota:
No caso em que a distribuição de D é não normal e a dimensão da amostra das
diferenças é superior ou igual a 30 podemos usar uma metodologia paramétrica. A
estatística de teste a utilizar é a estatística Z com distribuição aproximadamente
N 0,1 . Como para valores elevados do número de graus de liberdade, a
distribuição t de Student se aproxima da distribuição N 0,1 , o SPSS, assim como
outros softwares estatísticos, não utiliza a distribuição normal mas sim a
distribuição t de Student, o que embora não seja teoricamente correto, não traz
consequências práticas e simplifica a sua utilização.
7.3.3. Teste de Wilcoxon
O teste de Wilcoxon é um método não paramétrico para a comparação de duas

populações com base em amostras emparelhadas. Este teste pode constituir também
uma alternativa ao teste paramétrico para comparação de dois valores médios com base
em amostras emparelhadas (teste t para amostras emparelhadas) em alguma das
23
Estatística II
seguintes situações: (i) as amostras terem dimensão reduzida; (ii) a amostra das
diferenças não ser proveniente de uma população normal; (iii) as variáveis estarem numa
escala ordinal.
Sejam X11, X12, , X1n  e X 21, X 22, , X 2n  duas amostras aleatórias emparelhadas, de
dimensão n , provenientes de duas populações X1 e X 2 . Podemos considerar, tal como
no teste paramétrico, uma variável aleatória D  X1  X 2 .
H0 : As distribuições dos ranks das duas populações são idênticas
vs
H1 : As distribuições dos ranks das duas populações não são idênticas.
O teste de Wilcoxon utiliza as ordens (ranks) das diferenças em vez das próprias
diferenças. Os valores absolutos das diferenças são ordenados crescentemente, sendo
depois atribuído ao rank o respetivo sinal (positivo ou negativo). Se a hipótese nula for
verdadeira é de esperar que entre as maiores diferenças umas sejam positivas e outras
negativas. Deste modo, somando os ranks de sinal positivo e somando os de sinal
negativo, é de esperar que, sob a validade de H0 , essas somas sejam idênticas. Pelo
contrário, as duas somas serem muito distintas é um indicador de diferença entre as
duas populações. Assim, considera-se
T    ranks das diferenças positivas ,

ou
T    ranks das diferenças negativas .
Se alguma diferença for nula (isto é, se algum di  0 ), essa diferença não é

considerada na ordenação, e toma-se como dimensão da amostra a diferença entre
o n inicial e o número de diferenças nulas, isto é, a dimensão da amostra passa a
ser
n  nº de diferenças nulas .
Pode ainda ocorrer outro tipo de empates: dois ou mais di com a mesma
magnitude. Nesse caso, atribui-se a cada uma das diferenças empatadas o respetivo
rank médio.
T  e T  têm, sob a validade de H0 , distribuições exatas, com pontos críticos

tabelados por Wilcoxon (tabela não disponibilizada).
24
Regra de decisão:
Nas tabelas do teste de Wilcoxon são dados os p-values. A partir do valor p , a
regra de decisão ao nível de significância  consiste em rejeitar H 0 se p   .
Atendendo ao facto da estatística de teste ser uma soma, o teorema limite central
permite, sob certas condições (considerar n  15 é uma prática usual), efetuar a
aproximação da distribuição de T  à distribuição normal com valor médio e variância
dados, respetivamente, por
n n  1
E T   
4
e
n n  12n  1
var T    .
24
Assim,
Z 
 
T E T
var T  
tem, sob a validade de H0 , distribuição aproximada N 0,1 .

No caso de haver empates é necessário corrigir a variância
g
n n  12n  1 1
var T   
24
    1 i i  1
48 i 1 i
sendo g o número de grupos com ranks empatados e i o número de diferenças
empatadas no iésimo grupo de empates.
Neste caso, rejeita-se H0 , ao nível de significância  , se | z |  z1 / 2 , sendo z o valor
observado da estatística de teste e z1 / 2 o quantil de probabilidade 1   / 2 da
distribuição normal reduzida.
Notas:
1. Em geral, os softwares estatísticos fornecem os p-values deste teste, quer para a
estatística T  (p-value exato), quer para a estatística Z (p-value aproximado).
Sempre que se dispõe de valores exatos são estes que devem ser utilizados.
2. Nesta disciplina não serão utilizadas as tabelas com os pontos críticos do teste
de Wilcoxon. Para efetuar este teste recorre-se à aproximação à distribuição
normal ou à utilização das tabelas do output do software SPSS.
3. No software SPSS, por vezes, a aproximação é feita com base na estatística T  .
25
Estatística II
Exemplo 7.5
Com o objetivo de comparar os tempos (em segundos) despendidos por crianças na
realização de uma tarefa antes e depois de um processo de aprendizagem, foram
aleatoriamente escolhidas 10 crianças para participar num estudo, tendo cada uma
delas sido submetida a uma avaliação no desempenho dessa tarefa. Depois de um
mês de aprendizagem foram novamente avaliadas no desempenho da mesma tarefa.
Os resultados constam da tabela
criança 1 2 3 4 5 6 7 8 9 10
tempo antes da aprendizagem 68 60 41 90 86 72 56 61 87 80
tempo depois da aprendizagem 69 57 39 89 88 74 54 59 77 81
Resolução:
X1 – tempo despendido por uma criança na realização da tarefa antes do
processo de aprendizagem,
X 2 – tempo despendido por uma criança na realização da tarefa depois do
processo de aprendizagem.
Considere que a alteração de tempo de uma criança, isto é, tempo inicial menos
tempo final, é uma variável aleatória D  X1  X 2 . Os valores observados da
variável aleatória D são:
criança 1 2 3 4 5 6 7 8 9 10
d −1 3 2 1 −2 −2 2 2 10 −1
Efetuámos, no software SPSS, o teste de normalidade para a variável D (ver Secção

7.4) e constatámos que essa condição não é verificada. Assim, na impossibilidade
de efetuar o teste t para amostras emparelhadas vamos utilizar o teste não
paramétrico de Wilcoxon.
H0 : As distribuições dos ranks de X1 e X 2 são idênticas
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas.
Efetuando a ordenação da amostra (em valor absoluto) obtemos a seguinte tabela
de ranks
criança 1 10 4 5 6 3 7 8 2 9
d −1 −1 1 −2 −2 2 2 2 3 10
rank | d | 2 2 2 6 6 6 6 6 9 10
sinal d       
   
26
Assim,
T   2  6  6  6  9  10  39 e T   2  2  6  6  16 .
Consultando uma tabela da distribuição exata da estatística de teste de Wilcoxon
(fora do âmbito desta disciplina) encontramos o p-value deste teste de hipóteses
fazendo
p  2  P T   39  2  0.14  0.28 .
Como p  0.28  0.05 , não rejeitamos a hipótese nula para   0.05 , ou seja, não
existe evidência estatística de que tenha havido alteração no tempo de desempenho
da tarefa depois do processo de aprendizagem.
Neste caso, tem-se n  15 e portanto não se verifica a condição necessária para

aproximação à distribuição normal. No entanto, para efeito meramente ilustrativo,
vamos efetuar a referida aproximação.
O valor médio de T  é
10  (10  1)
E T     27.5
4
e, como existem 2 grupos de empates, então g  2 e a variância é

2
10  11  (20  1) 1
48 
var T   
24
 i  1 i i  1
i 1
1 
 96.25     1 1 1  1  2  1 2 2  1 .
48  1
Como há 3 observações empatadas no primeiro grupo de empates então 1  3 . Do
mesmo modo, como há 5 observações empatadas no segundo grupo de empates,
então 2  5 . Assim,
1
var T    96.25  2  3  4  4  5  6  93.25
48
e a aproximação é dada por
aprox . aprox .
 
T   N 27.5, 93.25 , isto é, Z 
T   27.5
93.25
 N 0,1 .
O valor observado da estatística de teste Z é

39  27.5
z  1.191 .
93.25
Como | z |  1.191  z 0.975  1.96 , não se rejeita a hipótese nula ao nível de

significância de 5%, ou seja, não é de admitir que haja diferença significativa nas
distribuições dos ranks dos tempos antes e depois da aprendizagem.
27
Estatística II
Nota:
Tal como no teste de Wilcoxon-Mann-Whitney, também para o teste não
paramétrico de Wilcoxon é possível enunciar e efetuar testes de hipóteses
unilaterais.
7.4. Ilustrações com SPSS
Exemplo 7.2
Recordemos que
X A – idade com que uma criança da população A começa a andar,
X B – idade com que uma criança da população B começa a andar.
Comecemos por averiguar se podemos considerar válidas as suposições de
normalidade das variáveis X A e X B .
Utilizando o software estatístico SPSS, obtemos o output
Explore
população
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
população Statistic df Sig. Statistic df Sig.

*
idade começam a andar A ,186 12 ,200 ,955 12 ,717
B ,212 12 ,141 ,915 12 ,249
*.
a.
Relativamente aos testes de normalidade

H0 : X A tem distribuição normal vs H1 : X A não tem distribuição normal ,
o valor observado da estatística de teste de Shapiro-Wilk é w  0.955 , ao qual
corresponde o p-value p  0.717 .
H0 : X B tem distribuição normal vs H1 : X B não tem distribuição normal ,
Deste modo, ao nível de significância de 5%, podemos admitir válidas as suposições
de normalidade de cada uma das populações (pois em cada um dos casos o p-value
é superior a 0.05).
28
Em seguida, é necessário avaliar a hipótese de igualdade de variâncias:

H0 : A2  B2 vs H1 : A2  B2 .
O resultado do teste de Levene é disponibilizado, no software estatístico SPSS,
conjuntamente com a tabela do teste t
T-Test
Group Statistics
população N Mean Std. Deviation
idade começam a andar A 12 11,817 ,7196 ,2077

B 12 12,975 ,8771 ,2532
Independent Samples Test
t-test for Equality of Means
F Sig. t df Lower Upper

idade começam a andar
1,665 ,210 -3,537 22 ,002 -1,1583 ,3275 -1,8376 -,4791
-3,537 21,191 ,002 -1,1583 ,3275 -1,8391 -,4776
O valor observado da estatística de teste de Levene é f  1.665 , ao qual

corresponde o p-value p  0.210 . Para o nível de significância de 5% não se rejeita
a hipótese de homogeneidade de variâncias (pois p  0.05 ).
Assim, estamos em condições de efetuar o teste t para comparação de valores
médios, cujas hipóteses a testar são
H0 : A  B vs H1 : A  B .
O valor observado da estatística de teste é t  3.537 , a que corresponde o p-value
p  0.002 . Para o nível de significância de 5% rejeita-se H0 , sendo portanto de
admitir que a idade média com que as crianças começam a andar não é a mesma
nas duas populações.
De referir que a 1ª tabela do teste t fornece as características amostrais relevantes
para o cálculo do valor observado da estatística de teste. Na 2ª tabela do output
do teste de hipóteses é também apresentado um intervalo a 95% de confiança, para
a diferença dos valores médios A  B :
1.838,  0.479 .
 
A obtenção do intervalo de confiança para B  A é trivial: 0.479,1.838 .

 
29
Estatística II
Exemplo 7.3
Recordemos que
X FMH – altura de um aluno da FMH,
X ISA – altura de um aluno do ISA,
e que pretendemos comparar as alturas dos alunos da FMH e do ISA.
Comecemos por averiguar se podemos considerar válidas as suposições de
normalidade das variáveis X FMH e X ISA .
Explore
faculdade
Tests of Normality
a
faculdade Statistic df Sig. Statistic df Sig.

altura FMH ,265 10 ,045 ,794 10 ,012
*
ISA ,173 13 ,200 ,921 13 ,256
*.
a.
Relativamente aos testes de normalidade

H0 : X FMH tem distribuição normal
vs
H1 : X FMH não tem distribuição normal ,
Deste modo, ao nível de significância de 5%, não podemos admitir válidas as
suposições de normalidade de cada uma das populações (pois, há um p-value
inferior a 0.05).
Como o resultado do teste de normalidade de Shapiro-Wilk não permite considerar
válida a suposição de normalidade da altura dos alunos da FMH, a comparação
das alturas dos alunos da FMH e do ISA deve ser feita recorrendo ao teste de
Wilcoxon-Mann-Whitney.
Para testar as hipóteses
H0 : As distribuições dos ranks de X FMH e X ISA são idênticas
vs
H1 : As distribuições dos ranks de X FMH e X ISA não são idênticas
efetua-se o teste de Wilcoxon-Mann-Whitney cujo output do software SPSS é
30
NPar Tests
Mann-Whitney Test
Ranks
faculdade N Mean Rank

altura FMH 10 8,65 86,50
ISA 13 14,58 189,50
Total 23
a
Test Statistics
altura
Mann-Whitney U 31,500
Wilcoxon W 86,500
Z -2,083
Asymp. Sig. (2-tailed) ,037
b
Exact Sig. [2*(1-tailed Sig.)] ,036
Exact Sig. (2-tailed) ,037
Exact Sig. (1-tailed) ,018
Point Probability ,001
a.
b.
O valor observado da estatística de teste é T10,13  86.5 (pode ser apresentado o

valor da estatística U  31.5 ) ao qual corresponde o p-value p  0.037 (Exact Sig.
(2-tailed)). Deste modo, ao nível de significância de 5%, rejeitamos a hipótese nula
e conclui-se que há diferença significativa na distribuição dos ranks das alturas dos
alunos da FMH e do ISA.
Exemplo 7.4
Recordemos que
X1 – peso de um estudante no início do programa de emagrecimento,
X 2 – peso de um estudante no final do programa de emagrecimento,
D  X1  X 2 .
H0 : D  0 vs H1 : D  0 .
Começamos por testar as hipóteses
H0 : D tem distribuição normal vs H1 : D não tem distribuição normal .
31
Estatística II
Explore
Tests of Normality
a
Statistic df Sig. Statistic df Sig.
*
peso inicial - peso final ,135 12 ,200 ,962 12 ,818
*.
a.
Como o valor observado da estatística do teste de Shapiro-Wilk é w  0.962 , ao

qual corresponde o p-value p  0.818 , não rejeitamos H0 ao nível de significância
de 5% (pois p  0.05 ). É, portanto, de admitir a normalidade da variável que
representa a diferença de peso e, assim, podemos efetuar o teste t para amostras
emparelhadas. O output do software SPSS referente a este teste é
T-Test
Paired Samples Statistics
Mean N Std. Deviation

Pair 1 peso inicial 71,542 12 3,9530 1,1411
peso final 71,075 12 3,5087 1,0129
Paired Samples Correlations
N Correlation Sig.
Pair 1 peso inicial & peso final 12 ,928 ,000
Paired Samples Test
Paired Differences
Mean Lower Upper t df Sig. (2-tailed)

Pair 1 peso inicial - peso final ,4667 1,4798 ,4272 -,4735 1,4069 1,092 11 ,298
O valor observado da estatística de teste é t  1.092 , a que corresponde o p-value

p  0.298 / 2  0.149 (o p-value apresentado no output é do teste de hipóteses
bilateral, sendo necessário dividir por 2 para obter o p-value do teste de hipóteses
unilateral anteriormente enunciado). Assim, para o nível de significância de 5%
não se rejeita H0 , não sendo portanto possível concluir que o programa de
emagrecimento é eficaz.
De referir que a 1ª tabela do teste t fornece as características amostrais para cada
uma das amostras. Na 2ª tabela é apresentado o coeficiente de correlação linear de
Pearson entre X1 e X 2 , r  0.928 , o que evidencia uma correlação elevada entre
as duas variáveis. Na 3ª tabela do output do teste de hipóteses é apresentado um
intervalo a 95% de confiança, para a diferença dos valores médios 1  2 :
0.474 ,1.407  .
 
32
Exemplo 7.5
Recordemos que
X1 – tempo despendido por uma criança na realização da tarefa antes do
X 2 – tempo despendido por uma criança na realização da tarefa depois do
D  X1  X 2 ,
e que pretendemos comparar os tempos obtidos pelas crianças antes e depois da
aprendizagem.
Começamos por testar as hipóteses
H0 : D tem distribuição normal vs H1 : D não tem distribuição normal .
Explore
Tests of Normality
a
.233 10 .134 .817 10 .023
a.
Como o valor observado da estatística do teste de Shapiro-Wilk é w  0.817 , ao

qual corresponde o p-value p  0.023 , rejeitamos H0 ao nível de significância de
5% (pois p  0.05 ). Dado que não é válida a suposição de normalidade da
diferença, a comparação dos tempos deve ser feita recorrendo ao teste de Wilcoxon.
vs
H1 : As distribuições dos ranks de X1 e X 2 não são idênticas
efetua-se o teste de Wilcoxon cujo output do software SPSS é
NPar Tests
Wilcoxon Signed Ranks Test

Ranks
N
a
Negative Ranks 4 4.00 16.00
Positive Ranks b
6 6.50 39.00
c
Ties 0
Total 10
a.
b.
c.
33
Estatística II
a
Test Statistics
Z -1.191 b
Asymp. Sig. (2-tailed) .234
Exact Sig. (2-tailed) .281
Exact Sig. (1-tailed) .141
Point Probability .035
a.
b.
O valor observado da estatística de teste é T   39 ao qual corresponde o p-value

p  0.281 (Exact Sig. (2-tailed)). Deste modo, ao nível de significância de 5%, não
rejeitamos a hipótese nula, o que significa que não é de admitir que haja diferença
significativa nas distribuições dos ranks dos tempos antes e depois da
aprendizagem.
De notar que, neste caso, tem-se n  15 e portanto não se verifica a condição

necessária para aproximação à distribuição normal. De qualquer modo, o software
SPSS apresenta sempre o resultado do teste com a aproximação da distribuição de
T  ou T  à distribuição normal. No caso deste exemplo, o software SPSS efetua a
aproximação da distribuição de T  à distribuição normal e, assim, o valor
apresentado para z é o simétrico do valor obtido quando se faz a aproximação com
base na estatística T  .
34
Capítulo 8
Inferência estatística para mais de duas populações
com base em amostras independentes
8 Inferência estatística para mais de duas populações com base em amostras independentes
8.1. Introdução
Neste capítulo vamos apresentar testes de hipóteses para a comparação de valores

médios – análise de variância simples – e para a comparação de variâncias – teste de
Levene – de populações normais, com base em mais de duas amostras independentes.
Como sabemos os métodos de inferência paramétrica para a comparação dos valores
médios têm alguns pressupostos que não sendo verificados nos remetem para a utilização
de métodos não paramétricos, como por exemplo o teste de Kruskal-Wallis.
Os métodos de inferência apresentados são ilustrados através de aplicações com o

software estatístico SPSS.
Exemplo 8.1
O diretor de um estabelecimento de ensino pré-escolar pretende comparar o tempo
médio de execução, em quatro tarefas distintas, realizado por crianças com cinco
anos de idade. As crianças são selecionadas aleatoriamente para fazer parte do
estudo, sendo também aleatória a atribuição das tarefas. Deste modo,
constituem-se quatro grupos de crianças, cada um dos quais irá desempenhar uma
tarefa e regista-se os tempos (em minutos) de execução das tarefas.
Como fazer para averiguar se existe diferença significativa entre o tempo médio de
execução das quatro tarefas?
Estatística II
Considere que no estudo participaram 36 crianças e designemos por A , B , C , D

as quatro tarefas. Os tempos de execução (em minutos) obtidos pelas crianças nas
tarefas foram os seguintes
observações
tempo tarefa A 31 25 28 30 32 28 29 31 27
tempo tarefa B 24 26 27 25 30 32 28 27 29 25
tempo tarefa C 30 31 30 28 31 30 28 32
tempo tarefa D 25 27 26 23 21 22 24 22 26
Será admissível utilizar C 24  6 vezes o teste t para a comparação entre dois

valores médios em amostras independentes?
Se efetuarmos um teste t , ao nível de significância   0.05 , para a comparação

de dois valores médios, a probabilidade de não rejeitar a hipótese nula sendo ela
verdadeira é 0.95. Assim, se os 6 testes t fossem independentes, a probabilidade
conjunta de não rejeitar a hipótese nula sendo ela verdadeira seria
0.95  0.95  0.95  0.95  0.95  0.95  0.735
e a probabilidade conjunta de cometer um erro de tipo I seria

  1  0.735  0.265 . O que mostra que ao efetuar vários testes t deixamos de
conseguir controlar o nível de significância do teste.
Quando pretendemos comparar os valores médios de mais de duas populações devemos

utilizar, caso se verifiquem as condições de aplicabilidade, o método de análise de
variância simples, que permite testar simultaneamente a igualdade de todos os valores
médios. Este método não é mais do que a generalização a mais de duas populações do
teste t para a comparação de valores médios com base em amostras independentes.
8.2. Análise de variância simples
Sejam X11, X12, , X1n1  , X 21, X 22, , X 2n2  ,  , Xk 1, Xk 2, , Xknk  k amostras
aleatórias independentes, de dimensões n1 , n2 ,  , nk , provenientes de k populações
(ou grupos) com distribuição normal, X1  N 1, 1  , X 2  N 2, 2  ,  ,
Xk  N k , k  , respetivamente. Pretende-se testar
36
Inferência estatística para mais de duas populações com base em amostras independentes
H0 : 1  2    k vs H1 : pelo menos dois dos valores médios são diferentes .

Para fazer inferência sobre os parâmetros i , i  1, , k , consideramos um efeito médio
global que pode ser avaliado por
k ni
1
X
N   Xi j ,
i 1 j 1
onde N  n1  n2    nk é a dimensão da amostra global, e um efeito médio em cada

grupo, que pode ser avaliado por
ni
1
Xi 
ni
 Xi j , i  1,, k .
j 1
Para inferir sobre os valores médios é necessário considerar a variabilidade global que
pode ser medida por
k ni k ni
   
2 2
SST    Xij  X    Xij  Xi  Xi  X
i 1 j 1 i 1 j 1
k ni k ni k
  Xi j  Xi    ni Xi  X 
2 2
   Xi j  Xi   2 Xi  X .
i 1 j 1 i 1 j 1 i 1
Tendo em conta que

ni k ni
 Xi j  Xi   0  2  Xi  X   X ij  Xi   0 ,
j 1 i 1 j 1
logo
k ni k
 .
2 2
SST    Xij  Xi    ni Xi  X
i 1 j 1 i 1
Deste modo, a variação total é decomposta em duas parcelas,

k ni
2
  Xij  Xi   SSW
i 1 j 1
que mede a variabilidade dentro dos grupos e

k
 ni Xi  X 
2
 SS B
i 1
que mede a variabilidade entre os grupos.

Admitindo a homogeneidade de variâncias, isto é, que 12  22    k2   2 , e sob a
validade de H0 , 1  2    k   , prova-se que
37
Estatística II
SS B
k  1
F 
2
 Fk 1,N k ,
SSW
N  k 
2
isto é, a distribuição de amostragem da estatística de teste F é a distribuição F de

Fisher-Snedecor com k  1 graus de liberdade no numerador e N  k graus de liberdade
no denominador.
Designando por
SS B SSW
MS B  e MSW 
k 1 N k
os quadrados médios entre grupos e os quadrados médios dentro dos grupos,

respetivamente, a estatística F é dada por
MS B
F .
MSW
Se a hipótese nula for verdadeira, é de esperar que MS B e MSW sejam idênticos e,

portanto, o quociente entre ambos assuma valores próximos da unidade. Caso contrário,
isto é, se a hipótese nula for falsa, será de esperar que MS B seja superior a MSW e como
consequência que o quociente MS B / MSW assuma valores superiores a 1.
Testes de hipóteses para a comparação de valores médios
H0 : 1  2    k
vs
H1 : r  s para algum par r , s  com r , s  1, 2,  , k  e r  s.
SS B
MS B
F  k 1 
SSW MSW
N k
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com k  1 e
N  k graus de liberdade.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se f  Fk 1,N k ;1 , sendo f o valor
observado da estatística de teste e Fk 1,N k ;1 o quantil de probabilidade 1  
da distribuição F de Fisher-Snedecor com k  1 graus de liberdade no numerador
e N  k graus de liberdade no denominador.
38
Nota:
Os parâmetros sobre os quais se está a fazer inferência são os valores médios, no
entanto, a estatística de teste é definida à custa da decomposição da variabilidade,
razão pela qual se chama a este método análise de variância.
Para tornar a tarefa de cálculo menos árdua é habitual substituir as expressões

apresentadas por outras equivalentes e de cálculo mais fácil. Assim, demonstra-se que
k ni k ni
 
2
SST    Xij  X    Xij2  NX 2 ,
i 1 j 1 i 1 j 1
k k
   n X
2
SS B   ni Xi  X i
2
i  NX 2 ,
i 1 i 1
k ni k ni k
2
SSW    Xij  Xi     Xij2   ni Xi2 .
i 1 j 1 i 1 j 1 i 1
Os dados relativos à análise de variância podem ser sumariados e apresentados numa

tabela do tipo
observações dimensões somas médias
1 x 11 x 12  x 1n1 n1 n
 j 11 x 1 j x1
x 21 x 22  x 2n2 n2 n
 j 2 1 x 2 j x2
grupos
2
       
k xk1 xk 2  x knk nk nk
j 1 x kj xk
N   x ij x
No que respeita aos resultados, estes costumam ser apresentados sob a forma de um
quadro que designamos por tabela ANOVA, mais precisamente, one-way ANOVA
Fonte de Soma de Graus de Quadrados

F
variação quadrados liberdade médios
Entre os grupos SS B k 1 MS B MS B
MSW
Dentro dos grupos SSW N k MSW
Total SST N 1
Assumindo que existe normalidade e igualdade de variâncias dos tempos de

execução das tarefas, vamos averiguar se existe diferença significativa entre os
tempos médios de execução das quatro tarefas, para o nível de significância de 5%.
39
Estatística II
Resolução:
Sejam as variáveis aleatórias
Xi – tempo de execução da i -ésima tarefa realizada por uma criança de 5 anos,
em que Xi  N i ,   , i  A, B,C , D .
Pretendemos testar as hipóteses
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes.
Para calcular o valor observado da estatística de teste, é conveniente completar a
tabela de dados escrevendo
n
observações ni j
i
1 x ij xi
tempo tarefa A 31 25 28 30 32 28 29 31 27 9 261 29
tempo tarefa B 24 26 27 25 30 32 28 27 29 25 10 273 27.3
tempo tarefa C 30 31 30 28 31 30 28 32 8 240 30
tempo tarefa D 25 27 26 23 21 22 24 22 26 9 216 24
N  36 990 x  27.5
Com estes valores já é mais fácil obter as somas dos quadrados

4 ni
SST    x ij2  N x 2  27552  36  27.52  27552  27225  327.0 ,
i 1 j 1
4
SS B   ni x i2  N x 2  9  292  10  27.32  8  302  9  242   27225
i 1
 27405.9  27225  180.9,
4 ni 4
SSW    x ij2   ni x i2  27552  27405.9  146.1 .
i 1 j 1 i 1
A tabela ANOVA para este conjunto de dados é:

F
Entre os grupos 180.9 3 60.3 13.207
Dentro dos grupos 146.1 32 4.566
Total 327.0 35
Para   0.05 e consultando a tabela da distribuição F de Fisher-Snedecor,

obtemos
F(k 1,N k ;1)  F(3,32;0.95)  F(3,30;0.95)  2.922 .
40
Como f  13.207  2.922 , rejeitamos a hipótese nula para   0.05 , isto é, para
este nível de significância podemos concluir que existe diferença significativa entre
pelo menos dois dos tempos médios de execução das tarefas.
Neste exemplo. verificámos a existência de diferenças significativas entre os tempos

médios de execução de pelo menos duas das tarefas A , B , C ou D . Mas quais as
tarefas responsáveis pela rejeição da hipótese de igualdade dos tempos médios de
execução? Para responder a esta questão temos que efetuar um teste de comparações
múltiplas.
Nota:
O exemplo apresentado é um exemplo meramente académico no sentido em que
apresenta uma situação pouco aconselhável para a aplicação da análise de
variância simples pelo facto das amostras terem dimensão reduzida. A razão para a
utilização destes dados prende-se com a necessidade de exemplificar os cálculos
associados ao método de análise de variância simples.
Testes de comparações múltiplas para a ANOVA simples
Quando verificamos que os k valores médios não são todos iguais, estamos interessados
em saber quais desses k valores médios são responsáveis pelas diferenças. Como já foi
referido, a aplicação de testes t de Student para a comparação de cada par de valores
médios não é correta, pois teríamos que efetuar um elevado número de testes, mais
precisamente C 2k , sendo difícil conhecer com exatidão o nível de significância global.
A solução para este problema consiste em formular testes de comparações múltiplas, que
permitem investigar onde se encontram as possíveis diferenças entre os k valores
médios, controlando simultaneamente o nível de significância global. O teste HSD
(honestly significant difference) de Tukey, o teste de Scheffé e o teste de Duncan são
alguns exemplos de testes de comparações múltiplas. Estes testes diferem no modo como
analisam as diferenças entre os valores médios e no método de controlo do nível de
significância. Em qualquer um destes testes, efetua-se
k! k k  1
C 2k  
2! k  2 ! 2
comparações cujas hipóteses são

H0 : r  s vs H1 : r  s , com r , s  1,2, , k  e r  s.
Utilizaremos o software SPSS sempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de Tukey
são apresentadas na Secção 8.5.
41
Estatística II
8.3. Validação de pressupostos da ANOVA simples
O método de análise de variância simples pressupõe a existência de normalidade e de

igualdade das variâncias das k populações. Assim, antes de testarmos a igualdade dos
valores médios, devemos validar estes dois pressupostos.
Para testar a normalidade das populações recorre-se a um dos testes de normalidade, o

teste de Shapiro-Wilk ou o teste de Kolmogorov-Smirnov.
Para testar a igualdade de variâncias das k populações, utiliza-se o teste de Levene,

cujas hipóteses são
H0 : 12  22    k2
vs
H1 : r2  s2 para algum par r , s  com r , s  1,2, , k  e r  s.
Considera-se uma nova variável Dij (i  1, 2,  , k , j  1, 2,  , ni ) tal que
Dij  Xij  Xi
isto é, os valores observados de Dij correspondem ao módulo da diferença entre os
valores observados para cada indivíduo, Xij , e a média do grupo a que o indivíduo
pertence, Xi . Para realizar o teste de Levene utiliza-se esta nova variável sobre a qual é
efetuada uma análise de variância simples.

Utilizando o teste de Levene e o nível de significância de 5%, verifique se podemos
admitir a igualdade de variâncias dos tempos de execução das quatro tarefas.
Resolução:
Para testar a igualdade de variâncias
H0 : A2  B2  C2  D2
vs
H1 : pelo menos duas das variâncias são diferentes.
Os valores observados da variável Dij são apresentados na tabela
dij ni di
tempo tarefa A 2 4 1 1 3 1 0 2 2 9 1.778
tempo tarefa B 3.3 1.3 0.3 2.3 2.7 4.7 0.7 0.3 1.7 2.3 10 1.960
tempo tarefa C 0 1 0 2 1 0 2 2 8 1.000
tempo tarefa D 1 3 2 1 3 2 0 2 2 9 1.778
N  36 d  1.656
42
Depois calcula-se
SST  146.1  36  1.6562  47.429 ,
SS B  9  1.7782  10  1.962  8  12  9  1.7782   36  1.6562  4.634 ,
SSW  146.1  9  1.7782  10  1.962  8  12  9  1.7782   42.795 .
A tabela ANOVA para este conjunto de dados é:

F
Entre os grupos 4.634 3 1.545 1.155
Dentro dos grupos 42.795 32 1.337
Total 47.429 35
Para   0.05 e consultando a tabela da F de Fisher-Snedecor, F3,32;0.95  2.922 .

Como f  1.155  F3,32;0.95  2.922 , não rejeitamos a hipótese nula para
  0.05 , ou seja, para este nível de significância podemos admitir que existe
igualdade (homogeneidade) de variâncias.
Notas:
1. Sendo a homogeneidade de variâncias um pressuposto da ANOVA, o teste de
Levene deve ser efetuado antes do teste de análise de variância simples para
comparação de valores médios. Utilizaremos o software SPSS sempre que for
necessário efetuar o teste de Levene. A ilustração e a interpretação deste teste
são apresentadas na Secção 8.5.
2. Tal como para o teste t para amostras independentes, também para a análise
de variância simples, Welch propôs uma correção à estatística de teste no caso
em que falha a suposição de igualdade de variâncias. Utilizaremos o software
SPSS sempre que for necessário efetuar o cálculo da estatística de Welch.
3. O teste de Tukey pode ser uma opção para teste de comparações múltiplas
quando se verifica a igualdade de variâncias. Quando este pressuposto falha,
pode utilizar-se, por exemplo, o teste de Games-Howell. Utilizaremos o software
SPSS sempre que for necessário efetuar os testes de comparações múltiplas de
Tukey ou de Games-Howell.
43
Estatística II
8.4. Teste de Kruskal-Wallis
O teste de Kruskal-Wallis é um método não paramétrico para a comparação de mais de

duas populações com base em amostras independentes. Este teste pode constituir
também uma alternativa ao teste paramétrico para comparação de mais de dois valores
médios com base em amostras independentes (análise de variância simples) em alguma
das seguintes situações: (i) pelo menos uma das amostras ter dimensão reduzida; (ii)
pelo menos uma das amostras não ser proveniente de uma população normal; (iii) as
Este teste é uma generalização do teste de Wilcoxon-Mann-Whitney para mais de dois
grupos.
H0 : As distribuições dos ranks das k populações são idênticas

vs
H1 : As distribuições dos ranks das k populações não são idênticas.
O teste de Kruskal-Wallis utiliza as ordens (ranks) das observações em vez das próprias
observações. Se a hipótese nula for verdadeira é de esperar que qualquer ordem possa ser
atribuída a qualquer uma das observações das k amostras. Se a hipótese nula não for
verdadeira, pelo menos uma das amostras tem ranks bastante distintos das restantes.
Seja ni , i  1, , k , a dimensão da i -ésima amostra e N  n1    nk a dimensão da

amostra combinada. Representa-se por Ri , i  1, , k , a soma dos ranks, na amostra
combinada, das observações da i -ésima amostra e por Ri  Ri / ni a respetiva média.
k
12 Ri2
N N  1 
H   3 N  1
i 1
ni
que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k  1

graus de liberdade.
No caso de haver empates na ordenação da amostra conjunta atribui-se, a cada

observação empatada de um dado grupo de empates, o rank médio das observações
desse grupo de empates e, neste caso, deve corrigir-se a estatística de teste e
utilizar
44
k
12 Ri2
N N  1  ni
 3 N  1
i 1
H  g
 l3  l 
l 1
1
N3 N
sendo g o número de grupos de observações empatadas e l o número de

observações empatadas no l –ésimo grupo de empates.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se H  2k 1;1 , sendo H o valor
observado da estatística de teste e 2k 1; o quantil de probabilidade  da
distribuição qui-quadrado com k  1 graus de liberdade.
Exemplo 8.2
Um investigador pretende comparar a sociabilidade de alunos universitários de
diferentes áreas (Letras, Desporto e Ciências). Com esse objetivo, selecionou
aleatoriamente alunos de cada uma das três áreas e aplicou um teste padronizado
de sociabilidade, tendo obtido os scores (numa escala de 0 a 100)
score aluno Letras 56 89 65 78 64

score aluno Desporto 88 80 75 82 70 81
acore aluno Ciências 23 49 57 50 58 61
Para   0.05, será que existe diferença entre os scores de sociabilidade de alunos
das três áreas?
Resolução:
Considere as variáveis aleatórias
X1 – score de sociabilidade de um aluno de Letras,
X 2 – score de sociabilidade de um aluno de Desporto,
X 3 – score de sociabilidade de um aluno de Ciências.
Como as amostras têm dimensão reduzida, vai utilizar-se o teste de Kruskal-Wallis

para testar as hipóteses
H0 : As distribuições dos ranks de X1, X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X1, X 2 e X 3 não são idênticas.
Neste caso k  3 , n1  5 , n2  6 , n 3  6 e N  17 .
Efetuando a ordenação da amostra combinada obtemos a seguinte tabela
45
Estatística II
score aluno Letras 56 89 65 78 64

rank score aluno Letras 4 17 9 12 8
score aluno Desporto 88 80 75 82 70 81
rank score aluno Desporto 16 13 11 15 10 14
score aluno Ciências 23 49 57 50 58 61
rank score aluno Ciências 1 2 5 3 6 7
As somas dos ranks das amostras são dadas por

R1  4  17  9  12  8  50 ,
R2  16  13  11  15  10  14  79 ,
R3  1  2  5  3  6  7  24 .
3
12 Ri2
H    3  18
17  18 i 1 ni
12  502 792 242 
       3  18  10.163.
17  18  5 6 6 
Como H  10.163  22;0.95  5.991 , rejeita-se a hipótese nula ao nível de

significância de 5%, logo é de admitir que há diferença significativa na
sociabilidade dos alunos de pelo menos duas das áreas.
Testes de comparações múltiplas para o teste de Kruskal-Wallis
Os testes de comparações múltiplas para o teste de Kruskal-Wallis permitem também

investigar onde se encontram as possíveis diferenças, controlando simultaneamente o
nível de significância global. O teste de Dunn-Bonferroni e o teste de Conover e Iman
são dois exemplos desses testes de comparações múltiplas. Tal como nas comparações
múltiplas paramétricas, pretende efetuar-se, simultaneamente, C 2k comparações cujas
hipóteses são
H0 : As distribuições dos ranks das populações r e s são idênticas
vs
H1 : As distribuições dos ranks das populações r e s não são idênticas,
com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSS sempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de
Dunn-Bonferroni são apresentadas na Secção 8.5.
46
Notas:
1. Pela mesma razão que não fazemos vários testes t de Student para perceber
entre que grupos existem diferenças significativas quando se rejeita a hipótese
nula da análise de variância, também não é correto utilizar vários testes de
Wilcoxon-Mann-Whitney para detetar entre que grupos existem diferenças
significativas quando se rejeita a hipótese nula do teste de Kruskal-Wallis.
2. O software SPSS disponibiliza o teste de Dunn-Bonferroni que, no entanto, não é
tão potente quanto o de Conover e Iman.
Exemplo 8.1
Recordemos que
Xi – tempo de execução da i -ésima tarefa realizada por uma criança de 5 anos,
em que E Xi   i e v a r Xi   i2 , i  A, B,C , D .
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes .
Comecemos por verificar os pressupostos da ANOVA simples.

Para averiguar a suposição de normalidade efetuamos quatro testes de hipóteses
H0 : Xi tem distribuição normal vs H1 : Xi não tem distribuição normal ,

i  A, B,C , D .
Explore
Tests of Normality
a
tarefa Statistic df Sig. Statistic df Sig.

*
tempo A ,148 9 ,200 ,962 9 ,817
*
B ,148 10 ,200 ,960 10 ,783
C ,250 8 ,150 ,897 8 ,273
*
D ,160 9 ,200 ,938 9 ,564
*.
a.
47
Estatística II
Os valores observados da estatística de teste de Shapiro-Wilk são wA  0.962 ,

wB  0.960 , wC  0.897 e wD  0.938 aos quais corresponde os p-values
pA  0.817 , pB  0.783 , pC  0.273 e pD  0.564 , respetivamente. Deste modo,
ao nível de significância de 5%, podemos admitir válidas as suposições de
normalidade de cada uma das populações (todos os p-values são superiores a 0.05).
No que respeita à homogeneidade de variâncias vamos testar as hipóteses
H0 : A2  B2  C2  D2
vs
H1 : pelo menos duas das variâncias são diferentes.
O teste de Levene é disponibilizado, no software estatístico SPSS, conjuntamente

com a tabela da ANOVA
Oneway
Descriptives
tempo
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
A 9 29,00 2,236 ,745 27,28 30,72 25 32
B 10 27,30 2,497 ,790 25,51 29,09 24 32
C 8 30,00 1,414 ,500 28,82 31,18 28 32
D 9 24,00 2,121 ,707 22,37 25,63 21 27
Total 36 27,50 3,057 ,509 26,47 28,53 21 32
Test of Homogeneity of Variances
tempo
df1 df2 Sig.

1,155 3 32 ,342
ANOVA
tempo
df Mean Square F Sig.

Between Groups 180,900 3 60,300 13,207 ,000
Within Groups 146,100 32 4,566
Total 327,000 35
O valor observado para a estatística do teste de Levene é f  1.155 , ao qual

corresponde o p-value p  0.342 . Assim, para o nível de significância de 5%, não
se rejeita a hipótese de homogeneidade de variâncias (pois p  0.05 ).
Estamos, agora, em condições de efetuar o teste de análise de variância para
comparação de valores médios, isto é
H0 : A  B  C  D
vs
H1 : pelo menos dois dos valores médios são diferentes .
48
O valor observado da estatística de teste da ANOVA é f  13.207 , a que

corresponde o p-value p  0.001 . Para o nível de significância de 5% rejeita-se H0
(pois p  0.05 ), sendo portanto de admitir que o tempo médio de execução não é
idêntico para todas as tarefas. Vamos efetuar o teste de Tukey para comparações
múltiplas de modo a identificar as tarefas responsáveis pelas diferenças. Fazemos
C 24  6 comparações simultâneas, com as hipóteses
H0 : r  s vs H1 : r  s , com r , s  A, B,C , D e r  s .
Post Hoc Tests
Ao testar
H0 : A  B vs H1 : A  B ,
obtém-se para a estatística de teste o valor de 1.7/0.982  1.732 , a que
Ao testar
H0 : A  C vs H1 : A  C ,
obtém-se para a estatística de teste o valor de 1.0/1.038  0.963 , a que
Ao testar
H0 : A  D vs H1 : A  D ,
corresponde o p-value p  0.001 .
49
Estatística II
Ao testar
H0 : B  C vs H1 : B  C ,
Ao testar
H0 : B  D vs H1 : B  D ,
Ao testar
H0 : C  D vs H1 : C  D ,
corresponde o p-value p  0.001 .
Assim, ao nível de significância de 5%, rejeita-se as hipóteses nulas A  D
( p  0.001  0.05 ), B  D ( p  0.010  0.05 ) e C  D ( p  0.001  0.05 ),
concluindo-se que existe diferença significativa entre os tempos médios de execução
da tarefa D e os tempos médios de execução das outras três tarefas ( A , B e C ).
Exemplo 8.2
Recordemos que
X1 – score de sociabilidade de um aluno de Letras,
X 2 – score de sociabilidade de um aluno de Desporto,
X 3 – score de sociabilidade de um aluno de Ciências.
Atendendo às dimensões das amostras, tal como foi referido anteriormente, vamos
efetuar o teste de Kruskal-Wallis, testando as hipóteses
vs
NPar Tests
Kruskal-Wallis Test
Ranks
área N Mean Rank

score de sociabilidade Letras 5 10,00
Desporto 6 13,17
Ciências 6 4,00
Total 17
50
Test Statistics a,b
Chi-Square 10,163
df 2
Asymp. Sig. ,006

Exact Sig. ,002
a.
b.
O valor observado para a estatística do teste de Kruskal-Wallis é H  10.163 , ao

qual corresponde o p-value p  0.002 (Exact Sig.). Assim, para   0.05 ,
rejeita-se a hipótese de igualdade dos scores de sociabilidade dos alunos das três
áreas (pois p  0.05 ).
Um valor da estatística de teste significativo indica que existe, pelo menos, um par
de grupos que diferem entre si. Para encontrar quais os grupos que diferem, é
necessário efetuar um teste de comparações múltiplas, por exemplo, o teste de
Dunn-Bonferroni, cujo output é
Ao testar
vs
obtém-se para a estatística de teste o valor de −1.036, a que corresponde o p-value
p  0.901 .
Ao testar
vs
obtém-se para a estatística de teste o valor de 1.962, a que corresponde o p-value
p  0.149 .
51
Estatística II
Ao testar
H0 : As distribuições dos ranks de X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X 2 e X 3 não são idênticas
obtém-se para a estatística de teste o valor de 3.144, a que corresponde o p-value
p  0.005 .
Ao nível de significância de 5%, conclui-se que apenas existe diferença significativa
entre os scores de sociabilidade dos alunos de Desporto e Ciências.
Nota:
A obtenção do p-value exato para o teste de Kruskal-Wallis requer um esforço
computacional elevado, sendo, em geral, difícil de obter, pelo que se utiliza
habitualmente o p-value assintótico.
52
Capítulo 9
Inferência estatística para mais de duas populações
com base em medidas repetidas
9 Inferência estatística para mais de duas populações com base em medidas repetidas
9.1. Introdução
Usa-se a expressão medidas repetidas para descrever situações em que a mesma

característica é avaliada, no mesmo indivíduo, em mais que uma situação ou ocasião. Os
conjuntos de dados resultantes de medições repetidas caracterizam-se pela existência de
dependência entre as observações referentes ao mesmo indivíduo. Comparativamente aos
delineamentos experimentais com observações independentes, os delineamentos com
medidas repetidas são, potencialmente, mais capazes de detetar os efeitos dos fatores em
estudo uma vez que diminuem a variabilidade não sistemática (variabilidade aleatória).
São exemplos de medidas repetidas os tempos obtidos por um conjunto de crianças de 5
anos na execução de diferentes tarefas, ou o peso registado semanalmente para os
participantes num programa de controlo de peso.
Exemplo 9.1
O diretor de um estabelecimento de ensino pré-escolar pretende comparar o tempo
médio de execução, em quatro tarefas distintas, realizado por crianças com 5 anos
de idade. As crianças são selecionadas aleatoriamente para fazer parte do estudo, e
cada uma das crianças irá desempenhar cada uma das tarefas por ordem também
aleatória.
Considere que no estudo participaram 8 crianças e designemos por A , B , C , D as
quatro tarefas. Os tempos de execução (em minutos) obtidos pelas crianças nas
tarefas foram os seguintes:
Estatística II
criança
1 2 3 4 5 6 7 8
tempo tarefa A 31 25 28 30 32 28 28 30
tempo tarefa B 24 26 27 25 30 32 28 27
tempo tarefa C 30 31 30 28 31 30 31 33
tempo tarefa D 25 27 26 23 21 22 26 25
Existirá diferença significativa entre os tempos médios de execução das quatro

tarefas?
Numa primeira análise, este exemplo parece idêntico ao Exemplo 8.1, no entanto, a
experiência foi planeada de forma bem distinta. No Exemplo 8.1 foram selecionadas 36
crianças, aqui apenas 8. No Exemplo 8.1 cada criança desempenhava apenas uma das
tarefas, aqui cada criança realiza as quatro tarefas. Neste caso, a análise a efetuar tem
que ter em conta o efeito do indivíduo, pois trata-se de uma experiência com medidas
repetidas.
9.2. Análise de variância simples para medidas repetidas
Considere-se uma experiência na qual um fator com k níveis é avaliado em n indivíduos.
Seja Xij , i  1,, k e j  1,, n , a variável aleatória que representa o valor observado
no i-ésimo nível do fator para o j-ésimo indivíduo. As variáveis Xij , com j  1,, n , são
 
independentes e identicamente distribuídas à variável Xi , sendo E Xi j  E Xi   i ,
para i  1,, k . Admita-se que as k amostras aleatórias são provenientes de uma
população com distribuição normal multivariada e que as variâncias das diferenças da
variável dependente entre cada par de níveis do fator são iguais.
Para averiguar se existe diferença nos valores médios de Xi entre os níveis do fator deve
testar-se, à semelhança do que acontece na análise de variância simples, as hipóteses
H0 : 1  2    k
vs
Tal como no Capítulo 8, para inferir sobre os valores médios precisamos considerar a
variabilidade global. O efeito médio global pode ser avaliado por
54
Inferência estatística para mais de duas populações com base em medidas repetidas
k n
1
X
kn   Xi j
i 1 j 1
e o efeito médio associado ao indivíduo j pode ser avaliado por

k
1
Xj 
k  Xi j , j  1,, n .
i 1
Quando trabalhamos com observações independentes, a variabilidade global

k n
 
2
SST    Xij  X
i 1 j 1
é decomposta na soma de duas parcelas SS B e SSW , onde SS B representa a variabilidade

entre os grupos e SSW a variabilidade dentro dos grupos.
No contexto do planeamento com medidas repetidas pode ser feita a mesma
decomposição mas, neste caso, SS B representa a variabilidade que resulta das diferenças
entre indivíduos,
n
 ,
2
SS B  k  X j  X
j 1
e SSW a variabilidade que resulta da diferença “dentro” dos indivíduos

k n
2
SSW    Xij  X j  .
i 1 j 1
A diferença fundamental é que no planeamento com medidas repetidas, a variabilidade

devida ao fator em estudo está incluída na variabilidade “dentro” dos indivíduos e não na
variabilidade entre indivíduos. Neste caso, como há várias observações para cada
indivíduo (correspondentes aos níveis do fator), a variabilidade “dentro” dos indivíduos
não é apenas devida a fatores aleatórios, como acontecia na análise de variância simples
com base em amostras independentes, mas é também devida ao efeito do fator em estudo.
Neste caso,
n
1
Xi 
n  Xi j i  1,, k
j 1
permite avaliar o efeito médio do nível i do fator. Então SSW pode ser decomposta em
duas parcelas
k n k n
 
2
 
2
SSW    Xij  X j    Xij  Xi  Xi  X  X  X j
i 1 j 1 i 1 j 1
k n k n k n
      
2 2
   Xi X    Xij Xi X j X  2   Xi X Xij Xi X j X .
i 1 j 1 i 1 j 1 i 1 j 1
Tendo em conta que

k n k n
  
Xi  X  0  
2  X i  X X i j  X i  X j  X  0 ,  
i 1 j 1 i 1 j 1
55
Estatística II
logo
k k n
   
2 2
SSW  n  Xi  X    Xij  Xi  X j  X .
i 1 i 1 j 1
Podemos escrever
SSW  SS fator  SS E ,
onde
k
 ,
2
SS fator  n  Xi  X
i 1
k n
 
2
SS E    Xij  Xi  X j  X .
i 1 j 1
Representa-se por
SS B SSW SS fator SS E
MS B  , MSW  , MS fator  e MS E 
n 1 n(k  1) k 1 k  1n  1
o quadrado médio entre indivíduos, o quadrado médio “dentro” dos indivíduos, o
quadrado médio do fator em estudo e o quadrado médio do erro, respetivamente. Para
testar se existe diferença, em termos médios, entre os níveis do fator em estudo, utiliza-se
a estatística F dada por
MS fator
F
MS E
que tem distribuição F de Fisher-Snedecor com k  1 graus de liberdade no numerador e

k  1n  1 graus de liberdade no denominador.
Se a hipótese nula for verdadeira, é de esperar que MS fator e MS E sejam idênticos e,
portanto, o quociente entre ambos assuma valores próximos da unidade. Caso contrário,
isto é, se a hipótese nula for falsa, será de esperar que MS fator seja superior a MS E e
como consequência que o quociente MS fator MS E assuma valores superiores a 1.
Testes de hipóteses para a comparação de valores médios
H0 : 1  2    k
vs
56
SS fator
k 1 MS fator
F 
SS E MS E
k  1n  1
que, sob a validade de H0 , tem distribuição F de Fisher-Snedecor com k  1 graus
de liberdade no numerador e k  1n  1 graus de liberdade no denominador.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se f  Fk 1,k 1n 1;1 , sendo f o valor
observado da estatística de teste e Fk 1,k 1n 1;1 o quantil de probabilidade
1   da distribuição F de Fisher-Snedecor com k  1 graus de liberdade no
numerador e k  1n  1 graus de liberdade no denominador.
Nota:
Os cálculos a efetuar para a obtenção do valor observado para a estatística de teste
podem ser facilitados utilizando as expressões equivalentes
k n
X 2
SST    Xij2  ,
i 1 j 1 kn
n X 2j X 2
SSB    ,
j 1 k kn
k n n X 2j
SSW    Xij2   ,
i 1 j 1 j 1 k
k Xi2 X 2
SS fator    ,
i 1 n kn
SSE  SSW  SS fator ,

em que
k n n k
X     Xij , Xi    Xij e X  j   Xij .
i 1 j 1 j 1 i 1
Os dados relativos à análise de variância para medidas repetidas podem ser

sumariados e apresentados numa tabela do tipo
57
Estatística II
indivíduo
1 2  n somas
1 x 11 x 12  x 1n x 1
x 21 x 22  x 2n x 2
fator
2
     
k xk1 xk 2  x kn xk 
somas x 1 x 2  x n x 
No que respeita aos resultados, estes costumam ser apresentados sob a forma de um
quadro que designamos por tabela ANOVA para medidas repetidas

F
Entre os indivíduos SSB n 1 MSB
Dentro dos indivíduos SSW n k  1 MSW
Fator SS fator k 1 MS fator MS fator

MSE
Erro SSE k  1n  1 MSE
Total SST kn  1

Sejam as variáveis aleatórias
Xij – tempo de execução da i -ésima tarefa realizada pela j -ésima criança,
i  A, B,C , D , j  1, , 8 , em que E Xi j   i .
H0 : A  B  C  D
vs
H1 : pelo menos dois valores médios são diferentes.
Para facilitar o cálculo do valor observado da estatística de teste podemos completar
a tabela apresentada na Secção 9.1,
criança
1 2 3 4 5 6 7 8 somas
tempo tarefa A 31 25 28 30 32 28 28 30 232
tempo tarefa B 24 26 27 25 30 32 28 27 219
tempo tarefa C 30 31 30 28 31 30 31 33 244
tempo tarefa D 25 27 26 23 21 22 26 25 195
somas 110 109 111 106 114 112 113 115 890
58
donde,
4 8
x 2 8902
SST    x ij2   25046   25046  24753.125=292.875 ,
i 1 j 1
48 32
8 x 2j x2 99072
SS B       24753.125  24768  24753.125=14.875 ,
j 1
4 48 4
4 8 8 x 2j
SSW    x ij2    25046  24768  278.000 ,
i 1 j 1 j 1
4
4 x i2 x 2 199346

SS fator      24753.125  165.125 ,
i 1 8 48 8
SSE  SSW  SS fator  278  165.125  112.875 .
A tabela ANOVA para medidas repetidas para este conjunto de dados é
Fonte de Soma de Graus de Quadrados F

Entre os indivíduos 14.875 7 2.125
Dentro dos indivíduos 278.000 24 11.583
Fator 165.125 3 55.042 10.240
Erro 112.875 21 5.375
Total 292.875 31
Para   0.05 e consultando a tabela da distribuição F de Fisher-Snedecor,

obtemos
F k 1, k 1 n 1 ;1  F(3,21;0.95)  F(3,20;0.95)  3.098 .
    
Como f  10.240  3.098 , rejeitamos a hipótese nula para   0.05 , isto é, para
este nível de significância podemos concluir que existe diferença significativa entre
pelo menos dois dos tempos médios de execução das tarefas.
Testes de comparações múltiplas para a ANOVA simples para medidas repetidas
À imagem do que acontece na análise de variância simples para amostras independentes,

também na análise de variância simples para medidas repetidas, quando se rejeita a
hipótese de igualdade dos valores médios tem interesse saber entre que níveis do fator em
estudo se verificam essas diferenças. Para isso devem ser efetuados testes de comparações
múltiplas, com os ajustamentos de por exemplo Bonferroni ou Sidak, que permitem
averiguar entre que níveis há diferenças. Em qualquer um destes testes, efetua-se
59
Estatística II
k! k k  1
C 2k  
2! k  2 ! 2
comparações cujas hipóteses são

H0 : r  s vs H1 : r  s , com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSSsempre que for necessário efetuar testes de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas com correção
de Bonferroni são apresentadas na Secção 9.5.
9.3. Validação de pressupostos da ANOVA simples para medidas

repetidas
Tal como no caso da ANOVA simples com base em amostras independentes, também na
ANOVA simples para medidas repetidas há pressupostos que é necessário verificar. Os
pressupostos da análise de variância simples para medidas repetidas incluem suposições
de normalidade e esfericidade (dado que se trata de observações não independentes, é
necessário impor condições sobre as variâncias e as covariâncias).
No que diz respeito à normalidade, as k amostras devem ser provenientes de uma

população com distribuição normal multivariada. Contudo, na prática, é usual averiguar
simplesmente se cada uma das k amostras é proveniente de uma população com
distribuição normal. Para verificar a condição de normalidade de cada população
recorre-se a um dos testes de normalidade, o teste de Shapiro-Wilk ou o teste de
Kolmogorov-Smirnov.
Em geral, a cov Xi , Xl  , i, l  1,2, , k , i  l , é não nula, pois as variáveis Xi e Xl não

são independentes, uma vez que são relativas ao mesmo indivíduo. Para efetuar o teste
ANOVA simples para medidas repetidas é necessário admitir a condição de esfericidade,
isto é, as var Xi  Xl  , i, l  1,2, , k , i  l , serem iguais. Para testar a esfericidade
utiliza-se o teste de Mauchly. As hipóteses deste teste podem ser escritas, de um modo
simplificado, como
H0 : existe esfericidade vs H1 : não existe esfericidade .
Utilizaremos o software SPSS sempre que for necessário efetuar o teste de Mauchly. A
ilustração e a interpretação deste teste são apresentadas na Secção 9.5.
60
Notas:
1. Quando falha o pressuposto de esfericidade, deve fazer-se uma correção ao
número de graus de liberdade da distribuição da estatística de teste, como por
exemplo a correção de Greenhouse-Geisser ou a de Huynh-Feldt. Utilizaremos o
software SPSS sempre que for necessário efetuar esta correção.
2. No caso em que falha o pressuposto de esfericidade, os testes de comparações
múltiplas com correções de Bonferroni ou de Sidak mantêm-se válidos.
9.4. Teste de Friedman
O teste de Friedman é um método não paramétrico para a comparação de mais de duas

populações com base em medidas repetidas. Este teste pode constituir também uma
alternativa ao teste paramétrico para comparação de mais de dois valores médios com
base em medidas repetidas (análise de variância simples para medidas repetidas) em
alguma das seguintes situações: (i) as amostras terem dimensão reduzida; (ii) as amostras
não serem provenientes de uma população com distribuição normal multivariada; (iii) as
H0 : As distribuições dos ranks das k populações são idênticas
vs
H1 : As distribuições dos ranks das k populações não são idênticas.
O teste de Friedman utiliza as ordens (ranks) das observações em vez das próprias
observações. Para efetuar o teste de Friedman atribuímos ordens às observações de cada
indivíduo separadamente. Se a hipótese nula for verdadeira é de esperar que a
distribuição das ordens seja idêntica em cada amostra.
Seja n a dimensão de cada uma das k amostras. Sob a validade de H0 , o valor esperado
para a soma das ordens em cada amostra (isto é, em cada nível do fator) é n k  1 / 2 . O
teste de Friedman determina quanto é que a soma das ordens para cada amostra, Ri ,
i  1, , k , difere do valor esperado.
k
12
nk k  1 
F Ri2  3n k  1
i 1
61
Estatística II
que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k  1

graus de liberdade.
Quando há empates na ordenação das observações de cada indivíduo atribui-se, a
cada observação empatada de um dado grupo de empates, o rank médio dessas
observações e, neste caso, deve corrigir-se a estatística de teste e utilizar
k
12
nk k  1  Ri2  3n k  1
i 1
F n gj
   jl3   jl 
j 1 l 1
1
nk k 2  1
sendo g j o número de grupos de observações empatadas para o j -ésimo indivíduo e

 jl o número de observações empatadas no l –ésimo grupo de empates do j -ésimo
indivíduo.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se F  2k 1;1 , sendo F o valor
observado da estatística de teste e 2k 1;1 o quantil de probabilidade 1   da
Exemplo 9.2
A fim de avaliar se houve diferença no aproveitamento dos alunos ao longo do ano
letivo, um professor observou as médias das classificações de dez alunos no final de
cada período
aluno 1 2 3 4 5 6 7 8 9 10
média 1º período 8 15 13 7 13 14 9 13 7 14
média 2º período 14 17 12 10 14 12 8 14 13 16
média 3º período 15 17 14 12 16 13 11 16 12 17
Que conclusão pode tirar, ao nível de significância de 5%, sobre as médias das
classificações obtidas pelos alunos no final dos três períodos?
Resolução:
Considere as variáveis aleatórias,
Xij – média da classificação no final do período i do aluno j, i  1,2, 3, j  1, ,10,
Xi – média da classificação no final do período i, i  1, 2, 3 .
Como X1 não segue uma distribuição normal (ver ilustração na Secção 9.5), vai
utilizar-se o teste de Friedman para testar as hipóteses
62

vs
Neste caso, k  3 e n  10 . Efetuando a ordenação das observações de cada aluno

obtemos a tabela de ranks
aluno 1 2 3 4 5 6 7 8 9 10
rank média 1º período 1 1 2 1 1 3 2 1 1 1
rank média 2º período 2 2.5 1 2 2 1 1 2 3 2
rank média 3º período 3 2.5 3 3 3 2 3 3 2 3
As somas dos ranks em cada período são dadas por

R1  1  1  2  1  1  3  2  1  1  1  14 ,
R2  2  2.5  1  2  2  1  1  2  3  2  18.5 ,
R3  3  2.5  3  3  3  2  3  3  2  3  27.5 .
Neste caso, só há empates na ordenação do 2º indivíduo; assim,
g1  g 3  g 4    g10  0 , g2  1 e 21  2 , pelo que o valor observado da
estatística de teste é
k
12
nk k  1
 Ri2  3n k  1
i 1
F  gj
n
   jl3   jl 
1  j 1 l 1
nk k 2  1
12
10  3  4
142  18.52  27.52   3  10  4
  9.692.
23  2
1
10  3  8
Como F  9.692  22;0.95  5.991 , rejeita-se a hipótese nula ao nível de

 
significância de 5%, sendo de admitir que há diferença significativa entre pelo menos
duas das distribuições dos ranks da média da classificação no final do período.
Testes de comparações múltiplas para o teste de Friedman
Os testes de comparações múltiplas para o teste de Friedman permitem investigar onde se

encontram as possíveis diferenças entre as distribuições dos ranks, controlando
simultaneamente o nível de significância global. O teste de Dunn-Bonferroni é um
63
Estatística II
exemplo desses testes de comparações múltiplas. Este teste permite efetuar,

simultaneamente, C 2k comparações cujas hipóteses são
H0 : As distribuições dos ranks das populações r e s são idênticas
vs
H1 : As distribuições dos ranks das populações r e s não são idênticas,
com r , s  1,2, , k  e r  s .
Utilizaremos o software SPSS sempre que for necessário efetuar este teste de comparações
múltiplas. A ilustração e a interpretação do teste de comparações múltiplas de Dunn-
Bonferroni são apresentadas na Secção 9.5.
Exemplo 9.1
Recordemos que
Xij – tempo de execução da i -ésima tarefa realizada pela j -ésima criança,
i  A, B,C , D , j  1, , 8 , em que E Xi j   i .
H0 : A  B  C  D
vs
Comecemos por verificar os pressupostos da ANOVA para medidas repetidas.
Para averiguar a suposição de normalidade efetuamos os testes de hipóteses

i  A, B,C , D , e Xi representa o tempo de execução da tarefa i.
Explore
64
Os valores observados da estatística de teste de Shapiro-Wilk são wA  0.938 ,

wB  0.958 , wC  0.912 e wD  0.922 aos quais corresponde os p-values
pA  0.592 , pB  0.791 , pC  0.368 e pD  0.446 , respetivamente. Deste modo, ao
nível de significância de 5%, podemos admitir válidas as suposições de normalidade
de cada uma das populações (todos os p-values são superiores a 0.05).
No que respeita à esfericidade, o teste de Mauchly é disponibilizado, no software
estatístico SPSS, conjuntamente com a tabela da ANOVA para medidas repetidas
General Linear Model

Within-Subjects Factors
Measure: tempo_execução
tarefa Dependent Variable

1 tempo_execução_tarefa_A
2 tempo_execução_tarefa_B
3 tempo_execução_tarefa_C
4 tempo_execução_tarefa_D
Descriptive Statistics
Mean Std. Deviation N
tempo execução tarefa A 29,00 2,204 8
tempo execução tarefa B 27,38 2,615 8
tempo execução tarefa C 30,50 1,414 8
tempo execução tarefa D 24,38 2,134 8
a
Mauchly's Test of Sphericity
b
Epsilon
Within Subjects Effect Mauchly's W df Sig. Huynh-Feldt Lower-bound

tarefa ,305 6,801 5 ,242 ,703 1,000 ,333
a.
b.
Tests of Within-Subjects Effects
Source df Mean Square F Sig.

tarefa Sphericity Assumed 165,125 3 55,042 10,240 ,000
Greenhouse-Geisser 165,125 2,108 78,342 10,240 ,001
Huynh-Feldt 165,125 3,000 55,042 10,240 ,000
Lower-bound 165,125 1,000 165,125 10,240 ,015
Error(tarefa) Sphericity Assumed 112,875 21 5,375
Greenhouse-Geisser 112,875 14,754 7,650
Huynh-Feldt 112,875 21,000 5,375
Lower-bound 112,875 7,000 16,125
65
Estatística II
As hipóteses a testar são:

H0 : existe esfericidade vs H1 : não existe esfericidade .
O valor observado para a estatística do teste de Mauchly é w  0.305 , ao qual
corresponde o p-value p  0.242 . Assim, para o nível de significância de 5%, não se
rejeita a hipótese de esfericidade (pois p  0.05 ).
Estamos agora em condições de comparar os tempos médios de execução das tarefas,
efetuando o teste de análise de variância para medidas repetidas, isto é
H0 : A  B  C  D
vs
O valor observado da estatística de teste é f  10.240 , a que corresponde o p-value
p  0.001 . Para o nível de significância de 5% rejeita-se H0 (pois p  0.05 ), sendo
portanto de admitir que o tempo médio de execução não é idêntico para todas as
tarefas. Assim, vamos efetuar o teste de comparações múltiplas com correção de
Bonferroni de modo a identificar as tarefas responsáveis pelas diferenças. Fazemos
C 24  6 comparações simultâneas, com as hipóteses
H0 : r  s vs H1 : r  s , com r , s  A, B,C , D e r  s .
Estimates
95% Confidence Interval
tarefa Mean Std. Error Lower Bound Upper Bound

1 29,000 ,779 27,157 30,843
2 27,375 ,925 25,189 29,561
3 30,500 ,500 29,318 31,682
4 24,375 ,754 22,591 26,159
66
Ao testar
H0 : A  B vs H1 : A  B ,
Ao testar
H0 : A  C vs H1 : A  C ,
Ao testar
H0 : A  D vs H1 : A  D ,
Ao testar
H0 : B  C vs H1 : B  C ,
Ao testar
H0 : B  D vs H1 : B  D ,
67
Estatística II
Ao testar
H0 : C  D vs H1 : C  D ,
Ao nível de significância de 5%, apenas se rejeita a hipótese nula C  D
( p  0.001  0.05 ), logo existe diferença significativa entre os tempos médios de
execução das tarefas C e D .
Exemplo 9.2
Recordemos que
Xij – média da classificação no final do período i do aluno j, i  1, 2, 3, j  1,  ,10.
Comecemos por verificar os pressupostos da ANOVA para medidas repetidas.
Para averiguar a suposição de normalidade efetuamos os testes de hipóteses

i  1, 2, 3 , e Xi representa a média da classificação no final do período i.
Explore
Tests of Normality
a
média classificação 1º período ,304 10 ,009 ,834 10 ,038
*
*
*.
a.
Os valores observados da estatística de teste de Shapiro-Wilk são w1  0.834 ,

w 2  0.963 e w 3  0.915 aos quais corresponde os p-values p1  0.038 , p2  0.822 e
p3  0.319 , respetivamente. Deste modo, ao nível de significância de 5%, não
podemos admitir válida a suposição de normalidade da população X1 ( p1  0.05 ).
Deste modo, vamos efetuar o teste de Friedman, cujas hipóteses a testar são
vs
68
Friedman Test
Ranks
Mean Rank
média classificação 1º período 1,40
a
Test Statistics
N 10
Chi-Square 9,692
df 2
Asymp. Sig. ,008

Exact Sig. ,005
a.
O valor observado para a estatística do teste de Friedman é f  9.692 , ao qual

corresponde o p-value p  0.005 (Exact Sig.). Assim, para   0.05 , rejeita-se a
hipótese de igualdade das distribuições dos ranks das médias das classificações nos
três períodos (pois p  0.05 ).
Um valor da estatística de teste significativo indica que existe, pelo menos, um par
de períodos cujas distribuições dos ranks diferem entre si. Para encontrar quais, é
necessário efetuar um teste de comparações múltiplas, por exemplo, o teste de
Dunn-Bonferroni, cujo output é
Ao testar
vs
p  0.943 .
69
Estatística II
Ao testar
vs
p  0.008 .
Ao testar
H0 : As distribuições dos ranks de X 2 e X 3 são idênticas
vs
H1 : As distribuições dos ranks de X 2 e X 3 não são idênticas
p  0.133 .
Ao nível de significância de 5%, conclui-se que apenas existe diferença significativa
entre as distribuições dos ranks das médias das classificações no final do 1º e 3º
períodos.
Nota:
O p-value exato para a estatística de teste do teste de Friedman é frequentemente
disponibilizado pelos softwares estatísticos. Sempre que se dispõe de valores exatos
são estes que devem ser utilizados.
70
Capítulo 10
Inferência estatística sobre proporções
10 Inferência estatística paramétrica sobre proporções
10.1. Introdução
Exemplo 10.1
Com o objetivo de estudar a incidência de determinada lesão nos praticantes de
uma modalidade de ginástica foram inquiridos 58 praticantes dessa modalidade,
dos quais 9 referiram ter tido a lesão.
A variável de interesse é ter ou não ter contraído a lesão. Esta variável é uma
variável qualitativa, mais precisamente, uma variável dicotómica pois apenas
assume dois valores distintos, sim e não. Os métodos de inferência apresentados
nos capítulos anteriores não podem ser aplicados neste tipo de variáveis.
Neste capítulo vamos abordar métodos de inferência para dados dicotómicos,

provenientes de populações em que os indivíduos estão classificados em uma de duas
categorias. Para este tipo de dados, o parâmetro de interesse é a proporção, isto é, a
frequência relativa. No Exemplo 10.1 terá interesse estimar a proporção de praticantes
da modalidade de ginástica que sofreram a lesão.
Vamos apresentar intervalos de confiança e testes de hipóteses para a proporção de uma
população binomial e para a diferença de proporções de duas populações binomiais, com
base em amostras independentes.
Estatística II
10.2. Inferência sobre a proporção
Considere-se uma população constituída por indivíduos que pertencem a uma de duas
categorias, A ou A , e represente-se por p a proporção de indivíduos que pertencem à
categoria A . Seja X1, X 2 , , Xn  uma amostra aleatória de dimensão n proveniente
dessa população tal que

1 se o indivíduo i pertence à categoria A
Xi   .

0 se o indivíduo i não pertence à categoria A

Deste modo, a variável aleatória
n
X   Xi
i 1
representa o número de indivíduos que, numa amostra de dimensão n , pertencem à

categoria A .
A variável aleatória X , assim definida, tem distribuição binomial de parâmetros n e p ,
X  B n, p  , com p desconhecido.
Um estimador para o parâmetro p é a proporção amostral
X
,
n
e uma estimativa pontual para p é pˆ  x / n que representa a frequência relativa da
característica A numa amostra de dimensão n . No Exemplo 10.1, uma estimativa
pontual para a proporção de lesionados na modalidade de ginástica é pˆ  9 / 58  0.155 .
Intervalo a 1    100% de confiança para a proporção p
Considerando como estimador, a variável aleatória X , com distribuição binomial de

parâmetros n e p , pode deduzir-se (está fora do âmbito da disciplina) o intervalo de
confiança de Clopper-Pearson para a proporção p que tem a seguinte forma
 1  1 

1  n x 1  , 1  n x  
    
 x F(2x ,2(n x 1);  /2)   x  1 F(2(x 1),2(n x );1/2)  
 
para 0  x  n , em que Fm,n ;  é o quantil de probabilidade  da distribuição F

de Fisher-Snedecor com m graus de liberdade no numerador e n graus de
 1/n 
Se x  0 , o intervalo de confiança é dado por  0, 1   / 2  e, para x  n , o
 1/n   
intervalo é  / 2 , 1  .
 
72
Atendendo ao facto da variável aleatória X ser uma soma, pelo teorema limite central,
se n for suficientemente grande, tem-se
 
aprox .
X  N np, np 1  p  ,
pelo que
X  p 1  p  
 N p,
aprox .
n n  ,
 
X
p aprox .
Z  n  N 0,1 .
p 1  p 
n
Considerando como estimador a variável aleatória Z , com distribuição aproximada

normal standard, pode deduzir-se o intervalo de confiança de Wald para a proporção p
(procedendo de forma idêntica ao efetuado nos capítulos anteriores para os outros
parâmetros populacionais), cuja expressão geral é dada por
 pˆ 1  pˆ pˆ 1  pˆ 
ˆ 
 p  z1 / 2 n
, pˆ  z1 / 2
n 
 
 
em que z1/2 é o quantil de probabilidade 1   / 2 da distribuição normal

standard.
Em termos práticos, tendo em conta a aproximação efetuada, este intervalo de
confiança só deve ser utilizado se 0.2  pˆ  0.8 , npˆ  5 e n 1  pˆ  5 .
Notas:
1. O ponto médio do intervalo de confiança de Clopper-Pearson pode não coincidir
com a estimativa pontual da proporção, contrariamente ao que acontece com o
intervalo de confiança de Wald.
2. O software SPSS disponibiliza o intervalo de confiança de Clopper-Pearson, mas
não o intervalo de confiança de Wald.
Testes de hipóteses para a proporção p
Na construção dos testes de hipóteses para a proporção procede-se de forma análoga ao

realizado para os outros parâmetros populacionais.
73
Estatística II
H 0 : p  p0 vs H1 : p  p0
ou H 0 : p  p0 vs H1 : p  p0
ou H 0 : p  p0 vs H1 : p  p0
Estatística de teste: X
que, sob a validade de H0 , tem distribuição B n, p0  .
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se p -value   , em que p -value é obtido
do seguinte modo:
Hipóteses a testar p-value

n n i
H 0 : p  p0 vs H1 : p  p0 pU  P X  x    C in p0i 1  p0 
i x
x n i
H 0 : p  p0 vs H1 : p  p0 pL  P X  x    C in p0i 1  p0 
i 0
H 0 : p  p0 vs H1 : p  p0 2  min pL , pU 
Nota:
Este teste que utiliza a distribuição binomial é vulgarmente conhecido como teste
binomial para a proporção.
Atendendo ao facto da estatística de teste ser uma soma, como vimos anteriormente,
pelo teorema limite central, se n for suficientemente grande, tem-se
X
p aprox .
Z  n  N 0,1 .
p 1  p 
n
Assim, pode utilizar-se como estatística de teste

X
 p0
Z  n
p0 1  p0 
n
que, sob a validade de H0 , tem distribuição aproximada N 0,1 .
Em termos práticos, tendo em conta a aproximação efetuada, esta estatística de
teste só deve ser utilizada se 0.2  pˆ  0.8 , npˆ  5 e n 1  pˆ  5 .
74
No que respeita à regra de decisão é a usual para os casos em que a distribuição de

amostragem da estatística de teste é a distribuição normal standard:

H0 : p  p0 vs H1 : p  p0 | z |  z1 / 2
H 0 : p  p0 vs H1 : p  p0 z  z1
H 0 : p  p0 vs H1 : p  p0 z  z1

Nota:
O software SPSS disponibiliza o teste binomial para a proporção, mas não o teste
que utiliza a aproximação à distribuição normal.
Exemplo 10.2
Numa amostra, obtida aleatoriamente, de 50 alunos da FMH, 38 afirmam gostar
de fazer férias de verão na praia.
a) Ao nível de significância   0.05 , teste se é de admitir que a percentagem de
alunos da FMH que gostam de fazer férias de verão na praia é superior a 70%.
b) Determine um intervalo a 95% de confiança para a proporção de alunos da
FMH que gostam de fazer férias de verão na praia.
Resolução:
Designemos por
X – variável aleatória que representa o número de alunos da FMH, numa
amostra de dimensão 50, que gostam de fazer férias de verão na praia
X  B 50, p  , onde p é a proporção de alunos da FMH que gostam de fazer
férias de verão na praia.
a) Pretendemos testar
H0 : p  0.7 vs H1 : p  0.7 .
Utilizando o teste binomial, o valor observado da estatística de teste é x  38 e
o respetivo p-value
50
p  pU  P X  38   C i50  0.7i  0.350i  0.223 .
i 38
75
Estatística II
O valor do somatório pode ser obtido com auxílio do software EXCEL

 
1  DIST .BINOM 37;50; 0, 7;1 . Como p  0.05 então, para o nível de
significância de 5%, não se rejeita H0 .
Para a amostra recolhida, tem-se

38
n  50 e pˆ   0.76 .
50
Como

0.2  pˆ  0.8



npˆ  50  0.76  38  5 ,


n 1  pˆ  50  (1  0.76)  12  5


podemos, alternativamente, utilizar a estatística de teste com distribuição
aproximada à distribuição normal.
Neste caso, o valor observado da estatística de teste é
pˆ  p0 0.76  0.7
z   0.926 .
p0 1  p0  0.7  0.3
n 50
Como   0.05 , tem-se z1  z 0.95  1.645 . Dado que z  0.926  1.645 , não
rejeitamos a hipótese nula ao nível de significância de 5%.
Para o nível de significância de 5%, não existe evidência de que a percentagem

de alunos que gostam de fazer férias de verão na praia seja superior a 70%.
b) O intervalo a 95% de confiança de Clopper-Pearson para a proporção p é

 1  1 

1  n x 1  , 1  n x  
    
 x F(2x ,2(n x 1); 0.025)
 
 x  1 F(2(x 1),2(n x ); 0.975)  
 
 1  1 
 50  38  1   50  38 
  1   , 1   
 
 
 38  F(238,2(5038 1);0.025)   (38  1)  F(2(38 1),2(5038);0.975)  

 
 1  1 
 13   12  
  1   , 1   
 
 
 38  F(76,26;0.025)   39  F(78,24;0.975)  

 
 1  1 

  1 
13  12   0.618, 0.869 .
 , 1     
  38  1.8041   39  2.048  
76
Utilizando a aproximação à distribuição normal, o intervalo a 95% de confiança

de Wald para a proporção p é dado por
 
 pˆ 1  pˆ pˆ 1  pˆ 
 pˆ  z 0.975 , pˆ  z 0.975 
 n n 
 
 0.76  0.24 0.76  0.24 
  0.76  1.96  , 0.76  1.96     0.642 , 0.878  .
50 50   
 
10.3. Inferência para a diferença de proporções com base em

amostras independentes
Considere-se duas populações constituídas por indivíduos que pertencem a uma de duas
categorias, A ou A , e represente-se por p1 e p2 as proporções de indivíduos que, em
cada uma das populações, pertencem à categoria A . Sejam X11, X12,  , X1n1  e
X21, X22, , X2n2  duas amostras aleatórias independentes de dimensões n1 e n2 ,
provenientes dessas populações, tais que
1 se o indivíduo i da população 1 pertence à categoria A
X1i   i  1,, n1 ,
0 se o indivíduo i da população 1 não pertence à categoria A

1 se o indivíduo i da população 2 pertence à categoria A
X 2i   i  1,, n2 .
0 se o indivíduo i da população 2 não pertence à categoria A

Deste modo, as variáveis aleatórias
n1 n2
X1   X1i e X 2   X 2i
i 1 i 1
representam o número de indivíduos que pertencem à categoria A , nas amostras de

dimensão n1 e n2 , respetivamente.
As variáveis aleatórias X1 e X 2 têm distribuição binomial, X1  B n1, p1  e
X 2  B n2, p2  , com p1 e p2 desconhecidos.
Um estimador para p1  p2 é a diferença entre proporções amostrais
X1 X 2
 ,
n1 n2
e uma estimativa pontual para p1  p2 é
77
Estatística II
x1 x 2
pˆ1  pˆ2   ,
n1 n2
que representa a diferença entre as frequências relativas da característica A em

amostras de dimensão n1 e n2 de cada uma das populações.
Pelo teorema limite central, se n1 e n2 forem suficientemente grandes, tem-se
X1 aprox .  p 1  p1   X2 aprox .

 p 1  p2  
 N p1, 1  e  N p2 , 2  .
n1  n1  n2  n2 
Deste modo, a distribuição da diferença entre proporções amostrais é dada por
X1 X 2 aprox .  p 1  p1  p2 1  p2  

  N p1  p2, 1   ,
n1 n2  n1 n2 
 X1 X 2 
    p1  p2 
 n1 n2  aprox .
Z  N 0,1 .
p1 1  p1  p2 1  p2 

n1 n2
Conhecendo a distribuição de Z , podemos usar esta variável aleatória como estimador e

deduzir o intervalo de confiança de Wald para p1  p2 .
Intervalo a 1    100% de confiança para a diferença entre proporções p1  p2
 pˆ1 1  pˆ1  pˆ2 1  pˆ2  pˆ 1  pˆ1  pˆ2 1  pˆ2  

 
 pˆ1  pˆ2   z1 2 n

n
, pˆ1  pˆ2   z1 2 1
n

n2 
 1 2 1 
em que z1/2 é o quantil de probabilidade 1   / 2 da normal standard.

Em termos práticos, tendo em conta a aproximação efetuada, este intervalo de
confiança só deve ser utilizado se 0.2  pˆj  0.8 , n j pˆj  5 e n j 1  pˆj   5 , para
j  1,2 .
Testes de hipóteses para a diferença entre proporções p1  p2
H0 : p1  p2  p0 vs H1 : p1  p2  p0
ou H0 : p1  p2  p0 vs H1 : p1  p2  p0
ou H0 : p1  p2  p0 vs H1 : p1  p2  p0
78
X X 2 
 1
 n1  n2   p0
Z 
p1 1  p1  p2 1  p2 

n1 n2
que, sob a validade de H0 , tem distribuição aproximada N 0,1 . Como p1 e p2
são desconhecidos são substituídos por p̂1 e p̂2 , respetivamente.
Em termos práticos, tendo em conta a aproximação efetuada, esta estatística de
teste só deve ser utilizada se 0.2  pˆj  0.8 , n j pˆj  5 e n j 1  pˆj   5 , para
j  1,2 .
Regra de decisão:

H0 : p1  p2  p0 vs H1 : p1  p2  p0 | z |  z1 / 2
H0 : p1  p2  p0 vs H1 : p1  p2  p0 z  z1
H0 : p1  p2  p0 vs H1 : p1  p2  p0 z  z1

Nota:
O software SPSS não disponibiliza, nem o intervalo de confiança nem o teste de
hipóteses para a diferença de proporções com aproximação à distribuição normal.
No capítulo seguinte iremos ver um teste realizável no software SPSS para
comparação de duas proporções em amostras independentes.
Exemplo 10.3
Em amostras aleatórias de 400 adultos e 600 adolescentes, de determinadas
populações, que assistiram a um debate sobre desporto na televisão, 100 adultos e
180 adolescentes afirmaram que o debate lhes agradou. O diretor da estação de
televisão defende que a proporção de audiência que gostou do debate entre os
adolescentes é diferente da proporção entre os adultos.
a) Para o nível de significância   0.1 , averigue se é admissível que o diretor da
estação televisiva faça tal afirmação.
b) Determine um intervalo a 90% de confiança para a diferença de proporções.
Resolução:
Consideremos as variáveis aleatórias
79
Estatística II
X1 – número de adultos, numa amostra de dimensão 400, que gostaram do

programa,
X 2 – número de adolescentes, numa amostra de dimensão 600, que gostaram do
programa.
As variáveis aleatórias X1 e X 2 são independentes e têm distribuição binomial
X1  B 400, p1  e X 2  B 600, p2  ,
onde
p1 – proporção de adultos que gostaram do programa,
p2 – proporção de adolescentes que gostaram do programa.
a) Pretende testar-se
H0 : p1  p2 vs H1 : p1  p2
o que é equivalente a testar
H0 : p1  p2  0 vs H1 : p1  p2  0 .
Neste caso, tem-se
100 180
n1  400, n2  600, pˆ1   0.25 e pˆ2   0.3 .
400 600
Como
0.2  pˆ  0.8
 1
0.2  pˆ  0.8
 2
n1pˆ1  400  0.25  100  5
 ,
n2 pˆ2  600  0.3  180  5

n1 1  pˆ1   400  (1  0.25)  300  5

n2 1  pˆ2   600  (1  0.3)  420  5
podemos utilizar a estatística de teste com distribuição aproximada à
distribuição normal.
pˆ1  pˆ2   p0
z 
pˆ1 1  pˆ1  pˆ2 1  pˆ2 

n1 n2
0.25  0.3  0
  1.747 .
0.25  1  0.25 0.3  1  0.3

400 600
Como   0.1 , tem-se z1 /2  z 0.95  1.645 . Dado que | z |  1.747  1.645 ,
rejeitamos a hipótese nula ao nível de significância de 10%, ou seja, é de
admitir que a proporção de audiência que gostou do programa entre os
80
adolescentes é diferente da proporção de audiência que gostou do programa

entre os adultos. É, portanto, de admitir válida a afirmação efetuada pelo
diretor da estação televisiva.
b) Como
0.2  pˆ  0.8
 1
0.2  pˆ  0.8
 2
n1pˆ1  400  0.25  100  5
 ,
n2 pˆ2  600  0.3  180  5

n1 1  pˆ1   400  (1  0.25)  300  5

n2 1  pˆ2   600  (1  0.3)  420  5
podemos utilizar o intervalo de confiança de Wald para a diferença de
proporções.
Assim, um intervalo a 90% de confiança para a diferença entre proporções
p1  p2 é dado por
 pˆ1 1pˆ1  pˆ2 1pˆ2  pˆ 1pˆ1  pˆ2 1pˆ2  
 pˆ pˆ   z  , pˆ1pˆ2   z 0.95 1  .
 1 2 0.95
n n n n2 
 
1 2 1
Como pˆ1  0.25 e pˆ2  0.3 , então
pˆ1 1  pˆ1  pˆ2 1  pˆ2  0.25  0.75 0.3  0.7

    0.029
n1 n2 400 600
e obtém-se o intervalo
 0.25  0.3  1.645  0.029 , 0.25  0.3  1.645  0.029 
 
   0.097 ,  0.003  .
 
Nota:
H0 : p1  p2  0 vs H1 : p1  p2  0
100  1   % de confiança para p1  p2 contém o ponto 0.
81
Estatística II
Exemplo 10.2
Recordemos que
X – variável aleatória que representa o número de alunos da FMH, numa
amostra de dimensão 50, que gostam de fazer férias de verão na praia
X  B 50, p  , onde p é a proporção de alunos da FMH que gostam de fazer
férias de verão na praia.
a) Pretendemos testar
H0 : p  0.7 vs H1 : p  0.7 .
O resultado do teste binomial para a proporção disponibilizado no software
estatístico SPSS é
NPar Tests
O valor observado da estatística de teste é x  38 , a que corresponde o p-value

do teste de hipóteses unilateral à direita p  0.223 (Exact Sig. (1-tailed)). Para
o nível de significância de 5% não se rejeita H0 (pois p  0.05 ), não existindo
evidência estatística que permita concluir que a percentagem de alunos da FMH
que gostam de fazer férias de verão na praia seja superior a 70%.
b) A tabela de resultados do software SPSS, a seguir apresentada, indica que a

estimativa pontual para a proporção p é pˆ  0.76 e o correspondente intervalo
a 95% de confiança de Clopper-Pearson é 0.618, 0.869 .
 
Nonparametric Tests
82
Capítulo 11
Testes do qui-quadrado
11 Testes do qui-quadrado
11.1. Introdução
Neste capítulo vamos abordar métodos de inferência para dados qualitativos com base
em tabelas de frequências observadas. Vamos estudar testes de ajustamento, testes de
independência e testes de homogeneidade em tabelas de contingência. Em qualquer dos
casos, a estatística de teste compara valores observados com valores esperados e tem
uma distribuição aproximada de qui-quadrado.
11.2. Testes de ajustamento
Num estudo estatístico é interessante e fundamental a formulação de modelos. Torna-se

também importante questionar se esses modelos são adequados. Para esse efeito, existe
um tipo particular de testes de hipóteses – os testes de ajustamento.
Exemplo 11.1
Suponha que conhecemos o modelo para a distribuição dos grupos sanguíneos de
uma determinada população
Estatística II
Grupo sanguíneo A B AB O
Percentagem 41% 9% 4% 46%
Com o objetivo de verificar se este modelo é admissível quando consideramos a

subpopulação feminina, recolheu-se aleatoriamente uma amostra de dimensão 200,
para a qual se observou
Grupo sanguíneo A B AB O
Nº de observações 80 20 9 91
Seja pi a proporção de indivíduos do sexo feminino que pertencem ao grupo

sanguíneo i , i A, B, AB,O .
A hipótese que pretendemos testar é a de que a distribuição conhecida para a
população se mantém válida para a subpopulação feminina, isto é,
H0 : pA  0.41, pB  0.09, pAB  0.04, pO  0.46
vs
H1 : pA  0.41 ou pB  0.09 ou pAB  0.04 ou pO  0.46.
Para tomar uma decisão sobre a hipótese nula precisamos de uma estatística de
teste. Neste exemplo, sob a validade de H0 , esperamos que o número de indivíduos
do sexo feminino em cada grupo sanguíneo seja
eA  200  0.41  82 ,
eB  200  0.09  18 ,
eAB  200  0.04  8 ,
eO  200  0.46  92 .
Temos assim a possibilidade de comparar os valores observados, oi , com os valores
esperados, ei , i  A, B, AB,O .
Seja n a dimensão da amostra e k o número de classes. Se os dados forem qualitativos

(como no exemplo), as classes correspondem às diferentes categorias. Se os dados forem
quantitativos discretos, as classes serão os diferentes valores que a variável pode
assumir. Finalmente, se os dados forem quantitativos contínuos, terão que ser agrupados
em classes.
Para quantificar os desvios entre os valores observados na amostra e os valores que seria
esperado observar caso H0 fosse verdadeira, é necessário encontrar uma estatística de
teste que quantifique o erro global. Como
k
 oi  ei   0 ,
i 1
84
esta soma não tem interesse como medida do erro global. Para ultrapassar o problema
consideramos o quadrado dos erros, mais precisamente, utilizamos a soma dos erros
quadráticos relativizados
2
k
oi  ei 
 ei
.
i 1
Cada oi é um valor observado de uma variável aleatória Oi com distribuição binomial

de parâmetros n e pi , Oi  B n, pi  . Se H0 for verdadeira tem-se
ei  E Oi   n  pi , i  1, , k .
Admitindo que é possível aproximar a distribuição binomial à distribuição de Poisson,
tem-se
aprox .
Oi  P ei  .
Admitindo ainda que estamos em condições de aproximar a distribuição de Poisson à

normal
aprox .
Oi  ei aprox .

Oi  N ei , ei , isto é, ei
 N 0,1 .
Vimos no Capítulo 3 (unidade curricular Estatística I) que o quadrado de uma variável

aleatória com distribuição normal standard tem distribuição qui-quadrado com 1 grau
de liberdade, pelo que
2
Oi  ei  aprox .
 12 ,
ei
donde
2
k
Oi  ei  aprox .
X  2
 k21 .
i 1
ei
Se H0 for verdadeira, os valores observados e os valores esperados não devem exibir

grandes diferenças, isto é, os valores de X 2 não se afastem muito de zero.
Para um nível de significância  , o ponto crítico é 2k 1;1 e a região de rejeição é
dada por
 
R   2k 1;1 ,    .
 
85
Estatística II
Testes de ajustamento
H0 : A população possui uma determinada distribuição de probabilidade
vs
H1 : A população não possui a distribuição de probabilidade indicada em H0
2
k
Oi  ei 
X 
2
i 1
ei
que, sob a validade de H0 , tem distribuição aproximada qui-quadrado com k1
graus de liberdade, onde k é o número de classes.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se X 2  2k 1;1 , sendo X 2 o valor
observado da estatística de teste e 2k 1;1 o quantil de probabilidade 1   da

Recorde que se pretende testar se a distribuição dos grupos sanguíneos da
população se mantém válida para a subpopulação feminina. Para obter o valor
observado da estatística de teste é necessário calcular as respetivas parcelas
Grupo sanguíneo A B AB O Total

oi 80 20 9 91 200
ei 82 18 8 92 200
2
oi  ei  80822 20182 982 91922
0.407
ei 82 18 8 92
O valor observado para a estatística de teste é

2
4
oi  ei 
X 2
 0.407 .
i 1
ei
Ao nível de significância   0.05 , o quantil de probabilidade 0.95 da distribuição

qui-quadrado com 3 graus de liberdade é (32
; 0.95)  7.815 .
Como X 2  0.407  7.815 , não se rejeita H0 , o que significa que o modelo para a
distribuição dos grupos sanguíneos é também admissível na subpopulação feminina.
86
Nota:
A distribuição da estatística de teste é uma distribuição aproximada, por esta
razão devemos estar atentos às condições que permitem usar esta aproximação.
Uma regra prática para a utilização desta aproximação consiste na verificação
simultânea das seguintes condições:
• menos de 20% das classes terem ei inferior a 5;
• no máximo uma classe ter ei inferior a 1.
Nota:
Existem muitos testes de ajustamento para além do teste de ajustamento do
qui-quadrado. Alguns desses testes são específicos para a avaliação do ajustamento
a uma determinada distribuição, como é o caso do teste de Shapiro-Wilk (já
referido na disciplina de Estatística I) que permite testar o ajustamento à
distribuição normal e que por isso é classificado como sendo um teste de
normalidade. O teste de Kolmogorov-Smirnov (também referido na disciplina de
Estatística I) pode ser usado quer para testar a normalidade quer para testar o
ajustamento a outras distribuições. No software SPSS é possível utilizar o teste de
Kolmogorov-Smirnov para avaliar o ajustamento às distribuições normal, uniforme,
exponencial e Poisson.
11.3. Testes de independência em tabelas de contingência
Os testes de independência em tabelas de contingência permitem investigar se duas

variáveis qualitativas estão ou não associadas – por exemplo, o género (feminino,
masculino) e a prática desportiva (pratica desporto, não pratica desporto).
Consideremos que se obteve aleatoriamente uma amostra de n indivíduos, que são
classificados segundo duas variáveis qualitativas, X e Y .
H0 : X e Y são independentes vs H1 : X e Y não são independentes ,
H0 : X e Y não estão associadas vs H1 : X e Y estão associadas .
Designemos por Ai i  1, , r  as categorias da variável X e por B j  j  1, , s  as
categorias da variável Y . Consideremos ainda que oij é o número de indivíduos da
87
Estatística II
amostra que estão simultaneamente em Ai e B j , isto é, para os quais se observou Ai na

variável X e B j na variável Y . Podemos apresentar as frequências observadas numa
tabela que designamos por tabela de contingência r  s
Variável Y
Variável X B1 B2  Bs Total
A1 o11 o12  o1s o1
A2 o21 o22  o2s o2
     
Ar or 1 or 2  ors or 
Total o1 o2  os n
A partir da tabela é possível escrever

s
oi    oij é o número de indivíduos da amostra que estão em Ai ,
j 1
r
o j   oij é o número de indivíduos da amostra que estão em B j ,
i 1
r s s r
  oij   o j   oi   n é a dimensão da amostra.
i 1 j 1 j 1 i 1
Designando por
pij – a probabilidade (conjunta) de um indivíduo, escolhido ao acaso, ser
classificado na categoria Ai de X e B j de Y ,
pi  – a probabilidade (marginal) de um indivíduo, escolhido ao acaso, ser

classificado na categoria Ai da variável X ;
p j – a probabilidade (marginal) de um indivíduo, escolhido ao acaso, ser

classificado na categoria B j da variável Y ,
tem-se que
oij
pîj  é uma estimativa de pij ,
n
o
pî   i  é uma estimativa de pi  ,
n
o
pˆ j   j é uma estimativa de p j .
n
As hipóteses a testar podem ser formalmente apresentadas como

H0 : pij  pi •  p j i  1, , r , j  1, , s
vs
H1 : pij  pi •  p j para algum par (i, j ).
88
Cada oij é um valor observado de uma variável aleatória Oij  B n, pij  . Então
eij  E Oij   n  pij
é o número esperado de indivíduos na categoria Ai de X e B j de Y .
Se H0 for verdadeira, tem-se

oi • o j o  o j
eij  n  pij  n  pi •  p j  n    i• .
n n n
Com uma dedução análoga à que foi descrita para o teste de ajustamento, a estatística
de teste é
2
r s
Oij  eij 
X  
2
i 1 j 1
eij
e, sob a validade da hipótese nula, tem-se

2
r s
Oij  eij  aprox .
X  
2
 2r 1s 1 .
i 1 j 1
eij
A regra de decisão, ao nível de significância  , consiste em rejeitar H0 se

X 2  2r 1s 1;1 ,
o que equivale a dizer que a região de rejeição, ao nível de significância  , é
R   2r 1s 1;1 ,    .

 
Nota:
A distribuição da estatística de teste é uma distribuição aproximada, por esta
razão devemos estar atentos às condições que permitem usar esta aproximação.
Uma regra prática para a utilização desta aproximação consiste na verificação
simultânea das seguintes condições:
• menos de 20% dos eij inferiores a 5;
• no máximo um eij inferior a 1.
Exemplo 11.2
Efetuou-se um inquérito a 1000 alunos do ensino superior, de ambos os géneros,
perguntando qual a modalidade desportiva preferida em três alternativas possíveis.
Os resultados obtidos são apresentados no quadro seguinte
89
Estatística II
Futebol Basquetebol Andebol Total

Feminino 150 50 150 350
Masculino 350 200 100 650
Total 500 250 250 1000
Pretendemos averiguar, considerando o nível de significância de 5%, se a

modalidade desportiva preferida é independente do género.
Resolução:
Consideremos as variáveis aleatórias
X – género (2 categorias);
Y – modalidade desportiva preferida (3 categorias).
As hipóteses a testar são
H0 : X e Y são independentes vs H1 : X e Y não são independentes .
A estatística de teste é dada por
2
2 3
Oij  eij 
X2   
i 1 j 1
eij
e, sob a validade de H0 , tem-se

aprox . aprox .
X 2  22131, isto é, X 2  22 .
Para calcular o valor observado da estatística de teste vamos construir uma tabela
com as frequências observadas (nas células a branco) e as frequências esperadas
(nas células sombreadas)
Modalidade →
Futebol Basquetebol Andebol Total
↓ Género
Feminino 150 175 50 87.5 150 87.5 350
Masculino 350 325 200 162.5 100 162.5 650
Total 500 250 250 1000

2 2 2
150  175 50  87.5 150  87.5
X2   
175 87.5 87.5
2 2 2
350  325 200  162.5 100  162.5
    98.901.
325 162.5 162.5
Consultando a tabela da distribuição qui-quadrado, 22 ; 0.95  5.991 .

 
90
Como X 2  98.901  22 ; 0.95  5.991 , rejeitamos H0 para   0.05 . Podemos

 
então concluir que a preferência por uma modalidade desportiva não é
independente do género.
11.4. Testes de homogeneidade em tabelas de contingência
Nos testes de independência, o processo de amostragem origina uma tabela com dupla
classificação em que ambas as margens são aleatórias (“livres”). Contudo, por vezes,
tem mais interesse escolher um certo número de indivíduos em cada uma das categorias
da variável X (ou Y ) e observar quantos desses indivíduos pertencem a cada uma das
categorias da outra variável. Neste caso, os totais de uma das variáveis estão fixos e as
probabilidades de interesse são condicionais em vez de conjuntas. O que nos interessa é
avaliar se a distribuição de Y é homogénea nas diferentes categorias da variável X e,
portanto, não fazemos um teste de independência, mas sim um teste de homogeneidade.
Num teste de homogeneidade em tabelas de contingência r  s  , testa-se as hipóteses

H0 : A distribuição de Y é homogénea nas diferentes categorias de X
vs
H1 : A distribuição de Y não é homogénea nas diferentes categorias de X .
Mais formalmente,
H0 : p j |1  p j |2    p j |r j  1, , s
vs
H1 : p j |i  p j |k para algum j e algum par (i, k ) com i  k ,
onde r é o número de categorias da variável X (margem fixa), s o número de

categorias da variável Y (margem livre) e p j |i é a probabilidade condicional, isto é, a
probabilidade de ser classificado em B j sabendo que é do nível Ai .
Cada oij é um valor observado de uma variável aleatória Oij  B oi •, p j |i  . Então
eij  E Oij   oi •  p j |i
é o número esperado de indivíduos na categoria Ai de X e B j de Y simultaneamente.
o
Uma estimativa de p j |i é ij . Por uma regra das proporções tem-se, sob a validade de
oi •
H0 ,
oij o• j

oi • n
91
Estatística II
e, deste modo,
oi •  o• j
eij  oi •  p j |i  .
n

2
r s
Oij  eij 
X  
2
i 1 j 1
eij

2
r s
Oij  eij  aprox .
X2     2r 1s 1 .
i 1 j 1
eij
A regra de decisão, ao nível de significância  , consiste em rejeitar H0 se

X 2  2r 1s 1;1 ,
o que equivale a dizer que a região de rejeição, ao nível de significância  , é
R   2r 1s 1;1 ,    .

 
Nota:
A distribuição da estatística de teste é uma distribuição aproximada. As condições
que permitem usar esta aproximação são as mesmas que as apresentadas para os
testes de independência em tabelas de contingência.
Exemplo 11.3
Dois grupos de nadadores foram sujeitos a dois métodos de treino: um grupo
realizou o método A (com crocodilo bebé na piscina) e o outro grupo o método B
(sem crocodilo bebé na piscina), tendo-se obtido os seguintes resultados
Sucesso Insucesso
Método A 14 17
Método B 11 18
As percentagens de sucesso dos dois métodos de treino diferem significativamente?

Considere   0.05 .
92
Resolução:
Os grupos em estudo são dois, o grupo de nadadores que foram sujeitos ao método
de treino A e o grupo de nadadores que foram sujeitos ao método de treino B.
Consideremos
X – identificação do método de treino (2 categorias);
Y – resultado do método de treino (2 categorias).
H0 : A distribuição de Y é homogénea nas duas categorias de X
vs .
H1 : A distribuição de Y não é homogénea nas duas categorias de X .

2
2 2
Oij  eij 
X  
2
i 1 j 1
eij

aprox . aprox .
X 2  22121, isto é, X 2  12 .
Para calcular o valor observado da estatística de teste são apresentadas numa

tabela as frequências observadas (nas células a branco) e as frequências esperadas
(nas células sombreadas)
Sucesso Insucesso Total

Método A 14 12.917 17 18.083 31
Método B 11 12.083 18 16.917 29
Total 25 35 60

14  12.9172 11  12.0832 17  18.0832 18  16.9172
X2      0.322
12.917 12.083 18.083 16.917
e, consultando a tabela da distribuição qui-quadrado, 21; 0.95  3.841 .

 
Como X 2  0.322  21; 0.95  3.841 , não rejeitamos H0 para   0.05 . Podemos
 
admitir que as percentagens de sucesso não diferem significativamente, isto é, os
métodos de treino são homogéneos em relação à percentagem de sucessos.
Nota:
O teste de homogeneidade do qui-quadrado pode ser utilizado na comparação de
duas proporções em populações independentes. Este teste é, portanto, uma
alternativa ao teste que usa a aproximação à distribuição normal, apresentado no
93
Estatística II
capítulo anterior. Deste modo, quando pretendemos utilizar o software SPSS na

comparação de proporções em duas populações independentes, podemos efetuar o
teste de homogeneidade do qui-quadrado (ver a ilustração do Exemplo 10.3
apresentada na Secção 11.5).
Exemplo 11.1
Recordemos que se pretende testar as hipóteses
H0 : pA  0.41,
pB  0.09, pAB  0.04, pO  0.46
vs
H1 : pA  0.41 ou pB  0.09 ou pAB  0.04 ou pO  0.46.
Utilizando o software estatístico SPSS, obtemos os outputs
NPar Tests
Chi-Square Test
Frequencies
grupo sanguineo
Observed N Expected N Residual

A 80 82,0 -2,0
B 20 18,0 2,0
AB 9 8,0 1,0
O 91 92,0 -1,0
Total 200
Test Statistics
grupo sanguineo
a
Chi-Square ,407
df 3
Asymp. Sig. ,939

Exact Sig. ,939
a.
O valor observado da estatística de teste é X 2  0.407 , ao qual corresponde o

p-value p  0.939 (Exact Sig.).
94
Deste modo, ao nível de significância de 5%, não rejeitamos a hipótese nula (pois
p  0.05 ), o que significa que o modelo para a distribuição dos grupos sanguíneos
é também admissível na subpopulação feminina.
Exemplo 11.2
Recordemos que
X – género (2 categorias);
Y – modalidade desportiva preferida (3 categorias).
H0 : X e Y são independentes vs H1 : X e Y não são independentes .
Crosstabs
género * modalidade desportiva preferida Crosstabulation
modalidade desportiva preferida

futebol basquetebol andebol Total
género feminino Count 150 50 150 350
Expected Count 175,0 87,5 87,5 350,0

masculino Count 350 200 100 650
Expected Count 325,0 162,5 162,5 650,0

Total Count 500 250 250 1000
Expected Count 500,0 250,0 250,0 1000,0
Chi-Square Tests
Value df
a
Pearson Chi-Square 98,901 2 ,000 ,000
Likelihood Ratio 97,322 2 ,000 ,000
Fisher's Exact Test 96,950 ,000
b
Linear-by-Linear Association 48,902 1 ,000 ,000 ,000 ,000
N of Valid Cases 1000
a.
b.

p-value p  0.001 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 5%, rejeitamos a hipótese nula (pois
p  0.05 ). Podemos então concluir que a preferência pela modalidade desportiva
não é independente do género.
Exemplo 11.3
Recordemos que
95
Estatística II
X – identificação do método de treino (2 categorias);

Y – resultado do método de treino (2 categorias).
vs .
Crosstabs
método de treino * resultado Crosstabulation
resultado
sucesso insucesso Total
método de treino A Count 14 17 31
Expected Count 12,9 18,1 31,0

B Count 11 18 29

Total Count 25 35 60
Chi-Square Tests
Value df
a
Pearson Chi-Square ,322 1 ,570 ,609 ,380
b
Continuity Correction ,093 1 ,760
Likelihood Ratio ,323 1 ,570 ,609 ,380
Fisher's Exact Test ,609 ,380
c
Linear-by-Linear Association ,317 1 ,573 ,609 ,380 ,177
N of Valid Cases 60
a.
b.
c.

p-value p  0.609 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 5%, não rejeitamos a hipótese nula (pois
p  0.05 ). Podemos admitir que as percentagens de sucesso não diferem
significativamente, isto é, não rejeitamos a hipótese dos métodos de treino serem
homogéneos em relação à percentagem de sucesso.
Exemplo 11.4
Recordemos que no Exemplo 10.3 (do capítulo anterior) se pretendia testar se a
proporção de audiência que gostou do debate entre os adolescentes é diferente da
proporção entre os adultos.
Designando por
96
p1 – proporção de adultos que gostaram do debate,

p2 – proporção de adolescentes que gostaram do debate,
pretendemos testar
H0 : p1  p2 vs H1 : p1  p2 .
Estas hipóteses podem ser avaliadas através do teste de homogeneidade do

qui-quadrado, considerando
X – identificação do grupo (2 categorias),
Y – opinião sobre o debate (2 categorias),
e testando
vs .
Crosstabs
classe etária * Gostou do debate? Crosstabulation
Gostou do debate?
sim não Total
classe etária adolescente Count 180 420 600

adulto Count 100 300 400

Total Count 280 720 1000
Expected Count 280,0 720,0 1000,0
Chi-Square Tests
Value df
a
Pearson Chi-Square 2,976 1 ,084 ,098 ,049
b
Continuity Correction 2,733 1 ,098
Likelihood Ratio 3,001 1 ,083 ,085 ,049
Fisher's Exact Test ,098 ,049
c
Linear-by-Linear Association 2,973 1 ,085 ,098 ,049 ,013
N of Valid Cases 1000
a.
b.
c.

p-value p  0.098 (Exact Sig. (2-sided)).
Deste modo, ao nível de significância de 10%, rejeitamos a hipótese nula (pois
p  0.10 ) e podemos concluir que a proporção de audiência que gostou do debate
entre os adolescentes é diferente da proporção entre os adultos.
97
Estatística II
Nota:
Os softwares estatísticos fornecem-nos o p-value exato e o p-value aproximado deste
teste. Sempre que se dispõe de valores exatos são estes que devem ser utilizados.
98
Capítulo 12
Regressão linear
12 Regressão linear
12.1. Introdução
O peso é uma variável importante da composição corporal, dado que valores muito altos
ou muito baixos condicionam a saúde e o bem-estar. Suponha que se pretende
desenvolver um modelo para descrever o peso. Como é sabido, o peso depende, em
parte, da altura do indivíduo. Deste modo, a modelação do peso pode ser feita em
função da altura e, neste caso, o fenómeno em estudo envolve duas variáveis: Y – peso
e X – altura. Note-se que, mesmo conhecendo a altura, o peso varia devido a outros
fatores, isto é, a altura não é o único fator que explica a variabilidade do peso.
O peso e a altura são variáveis que estão relacionadas, tal como também o estão o peso
e a pressão arterial ou o esforço a que um indivíduo é sujeito e o consumo de oxigénio.
Os exemplos de variáveis que estão relacionadas entre si não se resumem a
características físicas ou fisiológicas, podemos encontrá-los nos mais variados domínios.
Basta pensar em situações do quotidiano, a classificação obtida num exame e o tempo
despendido com o estudo, o tempo obtido numa prova desportiva e o tempo de treino
realizado, ou o preço de um carro usado e a sua quilometragem.
Uma vez que admitimos que o valor de X é conhecido e que o valor de Y depende, em
parte, do valor de X considerado, as variáveis Y e X são denominadas,
respetivamente, variável dependente (ou resposta) e variável independente (ou
explicativa, ou preditora). Dada uma variável resposta Y e uma variável explicativa X ,
designa-se por regressão simples o procedimento que tem como objetivo desenvolver um
modelo explicativo que relacione as variáveis Y e X .
Estatística II
12.2. Regressão linear simples
Exemplo 12.1
Com o objetivo de descrever o peso em função da altura, foi recolhida
aleatoriamente uma amostra de 26 jovens atletas do sexo feminino, tendo-se
registado, para cada uma, o valor da altura (m) e do respetivo peso (kg).
jovem altura peso

1 1.62 66.4
2 1.64 62.5
3 1.59 53.8
4 1.62 50.5
5 1.61 54.3
6 1.61 57.4
7 1.82 79.6
8 1.81 68.4
9 1.79 75.1
10 1.92 76.5
11 1.61 49.4
12 1.87 72.7
13 1.88 82.0
14 1.84 80.0
15 1.80 66.0
16 1.87 79.8
17 1.67 60.6
18 1.89 81.2
19 1.70 61.2
20 1.71 74.2
21 1.53 48.0
22 1.68 62.4
23 1.64 68.9
24 1.59 53.1
25 1.51 45.4
26 1.52 44.4
Os dados de que dispomos constituem uma coleção de 26 pares ordenados (x i , yi ) ,

em que x i e yi são, respetivamente, um valor observado da variável independente
e uma realização da variável aleatória resposta.
A primeira abordagem para a análise deste conjunto de dados deve ser gráfica e
consiste na elaboração do diagrama de dispersão onde se representa o peso versus a
altura.
100
Regressão linear
90
80
peso (kg)
70
60
50
40
1.5 1.6 1.7 1.8 1.9 2.0
altura (m)
Se a regressão linear for um procedimento estatístico adequado para relacionar as

variáveis, então os dados deverão revelar uma tendência linear (positiva ou
negativa). Esta representação gráfica é também útil pois permite identificar
possíveis outliers. O diagrama sugere que os pontos se distribuem de forma
aproximadamente linear (isto é, em torno de uma reta). Como y representa o peso
e x representa a altura, podemos admitir que a relação entre y e x é linear, isto
é, pode traduzir-se através da equação de uma reta y  b0  b1x .
Se selecionarmos duas jovens da mesma altura, o peso quase certamente não é o
mesmo. Isto acontece porque as jovens podem ser diferentes noutras características
como, por exemplo, a idade ou os valores das pregas adiposas, ou por mero efeito
aleatório. Para que o modelo de regressão linear tenha em conta essas diferenças
devemos incorporar-lhe um termo ei ,
yi  b0  b1x i  ei , i  1, ,26 ,
em que ei é o erro de ajustamento (ou resíduo) associado ao i -ésimo indivíduo.
Há vários métodos para ajustar uma reta a um conjunto de pontos. Um bom método é,
como vimos no Capítulo 4 (unidade curricular Estatística I) o método dos mínimos
quadrados. Representando por yî o valor estimado para yi ,
yî  b0  b1x i , i  1, , n ,
verificando-se que
yi  yî  ei , i  1, , n .
Assim, para cada ponto no gráfico, o resíduo pode ser definido como a distância vertical
entre a observação e a reta ajustada,
ei  yi  yî , i  1, , n .
101
Estatística II
90
80
peso (kg)
70
60
50
40
1.5 1.6 1.7 1.8 1.9 2.0
altura (m)
Uma medida da qualidade do ajustamento global é dada pela soma dos quadrados dos
resíduos,  ei2 , que é habitualmente representada por SS E . A reta de mínimos
quadrados ajustada é a que produz um valor mínimo para SS E . Assim, minimizando
n n n
 ei2   yi  yî    yi  b0  b1x i  ,
2 2
i 1 i 1 i 1
obtém-se, como vimos no Capítulo 4 (unidade curricular Estatística I), as estimativas

dos coeficientes de regressão,
n
 xi  x yi  y 
i 1
b1  n e b0  y  b1x .
 xi  x 
2
i 1
O coeficiente b0 corresponde à ordenada na origem (ou constante) da reta de regressão

estimada, isto é, ao valor estimado da variável dependente y , quando a variável
independente x é igual a zero. O coeficiente b1 corresponde ao declive da reta de
regressão estimada, isto é, à variação estimada para y , quando x varia uma unidade.
Nota:
Formas equivalentes de obter o coeficiente b1 são dadas por
n n n
n  x iyi   x i  yi
cov  x, y  s
b1  i 1 i 1 i 1
ou b1  r y ,
n   n 2
sx2 sx
n  x i 2    x i 
i 1
 i 1 
como vimos no Capítulo 4 (unidade curricular Estatística I).
Com o objetivo de quantificar a qualidade do ajustamento da reta de regressão, é usual

considerar uma medida baseada na decomposição da variabilidade global. O gráfico
102
Regressão linear
yi
yi  yî (erro não explicado)
yi  y yî
(erro total)
yî  y (erro explicado devido à regressão)
y
ilustra a igualdade
yi  y   yi  yî   yî  y , i  1, , n .
Como
2 2 2
yi  y   yi  yî   yî  y   2 yi  yî   yî  y  , i  1,  , n
e a soma dos produtos cruzados é nula, podemos desdobrar a soma de quadrados da
seguinte forma
n n n
 yi  y    yi  yî    yî  y  .
2 2 2
i 1 i 1 i 1
A parcela do lado esquerdo representa a soma de quadrados total ( SST ), a primeira

parcela do lado direito, a soma de quadrados devida ao erro ( SS E ) e a outra parcela
representa a soma de quadrados devida à regressão ( SS R ). A expressão anterior pode
então ser escrita como
SST  SS E  SS R .
Designa-se por coeficiente de determinação, e representa-se por r 2 , o valor dado por
n
 yî  y 
2
i 1 SS R
r2  n  .
SST
 yi  y 
2
i 1
O valor de r2 corresponde à proporção da variação de y que é explicada pela

variabilidade de x . Assim, é usual utilizar o coeficiente de determinação como medida
da qualidade do ajustamento da reta de regressão.
Prova-se que o coeficiente de determinação é igual ao quadrado do coeficiente de
correlação linear de Pearson entre y e ŷ (o que é equivalente à correlação linear de
Pearson entre x e y ). O valor de r 2 varia entre 0 e 1 e, quanto mais próximo de 1 for o
valor de r 2 maior é o poder explicativo da reta de regressão linear.

As estimativas dos coeficientes de regressão são
103
Estatística II
n
 xi  x yi  y 
i 1
b1  n
 86.249
2
 xi  x 
i 1
e b0  y  b1x  82.710 ,
pelo que podemos escrever a equação da reta de regressão estimada como
yˆ  82.710  86.249 x .
Podemos representar a reta de regressão linear estimada sobreposta aos pontos no
diagrama de dispersão
90
80
peso (kg)
70
60
50
40
1.5 1.6 1.7 1.8 1.9 2.0
altura (m)
O declive, b1  86.249 , indica que à variação de 1 m na altura corresponde a

variação de 86.249 kg na estimativa do peso. Atendendo à unidade de medida das
variáveis faz mais sentido dizer que à variação de 10 cm na altura corresponde a
variação de 8.6249 kg na estimativa do peso.
A ordenada na origem, b0  82.710 , não tem neste caso interesse, pois indicaria
o peso estimado para uma jovem com 0 m de altura, o que é certamente absurdo!
O coeficiente de determinação,
n 2
SS R  yî  y 
i 1
r2   n
 0.828 ,
SST 2
 yi  y 
i 1
indica que cerca de 83% da variação do peso é explicada pela variação da altura.
Com valores desta ordem de grandeza para r 2 , o modelo pode ser utilizado para
obter estimativas do peso de outras jovens. Assim, se pretendermos estimar o peso
de uma jovem que tem 1.60 m de altura, esse valor será dado por

yˆ1.60  82.710  86.249 1.60  55.3 kg . 
104
Regressão linear
Nota:
Uma das utilizações do modelo de regressão linear simples consiste em prever o
valor de y para um dado valor x . Convém salientar que só devemos usar o
modelo de regressão para efetuar previsão se
(i) o valor do coeficiente de determinação for elevado (na literatura várias
sugestões são apresentadas, sendo mais ou menos consensual que se deve
considerar coeficientes de determinação com valores superiores a 0.7);
(ii) o valor relativamente ao qual pretendemos fazer previsão pertencer ao
intervalo dos valores de x que serviram de base para a determinação da reta.
12.2.1. Modelo
Designa-se por modelo de regressão linear simples a equação

Yi  0  1Xi  i , i  1, , n ,
em que
Xi é a variável independente,
Yi é a variável dependente,
0 e 1 são os coeficientes de regressão,
i é o erro aleatório,
e onde se assume que cada i , i  1,, n , é uma variável aleatória com distribuição
normal, de valor médio E(i )  0 e variância var(i )  2 , i  1,, n , e que as
variáveis aleatórias 1, 2,, n são independentes.
12.2.2. Inferência estatística sobre os coeficientes de

regressão
As estimativas, ̂0 e ̂1 , obtidas pelo método dos mínimos quadrados são concretizações
de variáveis aleatórias que variam de amostra para amostra. Por isso, para além de
estimativas pontuais é importante obter também estimativas intervalares para os
parâmetros 0 e 1 . Por outro lado, se 1  0 então a reta de regressão resume-se a
Y  0   e, neste caso, o conhecimento de X em nada altera a informação sobre Y
(não existe relação entre X e Y ). Deste modo, é pertinente averiguar se existe uma
relação linear efetiva entre as variáveis. Para tal, deve efetuar-se o teste de hipóteses
H0 : 1  0 vs H1 : 1  0 .
Sob a validade das suposições do modelo de regressão linear podemos efetuar testes de
hipóteses sobre 1 e também sobre 0 e, além disso, obter estimativas intervalares para
os coeficientes de regressão.
105
Estatística II
Inferência paramétrica para o declive
Um estimador para 1 é
n
 Xi  X Yi Y 
ˆ1  b1  i 1
n 2
 Xi  X 
i 1
sendo a sua variância dada por

2
 
var ˆ1  n 2
.
 Xi  X 
i 1
Se  for desconhecido é substituído pelo estimador

n 2
 Yi Yî 
i 1
S 
n 2
e, nestas condições, a variável aleatória
ˆ1  1
T 
1
S n 2
 Xi  X 
i 1
tem uma distribuição t de Student com n  2 graus de liberdade e pode ser usada para
fazer inferência sobre o declive.
Intervalo a 1    100% de confiança para o declive 1
 
 
 1 1 
 ˆ1  tn 2;1 / 2 s  n , ˆ1  tn 2;1 / 2 s  n 
 2 
 xi  x    i  
2
 x  x
 i 1 i 1 
em que tn 2;1 / 2 é o quantil de probabilidade 1   / 2 da distribuição t de
Testes de hipóteses para o declive 1
H0 : 1  10 vs H1 : 1  10
106
Regressão linear
ˆ1  10
T 
1
S n 2
 Xi  X 
i 1

liberdade.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se | t |  t(n 2;1 / 2) , sendo t o valor
observado da estatística de teste e t(n 2;1 / 2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  2 graus de liberdade.
Nota:
Em particular, considerando 10  0 , o teste de hipóteses
H0 : 1  0 vs H1 : 1  0 ,
permite verificar se o modelo de regressão linear simples é significativo.

H0 : 1  0 vs H1 : 1  0 ,
utilizamos a estatística de teste,
ˆ1
T  .
1
S n 2
 Xi  X 
i 1
Como
ˆ1  86.249 ,
n 2
 yi  yî  1
i 1
s   5.114 , logo s   8.031 ,
n 2 n 2
 xi  x 
i 1
86.249
então um valor observado da estatística de teste é t   10.739 .
8.031
Considerando   0.05, temos tn 2;1/2  t24;0.975  2.064 .
107
Estatística II
Como | t |  10.739  2.064 , rejeitamos a hipótese nula ao nível de significância de

5%, ou seja é de admitir que o parâmetro 1 é significativamente diferente de zero,
isto é, a variável X é significativa para o modelo.
Um intervalo a 1    100% de confiança para 1 é dado por

 
 
 1 1 
 ˆ1  tn 2;1 / 2 s  n , ˆ1  tn 2;1 / 2 s  n .
 2 
 xi  x   xi  x  
2

 i 1 i 1 
Como
1
ˆ1  86.249 , t24;0.975  2.064 e s  n
 8.031 ,
2
 xi  x 
i 1
então um intervalo a 95% de confiança para 1 é

 86.249  2.064  8.031 , 86.249  2.064  8.031  ,
 
donde obtemos o intervalo  69.673 , 102.825  .
 
Inferência paramétrica para a ordenada na origem
Um estimador para 0 é
ˆ0  b0  Y  b1X
sendo a sua variância dada por
n
2  Xi2
 
var ˆ0  n
i 1
2
.
n  Xi  X 
i 1
Se  for desconhecido é substituído pelo estimador S  e, nestas condições, a variável

aleatória
ˆ0  0
T 
n
 Xi2
i 1
S n 2
n  X i  X 
i 1
tem uma distribuição t de Student com n  2 graus de liberdade. Assim, pode

utilizar-se a variável aleatória T para fazer inferência sobre a ordenada na origem.
108
Regressão linear
Intervalo a 1    100% de confiança para a ordenada na origem 0
 n n 

  i x 2
 i x 2 

 ˆ0  t s i  1
, ˆ t
 s i  1 
 n 2;1  / 2  n 0 n 2;1  / 2  n
2 
n  x i  x  n  x i  x  
2

 
 i  1 i 1 
em que tn 2;1/2 é o quantil de probabilidade 1   / 2 da distribuição t de
Testes de hipóteses para a ordenada na origem 0
H0 : 0  00 vs H1 : 0  00
ˆ0  00
T 
n
 Xi2
i 1
S n 2
n  Xi  X 
i 1

liberdade.
Regra de decisão:
Rejeitar H0 , ao nível de significância  , se | t |  t(n 2;1/2) , sendo t o valor
observado da estatística de teste e t(n 2;1/2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  2 graus de liberdade.
Nota:
O teste de hipóteses
H 0 : 0  0 vs H1 : 0  0
permite verificar se a constante é significativa para o modelo. No entanto, mesmo
que a constante seja não significativa, a validade do modelo não é posta em causa.

H 0 : 0  0 vs H1 : 0  0 ,
utilizamos a estatística de teste
109
Estatística II
ˆ0
T  .
n
 Xi2
i 1
S n 2
n  X i  X 
i 1
Como
ˆ0  82.710 ,
n
 xi2
i 1
s   5.114 , logo s  n
 13.733 ,
2
n  x i  x 
i 1
82.710
então um valor observado da estatística de teste é t   6.023 .
13.733
Considerando   0.05, logo t24;0.975  2.064 .
Como | t |  6.023  2.064 , rejeitamos a hipótese nula ao nível de significância de

5%, ou seja é de admitir que o parâmetro 0 é significativamente diferente de zero.
Um intervalo a 1    100% de confiança para 0 é dado por

 n n 

  xi2  xi2 

 ˆ0  t i 1
, ˆ0  tn 2;1 / 2 s  i 1 .
 n 2;1 / 2 s  n n
2 
n  x i  x  n  x i  x  
2

 
 i 1 i 1 
Como
n
 xi2
ˆ0  82.710 , t24;0.975  2.064 e s  n
i 1
 13.733 ,
2
n  x i  x 
i 1
então um intervalo a 95% de confiança para 0 é

  82.710  2.064  13.733 ,  82.710  2.064  13.733  ,
 
donde obtemos o intervalo   111.054 ,  54.367  .
 
110
Regressão linear
12.2.3. Validação de pressupostos
A inferência sobre a reta de regressão é válida se as suposições sobre os erros aleatórios

do modelo se verificarem. É então necessário verificar que cada i é uma variável
aleatória com distribuição normal, de valor médio E(i )  0 e variância var(i )  2 ,
i  1,, n , e que as variáveis aleatórias 1, 2,, n são independentes. Uma das
técnicas de validação destes pressupostos é a análise de resíduos.
A primeira suposição corresponde à hipótese de normalidade dos erros aleatórios. Esta

hipótese pode ser testada averiguando se os resíduos ei , i  1, , n , são provenientes de
uma população com distribuição normal. Para isso, podemos utilizar um dos testes de
normalidade: teste de Kolmogorov-Smirnov ou teste de Shapiro-Wilk.
A segunda suposição corresponde à hipótese de variância constante (ou

homocedasticidade) para os erros aleatórios. A análise gráfica é a forma mais simples de
verificar esta hipótese. Um procedimento gráfico consiste em efetuar um diagrama de
dispersão dos resíduos ei versus os valores preditos (ou estimados) yî , i  1, , n . Se o
modelo for adequado, os resíduos distribuem-se aleatoriamente em torno da respetiva
média (de valor zero), ao longo dos valores preditos.
Nota:
No caso em que as hipóteses estabelecidas sobre os i , i  1, , n , não se verificam
é questionável
(i) a validade dos testes realizados e do coeficiente de determinação,
(ii) as estimativas obtidas para os coeficientes e para os intervalos de confiança,
(iii) a precisão das previsões.
12.3. Regressão linear múltipla
12.3.1. Modelo
O modelo de regressão linear múltipla corresponde à generalização do modelo de

regressão linear simples. Designa-se por modelo de regressão linear múltipla a equação
Yi  0  1X1i  2X 2i    k Xki  i , i  1, , n ,
em que
111
Estatística II
X1i , X 2i , , Xki são as variáveis independentes,

Yi é a variável dependente,
0 , 1, , k são os coeficientes de regressão,
i é o erro aleatório,
e onde se assume que cada i , i  1,, n , é uma variável aleatória com distribuição
normal, de valor médio E(i )  0 e variância var(i )  2 , i  1,, n e que as
variáveis aleatórias 1, 2,, n são independentes. As variáveis explicativas
X1, X 2 , , Xk devem ser linearmente independentes.
Exemplo 12.2
Com o objetivo de explicar a massa gorda (%), em função da idade (anos), da
altura (m) e das pregas adiposas (mm) dos membros superior e inferior, foi
aleatoriamente recolhida uma amostra de 26 jovens atletas do sexo feminino,
tendo-se registado, para cada uma, os valores das cinco variáveis.
jovem idade altura prega MS prega MI massa gorda

1 16 1.62 30.5 23.0 28.9
2 17 1.64 22.5 20.5 22.4
3 14 1.59 21.2 22.0 25.5
4 13 1.62 15.5 16.0 23.0
5 14 1.61 15.5 15.5 19.5
6 14 1.61 20.0 28.0 27.2
7 15 1.82 24.7 21.5 26.6
8 15 1.81 18.5 18.8 23.8
9 16 1.79 17.0 16.3 20.6
10 17 1.92 20.5 23.3 27.8
11 15 1.61 10.8 9.8 13.8
12 18 1.87 17.5 14.8 21.3
13 16 1.88 24.5 36.5 28.2
14 17 1.84 18.2 15.5 22.5
15 16 1.80 18.8 14.8 21.4
16 15 1.87 20.5 30.0 23.3
17 17 1.67 19.2 17.5 19.5
18 17 1.89 19.5 15.8 19.0
19 17 1.70 12.3 16.5 14.5
20 14 1.71 26.0 30.5 28.6
21 16 1.53 17.5 24.5 23.5
22 16 1.68 18.5 33.8 25.5
23 14 1.64 20.5 34.5 33.8
24 15 1.59 14.5 13.0 16.6
25 14 1.51 15.5 15.5 23.6
26 14 1.52 10.0 7.2 8.8
A primeira abordagem para a análise deste conjunto de dados deve ser gráfica e
consiste na representação da matriz de diagramas de dispersão que combina os
vários pares de variáveis
112
Regressão linear
massa gorda (%)

idade (anos)
altura (m)
membro superior
prega adiposa
(mm)
membro inferior
prega adiposa
(mm)
massa gorda (%) idade (anos) altura (m) prega adiposa prega adiposa
membro superior membro inferior
(mm) (mm)
Estes diagramas permitem visualizar a relação entre cada par de variáveis. Cada
célula da matriz apresenta o diagrama de dispersão de uma das cinco variáveis
versus uma das outras. De notar que os gráficos abaixo da diagonal são o espelho
dos que estão acima da diagonal. Por exemplo, o gráfico que se encontra na linha 3
e na coluna 2 representa a altura versus a idade, na linha 2 e coluna 3 encontra-se
o gráfico onde se representa a idade versus a altura.
A observação dos diagramas sugere que existe uma relação linear razoável entre a
massa gorda e as pregas adiposas dos membros superior e inferior, sendo fraca a
relação linear da massa gorda com a altura e praticamente inexistente com a idade.
Podemos ainda verificar que a relação linear entre cada par de variáveis
explicativas não é forte.
Além desta análise gráfica, é também importante determinar as correlações entre a
variável dependente e cada uma das variáveis independentes. Na tabela seguinte,
reporta-se os valores do coeficiente de correlação linear de Pearson entre cada par
de variáveis
massa gorda idade altura prega MS

idade −0.120
altura 0.215 0.550
prega MS 0.788 0.117 0.317
prega MI 0.809 −0.080 0.197 0.643
113
Estatística II
Os valores do coeficiente de correlação linear de Pearson indicam a existência de

correlações lineares (positivas) elevadas (|r |  0.7 ) entre a massa gorda e as pregas
adiposas dos membros superior e inferior e correlações fracas (|r |  0.3 ) entre a
massa gorda e as outras duas variáveis, sendo a correlação entre a massa gorda e a
idade bastante fraca. Dado o valor desta correlação, optámos por não incluir a
variável idade no modelo de regressão para explicar a massa gorda.
Se pretendêssemos ajustar um modelo de regressão linear simples para a massa

gorda, considerando como variáveis candidatas a preditor as variáveis
apresentadas, a escolha deveria recair na variável prega adiposa do membro
inferior, uma vez que é a que apresenta uma correlação linear mais elevada com a
variável resposta.
Se Y representar a massa gorda e X a prega adiposa do membro inferior, o

modelo de regressão linear simples ajustado é yˆ  11.021  0.566 x , sendo o
coeficiente de determinação do modelo dado por r 2  0.654 (ver ilustração com
SPSS, na Secção 12.4). Atendendo a que apenas 65.4% da variabilidade da massa
gorda é explicada pelo modelo, caso pretendêssemos obter um modelo para estimar
(predizer) a massa gorda, deveríamos avaliar se adicionando mais variáveis
explicativas ao modelo conseguiríamos um acréscimo nesta percentagem.
Vejamos o que acontece se considerarmos ajustar um modelo de regressão linear

múltipla com os três preditores que apresentam correlações mais elevadas com a
massa gorda. Se Y representar a massa gorda, X1 a altura, X 2 a prega adiposa do
membro superior e X 3 a prega adiposa do membro inferior, o modelo de regressão
linear múltipla que explica a percentagem de massa gorda, em função da altura e
das pregas adiposas dos membros superior e inferior é dado por
Yi  0  1X1i  2X 2i  3X 3i  i , i  1, ,26 .
Tal como acontece no modelo de regressão linear simples, também neste caso, os
verdadeiros valores dos coeficientes de regressão, 0 , 1 , 2 e 3 , não são conhecidos. O
procedimento a adotar consiste em obter estimadores b0 , b1 , b2 e b3 , com base na
informação amostral disponível, por exemplo, pelo método dos mínimos quadrados.
Uma medida da qualidade do ajustamento continua a ser dada pelo coeficiente de
determinação. Tal como definido no modelo de regressão linear simples,
n 2
 yî  y  SS R
i 1
r2  n
 ,
2 SST
 yi  y 
i 1
114
Regressão linear
sendo agora yî dado por

yî  b0  b1x 1i    bk x ki , i  1, , n .
No modelo de regressão linear múltipla, o coeficiente de determinação corresponde à
proporção da variação de y que é explicada pela variabilidade de x1,  , x k . Também
aqui, o coeficiente de determinação corresponde ao quadrado do coeficiente de correlação
linear de Pearson entre y e ŷ , tomando valores entre 0 e 1.
Nota:
Tal como na regressão linear simples, uma das utilizações do modelo de regressão
linear múltipla consiste em prever o valor de y para um dado conjunto de valores
x1,  , x k . Convém salientar, contudo, que só devemos usar o modelo de regressão
para efetuar previsão se
(i) o valor do coeficiente de determinação for elevado;
(ii) os valores para os quais se pretende fazer previsão pertencerem aos intervalos
de valores originais.
12.3.2. Inferência estatística sobre os coeficientes de

regressão
À semelhança do que é feito no modelo de regressão linear simples, para além de

estimativas pontuais é importante obter estimativas intervalares e efetuar testes de
hipóteses sobre os coeficientes de regressão.
Avaliação global do modelo
No modelo de regressão linear múltipla, é necessário averiguar se o modelo é

globalmente significativo antes de realizar a inferência sobre cada um dos coeficientes.
Para tal, efetua-se o teste de aderência global do modelo, cujas hipóteses a testar são
H0 : 1  2    k  0 vs H1 :  j  0 para algum j  1, , k  .
A relação estabelecida anteriormente, para o modelo de regressão simples,
SST  SS E  SS R ,
mantém-se válida, sendo agora yî dado por
yî  b0  b1x 1i    bk x ki , i  1, , n .
Assim, a estatística
MS R SS R / k
F 
MS E SS E / n  k  1
115
Estatística II
tem, sob a validade de H0 , distribuição F de Fisher-Snedecor com k graus de

liberdade no numerador e n  k  1 graus de liberdade no denominador.
A regra de decisão consiste em rejeitar H0 , ao nível de significância  , se
f  Fk ,n k 1;1 , sendo f o valor observado da estatística de teste e Fk ,n k 1;1 o
quantil de probabilidade 1   da distribuição F de Fisher-Snedecor com k graus de
liberdade no numerador e n  k  1 graus de liberdade no denominador.
Notas:
1. Este teste não indica se todas as variáveis são significativas, apenas permite
verificar se o modelo de regressão linear múltipla é globalmente significativo.
2. No modelo de regressão linear simples, a avaliação global do modelo consiste em
efetuar o teste que tem como hipóteses
H0 : 1  0 vs H1 : 1  0 .
Estas hipóteses coincidem com as hipóteses do teste efetuado para avaliar se o
declive é significativo. Os valores observados para cada uma das estatísticas de
teste são distintos, pois um teste utiliza a estatística T e o outro utiliza a
estatística F , mas os p-values obtidos são, necessariamente, os mesmos.
Avaliação individual dos coeficientes
À semelhança do que acontece no modelo de regressão linear simples, em que se faz

inferência paramétrica para o declive e para a ordenada na origem, também no modelo
de regressão linear múltipla tem interesse efetuar testes individuais sobre cada um dos
coeficientes de regressão. Assim, deve efetuar-se k  1 testes, cujas hipóteses a testar são
H 0 : 0  0 vs H1 : 0  0 ,
H0 : 1  0 vs H1 : 1  0 ,

H0 : k  0 vs H1 : k  0 .
A construção de um intervalo de confiança para cada um dos k  1 parâmetros é
também um procedimento a realizar.
Dado o estimador ˆj , do parâmetro  j , e a sua variância, var ˆj  , a variável aleatória
ˆj
Tj  , j  0, , k ,
 
var ˆj
tem, sob a validade de H0 , uma distribuição t de Student com n  k  1 graus de

liberdade, pelo que se pode utilizar esta variável aleatória para fazer inferência sobre  j .
116
Regressão linear
Testes de hipóteses para os coeficientes de regressão
H(j)
0
: j  0 vs H(j)
1
: j  0 j  0, , k
ˆj
Tj  , j  0, , k
 
var ˆj
que, sob a validade de H0 , tem distribuição t de Student com n  k  1 graus de

liberdade.
Regra de decisão:
Rejeitar H(j)
0
, ao nível de significância  , se | t j |  t(n k 1;1 /2) , sendo t j o valor
observado da estatística de teste e t(n k 1;1/2) o quantil de probabilidade 1   / 2
da distribuição t de Student com n  k  1 graus de liberdade.
Notas:
1. No caso da regressão linear múltipla, o teste t permite verificar se cada
coeficiente de regressão é individualmente significativo, mas tendo em conta a
presença das outras variáveis explicativas. O intervalo de confiança para cada
coeficiente tem também em conta a presença das outras variáveis explicativas.
2. O teste de hipóteses
H 0 : 0  0 vs H1 : 0  0
permite verificar se a constante é significativa para o modelo. No entanto,
mesmo que a constante seja não significativa, a validade do modelo não é posta
em causa.
12.3.3. Validação de pressupostos
A inferência sobre o modelo de regressão é válida se as suposições sobre os erros

aleatórios do modelo se verificarem. É então necessário verificar que cada i é uma
variável aleatória com distribuição normal, de valor médio E(i )  0 e variância
var(i )  2 , i  1,, n , e que as variáveis aleatórias 1, 2,, n são independentes.
Mais uma vez, vamos utilizar a análise de resíduos para validar as hipóteses relativas
aos erros aleatórios.
A hipótese de normalidade dos erros aleatórios pode ser testada averiguando se os

resíduos ei , i  1, , n , são provenientes de uma população com distribuição normal.
117
Estatística II
Para isso, podemos utilizar um dos testes de normalidade: teste de Kolmogorov-Smirnov

ou teste de Shapiro-Wilk.
A hipótese de homocedasticidade – variância dos erros aleatórios constante – é avaliada

informalmente com um diagrama de dispersão dos resíduos ei versus os valores preditos
yî , i  1, , n . Se o modelo for adequado, os resíduos distribuem-se aleatoriamente em
torno da respetiva média (de valor zero), ao longo dos valores preditos.
As variáveis explicativas X1, X 2 , , Xk devem ser linearmente independentes, isto é,
deve ser verificada a hipótese de não colinearidade das variáveis explicativas. A
colinearidade pode surgir quando se verifica forte correlação entre duas variáveis
explicativas ou combinações lineares de dois conjuntos distintos de variáveis
explicativas. Uma abordagem simples, ainda que muito incompleta, consiste em calcular
o coeficiente de correlação linear de Pearson entre cada par de variáveis explicativas
Xi , X j  , i, j  1,, k e i  j , e verificar a sua magnitude. Na literatura várias
sugestões são apresentadas, sendo mais ou menos consensual que se deve evitar
coeficientes de correlação com valor absoluto superior a 0.7.
No modelo de regressão linear múltipla convém ainda verificar a adequabilidade da

forma do modelo. Um procedimento gráfico consiste em efetuar k diagramas de
dispersão dos resíduos ei versus os valores de cada uma das variáveis explicativas x i ,
i  1, , n . Se o modelo linear for adequado, os resíduos distribuem-se aleatoriamente
em torno da respetiva média (de valor zero), ao longo dos valores de cada uma das
variáveis explicativas.
De notar que, no modelo de regressão linear simples não validámos esta hipótese, uma
vez que nesse caso, o diagrama de dispersão dos resíduos ei versus os valores da variável
explicativa x i , i  1, , n , coincide com o diagrama de dispersão dos resíduos ei versus
os valores preditos yî , i  1, , n .
12.3.4. Métodos stepwise para seleção de variáveis
No Exemplo 12.2 considerámos como variáveis explicativas a altura e as pregas adiposas

do membro superior e inferior, mas será que todas estas variáveis contribuem para a
explicação da massa gorda, ou será que alguma delas é redundante?
Um problema importante com interesse prático é o de escolher, entre as variáveis
explicativas, um subconjunto com o maior poder explicativo possível, merecedor de
constar no modelo de regressão linear. Assim, quando se pretende encontrar um modelo
deve considerar-se uma lista admissível de variáveis candidatas a variáveis explicativas.
A partir dessa lista é escolhido um subconjunto, constituído pelas variáveis que serão
“as mais” explicativas para a variável resposta. O procedimento parece lógico, no
118
Regressão linear
entanto, não é elementar. Como vamos decidir quais as variáveis “mais” explicativas?
No caso em que o número de variáveis candidatas a variáveis explicativas é reduzido, é
possível obter todos os modelos de regressão e escolher o “melhor”.

As variáveis explicativas consideradas são X1 – a altura, X 2 – a prega adiposa do
membro superior e X 3 – a prega adiposa do membro inferior. Com três candidatas
a variáveis explicativas, podem construir-se oito modelos de regressão linear
Yi  0  1X1i  2X 2i  3X 3i  i ,
Yi  0  1X1i  2X 2i  i ,
Yi  0  1X1i  3X 3i  i ,
Yi  0  2X 2i  3X 3i  i ,
Yi  0  1X1i  i ,
Yi  0  2X 2i  i ,
Yi  0  3X 3i  i ,
Yi  0  i ,
i  1, , n .
Enunciámos todos os modelos lineares que é possível construir com três variáveis
explicativas. Por qual optar? Qual destes modelos “melhor” explica a massa gorda?
Uma medida do poder explicativo de um modelo de regressão linear é dada pelo

coeficiente de determinação. Na comparação de diferentes modelos para uma variável
dependente, uma possibilidade para selecionar o “melhor” modelo, poderia ser calcular o
valor de r 2 para cada um dos modelos considerados e optar por aquele que tem valor
mais elevado. No entanto, o modelo com maior valor de r 2 é o que inclui todas as
variáveis explicativas. Um modelo deve ser parcimonioso, isto é, deve procurar o
equilíbrio entre o poder explicativo que tem e o número de variáveis que inclui.
Assim, o valor de r 2 deve ser ajustado tendo em conta o número total de variáveis
presentes no modelo. Essa medida designa-se por coeficiente de determinação ajustado,
2
representa-se por rajust , e obtém-se como
n 1
2
rajust  1  1  r 2  .
n k 1
Na comparação de modelos com um número diferente de variáveis explicativas deve
2
usar-se o coeficiente rajust e não o coeficiente r 2 .
119
Estatística II
No Exemplo 12.2 considerámos apenas três variáveis explicativas candidatas a entrar no

modelo e verificámos que o número de possíveis modelos é oito, se o número de variáveis
candidatas for cinco então o número de possíveis modelos passa a ser 32, e se o número
de variáveis candidatas for 20? Tendo em conta que o número de possíveis modelos é
dado por 2k , será 1048576, o que torna impraticável enunciar e calcular o coeficiente de
determinação ajustado para cada um desses modelos.
O problema é contornado recorrendo a métodos que efetuam a seleção das variáveis
explicativas de forma criteriosa. Alguns desses métodos designam-se por stepwise. Há
vários tipos de métodos stepwise, os mais comuns são: stepwise forward, stepwise
backward e stepwise forward-with-a-backward-look. O método stepwise forward começa
por escolher a variável explicativa mais correlacionada com a variável resposta. Depois,
em cada passo, escolhe de entre as variáveis explicativas ainda não consideradas, aquela
que produz o maior acréscimo na explicação da variável resposta, tendo em conta as que
já estão no modelo. O método stepwise backward efetua o procedimento ao contrário,
coloca no modelo todas as variáveis explicativas e, em cada passo, remove a menos
significativa. O método stepwise forward-with-a-backward-look seleciona, em cada passo,
a “melhor” variável a introduzir no modelo de regressão e verifica se, com a introdução
dessa variável, alguma das anteriormente incluídas no modelo deve ser removida.
Exemplo 12.1
Recordemos que
Y representa o peso e X representa a altura.
Admite-se que a relação entre Y e X é linear, isto é
Yi  0  1Xi  i , i  1, ,26 .
Ajustando o modelo de regressão linear simples, disponível no SPSS, obtém-se
Regression
a
Variables Entered/Removed
Model Method
b .
1 altura (m) Enter
a.
b.
120
Regressão linear
Model Summary b
Model R R Square
a
1 ,910 ,828 ,821 5,1139
a.
b.
a
ANOVA
Model df Mean Square F Sig.

1 b
Regression 3016,053 1 3016,053 115,327 ,000
Residual 627,653 24 26,152
Total 3643,706 25
a.
b.
a
Coefficients
Unstandardized Coefficients 95,0% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound

1 (Constant) -82,710 13,733 -6,023 ,000 -111,054 -54,367
altura (m) 86,249 8,031 ,910 10,739 ,000 69,673 102,825
a.
Analisando os outputs verifica-se que o coeficiente de correlação entre y e ŷ é

r  0.910 e que o coeficiente de determinação é r 2  0.828 (tabela Model Summary).
A reta ajustada (tabela Coefficients) tem equação dada por
yˆ  82.710  86.249 x ,
sendo a ordenada na origem b0  82.710 e o declive b1  86.249 . Intervalos a
95% de confiança para 0 e 1 são dados, respetivamente, por
  111.054 ,  54.367  e  69.673 , 102.825  .
   
As hipóteses
H 0 : 0  0 vs H1 : 0  0 (1),
H0 : 1  0 vs H1 : 1  0 (2),
testam, individualmente, cada um dos coeficientes. A estatística de teste para as
hipóteses (1) tem como valor observado t  6.023 , a que corresponde o p-value
p  0.001 . A estatística de teste correspondente às hipóteses apresentadas em (2)
tem como valor observado t  10.739 , ao qual corresponde um p-value p  0.001
(tabela Coefficients). Os valores dos p-values (ambos inferiores a 0.05) levam à
rejeição de cada uma das hipóteses nulas ao nível de significância de 5%, o que
permite inferir que os parâmetros 0 e 1 são significativamente diferentes de zero.
Vejamos se o modelo verifica as suposições.
121
Estatística II
Normalidade
H0 : Os erros aleatórios têm distribuição normal

vs
H1 : Os erros aleatórios não têm distribuição normal .
Utilizando o teste de Shapiro-Wilk disponível no software SPSS
Explore
Tests of Normality
a
*
Standardized Residual ,094 26 ,200 ,939 26 ,127
*.
a.
O valor observado da estatística de teste é w  0.939 , a que corresponde o p-value

p  0.127 . Como p  0.05 , não se rejeita a hipótese nula, ao nível de
significância de 5%, admitindo-se assim a normalidade dos erros aleatórios.
Homocedasticidade
Para avaliar a homocedasticidade dos erros aleatórios representa-se o diagrama de
dispersão dos resíduos versus os valores preditos
2
Standardized Residual
-1
-2
40 50 60 70 80 90
Unstandardized Predicted Value
Os resíduos apresentam um padrão constante ao longo dos valores preditos, o que

sugere que a variância dos erros aleatórios deverá ser constante.
Exemplo 12.2
Recordemos que
Y representa a massa gorda e X representa a prega adiposa do membro
inferior.
Considera-se o modelo de regressão linear simples para Y , em que X é a
variável explicativa, isto é
Yi  0  1Xi  i , i  1, ,26 .
122
Regressão linear
Ajustando o modelo no software SPSS, obtém-se
Regression
a
Model Variables Entered Variables Removed Method

b .
1 prega adiposa membro inferior (mm) Enter
a.
b.
Model Summary
Model R R Square
a
1 ,809 ,654 ,639 3,2365
a.
a
ANOVA

1 b
Regression 474,758 1 474,758 45,322 ,000
Residual 251,404 24 10,475
Total 726,162 25
a.
b.
a
Coefficients
Unstandardized Coefficients
Model B Std. Error Beta t Sig.

1 (Constant) 11,021 1,842 5,983 ,000
prega adiposa membro inferior (mm) ,566 ,084 ,809 6,732 ,000
a.
Analisando os outputs verifica-se que o coeficiente de correlação entre y e ŷ é

r  0.809 , o coeficiente de determinação é r 2  0.654 e o coeficiente de
2
determinação ajustado é rajust  0.639 (tabela Model Summary). Verifica-se que cerca
de 65% da variabilidade total da massa gorda é explicada pela variabilidade dos
valores da prega adiposa do membro inferior.
O modelo ajustado (tabela Coefficients) tem equação dada por
yˆ  11.021  0.566 x .
Numa tentativa de aumentar a percentagem de variabilidade da massa gorda
explicada pelo modelo de regressão vamos experimentar incluir mais dois
preditores no modelo (a prega adiposa do membro superior e a altura).
Designemos por
Y a massa gorda,
X1 a altura,
X 2 a prega adiposa do membro superior,
X 3 a prega adiposa do membro inferior,
123
Estatística II
e admite-se o modelo de regressão linear múltipla

Yi  0  1X1i  2X 2i  3X 3i  i , i  1, ,26 .
Ajustando o modelo de regressão linear, disponível no software SPSS, obtém-se
Regression
a

1
.
Enter
b
a.
b.
Model Summary
Model R R Square
a
1 ,882 ,778 ,748 2,7078
a.
a
ANOVA

1 b
Regression 564,852 3 188,284 25,679 ,000
Residual 161,310 22 7,332
Total 726,162 25
a.
b.
a
Coefficients

1 (Constant) 7,416 7,273 1,020 ,319 -7,667 22,499
altura (m) -1,473 4,485 -,035 -,329 ,746 -10,774 7,827
,550 ,159 ,469 3,459 ,002 ,220 ,880
,359 ,092 ,514 3,917 ,001 ,169 ,550
a.
Analisando o output verifica-se que o coeficiente de correlação entre y e ŷ é

r  0.882 , o coeficiente de determinação é r 2  0.778 e o coeficiente de
2
determinação ajustado é rajust  0.748 (tabela Model Summary). Verifica-se que cerca
de 78% da variabilidade total da massa gorda é explicada pela variabilidade das
variáveis explicativas, logo o ajustamento é razoável. Relativamente ao modelo de
regressão linear simples ajustado houve um acréscimo de 13% na percentagem de
variabilidade da massa gorda explicada pelo modelo de regressão.
O modelo ajustado (tabela Coefficients) tem equação dada por
yˆ  7.416  1.473 x1  0.550 x 2  0.359 x 3 .
124
Regressão linear
Intervalos a 95% de confiança para 0 , 1 , 2 , 3 são dados, respetivamente, por

  7.667 , 22.499  ,   10.774 , 7.827  ,  0.220 , 0.880  e  0.169 , 0.550  .
       
De notar que, por exemplo, que o intervalo a 95% de confiança para 2 é
 0.220 , 0.880  , tendo em conta a presença das variáveis explicativas X e X no
  1 3
modelo. Caso as variáveis presentes no modelo sejam outras, o intervalo de
confiança será distinto. O mesmo acontece para os intervalos de confiança dos
outros coeficientes.
Vamos, em seguida, proceder à avaliação global do modelo, isto é, vamos efetuar o
teste que tem como hipóteses
H0 : 1  2  3  0 vs H1 : 1  0 ou 2  0 ou 3  0 .
O valor observado da estatística de teste é f  25.679 , a que corresponde um
p-value p  0.001 (tabela ANOVA). Assim, rejeita-se a hipótese nula (pois
p  0.05 ), ao nível de significância de 5%. Podemos concluir que pelo menos um
dos coeficientes do modelo é diferente de zero, isto é, pelo menos uma das variáveis
explicativas presentes no modelo tem poder explicativo.
As hipóteses
H 0 : 0  0 vs H1 : 0  0 (1),
H0 : 1  0 vs H1 : 1  0 (2),
H0 : 2  0 vs H1 : 2  0 (3),
H 0 : 3  0 vs H1 : 3  0 (4),
testam, individualmente, cada um dos coeficientes de regressão, tendo em conta a
presença das outras variáveis explicativas. As hipóteses (1) testam se a constante é
significativa para o modelo. O valor observado da estatística de teste é t  1.020 ,
a que corresponde um p-value p  0.319 (tabela Coefficients), pelo que não se
rejeita a hipótese 0  0 ao nível de significância de 5% (pois p  0.05 ). Como,
mesmo quando a constante não é significativa, a validade do modelo não é posta
em causa, opta-se numa situação destas por mantê-la no modelo de regressão. A
estatística de teste para as hipóteses (2) tem como valor observado t  0.329 , a
que corresponde um p-value p  0.746 (tabela Coefficients), pelo que não se rejeita
a hipótese 1  0 ao nível de significância de 5% (pois p  0.05 ). Dado que os
restantes p-values são inferiores a 0.05, conclui-se que, estando no modelo as
variáveis explicativas prega adiposa do membro superior e prega adiposa do
membro inferior, a variável altura não tem efeito significativo sobre a massa gorda.
Deste modo, o modelo de regressão linear múltipla que inclui estas três variáveis
explicativas não parece ser o mais conveniente. Vai então eliminar-se a variável
125
Estatística II
explicativa altura (visto não ser significativa para o modelo) e ajustar um novo
modelo de regressão linear múltipla
Regression
a

.
1 Enter
b
a.
b.
Model Summary
Model R R Square
a
1 .881 .777 .757 2.6548
a.
a
ANOVA

1 Regression 564.060 2 282.030 40.016 .000 b
Residual 162.101 23 7.048

Total 726.162 25
a.
b.
a
Coefficients
Unstandardized Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 5.148 2.237 2.301 .031
.537 .151 .458 3.560 .002
.360 .090 .514 3.999 .001
a.
O modelo que inclui as variáveis explicativas prega adiposa do membro inferior e

prega adiposa do membro superior apresenta r 2  0.777 (inferior ao r 2 do modelo
inicial, uma vez que tem menos variáveis e, portanto, é “menos” explicativo) e
2 2
rajust  0.757 (superior ao rajust do modelo inicial, uma vez que é “mais”
parcimonioso) (tabela Model Summary).
Para avaliar globalmente o modelo, testa-se as hipóteses
H0 : 2  3  0 vs H1 : 2  0 ou 3  0 .
126
Regressão linear
O valor observado da estatística de teste é f  40.016 , a que corresponde um

p-value p  0.001 (tabela ANOVA), sugerindo que o modelo ajustado é significativo,
isto é, pelo menos uma das variáveis explicativas do modelo, prega adiposa do
membro inferior ou prega adiposa do membro superior, dá um contributo
significativo para a explicação da massa gorda.
Para avaliar individualmente os coeficientes de regressão, as hipóteses são
H 0 : 0  0 vs H1 : 0  0 (1),
H0 : 2  0 vs H1 : 2  0 (2),
H 0 : 3  0 vs H1 : 3  0 (3).
Aos valores observados das estatísticas de teste correspondem p-values p  0.05
(tabela Coefficients). Assim, rejeita-se cada uma das hipóteses 0  0 , 2  0 e
3  0 , ao nível de significância de 5%, o que permite inferir que esses parâmetros
são significativamente diferentes de zero.
Deste modo, o modelo estimado tem equação dada por
yˆ  5.148  0.537x 2  0.360x 3 .
O mesmo modelo poderia ser obtido com a utilização do método stepwise para
seleção de variáveis (stepwise forward-with-a-backward-look)
Regression
a

1 .
2 .
a.
c
Model Summary
Model R R Square
a
1 ,809 ,654 ,639 3,2365
2 b
,881 ,777 ,757 2,6548
a.
b.
c.
127
Estatística II
a
ANOVA

1 b
Regression 474,758 1 474,758 45,322 ,000
Residual 251,404 24 10,475
Total 726,162 25
c
2 Regression 564,060 2 282,030 40,016 ,000
Residual 162,101 23 7,048
Total 726,162 25
a.
b.
c.
a
Coefficients

1 (Constant) 11,021 1,842 5,983 ,000 7,219 14,822
,566 ,084 ,809 6,732 ,000 ,392 ,739
2 (Constant) 5,148 2,237 2,301 ,031 ,520 9,776
,360 ,090 ,514 3,999 ,001 ,174 ,546
,537 ,151 ,458 3,560 ,002 ,225 ,849
a.
Pelo método stepwise para seleção de variáveis foram estimados dois modelos:
(i) o modelo 1, que inclui apenas a variável prega adiposa do membro inferior
como variável explicativa (das três variáveis em questão é a que melhor
explica a variável resposta);
(ii) o modelo 2, que inclui as variáveis explicativas prega adiposa do membro
inferior e prega adiposa do membro superior (das duas variáveis não incluídas
no modelo 1, a prega adiposa do membro superior é a que conjuntamente com
prega adiposa do membro inferior melhor explica a variável resposta).
O procedimento stepwise termina, pois a inclusão da outra variável não melhora o
modelo. O modelo final (modelo 2) não inclui a variável altura, estando presentes
apenas as variáveis prega adiposa do membro inferior e prega adiposa do membro
superior. Este modelo corresponde ao modelo já estudado atrás.
Para terminar, devemos validar as suposições associadas ao modelo final

encontrado.
128
Regressão linear
Normalidade
H0 : Os erros aleatórios têm distribuição normal

vs
H1 : Os erros aleatórios não têm distribuição normal .
Utilizando o teste de Shapiro-Wilk disponível no software SPSS
Explore
Tests of Normality
a
*
Standardized Residual ,075 26 ,200 ,975 26 ,752
*.
a.
O valor observado da estatística de teste é w  0.975 , a que corresponde o p-value

p  0.752 . Como p  0.05 , não se rejeita a hipótese nula, ao nível de significância
de 5%, admitindo-se assim a normalidade dos erros aleatórios.
Homocedasticidade
Para avaliar a homocedasticidade dos erros aleatórios representa-se o diagrama de
dispersão dos resíduos versus os valores preditos
2
-1
-2
10 15 20 25 30 35
Unstandardized Predicted Value
O diagrama parece ilustrar que os pontos se distribuem aleatoriamente em torno

de zero, ao longo dos valores preditos, não existindo valores dos resíduos muito
discordantes. Isto sugere que os erros aleatórios são homocedásticos.
Não colinearidade
Para avaliar a hipótese de não colinearidade das variáveis explicativas calcula-se
129
Estatística II
Correlations
Correlations
Pearson Correlation 1 .643 **
Sig. (2-tailed) .000

N 26 26
**
Pearson Correlation .643 1
Sig. (2-tailed) .000

N 26 26
**.
O valor do coeficiente de correlação linear de Pearson entre as duas variáveis

explicativas X 2 e X 3 é r  0.643 , sendo de admitir que as variáveis X 2 e X 3 não
são linearmente correlacionadas (pois |r |  0.7 ).
Forma do modelo
Para avaliar a forma do modelo representa-se o diagrama de dispersão dos resíduos
versus os valores de cada uma das variáveis explicativas
2 2
1 1
0 0
-1 -1
-2 -2
10 15 20 25 30 35 0 10 20 30 40
Prega adiposa membro superior (mm) Prega adiposa membro inferior (mm)
Os diagramas parecem ilustrar que os pontos se distribuem aleatoriamente em

torno de zero, ao longo dos valores de cada uma das variáveis explicativas.
130
Bibliografia
bibliografia
Bruno, P., Carita, A., Diniz, A., Gonçalves, I., e Teles, J. (2008), Introdução à Teoria
das Probabilidades, Lisboa: Edições FMH.
Chatfield, C. (1995), Problem Solving – a Statistician’s Guide (2nd ed.), Boca Raton:
Chapman and Hall/CRC.
Field, A. (2005), Discovering Statistics Using SPSS (2nd ed.), London: Sage.
Marôco, J. (2010), Análise Estatística com o PASW Statistics (ex-SPSS), Lisboa:

Report Number.
Murteira, B. e Antunes, M. (2012), Probabilidades e Estatística, Volume II, Lisboa:

Escolar Editora.
Murteira, B., Ribeiro, C. S., Silva, J. A., e Pimenta, C. (2007), Introdução à Estatística
(2ª ed.), Lisboa: McGraw-Hill.
Pallant, J. (2007), SPSS – Survival Manual (3rd ed.), Glasgow: McGraw-Hill.
Pestana, D., e Velosa, S. (2006), Introdução à Probabilidade e à Estatística (Vol. I, 2ª

ed.), Lisboa: Fundação Calouste Gulbenkian.

Tópicos de Estatística - Estatística II - Versãoset2018 PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tópicos de Estatística - Estatística II - Versãoset2018 PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Universidade de Lisboa

Faculdade de Motricidade Humana

Texto de apoio para a unidade curricular de Estatística II, do 2º ano,

das licenciaturas em Ciências do Desporto e Ergonomia

Lisboa, setembro de 2018

7 Inferência estatística para duas populações

8 Inferência estatística para mais de duas populações com base em amostras

9 Inferência estatística para mais de duas populações com base em medidas

11 Testes do qui quadrado

7 Inferência estatística para duas populações

Neste capítulo vamos apresentar intervalos de confiança e testes de hipóteses para a

Os métodos de inferência paramétrica para a comparação dos valores médios de duas

7.2. Amostras independentes

7.2.1. Inferência paramétrica para a diferença de valores

Populações com distribuição normal e desvios padrões

Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 conhecidos.

Conhecendo a distribuição de Z , podemos usar esta variável aleatória como estimador e

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 12 22 12 22 

em que z1 / 2 é o quantil de probabilidade 1   / 2 da distribuição normal

Testes de hipóteses para a diferença entre valores médios 1  2

Para avaliar a igualdade entre valores médios, realiza-se o teste de hipóteses

Hipóteses a testar Rejeitar H0 se

sendo z  o quantil de probabilidade  da distribuição normal reduzida e z o valor

a) Teste, para um nível de significância   0.05 , se existe diferença significativa

a) Pretendemos testar as hipóteses:

Considerando   0.05 e consultando a tabela da distribuição normal

b) O intervalo a 95% de confiança para 1  2 é dado por

Populações com distribuição normal e desvios padrões

Sejam X1  N 1, 1  e X 2  N 2, 2  , com 1 e 2 desconhecidos.

• 1ª situação: se pudermos admitir que 1  2   , então utilizamos a variável

n1  1 S12  n2  1 S22

como estatística para fazer inferência sobre 1  2 .

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

em que t n n 2;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de

n1  1s12  n2  1s22

Testes de hipóteses para a diferença entre valores médios 1  2

Hipóteses a testar Rejeitar H0 se

sendo tn1 n2 2;   o quantil de probabilidade  da distribuição t de Student com

médios A e B , respetivamente. Os dados disponíveis, relativos à idade com que

a) Teste, ao nível de significância de 5%, se é de admitir que as duas populações

a) Pretendemos testar as hipóteses:

nA  1sA2  nB  1sB2

12  1  0.518  12  1  0.770

Considerando   0.05 e consultando a tabela da distribuição t de Student,

e assim rejeitamos a hipótese nula para   0.05 , ou seja, concluímos que a

b) Como estamos a admitir que A  B   , um intervalo a 95% de confiança

• 2ª situação: se não pudermos admitir a igualdade de variâncias, isto é, se 1  2 ,

X1  X2   1  2  aprox .

sendo o número de graus de liberdade  estimado por

Este estimador designa-se por estimador de Welch-Satterthwaite. Na prática,

Intervalo a 1    100% de confiança para a diferença entre valores médios 1  2

 s12 s22 s12 s22 

em que t ˆ;1 2 é o quantil de probabilidade 1   / 2 da distribuição t de Student

Testes de hipóteses para a diferença entre valores médios 1  2

que, sob a validade de H0 , tem distribuição aproximada t de Student com 

Hipóteses a testar Rejeitar H0 se

sendo tˆ;   o quantil de probabilidade  da distribuição t de Student com ̂

Exemplo 7.2 (continuação)

Utiliza-se o estimador de Welch-Satterthwaite para determinar uma estimativa

assim, na prática usa-se ˆ  21 . Considerando   0.05 e consultando a tabela

rejeitamos a hipótese nula para   0.05 , ou seja, é de admitir que a idade

b) Para a situação A  B , o intervalo a 95% de confiança para A  B é dado