Beruflich Dokumente
Kultur Dokumente
Considere duas populaes normais (A e B), independentes entre si. Queremos testar a
hiptese nula de que as mdias dessas populaes coincidem.
: =
A hiptese alternativa a de que as mdias so diferentes entre si.
Observem que, se a hiptese nula for verdadeira, ento:
= 0
A diferena entre as mdias ser nula (se a hiptese nula for verdadeira).
Considere que, para a primeira populao, temos:
Mdia
Varincia
Amostra extrada com tamanho
Para a segunda populao temos:
Mdia
Varincia
Amostra extrada com tamanho
Para realizar o teste, extramos uma amostra de cada populao e calculamos as mdias
amostrais.
Da fazemos a diferena entre elas:
Se a diferena entre as mdias for muito prxima de zero, conclumos que a hiptese nula
verdadeira. Caso contrrio, conclumos que a hiptese nula falsa.
E como fazemos para determinar o quo afastado de 0 deve dar o resultado para
rejeitarmos a hiptese nula?
Basta calcular a estatstica teste, assim:
=
+
(
) + (
) + + (
) (
) + (
) + + (
)
() =
+ + + + + +
() =
() =
() = = 0
A esperana de vale 0.
() = + = +
Logo, tem mdia 0 e desvio padro igual a:
+
Esse a expresso que temos que utilizar para calcular a estatstica teste.
Resoluo:
Primeiro calculamos a estatstica teste:
=
+
( 1) 2 + ( 1) 2
1 =
+ 2
Resoluo:
tendenciosa da varincia
dada por:
Desde que as varincias so iguais, mas desconhecidas, ento uma estimativa no-
(6 1) 26 + 7! 18 2!
1 =
6 + ! 2
3=
1 1
+
1
6 !
Ou seja, o teste pode ser feito com uma varivel t de Student com 28 graus de liberdade.
Gabarito: E
Resoluo
J sabemos que o nmero de graus de liberdade fica:
+ 2 = 20 + 20 2 = 38
Gabarito: E
Com base nas informaes acima e considerando-se que (2) = 0,9772 e (0,675) =
0,7500, em que (z) representa a funo de distribuio acumulada da distribuio normal
padro, julgue o item.
O p-valor correspondente ao teste de hipteses H0: 9 = 99 versus Ha:9 99 , inferior a
4,8% e a hiptese nula no rejeitada quando o nvel de significncia for igual ou superior a
5%.
Resoluo:
Caso o p-valor no seja inferior a 4,8%, ento o item errado, de cara (por afirmar
justamente o contrrio).
De outro modo, se o p-valor for de fato inferior a 4,8%, a primeira parte do item estaria
correta.
No entanto, a segunda parte afirma que, sendo o nvel de significncia de 5%, a hiptese
nula no rejeitada.
Mas isso est errado. Nvel de significncia maior que p-valor (5% > 4,8%) resulta em
rejeio da hiptese nula. J vimos isso na primeira aula sobre testes de hipteses.
Assim, independente de o p-valor ser realmente menor que 4,8% ou no, podemos afirmar
que o item est errado.
Gabarito: errado.
O mesmo teste visto anteriormente pode ser usado para testar quaisquer outros valores
para a diferena entre as duas mdias.
Em outras palavras, a diferena estabelecida na hiptese nula no precisa ser
necessariamente ser igual a 0. Pode assumir qualquer outro valor real.
Seja a diferena entre as mdias. A estatstica teste igual a:
!
=
!
Caso a varincia populacional seja desconhecida, a estatstica teste passa a ser igual a:
!
3=
1!
! = 0.
Nos exerccios anteriores, a hiptese nula indicava que a diferena era igual a 0. Ento,
Mas, se a hiptese nula indicar outro valor qualquer, como <, ento ! = <
Vejamos um exemplo:
Resoluo:
A estatstica t de Student para o teste de hiptese igual a:
(
) 7
3=
1 1
+
1
6 !
Foi dito que
= 15,3 e = 9,3. Pelo enunciado, ambas as amostras possuem o mesmo
tamanho ( 6 = ! = 4)
Substituindo os valores:
(15,3 9,3) 7
3=
'41 + 15 32
4 4
67
3= = 0,25
16
Gabarito: C
Existem testes de hipteses que no exigem a suposio de que a varivel aleatria tenha
uma determinada distribuio (como normal, por exemplo). So os chamados testes no
paramtricos.
Um dos testes mais simples o teste dos sinais, comumente empregado para testar
hiptese acerca da mediana.
Considere uma amostra de valores: 2, 3, 5, 6, 7, 8, 9.
Queremos testar a hiptese nula de que a mediana vale 5.
H0: D = 5
A hiptese alternativa de que a mediana diferente de 5:
H1: D 5
O primeiro passo subtrair 5 de cada valor da amostra :
2 5 = 3
3 5 = 2
55 =0
65 =1
75 =2
85 =3
95 =4
Obtivemos dois nmeros negativos e quatro positivos. Obtivemos um resultado 0, que
descartado. Sobram ento 6 casos de interesse.
Se a hiptese nula for verdadeira, esperamos que metade dos sinais sejam positivos e
metade sejam negativos. Isso entendido da seguinte forma.
razovel esperar que metade das observaes na amostra sejam maiores que a mediana e
metade das observaes sejam menores que a mediana.
Por isso, se 5 for mesmo a mediana, ao subtrairmos 5 de todas as observaes, deveramos
obter metade dos casos com sinal (-) e metade com sinal (+).
Seja X o nmero de sinais positivos observados na amostra. X tem distribuio binomial de
parmetros n = 6 e p = 0,5.
Suponha que rejeitamos a hiptese nula se houver 0 sinais positivos, ou se houver 6 sinais
positivos. Esses so justamente os casos extremos.
Outro exemplo:
Exemplo 1
Dada a amostra:
1, 2, 5, 7, 9, 11, 15, 20, 22
Queremos testar a hiptese de a mediana ser igual a 5. Rejeitamos a hiptese nula, se
tivermos 0, 1, 7 ou 8 sinais positivos.
a) calcule o nvel de significncia
b) conclua sobre rejeitar ou no a hiptese nula
Resoluo:
a) Primeiro fazemos as diferenas:
1 5 = 4
2 5 = 3
5 5 = 0 (D>2EFG3FHI2)
75 =2
95 =4
11 5 = 6
15 5 = 10
20 5 = 15
22 5 = 17
Obtivemos 2 sinais negativos e 6 positivos.
Em 8 realizaes, se a hiptese nula for verdadeira, a quantidade de sinais positivos tem
distribuio binomial com parmetros p = 0,5 e n =8.
As probabilidades de ocorrerem os casos extremos so:
+(A = 0) = BJ, 0,5 0,5J = 0,0039
+(A = 1) = BJ, 0,5 0,5K = 0,03125
Como a distribuio binomial simtrica, j podemos calcular os demais valores extremos:
+(A = 7) = 0,03125
+(A = 8) = 0,0039
Somando todos estes valores, obtemos 0,070313. Essa a chance de obtermos os valores
crticos, os valores que nos fazem rejeitar a hiptese nula. Logo, o nvel de significncia de
7,0313%.
Hipteses acerca da mediana de certa populao podem ser avaliadas pelo teste dos sinais.
Resoluo:
Para realizar o teste sobre o valor da mediana, o procedimento o seguinte. Subtramos de
cada observao o valor que se pretende testar como mediana.
Sob a hiptese nula, espera-se que em 50% dos casos tenhamos resultados negativos (sinais
negativos) e em 50% dos casos tenhamos resultados positivos (sinais positivos). Isso, claro,
desconsiderando-se os casos de resultado nulo.
realizada, Essa quantia pode ser usada para testar a hiptese sobre a mediana. Esse o
teste dos sinais.
Gabarito: certo
Resoluo:
Logo:
(A) = L = 36 0,5 = 18
(A) = LN = 36 0,5 0,5 = 18
= 9 = 3
Onde:
o tamanho da amostra
L a probabilidade de sinal positivo, sob a hiptese nula
N = 1 L a probabilidade de sinal negativo
Lembre-se de que sempre descartamos as diferenas nulas (sem definio de sinal positivo
ou negativo). No caso, a questo disse que no havia diferenas nulas.
A
O =
Podemos usar a mesma ideia vista no teste dos sinais para delimitar intervalos de confiana
para a mediana.
Suponha que fizemos uma amostragem e obtivemos os seguintes valores:
1, 2, 7, 9, 11, 15, 20, 22
Observem que este caso muito similar ao Exemplo 1. S retirei a observao 5, para
ficarmos exatamente com 8 nmeros.
J vimos naquele exemplo que, para um nvel de significncia de 7,0313%, rejeitamos a
hiptese nula para 0, 1, 7 ou 8 sinais positivos. Isso ocorrer se a hiptese nula atribuir
mediana valores:
Menores que 2 (assim teremos 7 ou 8 sinais positivos)
Maiores que 20 (assim teremos 1 ou 0 sinais positivos)
Logo, a faixa entre 2 e 20 corresponderia a
100% 7,0313% = 92,9687%
A faixa entre 2 e 20 corresponde a 92,9687% dos casos.
Dizemos que esse o intervalo de 92,9687% de confiana para a mediana.
Ou seja, usamos a regio de aceitao do teste para delimitar o intervalo de confiana.
Segundo o livro Estatstica para Economistas do Rodolfo Hoffmann, o procedimento
aplicvel porque: o intervalo de 100(1-)% de confiana para um parmetro o conjunto
de valores do parmetro que no sero rejeitados num teste bilateral ao nvel de
significncia .
Na minha opinio, h alguns problemas na concluso acima. Ao meu ver, o que d para
afirmar sobre a relao entre testes de hipteses e intervalo de confiana o seguinte.
isso.
Contudo, nem sempre um intervalo de confiana para a mdia coincidir com a regio de
aceitao do teste.
Exemplificando, considere uma amostra de tamanho 100. A varincia populacional 25. A
mdia amostral 18. A hiptese nula nos diz que a mdia vale 15.
Adotando 95% de confiana, temos o seguinte.
O intervalo de confiana dado por:
25
18 1,96
100
O que corresponde a:
[17,02; 18,98]
Rejeitamos a hiptese nula porque o intervalo de confiana (de 17,02 a 18,98) no abrange
o valor 15.
Mas vejam que o intervalo de confiana no coincidiu com a regio de aceitao do teste.
Bom, apesar disso, no estamos aqui para contestar do livro, sim para aplicar o mtodo.
O mtodo nos diz que, no caso da mediana, para determinao do intervalo de confiana
no paramtrico, consideramos que o intervalo de confiana corresponde regio de
aceitao do teste de hipteses.
Resoluo:
Primeiro ordenamos a amostra:
800, 840, 900, 950, 1050
O intervalo de confiana (= regio de aceitao do teste bilateral) vai de 800 a 1050.
Ento os valores raros (=regio crtica do teste bilateral) correspondem aos valores:
Menores que 800 (o que resultar em 5 sinais positivos)
Maiores que 1050 (o que resultar em 0 sinais positivos)
Resoluo:
Primeiro ordenamos os valores:
Esse teste serve para testar se duas populaes independentes (X1 e X2) tm a mesma
distribuio. Para tanto, extramos duas amostras independentes.
Se a hiptese nula for verdadeira, ento +(A > A ) = +(+A < A ) = 0,5
Se a hiptese nula for falsa, ento +(A > A ) +(+A < A )
A amostra de X1 tem tamanho n1. A amostra de X2 tem tamanho n2.
Suponhamos, sem perda de generalidade, que
Muito bem, vejamos como fica o teste por meio de um exemplo:
W Probabilidade
3 1/10
4 1/10
5 2/10
6 2/10
7 2/10
8 1/10
9 1/10
Vamos supor que a gente defina uma regio crtica de 20%. Ou seja, o nvel de significncia
de 20%.
Os casos extremos so aqueles que ocorrem em apenas 20% das vezes.
A chance de W ser 3 de 10% e a chance de W ser 9 de 10%.
Logo:
+(4 W 8) = 80%
Assim, ao nvel de confiana de 80%, a regio de aceitao corresponde aos valores de 4 a 8.
No nosso experimento, tivemos W = 4, ento aceitamos a hiptese nula de que as duas
populaes tm mesma distribuio.
Quando o tamanho das amostras aumenta, fica muito trabalhoso calcular as probabilidades
> 10, ento W tem distribuio aproximadamente normal, com mdia e varincia dados
como fizemos nas tabelas acima. Da aproximamos. possvel demonstrar que, quando
por:
1
Y = ( + + 1)
2
1
Y
= ( + + 1)
12
Outro exemplo:
As amostras tm tamanho 15 e 17. A soma dos postos de X1 foi igual a 240.
O nmero de chorrilhos pode ser usado para testarmos a hiptese de que tal amostra
aleatria.
Vejamos o caso em que o nmero de chorrilhos o maior possvel:
C, K, C, K, C, K
So agora 6 grupos ou chorrilhos, todos eles com 1 elemento cada.
Essa amostra no parece ter sido aleatria, pois difcil que caras e coroas fiquem se
alternando com perfeio.
Num caso extremo, de 20 lanamentos, o nmero mximo de chorrilhos seria 20, e ficaria
ainda mais evidente que, provavelmente, no se trata de uma amostra aleatria:
C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K
Por outro lado, se o nmero de chorrilhos for mnimo, tambm temos sinais de que a
amostra no aleatria:
C, C, C, C, C, C, C, C, C, C, K, K, K, K, K, K, K , K, K, K
Muito bem, voltando no caso dos seis lanamentos, considere que obtivemos 2 caras e 4
coroas.
As possibilidades so:
Casos Nmeros de chorrilhos
C, C, K, K, K, K 2
C, K, C, K, K, K 4
C, K, K, C, K, K 4
C, K, K, K, C, K 4
C, K, K, K, K, C 3
K, C, C, K, K, K 3
K, C, K, C, K, K 5
K, C, K, K, C, K 5
K, C, K, K, K, C 4
K, K, C, C, K, K 3
K, K, C, K, C, K 5
K, K, C, K, K, C 4
K, K, K, C, C, K 3
K, K, K, C, K, C 4
K, K, K, K, C, C 2
Sob a hiptese de que a ordem dos resultados (cara ou coroa) aleatria, cada um dos 15
casos acima tem mesma chance. Logo, podemos montar a seguinte tabela de
probabilidades:
Nmero de chorrilhos (X) Probabilidade
2 2/15
3 4/15
4 6/15
5 3/15
Se definirmos a regio de rejeio do teste como A 2 ou A 5, ento a regio crtica ter
probabilidade de:
2 3
+ = 33,33%
15 15
6. Teste de McNemar
No presente caso, a estatstica teste foi menor que o valor crtico (1 < 3,84), ento no
rejeitamos a hiptese nula.
Observem ento que o teste de McNemar adequado para experimentos do tipo antes e
depois. Cada elemento serve como seu prprio controle, antes e depois de algum
tratamento aplicado.
No caso acima, cada eleitor servia para compararmos o efeito do debate. Bastava ver se o
eleitor mudou ou no de inteno de voto.
a) Teste Wilcoxon-Mann-Whitney.
b) Teste Exato de Fisher.
c) Teste de Kruskal Wallis.
d) Teste de McNemar.
e) Teste de Komolgorov-Smirnov.
Resoluo:
O teste de Wilcoxon-Mann-Whitney se destina a verificar se duas populaes apresentam a
mesma distribuio. Para tanto, extraem-se amostras independentes, de cada uma das
populaes. Em seguida, as observaes so ordenadas (em ordem crescente), atribuem-se
postos. Com base na soma dos postos referente s observaes de uma das amostras,
monta-se a estatstica para o teste.
O teste exato de Fisher ns no estudamos. Fica a informao de que ele substitui o teste de
Qui-quadrado em tabelas de contingncia quando, em determinadas situaes, este ltimo
no adequado.
O teste de Kruskal Wallis outro teste que no estudamos. Fica a informao de que um
teste no-paramtrico, baseado em postos, para verificar se duas amostras provm da
mesma populao.
O teste de McNemar utilizado para testar mudanas nas observaes. Algo do tipo "antes"
e "depois". Cada elemento monitorado antes e depois do experimento.
Nesta questo, contamos as intenes de voto de cada candidato antes e depois do debate.
Se o debate no influenciar nas intenes de voto, esperamos que a quantidade de eleitores
que mudou do candidato A para B seja igual quantidade de eleitores que mudou de B para
A. Em seguida, comparando-se as frequncias realmente observadas com as esperadas,
montamos a estatstica teste.
eventos no ocorrem. Com base nessa situao, correto afirmar que o pesquisador no
dispe de dados necessrios para testar a aleatoriedade desse evento.
Resoluo:
A questo se refere ao teste da ordenao casual, que serve para testar a hiptese de
aleatoriedade de uma amostra.
O primeiro chorrilho formado por duas caras. O segundo chorrilho formado por trs
coroas.
Outro exemplo:
C, K, K, C, C
Agora o primeiro chorrilho formado por uma cara, o segundo formado por duas coroas,
o terceiro formado por duas caras.
J o caso de 4 chorrilhos muito mais provvel. Pode ocorrer nas seguintes situaes:
C, K, C, K, K
C, K, K, C, K
K, C, K, K, C
K, K, C, K, C
Vejam que o enunciado abrangeu todos os itens necessrios para a realizao do teste.
Fazendo a analogia com o exemplo acima. Foram 5 lanamentos da moeda (N=5). Estamos
interessados nas caras. Foram 2 ocorrncias de interesse. O nmero de vezes em que os
eventos ocorrem sequencialmente a quantidade de chorrilhos associados ao resultado
"C". A contagem de casos sequenciais em que o evento no ocorre a quantidade de
chorrilhos associados ao resultado "K". Com todas essas informaes, podemos sim realizar
o teste.
Gabarito: errado
Resoluo
O Teste de Mc Nemar bastante aplicvel em experimentos do tipo "antes e depois".
Assim, cada elemento serve como seu prprio controle. Temos ento duas amostras
pareadas (uma antes de determinado evento, outra depois).
Como exemplo, citamos o estudo do desempenho de alunos em dois testes similares, antes
e depois de um treinamento. Ou a opinio de eleitores antes e depois de um debate.
Gabarito: errado
7. ANLISE DE VARINCIA
7.1. Introduo
(X )
5
2
ij Xi
j =1
si =
2
5 1
Como exemplo, vamos detalhar o clculo da varincia dentro da marca C (ou seja, para o
caso de i = 3) :
(X )
5
2
X3
(4,7 4,58) 2 + (4,2 4,58) 2 + (4,3 4,58) 2 + (4,9 4,58) 2 + (4,8 4,58) 2
3j
j =1
s3 = =
2
5 1 4
= 0,097
Fazendo clculos semelhantes para as demais marcas, temos:
Marca A B C D
Varincia 0,062 0,077 0,097 0,075
Caso todas as marcas apresentem a mesma mdia, ento temos:
- todas elas tm distribuio normal
- todas elas tm mesma varincia 2
- todas elas tm mesma mdia
Isto equivale a dizer que todas elas apresentam distribuio idntica. como se todas as
observaes tivessem sido extradas de uma nica populao, normal, de mdia e
varincia 2 .
Deste modo, temos, na verdade, 4 amostras da mesma populao. So 4 amostras de
tamanho 5. Vimos na aula de estimadores que a varincia da amostra (com n 1 no
denominador) um estimador no-viciado da varincia da populao. Portanto, se tivermos
vrias amostras, a mdia de todas as varincias amostrais deve ser bem prxima da
varincia da populao.
Assim, uma primeira estimativa da varincia da populao seria:
s1 + s 2 + s 3 + s 4 0,062 + 0,077 + 0,097 + 0,075
2 2 2 2
= = 0,078
4 4
Continuando.
Ainda supondo que todas as marcas apresentam a mesma mdia, podemos achar outra
estimativa para a varincia da populao. Como j estudamos na aula de estimadores, a
mdia amostral tem varincia dada por:
2
X =
2
n
Ou seja, as mdias amostrais apresentam disperso bem pequena, quando comparada com
a disperso da populao. Se pegarmos a disperso da populao e dividirmos por n, a
obtemos a disperso das mdias amostrais. As mdias amostrais esto bem concentradas.
n X = 2
2
Se multiplicarmos a varincia das mdias amostrais por n, a obtemos uma estimativa para a
varincia populacional.
Assim, podemos usar os diversos valores da mdia amostral para estimar a varincia de X .
Feito isso, multiplicamos por n, e obtemos outra estimativa da varincia populacional.
4 1
Esta a chamada varincia entre as marcas.
Como o tamanho das amostras 5 ( n = 5 ), a nova estimativa da varincia da populao :
5 0,029 = 0,144
Obtidas estas duas estimativas da varincia da populao, ns dividimos uma pela outra.
0,144
Razo entre as estimativas: = 1,85
0,078
E este nmero acima que vai nos permitir decidir se as mdias so todas iguais entre si ou
no.
Caso as mdias sejam, efetivamente, todas iguais entre si, a razo entre as duas estimativas
deveria ser bem prxima de 1. As duas estimativas deveriam coincidir (ou serem muito
prximas uma da outra).
Caso as estimativas no coincidam (e a razo entre elas seja bem diferente de 1), isto um
sinal de que as mdias das marcas de leo so diferentes entre si (ou seja, h pelo menos
uma marca diferente das demais).
Por qu?
Se todas as marcas tiverem a mesma mdia, suas funes densidade de probabilidade se
sobreporo (esto todas representadas pela curva em preto no grfico abaixo).
No fundo, todas as amostras podem ser consideradas como extradas da mesma populao.
s + s2 + s3 + s 4
2 2 2 2
s + s2 + s3 + s 4
2 2 2 2
Agora vamos comear a estudar a anlise de varincia com os nomes que geralmente
aparecem nas questes. Veremos que a razo entre as estimativas vai corresponder, na
verdade, a uma razo entre os chamados quadrados mdios.
Vamos trabalhar com um modelo mais simples (embora a anlise de varincia possa ser
aplicada para modelos mais complexos).
Temos k populaes em estudo (no exemplo dado na seo anterior, k = 4 , pois eram 4
marcas diferentes). De cada populao, so extradas amostras de tamanho ni (no exemplo
anterior, n1 = n 2 = n3 = n 4 = n5 = 5 - todas as amostras tinham tamanho 5).
O nmero total de extraes feitas (incluindo todos os grupos em estudo) N . No nosso
exemplo, N = 20 (5 extraes para cada uma das 4 marcas de leo).
Uma dada observao X ij pode ser representada assim:
X ij = i + u ij
Cada observao igual mdia da populao de onde ela foi extrada, mais um erro
aleatrio ( u ij ). As hipteses so:
Como vimos no exemplo inicial (com as 4 marcas de leo), o teste se baseia em clculo da
varincia (entre e dentro). E a varincia resultado de uma soma de quadrados de desvios.
Ento, por hora, vamos focar nestas somas de quadrados de desvios.
H trs somas importantes: a soma de quadrados total; a soma de quadrados dentro dos
grupos (ou ainda: soma de quadrados dos resduos); a soma de quadrados entre grupos (ou
ainda: soma de quadrados de tratamentos).
Seja ni o nmero de termos do isimo grupo. No exemplo das marcas de leo, para cada
grupo ns tnhamos 5 observaes. Ou seja:
n1 = n 2 = n3 = n 4 = 5
A soma dos quadrados dos resduos (ou ainda, dentro dos grupos) definida por:
k ni
SQ Re s = ( X ij X i ) 2
i =1 j =1
Lembrando que X i a mdia de cada uma das 5 amostras (para i = 1 , por exemplo, temos
X 1 = 4,88 , que a mdia para a amostra da marca A).
Somas de quadrados:
ijkI3Fl = ijm>2 + ijkGF3
ijkI3Fl = ijncOob + ijcOoc
Agora teremos um grande bl, bl, bl. A ideia facilitar a memorizao do quadro resumo
l da pgina 41.
Se voc no estiver muito afim de ler este bl, bl, bl, e preferir s decorar o tal do quadro,
sem stress. Neste caso, pode pular direto l para a pgina 41.
(X )
n
2
i X
s2 = i =1
n 1
No denominador temos um nmero, uma constante, algo que no varia. No numerador,
temos uma soma de n quadrados de desvios, que podem variar de uma amostra para outra.
este fator que aleatrio. Vamos nos concentrar nele.
Numerador: ( X 1 X ) 2 + ( X 2 X ) 2 + ( X 3 X ) 2 + ... + ( X n 1 X ) 2 + X n X ) 2
Qual a referncia para o clculo dos desvios? a mdia aritmtica.
Pois bem, vamos supor que a gente conhece justamente a mdia aritmtica. Conhecemos a
mdia aritmtica da amostra, mas no conhecemos os valores observados. Ou ainda: a
mdia da amostra dada.
Quanto aos valores de cada uma das observaes, este ns no conhecemos.
Fixada a mdia da amostra, vamos considerar que a gente livre para estabelecer quaisquer
valores para as observaes e, com isso, calcular o valor do desvio ao quadrado, que entra
na frmula do numerador.
Assim, ns somos livres para escolher o valor de X1 (e, com isso, determinar o valor de
( X 1 X ) 2 ). Ns tambm somos livres para escolher o valor de X2. E assim por diante.
Neste processo, ns seramos livres para escolher os valores de n 1 observaes. Ns
seramos livres para escolher os valores de X 1 , X 2 , ..., X n1 .
J o valor de Xn, este ns no temos liberdade para escolher. Escolhidas todas as demais
observaes ( X 1 , X 2 , ..., X n1 ), s existe um nico valor de Xn que faz com que a mdia da
amostra seja igual ao valor fixado para X .
Ou seja, nossa liberdade se restringiu a n 1 desvios ao quadrado. O ltimo desvio ao
quadrado no pode ser livremente escolhido. Portanto, so n 1 graus de liberdade.
A segunda vez que vimos os graus de liberdade foi com a distribuio de qui-quadrado. Ela
dada por:
( n 1) s 2
2 =
2
No denominador, temos a varincia da populao. Ela um nmero, uma constante, algo
fixo, que no varia.
No numerador, temos duas parcelas. A primeira ( n 1) , que tambm um nmero fixo (
o tamanho da amostra menos 1).
O outro fator, ele sim varia. Trata-se da varincia amostral. a varincia de uma
determinada amostra. Se pensarmos em todas as amostras possveis, em cada uma delas s 2
( n 1) s 2
assume um valor diferente. este fator que torna uma varivel aleatria, que faz
2
esta expresso variar. Vamos portanto, nos concentrar neste termo.
Novamente, temos a varincia amostral (s2), que advm da soma de n desvios ao quadrado.
Fixada uma determinada mdia amostral, poderemos escolher livremente o valor de n 1
desvios. O ltimo desvio, este no pode ser livremente escolhido. S h um valor possvel
para ele, de tal modo que a mdia das observaes seja igual a uma dada mdia amostral.
Temos, novamente, n 1 graus de liberdade.
A terceira vez que estudamos graus de liberdade foi no teste de qui-quadrado para vrias
propores.
(Oi E i ) 2
A estatstica teste era dada pela soma de todos os valores de . Agora os desvios
Ei
so calculados em relao s freqncias esperadas.
Pergunta: qual a referncia para clculo dos desvios?
A referncia so as frequncias esperadas. Pois ento vamos supor que as frequncias
esperadas so dadas e que ns somos livres para escolher as frequncias observadas
(determinando, assim, o valor do desvio). Quantas frequncias observadas ns podemos
escolher livremente?
Para exemplificar, vamos retomar a questo 39 da aula passada. Na verdade, vou adaptar o
problema:
No curso A, havia 100 candidatos inscritos em um concurso. No curso B tambm havia 100
candidatos inscritos neste concurso. Foram aprovados 140 candidatos destes 200 alunos. Os
60 restantes foram reprovados. Calcule a estatstica teste para testar a hiptese de que a
proporo de aprovados nos dois cursos a mesma.
curso A curso B
Freqncia Freqncia Total
esperada esperada
Aprovados 70 70 140
Reprovados 30 30 60
Total 100 100 200
Os nmeros em vermelho indicam os totais. So esses nmeros que a gente conhece.
Se a hiptese nula for verdadeira, esperamos que a proporo de aprovados e reprovados,
em cada curso, seja igual proporo geral, tomando os dois cursos em conjunto.
Ou seja, conhecer os valores totais o mesmo que conhecer as frequncias esperadas. E
vice-versa.
Agora vamos para as freqncias observadas.
curso A curso B
Freqncia Freqncia Total
observada observada
Aprovados ? ? 140
Reprovados ? ? 60
Total 100 100 200
As freqncias observadas no foram informadas. Vamos considerar que somos livres para
preench-las. Ou seja, no fundo estamos considerando que somos livres para determinar os
(O E i ) 2
valores de cada i .
Ei
Vamos preencher a primeira clula com o nmero 80. Por qu? Porque somos livres para
escolher qualquer nmero, ento vamos escolher o nmero 80.
curso A curso B
Freqncia Freqncia Total
observada observada
Aprovados 80 ? 140
Reprovados ? ? 60
Total 100 100 200
E esta foi a nica clula que poderamos preencher livremente. As demais no podem mais
ser preenchidas livremente.
Para que o total de alunos aprovados seja de 140, a segunda clula deve ser igual a 60.
curso A curso B
Freqncia Freqncia Total
observada observada
Aprovados 80 60 140
Reprovados ? ? 60
Total 100 100 200
Para que o total de alunos do curso A seja igual a 100, a terceira clula deve ser preenchida
com 20.
curso A curso B
Freqncia Freqncia Total
observada observada
Aprovados 80 60 140
Reprovados 20 ? 60
Total 100 100 200
Para que o total do curso B seja igual a 100 e o total de reprovados seja 60, a quarta clula
deve ser igual a 40.
curso A curso B
Freqncia Freqncia Total
observada observada
Aprovados 80 60 140
Reprovados 20 40 60
Total 100 100 200
Ns s fomos livres para preencher 1 clula. Por isso, temos 1 grau de liberdade.
(Oi E i ) 2
Assim, quando formos calcular a soma dos valores , ns podemos escolher
Ei
livremente 1 deles. Os demais, estes no sero livremente escolhidos.
Generalizando, para um caso qualquer com vrias propores, o nmero de graus de
liberdade ser sempre igual a ( L 1) (C 1) .
Resumindo tudo: o que fica da histria que os graus de liberdade tm relao com a
quantidade de termos que podemos escolher livremente.
(X )
n
2
i X
s2 = i =1
n 1
Voltemos varivel de qui-quadrado em estudo. Ela dada por:
( n 1) s 2
2 =
2
Substituindo o valor de s2:
(X )
n
2
i X
2 = i =1
2
No numerador temos uma soma de quadrados dos desvios.
Ento isso que eu queria chamar a ateno, para facilitar a memorizao. Somas de
quadrados de desvios podem ser usadas para gerar distribuies de qui-quadrado. Basta
dividir a soma de quadrado dos desvios pela varincia da populao.
Finalmente, voltemos para a matria de hoje (anlise de varincia). Se a hiptese nula for
verdadeira (ou seja, se todas as marcas de leo tiverem a mesma mdia), ento todas as
somas de quadrados de desvios que estudamos nesta aula podem ser usadas para gerar
distribuies de qui-quadrado. Assim:
SQ Re s
tem distribuio de qui-quadrado.
2
SQTrat
tem distribuio de qui-quadrado.
2
SQTotal
tem distribuio de qui-quadrado.
2
Cada uma destas distribuies tem um certo grau de liberdade. Os graus de liberdade so:
SQ Re s
: N k
2
SQTrat
: k 1
2
SQTotal
: N 1
2
Observem que:
( N k ) + ( k 1) = N 1
Ou seja, se somarmos os graus de liberdade para os resduos e para os tratamentos,
chegamos ao grau de liberdade total.
Vamos tentar memorizar os graus de liberdade. Para tanto, vamos lembrar da histria que
contamos l na fl. 34.
No clculo da soma de quadrados total, pegamos cada observao e subtramos da mdia
geral. Depois elevamos ao quadrado. Como so N observaes, so N desvios ao quadrado.
Vamos considerar que X dado.
Podemos escolher livremente N 1 desvios. O ltimo, este no pode ser livremente
escolhido. S h um valor possvel para ele, de tal modo que a mdia geral da amostra seja
igual ao valor fixado para X
Por fim, no clculo da soma de quadrados dos resduos, tomamos cada observao e
subtramos da mdia do respectivo grupo. So N desvios ao quadrado.
Se soubssemos apenas as mdias de cada grupo (ou seja, as mdias de cada marca), e no
conhecssemos o valor de cada observao, poderamos escolher livremente diversos
desvios.
Para a marca A, teramos:
( X 11 X 1 ) 2 + ( X 12 X 1 ) 2 + ( X 13 X 1 ) 2 + ( X 14 X 1 ) 2 + ( X 15 X 1 ) 2
Se no conhecemos as observaes, apenas a mdia da marca A, poderamos escolher
livremente 4 desvios. O quinto no pode escolher livremente. S h um valor possvel para
ele, de tal modo que a mdia da marca A seja igual ao valor estabelecido.
O mesmo ocorre para todas as demais marcas. Em cada uma delas, 1 dos desvios no pode
ser livremente escolhido.
Assim, o nmero de graus de liberdade igual a N k . So N desvios ao todo. Para cada
grupo, 1 desvio no pode ser livremente escolhido. Como temos k grupos, temos k desvios
que no podem ser livremente escolhidos.
Todo esse bl bl bl que temos visto desde a fl. 34 (a historinha dos graus de liberdade e
das somas de quadrado sendo relacionadas com distribuies de qui-quadrado), tudo isso
era para facilitar na memorizao do resumo abaixo.
Se voc no gostou de todo esse bl bl bl, pelo menos decore o quadro a seguir:
Caso a hiptese nula seja verdadeira (ou seja, todos os grupos apresentem a mesma
mdia), ento:
SQ Re s
tem distribuio de qui-quadrado com N k graus de liberdade
2
SQTrat
tem distribuio de qui-quadrado com k 1 graus de liberdade
2
SQTotal
tem distribuio de qui-quadrado com N 1 graus de liberdade
2
Quando dividimos uma soma de quadrados pelo respectivo nmero de graus de liberdade,
obtemos os chamados quadrados mdios.
O quadrado mdio dos resduos fica:
SQ Re s
QM Re s =
N k
Analogamente, os quadrados mdios de tratamento e total ficam:
SQTrat
QMTrat =
k 1
SQTotal
QMTotal =
N 1
7.7. A distribuio F
1 2 / g1
W= 2
2 / g2
No numerador temos uma varivel de qui-quadrado dividida pelo seu nmero de graus de
liberdade.
No denominador, temos uma varivel de qui-quadrado dividida pelo seu nmero de graus
de liberdade.
Essa diviso gera uma terceira varivel, com distribuio F (ou ainda: F de Snedecor). Esta
varivel W possui g1 graus de liberdade associados ao seu numerador e g2 graus de
liberdade associados ao seu denominador.
Portanto, a razo:
QMTrat
F=
QM Re s
Tem distribuio F de Snedecor, com k 1 graus de liberdade no numerador e N k graus
de liberdade no denominador. Esta razo utilizada para testar a hiptese nula, de que
todas as populaes tm a mesma mdia (no nosso exemplo, de que todas as marcas de
leo permitem a mesma quilometragem mdia).
Caso a hiptese nula seja verdadeira, os dois quadrados mdios sero prximos, e a razo
ser prxima de 1.
Caso a hiptese nula seja falsa, os dois quadrados mdios sero bem diferentes entre si, e a
razo acima ser bem maior que 1.
Ento o teste apenas isso. Basta calcular os valores de QMTrat e QM Re s , especficos
para o experimento feito, o que vai gerar a estatstica teste ( F _ teste , ou seja, o valor de F
para o experimento feito).
Depois consultamos a tabela da distribuio F (obtendo F _ crtico ). Depois, basta
comparar a estatstica teste com o valor crtico. Se a estatstica teste for maior que o valor
crtico, rejeitamos a hiptese nula. Se for menor, aceitamos a hiptese nula.
Teste F:
QMTrat
tem distribuio F (caso a hiptese nula seja verdadeira).
QM Re s
Fazemos o experimento, obtendo valores especficos para QMTrat e QM Re s , o que vai
gerar a estatstica teste ( F _ teste ).
Se F _ teste > F _ critico , rejeitamos a hiptese nula.
Se F _ teste < F _ critico , aceitamos a hiptese nula.
(A) normal.
(B) qui-quadrado com n - 1 graus de liberdade.
(C) t de Student com n graus de liberdade.
(D) F com (n -1, n -1) graus de liberdade.
(E) F com (n, n) graus de liberdade.
Resoluo.
Podemos reescrever a varivel W deste modo:
W=
(X 2
+ X 2 + ... + X n / n
2 2
)
(Y )
1
+ Y2 + ... + Yn / n
2 2 2
1
(A) normal.
(B) qui-quadrado com n - 1 graus de liberdade.
(C) t de Student com n graus de liberdade.
(D) F com (n - 1, n - 1) graus de liberdade.
(E) F com (n, n) graus de liberdade.
Resoluo.
Questo idntica anterior.
Gabarito: E
Para o exemplo das quatro marcas de leo, trabalhadas durante a aula, teste a hiptese de
que as mdias so iguais, contra a hiptese alternativa de que h pelo menos uma mdia
diferente das demais. Utilize um nvel de significncia de 10%.
Resoluo.
Podemos juntar todos os clculos j realizados durante a aula em uma tabela, assim:
Fonte da variao Graus de Soma de Quadrado F _ teste
liberdade quadrados mdio
Tratamentos 3 0,434 0,145 1,858974
(entre)
Resduos (dentro) 16 1,244 0,078
Total 19 1,678
Os quadrados mdios foram obtidos pela diviso entre a soma de quadrados e o nmero de
graus de liberdade.
Ou seja:
0,434
QMTrat = = 0,145
3
Em vez de utilizar a expresso tratamento, o exerccio pode se referir variao entre
tratamentos. Ou seja, o smbolo seria QM _ entre
QMTrat = QM _ entre = 0,145
Para o quadrado mdio de resdulos (dentro), a conta anloga:
1,244
QM Re s = QM _ dentro = = 0,078
16
Estes dois quadrados mdios so utilizados para fazer o teste F.
QMTrat QM _ entre 0,145
F _ teste = = = = 1,8589
QM Re s QM _ dentro 0,078
A razo entre os quadrados foi de 1,8589. Foi diferente de 1.
Caso a razo seja bem prxima de 1, aceitamos a hiptese nula. Caso a razo seja bem
afastada de 1, rejeitamos a hiptese nula.
E agora?
O nmero 1,8589 prximo ou afastado de 1?
Bem, o que vai nos responder isso a tabela da distribuio F. Abaixo segue um trechinho
da Tabela F para nvel de confiana de 10%.
De acordo com a tabela para a distribuio F, temos que a rea amarela da figura abaixo
de 10%.
Que a regio crtica. A estatstica teste no caiu na regio crtica. Portanto, aceitamos a
hiptese nula.
Resoluo.
O exerccio forneceu direto a tabela da anlise de varincia, j com todas as contas prontas.
SQ indica soma de quadrados. GL indica graus de liberdade. EQM indica erro
quadrtico mdio (que sinnimo de quadrado mdio).
(B)15.760 120
>
100 3
(r)15760 120
>
99 3
()15760 120
>
97 2
Resoluo
Temos um total de 100 observaes ( N = 100 ), referentes a trs grupos pesquisados ( k = 3
)
A mdia geral dos trs grupos dada por:
115 60 + 114 30 + 118 10
X = = 115
100
A soma de quadrados entre os grupos dada por:
SQ _ entre = 60 (115 115) 2 + 30 (114 115) 2 + 10 (118 115) 2 = 120
Esta soma de quadrados possui k 1 graus de liberdade.
k 1 = 3 1 = 2
Logo, o quadrado mdio fica:
120
QM _ entre =
2
Vamos agora calcular a soma de quadrados dentro dos grupos. Para tanto, precisamos, em
cada grupo, calcular a soma dos quadrados dos desvios em relao mdia do grupo.
Para os no-fumantes, sabemos que a varincia igual a 142. E como foi calculada esta
varincia? Ela foi calculada somando os quadrados dos desvios e dividindo por 59. Logo, a
soma dos quadrados dos desvios, para o grupo dos no-fumantes, igual a 14 2 59 .
Como o mesmo raciocnio, podemos achar as somas dos quadrados dos desvios para os
demais grupos. Com isso, temos:
SQ _ dentro = 14 2 59 + 10 2 29 + 12 2 9 = 15760
Esta soma de quadrados tem N k graus de liberdade.
N k = 100 3 = 97
Logo:
15760
QM _ dentro =
97
Gabarito: E
Resoluo.
Estatstica teste:
QM _ entre 120 / 2 60 97
F _ teste = = = = 0,37
QM _ dentro 15760 / 97 15760
O valor crtico, podemos pegar da prpria questo. Todas as alternativas afirmam que o
valor crtico 3,07. Ento podemos tomar isso como dado.
Gabarito: A
c) 4
d) 5
e) 12
Resoluo:
Seja k o nmero de marcas estudadas. O nmero de graus de liberdade referente s
marcas igual a k 1. Logo:
3=<1
< =3+1=4
Foram 4 marcas estudadas.
Gabarito: C
Resoluo:
Primeiro completamos o quadro da anlise de varincia. Para tanto, devemos lembrar que o
quadrado mdio igual soma de quadrados dividida pelo nmero de graus de liberdade.
Fonte Graus de liberdade Soma de quadrados Quadrado mdio
Marcas 3 60 20
Erro 36 72 2
Total 39 132 3,38
Na verdade, o que cai um pouco mais a aplicao da anlise de varincia associada reta
de regresso linear, matria que veremos em outra aula.
a) 40
b) 19
c) 16
d) 20
e) 38
Questo 4 SEFAZ ES 2008 [CESPE]
Uma auditoria foi realizada nas filiais I e II da empresa A&B, com o propsito de examinar a
lisura dos processos de compras efetuadas em determinado trimestre. Para a realizao de
um estudo-piloto e considerando que a populao de notas fiscais existentes nessas filiais
era muito grande, em cada filial foi tomada uma amostra aleatria simples de 900 notas
fiscais. Para cada nota fiscal examinada, registrou-se, entre outras coisas, o logaritmo
Com base nas informaes acima e considerando-se que (2) = 0,9772 e (0,675) =
0,7500, em que (z) representa a funo de distribuio acumulada da distribuio normal
padro, julgue o item.
O p-valor correspondente ao teste de hipteses H0: 9 = 99 versus Ha:9 99 , inferior a
4,8% e a hiptese nula no rejeitada quando o nvel de significncia for igual ou superior a
5%.
Questo 5 MPU 2007 [FCC]
Instrues: Para responder questo, considere o enunciado a seguir.
Hipteses acerca da mediana de certa populao podem ser avaliadas pelo teste dos sinais.
Questo 7 TRE SP 2012 [FCC]
Durante 36 dias, observou-se, diariamente, a quantidade produzida de peas por duas
mquinas de marcas M1 e M2, independentemente. Um fabricante verificou que subtraindo
diariamente da quantidade de peas produzidas por M1 a quantidade produzida por
M2 obteve a presena de sinal positivo nas diferenas de 20 produes e sinal negativo nas
16 restantes, no ocorrendo diferena nula. Aplicando o teste dos sinais para decidir se a
proporo populacional de sinais positivos (p) igual a 0,50, ao nvel de significncia de 5%,
ele considerou as hipteses H0: p = 0,50 (hiptese nula) contra H1: p 0,50 (hiptese
alternativa). Com a aproximao da distribuio binomial pela normal sem a correo de
continuidade, foi apurado o valor do escore r correspondente para comparao com o valor
crtico da distribuio normal padro (Z) tal que a probabilidade P(|Z| 1,96) = 95%. Ento,
o fabricante, ao nvel de significncia de 5%,
a) rejeitar H0 e G = 2 3
b)no rejeitar H0 e G = 2 3
c) rejeitar H0 e r = 2.
d) no rejeitar H0 e r = 2.
e) rejeitar H0 e G = 1 3
Questo 8 TRF-2 2007 [FCC]
Cinco bois foram alimentados com uma dieta experimental desde o seu nascimento ata
idade de 2 meses. Os aumentos de pesos verificados, em gramas, foram os seguintes: 900,
840, 950, 1 050, 800. Considerando-se a mediana desta amostra como estimativa pontual
da mediana populacional dos aumentos de peso, e considerando-se [800, 1050] um
intervalo de confiana para a mediana populacional, o coeficiente de confiana deste
intervalo
(A) situa-se entre 65% e 70%
(A) normal.
(B) qui-quadrado com n - 1 graus de liberdade.
(C) t de Student com n graus de liberdade.
(D) F com (n -1, n -1) graus de liberdade.
(E) F com (n, n) graus de liberdade.
Questo 14 TCE RO 2007 [CESGRANRIO]
Se X1, X2, ..., Xn, Y1, Y2, ..., Yn so variveis aleatrias independentes e com distribuio
X + X 2 + ... + X n
2 2 2
(A) normal.
(B) qui-quadrado com n - 1 graus de liberdade.
(C) t de Student com n graus de liberdade.
(D) F com (n - 1, n - 1) graus de liberdade.
(E) F com (n, n) graus de liberdade.
Questo 15 PETROBRAS 2008/2 [CESGRANRIO]
Dividem-se aleatoriamente 12 lotes de terra em trs grupos.
O primeiro mantido como grupo de controle (C), enquanto os outros dois recebem os
fertilizantes A e B. A tabela abaixo apresenta a ANOVA parcial do experimento.
9. GABARITO
1 a 8 d 15 c
2 e 9 e 16 e
3 e 10 d 17 a
4 errado 11 errado 18 c
5 c 12 errado 19 b
6 certo 13 e
7 b 14 e