Sie sind auf Seite 1von 17

16/11/2015

INFERÊNCIA Inferência
Fazer inferência (ou inferir) = tirar conclusões

Inferência Estatística: conjunto de métodos de análise estatística que


permitem tirar conclusões sobre uma população com base em somente uma
parte dela (uma amostra)

Os métodos de inferência podem ser agrupados em duas categorias:

• Estimação: pontual ou intervalar


• Testes de Hipóteses

Marco Aurélio Suriani


marcosuriani@ufu.br

Amostra Características de uma População


Dada a impossibilidade de observar toda uma população, é necessário Uma população é tipicamente caracterizada através de dois parâmetros: a
recolher um subconjunto que se pretende representativo média e o desvio padrão (raiz da variância). Tais valores são inerentes à
da população. A esse subconjunto dá-se o nome de amostra. população, e não se alteram de acordo com a amostragem realizada.

A cada resultado observado, relativo à VA (variável aleatória) de interesse A média é representada pela variável µ
(i.e., uma característica crucial para o conhecimento do fenômeno aleatório
em estudo) dá-se o nome de dado estatístico. O desvio padrão é representado pela varável σ
A variância é representada pela varável σ²
POPULAÇÃO: todos os indivíduos, itens ou objetos de um grupo
considerado, ou todos os dados estatísticos de uma variável aleatória. A proporção representada pela variável π

AMOSTRA: subconjunto de uma população, selecionado para análise e Tais medidas que descrevem populações também são conhecidas como
que deverá representar o todo. parâmetros. os parâmetros são características de cada população.

PROBLEMA: a população, em praticamente todas as aplicações, não pode


ter sua média e desvio padrão calculados. Apesar da média populacional (µ)
e do desvio padrão populacional (σ) serem os valores corretos, nem sempre
eles podem ser determinados!

Estimativas Estimativas Pontuais


As estimativas visam encontrar valores que representem a média e o desvio Estimativas compostas por apenas um valor. São chamados de estimativas
padrão de uma amostra. amostrais, ou seja, média amostral, desvio padrão amostral, proporção
amostral etc.
As estimativas não são a média nem o desvio padrão, apenas valores
aproximados. São elas:

Apesar de não serem os valores mais corretos, eles possuem a vantagem de População Amostra
poderem ser calculados facilmente.
µ Média x̅
Existem dois tipos de estimativas: as pontuais e as intervalares. Desvio Padrão
σ S
σ² Variância S²
π Proporção p

1
16/11/2015

Estimativas Intervalares Nível de Confiança para Médias


Vimos que uma estimativa pontual é um valor (ou ponto) único
Nível de confiança (1 – α): Probabilidade do intervalo calculado conter a
usado para aproximar um parâmetro populacional. No entanto, a
média populacional.
probabilidade de que uma estimativa pontual coincida com o verdadeiro
valor de um parâmetro populacional é pequena. Então, seria interessante se Nível de Significância (α
α) : Probabilidade do intervalo calculado não conter
a estimativa pontual viesse acompanhada de alguma medida de erro. Esta a média populacional.
medida de erro nos fornece uma ideia da qualidade do estimador pontual. P ( x − e ≤ µ ≤ x + e) = 1 − α
Por isso, ao invés de propormos um único valor como estimativa
de um parâmetro, podemos obter, com base na amostra, um intervalo de Há uma probabilidade de 1 – α da
1 – α = nível de confiança
média estar contida no intervalo
valores ao qual atribuímos um certo grau ou coeficiente de segurança em definido α = nível de significância (probabilidade de erro)
como contém o verdadeiro valor desse parâmetro (desconhecido).
Assim, um intervalo de confiança (estimativa intervalar) Há uma probabilidade α de a média
representa uma amplitude de valores que tem alta probabilidade (grau de amostral estar fora do intervalo definido
(área hachurada)
confiança) de conter o verdadeiro valor da população. 1–α
α/2 α/2

Podemos obter intervalos de confiança para: Se usarmos um desvio padrão em


torno da média (Z = 1), a chance de
• uma média amostral (x̅ )
• um desvio padrão amostral (S) x erro ao estimar a média será de
31,74%. Mas, se usarmos dois (Z =
2), a chance de erro será de 4,56%.
• uma proporção (p) Intervalo de confiança

Interpretação Intervalos de Confiança p/ Médias


Se em um estudo, forem A partir de uma amostra, podemos determinar um Intervalo com 1 - α de
retiradas várias amostras confiança para sua Média Populacional (µ):
aleatórias de tamanho n da
população e que, para cada
Amostra 20 30 40 50 60 70 80 X amostra, seja construído µ = x ± erro
1 um intervalo de (1-α) de
confiança para a variável
2 O cálculo do erro depende das características do problema: se o desvio
desejada.
3 padrão populacional σ é conhecido ou não e a quantidade de amostras. Temos
... assim três casos:
45
46 Os intervalos obtidos
47 serão diferentes, mas
...
Caso 01: desvio padrão populacional σ CONHECIDO
(1-α)% destes intervalos
98 conterão entre os seus Caso 02: desvio padrão populacional σ DESCONHECIDO e n < 30
99 intervalos o valor real do
100 parâmetro. Caso 03: desvio padrão populacional σ DESCONHECIDO e n ≥ 30
µ=50

Ao nível de 95% de confiança espera-se que em 100


intervalos para as amostras, 95 deles contenham a média µ

1º Caso: σ conhecido 1º Caso: σ conhecido


Distribuição das médias amostrais x = média amostral
µ = média populacional (quem deseja - se estimar)
1–α
α /2 α /2 σ = desvio padrão populacional
x n = número de amostras
σ = desvio padrão da população
(µ) α = nível de significância
1 - α = grau de confiança
e = erro 1 - α = nível de confiança
z1 z2
z1−α = consultar tabela distribuição normal
intervalo
2

x − erro e = erro µ = x ± erro


x + erro
σ
e = z1−α OU
P ( x − e ≤ µ ≤ x + e) = 1 − α 2 n
x − erro ≤ µ ≤ x + erro

2
16/11/2015

Como encontrar Z Como encontrar Z


O valor de Z é o equivalente à probabilidade que representa o nível de Exemplo: encontrar Z para um nível de significância de 5%.
confiança adotado. Este valor normalmente não é calculado, mas Nível de Confiança: 95% ou 0,95. Logo, procurar 0,95/2 = 0,475
consultado em tabela. Este curso ensinará a usar a tabela Z para Resposta: 1,96
probabilidades entre 0 e Z.

Neste tipo de tabela, encontra-se z procurando a metade do nível de


confiança na tabela da distribuição normal para probabilidades entre 0 e z.

Nível de confiança: (1 – α) (1 – α)/2

(1-α) /2 (1-α) /2
1–α
α /2 α /2

x
Importante: aqui devemos realizar uma busca inversa!!

Exemplo
EXERCÍCIO Foi realizada uma média entre 200 amostras, obtendo o valor de 15. Sabe-se
que o desvio padrão populacional é 0,5. Calcule o intervalo de confiança
Encontrar Z para com 10% de significância.
os seguintes
níveis de a) Nível de Confiança 90% ou 0,9
confiança (1-α): b) Valor de Z Procurar 0,45 na Tabela Z = 1,645
c) Valor do Erro 0,05816 Usar 0,06
a) 90% d) Intervalo de Confiança Resposta: 14,94 ≤ µ ≤ 15,06
b) 95%
c) 98%
d) 99%
Conclusão: Pode-se afirmar, com 90% de confiança, que
a média µ dessa população está entre 14,94 e 15,06.

Exercício 2º Caso: σ desconhecido e n < 30


Um fabricante de papel para impressora possui um processo de operação
que opera de maneira contínua. É esperado que se papel tenha um E quando o tamanho da amostra é menor que 30
comprimento de 11 polegadas. Além disso, seu desvio padrão é conhecido e (n < 30) e o desvio padrão da população (σ) é
vale 0,02 polegada. A intervalos periódicos, são selecionadas amostras para
determinar se o comprimento médio do papel se mantém igual a 11 desconhecido?
polegadas. Você mandou um funcionário fazer a amostragem e a medição
de 100 folhas de papel hoje pela manhã e ele te retornou informando que a
média era 10,998 polegadas. Supondo que você queira estimar o intervalo
de confiança desta média com 5% de significância, determine: Neste caso não podemos usar a distribuição normal (a
distribuição das médias não é normal).
a) Nível de Confiança
b) Valor de Z Devemos usar a distribuição t (t de student).
c) Valor do Erro Resposta: 0,00392 Usar 0,004
d) Intervalo de Confiança Resposta: 10,994 ≤ µ ≤ 11,002 A distribuição t é similar à distribuição normal, mas tem
maior variação nas caudas (nas pontas da curva).
Conclusão: Pode-se afirmar, com 95% de confiança, que
o comprimento médio do papel produzido por esta
máquina está entre 10,994 e 11,002 polegadas.

3
16/11/2015

2º Caso: σ desconhecido e n < 30 2º Caso: σ desconhecido e n < 30


Neste caso, utiliza-se a x = média amostral
distribuição de t-Student e o µ = média populacional (quem deseja - se estimar)
desvio padrão da amostra (S)!
α /2
1–α s = desvio padrão amostral
α /2
n = número de amostras
x S = desvio padrão da amostra gdl = graud de liberdade = n - 1
(µ) 1 - α = grau de confiança
gdl = número de amostras - 1 α = nível de significância
e = erro
t1 t2 1 - α = nível de confiança
intervalo t α = consultar tabela distribuição t - Student
gdl ,
2
x − erro x + erro e = erro µ = x ± erro
s
e=t α OU
P ( x − e ≤ µ ≤ x + e) = 1 − α gdl ,
2 n
x − erro ≤ µ ≤ x + erro

Como encontrar t Como encontrar t


Atenção: a tabela t adotada neste curso é diferente e fornece a área entre t e Exemplo: encontrar t para um nível de significância de 5% e 10 gdl
o infinito, como mostra a figura abaixo, ao invés da área entre z e zero, Nível de Significância: 5% ou 0,05. Logo, procurar 0,05/2 = 0,025
como no caso da distribuição normal. Resposta: 2,228

EXERCÍCIO

Encontrar t para
os seguintes
níveis de
confiança (1-α):
Como consequência, aqui consultamos a tabela usando α/2, ou seja, a
metade do nível de significância! Ou seja: a) 90%, 8 gdl
b) 95%, 13 gdl
Tabela z: consultar tabela para (1 – α)/2 Metade do nível de confiança c) 98%, 17 gdl
Tabela t: consultar tabela para α/2 Metade do nível de significância d) 99%, 28 gdl

Além disso, essa tabela também depende do número de graus de liberdade,


que vale n – 1.

Exemplo 3º Caso: σ desconhecido e n ≥ 30


Foi realizada uma amostragem entre 20 indivíduos, obtendo uma média
Se o desvio padrão da população é desconhecido:
amostral de 103,2 e um desvio padrão de 8,4. Calcule o intervalo de
confiança com 99% de confiança. S
µ = X ± z.
a) Nível de Significância 1% ou 0,01 n
b) Graus de Liberdade 20 – 1 = 19 Quando o desvio padrão da população não é conhecido (o que é o caso,
c) Valor de t Procurar 0,005 ; 19 na Tabela t = 2,861 geralmente), usa-se o desvio padrão da amostra como estimativa, substituindo-se
d) Valor do Erro 5,3738 Usar 5,4 σx por Sx nas equações, como feito no 2º caso. Isto não acarreta maiores
e) Intervalo de Confiança Resposta: 97,8 ≤ µ ≤ 108,6 dificuldades, pois o desvio padrão amostral dá uma aproximação bastante
razoável do verdadeiro valor, na maioria dos casos.
Conclusão: Pode-se afirmar, com 99% de confiança, que Como visto, para amostras menores que 30, a aproximação normal não é
a média µ dessa população está entre 97,8 e 108,6. adequada. Devemos então usar a distribuição t-Student, como no caso anterior. A
forma da distribuição t é bem parecida com a normal.
Entretanto, pelo teorema do limite central, sabemos que, quando a amostra é
maior que 30, a distribuição das médias é aproximadamente normal. Então,
acima de 30 amostras, voltamos a usar distribuição normal!

4
16/11/2015

3º Caso: σ desconhecido e n ≥ 30 3º Caso: σ desconhecido e n ≥ 30


TEOREMA DO LIMITE CENTRAL (TLC): Uma amostragem
aleatória composta por n amostras se aproxima cada vez mais de uma x − e ≤ µ ≤ x + e ou µ = x ± e
distribuição normal, à medida que n aumenta.
Quando tem n > 30 e Quando tem n > 30 e
Distribuição normal Distribuição t de σ é conhecido σ é desconhecido
padronizada student com n = 12
S
µ : X ± z.σ X 1-α
µ = X ± z.
n
σ Zα/2 Zα/2
σX = x
n Região Região
Crítica Zcrítico Zcrítico Crítica

Distribuição t de σ S
student com n = 3 e = z. e = z.
n n
Substitui o desvio padrão da
A partir de aproximadamente 30 graus de liberdade, a curva t pode ser população σ pelo desvio
considerada como sendo a curva normal. padrão da amostra s

3º Caso: σ desconhecido e n ≥ 30 Exercício


x = média amostral Um dos principais produtos de uma indústria siderúrgica é a
folha de flandres. Havia uma preocupação com a
µ = média populacional (quem deseja - se estimar) possibilidade de haver um número de folhas fora da faixa de
s = desvio padrão amostral especificação de dureza (LIE = 58,0 HR e LSE = 64,0 HR). A
partir desta informação a empresa decidiu estimar a dureza
n = número de amostras
média das folhas de flandres (µ) coletando uma amostra
α = nível de significância aleatória de 49 folhas.
1 - α = nível de confiança Medidas de dureza (HR) das folhas-de-flandres fabricadas pela
siderúrgica
z1−α = consultar tabela distribuição normal 61,0 60,2 60,3 60,3 60,0 61,0 60,3
60,0 60,0 60,9 61,0 61,2 59,2 60,9
2 60,0 60,5 59,8 59,3 61,0 59,6 59,8 X = 60,21
59,6 60,1 58,0 59,8 58,9 57,6 58,0
e = erro µ = x ± erro 60,5 60,1 61,6 61,1 59,7 58,3 61,6 s = 0,61
s 59,5 59,0 60,3 58,7 59,6 54,2 60,3
e = z1−α OU 61,0 59,7 59,9 59,9 60,0 58,6 59,9

2 n Para um grau de confiança de 95%, determine a margem de erro (E) e o


x − erro < µ < x + erro intervalo de confiança para média populacional (µ). 60,04 ≤ µ ≤ 60,38

Exercício Estimativa Pontual para Proporção


Uma máquina automática de suco industrial é regulada de modo que a quantidade • A estimativa de proporções populacionais (dada pela variável π) é
suprida de cada vez, tenha distribuição aproximadamente normal com desvio-
muito semelhante à de médias populacionais;
padrão de 35ml. Determine um intervalo de 96% de confiança para o volume
médio por embalagem de toda produção, sabendo que uma amostra de 30
embalagens teve um conteúdo médio de 290 ml. Estimadores
Grau de confiança de 96%
Dados:
implica em:
X = 290ml 1 - α = 96% Estimativa pontual de Estimativa intervalar de
α = 4% = 0,04
σ = 35ml uma proporção uma proporção
α/2 1-α α/2
n = 30 • 21% das peças são defeituosas; • Entre 18 e 23% das peças são
Z 1−α = Z 0 , 48 = 2,055 -Zα/2 0 Zα/2 •45% dos eleitores votariam defeituosas;
novamente no Presidente Lula • A proporção de votos para reeleição
2
σ do Presidente está entre 15 a 25%.
E = Z1−α .
n x−E ≤ µ ≤ x+E
2 x
35 290 − 13 ≤ µ ≤ 290 + 13 Cálculo: p=
E = 2,055. = 13,132 277 ≤ µ ≤ 303 n
30
Usar E = 13 mL OU : µ = 290 ± 13

5
16/11/2015

Intervalo de Confiança p/ π Intervalos de Confiança p/ π


O QUE É PROPORÇÃO? A partir de uma amostra, podemos determinar um Intervalo com 1 - α de
confiança para sua Proporção Populacional (π):
Num lote de 1000 peças foram encontradas 150 peças defeituosas, logo

Proporção de peças defeituosas é p = (150/1000)*100 = 0,15 = 15% π = p ± erro


Ou seja, existem 15% de peças defeituosas no lote.
O cálculo do erro da proporção, ao contrário do que ocorria no erro da média,
Nos outros lotes a proporção é a mesma? Possivelmente serão diferentes.
não depende das características do problema (nem do conhecimento do
desvio padrão e nem da quantidade de amostras).

O que podemos falar sobre esta proporção na população?


Em qualquer problema do tipo, utiliza-se a Distribuição Normal.

Precisamos estimar

Intervalo de confiança

Intervalos de Confiança p/ π Intervalos de Confiança p/ π


Sendo: Estimativa pontual Estimativa intervalar
π = proporção da população (proporção populacional) O estimador da proporção amostral:
p = proporção média da amostra (x/n) (proporção amostral)  p.q 
Sendo X o número de π =  p ± Z 1−α . 
q =1 − p x elementos da amostra  2 n 
Desvio padrão da distribuição p= (n) que apresenta a • Intervalo de (1-α)% de confiança;
Erro das médias das proporções n característica de estudo;
• Supondo amostras grandes (n > 40);
pq σ = pq
e = z (1−α ) / 2 O erro-padrão da estimativa:
n
1- α = grau de confiança Sendo:
Intervalo de confiança p.q
α = nível de significância EP ( p ) = q = 1− p
π = p ±e (probabilidade de erro) n

OU A proporção populacional é igual a


proporção amostral!
p −e ≤ π ≤ p + e

Intervalos de Confiança p/ π Exercícios


p = proporção média amostral (p = x/n) Uma amostra de 200 observações acusou 20 baterias
defeituosas numa remessa. Usando uma confiança de 99%,
q = complement o de p : ( q = 1 − p ) determine o erro de estimação máximo provável.
π = proporção média populacional (quem deseja - se estimar) x 20
p= = = 0,10 q = 1 − p = 1 − 0,10 = 0,90
n = número de amostras n 200
α = nível de significância Grau de confiança de 95% implica em:
1 - α = nível de confiança 1 - α = 99% Z 1−α = Z 0 , 495 = 2,575
α = 1% = 0,010 2
z1−α = consultar tabela distribuição normal Usar 0,055
2
p.q (0,10 ).(0,90 )
e = erro π = p ± erro e = Z 1−α . = 2,575 = 0,0546 e = 5,5 pp
2 n 200
pq π = 0,1 ± 0,055
e = z1−α OU
2 n Conclusão: Pode-se afirmar, com 99% de confiança, que entre
p − erro ≤ π ≤ p + erro 4,5% e 15,5% das baterias desta remessa são defeituosas.

6
16/11/2015

Exercícios Exercícios
A Polícia Rodoviária faz mensalmente uma pesquisa para avaliar a velocidade Uma amostra aleatória de 40 contas não-comerciais na filial de um banco
desenvolvida nas rodovias durante o período de 2 às 4 horas da madrugada. Num acusou saldo médio de R$140,00 com desvio-padrão de R$30,00.
período de observação e em um trecho específico, 100 carros passaram por um a) Construa um intervalo de 95% confiança para a verdadeira média.
aparelho de radar a uma velocidade média de 115 km/h, com desvio padrão de b) Construa um intervalo de 99% confiança para a verdadeira média.
10 km/h. c) A que conclusão podemos chegar com os resultados das letras anteriores?
a) Qual a estimativa pontual da verdadeira média da população? 115 km/h Z 1−α = Z 0, 475 ≈ 1,96 Z 1−α = Z 0 , 495 ≈ 2,58
b) Construa um intervalo de 98% de confiança para a média da população. 2 2

Grau de confiança de 98% implica em: Intervalo de confiança Margem de erro: Margem de erro:
1 - α = 98% s 30 s 30
Z 1−α = Z 0, 49 ≈ 2,33 x−E ≤ µ ≤ x+E e = Z 1−α . = 1,96. = 9,30 e = Z 1−α . = 2,58 . = 12,24
α = 2% = 0,02 n 40 n 40
2 2 2
115 − 2,3 ≤ µ ≤ 115 + 2,3
Margem de erro: Intervalo de confiança Intervalo de confiança
s 10
e = Z 1−α . = 2,33. = 2,33 [112,7 ; 117,3] km/h
2 n 100 140 − 9,30 ≤ µ ≤ 140 + 9,30 140 − 12, 24 ≤ µ ≤ 140 + 12, 24
Usar e = 2,3 km/h [127,76 ; 152,24] R$
[130,70 ; 149,30] R$

140,00 + 9,30 140,00 + 12,24

Exercícios Estimativa Pontual para Variância


Um grupo de pesquisa de mercado constatou que 25% dos 200 fregueses
• A estimativa da variância populacional (dada pela variável σ²) é
recentemente entrevistados num grande shopping center de Belo Horizonte
realizada através da variância amostral (dada por S²), calculada pela
residem a mais de 5 Km deste local.
equação a seguir, conforme já estudado:
a) Construa um intervalo de 95% de confiança para a percentagem efetiva
de fregueses que moram a mais de 5 km do Shopping Center;
b) Qual é o erro provável máximo associado ao intervalo?
x
p= = 0, 25 q = 1 − p = 1 − 0,25 = 0,75
n
p.q (0, 25).( 0,75) • Este parâmetro também pode ser estimado de maneira intervalar,
E = Z 1−α = 1,96. = 0,06
n 200 através de um Intervalo de Confiança.
2

Erro máximo 6%. • Utiliza-se, neste caso, a distribuição χ² (chi-quadrado).


• Esta distribuição modela a razão entre dois quadrados. Ela não é
p−e <π < p+e simétrica em relação à média. Ela depende do número de graus de
Intervalo de 0, 25 − 0,06 < π < 0, 25 + 0,06 liberdade, bem como a distribuição t-Student.
confiança
0,19 < π < 0,31

Intervalos de Confiança p/ Variância

Observação: os valores de Q são consultados na tabela para as probabilidades indicadas na


equação e para o número de graus de liberdade do problema (gdl = n – 1)

7
16/11/2015

Intervalos de Confiança p/ Variância Exercício


S ² = variância amostral O peso de componentes mecânicos produzidos por uma determinada empresa é
uma variável aleatória que se supõe ter distribuição normal. Pretende-se estudar a
σ ² = variância populacional (quem deseja - se estimar) variabilidade do peso dos referidos componentes. Para isso, uma amostra de
tamanho 11 foi obtida, cujos valores em grama são:
n = número de amostras 98 97 102 100 98 101 102 105 95 102 100
Construa um intervalo de confiança para a variância do peso, com um grau de
gdl = graus de liberdade (gdl = n - 1) confiança igual a 95%.

α = nível de significância ; 1 - α = nível de confiança S² = 8


3,91 ≤ σ ² ≤ 24,64
Qα / 2 ; Q1−α / 2 = consultar tabela distribuição χ ² n = 11
gdl = n − 1 = 10
(n - 1)s²
= limite inferior do intervalo de confiança Q10;α / 2 = Z10; 0, 025 = 3,247
Q1−α / 2
Q10;1−α / 2 = Z10; 0, 975 = 20, 483
(n - 1)s²
= limite superior do intervalo de confiança (n - 1)s² 10x8
Qα / 2 LI = = = 3,91
Qα / 2 20,483
(n - 1)s² 10x8
LS = = = 24,64
Q1−α / 2 3,247

Exemplo Teste de Hipóteses


Teste de Hipóteses é um procedimento para verificar se os dados
Uma marca de refrigerantes quer estudar as vendas de seus corroboram (concordam) com alguma afirmativa ou não, sobre uma
produtos em um determinado supermercado. Em uma amostragem população.
composta por 10 dias, constatou-se uma venda média diária de 50,3 Um teste de hipóteses consiste em analisar uma amostra, por meio
garrafas, com desvio padrão de 18,7264. Calcule o IC para a da teoria de probabilidades, para verificar se uma afirmativa acerca
variância dessas vendas, com 5% significância. de determinado parâmetro é rejeitada ou não.
S ² = 350,68 165,91 ≤ σ ² ≤ 1168,93
O teste consiste em se determinar duas hipóteses: a Hipótese Nula
n = 10 12,9 ≤ σ ² ≤ 34, 2 (H0) e a Hipótese Alternativa (H1) e depois testá-las para decidir
gdl = n − 1 = 9 qual delas será aceita e qual será rejeitada.
Conclusão: Tem-se 95% de confiança
Q10;α / 2 = Z 9; 0 , 025 = 2,7 de que a variância das vendas diárias
desta marca de refrigerantes no Assim, podemos rejeitar a hipótese nula (considerar que a hipótese
Q10;1−α / 2 = Z 9; 0 , 975 = 19,023 supermercado pesquisado está entre alternativa é a conclusão) ou não rejeitar a hipótese nula (considerá-
165,91 e 1168,93. la como a conclusão).
(n - 1)s² 9x350,68 OU: Tem-se 95% de confiança
LI = = = 165,91
Qα / 2 19,023 de que o desvio padrão das vendas
diárias desta marca de refrigerantes no
(n - 1)s² 9x350,68 supermercado pesquisado está entre
LS = = = 1168,93
Q1−α / 2 2,7 12,9 e 34,2.

Teste de Hipóteses Teste de Hipóteses


Os passos básicos de um teste de hipótese são:
Um testes de Hipóteses pode ser usado para testar uma afirmação
1) Elaborar as hipóteses (nula e alternativa) acerca de:
2) Determinar a distribuição que será usada
3) Calcular uma estatística padronizada do teste (medida da 1) Média: “É possível afirmar, com base nesta amostra, que a
diferença entre a estimativa pontual e o valor que queremos média da população é maior que 170 cm?”
testar) 2) Proporção: “Os dados corroboram a afirmação de que a
4) Transformar a significância do teste em um valor crítico para a proporção desta população é diferente de 0,45?”
estatística do teste (caso tal valor seja excedido, significa que a 3) Variância
estimativa pontual é significativamente diferente do valor 4) Duas médias: “Há evidências que a média da população A é
testado) menor do que a média da população B?”
5) Determinar a Região de Rejeição (ao comprar a estatística 5) Duas proporções
padronizada do teste com seu valor crítico) e decidir se 6) Duas variâncias
rejeitaremos a Hipótese Nula ou não.
6) Elaborar uma conclusão. etc...

Os procedimentos gerais do teste serão explicados com o caso do


Teste de Hipótese para a média, a seguir.

8
16/11/2015

Teste de Hipótese para a média Teste de Hipótese para a média

O teste de hipótese para a média de um conjunto de dados consiste


em testar se a média da população da qual as amostras foram A hipótese alternativa, por sua vez, poderá ser a afirmação de que a
retiradas é igual a um determinado valor ou não. média é menor, maior ou simplesmente diferente do valor de teste
µ0. A hipótese alternativa adequada ao teste é determinada de
Este valor que está sendo testado (valor de teste) é conhecido como acordo com as características de cada problema. Além disso, a
µ0 e é o ponto de partida para os cálculos realizados no teste. hipótese alternativa definirá qual o procedimento do restante do
teste.
Como se deseja comparar o conjunto de dados com o valor de teste
µ0, a Hipótese nula será a afirmação de que a média da população é
H1: µ < µ0 Teste unicaudal inferior
o valor testado, ou seja,
H1: µ > µ0 Teste unicaudal superior
H0: µ = µ0 H1: µ ≠ µ0 Teste bicaudal

Teste de Hipótese para a média Teste de Hipótese para a média


Quando a distribuição usada no teste é a normal, a estatística
Uma vez definida a hipótese alternativa, calculamos a estatística padronizada do teste é a variável z. Esta estatística pode ser
padronizada do teste. A estatística do teste depende de dois calculada tanto para o desvio padrão populacional (σ) quanto para o
fatores: conhecimento prévio do desvio padrão populacional (σ) ou desvio padrão amostral (S), mas neste último caso, desde que
não (conhece-se apenas o S) e do número de amostras (se menor tenhamos pelo menos 30 amostras.
ou maior do que 30).
As fórmulas para os dois casos são praticamente idênticas, exceto
σ conhecido (para qualquer n) Distribuição Normal (utiliza-se o σ) que uma usa o valor de σ e outra usa o valor de S.
σ desconhecido e n ≥ 30 Distribuição Normal (utiliza-se o S)
σ desconhecido e n < 30 Distribuição t-Student (utiliza-se o S)
̅−
= , para σ
Estatística padronizada quando Dist. Normal: z /
Estatística padronizada quando Dist. T-Student: t
̅−
= , para σ ≥ 30
/

Teste de Hipótese para a média Teste de Hipótese para a média


Já o valor crítico do teste (zc) é consultado na tabela de distribuição
normal. A consulta na tabela dependerá se o teste é unicaudal ou se
é bicaudal. Ressalta-se que esta forma de calcular só é válida para
Caso o desvio padrão populacional (σ) não seja conhecido (ou seja,
a tabela de distribuição normal para valores entre 0 e Z.
conhecemos apenas o desvio padrão amostral S), e a quantidade
de amostras seja menor do que 30, então é usado a distribuição de
t-Student. Z0,5-α se unilateral
Z(1-α)/2 se bilateral
Neste caso, as hipóteses nula e alternativa são calculadas da
mesma forma. A estatística padronizada do teste (t) também é
calculada da mesma forma que a estatística padronizada da No caso da distribuição t-Student, o valor crítico também depende
distribuição normal, no caso em que não se conhece σ. do número de graus de liberdade, que nada mais é do que o
número de amostras menos 1. Importante ressaltar que esta forma
de calcular só é válida para a tabela de distribuição t-Student para
̅− valores entre menos infinito e t.
= , para σ < 30
/
tgdl; α se unilateral
tgdl; α/2 se bilateral

9
16/11/2015

Teste de Hipótese para a média Exemplo


Em um anúncio, uma pizzaria afirma que a média de seu tempo de
Em seguida, é determinada a Região de Rejeição do teste. A entrega é menor que 30 minutos. Uma seleção aleatória de 36 tempos de
região de rejeição é a região que indica se devemos rejeitar a entrega tem média amostral de 28,5 e desvio padrão de 3,5 minutos. Há
Hipótese Nula ou não. evidência suficiente para apoiar a afirmação em α = 0, 01?

Alegação da pizzaria: µ < 30


Caso a estatística padronizada do teste esteja na região de rejeição,
rejeitamos a hipótese nula, ou seja, aceitamos a hipótese H0: µ = 30
alternativa. Caso a estatística padronizada do teste esteja fora da H1: µ < 30 Teste unicaudal inferior
região de rejeição, aceitamos a hipótese nula, ou seja, rejeitamos a
xb = 28,5
hipótese alternativa. S = 3,5
n = 36 σ desconhecido e n > 30: distribuição normal
Determinamos a região de rejeição de uma mesma maneira,
Estatística Padronizada do Teste: z = -2,57
independente do tipo de teste e do tipo de Hipótese Alternativa
Valor Crítico: zc = z0,5- α = z0,49 = 2,33
escolhida:
RR: |z| > zc RR: |z| > zc |z| > 2,33 |z| = 2,57 > 2,33 está na Região de Rejeição de H0
RR: |t| > tc
Conclusão: Tem-se evidência suficiente para concluir que a média do tempo de entrega é
menor que 30 minutos a 1% de significância.

Exemplo Exemplo
O departamento de agricultura dos Estados Unidos reporta que o custo
Em Ilinois, uma amostra aleatória de 85 alunos da oitava série tem nota
médio para se criar um filho até a idade de 2 anos na zona rural é de
média de 282 com desvio padrão de 35 em um teste nacional de matemática.
$10.460. Você acredita que esse valor está incorreto, então você seleciona
O resultado do teste informa ao administrador de uma escola estadual que a
uma amostra aleatória de 900 crianças (com idade até 2 anos) e descobre
nota média no teste para os alunos da oitava série do estado é mais do que
que a média dos custos é $ 10.345 com desvio padrão de $1.540. Com α = 0,
275. Com α = 0,04, há evidência suficiente para apoiar a afirmação do
05, há evidências suficiente para concluir que a média do custo é diferente
administrador?
de $10.460?
Alegação do administrador: µ > 275
Alegação do pesquisador: µ ≠ 10.460
H0: µ = 275
H0: µ = 10.460
H1: µ > 275 Teste unicaudal superior
H1: µ ≠ 10.460 Teste bicaudal
xb = 282
xb = 10.345
S = 35
S = 1.540
n = 85 σ desconhecido e n > 30: distribuição normal
n = 900 σ desconhecido e n > 30: distribuição normal
Estatística Padronizada do Teste: z = 1,84
Estatística Padronizada do Teste: z = -2,24
Valor Crítico: zc = z0,5- α = z0,46 = 1,75
Valor Crítico: zc = z0,5- α/2 = z0,475 = 1,96
RR: |z| > zc |z| > 1,75 |z| = 1,84 > 1,75 está na Região de Rejeição de H0
RR: |z| > zc |z| > 1,96 |z| = 2,24 > 1,96 está na Região de Rejeição de H0
Conclusão: Tem-se evidência suficiente para apoiar a afirmação do administrador, ou seja,
Conclusão: Tem-se evidência suficiente para concluir que a média do custo de se criar um
há evidência de que a nota média no teste para os alunos da oitava série do estado de
criança desde o nascimento até os 2 anos em uma área rural dos Estados Unidos é
Ilinois é significativamente maior que 275 com α = 0, 04
significativamente diferente de $ 10.460 a 5% de significância.

Exemplo Exemplo
Os cinco funcionários a seguir realizaram um teste para saber qual o peso
De uma população de alunos foi extraída uma amostra de 6 indivíduos com máximo que conseguiam levantar: 25,8 36,6 26,3 21,8 27,2. Tais dados
as seguintes alturas: 150, 152, 153, 160, 161, 163. Teste a afirmativa de que a sugerem que o valor médio da população de funcionários desta empresa
média de altura desta população é 160 a 5% de significância. excede 25 kg com significância de 5%?
Alegação: µ = 160 Alegação: µ > 25
H0: µ = 160 H0: µ = 25
H1: µ ≠ 160 Teste bicaudal H1: µ > 25 Teste unicaudal superior

xb = 156,5 xb = 27,54
S = 5,46 S = 5,47
n=6 σ desconhecido e n < 30: distribuição t-Student n=5 σ desconhecido e n < 30: distribuição t-Student

Estatística Padronizada do Teste: t = -1,57 Estatística Padronizada do Teste: t = 1,04


Valor Crítico: tc = tgdl; α/2 = t5; 0,025 = 2,571 Valor Crítico: tc = tgdl; α = t4; 0,05 = 2,132

RR: |t| > tc |t| > 2,571 |t| = 1,57 < 2,57 está FORA da Região de Rejeição de H0 RR: |t| > tc |t| > 2,132 t = 1,04 < 2,13 está FORA da Região de Rejeição de H0

Conclusão: Não há evidências para afirmarmos que a média de altura da população de Conclusão: Não há evidências para afirmarmos que a média de peso que pode ser
alunos seja significativamente diferente de 160 a 5% de significância. levantado pelos funcionários desta empresa significativamente maior do que 25 kg a 5% de
significância.

10
16/11/2015

Teste de Hipótese para proporção Teste de Hipótese para proporção


O valor crítico também depende se o teste é bicaudal ou unicaudal,
Caso desejemos testar uma afirmação sobre uma proporção p, com sendo determinado da mesma forma que no caso da distribuição
base em seu estimador pontual = !/ , podemos realizar um normal. Vale lembrar que esta forma de calcular só é válida para a
procedimento semelhante aos anteriores. A distribuição usada será tabela de distribuição normal para valores entre 0 e Z.
a normal. O É importante que tenhamos pelo menos 5 indivíduos em
cada grupo, ou seja, X > 5 (grupo p) e n-X > 5 (grupo q). Z0,5-α se unilateral
Primeiramente, as hipóteses nula e alternativa são determinadas da
Z(1-α)/2 se bilateral
mesma forma (H0: π = p0 e H1: π < p0 ou π > p0 ou π ≠ p0). Já a
estatística padronizada do teste (z) é calculada da seguinte forma: Por fim, é determinada a Região de Rejeição do teste, de maneira
bastante idêntica ao caso da distribuição normal:

=
"#
RR: |z| > zc

Exemplo Exemplo
A Zogby Internacional declara que 45% das pessoas nos Estados Unidos
Uma pesquisa conclui (afirma) que 90% dos médicos recomendam aspirina
são a favor de tornar a venda do cigarro ilegal dentro dos próximos 10 anos.
a pacientes que têm filhos. Teste a afirmação, ao nível de significância de
Você decide testar essa afirmação e entrevista uma amostra de 200 pessoas,
0,05, de que a percentagem é inferior a 90%, se numa amostra aleatória de
dentre as quais, 49% são a favor da lei. Com α = 0,05 há evidência o
100 médicos, 80% recomendam aspirina.
Alegação: π < 90%
bastante para apoiar a afirmação?
Alegação: π = 45%
H0: π = 90%
H0: π = 45%
H1: π < 90% Teste unicaudal inferior
H1: π ≠ 45% Teste bicaudal
p = 80%
p0 = 90% e q0 = 10% p = 49%
p0 = 45% e q0 = 55%
n = 100
n = 200
Estatística Padronizada do Teste: z = -3,33
Estatística Padronizada do Teste: z = 1,14
Valor Crítico: zc = z 0,5-α = z0,45 = 1,645
Valor Crítico: zc = z 0,5-α/2 = z0,475 = 1,96
RR: |z| > zc |z| > 1,645 |z| = 3,33 < 1,645 está na Região de Rejeição de H0
RR: |z| > zc |z| > 1,96 z = 1,14 < 1,96 está FORA da Região de Rejeição de H0
Conclusão: Há evidências para afirmarmos que a proporção de médicos que recomendam
Conclusão: No nível de significância de 5%, não há evidência o suficiente para rejeitar a
aspirina a pacientes que têm filhos é menor que 90% a 5% de significância. Isto é, a
afirmação de que 45% das pessoas nos Estados Unidos são a favor de tornar a venda de
afirmativa ou conclusão da referida pesquisa não é procedente.
cigarros ilegal dentro dos próximos 10 anos.

Valor p (p-value) Valor p (p-value)


Relembremos o seguinte problema: Em um anúncio, uma pizzaria afirma que a
média de seu tempo de entrega é menor que 30 minutos. Uma seleção aleatória
de 36 tempos de entrega tem média amostral de 28,8 e desvio padrão de 3,5
minutos. Há evidência suficiente para apoiar a afirmação em α = 0, 01? O valor p (ou nível de significância observado) é o menor nível de significância em
que H0 seria rejeitada, quando um procedimento do teste especificado é usado
Alegação da pizzaria: µ < 30
H0: µ = 30 H1: µ < 30 Teste unicaudal inferior em um determinado conjunto de dados. Uma vez que o valor p tenha sido
xb = 28,8 S = 3,5 n = 36 σ desconhecido e n > 30: distribuição normal determinado, a conclusão resulta de sua comparação com a significância α:
Estatística Padronizada do Teste: z = -2,06
Valor p ≤ α rejeita H0 ao nível de significância α
Ao analisarmos bem a situação, notamos que a Hipótese Nula é rejeitada ou
Valor p > α não rejeita H0 ao nível de significância α
aceita dependendo do valor de significância escolhido:
Evidentemente, quando calculamos o valor p, não devemos escolher uma
α = 0,050 RR: z < -1,645 Rejeite H0
significância que force a hipótese nula a ser rejeitada ou não, de acordo com os
α = 0,025 RR: z < -1,960 Rejeite H0
nossos interesses. O procedimento correto é determinar uma significância α
α = 0,010 RR: z < -2,330 Não Rejeite H0
máxima aceitável. O valor p poderá nos dizer, na verdade, se podemos usar uma
α = 0,005 RR: z < -2,580 Não Rejeite H0
significância “mais exigente” ou não.
Em outras palavras, à medida em que ficamos mais exigentes, fica mais difícil
rejeitar a Hipótese Nula. Fica mais difícil alegar que existe uma diferença
significativa entre o valor proposto (o valor de teste) e os dados estatísticos
amostrados. Mas então, como se tornar menos dependentes da significância α?

11
16/11/2015

Valor p (p-value) Valor p (p-value)


Os passos básicos de um teste de hipótese passam a ser: Notemos que a quinta etapa é sempre uma comparação. Entretanto,
inicialmente dispomos de dois valores para comparar:
1) Elaborar as hipóteses (nula e alternativa)
2) Determinar a distribuição que será usada 1. Estatística Padronizada do Teste (z ou t)
3) Calcular uma estatística padronizada do teste (medida da 2. Significância (α)
diferença entre a estimativa pontual e o valor que queremos
testar) Contudo, o segundo é probabilidade e o primeiro não. Não podemos
4) Transformar a estatística padronizada do teste em um valor de compará-los!
probabilidade – ou valor p (caso tal valor não exceda a Existem duas soluções:
significância, significa que a estimativa pontual é
significativamente diferente do valor testado) • Transformamos a significância em um valor na escala z que
5) Determinar a Região de Rejeição (ao comparar a significância possa ser comparado com a Estatística Padronizada do Teste
com o valor p) e decidir se rejeitaremos a Hipótese Nula ou não. (método z crítico)
6) Elaborar uma conclusão. • Transformamos a Estatística Padronizada em um valor de
probabilidade que possa ser comparado com a significância
(método valor p)

Valor p (p-value) Valor p (p-value)


Como calcular o valor p?
Ele depende de φ(z), que a probabilidade de z (ou a área sobre a curva da
Valor p ≤ α rejeita H0 ao nível de significância α
distribuição normal limitada por z). O tipo de distribuição, o tipo de teste (uni ou
Valor p > α não rejeita H0 ao nível de significância α
bicaudal) e o tipo de tabela que consultaremos também são importantes.
Na prática, valores p altos, acima de 5% (0,05), sempre levam a não rejeitar H0.
Tab. 0 a z valor p = 0,5 – φ(z)
Já valores p muito baixos, abaixo de 0,1% (0,001) sempre levam a rejeitar H0. Unicaudal
Distribuição Tab. < z valor p = 1 – φ(z)
Uma possibilidade é escrever o seguinte: Normal Tab. 0 a z valor p = 1 – 2φ(z)
Bicaudal
H0: µ = 20 Tab. < z valor p = 2 – 2φ(z)
H1: µ > 20 Distribuição Unicaudal Tab. < z valor p = 1 – φ(t, gdl)
t-Student Bicaudal Tab. < z valor p = 2 – 2φ(t, gdl)
Valor p = 0,0003
Observação: O valor p de um teste bicaudal é o dobro do valor p do teste
Conclusão: Com um valor p = 0,0003, temos evidência suficiente de que a média
unicaudal equivaletne.
da população é significativamente maior do que 20 unidades.
EXEMPLO: Calcule o valor p para um teste bilateral com distribuição normal e
estatística padronizada z = 2,32. Resposta: 0,0204

Teste de Hipótese para 2 médias Teste de Hipótese para 2 médias


O teste de hipótese para a média de um conjunto de dados consiste
em testar se a média populacional de uma variável 1 é igual ou
diferente à média populacional de uma variável 2, através de seus
estimadores pontuais (médias amostrais).
A hipótese alternativa, por sua vez, poderá ser a afirmação de que a
Na verdade, testa-se se a diferença entre as duas médias diferença entre as médias é menor, maior ou simplesmente diferente
populacionais pode ser dita significativamente igual a uma diferença do valor de teste ∆0. A hipótese alternativa adequada ao teste é
∆0 ou não. Para testar se são iguais, basta fazer ∆0 = 0. Este valor determinada de acordo com as características de cada problema.
de ∆0 é similar ao µ0 do teste para uma média.

Como se deseja medir o tamanho da diferença entre as médias H1: µ1 – µ2 < ∆0 Teste unicaudal inferior
populacionais (através de ∆0), a Hipótese nula será a afirmação de H1: µ1 – µ2 > ∆0 Teste unicaudal superior
que a diferença entre as médias da populações é a diferença
testada, ou seja,
H1: µ1 – µ2 ≠ ∆0 Teste bicaudal

H0: µ1 – µ2 = ∆0

Para ∆0 = 0, temos H0: µ1 – µ2 = 0 ou H0: µ1 = µ2

12
16/11/2015

Teste de Hipótese para 2 médias Teste de Hipótese para 2 médias


Quando a distribuição usada no teste é a normal, a estatística
padronizada do teste é a variável z. Ela é dada por:
Uma vez definida a hipótese alternativa, calculamos a estatística ( &1 − &2) − Δ0
padronizada do teste. A estatística do teste depende do = , para σ
* *
conhecimento prévio dos desvios-padrão populacionais (σ1 e σ2) ou 1
+ 2
não (conhece-se apenas S1 e S2). 1 2

Δ0 = 1 − 2
σ conhecido (para qualquer n) Distribuição Normal
σ desconhecido (para qualquer n) Distribuição t-Student
Já o valor crítico do teste (zc) é consultado na tabela de distribuição
normal. A consulta na tabela dependerá se o teste é unicaudal ou se
Estatística padronizada quando Dist. Normal: z
é bicaudal. Vale lembrar que esta forma de calcular só é válida para
Estatística padronizada quando Dist. T-Student: t
a tabela de distribuição normal para valores entre 0 e Z.

Z0,5-α se unilateral
Z(1-α)/2 se bilateral Rejeitar H0 se |z| > zc
Não rejeitar H0 caso contrário

Teste de Hipótese para 2 médias Teste de Hipótese para 2 médias


Quando a distribuição usada no teste é a t-Student, a estatística Quando a distribuição usada no teste é a t-Student, a estatística
padronizada do teste é a variável t. Entretanto, ela depende do fato padronizada do teste é a variável t. Entretanto, ela depende do fato
das variâncias populacionais serem iguais ( 12 = 22) ou não das variâncias populacionais serem iguais ( 12 = 22) ou não
( 12 ≠ 22 ). Para o primeiro caso, tem-se: ( 12 ≠ 22 ). Para o segundo caso, tem-se:

( &1 − &2) − Δ0 ( &1 − &2) − Δ0


= , para σ . 1
2 = 2
2 = , para σ 1
2 ≠ 2
2
−1 *+ −1 * 1 1 * *
1 1 2 2
+ 1
+ 2
- . 1 2 1 2

Δ0 = 1− 2 - .= 1+ 2−2 Δ0 = 1− 2 - .= 1 + 2 −2

Já o valor crítico do teste (tc) é consultado na tabela de distribuição Já o valor crítico do teste (tc) é consultado na tabela de distribuição
t-Student. A consulta na tabela dependerá se o teste é unicaudal ou t-Student. A consulta na tabela dependerá se o teste é unicaudal ou
se é bicaudal e do número de graus de liberdade. Vale lembrar que se é bicaudal e do número de graus de liberdade. Vale lembrar que
esta forma de calcular só é válida para a tabela de distribuição t- esta forma de calcular só é válida para a tabela de distribuição t-
Student para valores entre menos infinito e t. Student para valores entre menos infinito e t.
Rejeitar H0 se |t| > tc Rejeitar H0 se |t| > tc
tgdl; α se unilateral Não rejeitar H0 caso contrário tgdl; α se unilateral Não rejeitar H0 caso contrário
tgdl; α/2 se bilateral tgdl; α/2 se bilateral

Exemplo Exemplo
Uma marca de refrigerantes quer saber se existe diferença entre Uma pizzaria resolveu anunciar que entrega pizzas mais rápido que
expôr seus produtos no centro do corredor ou expô-los na ponta do seu concorrente, que fica do outro lado da rua. Para testar esta
corredor. Para tanto, ela fez duas amostragens, uma para cada tipo alegação, foram medidos 10 tempos de entrega de cada pizzaria. A
de exposição. Em uma amostragem composta por 10 dias, pizzaria do anúncio entregou pizzas com um tempo médio de 16,7
constatou-se que a exposição normal leva a uma venda média min com desvio padrão de 3,0955 min. Já sua concorrente entregou
diária de 50,3 garrafas, com desvio padrão de 18,7264. Em outra pizzas com 18,88 min com desvio de 2,8662 min. Existe evidência
amostragem também de 10 dias, constatou-se que a exposição na para suportar a alegação da pizzaria? (5% significância)
ponta do corredor leva a uma média de 72 garrafas por dia com
desvio padrão de 12,5433. Há evidência de que o tipo de exposição n1 = 10, xb1 = 16,70 e s1 = 3,0955
influencia nas vendas diárias? (5% significância) n2 = 10, xb2 = 18,88 e s2 = 2,8662 desconhecido, 1
2 = 2
2

∆0 = 0
n1 = 10, xb1 = 50,3 e s1 = 18,7264
H 0: µ 1 – µ 2 = 0
n2 = 10, xb2 = 72,0 e s2 = 12,5433 desconhecido, 1
2 = 2
2
H1: [ µ1 – µ2 < 0 ] OU [ µ1 < µ2 ] Teste Bicaudal
∆0 = 0 Conclusão: Há evidências
suficiente de que a forma de t = -1,6341 tc = 1,7341 Não rejeita H0
H 0: µ 1 – µ 2 = 0 exposição dos refrigerantes
H 1: µ 1 – µ 2 ≠ 0 Teste Bicaudal influencia significativamente nas Conclusão: Com 5% de significância, não há evidência de que a pizzaria
vendas, com 5% de significância.
que fez o anúncio entregue pizzas em um prazo significativamente menor
t = -3,0446 tc = 2,1009 Rejeita H0 do que seu concorrente.

13
16/11/2015

Teste de Hipótese para 2 variâncias Teste de Hipótese para 2 variâncias


Também é possível testar se duas variâncias são iguais ou não, ou
o quanto uma é maior do que a outra. Entretanto, existe uma
diferença metodológica neste caso. Enquanto que, no caso da A hipótese alternativa, por sua vez, poderá ser a afirmação de que a
média, se testava a diferença entre os parâmetros de duas razão entre as variâncias é menor, maior ou simplesmente diferente
populações, aqui se testa a razão entre duas variâncias. de um. A hipótese alternativa adequada ao teste é determinada de
Consequentemente, se lá testávamos que a diferença entre duas acordo com as características de cada problema.
médias era zero para sabermos se eram iguais, aqui testamos se a
razão entre duas variâncias vale um para sabermos se são iguais. Entretanto, como estudaremos aqui apenas o caso de igualdade,
usaremos sempre o teste bicaudal.
Entretanto, aqui estudaremos apenas o caso mais simples: saber se
duas variâncias podem ser ditas significativamente diferentes ou se
isso não é possível. Desta forma, sempre teremos a seguinte H1: σ1² < σ2² Teste unicaudal inferior
hipótese nula: H1: σ1² > σ2² Teste unicaudal superior
H1: σ1² ≠ σ2² Teste bicaudal
H0: σ1² = σ2²

Ou, em termos mais gerais, H0: σ1² / σ2² = 1

Teste de Hipótese para 2 variâncias


Uma vez definida a hipótese alternativa, calculamos a estatística
padronizada do teste. Neste caso, usaremos a Distribuição F.

Estatística padronizada quando Dist. F: F

Ela é dada por:

1
2
- .1 = 1 −1
0=
2
2 - .2 = 2 −1

Já o valor crítico do teste (Fc) é consultado na tabela de distribuição


F. A consulta na tabela dependerá se o teste é unicaudal ou se é
bicaudal e do número de graus de liberdade de cada amostra. Existe
uma tabela para cada valor de probabilidade (α ou α/2) e que
relaciona os valores de F para cada par de graus de liberdade.

Fc = Fgdl1 ; gdl2; α se unilateral Rejeitar H0 se F > Fc


Fc = Fgdl1 ; gdl2; α/2 se bilateral Não rejeitar H0 caso contrário

Exemplo Testes chi²


Uma marca de refrigerantes quer saber se existe diferença entre
expôr seus produtos no centro do corredor ou expô-los na ponta do
corredor. Para tanto, ela fez duas amostragens, uma para cada tipo
de exposição. Em uma amostragem composta por 10 dias,
constatou-se que a exposição normal leva a uma venda média
diária de 50,3 garrafas, com desvio padrão de 18,7264. Em outra Os testes chi² (Qui-Quadrado) utilizam a distribuição χ² para testar
amostragem também de 10 dias, constatou-se que a exposição na hipóteses de aderência e de independência.
ponta do corredor leva a uma média de 72 garrafas por dia com
desvio padrão de 12,5433. Suas variâncias podem ser ditas Teste de Aderência: Testar a adequação de um conjunto de dados
diferentes ou não é possível afirmar isto? (5% significância) a um modelo probabilístico.

n1 = 10, xb1 = 50,3 e s1 = 18,7264 S12 = 350,6778 Teste de Independência: Testar se duas variáveis são
n2 = 10, xb2 = 72,0 e s2 = 12,5433 S22 = 157,3333 independentes ou não.
Conclusão: Não há evidências
H 0: σ 1² = σ 2² suficiente de que a forma de
H 1: σ 1² ≠ σ 2² Teste Bicaudal exposição dos refrigerantes
influencia significativamente nas
variâncias das vendas, com 5%
F = 2,2289 Fc = 4,03 Não Rejeita H0 de significância.

14
16/11/2015

Teste chi² para Aderência Teste chi² para Aderência


Teste de Aderência: Testar a adequação de um conjunto de dados Para um grupo de 100 pessoas, foram
a um modelo probabilístico. encontrados os resultados a seguir:

Este teste é baseado em tabelas de frequências simples. Entretanto, usando o modelo probabilístico e
Comparamos a frequência esperada com a frequência observada. o número de amostras n = 100, podemos
calcular a frequência esperada para cada
fe: frequência esperada (fei = n x pi) classe:
fo: frequência observada (obtida através da amostragem)

Por exemplo, seja o modelo genético de Hardy-Weinberg:

Pergunta: Podemos afirmar que os valores observados estão


suficientemente próximos dos valores esperados, de tal forma que o
modelo Hardy-Weinberg é adequado a esta população?

Teste chi² para Aderência Teste chi² para Aderência


Estatística padronizada de teste: dada pela variável Q
Teste de Aderência: Testar a adequação de um conjunto de dados 5
a um modelo probabilístico. (3 − 3 )²
1=2
3
678
A hipótese nula dirá que não existe diferença significativa entre
nenhuma frequência observada e sua respectiva frequência Valor Crítico: dado pela variável Qc
esperada. A hipótese alternativa dirá que existe pelo menos uma
diferença. 1 = 9²k − 1; α

Hipótese Nula: fe1 = fo1; fe2 = fo2 .... fek = fok (k = nro de classes)
Consultar a área da cauda superior,
Hipótese Alternativa: Existe pelo menos uma diferença
já que esta é a região de rejeição:
Caso a Hipótese Nula seja rejeitada, os dados não aderem (ou não
Região de Rejeição: Q > Qc
se adequam) ao modelo proposto. Caso ela não seja rejeitada,
então há adequação.

Teste chi² para Aderência Teste chi² para Aderência


n = número de amostras
fo = frequência observada (amostragem)
fe = frequência esperada (fe = p x n)
k = número de classes
gdl = graus de liberdade : gdl = k - 1
α = nível de significância ; 1 - α = nível de confiança
Sendo k = 3 e alfa = 0,05, temos que:
k
( fe − fo) 2 1 9²; 1; = 9 *2; 0,05 5,991
Q=∑
i =1 fe Como Q < Qc, o teste está fora da região de rejeição, então não se
2 rejeita H0. Portanto, conclui-se o seguinte:
Qc = χ gdl ;α ⇒ consultar tabela distribuiç ão χ ² Conclusão: Não é possível afirmar que as frequências observadas
sejam significativamente diferentes das frequências esperadas
Região de Rereição : Q > Qc segundo o modelo genético, com 5% de significância. Logo, os
dados amostrados aderem ao modelo proposto.

15
16/11/2015

Exemplo Teste chi² para Independência


Deseja-se saber se o número de Dia da Número de
semana Acidentes
acidentes automobilísticos em uma Teste de Independência: Testar se duas variáveis são
determinada cidade dependem ou não Segunda 20
independentes ou não.
do dia da semana. Para tanto, foram Terça 10
coletados dados conforme a seguir. Quarta 10 Usa os mesmos conceitos de frequência esperada e de frequência
Com 5% de significância, é possível Quinta 15 observada. Entretanto, aqui os dados são relativos a duas variáveis
afirmar que o dia da semana influencia em uma tabela de contingência. A variável 1 possui k1 classes e a
Sexta 30
na probabilidade de acidentes? variável 2 possui k2 classes. As frequências esperadas são dadas
Sábado 20
por:
Dica: se não há dependência no dia Domingo 35
da semana, então a probabilidade de Total 140 fe = Total da linha x Total da coluna / n
acidente de todos os dias são iguais.
Q = 27,5 Qc = χ²6; 0,05 = 12,592 Esta fórmula é baseada no fato de que a probabilidade esperada
Q > Qc Dentro da RR Rejeita H0 p(A e B) é igual ao produto de p(A) e p(B) quando A e B são
Conclusão: Há evidência de que os dados coletados não se adequam a um independentes.
modelo no qual as probabilidades diárias de ocorrer acidente são iguais, a 5%
de significância. Em outras palavras, a probabilidade de acidente depende do
dia da semana

Teste chi² para Independência Teste chi² para Independência


Estatística padronizada de teste: dada pela variável Q
Teste de Independência: Testar se duas variáveis são
independentes ou não. $3 3 (²
1 2
3
@ABCD CD EéGHGCD
A hipótese nula dirá que não existe relação significativa entre os
valores observados e os esperados das duas variáveis categóricas. Valor Crítico: dado pela variável Qc
A hipótese alternativa dirá que existe relação, ou seja, dependência.
1 9²$k 1( x $k 1(; α
1 2
Hipótese Nula: As duas variáveis categóricas são independentes
(não há relação significativa entre elas) Consultar a área da cauda superior,
Hipótese Alternativa: As duas variáveis categóricas são já que esta é a região de rejeição:
dependentes (ou seja, existe relação significativa entre elas)
Região de Rejeição: Q > Qc
Caso a Hipótese Nula seja rejeitada, as variáveis são dependentes.
Caso ela não seja rejeitada, então há independência.

Teste chi² para Independência Teste chi² para Independência


n = número de amostras
Exemplo: Uma pesquisa foi realizada entre três hotéis da região
fo = frequência observada (amostragem) turística de uma cidade para saber os motivos que levaram seus
clientes antigos a não retornar. A tabela de contingência abaixo
fe = frequência esperada (fe = Total Linha x Total Coluna / n) exibe os resultados. Existe evidência de que os motivos para não
k1 = número de classes da variável 1 retornar dependem do hotel visitado?

k 2 = número de classes da variável 2


gdl = graus de liberdade : gdl = (k1 - 1)(k 2 - 1)
α = nível de significância ; 1 - α = nível de confiança
( fe − fo) 2
Q= ∑
todas as células fe
2
Qc = χ gdl ;α ⇒ consultar tabela distribuiç ão χ ²

Região de Rereição : Q > Qc

16
16/11/2015

Teste chi² para Independência Exemplo


Exemplo: Uma pesquisa foi realizada entre três hotéis da região
turística de uma cidade para saber os motivos que levaram seus
clientes antigos a não retornar. A tabela de contingência abaixo
exibe os resultados. Existe evidência de que os motivos para não
retornar dependem do hotel visitado?

k1 = 4
k2 = 3

Q = 27,41
Qc = χ²6; 0,05 = 12,592

Q > Qc Dentro da RR Rejeita H0

Conclusão: As principais razões para não retornar a um hotel da


região considerada dependem do hotel específico, com 5% de
significância.

Exemplo

k1 = 3 k2 = 4

Q = 36,62 Qc = χ²6; 0,05 = 12,592


Q > Qc Dentro da RR Rejeita H0

Conclusão: O número de filhos de uma família depende de


sua renda mensal, com 5% de significância.

17

Das könnte Ihnen auch gefallen