Beruflich Dokumente
Kultur Dokumente
PÁGINAS 102-104
Existem dois tipos de estimativas que podem ser realizadas para qualquer parâmetro de
população: uma estimativa pontual e uma estimativa do intervalo de confiança. Uma estimativa
pontual de um parâmetro de população é uma estimativa de valor único desse parâmetro. Uma
estimativa do intervalo de confiança (IC) é um intervalo de valores de um parâmetro de população
com um nível de confiança atribuído (por exemplo, 95% de confiança de que o intervalo contenha
um parâmetro desconhecido). O nível de confiança é semelhante a uma probabilidade. O IC
inicia com a estimativa pontual e cresce para o que chamamos de margem de erro. A margem
de erro incorpora o nível de confiança (por exemplo, 90% ou 95%, que é escolhido pelo
pesquisador) e a variabilidade da amostragem ou o erro padrão da estimativa pontual.
Usando álgebra, podemos reformular essa desigualdade de forma que a média (µ) seja
o meio termo. As etapas estão descritas a seguir:
𝛸𝛸� − 𝜇𝜇0
P � −1,96 < 𝑠𝑠 < 1,96� = 0,95
√𝑛𝑛
𝜎𝜎 𝜎𝜎
P � −1,96 < 𝛸𝛸� − 𝜇𝜇 < 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
P �− 𝛸𝛸� − 1,96 < − 𝜇𝜇 < − 𝛸𝛸� + 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
P � 𝛸𝛸� − 1,96 < 𝜇𝜇 < 𝛸𝛸� + 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
em que z é o valor da distribuição normal padrão que reflete o nível de confiança selecionado
(por exemplo, para um nível de confiança de 95%, z = 1,96). A Tabela 1B no Apêndice contém
os valores z de níveis de confiança populares, como 90%, 95% e 99%. Na Tabela 1B, vemos
que para 90%, z = 1,645; para 95%, z = 1,96; e para 99%, z = 2,576. Níveis mais altos de
confiança têm valores z maiores, o que converte para margens de erro maiores e ICs maiores.
Por exemplo, para ter 99% de confiança de que um IC contém um parâmetro real desconhecido,
precisamos de um intervalo maior. Em muitas aplicações, um nível de confiança de 95% é usado.
Este é um valor geralmente aceito, mas não recomendado.
Na prática, muitas vezes não sabemos o valor do desvio padrão da população (σ). Se o
tamanho da amostra for grande (n > 30), então o desvio padrão da amostra (s) pode ser usado
para estimar o desvio padrão da população. Observe que a derivação anterior foi baseada no
Teorema central do limite, que requer um tamanho de amostra maior. Há casos em que o
tamanho da amostra não é suficientemente grande (p. ex., n < 30), portanto, o resultado geral do
Teorema do limite central não se aplica. Nesse caso, não podemos usar a distribuição normal
padrão (z) no intervalo de confiança. Em vez disso, usamos outra distribuição de probabilidade,
chamada de distribuição t, que é mais adequada para amostras pequenas.
A distribuição t é outro modelo de probabilidade para uma variável contínua. A distribuição
t é semelhante à distribuição normal padrão, mas toma uma forma levemente diferente,
dependendo do tamanho exato da amostra. Especificamente, os valores t dos ICs são maiores
para amostras menores, resultando em margens de erro maiores (ou seja, há mais imprecisão
com amostras pequenas). Os valores t dos ICs são apresentados na Tabela 2 do Apêndice. Os
valores t foram indexados por graus de liberdade (df) na Tabela 2, que foi definido como n - 1. A
Tabela 6-2 é um extrato da Tabela 2, que mostra os valores t de pequenas amostras que cobrem
tamanhos de 5 a 10 (assim, os graus de liberdade variam entre 4 e 9, porque df = n − 1).
Nível de confiança
Diretrizes específicas para usar a distribuição normal padrão (z) ou distribuição t são
fornecidas nas seções subsequentes, conforme analisamos as fórmulas de IC para aplicações
específicas. É importante observar que o uso adequado da distribuição t pressupõe que o
resultado de interesse seja aproximadamente distribuído normalmente.
Antes de fornecer fórmulas específicas, primeiro discutiremos a interpretação de ICs em
geral. Imagine que queremos estimar uma média de população usando um nível de confiança de
95%. Se pegarmos 100 amostras diferentes (na prática, utilizaremos apenas uma) e, para cada
amostra, calcularmos um IC de 95%, em teoria, 95 de 100 ICs terão o valor médio real (μ). Isso
resulta que, 5 das 100 ICs não incluirão o valor médio real. Na prática, selecionamos uma
amostra aleatória e geramos um IC. Esse intervalo pode ou não conter a média real; o intervalo
observado pode superestimar μ ou subestimar μ. O IC de 95% é o intervalo provável do
parâmetro real e desconhecido. É importante observar que um IC não reflete a variabilidade no
parâmetro desconhecido, mas, em vez disso, fornece um intervalo de valores que,
provavelmente, incluirão o parâmetro desconhecido.
CAPÍTULO 7: Teste de hipóteses
PÁGINAS 139-145, 149-157, 163-164
Existem muitas aplicações em que pode ser interessante comparar dois grupos independentes
em relação a suas pontuações médias em um resultado contínuo. No Capítulo 6, apresentamos
técnicas para estimar a diferença entre as médias. Aqui, mais uma vez, comparamos a média
entre grupos, mas, em vez de gerar uma estimativa da diferença, testamos se a diferença
observada (aumento, diminuição ou diferença) é estatisticamente significativa ou não.
Nesta seção, discutiremos a comparação das médias em que dois grupos de comparação
são independentes ou fisicamente separados. Os dois grupos podem ser determinados por um
atributo específico (por exemplo, sexo, histórico de doença cardiovascular) ou podem ser
definidos pelo pesquisador (por exemplo, participantes designados para receber um
medicamento experimental ou um placebo). A primeira etapa na análise envolve calcular as
estatísticas descritivas em cada uma das duas amostras, usando as técnicas descritas no
Capítulo 4. Especificamente, nós calculamos o tamanho da amostra, a média e o desvio padrão
em cada amostra e indicamos essas estatísticas resumidas da seguinte forma: n1, 𝛸𝛸�1 , e n2, s1
para a Amostra 1 e 𝛸𝛸�2 , e s2 para a Amostra 2. A designação da Amostra 1 e da Amostra 2 é
essencialmente arbitrária. Em um contexto de ensaios clínicos, a convenção é chamar o
tratamento de Grupo 1 e o controle de Grupo 2. No entanto, ao comparar homens e mulheres,
qualquer grupo pode ser 1 ou 2.
H0: µ1 = µ2,
H1: µ1 ≠ µ2,
α = 0,05.
Etapa 2: Selecionar a estatística de teste adequada.
Como ambas as amostras são grandes (n1 ≥ 30 e n2 ≥ 30), usamos a estatística de teste z em
oposição a t. Antes de implementar a fórmula, verificamos primeiramente se a suposição de
igualdade das variâncias da população é razoável. A diretriz sugere a investigação da razão das
𝑠𝑠 2
variâncias das amostras, 1 � 2 . Suponha que chamemos os homens de Grupo 1 e as mulheres
𝑠𝑠2
de Grupo 2. Novamente, isso é arbitrário; só precisa ser observado ao interpretar os resultados.
A razão das variâncias das amostras é 17,52 / 20,12 = 0,76, que recai entre 0,5 e 2, o que sugere
que a suposição de igualdade das variâncias da população é razoável. A estatística de teste
adequada é
𝛸𝛸�1 − 𝛸𝛸�2
𝑧𝑧 =
𝑆𝑆𝑝𝑝 �1�𝑛𝑛1 + 1�𝑛𝑛2
Note que a estimativa combinada do desvio padrão comum, Sp, fica entre os desvios padrão nos
grupos de comparação (ou seja, 17,5 e 20,1). Sp é levemente mais próximo em valor ao desvio
padrão em mulheres (20,1), já que há um número levemente maior de mulheres na amostra.
Lembre-se de que Sp é uma média ponderada dos desvios padrão nos grupos de comparação,
ponderada pelos respectivos tamanhos de amostra.
Agora calculamos a estatística do teste,
Exemplo 7.9. Um novo medicamento é proposto para baixar o colesterol total. Um ensaio
controlado aleatório foi desenvolvido para avaliar a eficácia do novo medicamento na redução do
colesterol. 30 participantes foram inscritos no ensaio e foram designados aleatoriamente para
receber o novo medicamento ou um placebo. Os participantes não sabem a qual tratamento eles
foram designados. Cada participante precisará fazer o tratamento por 6 semanas. Ao final de 6
semanas, o nível total de colesterol de cada paciente foi medido e as estatísticas das amostras
são mostradas na Tabela 7-13. Há alguma comprovação estatística da redução na média total
do colesterol nos pacientes que tomaram o novo medicamento por 6 semanas em comparação
aos pacientes que tomaram um placebo? Realizamos um teste usando a abordagem de cinco
etapas e chamamos o Grupo 1, do novo medicamento, e o Grupo 2, do placebo.
H0: µ1 = µ2,
H1: µ1 ≠ µ2,
α = 0,05.
𝛸𝛸�1 − 𝛸𝛸�2
𝑡𝑡 = .
𝑆𝑆𝑝𝑝 �1�𝑛𝑛1 + 1�𝑛𝑛2
Etapa 5: Conclusão.
Rejeitamos H0 porque -2,92< -1,701. Temos provas estatisticamente significativas de α = 0,05
para mostrar que a média total do nível de colesterol é menor em pacientes que tomaram o
medicamento por 6 semanas em comparação a pacientes que tomaram um placebo. Usando a
Tabela 2 do Apêndice, o valor p é p< 0,005.
O ensaio clínico no Exemplo 7.9 encontrou uma redução estatisticamente significativa
no colesterol total, enquanto no Exemplo 7.3 não demonstramos a eficácia do novo
medicamento. Observe que a média total do nível de colesterol em pacientes que tomaram o
placebo é 227,4, que é diferente do colesterol médio de 203 informado entre todos os americanos
em 2002 e usado como comparador. O valor de controle histórico pode não ter sido o comparador
mais adequado, já que os níveis de colesterol aumentaram ao longo do tempo. Na Seção 7.6,
apresentamos outro design que pode ser usado para avaliar a eficácia do novo medicamento.
Um projeto de estudo alternativo ao descrito na seção anterior (para comparar dois grupos em
relação a suas pontuações médias em um resultado contínuo) é um estudo baseado em
amostras combinadas ou correlacionadas. Os dois grupos de comparação são considerados
dependentes (combinado ou correlacionado) e os dados podem surgir de uma única amostra de
participantes em que cada participante é medido duas vezes, possivelmente antes e depois de
uma intervenção, ou de duas amostras que são combinadas ou correlacionadas por uma ou mais
características específicas (por exemplo, irmãos). Quando as amostras são dependentes,
focamos nas pontuações diferentes de cada participante ou entre membros de um par, e o teste
de hipóteses é baseado na diferença da média, µd. A hipótese nula, mais uma vez, reflete
"nenhuma diferença" e é indicada assim µd = 0. Observe que há algumas instâncias em que é de
interesse testar se há uma diferença de alguma magnitude específica (por exemplo, µd = 5), mas,
na maioria dos casos, a hipótese nula não reflete nenhuma diferença (ou seja, µd = 0). A fórmula
adequada para o teste de hipóteses depende do tamanho da amostra. As fórmulas são exibidas
na Tabela 7-14 e são idênticas às fórmulas apresentadas para o teste de hipóteses com uma
amostra e um resultado contínuo apresentado na Seção 7.2, exceto que, aqui, focamos nas
pontuações diferentes.
H0: µd = 0,
H1: md ≠ 0,
α = 0,05.
𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑
𝑡𝑡 =
𝑆𝑆𝑑𝑑
�
√𝑛𝑛
Etapa 5: Conclusão.
Não rejeitamos H0 porque -2,145< -1,60< 2,145. Não temos comprovações estatisticamente
significativas em α = 0,05 para mostrar que há uma diferença na pressão arterial sistólica ao
longo do tempo.
No Exemplo 6.7, estimamos um intervalo de confiança e tínhamos 95% de confiança de
que a diferença média na pressão arterial sistólica entre o Exame 6 e o Exame 7 (separadas por
aproximadamente 4 anos) foi entre -12,4 e 1,8. Como o valor nulo do intervalo de confiança da
diferença média é 0, concluímos que não há diferença estatisticamente significativa na pressão
arterial ao longo do tempo, pois o intervalo de confiança para a diferença média incluía 0. O teste
de hipóteses dá o mesmo resultado.
No Exemplo 7.11, revisitamos o Exemplo 7.3 e o Exemplo 7.9 nos quais avaliamos um
novo medicamento desenvolvido para reduzir o colesterol total. No Exemplo 7.3, coletamos
dados sobre uma amostra de pacientes que tomaram o novo medicamento e comparamos sua
média total do nível de colesterol a um controle histórico. No Exemplo 7.9, avaliamos a eficácia
do novo medicamento usando um ensaio clínico com um grupo de controle simultâneo ou
paralelo de placebo. No Exemplo 7.11, avaliamos novamente a eficácia do novo medicamento
usando um projeto combinado.
Exemplo 7.11. Um novo medicamento foi proposto para reduzir o colesterol total e um
estudo foi desenvolvido para avaliar a eficácia do novo medicamento. 15 pacientes aceitaram
participar do estudo e cada um tomará o novo medicamento por 6 semanas. No entanto, antes
de iniciar o tratamento, o nível de colesterol total de cada paciente é medido. A medição inicial é
um valor pré-tratamento ou valor de referência. Ao final de 6 semanas, o nível total de colesterol
de cada paciente foi medido novamente e os dados são mostrados na Tabela 7-15. A coluna da
direita contém pontuações diferentes para cada paciente, calculadas subtraindo o nível de
colesterol de 6 semanas do nível de referência. As diferenças representam a redução no
colesterol total ao longo de 6 semanas. (As diferenças poderiam ser calculadas subtraindo o nível
de colesterol total de referência do nível medido após 6 semanas. A maneira pela qual as
diferenças são calculadas não afeta o resultado da análise, somente a interpretação.)
Como as diferenças são calculadas subtraindo os níveis de colesterol medidos após 6 semanas
dos valores de referência, diferenças positivas indicam reduções e diferenças negativas indicam
aumentos (por exemplo: Participante 12 aumentou 2 unidades em 6 semanas). O objetivo aqui
é testar se há uma redução estatisticamente significativa do colesterol. Por causa da forma como
calculamos as diferenças, queremos analisar um aumento na diferença média (ou seja, uma
redução positiva). Para realizar o teste, precisamos resumir as diferenças. Nessa amostra, temos
n = 15, 𝛸𝛸�𝑑𝑑 = 16,9, e sd= 14,2, respectivamente. Os dados necessários para calcular as estatísticas
da amostra constam na Tabela 7-16.
∑ Diferenças 254
𝛸𝛸�𝑑𝑑 = = = 16,9
𝑛𝑛 15
∑ Diferenças2 − (∑ Diferenças)2�
� 𝑛𝑛
𝑆𝑆𝑑𝑑 = ,
𝑛𝑛 − 1
7110 − (254)2�
𝑆𝑆𝑑𝑑 = � 15 = �200,64 = 14,2
15 − 1
Há alguma comprovação estatística da redução na média total do colesterol nos pacientes após
o uso do novo medicamento por 6 semanas? Realizamos o teste usando a abordagem de cinco
etapas.
H0: µd = 0,
H1: µd ≠ 0,
α = 0,05.
𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑
𝑡𝑡 =
𝑆𝑆𝑑𝑑
�
√𝑛𝑛
Etapa 5: Conclusão.
Rejeitamos H0 porque 4,61> 1,761. Temos comprovações estatisticamente significativas em α =
0,05 para mostrar que há uma redução no colesterol ao longo de 6 semanas. Usando a Tabela
2 do Apêndice, o valor p é p< 0,005.
No Exemplo 7.9 e no Exemplo 7.11, usando amostras paralelas e projetos combinados,
respectivamente, encontramos reduções estatisticamente significativas no colesterol total. No
Exemplo 7.3, usando um comparador histórico, não obtivemos esse resultado. É extremamente
importante projetar estudos que sejam mais adequados para detectar uma diferença significativa,
quando existir uma. Muitas vezes, há muitas alternativas, e os pesquisadores trabalham com
bioestatísticos para determinar o melhor planejamento para cada aplicação. Vale a pena
observar que o planejamento combinado usado no Exemplo 7.11 pode ser problemático no
sentido de que as diferenças observadas podem somente refletir um efeito "placebo". Todos os
participantes usaram a medicação designada, mas a redução observada é devida ao
medicamento ou a um resultado da participação no estudo?
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1 α = 0,05
A Tabela 4 do Apêndice contém valores críticos para a distribuição F de testes quando α = 0,05,
indexados por df1 e df2. A Figura 7–7 é um exemplo de situação com α = 0,05, df1 = 3 e df2 = 36.
Os graus de liberdade são baseados em uma aplicação com quatro grupos de comparação (k =
4) e um tamanho de amostra de 40 (N = 40). O valor crítico adequado da Tabela 4 do Apêndice
é 2,87, e a regra de decisão é
Rejeitar H0 se F ≥ 2,87.
H0: µ1 = µ2 = µ3 = µ4,
H1: As médias não são todas iguais,
α = 0,05.
Rejeitar H0 se F ≥ 3,24.
2
SSB = � 𝑛𝑛𝑗𝑗 �𝛸𝛸� 𝑗𝑗 − 𝛸𝛸� � ,
2
SSE = � ��𝑋𝑋 − 𝛸𝛸� 𝑗𝑗 � = 21,4 + 10,0 + 5,4 + 10,6 = 47,4.
TABELA 7-25 Desvios da média de TABELA 7-26 Desvios da média de
perda de peso na dieta de baixa caloria perda de peso na dieta de baixa gordura
H0: µ1 = µ2 = µ3,
H1: As médias não são todas iguais,
α = 0,05.
MSB
𝐹𝐹 =
MSE
Rejeitar H0 se F ≥ 3,68.
2
SSB = � 𝑛𝑛𝑗𝑗 �𝛸𝛸� 𝑗𝑗 − 𝛸𝛸� � ,
Exemplo 7.16. Considere o ensaio clínico descrito acima, no qual três tratamentos
simultâneos para dores nas articulações são comparados em termos de seu tempo médio para
alívio da dor em pacientes com osteoartrite. Como os pesquisadores criam a hipótese de que
pode haver uma diferença no tempo para aliviar a dor em homens em relação às mulheres, eles
designam, aleatoriamente, 15 participantes homens a um dos três tratamentos simultâneos e
designam, aleatoriamente, 15 participantes mulheres a um dos três tratamentos simultâneos (ou
seja, aleatoriedade estratificada). Os participantes homens e mulheres não sabem a qual
tratamento eles foram designados. Eles são instruídos a tomar a medicação designada quando
tiverem dores nas articulações e para registrar o tempo, em minutos, até que a dor diminua. Os
dados (tempo para alívio da dor) são exibidos na Tabela 7-36 e são organizados pelo tratamento
atribuído e pelo sexo do participante.
TABELA 7-36 Tempo até alívio da dor
por tratamento e sexo
A análise na ANOVA de dois fatores é semelhante à análise ilustrada na Seção 7.8 da ANOVA
de um fator. Os cálculos são novamente organizados em uma tabela ANOVA, mas a variação
total é particionada nela devido ao efeito principal do tratamento, ao efeito principal do sexo e ao
efeito de interação. Os resultados da análise são exibidos na Tabela 7-37 (consulte Snedecor e
Cochran para saber detalhes técnicos.10)
Existem quatro testes estatísticos na tabela ANOVA. O primeiro teste é um teste geral para
avaliar se há uma diferença entre seis médias de célula (células são definidas por tratamento e
sexo). A estatística F é 20,7 e é estatisticamente extremamente significativa com p = 0,0001.
Quando o teste geral é significativo, o foco se volta para os fatores que podem estar
impulsionando a significância (nesse exemplo, tratamento, sexo ou a interação entre os dois).
Os próximos três testes estatísticos avaliam a significância do principal efeito de tratamento, o
principal efeito de sexo e o efeito de interação. Nesse exemplo, há um efeito principal de
tratamento altamente significativo (p = 0,0001) e um efeito de sexo altamente significativo (p =
0,0001). A interação entre os dois não chega à significância estatística. A Tabela 7–38 contém
os tempos médios até o alívio da dor em cada um dos tratamentos para homens e mulheres
(observe que cada média da amostra é calculada nas 5 observações medidas sob essa condição
experimental).
O tratamento A parece ser o mais eficaz para homens e mulheres. Os tempos médios até o alívio
são menores no Tratamento A para homens e mulheres e o mais alto no Tratamento C para
homens e mulheres. Em cada tratamento, as mulheres relataram tempos mais longos até o alívio
da dor.
Suponha que o mesmo ensaio clínico seja replicado em uma segunda clínica e os dados
na Tabela 7-39 sejam observados. A tabela ANOVA dos dados médicos na clínica 2 são
resumidos na Tabela 7-40.
Observe que o teste geral é significativo (F = 19,4, p = 0,0001) e que há um efeito de tratamento
e efeito de sexo significativos e um efeito de interação altamente significativo. A tabela 7–41
contém os tempos médios até o alívio em cada um dos tratamentos para homens e mulheres.
Observe agora que as diferenças no tempo médio até o alívio da dor entre os tratamentos
depende do sexo. Entre homens, o tempo médio até o alívio da dor é mais alto no Tratamento A
e menor no Tratamento C. Entre mulheres, o contrário é verdadeiro. Esse é um efeito de
interação. Quando os efeitos de interação estão presentes, alguns pesquisadores não examinam
os efeitos principais. Abordaremos os efeitos de interação de maneira mais detalhada no Capítulo
9.
7.10 Resumo
Neste capítulo, apresentamos as técnicas de teste de hipóteses. Testes de hipóteses envolvem
várias etapas, incluindo a especificação da hipótese nula e da hipótese alternativa ou de
pesquisa, a seleção e a computação de uma estatística de teste adequada, a definição de uma
regra de decisão e a conclusão. Existem muitos detalhes a serem considerados no teste de
hipóteses. O primeiro é determinar o teste apropriado. Discutimos que os testesz, t, χ2 e F são
usados para diferentes aplicações. O teste adequado depende da distribuição da variável do
resultado (contínua, dicotômica, categórica ou ordinal), do número de grupos de comparação
(um, dois ou mais de dois), e se os grupos de comparação são independentes ou dependentes.
A Tabela 7–50 resume os diferentes testes de hipóteses discutidos aqui.
TABELA 7-50 Resumo das fórmulas importantes para testes de hipóteses
*Consulte as Tabelas 7–4, 7–11 e 7–14 para ver fórmulas alternativas apropriadas para amostras pequenas.
Uma vez que o tipo de teste for determinado, os detalhes do teste deverão ser especificados.
Mais especificamente, a hipótese nula e de pesquisa devem ser claramente definidas. A hipótese
nula sempre reflete a situação "sem alteração" ou "sem diferença". A hipótese alternativa ou de
pesquisa reflete a convicção do pesquisador. O pesquisador deve formular uma hipótese de que
um parâmetro (por exemplo, uma média, uma proporção, diferença em médias ou diferença em
proporções) aumentará, diminuirá ou será diferente em condições específicas (às vezes, as
condições são diferentes condições experimentais e outras vezes, as condições são definidas
pelos atributos dos participantes). Uma vez que as hipóteses são especificadas, os dados são
coletados e resumidos. Em seguida, o teste apropriado é conduzido de acordo com uma
abordagem de cinco etapas. Se o teste resultar na rejeição da hipótese nula, um valor p-
aproximado será computado para resumir a significância estatística dos resultados. Quando os
testes de hipóteses são conduzidos usando pacotes de computação estatísticas, valores p
exatos são computados. Como as tabelas estatísticas contidas neste livro didático são limitadas,
apenas aproximamos os valores p. Se o teste não rejeitar a hipótese nula, uma conclusão mais
fraca será realizada.
No teste de hipóteses, existem dois tipos de erros que podem ser cometidos. Um erro de
Tipo I ocorre quando um teste rejeita incorretamente uma hipótese nula. Isso é chamado de
resultado falso positivo e a probabilidade de sua ocorrência ser igual no nível de significância, a.
O pesquisador escolhe o nível de significância e escolha intencionalmente um valor pequeno,
como α = 0,05, para controlar a probabilidade de cometer um erro de Tipo I. Um erro de Tipo I
ocorre quando um teste não rejeita a hipótese nula quando, na realidade, ela é falsa. A
probabilidade de sua ocorrência é igual a b. Infelizmente, o pesquisador não conseguirá
especificar β, pois depende de vários fatores, incluindo o tamanho da amostra (amostras
menores têm β maiores), o nível de significância e a diferença no parâmetro sob as hipóteses
nulas e alternativas. (Para obter mais detalhes, consulte D’Agostino, Sullivan e Beiser.5)
Em vários exemplos, notamos a relação entre intervalos de confiança e testes de
hipóteses. Embora as abordagens sejam ligeiramente diferentes, elas estão claramente
relacionadas. É possível chegar à conclusão sobre a significância estatística pela análise do
intervalo de confiança. Por exemplo, se um intervalo de confiança de 95% não contiver o valor
nulo do parâmetro de interesse (por exemplo, 0 ao analisar uma diferença em médias ou
diferença de risco, 1 ao analisar riscos relativos ou razão de possibilidades), então concluímos
que um teste bilateral das hipóteses é significativo em α = 0,05. É importante observar que a
correspondência entre um intervalo de confiança e um teste de hipóteses se relaciona a um teste
bilateral, e que o nível de confiança corresponde a um nível bilateral específico de significância
(por exemplo, 95% a α = 0,05, 90% para α = 0,10, e assim por diante). A significância exata do
teste, o valor p, pode ser determinado somente pelo uso da abordagem de teste de hipótese.
CAPÍTULO 10: Testes não paramétricos
PÁGINAS 227-233, 241-246
Placebo 7 5 6 4 12
Novo medicamento 3 6 4 2 1
Frequência
Número de ocorrências
Além disso, o tamanho da amostra é pequeno (n1 = n2 = 5). Assim, um teste não paramétrico é
adequado. As hipóteses a serem testadas são dadas abaixo; realizamos o teste com um nível
de significância de 5% (ou seja, α = 0,05).
Observe que, se a hipótese nula for verdadeira (ou seja, as duas populações forem
iguais), esperamos ver números similares de ocorrências de falta de ar em cada um dos dois
grupos de tratamento. Especificamente, se os números de ocorrências de falta de ar forem iguais
em participantes designados para o novo medicamento e naqueles designados para o placebo,
esperaríamos ver alguns participantes relatando poucas ocorrências e alguns relatando mais
ocorrências em cada um dos grupos de comparação. Esse não parece ser o caso nos dados
observados. Um teste de hipóteses é necessário para determinar se os dados observados são
provas de uma diferença estatisticamente significativa nas populações.
A primeira etapa é atribuir classificações e, para fazer isso, ordenamos os dados em
ordem crescente. Isso é feito na amostra combinada ou total, combinando os dados dos dois
grupos de tratamento e atribuindo classificações de 1 a 10, conforme exibido na Tabela 10-1.
Também precisamos monitorar as atribuições do grupo na amostra total (n = 10).
TABELA 10-1 Atribuição de classificação
Cuidado normal 8 7 6 2 5 8 7 3
Novo programa 9 8 7 8 10 9 6
Rejeitar H0 se U ≤ 10.
Etapa 5: Conclusão.
Rejeitamos H0 porque 9,5 > 10. Temos comprovação estatisticamente significativa em a = 0,05
para mostrar que as populações das escalas de APGAR não são iguais em mulheres que fizeram
o pré-natal usual em comparação ao novo programa de pré-natal.
Exemplo 10.3. Um ensaio clínico é realizado para avaliar a eficácia de uma nova terapia
antirretroviral para pacientes com HIV. Os pacientes foram selecionados aleatoriamente para
receber uma terapia antirretroviral padrão (tratamento padrão) ou a nova terapia antirretroviral e
serão monitorados durante 3 meses. O principal resultado é a carga viral, que representa o
número de cópias do HIV por milímetro de sangue. Um total de 30 participantes foram
selecionados aleatoriamente; os dados são exibidos abaixo.
Há uma comprovação estatística de uma diferença na carga viral em pacientes que receberam
a terapia padrão em comparação aos que receberam a nova terapia? Realizamos o teste usando
a abordagem de cinco etapas.
Etapa 5: Conclusão.
Não rejeitamos H0 porque 100 > 64. Não temos comprovações estatisticamente significativas em
α = 0,05 para mostrar que as populações de medidas de carga viral não são iguais em pacientes
que receberam a terapia padrão em comparação à nova terapia antirretroviral.
A questão de interesse é se há uma diferença nos níveis de albumina entre as três diferentes
dietas. Como referência, os níveis normais de albumina são geralmente entre 3,4 g/dl e 5,4 g/dl.
Pela inspeção, parece que os participantes que seguiram uma dieta de 15% de proteína têm
níveis de albumina mais altos do que aqueles que seguiram uma dieta de 5% proteína. A questão
é se essa diferença observada é estatisticamente significativa.
Nesse exemplo, o resultado é contínuo, mas os tamanhos das amostras são pequenos e
não são iguais em todos os grupos de comparação (n1 = 3, n2 = 5, n3 = 4). Assim, um teste não
paramétrico é adequado. As hipóteses a serem testadas são dadas abaixo; realizamos o teste
com um nível de significância de 5% (ou seja, α = 0,05).
H0: As medianas das três populações são iguais.
H1: As medianas das três populações não são iguais.
Para conduzir o teste, atribuímos classificações usando os procedimentos descritos na
Seção 10.1. A primeira etapa é atribuir classificações para ordenarmos os dados em ordem
crescente. Isso é feito na amostra combinada ou total, combinando os dados dos três grupos de
comparação e atribuindo classificações de 1 a 12, conforme exibido na Tabela 10-20. Também
precisamos monitorar as atribuições do grupo na amostra total (n = 12).
TABELA 10-20 Atribuição de classificação
Observe que as classificações menores (p. ex.: 1, 2.5 e 4) foram atribuídas ao grupo de
dieta de 5% de proteína, enquanto as classificações mais altas (ex.: 10, 11 e 12) foram atribuídos
ao grupos de dieta de 15% de proteína. Mais uma vez, o objetivo do teste foi determinar se os
dados observados confirmam uma diferença nas três medianas das populações. Observe que,
nos testes paramétricos discutidos no Capítulo 7, ao comparar as médias entre mais de dois
grupos, analisamos a diferença entre as médias da amostra (quadrado da média entre
tratamentos) relativas à variabilidade dentro de cada grupo e resumimos as informações da
amostra em uma estatística de teste (estatística F). No teste de Kruskal-Wallis, novamente
resumimos as informações da amostra em uma estatística de teste, com base nas classificações.
A estatística do teste do teste de Kruskal-Wallis é indicada em H e é definida como:
𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1),
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1
𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1) =
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1
Lembre-se de que a soma das classificações é sempre igual n(n + 1)/2. Como uma verificação
da nossa atribuição das classificações, temos n(n + 1)/2 = 20(21)2 = 210, que é igual a 46 + 62
+ 24 + 78 = 210.
Nesse exemplo,
𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1) =
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1
10.5 Resumo
Nesse capítulo, apresentamos as técnicas de teste de hipóteses para situações com tamanhos
pequenos de amostra pequenos e resultados que são ordinais, classificados ou contínuo e não
podem ser assumidos para serem distribuídos normalmente. Testes não paramétricos são
baseados em classificações que são atribuídas aos dados ordenados. Os testes envolvem as
mesmas cinco etapas dos testes paramétricos, especificando a hipótese nula e a hipótese
alternativa ou de pesquisa, selecionando e calculando uma estatística de teste adequada,
definindo uma regra de decisão e traçando uma conclusão.
Cada um dos testes discutidos aqui é resumido abaixo.
É importante observar que testes não paramétricos estão sujeitos aos mesmos erros que
os testes paramétricos. Um erro de Tipo I ocorre quando um teste rejeita incorretamente uma
hipótese nula. Um erro de Tipo II ocorre quando um teste não rejeita H0 quando ela é falsa.
Potência é probabilidade de um teste rejeitar corretamente H0. Testes não paramétricas podem
estar sujeitos a baixa potência, principalmente devido ao tamanho pequeno da amostra. Portanto,
é importante considerar a possibilidade de um erro de Tipo II quando um teste não paramétrico
não conseguir rejeitar H0. Pode haver um efeito verdadeiro ou diferença, mas o teste não
paramétrico não é capaz de detectar isso. Para obter mais detalhes, os leitores interessados
devem consultar Conover3 e Siegel e Castellan.4
CAPÍTULO 11: Análise de sobrevivência
PÁGINAS 249-260
Participante
IM
IM
Desistência
IM
Desistência
Óbito
Anos
Participante
IM
IM
Desistência
IM
Desistência
Óbito
Anos
Com base nos dados mostrados na Figura 11-2, qual é a probabilidade de um participante
sofrer um ataque cardíaco ao longo de 10 anos? Três de 10 participantes sofrem um ataque
cardíaco durante o acompanhamento, mas 30% é provavelmente uma subestimativa do
percentual real, pois dois participantes abandonaram e podem ter sofrido um ataque cardíaco se
tivessem sido observados durante os 10 anos. O tempo de observação deles foi censurado. Além
disso, um participante morre 3 anos após o acompanhamento. Esses três indivíduos deveriam
ser incluídos na análise. Se sim, como? Se excluirmos os três, a estimativa da probabilidade de
um participante sofrer um ataque cardíaco é de 3/7 = 43%, substancialmente maior do que a
estimativa inicial de 30%. O fato de que, muitas vezes, nem todos os participantes são
observados ao longo de todo o período de observação torna os dados de sobrevivência únicos.
Nesse pequeno exemplo, o Participante 4 é observado por 4 anos e, durante esse período, não
tem nenhum ataque cardíaco. O Participante 7 é observado por 2 anos e, durante esse período,
não tem nenhum ataque cardíaco. Embora eles não sofram o evento de interesse, eles
contribuíram com informações importantes. As técnicas de análise de sobrevivência fazem uso
dessas informações na estimativa da probabilidade do evento. Uma suposição importante é feita
para fazer uso adequado dos dados censurados. Especificamente, supomos que a censura é
independente ou não relacionada à probabilidade de desenvolver o evento de interesse. Isso é
chamado de censura não informativa e, essencialmente, pressupõe que os participantes cujos
dados foram censurados teriam a mesma distribuição de tempos de falha (ou tempos até o
evento) se eles tivessem sido observados.
Considere o mesmo estudo e as experiências de 10 participantes diferentes, conforme
ilustrado na Figura 11-3. Durante o período do estudo, três participantes sofrem um ataque
cardíaco: um morre, dois abandonam o estudo (por razões desconhecidas) e quatro completam
o acompanhamento de 10 anos sem sofrer nenhum ataque cardíaco. No entanto, os eventos de
ataque cardíaco ocorreram muito mais cedo e os abandonos e mortes ocorreram depois, durante
o acompanhamento. Essas diferenças nas experiências dos participantes exibidas na Figura 11-
3 em comparação às experiências exibidas na Figura 11-2 devem afetar a estimativa da
probabilidade de um participante sofrer um ataque cardíaco em 10 anos? Na análise de
sobrevivência, avaliamos não somente o número de participantes que sofreram o evento de
interesse (um indicador dicotômico do status do evento), mas também os tempos nos quais os
eventos ocorreram.
Participante
IM
IM
Desistência
IM
Desistência
Óbito
Anos
Anos
O eixo horizontal representa o tempo em anos, e o eixo vertical mostra a probabilidade
de sobrevivência ou a proporção de pessoas sobreviventes. No tempo zero, a probabilidade de
sobrevivência é 1 (ou 100% de participantes estão vivos). Aos 2 anos, a probabilidade de
sobrevivência é de aproximadamente 0,83 ou 83% (veja as linhas sólidas na Figura 11-4). Aos
10 anos, a probabilidade de sobrevivência é de aproximadamente 0,47 ou 47%. Frequentemente,
é de interesse estimar a sobrevivência mediana, ou seja, o tempo durante o qual 50% dos
participante do estudo estão vivos. Na Figura 11-4, a sobrevivência mediana é de
aproximadamente 8,5 anos (veja as linhas tracejadas na Figura 11-4).
Uma curva de sobrevivência plana (ou seja, uma que fique perto de 1) sugere uma boa
taxa de sobrevivência, enquanto uma curva de sobrevivência que cai abruptamente em direção
ao 0 sugere uma taxa baixa de sobrevivência. A Figura 11–4 mostra a função de sobrevivência
como uma curva suave. Na maioria das aplicações, a função de sobrevivência é mostrada como
uma função em etapas em vez de uma curva suave. Procedimentos populares para estimar as
funções de sobrevivência são apresentados na Seção 11.2.
Existem várias maneiras diferentes de estimar uma função de sobrevivência ou uma curva de
sobrevivência. Há um número de métodos paramétricos populares que são usados para modelar
os dados de sobrevivência, mas eles diferem em termos de suposições que foram feitas sobre a
distribuição de tempos de sobrevivência na população. Algumas distribuições populares incluem
o exponencial, Weibull, Gompertz e distribuições normais de registro.2 Talvez a mais popular seja
a exponencial; ela supõe que a probabilidade de um participante sofrer o evento de interesse é
independente do tempo durante o qual ele passou sem sofrer o evento. Outras distribuições
fazem suposições diferentes sobre a probabilidade de uma pessoa desenvolver o evento (ou
seja, ela pode aumentar, diminuir ou mudar ao longo do tempo). Mais detalhes sobre os métodos
paramétricos da análise de sobrevivência podem ser encontrados em Hosmer e Lemeshow1 e
Lee e Wang.3
Focamos aqui em dois métodos não paramétricos, que não fazem suposições sobre
como a probabilidade de uma pessoa desenvolver o evento mudar com o tempo. Usando
métodos não paramétricos, estimamos e organizamos a distribuição de sobrevivência ou a curva
de sobrevivência. As curvas de sobrevivência são frequentemente organizadas em gráficos,
como funções de etapa, conforme mostrado na Figura 11-5. O tempo é exibido no eixo x e a
sobrevivência (como uma proporção ou um percentual de pessoas em risco) é exibida no eixo y.
Observe que o percentual de participantes "sobreviventes" (conforme exibido no eixo y) nem
sempre representa o percentual de participantes que estão vivos (o que supõe que o resultado
de interesse é a morte); também pode representar o percentual de participantes que não
apresentam outro resultado de interesse (por exemplo, percentual sem sofrer ataques cardíacos
ou doenças cardiovasculares). Também pode representar o percentual de participantes que não
tiveram um resultado saudável (por exemplo, remissão do câncer). Observe que a probabilidade
de sobrevivência é de 100% para 2 anos e depois cai para 90%. A sobrevivência mediana é de
9 anos (ou seja, 50% da população sobrevive além de 9 anos, veja as linhas tracejadas).
FIGURA 11-5 Função de sobrevivência
Percentual de sobrevivência
Anos
Agora, adicionamos o segundo intervalo, 5-9 anos (veja Tabela 11-4). O número em risco
é o número em risco no intervalo anterior (0-4 anos) menos aqueles que morreram e que foram
censurados (ou seja, Nt = Nt–1 – Dt–1 – Ct–1 = 20 – 2 – 1 = 17). A probabilidade de um participante
sobreviver mais de 4 anos, ou após o primeiro intervalo (usando o limite superior do intervalo
para definir o tempo), é S4 = p4 = 0,897. As probabilidades de sobrevivência são calvuladas
usando St+1 = pt+1 × St. A probabilidade de que um participante sobreviva mais de 9 anos é S9 =
p9 3 S4 = 0,937 3 0,897 = 0,840.
A Tabela 11–6 mostra a tabela de vida para os dados do Exemplo 11.2 usando a
abordagem de Kaplan-Meier. Na Tabela 11–6, listamos os tempos em que os eventos ou
censuras ocorreram, o número de participantes em risco naquele momento (Nt), o número de
mortes naquele momento (Dt), o número censurado (Ct), e a probabilidade de sobrevivência (St).
Observe que iniciamos a tabela com o tempo = 0 e a probabilidade de sobrevivência = 1. No
tempo = 0 (referência, ou início do estudo), todos os participantes estão em risco e a
probabilidade de sobrevivência é 1 (ou 100%). Com os dados descritos na Tabela 11–6, a
probabilidade de sobrevivência é calculada usando St+1 = St × ((Nt+1 − Dt+1)/Nt+1). Os cálculos das
probabilidades de sobrevivência são detalhados nas primeiras linha da tabela. É importante
observar que os cálculos que usam a abordagem de Keplen-Meier são semelhantes aos que
usam a abordagem da tabela de vida atuarial. A principal diferença é o tempo de intervalo: com
a abordagem da tabela de vida atuarial, consideramos intervalos de tempo igualmente
espaçados, enquanto que com a abordagem de Kaplan-Meier, usamos tempos de evento
observados e tempos de censura.
TABELA 11-6 Tabela de vida para dados no exemplo 11.2 usando a
abordagem de Kaplan-Meier
†Lembre-se de que S0 = 1.
Com conjuntos de dados grandes, esses cálculos podem ser entediantes. No entanto,
muitos programas de computador geram as análises facilmente (p. ex.: SAS®4). O Microsoft
Excel® também pode ser usado para computar as probabilidades de sobrevivência quando os
dados estiverem organizados por tempo e os números de eventos e tempos censurados
estiverem resumidos (consulte o Capítulo 11 na Pasta de Trabalho do Excel).
Pela tabela de vida, podemos produzir uma curva de sobrevivência de Kaplan-Meier. A
curva de sobrevivência de Kaplan-Meier dos dados no Exemplo 11.2 é exibida na Figura 11-6.
Na curva de sobrevivência exibida na Figura 11-6, os símbolos representam cada tempo de
evento, seja uma morte, seja um tempo censurado. Pela curva de sobrevivência, também
podemos estimar a probabilidade de que um participante sobreviva mais de 10 anos, localizando
10 anos no eixo x e movendo para o eixo y. A proporção de participantes que sobreviveram mais
de 10 anos é de 84% (veja as linhas tracejadas na Figura 11-6). De modo similar, a proporção
de participantes que sobreviveram mais de 20 anos é de 68%. A sobrevivência mediana é
estimada localizando 0,5 no eixo y e movendo para o eixo x. A sobrevivência mediana é de
aproximadamente 23 anos. Essas estimativas de probabilidades de sobrevivência em tempos
específicos do tempo de sobrevivência mediana são estimativas pontuais e devem ser
interpretadas como tais. Existem fórmulas para produzir erros padrão e estimativas de intervalos
de confiança de probabilidades de sobrevivência e eles podem ser gerados com muitos pacotes
de computação estatística. Uma fórmula popular para estimar o erro padrão das estimativas de
sobrevivência é chama de fórmula de Greenwood5, que é a seguinte:
𝐷𝐷𝑡𝑡 𝐷𝐷𝑡𝑡
𝑆𝑆𝑆𝑆(𝑆𝑆𝑡𝑡 ) = 𝑆𝑆𝑡𝑡 �∑ . A quantidade é somada para números em risco (Nt) e
𝑁𝑁𝑡𝑡 (𝑁𝑁𝑡𝑡 −𝐷𝐷𝑡𝑡 ) 𝑁𝑁𝑡𝑡 (𝑁𝑁𝑡𝑡 −𝐷𝐷𝑡𝑡 )
números de morte (Dt) que ocorreram durante o intervalo de tempo de interesse (ou seja,
cumulativo pelos intervalos de tempo antes do intervalo de tempo de interesse; veja o exemplo
na Tabela 11-7). Erros padrão são computados para as estimativas de sobrevivência dos dados
no Exemplo 11.2 e são resumidos na Tabela 11-7. Observe que a coluna final mostra a
quantidade 1,96 3 SE(St), que é a margem de erro e é usada para computar as estimativas de
IC de 95% (ou seja, St ± 1,96 × SE(St)).
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
Anos
TABELA 11-7 Erros padrão de estimativas de sobrevivência dos dados do exemplo 11.2
A curva de sobrevivência de Kaplan-Meier (mostrada como uma linha sólida), junto com
os limites de confiança de 95% (mostrados como linhas pontilhadas), das estimativas de
probabilidade de sobrevivência é exibida na Figura 11-7.
FIGURA 11-7 Curva de sobrevivência de Kaplan-Meier com intervalos de
confiança dos dados no Exemplo 11.2
1
0,9
Percentual de sobrevivência
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0 5 10 Anos 15 20 25
Alguns pesquisadores preferem gerar curvas de incidência cumulativa em vez de curvas de
sobrevivência que mostram as probabilidades cumulativas de sentir o evento de interesse. A
incidência cumulativa ou a probabilidade de falha cumulativa é computada como 1 – St e pode
ser facilmente computada a partir da tabela de vida usando a abordagem de Kaplan-Meier. A
Tabela 11–8 mostra as probabilidades de falha cumulativa dos dados do Exemplo 11.2. A Figura
11–8 mostra a incidência cumulativa de morte dos participantes inscritos no estudo descrita no
Exemplo 11.2. Pela Figura 11–8, podemos estimar a probabilidade de um participante morrer em
um determinado ponto no tempo. Por exemplo, a probabilidade de morte é de aproximadamente
33% após 15 anos (vejas as linhas tracejadas).
TABELA 11-8 Tabela de vida com probabilidades de falha cumulativa para dados do
exemplo 11.2
FIGURA 11-8 Curva de incidência cumulativa para dados do Exemplo 11.2
0,6
0,5
Incidência cumulativa
0,4
P(Óbito) = 0,33 aos 15 anos
0,3
0,2
0,1
Anos
Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística
em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.