Sie sind auf Seite 1von 61

CAPÍTULO 6: Estimativas de intervalo de confiança

PÁGINAS 102-104

6.1 Introdução à estimativa

Existem dois tipos de estimativas que podem ser realizadas para qualquer parâmetro de
população: uma estimativa pontual e uma estimativa do intervalo de confiança. Uma estimativa
pontual de um parâmetro de população é uma estimativa de valor único desse parâmetro. Uma
estimativa do intervalo de confiança (IC) é um intervalo de valores de um parâmetro de população
com um nível de confiança atribuído (por exemplo, 95% de confiança de que o intervalo contenha
um parâmetro desconhecido). O nível de confiança é semelhante a uma probabilidade. O IC
inicia com a estimativa pontual e cresce para o que chamamos de margem de erro. A margem
de erro incorpora o nível de confiança (por exemplo, 90% ou 95%, que é escolhido pelo
pesquisador) e a variabilidade da amostragem ou o erro padrão da estimativa pontual.

O IC é um intervalo de valores que é provável de cobrir o parâmetro real da população;


sua forma geral é estimativa pontual ± margem de erro. A estimativa pontual é determinada
primeiro. As estimativas pontuais para a média e a proporção da população são a média e a
proporção da amostra, respectivamente. São nossas melhores estimativas de valor único de
parâmetros de população desconhecidos. Como vimos no Capítulo 5, a média da amostra é um
avaliador imparcial da média da população. O mesmo vale para a proporção da amostra em
relação à estimativa da proporção da população. Assim, o ponto de saída, ou a estimativa
pontual, do IC da média da população é a média da amostra, e a estimativa pontual da proporção
da população é a proporção da amostra.

Em seguida, um nível de confiança é selecionado para refletir a probabilidade de que o


IC contenha o parâmetro real e desconhecido. Geralmente, os níveis de confiança de 90%, 95%
e 99% são escolhidos, embora teoricamente qualquer nível de confiança entre 0% e 100% possa
ser selecionado.
Imagine que queremos gerar uma estimativa de IC de uma média de população
� ±
desconhecida. Mais uma vez, a forma do IC é a estimativa pontual ± margem de erro ou 𝚾𝚾
margem de erro. Suponha que selecionamos um nível de confiança de 95%. Isso significa que
há uma probabilidade de 95% de que o IC contenha a média da população real. Assim,

P(𝛸𝛸� − margem de erro < μ < 𝛸𝛸� + margem de erro) = 0,95.

No Capítulo 5, introduzimos o Teorema do limite central que determina que, para


amostras grandes, a distribuição das médias da amostra é aproximadamente normal com uma
𝜎𝜎
média de 𝜇𝜇Χ� = 𝜇𝜇 e um desvio padrão de 𝜎𝜎𝛸𝛸� = . Usamos o Teorema do limite central para
√𝑛𝑛
desenvolver a margem de erro. Para a distribuição normal padrão, o seguinte é uma afirmação
verdadeira: P(−1,96 < z < 1,96) = 0,95, ou seja, há uma chance de 95% de que uma variável
padrão normal (z) caia entre -1,96 e 1,96. O Teorema do limite central determina que, para
� − 𝜇𝜇0
𝛸𝛸
amostras maiores, 𝑧𝑧 = . Se fizermos essa substituição, a seguinte afirmação será
𝑠𝑠/√𝑛𝑛
verdadeira:
� − 𝜇𝜇0
𝛸𝛸
P � −1,96 < 𝑠𝑠 < 1,96� = 0,95.
√𝑛𝑛

Usando álgebra, podemos reformular essa desigualdade de forma que a média (µ) seja
o meio termo. As etapas estão descritas a seguir:

𝛸𝛸� − 𝜇𝜇0
P � −1,96 < 𝑠𝑠 < 1,96� = 0,95
√𝑛𝑛
𝜎𝜎 𝜎𝜎
P � −1,96 < 𝛸𝛸� − 𝜇𝜇 < 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
P �− 𝛸𝛸� − 1,96 < − 𝜇𝜇 < − 𝛸𝛸� + 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛
𝜎𝜎 𝜎𝜎
P � 𝛸𝛸� − 1,96 < 𝜇𝜇 < 𝛸𝛸� + 1,96 � = 0,95
√𝑛𝑛 √𝑛𝑛

O IC de 95% da média da população é o intervalo na última afirmação de probabilidade


𝜎𝜎 𝜎𝜎
e é fornecido por: 𝛸𝛸� ± 1,96 𝑛𝑛 . A margem de erro é 1,96 𝑛𝑛 , em que 1,96 reflete o fato de que
√ √
𝜎𝜎
um nível de confiança de 95% é selecionado e 𝑛𝑛 é o erro padrão (ou o desvio padrão da

estimativa pontual, 𝛸𝛸� ). A forma geral de um IC pode ser reescrita da seguinte forma:

estimativa pontual ± SE (estimativa pontual),

em que z é o valor da distribuição normal padrão que reflete o nível de confiança selecionado
(por exemplo, para um nível de confiança de 95%, z = 1,96). A Tabela 1B no Apêndice contém
os valores z de níveis de confiança populares, como 90%, 95% e 99%. Na Tabela 1B, vemos
que para 90%, z = 1,645; para 95%, z = 1,96; e para 99%, z = 2,576. Níveis mais altos de
confiança têm valores z maiores, o que converte para margens de erro maiores e ICs maiores.
Por exemplo, para ter 99% de confiança de que um IC contém um parâmetro real desconhecido,
precisamos de um intervalo maior. Em muitas aplicações, um nível de confiança de 95% é usado.
Este é um valor geralmente aceito, mas não recomendado.
Na prática, muitas vezes não sabemos o valor do desvio padrão da população (σ). Se o
tamanho da amostra for grande (n > 30), então o desvio padrão da amostra (s) pode ser usado
para estimar o desvio padrão da população. Observe que a derivação anterior foi baseada no
Teorema central do limite, que requer um tamanho de amostra maior. Há casos em que o
tamanho da amostra não é suficientemente grande (p. ex., n < 30), portanto, o resultado geral do
Teorema do limite central não se aplica. Nesse caso, não podemos usar a distribuição normal
padrão (z) no intervalo de confiança. Em vez disso, usamos outra distribuição de probabilidade,
chamada de distribuição t, que é mais adequada para amostras pequenas.
A distribuição t é outro modelo de probabilidade para uma variável contínua. A distribuição
t é semelhante à distribuição normal padrão, mas toma uma forma levemente diferente,
dependendo do tamanho exato da amostra. Especificamente, os valores t dos ICs são maiores
para amostras menores, resultando em margens de erro maiores (ou seja, há mais imprecisão
com amostras pequenas). Os valores t dos ICs são apresentados na Tabela 2 do Apêndice. Os
valores t foram indexados por graus de liberdade (df) na Tabela 2, que foi definido como n - 1. A
Tabela 6-2 é um extrato da Tabela 2, que mostra os valores t de pequenas amostras que cobrem
tamanhos de 5 a 10 (assim, os graus de liberdade variam entre 4 e 9, porque df = n − 1).

TABELA 6-2 t Valores dos intervalos de confiança

Nível de confiança

Diretrizes específicas para usar a distribuição normal padrão (z) ou distribuição t são
fornecidas nas seções subsequentes, conforme analisamos as fórmulas de IC para aplicações
específicas. É importante observar que o uso adequado da distribuição t pressupõe que o
resultado de interesse seja aproximadamente distribuído normalmente.
Antes de fornecer fórmulas específicas, primeiro discutiremos a interpretação de ICs em
geral. Imagine que queremos estimar uma média de população usando um nível de confiança de
95%. Se pegarmos 100 amostras diferentes (na prática, utilizaremos apenas uma) e, para cada
amostra, calcularmos um IC de 95%, em teoria, 95 de 100 ICs terão o valor médio real (μ). Isso
resulta que, 5 das 100 ICs não incluirão o valor médio real. Na prática, selecionamos uma
amostra aleatória e geramos um IC. Esse intervalo pode ou não conter a média real; o intervalo
observado pode superestimar μ ou subestimar μ. O IC de 95% é o intervalo provável do
parâmetro real e desconhecido. É importante observar que um IC não reflete a variabilidade no
parâmetro desconhecido, mas, em vez disso, fornece um intervalo de valores que,
provavelmente, incluirão o parâmetro desconhecido.
CAPÍTULO 7: Teste de hipóteses
PÁGINAS 139-145, 149-157, 163-164

7.5 Testes com duas amostras independentes, resultado contínuo

Existem muitas aplicações em que pode ser interessante comparar dois grupos independentes
em relação a suas pontuações médias em um resultado contínuo. No Capítulo 6, apresentamos
técnicas para estimar a diferença entre as médias. Aqui, mais uma vez, comparamos a média
entre grupos, mas, em vez de gerar uma estimativa da diferença, testamos se a diferença
observada (aumento, diminuição ou diferença) é estatisticamente significativa ou não.

Nesta seção, discutiremos a comparação das médias em que dois grupos de comparação
são independentes ou fisicamente separados. Os dois grupos podem ser determinados por um
atributo específico (por exemplo, sexo, histórico de doença cardiovascular) ou podem ser
definidos pelo pesquisador (por exemplo, participantes designados para receber um
medicamento experimental ou um placebo). A primeira etapa na análise envolve calcular as
estatísticas descritivas em cada uma das duas amostras, usando as técnicas descritas no
Capítulo 4. Especificamente, nós calculamos o tamanho da amostra, a média e o desvio padrão
em cada amostra e indicamos essas estatísticas resumidas da seguinte forma: n1, 𝛸𝛸�1 , e n2, s1
para a Amostra 1 e 𝛸𝛸�2 , e s2 para a Amostra 2. A designação da Amostra 1 e da Amostra 2 é
essencialmente arbitrária. Em um contexto de ensaios clínicos, a convenção é chamar o
tratamento de Grupo 1 e o controle de Grupo 2. No entanto, ao comparar homens e mulheres,
qualquer grupo pode ser 1 ou 2.

Nas duas aplicações de amostras independentes com um resultado contínuo, o


parâmetro de interesse no teste de hipóteses é a diferença na média da população, µ1-µ2. A
hipótese nula é sempre de tal forma que não haja diferença entre os grupos em relação às
médias, ou seja, H0: µ1-µ2 = 0. A hipótese nula também pode ser escrita como H0: µ1=µ2. Na
hipótese de pesquisa, um pesquisador pode ter a hipótese de que a primeira média é maior do
que a segunda (H1: µ1>µ2), em que a primeira média é menor do que a segunda (H1: µ1<µ2), ou
que as médias sejam diferentes (H1: µ1 ≠ µ2). As três diferentes alternativas representam os testes
caudais superiores e inferiores e os testes bicaudais, respectivamente. A Tabela 7-11 contém as
fórmulas das estatísticas de teste para a diferença em médias da população.

TABELA 7-11 Estatísticas de teste para testar H0: µ1 = µ2


Nas fórmulas da Tabela 7–11, 𝛸𝛸�1 e 𝛸𝛸�2 são as médias do resultado nas amostras
independentes, e Sp é a estimativa combinada do desvio padrão comum (novamente,
pressupondo que as variâncias nas populações são semelhantes) calculada como a média
ponderada dos desvios padrão nas amostras,

(𝑛𝑛1 − 1)𝑠𝑠12 + (𝑛𝑛2 − 1)𝑠𝑠22


𝑆𝑆𝑝𝑝 = � .
𝑛𝑛1 + 𝑛𝑛2 − 2

Como estamos pressupondo variâncias iguais entre grupos, combinamos as informações de


acordo com a variabilidade (variâncias das amostras) para gerar uma estimativa da variabilidade
na população. Como diretriz, se a proporção das variâncias das amostras for entre 0,5 e 2, a
suposição de igualdade nas variâncias da população é considerada adequada. (Observe que,
como Sp é uma média ponderada dos desvios padrão na amostra, Sp estará sempre entre s1 e
s2.)

Exemplo 7.8. No Exemplo 6.5, usamos dados apresentados no Capitulo 4 em n = 3539


participantes que compareceram ao sétimo exame do Framingham Offspring Study e
designamos um intervalo de confiança de 95% para a diferença na pressão arterial sistólica
média entre homens e mulheres. A Tabela 7-12 contém estatísticas de resumo sobre
características medidas em homens e mulheres. Suponha que, agora, queiramos avaliar se há
uma diferença estatisticamente significativa na pressão arterial sistólica média entre homens e
mulheres usando um nível de significância de 5%.

TABELA 7-12 Estatísticas de resumo em homens e mulheres


homens mulheres

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µ1 = µ2,
H1: µ1 ≠ µ2,
α = 0,05.
Etapa 2: Selecionar a estatística de teste adequada.
Como ambas as amostras são grandes (n1 ≥ 30 e n2 ≥ 30), usamos a estatística de teste z em
oposição a t. Antes de implementar a fórmula, verificamos primeiramente se a suposição de
igualdade das variâncias da população é razoável. A diretriz sugere a investigação da razão das
𝑠𝑠 2
variâncias das amostras, 1 � 2 . Suponha que chamemos os homens de Grupo 1 e as mulheres
𝑠𝑠2
de Grupo 2. Novamente, isso é arbitrário; só precisa ser observado ao interpretar os resultados.
A razão das variâncias das amostras é 17,52 / 20,12 = 0,76, que recai entre 0,5 e 2, o que sugere
que a suposição de igualdade das variâncias da população é razoável. A estatística de teste
adequada é
𝛸𝛸�1 − 𝛸𝛸�2
𝑧𝑧 =
𝑆𝑆𝑝𝑝 �1�𝑛𝑛1 + 1�𝑛𝑛2

Etapa 3: Definir a regra de decisão.


Esse é um teste bicaudal, usando uma estatística z e um nível de significância de 5%. Os valores
críticos apropriados podem ser encontrados na Tabela 1C do Apêndice, e a regra de decisão é

Rejeitar H0 se z ≤ -1,960 ou se z ≥ 1,960.

Etapa 4: Computar a estatística de teste.


Substituímos os dados da amostra da fórmula pela estatística de teste identificada na Etapa 2.
Antes de substituir, primeiro calculamos Sp, a estimativa combinada do desvio padrão comum.

(𝑛𝑛1 − 1)𝑠𝑠12 + (𝑛𝑛2 − 1)𝑠𝑠22


𝑆𝑆𝑝𝑝 = � ,
𝑛𝑛1 + 𝑛𝑛2 − 2

(1623 − 1)(17,5)2 + (1911 − 1)(20,1)2


𝑆𝑆𝑝𝑝 = � = �359,12 = 19,0.
1623 + 1911 − 2

Note que a estimativa combinada do desvio padrão comum, Sp, fica entre os desvios padrão nos
grupos de comparação (ou seja, 17,5 e 20,1). Sp é levemente mais próximo em valor ao desvio
padrão em mulheres (20,1), já que há um número levemente maior de mulheres na amostra.
Lembre-se de que Sp é uma média ponderada dos desvios padrão nos grupos de comparação,
ponderada pelos respectivos tamanhos de amostra.
Agora calculamos a estatística do teste,

128,2 − 126,5 1,7


𝑧𝑧 = = = 2,66.
0,64
19,0 �1�1623 + 1�1911
Etapa 5: Conclusão.
Rejeitamos H0 porque 2,66> 1,960. Temos comprovações estatisticamente significativas em α =
0,05 para mostrar que há uma diferença na pressão arterial sistólica entre homens e mulheres.
O valor p pode ser encontrado na Tabela 1C do Apêndice e é igual a p< 0,010.
No Exemplo 7.8, descobrimos que há uma diferença estatisticamente significativa na
pressão arterial sistólica média entre homens e mulheres em p< 0,010. Observe que há uma
diferença muito pequena nas médias das amostras (128,2-126,5 = 1,7 unidades), mas essa
diferença é além do que seria esperado pelo acaso. Nesse exemplo, os tamanhos das amostras
grandes estão direcionando a significância estatística. No Exemplo 6.5, calculamos um intervalo
de confiança de 95% para a diferença na pressão arterial sistólica média como 1,7 ± 1,26, ou
(0,44, 2,96). O intervalo de confiança oferece uma avaliação da magnitude da diferença entre
médias, enquanto o teste de hipóteses e o valor p oferecem uma avaliação da significância
estatística da diferença. A partir do intervalo de confiança no Exemplo 6.5, vemos que a
diferença nas médias é significativa no nível de significância de 5%, porque o intervalo de
confiança de 95% não inclui o valor nulo 0. O teste formal é necessário para calcular a
significância estatística exata da diferença ou do valor p.
No Exemplo 7.3, analisamos dados de um estudo para avaliar um novo medicamento
desenvolvido para diminuir o colesterol total. O estudo envolveu uma amostra de pacientes, cada
paciente tomou o novo medicamento por 6 semanas e fez o exame de colesterol. A fim de avaliar
a eficácia do novo medicamento, a média total do colesterol após 6 semanas do tratamento foi
comparada à média nacional de 203 com base na NCHS. No final do exemplo, discutimos a
adequação do comparador histórico, assim como um estudo alternativo desenvolvido para avaliar
o efeito do novo medicamento envolvendo dois grupos de tratamento, em que um grupo toma o
novo medicamento e o outro, não. No Exemplo 7.9, revisitamos esse exemplo com um grupo de
controle simultâneo ou paralelo, o que é muito comum em testes controlados aleatoriamente ou
em ensaios clínicos (para obter mais detalhes, consulte a Seção 2.3.1).

Exemplo 7.9. Um novo medicamento é proposto para baixar o colesterol total. Um ensaio
controlado aleatório foi desenvolvido para avaliar a eficácia do novo medicamento na redução do
colesterol. 30 participantes foram inscritos no ensaio e foram designados aleatoriamente para
receber o novo medicamento ou um placebo. Os participantes não sabem a qual tratamento eles
foram designados. Cada participante precisará fazer o tratamento por 6 semanas. Ao final de 6
semanas, o nível total de colesterol de cada paciente foi medido e as estatísticas das amostras
são mostradas na Tabela 7-13. Há alguma comprovação estatística da redução na média total
do colesterol nos pacientes que tomaram o novo medicamento por 6 semanas em comparação
aos pacientes que tomaram um placebo? Realizamos um teste usando a abordagem de cinco
etapas e chamamos o Grupo 1, do novo medicamento, e o Grupo 2, do placebo.

TABELA 7-13 Níveis de colesterol por tratamento


Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µ1 = µ2,
H1: µ1 ≠ µ2,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


Como ambas as amostras são pequenas (n1< 30 e n2< 30), usamos a estatística de teste t. Antes
de implementar a fórmula, primeiro verificamos se a suposição de igualdade das variâncias da
𝑠𝑠 2 2
população é razoável. A razão das variâncias das amostras, 1 � 2 = 28,7 � = 0,90, que
𝑠𝑠2 30,32
fica entre 0,5 e 3, sugere que a suposição de igualdade das variâncias da população é razoável.
A estatística de teste adequada é

𝛸𝛸�1 − 𝛸𝛸�2
𝑡𝑡 = .
𝑆𝑆𝑝𝑝 �1�𝑛𝑛1 + 1�𝑛𝑛2

Etapa 3: Definir a regra de decisão.


Esse é um teste caudal inferior, usando uma estatística t e um nível de significância de 5%. O
valor crítico apropriado pode ser encontrado na Tabela 2 do Apêndice. Para determinar o valor
crítico de t, precisamos de graus de liberdade, df, definidos como df = n1 + n2 - 2. Nesse exemplo,
df = 15 + 15 - 2 = 28. O valor crítico de um teste caudal inferior com df = 28 e α = 0,05 é -1,701,
e a regra de decisão é
Rejeitar H0 se t ≤ -1,701.

Etapa 4: Computar a estatística de teste.


Substituímos os dados da amostra da fórmula pela estatística de teste identificada na Etapa 2.
Antes de substituir, primeiro calculamos Sp, a estimativa combinada do desvio padrão comum:

(15 − 1)(28,7)2 + (15 − 1)(30,3)2


𝑆𝑆𝑝𝑝 = � = �870,89 = 29,5.
15 + 15 − 2

Agora calculamos a estatística do teste.

195,9 − 227,4 −31,5


𝑡𝑡 = = = −2,92.
10,77
29,5 �1�15 + 1�15

Etapa 5: Conclusão.
Rejeitamos H0 porque -2,92< -1,701. Temos provas estatisticamente significativas de α = 0,05
para mostrar que a média total do nível de colesterol é menor em pacientes que tomaram o
medicamento por 6 semanas em comparação a pacientes que tomaram um placebo. Usando a
Tabela 2 do Apêndice, o valor p é p< 0,005.
O ensaio clínico no Exemplo 7.9 encontrou uma redução estatisticamente significativa
no colesterol total, enquanto no Exemplo 7.3 não demonstramos a eficácia do novo
medicamento. Observe que a média total do nível de colesterol em pacientes que tomaram o
placebo é 227,4, que é diferente do colesterol médio de 203 informado entre todos os americanos
em 2002 e usado como comparador. O valor de controle histórico pode não ter sido o comparador
mais adequado, já que os níveis de colesterol aumentaram ao longo do tempo. Na Seção 7.6,
apresentamos outro design que pode ser usado para avaliar a eficácia do novo medicamento.

7.6 Testes com amostras correspondentes, resultado contínuo

Um projeto de estudo alternativo ao descrito na seção anterior (para comparar dois grupos em
relação a suas pontuações médias em um resultado contínuo) é um estudo baseado em
amostras combinadas ou correlacionadas. Os dois grupos de comparação são considerados
dependentes (combinado ou correlacionado) e os dados podem surgir de uma única amostra de
participantes em que cada participante é medido duas vezes, possivelmente antes e depois de
uma intervenção, ou de duas amostras que são combinadas ou correlacionadas por uma ou mais
características específicas (por exemplo, irmãos). Quando as amostras são dependentes,
focamos nas pontuações diferentes de cada participante ou entre membros de um par, e o teste
de hipóteses é baseado na diferença da média, µd. A hipótese nula, mais uma vez, reflete
"nenhuma diferença" e é indicada assim µd = 0. Observe que há algumas instâncias em que é de
interesse testar se há uma diferença de alguma magnitude específica (por exemplo, µd = 5), mas,
na maioria dos casos, a hipótese nula não reflete nenhuma diferença (ou seja, µd = 0). A fórmula
adequada para o teste de hipóteses depende do tamanho da amostra. As fórmulas são exibidas
na Tabela 7-14 e são idênticas às fórmulas apresentadas para o teste de hipóteses com uma
amostra e um resultado contínuo apresentado na Seção 7.2, exceto que, aqui, focamos nas
pontuações diferentes.

TABELA 7-14 Estatísticas de teste para testar H0: µd = 0

Exemplo 7.10. No Exemplo 6.7, comparamos a pressão arterial sistólica medida no


sexto e no sétimo exames (com uma diferença de aproximadamente 4 anos) do Framingham
Offspring Study em uma subamostra de n = 15 participantes selecionados aleatoriamente. Os
dados exibidos no Exemplo 6.7, em que geramos um intervalo de confiança de 95% para a
diferença de média na pressão arterial sistólica ao longo de um período de 4 anos. Usando os
mesmos dados, agora testaremos se há uma diferença estatisticamente significativa na pressão
arterial sistólica ao longo de 4 anos usando a abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µd = 0,
H1: md ≠ 0,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


Como a amostra é pequena (n< 30), usamos a estatística de teste t,

𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑
𝑡𝑡 =
𝑆𝑆𝑑𝑑

√𝑛𝑛

Etapa 3: Definir a regra de decisão.


Esse é um teste bicaudal, usando uma estatística t e um nível de significância de 5%. O valor
crítico apropriado pode ser encontrado na Tabela 2 do Apêndice com graus de liberdade, df,
definidos como df = n - 1 = 15 - 1 = 14. O valor crítico é 2,145 e a regra de decisão é

Rejeitar H0 se t ≤ -2,145 ou se t ≥ 2,145.

Etapa 4: Computar a estatística de teste.


Agora, substituímos os dados da amostra da fórmula pela estatística de teste identificada na
Etapa 2. No Exemplo 6.7, nós tivemos: n = 15, 𝛸𝛸�𝑑𝑑 = −5,3, e sd = 12,8. A estatística do teste é

𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑 −5,3 − 0


𝑡𝑡 = = = −1,60.
𝑆𝑆𝑑𝑑 12,8
� �
√𝑛𝑛 √15

Etapa 5: Conclusão.
Não rejeitamos H0 porque -2,145< -1,60< 2,145. Não temos comprovações estatisticamente
significativas em α = 0,05 para mostrar que há uma diferença na pressão arterial sistólica ao
longo do tempo.
No Exemplo 6.7, estimamos um intervalo de confiança e tínhamos 95% de confiança de
que a diferença média na pressão arterial sistólica entre o Exame 6 e o Exame 7 (separadas por
aproximadamente 4 anos) foi entre -12,4 e 1,8. Como o valor nulo do intervalo de confiança da
diferença média é 0, concluímos que não há diferença estatisticamente significativa na pressão
arterial ao longo do tempo, pois o intervalo de confiança para a diferença média incluía 0. O teste
de hipóteses dá o mesmo resultado.
No Exemplo 7.11, revisitamos o Exemplo 7.3 e o Exemplo 7.9 nos quais avaliamos um
novo medicamento desenvolvido para reduzir o colesterol total. No Exemplo 7.3, coletamos
dados sobre uma amostra de pacientes que tomaram o novo medicamento e comparamos sua
média total do nível de colesterol a um controle histórico. No Exemplo 7.9, avaliamos a eficácia
do novo medicamento usando um ensaio clínico com um grupo de controle simultâneo ou
paralelo de placebo. No Exemplo 7.11, avaliamos novamente a eficácia do novo medicamento
usando um projeto combinado.

Exemplo 7.11. Um novo medicamento foi proposto para reduzir o colesterol total e um
estudo foi desenvolvido para avaliar a eficácia do novo medicamento. 15 pacientes aceitaram
participar do estudo e cada um tomará o novo medicamento por 6 semanas. No entanto, antes
de iniciar o tratamento, o nível de colesterol total de cada paciente é medido. A medição inicial é
um valor pré-tratamento ou valor de referência. Ao final de 6 semanas, o nível total de colesterol
de cada paciente foi medido novamente e os dados são mostrados na Tabela 7-15. A coluna da
direita contém pontuações diferentes para cada paciente, calculadas subtraindo o nível de
colesterol de 6 semanas do nível de referência. As diferenças representam a redução no
colesterol total ao longo de 6 semanas. (As diferenças poderiam ser calculadas subtraindo o nível
de colesterol total de referência do nível medido após 6 semanas. A maneira pela qual as
diferenças são calculadas não afeta o resultado da análise, somente a interpretação.)

TABELA 7-15 Diferenças no colesterol ao longo de 6


semanas

Como as diferenças são calculadas subtraindo os níveis de colesterol medidos após 6 semanas
dos valores de referência, diferenças positivas indicam reduções e diferenças negativas indicam
aumentos (por exemplo: Participante 12 aumentou 2 unidades em 6 semanas). O objetivo aqui
é testar se há uma redução estatisticamente significativa do colesterol. Por causa da forma como
calculamos as diferenças, queremos analisar um aumento na diferença média (ou seja, uma
redução positiva). Para realizar o teste, precisamos resumir as diferenças. Nessa amostra, temos
n = 15, 𝛸𝛸�𝑑𝑑 = 16,9, e sd= 14,2, respectivamente. Os dados necessários para calcular as estatísticas
da amostra constam na Tabela 7-16.

TABELA 7-16 Estatísticas resumidas das pontuações


diferentes

∑ Diferenças 254
𝛸𝛸�𝑑𝑑 = = = 16,9
𝑛𝑛 15

∑ Diferenças2 − (∑ Diferenças)2�
� 𝑛𝑛
𝑆𝑆𝑑𝑑 = ,
𝑛𝑛 − 1
7110 − (254)2�
𝑆𝑆𝑑𝑑 = � 15 = �200,64 = 14,2
15 − 1
Há alguma comprovação estatística da redução na média total do colesterol nos pacientes após
o uso do novo medicamento por 6 semanas? Realizamos o teste usando a abordagem de cinco
etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µd = 0,
H1: µd ≠ 0,
α = 0,05.

Observe que, se tivéssemos calculado diferenças subtraindo o nível de referência do nível


medido após 6 semanas, as diferenças negativas refletiriam as reduções e a hipótese de
pesquisa seria H1: µd< 0.

Etapa 2: Selecionar a estatística de teste adequada.


Como o tamanho da amostra é pequeno (n< 30), a estatística do teste adequada é

𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑
𝑡𝑡 =
𝑆𝑆𝑑𝑑

√𝑛𝑛

Etapa 3: Definir a regra de decisão.


Esse é um teste caudal superior, usando uma estatística t e um nível de significância de 5%. O
valor crítico apropriado pode ser encontrado na Tabela 2 do Apêndice. Para determinar o valor
crítico de t, precisamos de graus de liberdade, df, definidos como df = n - 1. Neste exemplo, df =
15 - 1 = 14. O valor crítico de um teste caudal superior com df = 14 e α = 0,05 é 1,761, e a regra
de decisão é
Rejeitar H0 se t ≥ 1,761.

Etapa 4: Computar a estatística de teste.


Agora, substituímos os dados da amostra da fórmula pela estatística de teste identificada na
Etapa 2:
𝛸𝛸�𝑑𝑑 − 𝜇𝜇𝑑𝑑 16,9 − 0
𝑡𝑡 = = = 4,61.
𝑆𝑆𝑑𝑑 14,2
� �
√𝑛𝑛 √15

Etapa 5: Conclusão.
Rejeitamos H0 porque 4,61> 1,761. Temos comprovações estatisticamente significativas em α =
0,05 para mostrar que há uma redução no colesterol ao longo de 6 semanas. Usando a Tabela
2 do Apêndice, o valor p é p< 0,005.
No Exemplo 7.9 e no Exemplo 7.11, usando amostras paralelas e projetos combinados,
respectivamente, encontramos reduções estatisticamente significativas no colesterol total. No
Exemplo 7.3, usando um comparador histórico, não obtivemos esse resultado. É extremamente
importante projetar estudos que sejam mais adequados para detectar uma diferença significativa,
quando existir uma. Muitas vezes, há muitas alternativas, e os pesquisadores trabalham com
bioestatísticos para determinar o melhor planejamento para cada aplicação. Vale a pena
observar que o planejamento combinado usado no Exemplo 7.11 pode ser problemático no
sentido de que as diferenças observadas podem somente refletir um efeito "placebo". Todos os
participantes usaram a medicação designada, mas a redução observada é devida ao
medicamento ou a um resultado da participação no estudo?

7.8 Testes com mais de duas amostras independentes, resultado contínuo


Existem muitas aplicações em que pode ser interessante comparar mais de dois grupos
independentes em relação a suas notaas médias em um resultado contínuo. Por exemplo, em
alguns ensaios clínicos, há mais de dois grupos de comparação. Suponha que um ensaio clínico
seja realizado para avaliar um novo medicamento para asma e os pesquisadores comparam um
medicamento experimental a um placebo e a um tratamento padrão (ou seja, uma medicação já
em uso). Em um estudo observacional, como o Framingham Heart Study, pode ser de interesse
nosso comparar a pressão arterial média ou os níveis médios de colesterol em pessoas abaixo
do peso, no peso ideal, com sobrepeso e obesas.
A técnica é testar uma diferença em mais de duas médias independentes em uma
extensão de dois procedimentos de amostras independentes discutidos na seção 7.5, que é
chamada de análise de variância (ANOVA). A técnica ANOVA é aplicada quando houver mais
de dois grupos de comparação independentes. O procedimento ANOVA é usado para comparar
as médias de grupos de comparação e é conduzido usando a mesma abordagem de cinco etapas
usada nos cenários discutidos nas seções anteriores. No entanto, como há mais de dois grupos,
o cálculo da estatística do teste é mais envolvido. A estatística do teste deve levar em conta os
tamanhos da amostra, as médias das amostras, os desvios padrão das amostras em cada um
dos grupos de comparação. Antes de ilustrar o cálculo da estatística de teste, primeiro
apresentamos a lógica do procedimento.
Considere um exemplo com quatro grupos independentes e uma medida de resultado
contínuo. Os grupos independentes podem ser definidos por uma característica particular dos
participantes, como o IMC (por exemplo, abaixo do peso, peso ideal, sobrepeso ou obeso) ou
pelo pesquisador (por exemplo, distribuindo aleatoriamente os participantes em um dos quatro
tratamentos simultâneos, chamando-os de A, B, C e D). Suponha que o resultado é pressão
arterial sistólica e que queremos testar se há uma diferença estatisticamente significativa na
pressão arterial sistólica entre os quatro grupos. Os dados da amostra são resumidos na Tabela
7-20.

TABELA 7-20 Estatísticas resumidas da ANOVA

As hipóteses de interesse em uma ANOVA são


H0: μ1 = μ2 = ... = μk,
H1: As médias não são todas iguais,
em que k é o número de grupos de comparação independentes. Para o exemplo que
acabamos de descrever, as hipóteses são
H0: µ1 = µ2 = µ3 = µ4,
H1: As médias não são todas iguais.
A hipóteses nula na ANOVA sempre é a falta de diferença nas médias. A hipótese de
pesquisa ou alternativa sempre é que as médias não são iguais e, geralmente, é escrita em
palavras em vez de com símbolos matemáticos. A hipótese de pesquisa captura qualquer
diferença nas médias e inclui a situação em que todas as quatro médias não são iguais, em que
uma é diferente das outras três, em que duas são diferentes e assim por diante. A hipótese
alternativa (como mostrado anteriormente) captura todas as situações possíveis, que não sejam
a igualdade de todas as médias especificadas na hipótese nula.
A estatística de teste da ANOVA é dada na Tabela 7–21. A estatística F é calculada pela
razão do que chamamos de variabilidade "intertratamento" e da variabilidade "residual ou erro".
Esta é a origem do nome do procedimento. Na análise de variância, estamos testando uma
diferença nas médias (H0: as médias são todas iguais contra H1: as médias não são todas iguais)
pela variabilidade da avaliação nos dados. O numerador captura a variabilidade intertratamento
(ou seja, diferenças entre as médias das amostras) e o denominador contém uma estimativa da
variabilidade no resultado. A estatística de teste é uma medida que permite avaliarmos se as
diferenças entre as médias das amostras (numerador) são maiores do que seria esperado por
acaso se a hipótese nula fosse verdadeira. Lembre-se de que, no teste de duas amostras
independentes (veja as estatísticas do teste na Tabela 7-11), as estatísticas do teste (z ou t)
foram calculadas pela razão da diferença nas médias da amostra (numerador) para a
1 1
variabilidade no resultado (estimada pelo 𝑆𝑆𝑝𝑝 = � + ).
𝑛𝑛
1 𝑛𝑛 2

TABELA 7-21 Estatística de teste para teste H0: µ1 = µ2 = … = µk


A regra de decisão para o teste F na ANOVA é definida de forma semelhante às regras
de decisão estabelecidas nos testes z e t. A regra de decisão, novamente, depende do nível de
significância e dos graus de liberdade. A estatística F tem dois graus de liberdade. Eles são
indicados como df1 e df2, e chamados os graus de liberdade do numerador e do denominador,
respectivamente. Os graus de liberdade são definidos como df1 = k - 1 e df2 = N - k, em que k é
o número dos grupos de comparação e N é o número total de observações na análise.
Semelhante aos testes χ2, não há versão caudal inferior ou superior do teste. Se a hipótese nula
for verdadeira, a variação entre tratamento (numerador) está próxima em valor da variação
residual ou de erro (denominador) e a estatística F é pequena. Se a hipótese nula for falsa, a
estatística F é grande. A região de rejeição do teste F é sempre na cauda superior (direita) da
distribuição, conforme mostrado na Figura 7-7.

FIGURA 7-7 Região de rejeição do teste F com α = 0.05, df1 = 3 e


df2 = 36 (k = 4, N = 40)

0,9

0,8
0,7

0,6
0,5
0,4
0,3

0,2

0,1 α = 0,05

A Tabela 4 do Apêndice contém valores críticos para a distribuição F de testes quando α = 0,05,
indexados por df1 e df2. A Figura 7–7 é um exemplo de situação com α = 0,05, df1 = 3 e df2 = 36.
Os graus de liberdade são baseados em uma aplicação com quatro grupos de comparação (k =
4) e um tamanho de amostra de 40 (N = 40). O valor crítico adequado da Tabela 4 do Apêndice
é 2,87, e a regra de decisão é

Rejeitar H0 se F ≥ 2,87.

Em seguida, ilustramos o procedimento ANOVA usando a abordagem de cinco etapas.


Como o cálculo da estatística do teste está envolvido, os cálculos são frequentemente
organizados em uma tabela ANOVA. A tabela ANOVA detalha os componentes de variação nos
dados em variação entre tratamentos e a variação residual ou de erro. A tabela ANOVA foi
definida conforme mostrado na Tabela 7-22.
TABELA 7-22 Tabela ANOVA

A tabela ANOVA é organizada da seguinte forma. A primeira coluna é chamada de Fonte da


Variação e delineia a variação intertratamento e residual ou de erro. A variação total é a soma
da variação intertratamento e de erro. A segunda coluna é chamada Somas dos Quadrados (SS).
As somas intertratamento dos quadrados é
2
SSB = ∑ 𝑛𝑛𝑗𝑗 �𝛸𝛸� 𝑗𝑗 − 𝛸𝛸� � , e é calculada adicionando as diferenças quadráticas entre a média de
cada tratamento (ou grupo) (𝛸𝛸�𝑗𝑗 ) à média geral (𝛸𝛸�). As diferenças quadráticas são ponderadas
pelos tamanhos de amostra por grupo (nj). As somas de erro dos quadrados são
2
SSE = ∑ ∑�𝑋𝑋 − 𝛸𝛸� 𝑗𝑗 � , e são calculadas adicionando as diferenças quadráticas entre cada
observação (X) à média do seu grupo 𝛸𝛸�𝑗𝑗 (ou seja, as diferenças quadráticas entre cada
observação no Grupo 1 e na média do Grupo 1, as diferenças quadráticas entre cada observação
no Grupo 2 e na média do Grupo 2, e assim por diante). A soma dupla (∑∑) indica a soma das
diferenças quadráticas dentro de cada tratamento e, então a soma desses totais em tratamentos
para produzir um único valor. (Isso está ilustrado nos seguintes exemplos.) As somas totais dos
quadrados são SST = ∑ ∑(𝑋𝑋 − 𝛸𝛸 �)2 , e são calculadas pela soma das diferenças quadráticas
entre cada observação (X) á média geral da amostra 𝛸𝛸�. Em uma ANOVA, os dados são
organizados pelos grupos de comparação ou de tratamento. Se todos os dados forem
pesquisados em uma única amostra, o SST será o numerador da variância da amostra calculado
na pesquisa ou na amostra total. SST não aparece diretamente na estatística F. No entanto, SST
= SSB + SSE; assim, se duas somas de quadrados forem conhecidas, a terceiro pode ser
calculada a partir das outras duas.
A terceira coluna contém graus de liberdade. Os graus de liberdade intertratamento são
df1 = k - 1. Os graus de liberdade de erro são df2 = N - k. O total de graus de liberdade é N - 1, e
também é verdade que (k - 1) + (N - k) = N - 1. A quarta coluna contém Quadrados da média
(MS), que são calculados dividindo as somas dos quadrados (SQ) pelos graus de liberdade (df),
linha por linha. Especificamente,
𝑆𝑆𝑆𝑆𝑆𝑆 𝑆𝑆𝑆𝑆𝑆𝑆
MSB = e MSE =
𝑘𝑘−1 𝑁𝑁−𝑘𝑘

A divisão de SST / (N - 1) produz a variância da amostra total. A estatística F está na coluna


direita da tabela ANOVA e é calculada pela razão de MSB / MSE.
Exemplo 7.14. Um ensaio clínico é realizado para comparar os programas de perda de
peso; os participantes são designados aleatoriamente a um dos programa de comparação e
orientados sobre os detalhes do programa atribuído. Os participantes seguem o programa
atribuído por 8 semanas. O resultado de interesse é a perda de peso, definido como a diferença
no peso medido no início do estudo (referência) e o peso medido ao final do estudo (8 semanas),
em libras.
Três programas populares de perda de peso são considerados. O primeiro é uma dieta
de baixas calorias. O segundo é uma dieta com baixo teor de gordura e o terceiro uma dieta de
baixo teor de carboidratos. Para fins de comparação, um quarto grupo foi considerado como um
grupo de controle. Os participantes do quarto grupo são informados de que participarão em um
estudo de comportamentos de saúde com perda de peso sendo o único componente de
interesse. O grupo de controle está incluído aqui para avaliar o efeito placebo (ou seja, a perda
de peso pela simples participação no estudo). Um total de 20 pacientes aceitam participar do
estudo e são designados aleatoriamente a um dos quatro grupos de dieta. Os pesos são medidos
na referência e os pacientes são orientados a respeito da implementação correta da dieta
designada (com exceção do grupo de controle). Após 8 semanas, o peso de cada participante é
novamente medido e a diferença nos pesos é calculada subtraindo o peso de 8 semanas do peso
de referência. As diferenças positivas indicam a perda de peso, enquanto as diferenças negativas
indicam aumento de peso. Para fins de interpretação, indicamos a diferença em pesos como
perda de peso, e as perdas de peso observadas são mostradas na Tabela 7-23. Há uma
diferença estatisticamente significativa na perda de peso média entre as quatro dietas?
Executamos a ANOVA usando a abordagem de cinco etapas.

TABELA 7-23 Perda de peso em cada tratamento

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µ1 = µ2 = µ3 = µ4,
H1: As médias não são todas iguais,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


A estatística do teste é a estatística F da ANOVA,
MSB
𝐹𝐹 =
MSE

Etapa 3: Definir a regra de decisão.


O valor crítico apropriado pode ser encontrado na Tabela 4 do Apêndice. Para determinar o valor
crítico de F, precisamos de graus de liberdade, df1 = k – 1 e df2 = N – k. Nesse exemplo,
df1 = k – 1 = 4 – 1 = 3 e df2 = N – k = 20 – 4 = 16. O valor crítico é 3,24 e a regra de decisão é

Rejeitar H0 se F ≥ 3,24.

Etapa 4: Computar a estatística de teste.


Para organizar nossos cálculos, preenchemos a tabela ANOVA. Para calcular a soma dos
quadrados, primeiro calculamos as médias da amostra de cada grupo (veja a Tabela 7-24). A
média geral com base na amostra total (n = 20) é 𝛸𝛸�. Agora podemos calcular SSB:

TABELA 7-24 Estatísticas resumidas da perda peso


por tratamento

2
SSB = � 𝑛𝑛𝑗𝑗 �𝛸𝛸� 𝑗𝑗 − 𝛸𝛸� � ,

SSB = 5(6,6 − 3,6)2 + 5(3,0 − 3,6)2 + 5(3,4 − 3,6)2 + 5(1,2 − 3,6)2 ,

SSB = 45 + 1,8 + 0,2 + 28,8 = 75,8.


Em seguida, calculamos SSE. O SSE requer o cálculo das diferenças quadráticas entre cada
observação e a média do seu grupo. Calculamos SSE em partes (veja as Tabelas 7–25, 7–26,
7–27, 7–28) e depois somamos.

2
SSE = � ��𝑋𝑋 − 𝛸𝛸� 𝑗𝑗 � = 21,4 + 10,0 + 5,4 + 10,6 = 47,4.
TABELA 7-25 Desvios da média de TABELA 7-26 Desvios da média de
perda de peso na dieta de baixa caloria perda de peso na dieta de baixa gordura

TABELA 7-27 Desvios da média de TABELA 7-28 Desvios da média de


perda de peso na dieta de consumo de perda de peso no grupo de controle
carboidratos

Agora, podemos construir a tabela ANOVA (veja a Tabela 7-29).

TABELA 7-29 Tabela ANOVA


Etapa 5: Conclusão.
Rejeitamos H0 porque 8,43 > 3,24. Temos comprovações estatisticamente significativas a α =
0,05 para mostrar que há uma diferença na perda de peso média entre as quatro dietas.
Observe que a Tabela 4 do Apêndice apresenta valores críticos do teste F somente
quando α = 0,05. Sem as tabelas de outros níveis de significância, não podemos aproximar os
valores p da ANOVA manualmente. Como a implementação manual da ANOVA é uma técnica
entediante, ela é geralmente realizada usando um pacote de cálculo estatístico que produz, junto
com a tabela ANOVA, um valor p exato.
ANOVA é um teste que oferece uma avaliação global da significância estatística em mais
de duas médias independentes. Nesse exemplo, encontramos que há uma diferença
estatisticamente significativa na perda de peso média entre as quatro dietas consideradas. Além
de relatar os resultados do teste de estatística de hipótese (ou seja, de que há uma diferença
estatisticamente significativa na perda de peso média em α = 0,05), os pesquisadores também
devem relatar as médias de amostra observadas para facilitar a interpretação dos resultados.
Nesse exemplo, os participantes da dieta de baixa caloria perderam uma média de 6,6 libras em
8 semanas, em comparação a 3 e 3,4 libras nos grupos de dietéticos e de baixo consumo de
carboidratos, respectivamente. Os participantes no grupo de controle perderam uma média de
1,2 libra, o que pode ser chamado de efeito placebo, pois esses participantes não faziam parte
de um grupo ativo do ensaio especificamente voltado para a perda de peso.
Exemplo 7.15. O cálcio é um mineral essencial que regula o coração e é importante para
a coagulação do sangue e para desenvolver ossos saudáveis. A Fundação Nacional de
Osteoporose recomenda um consumo diário de cálcio de 1.000 a 1.200 mg/dia para homens e
mulheres adultos.9 Embora o cálcio esteja presente em alguns alimentos, a maioria dos adultos
não consome cálcio suficiente em suas dietas e acabam precisando de suplementos.
Infelizmente, alguns dos suplementos têm efeitos colaterais, como distúrbio gástrico, o que faz
com que os pacientes não os consumam regularmente.
Um estudo foi desenvolvido para testar se há uma diferença no consumo médio diário de
cálcio em adultos com densidade óssea normal, adultos com osteopenia (densidade óssea baixa,
que pode levar à osteoporose) e adultos com osteoporose. Adultos de 60 anos com densidade
óssea normal, osteopenia e osteoporose foram selecionados aleatoriamente a partir dos registros
hospitalares e convidados para participar do estudo. Cada consumo de cálcio diário do
participante é medido com base no consumo de alimentos e de suplementos relatados. Os dados
são exibidos na Tabela 7-30.

TABELA 7-30 Consumo de cálcio em


cada tratamento
Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: µ1 = µ2 = µ3,
H1: As médias não são todas iguais,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


A estatística do teste é a estatística F da ANOVA,

MSB
𝐹𝐹 =
MSE

Etapa 3: Definir a regra de decisão.


O valor crítico apropriado pode ser encontrado na Tabela 4 do Apêndice. Para determinar o valor
crítico de F, precisamos de graus de liberdade, df1 = k – 1 e df2 = N – k. Nesse exemplo, df1 = k
– 1 = 3 – 1 = 2 e df2 = N – k = 18 – 3 = 15. O valor crítico é 3,68 e a regra de decisão é

Rejeitar H0 se F ≥ 3,68.

Etapa 4: Computar a estatística de teste.


Para organizar nossos cálculos, preenchemos a tabela ANOVA. Para calcular a soma dos
quadrados, primeiro devemos calcular as médias da amostra de cada grupo (veja a Tabela 7-
31). A média geral é 𝛸𝛸� = 817,8. Agora, podemos calcular SSB:

TABELA 7-31 Estatísticas resumidas


do consumo de cálcio por tratamento

2
SSB = � 𝑛𝑛𝑗𝑗 �𝛸𝛸� 𝑗𝑗 − 𝛸𝛸� � ,

SSB = 6(938,3 − 817,8)2 + 6(715,0 − 817,8)2 + 5(800,0 − 817,8)2 ,

SSB = 87.121,5 + 63.407,0 + 1.901,0 = 152.429,5.


Em seguida, calculamos o SSE. O SSE requer o cálculo das diferenças quadráticas entre cada
observação e a média do seu grupo. Calculamos o SSE em partes (veja as Tabelas 7-32, 7-33,
e 7-34), e depois somamos.
2
SSE = � ��𝑋𝑋 − 𝛸𝛸� 𝑗𝑗 � = 130.083,4 + 240.000,0 + 449.750,0 = 819.833,4.

TABELA 7-32 Desvios de consumo TABELA 7-33 Desvios de consumo


médio de cálcio em pacientes com médio de cálcio em pacientes com
densidade óssea normal osteopenia

TABELA 7-32 Desvios de consumo


médio de cálcio em pacientes com
osteoporose

Agora, podemos construir a tabela ANOVA (veja a Tabela 7-35).

TABELA 7-35 Tabela ANOVA


Etapa 5: Conclusão.
Não rejeitamos H0 porque 1,39< 3,68. Não temos comprovações estatisticamente significativas
em α = 0,05 para mostrar que há uma diferença no consumo médio de cálcio em pacientes com
densidade óssea normal em comparação à osteopenia e à osteoporose.
Quando os tamanhos das amostras de cada grupo de comparação são iguais, o projeto
é chamado de projeto equilibrado. Projetos equilibrados são preferidos em comparação a
projetos não equilibrados (números desiguais de participantes nos grupos de comparação), pois
eles são mais robustos (por exemplo, eles garantem uma taxa de erro de tipo I de 5% quando α
= 0,05) quando as suposições, tais como normalidade do resultado, são violadas.
Os testes ANOVA descritos aqui são chamados ANOVAS de via única ou de um fator.
Há um tratamento ou fator de agrupamento com k > 2 níveis, e queremos comparar as médias
de um resultado contínuo nas categorias diferentes desse fator (também chamado de
tratamentos diferentes). O fator pode representar diferentes dietas, diferentes classificações de
risco de doença (por exemplo, osteoporose), diferentes tratamentos médicos, diferentes faixas
etárias ou diferentes grupos raciais ou étnicos. Há situações em que pode ser de interesse
comparar as médias de um resultado contínuo em dois ou mais fatores. Por exemplo, suponha
que um ensaio clínico tenha sido desenvolvido para comparar três tratamentos diferentes para
dores nas articulações para pacientes com osteoartrite. Pesquisadores também podem criar
hipóteses de que há diferenças no resultado de acordo com o sexo. Esse é um exemplo de uma
ANOVA de dois fatores, em que os fatores são tratamento (com três níveis) e sexo (com dois
níveis). Na ANOVA de dois fatores, os pesquisadores podem avaliar se há diferenças nas médias
devido aos tratamentos, devido ao sexo do paciente ou devido à combinação ou interação de
tratamento e sexo. Se houver diferenças nas médias do resultado por tratamento, dizemos que
há um efeito principal de tratamento. Se houver diferenças nas médias do resultado por sexo,
dizemos que há um efeito principal de sexo. Se houver diferenças nas médias do resultado entre
tratamentos, mas eles variam por sexo, dizemos que é um efeito de interação. ANOVAs de ordem
superior são conduzidas do mesmo jeito que ANOVAs de um fator apresentadas aqui, e os
cálculos são novamente organizados em tabelas ANOVAS com mais linhas para distinguir as
diferentes fontes de variação (por exemplo: entre tratamentos, entre homens e mulheres). Um
exemplo de uma ANOVA de dois fatores é dado no Exemplo 7.16. Mais detalhes sobre a ANOVA
de ordem superior podem ser encontrados em Snedecor e Cochran.10

Exemplo 7.16. Considere o ensaio clínico descrito acima, no qual três tratamentos
simultâneos para dores nas articulações são comparados em termos de seu tempo médio para
alívio da dor em pacientes com osteoartrite. Como os pesquisadores criam a hipótese de que
pode haver uma diferença no tempo para aliviar a dor em homens em relação às mulheres, eles
designam, aleatoriamente, 15 participantes homens a um dos três tratamentos simultâneos e
designam, aleatoriamente, 15 participantes mulheres a um dos três tratamentos simultâneos (ou
seja, aleatoriedade estratificada). Os participantes homens e mulheres não sabem a qual
tratamento eles foram designados. Eles são instruídos a tomar a medicação designada quando
tiverem dores nas articulações e para registrar o tempo, em minutos, até que a dor diminua. Os
dados (tempo para alívio da dor) são exibidos na Tabela 7-36 e são organizados pelo tratamento
atribuído e pelo sexo do participante.
TABELA 7-36 Tempo até alívio da dor
por tratamento e sexo

A análise na ANOVA de dois fatores é semelhante à análise ilustrada na Seção 7.8 da ANOVA
de um fator. Os cálculos são novamente organizados em uma tabela ANOVA, mas a variação
total é particionada nela devido ao efeito principal do tratamento, ao efeito principal do sexo e ao
efeito de interação. Os resultados da análise são exibidos na Tabela 7-37 (consulte Snedecor e
Cochran para saber detalhes técnicos.10)

TABELA 7-37 Tabela ANOVA

Existem quatro testes estatísticos na tabela ANOVA. O primeiro teste é um teste geral para
avaliar se há uma diferença entre seis médias de célula (células são definidas por tratamento e
sexo). A estatística F é 20,7 e é estatisticamente extremamente significativa com p = 0,0001.
Quando o teste geral é significativo, o foco se volta para os fatores que podem estar
impulsionando a significância (nesse exemplo, tratamento, sexo ou a interação entre os dois).
Os próximos três testes estatísticos avaliam a significância do principal efeito de tratamento, o
principal efeito de sexo e o efeito de interação. Nesse exemplo, há um efeito principal de
tratamento altamente significativo (p = 0,0001) e um efeito de sexo altamente significativo (p =
0,0001). A interação entre os dois não chega à significância estatística. A Tabela 7–38 contém
os tempos médios até o alívio da dor em cada um dos tratamentos para homens e mulheres
(observe que cada média da amostra é calculada nas 5 observações medidas sob essa condição
experimental).

TABELA 7-38 Tempo médio até alívio


da dor por tratamento e sexo

O tratamento A parece ser o mais eficaz para homens e mulheres. Os tempos médios até o alívio
são menores no Tratamento A para homens e mulheres e o mais alto no Tratamento C para
homens e mulheres. Em cada tratamento, as mulheres relataram tempos mais longos até o alívio
da dor.
Suponha que o mesmo ensaio clínico seja replicado em uma segunda clínica e os dados
na Tabela 7-39 sejam observados. A tabela ANOVA dos dados médicos na clínica 2 são
resumidos na Tabela 7-40.

TABELA 7-39 Tempo até alívio da dor


por tratamento e sexo: Clínica 2
TABELA 7-40 Tabela ANOVA

Observe que o teste geral é significativo (F = 19,4, p = 0,0001) e que há um efeito de tratamento
e efeito de sexo significativos e um efeito de interação altamente significativo. A tabela 7–41
contém os tempos médios até o alívio em cada um dos tratamentos para homens e mulheres.

TABELA 7-41 Tempo médio até alívio


da dor por tratamento e sexo: Clínica 2

Observe agora que as diferenças no tempo médio até o alívio da dor entre os tratamentos
depende do sexo. Entre homens, o tempo médio até o alívio da dor é mais alto no Tratamento A
e menor no Tratamento C. Entre mulheres, o contrário é verdadeiro. Esse é um efeito de
interação. Quando os efeitos de interação estão presentes, alguns pesquisadores não examinam
os efeitos principais. Abordaremos os efeitos de interação de maneira mais detalhada no Capítulo
9.

7.10 Resumo
Neste capítulo, apresentamos as técnicas de teste de hipóteses. Testes de hipóteses envolvem
várias etapas, incluindo a especificação da hipótese nula e da hipótese alternativa ou de
pesquisa, a seleção e a computação de uma estatística de teste adequada, a definição de uma
regra de decisão e a conclusão. Existem muitos detalhes a serem considerados no teste de
hipóteses. O primeiro é determinar o teste apropriado. Discutimos que os testesz, t, χ2 e F são
usados para diferentes aplicações. O teste adequado depende da distribuição da variável do
resultado (contínua, dicotômica, categórica ou ordinal), do número de grupos de comparação
(um, dois ou mais de dois), e se os grupos de comparação são independentes ou dependentes.
A Tabela 7–50 resume os diferentes testes de hipóteses discutidos aqui.
TABELA 7-50 Resumo das fórmulas importantes para testes de hipóteses

*Consulte as Tabelas 7–4, 7–11 e 7–14 para ver fórmulas alternativas apropriadas para amostras pequenas.

Uma vez que o tipo de teste for determinado, os detalhes do teste deverão ser especificados.
Mais especificamente, a hipótese nula e de pesquisa devem ser claramente definidas. A hipótese
nula sempre reflete a situação "sem alteração" ou "sem diferença". A hipótese alternativa ou de
pesquisa reflete a convicção do pesquisador. O pesquisador deve formular uma hipótese de que
um parâmetro (por exemplo, uma média, uma proporção, diferença em médias ou diferença em
proporções) aumentará, diminuirá ou será diferente em condições específicas (às vezes, as
condições são diferentes condições experimentais e outras vezes, as condições são definidas
pelos atributos dos participantes). Uma vez que as hipóteses são especificadas, os dados são
coletados e resumidos. Em seguida, o teste apropriado é conduzido de acordo com uma
abordagem de cinco etapas. Se o teste resultar na rejeição da hipótese nula, um valor p-
aproximado será computado para resumir a significância estatística dos resultados. Quando os
testes de hipóteses são conduzidos usando pacotes de computação estatísticas, valores p
exatos são computados. Como as tabelas estatísticas contidas neste livro didático são limitadas,
apenas aproximamos os valores p. Se o teste não rejeitar a hipótese nula, uma conclusão mais
fraca será realizada.
No teste de hipóteses, existem dois tipos de erros que podem ser cometidos. Um erro de
Tipo I ocorre quando um teste rejeita incorretamente uma hipótese nula. Isso é chamado de
resultado falso positivo e a probabilidade de sua ocorrência ser igual no nível de significância, a.
O pesquisador escolhe o nível de significância e escolha intencionalmente um valor pequeno,
como α = 0,05, para controlar a probabilidade de cometer um erro de Tipo I. Um erro de Tipo I
ocorre quando um teste não rejeita a hipótese nula quando, na realidade, ela é falsa. A
probabilidade de sua ocorrência é igual a b. Infelizmente, o pesquisador não conseguirá
especificar β, pois depende de vários fatores, incluindo o tamanho da amostra (amostras
menores têm β maiores), o nível de significância e a diferença no parâmetro sob as hipóteses
nulas e alternativas. (Para obter mais detalhes, consulte D’Agostino, Sullivan e Beiser.5)
Em vários exemplos, notamos a relação entre intervalos de confiança e testes de
hipóteses. Embora as abordagens sejam ligeiramente diferentes, elas estão claramente
relacionadas. É possível chegar à conclusão sobre a significância estatística pela análise do
intervalo de confiança. Por exemplo, se um intervalo de confiança de 95% não contiver o valor
nulo do parâmetro de interesse (por exemplo, 0 ao analisar uma diferença em médias ou
diferença de risco, 1 ao analisar riscos relativos ou razão de possibilidades), então concluímos
que um teste bilateral das hipóteses é significativo em α = 0,05. É importante observar que a
correspondência entre um intervalo de confiança e um teste de hipóteses se relaciona a um teste
bilateral, e que o nível de confiança corresponde a um nível bilateral específico de significância
(por exemplo, 95% a α = 0,05, 90% para α = 0,10, e assim por diante). A significância exata do
teste, o valor p, pode ser determinado somente pelo uso da abordagem de teste de hipótese.
CAPÍTULO 10: Testes não paramétricos
PÁGINAS 227-233, 241-246

10.2 Testes com duas amostras independentes

No Capítulo 7, Seção 7.5, apresentamos as técnicas de testes de igualdade de médias em duas


amostras independentes. Uma suposição subjacente para o uso adequado dos testes descritos
na Seção 7.5 foi que o resultado contínuo era distribuído normalmente de forma aproximada ou
que as amostras eram suficientemente grandes (geralmente n1 > 30 e n2 > 30) para justificar seu
uso com base no Teorema central limite. Quando o resultado não é distribuído normalmente e
as amostras são pequenas, um teste não paramétrico é recomendado.
Um teste não paramétrico popular para comparar resultados entre dois grupos
independentes é o teste U de Mann–Whitney. O teste U Mann–Whitney, às vezes chamado de
teste Mann–Whitney–Wilcoxon ou Wilcoxon Rank-Sum, é usado para testar se duas amostras
são prováveis de derivar da mesma população (ou seja, que duas populações tenham a mesma
forma). Alguns pesquisadores interpretam esse teste como a comparação de medianos entre
duas populações. Lembre-se que o teste paramétrico análogo compara as médias (H0: µ1 = µ2)
entre grupos independentes (consulte a Seção 7.5).
A hipótese nula e a hipótese de pesquisa bilateral do teste não paramétrico são iniciadas
como segue:
H0: As duas populações são iguais.
H1: As duas populações não são iguais.

Esse teste é frequentemente realizado como um teste bilateral e, assim, a hipótese de


pesquisa indica se as populações não são iguais em vez de especificar a direcionabilidade. Uma
hipótese de pesquisa unilateral é usada se o interesse estiver em detectar uma mudança positiva
ou negativa em uma população comparada à outra. O procedimento do teste envolve pesquisar
as observações de duas amostras em uma amostra combinada, manter registros de quais
amostras cada observação se origina e classificar, em ordem crescente, de 1 a n1 + n2,
respectivamente. Para ilustrar o procedimento, considere o seguinte exemplo. Realizamos cada
uma dessas cinco etapas no teste de hipóteses, mas incluímos mais detalhes para auxiliar no
entendimento. (Em exemplos subsequentes, a abordagem de cinco etapas será seguida mais
diretamente.)
Exemplo 10.1. Considere a Fase II de um ensaio clínico projetado para investigar a
eficácia de um novo remédio para reduzir os sintomas da asma em crianças. Um total de n = 10
participantes foram escolhidos aleatoriamente para receber o novo medicamento ou um placebo.
Os participantes devem registrar o número de ocorrências de falta de ar durante uma semana
após o recebimento do tratamento atribuído. Os dados são apresentados abaixo.

Placebo 7 5 6 4 12
Novo medicamento 3 6 4 2 1

A pergunta de interesse é se há uma diferença no número de ocorrências de falta de ar


durante uma semana nos participantes que receberam o novo medicamento em comparação aos
que receberam o placebo. Pela inspeção, parece que os participantes que receberam o placebo
têm mais ocorrências de falta de ar do que aqueles que receberam o novo medicamento. A
pergunta é se essa diferença observada é estatisticamente significativa.
Nesse exemplo, o resultado é uma contagem, e nessa amostra os dados não seguem
uma distribuição normal (veja a Figura 10-4).
FIGURA 10-4 Número de ocorrências de falta de ar

Frequência

Número de ocorrências

Além disso, o tamanho da amostra é pequeno (n1 = n2 = 5). Assim, um teste não paramétrico é
adequado. As hipóteses a serem testadas são dadas abaixo; realizamos o teste com um nível
de significância de 5% (ou seja, α = 0,05).

H0: As duas populações são iguais.


H1: As duas populações não são iguais.

Observe que, se a hipótese nula for verdadeira (ou seja, as duas populações forem
iguais), esperamos ver números similares de ocorrências de falta de ar em cada um dos dois
grupos de tratamento. Especificamente, se os números de ocorrências de falta de ar forem iguais
em participantes designados para o novo medicamento e naqueles designados para o placebo,
esperaríamos ver alguns participantes relatando poucas ocorrências e alguns relatando mais
ocorrências em cada um dos grupos de comparação. Esse não parece ser o caso nos dados
observados. Um teste de hipóteses é necessário para determinar se os dados observados são
provas de uma diferença estatisticamente significativa nas populações.
A primeira etapa é atribuir classificações e, para fazer isso, ordenamos os dados em
ordem crescente. Isso é feito na amostra combinada ou total, combinando os dados dos dois
grupos de tratamento e atribuindo classificações de 1 a 10, conforme exibido na Tabela 10-1.
Também precisamos monitorar as atribuições do grupo na amostra total (n = 10).
TABELA 10-1 Atribuição de classificação

Observe que as classificações menores (por exemplo, 1, 2 e 3) foram atribuídas às


respostas no grupo de novo medicamento, enquanto as classificações maiores (por exemplo, 9
e 10) foram atribuídos às respostas no grupo de placebo. Mais uma vez, o objetivo do teste foi
determinar se os dados observados confirmam uma diferença nas populações de respostas.
Observe que nos testes paramétricos, discutidos no Capítulo 7, ao comparar as médias entre
dois grupos, analisamos a diferença nas médias da amostra em relação à sua variabilidade e
resumimos as informações da amostra em uma estatística de teste. Uma abordagem similar é
empregada aqui. Especificamente, produzimos uma estatística de teste com base nas
classificações.
Primeiro, somamos as classificações de cada grupo. No grupo de placebo, a soma das
classificações é 37 e no grupo de novo medicamento, a soma das classificações é 18. Lembre-
se de que a soma das classificações sempre será igual n(n + 1)/2. Como uma verificação de
nossa atribuição das classificações, temos n(n + 1)/2 = 10(11)/2 = 55, que é igual a 37 + 18 = 55.
Para o teste, chamamos o placebo de grupo 1 e o novo medicamento de grupo 2 (a
atribuição dos grupos 1 e 2 é arbitrária; só precisamos manter as atribuições do grupo ao longo
de todo o procedimento do teste). Deixamos que R1 indique a soma das classificações no grupo
1 (i.e., R1 = 37) e R2 indique a soma das classificações no grupo 2 (i.e., R2 = 18). Se a hipótese
nula for verdadeira (ou seja, se as duas populações forem iguais), esperamos que R1 e R2 sejam
similares. Nesse exemplo, os valores mais baixos (classificações mais baixas) foram agrupados
no grupo do novo medicamento (grupo 2), enquanto os valores mais altos (classificações mais
altas) foram agrupados no grupo do placebo (grupo 1). A questão é se a diferença que
observamos nas somas das classificações é sugestiva de uma diferença nas populações ou é
simplesmente devido ao acaso. Agora, calculamos uma estatística de teste para resumir as
informações da amostra e, depois, comparamos as estatística do teste a um valor apropriado de
uma distribuição de probabilidade correspondente ao nosso nível selecionado de significância.
A estatística do teste U Mann–Whitney é indicada por U e é menor do que U1 e U2, definida
como segue:
𝑛𝑛1 (𝑛𝑛1 + 1)
𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1
2
𝑛𝑛2 (𝑛𝑛2 + 1)
𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2
2
Para esse exemplo,
𝑛𝑛1 (𝑛𝑛1 + 1) 5(6)
𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1 = 5(5) + − 37 = 3
2 2
𝑛𝑛2 (𝑛𝑛2 + 1) 5(6)
𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2 = 5(5) + − 18 = 22
2 2
Em nosso exemplo, U = 3. Essa comprovação confirma a hipótese nula ou a hipótese de
pesquisa?
Antes de solucionar essa questão, consideramos o intervalo da estatística do teste U em
situações diferentes. Primeiro, consideramos a situação em que há uma separação completa
entre grupos. Essa é uma situação em que os dados confirmam mais claramente a hipótese de
pesquisa (ou seja, as duas populações não são iguais). Especificamente, suponha que todos os
números mais altos de ocorrências de falta de ar, e assim todas as classificações mais altas,
estão no grupo de placebo e todos os números mais baixos de ocorrências de falta de ar, e assim
as classificações mais baixas, estão no grupo do novo medicamento e que não há ligações.
Então, R1 = 6 + 7 + 8 + 9 + 10 = 40 e R2 = 1 + 2 + 3 + 4 + 5 = 15, e
5(6) 5(6)
𝑈𝑈1 = 5(5) + − 40 = 0 e 𝑈𝑈2 = 5(5) + − 15 = 25. Assim, quando há claramente uma
2 2
diferença nas populações, U = 0.
Considere uma segunda situação em que as pontuações baixas e altas são distribuídas
de forma praticamente uniforme entre os grupos de placebo e do novo medicamento. Essa é
uma situação em que os dados confirmam mais claramente a hipótese nula (ou seja, as duas
populações são iguais). Suponha que as classificações 2, 4, 6, 8 e 10 foram atribuídas aos
números de ocorrências de falta de ar relatados no grupo de placebo e as classificações 1, 3, 5,
7 e 9 foram atribuídas aos números de ocorrências de falta de ar relatados no grupo do novo
medicamento. Então, R1 = 2 + 4 + 6 + 8 + 10 = 30 e R2 = 1 + 3 + 5 + 7 + 9 = 25, e 𝑈𝑈1 = 5(5) +
5(6) 5(6)
− 30 = 10 e 𝑈𝑈2 = 5(5) + − 25 = 15. Assim, quando não há claramente nenhuma
2 2
diferença entre as populações, U = 10. Valores menores de U confirmam a hipótese de pesquisa
e valores maiores de U confirmam a hipótese nula. Na realidade, para qualquer teste, o intervalo
teórico de U é de 0 (separação completa entre grupos, H0 provavelmente mais falsa e com H1
provavelmente mais verdadeira) para n1 × n2 (poucas comprovações confirmam H1). Em cada
teste, U1 + U2 é sempre igual a n1 × n2. Em nosso exemplo, U pode variar de 0 a 25 e valores
menores de U confirmam a hipótese de pesquisa (ou seja, rejeitamos H0 se U for pequeno). O
procedimento para determinar exatamente quando rejeitar H0 é descrito em seguida.
Em cada teste, precisamos determinar se o U observado confirma a hipótese nula ou a
hipótese de pesquisa. Isso é feito seguindo a mesma abordagem usada no teste paramétrico.
Especificamente, determinamos um valor crítico de U de tal forma que, se o valor observado de
U for menor ou igual ao valor crítico, rejeitamos H0 em favor de H1, e se o valor observado de U
exceder o valor crítico, não rejeitamos H0. O valor crítico de U pode ser encontrado na Tabela 5
do Apêndice. Para determinar o valor crítico adequado, precisamos dos tamanhos das amostras
(n1 = n2 = 5) e do nosso nível de significância bilateral (a = 0,05). Para esse exemplo, o valor
crítico é 2, e a regra de decisão é rejeitar H0 se U ≤ 2. Não rejeitamos H0 porque 3 > 2. Não temos
comprovações estatisticamente significativas em a = 0,05 para mostrar que as duas populações
de números de ocorrências de falta de ar não são iguais. Nesse exemplo, o fato de a significância
estatística não ter sido atingida se deve à fraqueza da potência. Os dados da amostra sugerem
uma diferença, mas os tamanhos da amostra são possivelmente muito pequenos para concluir
que há uma diferença estatisticamente significativa.
Exemplo 10.2. Uma nova abordagem ao cuidado pré-natal foi proposta para gestantes
da zona rural. O novo programa envolve visitas domiciliares durante a gestação, além das visitas
usuais ou regularmente agendadas. Um ensaio piloto aleatório feito com 15 gestantes foi
projetado para avaliar se as participantes do programa dão à luz a bebês mais saudáveis do que
as mulheres recebendo cuidado normal. O resultado é a escala de APGAR medida 5 minutos
após o nascimento. Lembre-se de que a escala de APGAR varia de 0 a 10, em que uma nota 7
ou superior é considerada normal (saudável), 4 a 6 é baixa e 0 a 3 é seriamente baixa. Os dados
são apresentados abaixo.

Cuidado normal 8 7 6 2 5 8 7 3
Novo programa 9 8 7 8 10 9 6

Há alguma comprovação estatística de uma diferença nas escalas de APGAR em


mulheres que receberam o novo e aprimorado tratamento em comparação ao cuidado usual de
pré-natal? Realizamos o teste usando a abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: As duas populações são iguais.


H1: As duas populações não são iguais.
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


Como as escalas de APGAR não são normalmente distribuídas e as amostras são pequenas (n1
= 8 e n2 = 7), usamos o teste U de Mann-Whitney. A estatística do teste é U, a menor de 𝑈𝑈1 =
𝑛𝑛 (𝑛𝑛 +1) 𝑛𝑛 (𝑛𝑛 +1)
𝑛𝑛1 𝑛𝑛2 + 1 21 − 𝑅𝑅1 e 𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + 2 22 − 𝑅𝑅2 , em que R1 e R2 são as somas das
classificações nos grupos 1 e 2, respectivamente.

Etapa 3: Definir a regra de decisão.


O valor crítico apropriado pode ser encontrado na Tabela 5 do Apêndice. Para determinar o valor
crítico adequado, precisamos dos tamanhos das amostras (n1 = 8 e n2 = 7) e do nosso nível de
significância bilateral (a = 0,05). O valor crítico desse teste é 10 e a regra de decisão é a seguinte:

Rejeitar H0 se U ≤ 10.

Etapa 4: Computar a estatística de teste.


A primeira etapa é atribuir classificações de 1 até 15 para o menor valor até o maior valor na
amostra total, conforme exibido na Tabela 10-2. Em seguida, somamos as classificações de
cada grupo. No grupo de tratamento usual, a soma das classificações é R1 = 45.5 e no grupo do
novo programa a soma das classificações é R2 = 74.5. Lembre-se de que a soma das
classificações sempre será igual n(n + 1)/2. Como uma verificação de nossa atribuição das
classificações, temos n(n + 1)/2 = 15(16)/2 = 120, que é igual a 45,5 + 74,5 = 120. Agora,
computamos U1 e U2, como segue:
𝑛𝑛1 (𝑛𝑛1 + 1) 8(9)
𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1 = 8(7) + − 45,5 = 46,5
2 2
𝑛𝑛2 (𝑛𝑛2 + 1) 7(8)
𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2 = 8(7) + − 74,5 = 9,5
2 2
Assim, a estatística do teste é U = 9,5.
TABELA 10-2 Atribuição de classificação

Etapa 5: Conclusão.
Rejeitamos H0 porque 9,5 > 10. Temos comprovação estatisticamente significativa em a = 0,05
para mostrar que as populações das escalas de APGAR não são iguais em mulheres que fizeram
o pré-natal usual em comparação ao novo programa de pré-natal.
Exemplo 10.3. Um ensaio clínico é realizado para avaliar a eficácia de uma nova terapia
antirretroviral para pacientes com HIV. Os pacientes foram selecionados aleatoriamente para
receber uma terapia antirretroviral padrão (tratamento padrão) ou a nova terapia antirretroviral e
serão monitorados durante 3 meses. O principal resultado é a carga viral, que representa o
número de cópias do HIV por milímetro de sangue. Um total de 30 participantes foram
selecionados aleatoriamente; os dados são exibidos abaixo.

Terapia antirretroviral 7.500 8.000 2.000 550


padrão 1.250 1.000 2.250 6.800
3.400 6.300 9.100 970
1.040 670 400
Nova terapia antirretroviral 400 250 800 1.400 8.000
7.400 1.020 6.000 920 1.420
2.700 4.200 5.200 4.100
não detectável

Há uma comprovação estatística de uma diferença na carga viral em pacientes que receberam
a terapia padrão em comparação aos que receberam a nova terapia? Realizamos o teste usando
a abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.


H0: As duas populações são iguais.
H1: As duas populações não são iguais.
α = 0,05.
Etapa 2: Selecionar a estatística de teste adequada.
Como as medidas de carga viral não são normalmente distribuídas, geralmente sujeitas a valores
extremos ou atípicos, assim como limites claros de detecção (por exemplo, "não detectável"),
𝑛𝑛 (𝑛𝑛 +1)
usamos o teste U de Mann-Whitney. A estatística do teste é U, a menor de 𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + 1 1 −
2
𝑛𝑛 (𝑛𝑛2 +1)
𝑅𝑅1 e 𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + 2 2
− 𝑅𝑅2 , em que R1 e R2 são as somas das classificações nos grupos 1 e
2, respectivamente.

Etapa 3: Definir a regra de decisão.


O valor crítico apropriado pode ser encontrado na Tabela 5 do Apêndice. Para determinar o valor
crítico adequado, precisamos dos tamanhos das amostras (n1 = n2 = 15) e do nosso nível de
significância bilateral (α = 0,05). O valor crítico desse teste é 64 e a regra de decisão é a seguinte:
Rejeitar H0 se ≤ 64.

Etapa 4: Computar a estatística de teste.


A primeira etapa é atribuir classificações de 1 até 30 para o menor valor até o maior valor na
amostra total, conforme exibido na Tabela 10-3. Observe que as medições "não detectáveis" são
listadas primeiro nos valores ordenados (menor) e uma classificação de 1 foi atribuída a ela.

TABELA 10-3 Atribuição de classificação


Em seguida, somamos as classificações de cada grupo. No grupo de terapia
antirretroviral padrão, a soma das classificações é R1 = 245 e no grupo da nova terapia
antirretroviral a soma das classificações é R2 = 220. Lembre-se de que a soma das classificações
sempre será igual n(n + 1)/2. Como uma verificação da nossa atribuição das classificações,
temos n(n + 1)/2 = 10(11)2 = 55, que é igual a 245 + 220 = 465.
Agora, computamos U1 e U2, como segue:
𝑛𝑛1 (𝑛𝑛1 + 1) 15(16)
𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1 = 15(15) + − 245 = 100
2 2
𝑛𝑛2 (𝑛𝑛2 + 1) 15(16)
𝑈𝑈2 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2 = 15(15) + − 220 = 125
2 2
Assim, a estatística do teste é U = 100.

Etapa 5: Conclusão.
Não rejeitamos H0 porque 100 > 64. Não temos comprovações estatisticamente significativas em
α = 0,05 para mostrar que as populações de medidas de carga viral não são iguais em pacientes
que receberam a terapia padrão em comparação à nova terapia antirretroviral.

10.4 Testes com mais de duas amostras independentes

No Capítulo 7, Seção 7.8, apresentamos as técnicas de testes de igualdade de médias em mais


de duas amostras independentes usando a análise de variância (ANOVA). Uma suposição
subjacente para o uso adequado da ANOVA foi que o resulto contínuo foi distribuído de maneira
aproximadamente normal ou que as amostras eram suficientemente grandes (geralmente nj >
30, em que j = 1, 2, …, k e k indica o número de grupos de comparação independentes). Uma
suposição adicional do uso apropriado da ANOVA é a igualdade das variâncias nos grupos de
comparação k. A ANOVA é geralmente robusta quando os tamanhos das amostras são
pequenas, mas iguais. Quando o resultado não é distribuído normalmente e as amostras são
pequenas, um teste não paramétrico é recomendado.
Um teste não paramétrico popular para comparar resultados entre mais de dois grupos
independentes é o teste de Kruskal-Wallis. O teste de Kruskal–Wallis é usado para comparar
medianas entre grupos de comparação k (k > 2) e, às vezes, é descrito como uma ANOVA com
os dados substituídos por suas classificações. A hipótese nula e a hipótese de pesquisa do teste
Kruskal-Wallis não paramétrico são iniciadas como segue:

H0: As medianas da população k são iguais.


H1: As medianas da população k não são iguais.

O procedimento do teste envolve pesquisar as observações das amostras k em uma


amostra combinada, manter registros de quais amostras cada observação se origina e classificar,
em ordem crescente, 1 a N, em que N = n1 + n2 + ... + nk. Para ilustrar o procedimento,
consideremos o seguinte exemplo, realizando cada uma das cinco etapas no teste de hipóteses,
incluindo mais detalhes para auxiliar no entendimento. (No exemplo subsequente, a abordagem
de cinco etapas será seguida mais diretamente.)
Exemplo 10.8. Um estudo clínico foi projetado para avaliar as diferenças em níveis de
albumina em adultos após dietas que4 não fossem de baixa teor de proteína. Albumina é medida
em gramas por decilitro (g/dl) de sangue; as dietas de baixo teor de proteína frequentemente são
recomendas para pacientes com doenças renais. Clinicamente, a albumina também é usada
para avaliar se os pacientes têm proteína suficiente em suas dietas. Essas dietas são
comparadas, abrangendo entre 5% e 15% de proteína, e a dieta de 15% de proteína representa
a dieta típica americana. Os níveis de albumina dos participantes após cada dieta são exibidos
na Tabela 10-19.

TABELA 10-19 Níveis de albumina em três


dietas diferentes

A questão de interesse é se há uma diferença nos níveis de albumina entre as três diferentes
dietas. Como referência, os níveis normais de albumina são geralmente entre 3,4 g/dl e 5,4 g/dl.
Pela inspeção, parece que os participantes que seguiram uma dieta de 15% de proteína têm
níveis de albumina mais altos do que aqueles que seguiram uma dieta de 5% proteína. A questão
é se essa diferença observada é estatisticamente significativa.
Nesse exemplo, o resultado é contínuo, mas os tamanhos das amostras são pequenos e
não são iguais em todos os grupos de comparação (n1 = 3, n2 = 5, n3 = 4). Assim, um teste não
paramétrico é adequado. As hipóteses a serem testadas são dadas abaixo; realizamos o teste
com um nível de significância de 5% (ou seja, α = 0,05).
H0: As medianas das três populações são iguais.
H1: As medianas das três populações não são iguais.
Para conduzir o teste, atribuímos classificações usando os procedimentos descritos na
Seção 10.1. A primeira etapa é atribuir classificações para ordenarmos os dados em ordem
crescente. Isso é feito na amostra combinada ou total, combinando os dados dos três grupos de
comparação e atribuindo classificações de 1 a 12, conforme exibido na Tabela 10-20. Também
precisamos monitorar as atribuições do grupo na amostra total (n = 12).
TABELA 10-20 Atribuição de classificação
Observe que as classificações menores (p. ex.: 1, 2.5 e 4) foram atribuídas ao grupo de
dieta de 5% de proteína, enquanto as classificações mais altas (ex.: 10, 11 e 12) foram atribuídos
ao grupos de dieta de 15% de proteína. Mais uma vez, o objetivo do teste foi determinar se os
dados observados confirmam uma diferença nas três medianas das populações. Observe que,
nos testes paramétricos discutidos no Capítulo 7, ao comparar as médias entre mais de dois
grupos, analisamos a diferença entre as médias da amostra (quadrado da média entre
tratamentos) relativas à variabilidade dentro de cada grupo e resumimos as informações da
amostra em uma estatística de teste (estatística F). No teste de Kruskal-Wallis, novamente
resumimos as informações da amostra em uma estatística de teste, com base nas classificações.
A estatística do teste do teste de Kruskal-Wallis é indicada em H e é definida como:

𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1),
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1

em que k = o número de grupos de comparação, N = o tamanho da amostra total, nj é o tamanho


da amostra no grupo j, e Rj é a soma das classificações no grupo j.
Nesse exemplo, R1 = 7,5, R2 = 30,5, e R3 = 40. Lembre-se de que a soma das
classificações sempre será igual n(n + 1)/2. Como uma verificação da nossa atribuição das
classificações, temos n(n + 1)/2 = 12(13)2 = 78, que é igual a 7,5 + 30,5 +40 = 78.
Nesse exemplo,

𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1) =
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1

12 7,52 30,52 402


� + + � − 3(13) = 7,52.
12(13) 3 5 4
Em cada teste, precisamos determinar se a estatística de teste H observada confrima a
hipótese nula ou a de pesquisa. Isso é feito seguindo a mesma abordagem usada no teste
paramétrico. Especificamente, determinamos um valor crítico de H, de tal forma que, se o valor
observado de H for maior ou igual ao valor crítico, rejeitamos H0 em favor de H1, e se o valor
observado de H for menor que o valor crítico, não rejeitamos H0. O valor crítico de H pode ser
encontrado na Tabela 8 do Apêndice. Para determinar o valor crítico adequado, precisamos dos
tamanhos das amostras (n1 = 3, n2 = 5, e n3 = 4) do nosso nível de significância (a = 0,05). Nesse
exemplo, o valor crítico é 5,656; assim rejeitamos H0, porque 7,52 > 5,656. Temos comprovações
estatisticamente significativas em α = 0,05 para mostrar que há uma diferença nos níveis da
mediana de albumina entre as três dietas diferentes.
Observe que a Tabela 8 do Apêndice contém valores críticos do teste de Kruskal-Wallis
para testes que comparam três, quatro ou cinco grupos com tamanhos de amostras pequenos.
Se houver três ou mais grupos de comparação e cinco ou mais observações em cada grupo de
comparação, é comprovado que a estatística do teste H aproxima uma distribuição χ2 com df =
k – 1.4. Assim, em um teste de Kruskal-Wallis com três ou mais grupos de comparação e cinco
ou mais observações em cada grupo, o valor crítico do teste pode ser encontrado na Tabela 3
do Apêndice: Valores críticos da distribuição χ2. O exemplo a seguir ilustra a situação.
Exemplo 10.9. Um personal trainer está interessado em comparar os limites anaeróbicos
de atletas de elite. O limite anaeróbico é definido como o ponto no qual os músculos não
conseguem mais obter oxigênio para sustentar a atividade ou o limite superior do exercício
aeróbico. É uma medida que também está relacionada ao batimento cardíaco máximo. Os dados
na Tabela 10-21 são os limites anaeróbicos de maratonistas, ciclistas de longa distância,
nadadores de longa distância e esquiadores de fundo. A questão de interesse é saber se há uma
diferença nos limites anaeróbicos entre os grupos diferentes de atletas de elite.

TABELA 10-21 Limites anaeróbicos

Etapa 1: Definir a hipótese e determinar o nível de significância.


H0: As medianas das quatro populações são iguais.
H1: As medianas das quatro populações não são iguais.
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.


A estatística do teste do teste de Kruskal-Wallis é indicada em H e é definida como:
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = �𝑁𝑁(𝑁𝑁+1) ∑𝑘𝑘𝑗𝑗=1 � − 3(𝑁𝑁 + 1), em que k = o número de grupos de comparação, N = o
𝑛𝑛𝑗𝑗
tamanho da amostra total, nj é o tamanho da amostra no grupo j, e Rj é a soma das classificações
no grupo j.

Etapa 3: Definir a regra de decisão.


Como há quatro grupos de comparação e cinco observações em cada grupo de comparação,
encontramos o valor crítico na Tabela 3 do Apêndice para df = k – 1 = 4 – 1 = 3 e α = 0,05. O
valor crítico é 7,81, e a regra de decisão é:
Rejeitar H0 se H ≤ 7,81.

Etapa 4: Computar a estatística de teste.


Para conduzir o teste, atribuímos classificações usando os procedimentos descritos na Seção
10.1. A primeira etapa é atribuir classificações para ordenarmos os dados em ordem crescente.
Isso é feito na amostra combinada ou total, combinando os dados dos quatro grupos de
comparação e atribuindo classificações de 1 a 12. Também precisamos monitorar as atribuições
do grupo na amostra total (n = 20). A Tabela 10-22 exibe os dados ordenados.
TABELA 10-22 Ordem dos limites anaeróbicos

Em seguida, atribuímos as classificações aos valores ordenados e somamos as


classificações de cada grupo (Tabela 10-23).
TABELA 10-23 Atribuição de classificação

Lembre-se de que a soma das classificações é sempre igual n(n + 1)/2. Como uma verificação
da nossa atribuição das classificações, temos n(n + 1)/2 = 20(21)2 = 210, que é igual a 46 + 62
+ 24 + 78 = 210.
Nesse exemplo,

𝑘𝑘
12 𝑅𝑅𝑗𝑗2
𝐻𝐻 = � � � − 3(𝑁𝑁 + 1) =
𝑁𝑁(𝑁𝑁 + 1) 𝑛𝑛𝑗𝑗
𝑗𝑗=1

12 462 622 242 782


� + + + � − 3(21) = 9,11.
20(21) 5 5 5 5
Etapa 5: Conclusão.
Rejeitamos H0 porque 9,11> 7,81. Temos comprovações estatisticamente significativas
em α = 0,05 para mostrar que há uma diferença nos níveis da mediana de limites anaeróbicos
entre os quatro diferentes grupos de atletas de elite.
Observe que, nesse exemplo, os limites anaeróbicos de maratonistas, ciclistas de longa
distância e esquiadores de fundo são comparáveis (olhando somente os dados brutos). Os
nadadores de longa distância parecem ser os atletas que se diferem dos outros em termos de
limites anaeróbicos. Lembre-se, similar à análise de testes de variância, nós rejeitamos a
hipótese alternativa se alguma das duas medianas não for igual.

10.5 Resumo

Nesse capítulo, apresentamos as técnicas de teste de hipóteses para situações com tamanhos
pequenos de amostra pequenos e resultados que são ordinais, classificados ou contínuo e não
podem ser assumidos para serem distribuídos normalmente. Testes não paramétricos são
baseados em classificações que são atribuídas aos dados ordenados. Os testes envolvem as
mesmas cinco etapas dos testes paramétricos, especificando a hipótese nula e a hipótese
alternativa ou de pesquisa, selecionando e calculando uma estatística de teste adequada,
definindo uma regra de decisão e traçando uma conclusão.
Cada um dos testes discutidos aqui é resumido abaixo.

Teste U de Mann-Whitney. Usado para comparar um resultado contínuo em duas


amostras independentes.
Hipótese nula H0: Duas populações são iguais.
𝑛𝑛1 (𝑛𝑛1 +1)
Estatística de teste A estatística do teste é U, a menor de 𝑈𝑈1 = 𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅1 , e 𝑈𝑈2 =
2
𝑛𝑛2 (𝑛𝑛2 +1)
𝑛𝑛1 𝑛𝑛2 + − 𝑅𝑅2 , em que R1 e R2 são as somas das classificações nos grupos 1 e 2,
2
respectivamente. Regra de decisão H0 se U ≤ valor crítico da Tabela 5 do Apêndice.

Teste do sinal. Usado para comparar um resultado contínuo em duas amostras


combinadas ou correlacionadas.
Hipótese nula H0: Diferença mediana é zero.
Estatística de teste A estatística de teste é a menor do número de sinais positivos ou
negativos.
Regra de decisão Rejeitar H0 se o número menor dos números de sinais positivos ou
negativos ≤ valor crítico da Tabela 6 do Apêndice.

Teste dos postos sinalizados de Wilcoxon. Usado para comparar um resultado


contínuo em duas amostras combinadas ou correlacionadas.
Hipótese nula H0: Diferença mediana é zero.
Estatística de teste A estatística de teste é W, definida como o menor de W+ e W–, as somas
das classificações positivas e negativas das pontuações de diferença, respectivamente.
Regra de decisão Rejeitar H0 se W ≤ valor crítico da Tabela 7 do Apêndice.

Teste de Kruskal-Wallis. Usado para comparar um resultado contínuo em mais de duas


amostras independentes.
Hipótese nula H0: As medianas da população k são iguais.
12 𝑅𝑅𝑗𝑗2
Estatística de teste A estatística de teste é H: 𝐻𝐻 = � ∑𝑘𝑘𝑗𝑗=1 � − 3(𝑁𝑁 + 1), em que k =
𝑁𝑁(𝑁𝑁+1) 𝑛𝑛𝑗𝑗
o número de grupos de comparação, N = o tamanho da amostra total, nj é o tamanho da amostra
no grupo j, e Rj é a soma das classificações no grupo j.
Regra de decisão Rejeitar H0 se H ≥ valor crítico da Tabela 8 do Apêndice.

É importante observar que testes não paramétricos estão sujeitos aos mesmos erros que
os testes paramétricos. Um erro de Tipo I ocorre quando um teste rejeita incorretamente uma
hipótese nula. Um erro de Tipo II ocorre quando um teste não rejeita H0 quando ela é falsa.
Potência é probabilidade de um teste rejeitar corretamente H0. Testes não paramétricas podem
estar sujeitos a baixa potência, principalmente devido ao tamanho pequeno da amostra. Portanto,
é importante considerar a possibilidade de um erro de Tipo II quando um teste não paramétrico
não conseguir rejeitar H0. Pode haver um efeito verdadeiro ou diferença, mas o teste não
paramétrico não é capaz de detectar isso. Para obter mais detalhes, os leitores interessados
devem consultar Conover3 e Siegel e Castellan.4
CAPÍTULO 11: Análise de sobrevivência
PÁGINAS 249-260

No Capítulo 4, apresentamos técnicas para resumir resultados contínuos, dicotômicos,


categóricos e ordinais. Nos Capítulos 6 e 7, apresentamos técnicas para gerar estimativas de
intervalo de confiança e para conduzir testes de hipóteses de resultados contínuos, dicotômicos,
categóricos e ordinais. Agora, consideramos um tipo diferente de resultado variável, chamado de
variável de tempo para ocorrência. Uma variável de tempo para ocorrência reflete o tempo até
que um participante tenha um evento de interesse (p. ex.: ataque cardíaco, remissão do câncer
ou óbito). A análise estatística de variáveis de tempo para ocorrência exigem técnicas diferentes
daquelas descritas até agora para outros tipos de resultados, por causa dos seus recursos
exclusivos de variáveis de tempo até ocorrência do evento. A análise estatística dessas variáveis
é chamada de análise de tempo para ocorrência ou análise de sobrevivência, muito embora o
resultado nem sempre seja a morte. As questões de interesse na análise de sobrevivência são
questões desses tipos: Qual é a probabilidade de um participante sobreviver 5 anos? Há
diferenças na sobrevivência entre grupos (por exemplo, entre aqueles designados para um novo
medicamento contra o medicamento padrão em um ensaio clínico)? Como determinadas
características pessoais, comportamentais ou clínicas afetam as chances de sobrevivência dos
participantes?
Existem várias características exclusivas das variáveis de tempo para ocorrência.
Primeiro, os tempos até o evento são sempre positivos e suas distribuições são frequentemente
distorcidas. Por exemplo, em um estudo que avalia o tempo para recaída em pacientes de alto
risco, a maioria dos eventos (recaídas) pode ocorrer no começo do acompanhamento, com
muitas poucas recaídas ocorrendo depois. Por outro lado, em um estudo do tempo até a morte
em uma amostra baseada em uma comunidade, a maioria dos eventos (mortes) pode ocorrer
mais tarde, durante o acompanhamento. Os procedimentos estatísticos padrão que supõem a
normalidade das distribuições não se aplicam. Os procedimentos não paramétricos (conforme
discutido no Capítulo 10) podem ser usados, exceto pelo fato de que existem outros problemas.
Especificamente, dados completos (dados de tempo-até-evento reais) nem sempre estão
disponíveis sobre cada participante de um estudo. Em muitos estudos, os participantes são
inscritos durante um período (meses ou anos) e o estudo termina em uma data específica. Assim,
os participantes que se inscrevem depois são seguidos por um período menor do que os
participantes que se inscreveram antes. Alguns participantes podem abandonar do estudo antes
do final do período de acompanhamento (por exemplo, se mudam, se desinteressam) e outros
podem morrer durante esse período (assumindo que o resultado de interesse não seja a morte).
Em cada uma dessas instâncias, temos informações de acompanhamento incompleto. O tempo
real de sobrevivência (às vezes chamado de tempo de falha) não é conhecido, pois o estudo
termina ou porque um participante abandona o estudo antes de sentir o evento. O que sabemos
é que o tempo de sobrevivência do participante é maior do que o último tempo de
acompanhamento observado. Esses tempos são chamados de tempos censurados.
Existem vários tipos diferentes de censura. O mais comum é chamado de censura
correta, e isso ocorre quando um participante não sente o evento de interesse durante o estudo
e, assim, o último tempo de acompanhamento observado dele é menor do que o tempo até o
evento. Isso pode ocorrer quando um participante abandona o estudo antes de o estudo terminar
ou quando um participante não sente nenhum evento até o final do período de observação. Na
primeira instância, o tempo observado do participante é menor do que a duração do
acompanhamento, e no segundo, o tempo observado do participante é igual à duração do
período de acompanhamento. Esses problemas são ilustrados nos seguintes exemplos.
Exemplo 11.1. Um pequeno estudo prospectivo é realizado e acompanha 10
participantes para o desenvolvimento de infarto do miocárdio (IM ou ataque cardíaco) durante
um período de 10 anos. Participantes são recrutados para o estudo durante um período de 2
anos e são acompanhados por até 10 anos. As experiências dos participantes são ilustradas na
Figura 11-1. Observe que alguns participantes se juntam ao estudo depois (alguns até 2 anos
depois do início da inscrição) e são acompanhados por até 10 anos após a inscrição.

FIGURA 11-1 Experiências de participantes em estudo de 10 anos de


infarto do miocárdio

Participante

IM
IM

Desistência
IM

Desistência

Óbito

Anos

Durante o período do estudo, três participantes sofrem um ataque cardíaco: um morre,


dois abandonam o estudo (por razões desconhecidas) e quatro completam o acompanhamento
de 10 anos sem sofrer nenhum ataque cardíaco. A Figura 11–2 exibe os mesmos dados, mas
mostra o tempo de sobrevivência iniciando no tempo comum de zero (ou seja, como se todos os
participantes tivessem se inscrito no estudo ao mesmo tempo).
FIGURA 11-2 Experiências de participantes em estudo de 10 anos de
infarto do miocárdio

Participante

IM
IM

Desistência
IM

Desistência

Óbito

Anos

Com base nos dados mostrados na Figura 11-2, qual é a probabilidade de um participante
sofrer um ataque cardíaco ao longo de 10 anos? Três de 10 participantes sofrem um ataque
cardíaco durante o acompanhamento, mas 30% é provavelmente uma subestimativa do
percentual real, pois dois participantes abandonaram e podem ter sofrido um ataque cardíaco se
tivessem sido observados durante os 10 anos. O tempo de observação deles foi censurado. Além
disso, um participante morre 3 anos após o acompanhamento. Esses três indivíduos deveriam
ser incluídos na análise. Se sim, como? Se excluirmos os três, a estimativa da probabilidade de
um participante sofrer um ataque cardíaco é de 3/7 = 43%, substancialmente maior do que a
estimativa inicial de 30%. O fato de que, muitas vezes, nem todos os participantes são
observados ao longo de todo o período de observação torna os dados de sobrevivência únicos.
Nesse pequeno exemplo, o Participante 4 é observado por 4 anos e, durante esse período, não
tem nenhum ataque cardíaco. O Participante 7 é observado por 2 anos e, durante esse período,
não tem nenhum ataque cardíaco. Embora eles não sofram o evento de interesse, eles
contribuíram com informações importantes. As técnicas de análise de sobrevivência fazem uso
dessas informações na estimativa da probabilidade do evento. Uma suposição importante é feita
para fazer uso adequado dos dados censurados. Especificamente, supomos que a censura é
independente ou não relacionada à probabilidade de desenvolver o evento de interesse. Isso é
chamado de censura não informativa e, essencialmente, pressupõe que os participantes cujos
dados foram censurados teriam a mesma distribuição de tempos de falha (ou tempos até o
evento) se eles tivessem sido observados.
Considere o mesmo estudo e as experiências de 10 participantes diferentes, conforme
ilustrado na Figura 11-3. Durante o período do estudo, três participantes sofrem um ataque
cardíaco: um morre, dois abandonam o estudo (por razões desconhecidas) e quatro completam
o acompanhamento de 10 anos sem sofrer nenhum ataque cardíaco. No entanto, os eventos de
ataque cardíaco ocorreram muito mais cedo e os abandonos e mortes ocorreram depois, durante
o acompanhamento. Essas diferenças nas experiências dos participantes exibidas na Figura 11-
3 em comparação às experiências exibidas na Figura 11-2 devem afetar a estimativa da
probabilidade de um participante sofrer um ataque cardíaco em 10 anos? Na análise de
sobrevivência, avaliamos não somente o número de participantes que sofreram o evento de
interesse (um indicador dicotômico do status do evento), mas também os tempos nos quais os
eventos ocorreram.

FIGURA 11-3 Experiências de participantes em estudo de 10 anos de


infarto do miocárdio

Participante

IM
IM

Desistência

IM

Desistência

Óbito

Anos

Nesse capítulo, introduzimos os conceitos básicos da análise de sobrevivência. Os


leitores interessados devem consultar Hosmer e Lemeshow1 e Cox e Oakes2 para obter
detalhes de aplicações mais sofisticadas da análise de sobrevivência.

11.1 Introdução aos dados de sobrevivência

Na análise de sobrevivência, medimos duas informações importantes. Primeiro, medimos se um


participante sofre ou não um evento de interesse durante o período do estudo. Isso se reflete em
uma variável dicotômica ou um indicador frequentemente codificado como 1 = o evento ocorreu
ou 0 = o evento não ocorreu durante o período de observação do estudo. Além disso, medimos
o tempo de acompanhamento de cada participante. Tempo zero, ou origem do tempo, é o tempo
durante o qual o participante foi considerado em risco de ter o evento de interesse. Em muitos
estudos, o tempo em risco é medido no início do estudo (ou seja, na inscrição). Em um estudo
de coorte prospectivo avaliando o tempo até um derrame, pesquisadores podem recrutar
participantes de 55 anos ou mais, pois o risco de derrame antes dessa idade é muito baixo. Em
um estudo de coorte prospectivo avaliando o tempo de incidente até uma doença cardiovascular,
pesquisadores podem recrutar participantes de 35 anos ou mais. Em cada um desses estudos,
a idade mínima pode ser especificada como um critério de inclusão no estudo. O tempo de
acompanhamento é medido a partir do tempo zero (o início do estudo ou o ponto no qual os
participantes foram considerados em risco) até a ocorrência do evento, até o fim do estudo ou
até a morte do participante, o que acontecer primeiro. Em um ensaio clínico, a origem do tempo
é geralmente considerada o tempo de aleatoriedade.
Pacientes precisam entrar ou são recrutados em estudos de coorte e em ensaios clínicos
durante um período de vários meses ou anos. Assim, é importante registrar o tempo de entrada
para que o tempo de acompanhamento seja medido com precisão. Novamente, nosso interesse
está no tempo para o evento, mas, por várias razões (p. ex.: o participante abandona o estudo
ou o período de observação acaba), nem sempre conseguimos medir o tempo até o evento. Para
participantes que não sofrem o evento de interesse, medimos o tempo de acompanhamento, que
é menos do que o tempo até o evento, e esses tempos de acompanhamento são censurados.
Na análise de sobrevivência, usamos informações ou status de eventos e tempo de
acompanhamento para estimar a função de sobrevivência. A função de sobrevivência é uma
função de tempo e representa a probabilidade de uma pessoa sobreviver após um determinado
período. Considere um estudo prospectivo de 20 anos de sobrevivência em pacientes após um
infarto do miocárdio. Nesse estudo, o resultado é mortalidade por todas as causas, e a função
de sobrevivência (ou curva de sobrevivência) pode ser parecida como a que foi exibida na Figura
11-4.

FIGURA 11-4 Curva de sobrevivência da amostra


Probabilidade de sobrevivência

P(Sobrevivência) = 0,83 aos 2 anos

Sobrevivência mediana = 8,5 anos

Anos
O eixo horizontal representa o tempo em anos, e o eixo vertical mostra a probabilidade
de sobrevivência ou a proporção de pessoas sobreviventes. No tempo zero, a probabilidade de
sobrevivência é 1 (ou 100% de participantes estão vivos). Aos 2 anos, a probabilidade de
sobrevivência é de aproximadamente 0,83 ou 83% (veja as linhas sólidas na Figura 11-4). Aos
10 anos, a probabilidade de sobrevivência é de aproximadamente 0,47 ou 47%. Frequentemente,
é de interesse estimar a sobrevivência mediana, ou seja, o tempo durante o qual 50% dos
participante do estudo estão vivos. Na Figura 11-4, a sobrevivência mediana é de
aproximadamente 8,5 anos (veja as linhas tracejadas na Figura 11-4).
Uma curva de sobrevivência plana (ou seja, uma que fique perto de 1) sugere uma boa
taxa de sobrevivência, enquanto uma curva de sobrevivência que cai abruptamente em direção
ao 0 sugere uma taxa baixa de sobrevivência. A Figura 11–4 mostra a função de sobrevivência
como uma curva suave. Na maioria das aplicações, a função de sobrevivência é mostrada como
uma função em etapas em vez de uma curva suave. Procedimentos populares para estimar as
funções de sobrevivência são apresentados na Seção 11.2.

11.2 Estimativa da função de sobrevivência

Existem várias maneiras diferentes de estimar uma função de sobrevivência ou uma curva de
sobrevivência. Há um número de métodos paramétricos populares que são usados para modelar
os dados de sobrevivência, mas eles diferem em termos de suposições que foram feitas sobre a
distribuição de tempos de sobrevivência na população. Algumas distribuições populares incluem
o exponencial, Weibull, Gompertz e distribuições normais de registro.2 Talvez a mais popular seja
a exponencial; ela supõe que a probabilidade de um participante sofrer o evento de interesse é
independente do tempo durante o qual ele passou sem sofrer o evento. Outras distribuições
fazem suposições diferentes sobre a probabilidade de uma pessoa desenvolver o evento (ou
seja, ela pode aumentar, diminuir ou mudar ao longo do tempo). Mais detalhes sobre os métodos
paramétricos da análise de sobrevivência podem ser encontrados em Hosmer e Lemeshow1 e
Lee e Wang.3
Focamos aqui em dois métodos não paramétricos, que não fazem suposições sobre
como a probabilidade de uma pessoa desenvolver o evento mudar com o tempo. Usando
métodos não paramétricos, estimamos e organizamos a distribuição de sobrevivência ou a curva
de sobrevivência. As curvas de sobrevivência são frequentemente organizadas em gráficos,
como funções de etapa, conforme mostrado na Figura 11-5. O tempo é exibido no eixo x e a
sobrevivência (como uma proporção ou um percentual de pessoas em risco) é exibida no eixo y.
Observe que o percentual de participantes "sobreviventes" (conforme exibido no eixo y) nem
sempre representa o percentual de participantes que estão vivos (o que supõe que o resultado
de interesse é a morte); também pode representar o percentual de participantes que não
apresentam outro resultado de interesse (por exemplo, percentual sem sofrer ataques cardíacos
ou doenças cardiovasculares). Também pode representar o percentual de participantes que não
tiveram um resultado saudável (por exemplo, remissão do câncer). Observe que a probabilidade
de sobrevivência é de 100% para 2 anos e depois cai para 90%. A sobrevivência mediana é de
9 anos (ou seja, 50% da população sobrevive além de 9 anos, veja as linhas tracejadas).
FIGURA 11-5 Função de sobrevivência

Percentual de sobrevivência

Sobrevivência mediana = 9 anos

Anos

Exemplo 11.2. Considere um pequeno estudo de coorte prospectivo projetado para


estudar o tempo até a morte. O estudo envolve participantes de 65 anos ou mais e que são
acompanhados por até 24 anos. O estudo envolve 20 participantes que se inscreveram durante
um período de 5 anos e foram acompanhados até a sua morte, até o fim do estudo ou até
abandonarem o estudo (acompanhamento perdido). Observe que, se um participante se inscreve
após o início do estudo, o tempo máximo de acompanhamento dele será inferior a 24 anos. Por
exemplo, se um participante se inscreve 2 anos após o início do estudo, o tempo máximo de
acompanhamento dele será de 22 anos. Em todas as análises bioestatísticas, precisamos de
bons dados. Nas aplicações da análise de sobrevivência, é extremamente importante que o
evento de interesse, que as datas de início do estudo e que as datas de fim do estudo sejam
bem definidas e medidas com precisão. Os dados são exibidos na Tabela 11-1.
TABELA 11-1 Ano da morte ou ano do último
contato

No estudo, existem 6 óbitos e 3 participantes com acompanhamento completo (ou seja,


24 anos). Os 11 restantes têm menos de 24 anos de acompanhamento devido à inscrição tardia
ou à perda de acompanhamento.
Um jeito de resumir as experiências dos participantes é com uma tabela de vida ou tabela
atuarial. Existem vários tipos populares e usos de tabelas de vida; alguns são usados para
estimar a expectativa de vida e outros são usados no setor de seguros, para definir os bônus.
Focamos em um tipo particular de tabela de vida, amplamente usada na análise bioestatística,
chamada de tabela de vida de coorte ou uma tabela de vida de acompanhamento. A tabela de
vida de acompanhamento resume as experiências dos participantes ao longo de um período de
acompanhamento predefinido em um estudo de coorte ou em um ensaio clínico até o tempo do
evento de interesse ou até o fim do estudo, o que ocorrer primeiro.
Para criar uma tabela de vida, primeiro organizamos os tempos de acompanhamento
em intervalos igualmente espaçados. No Exemplo 11.2, temos o acompanhamento máximo de
24 anos e consideramos intervalos de 5 anos (0-4 anos, 5-9 anos, 10-14 anos, 15-19 anos e
20-24 anos). Em cada intervalo, somamos o número de participantes vivos no início do
intervalo, o número de participantes que morreram e o número dos que foram censurados (veja
a Tabela 11-2).
TABELA 11-2 Número de vivos, Número de mortes e
Número censurado em cada intervalo

Usamos a seguinte notação em nossa análise de tabela de vida. Primeiro, definimos a


notação e depois a usamos para criar uma tabela de vida para os dados do Exemplo 11.2.
Nt = número de participantes que não sofreram eventos e foram considerados em risco
durante o intervalo t (por exemplo, o número de vivos, pois nosso resultado de interesse é a
morte)
Dt = número de participantes que morreram (ou sofreram o evento de interesse durante
o intervalo t
Ct = número de participantes que foram censurados durante o intervalo t
Nt* = número médio de participantes em risco durante o intervalo t
Ao criar tabelas de vida atuariais, as seguintes suposições são frequentemente feitas:
Primeiro, partimos do pressuposto de que os eventos de interesse (p. ex.: mortes) ocorram no
final do intervalo e os eventos censurados ocorram uniformemente (ou igualmente) durante o
intervalo. Assim, um ajuste é frequentemente feito para Nt refletir o número médio de
participantes em risco durante o intervalo, Nt* = Nt − Ct/2 (ou seja, subtraímos metade dos eventos
censurados).
qt = proporção de mortes (ou que sofreram o evento) durante o intervalo t, qt = Dt/Nt*
pt = proporção de sobreviventes (que não sofreram eventos) durante o intervalo t, pt = 1
– qt
St = proporção se sobreviventes (que não sofreram eventos) após o intervalo t
St proporção de sobreviventes (ou que continuaram não sofrendo eventos) após o
intervalo t, às vezes chamada de probabilidade de sobrevivência cumulativa. É calculado da
seguinte maneira: Primeiro, a proporção de participantes sobreviventes após o tempo 0 (tempo
de início) é definida como S0 = 1 (todos os participantes estão vivos ou não sofreram eventos no
tempo 0 ou no início do estudo). A proporção de sobrevivência após cada intervalo subsequente
é computada usando os princípios da probabilidade incondicional apresentada no Capítulo 5.
Especificamente, a probabilidade de que um participante sobreviva após intervalo 1 é S1
= p1. A probabilidade de que um participante sobreviva após o intervalo 2 significa que ele
deveria sobreviver até depois do intervalo 1 durante o intervalo 2. S2 = P(sobreviver além do
intervalo 2) = P(sobreviver durante intervalo 2) 3 P(sobreviver após intervalo 1), ou S2 = p2 × S1.
Em geral, St+1 = pt+1 × St. O formato da tabela de vida de acompanhamento é exibido na Tabela
11-3. As colunas da tabela incluem os intervalos, os números de participantes em risco, o
número de quem sofreu o evento de interesse (p. ex.: morte), o número de participantes que
perderam o acompanhamento ou foram censurados, as proporções de quem sofreu o evento
de interesse e de quem não sofreu, e a probabilidade de sobrevivência. No tempo 0, o início do
primeiro intervalo (0-4 anos), há 20 participantes vivos ou em risco. Dois participantes
morreram no intervalo e um participante foi censurado. Aplicamos a correção do número de
participantes censurados durante esse intervalo para produzir Nt* = Nt − Ct/2 = 20 - (1/2) = 19,5.
Os cálculos dos elementos restantes da tabela de vida são descritos na Tabela 11-3 para o
primeiro intervalo.

TABELA 11-3 Construção da tabela de vida - Primeiro intervalo

Agora, adicionamos o segundo intervalo, 5-9 anos (veja Tabela 11-4). O número em risco
é o número em risco no intervalo anterior (0-4 anos) menos aqueles que morreram e que foram
censurados (ou seja, Nt = Nt–1 – Dt–1 – Ct–1 = 20 – 2 – 1 = 17). A probabilidade de um participante
sobreviver mais de 4 anos, ou após o primeiro intervalo (usando o limite superior do intervalo
para definir o tempo), é S4 = p4 = 0,897. As probabilidades de sobrevivência são calvuladas
usando St+1 = pt+1 × St. A probabilidade de que um participante sobreviva mais de 9 anos é S9 =
p9 3 S4 = 0,937 3 0,897 = 0,840.

TABELA 11-4 Construção da tabela de vida - Segundo intervalo

Tabela 11–5 é a tabela de vida de acompanhamento completo para os dados do Exemplo


11.2. A Tabela 11-5 usa o método atuarial para criar uma tabela de vida de acompanhamento
em que o tempo é dividido em intervalos igualmente espaçados. Um problema com essa
abordagem é que as probabilidades de sobrevivência podem mudar, dependendo de como os
intervalos são organizados, especialmente com amostras pequenas. A abordagem de Kaplan-
Meier, também chamada de abordagem de produto-limite, é um método muito popular que faz
uma nova estimativa da probabilidade de sobrevivência cada vez que um evento ocorre (no
Exemplo 11.2, cada vez que uma morte ocorre) e soluciona esse problema. Existem várias
suposições para o uso adequado da abordagem de Kaplan-Meier. Especificamente, partimos do
pressuposto de que a censura seja independente da probabilidade de desenvolver o evento de
interesse e que as probabilidades de sobrevivência sejam comparáveis em participantes que
foram recrutados mais cedo, assim como mais tarde, no estudo. Ao comparar vários grupos,
também é importante que essas suposições sejam atendidas em cada grupo de comparação
para que, por exemplo, a censura não seja mais provável em um grupo do que em outro. Isso é
discutido em mais detalhes na Seção 11.3.
TABELA 11-5 Tabela de vida para dados do exemplo 11.2

A Tabela 11–6 mostra a tabela de vida para os dados do Exemplo 11.2 usando a
abordagem de Kaplan-Meier. Na Tabela 11–6, listamos os tempos em que os eventos ou
censuras ocorreram, o número de participantes em risco naquele momento (Nt), o número de
mortes naquele momento (Dt), o número censurado (Ct), e a probabilidade de sobrevivência (St).
Observe que iniciamos a tabela com o tempo = 0 e a probabilidade de sobrevivência = 1. No
tempo = 0 (referência, ou início do estudo), todos os participantes estão em risco e a
probabilidade de sobrevivência é 1 (ou 100%). Com os dados descritos na Tabela 11–6, a
probabilidade de sobrevivência é calculada usando St+1 = St × ((Nt+1 − Dt+1)/Nt+1). Os cálculos das
probabilidades de sobrevivência são detalhados nas primeiras linha da tabela. É importante
observar que os cálculos que usam a abordagem de Keplen-Meier são semelhantes aos que
usam a abordagem da tabela de vida atuarial. A principal diferença é o tempo de intervalo: com
a abordagem da tabela de vida atuarial, consideramos intervalos de tempo igualmente
espaçados, enquanto que com a abordagem de Kaplan-Meier, usamos tempos de evento
observados e tempos de censura.
TABELA 11-6 Tabela de vida para dados no exemplo 11.2 usando a
abordagem de Kaplan-Meier

†Lembre-se de que S0 = 1.

Com conjuntos de dados grandes, esses cálculos podem ser entediantes. No entanto,
muitos programas de computador geram as análises facilmente (p. ex.: SAS®4). O Microsoft
Excel® também pode ser usado para computar as probabilidades de sobrevivência quando os
dados estiverem organizados por tempo e os números de eventos e tempos censurados
estiverem resumidos (consulte o Capítulo 11 na Pasta de Trabalho do Excel).
Pela tabela de vida, podemos produzir uma curva de sobrevivência de Kaplan-Meier. A
curva de sobrevivência de Kaplan-Meier dos dados no Exemplo 11.2 é exibida na Figura 11-6.
Na curva de sobrevivência exibida na Figura 11-6, os símbolos representam cada tempo de
evento, seja uma morte, seja um tempo censurado. Pela curva de sobrevivência, também
podemos estimar a probabilidade de que um participante sobreviva mais de 10 anos, localizando
10 anos no eixo x e movendo para o eixo y. A proporção de participantes que sobreviveram mais
de 10 anos é de 84% (veja as linhas tracejadas na Figura 11-6). De modo similar, a proporção
de participantes que sobreviveram mais de 20 anos é de 68%. A sobrevivência mediana é
estimada localizando 0,5 no eixo y e movendo para o eixo x. A sobrevivência mediana é de
aproximadamente 23 anos. Essas estimativas de probabilidades de sobrevivência em tempos
específicos do tempo de sobrevivência mediana são estimativas pontuais e devem ser
interpretadas como tais. Existem fórmulas para produzir erros padrão e estimativas de intervalos
de confiança de probabilidades de sobrevivência e eles podem ser gerados com muitos pacotes
de computação estatística. Uma fórmula popular para estimar o erro padrão das estimativas de
sobrevivência é chama de fórmula de Greenwood5, que é a seguinte:
𝐷𝐷𝑡𝑡 𝐷𝐷𝑡𝑡
𝑆𝑆𝑆𝑆(𝑆𝑆𝑡𝑡 ) = 𝑆𝑆𝑡𝑡 �∑ . A quantidade é somada para números em risco (Nt) e
𝑁𝑁𝑡𝑡 (𝑁𝑁𝑡𝑡 −𝐷𝐷𝑡𝑡 ) 𝑁𝑁𝑡𝑡 (𝑁𝑁𝑡𝑡 −𝐷𝐷𝑡𝑡 )
números de morte (Dt) que ocorreram durante o intervalo de tempo de interesse (ou seja,
cumulativo pelos intervalos de tempo antes do intervalo de tempo de interesse; veja o exemplo
na Tabela 11-7). Erros padrão são computados para as estimativas de sobrevivência dos dados
no Exemplo 11.2 e são resumidos na Tabela 11-7. Observe que a coluna final mostra a
quantidade 1,96 3 SE(St), que é a margem de erro e é usada para computar as estimativas de
IC de 95% (ou seja, St ± 1,96 × SE(St)).

FIGURA 11-6 Curva de sobrevivência de Kaplan-Meier para dados do


exemplo 11.2

P(Sobrevivência) = 0,84 aos 10 anos


0,9
Percentual de sobrevivência

0,8
0,7

0,6
0,5
0,4
0,3

0,2

0,1

Anos
TABELA 11-7 Erros padrão de estimativas de sobrevivência dos dados do exemplo 11.2

A curva de sobrevivência de Kaplan-Meier (mostrada como uma linha sólida), junto com
os limites de confiança de 95% (mostrados como linhas pontilhadas), das estimativas de
probabilidade de sobrevivência é exibida na Figura 11-7.
FIGURA 11-7 Curva de sobrevivência de Kaplan-Meier com intervalos de
confiança dos dados no Exemplo 11.2
1
0,9
Percentual de sobrevivência

0,8
0,7

0,6
0,5
0,4
0,3

0,2

0,1
0
0 5 10 Anos 15 20 25
Alguns pesquisadores preferem gerar curvas de incidência cumulativa em vez de curvas de
sobrevivência que mostram as probabilidades cumulativas de sentir o evento de interesse. A
incidência cumulativa ou a probabilidade de falha cumulativa é computada como 1 – St e pode
ser facilmente computada a partir da tabela de vida usando a abordagem de Kaplan-Meier. A
Tabela 11–8 mostra as probabilidades de falha cumulativa dos dados do Exemplo 11.2. A Figura
11–8 mostra a incidência cumulativa de morte dos participantes inscritos no estudo descrita no
Exemplo 11.2. Pela Figura 11–8, podemos estimar a probabilidade de um participante morrer em
um determinado ponto no tempo. Por exemplo, a probabilidade de morte é de aproximadamente
33% após 15 anos (vejas as linhas tracejadas).

TABELA 11-8 Tabela de vida com probabilidades de falha cumulativa para dados do
exemplo 11.2
FIGURA 11-8 Curva de incidência cumulativa para dados do Exemplo 11.2

0,6

0,5
Incidência cumulativa

0,4
P(Óbito) = 0,33 aos 15 anos
0,3

0,2

0,1

Anos
Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística
em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.

Das könnte Ihnen auch gefallen