Beruflich Dokumente
Kultur Dokumente
Se a hipótese nula for rejeitada, um nível de significância exato é computado para descrever a
probabilidade de observar os dados da amostra, presumindo que a hipótese nula seja verdadeira.
O nível exato de significância é chamado de valor p e será menor que o nível de significância
escolhido. Pacotes de computação estatística fornecem valores p exatos como parte da sua
produção padrão para testes de hipótese. Aproximamos valores p usando a Tabela 1C para
testes envolvendo estatísticas z e a Tabela 2 para testes envolvendo estatísticas t.
Agora usamos o procedimento de cinco etapas para testar a hipótese de pesquisa de que o peso
médio dos homens em 2006 é superior a 86,5 quilos. Presumimos os dados da amostra
observados conforme segue: n = 100, Χ� = 197,1, s = 25,6.
Χ� − 𝜇𝜇0
𝑧𝑧 =
𝑠𝑠/√𝑛𝑛
(Na Seção 7.2, apresentamos estatísticas de teste alternativas adequadas para amostras
pequenas).
Rejeitar H0 se z ≥ 1,645.
� − 𝜇𝜇0
Χ 197,4−191
𝑧𝑧 = = = 2,38
𝑠𝑠/√𝑛𝑛 25,6/√100
Etapa 5: Conclusão.
Rejeitamos H0 porque 2,38 > 1,645. Temos evidências estatisticamente significativas em α = 0,05
para mostrar que o peso médio dos homens em 2006 é superior a 86,5 quilos. Por termos
rejeitado a hipótese nula, nos aproximamos agora do valor p, que é a probabilidade de observar
dados como mais extremos sob o modelo estatístico presumido. Uma definição alternativa do
valor p é o menor nível de significância em que ainda rejeitamos H0.
Neste exemplo, observamos z = 2,38, e para α = 0,05 o valor crítico é 1,645. Por 2,38 exceder
1,645, rejeitamos H0. Na nossa conclusão, relatamos um aumento estatisticamente significativo
no peso médio em um nível de significância de 5%. Os dados, de fato, fornecem evidências mais
sólidas. A Tabela 7–2 é uma cópia da Tabela 1C do Apêndice que contém valores críticos para
testes de cauda superior.
α do teste de
cauda superior Valor crítico de z
0,10 1,282
0,05 1,645
0,025 1,960
0,010 2,326
0,005 2,576
0,001 3,090
0,0001 3,719
Qual é o menor nível de significância que poderíamos escolher e ainda rejeitar H0? Se
selecionarmos α = 0,025, o valor crítico é 1,96, e ainda rejeitamos H0 porque 2,38> 1,960. Se
selecionarmos α = 0,010, o valor crítico é 2,326, e ainda rejeitamos H0 porque 2,38> 2,326.
Entretanto, se selecionarmos α = 0,005, o valor crítico é 2,576, e não podemos rejeitar H0, porque
2,38> 2,576. Portanto, o menor α em que ainda rejeitamos H0 é 0,010. Esse é o valor p. Um
pacote de computação estatística produz um valor p mais preciso, que seria entre 0,005 e 0,010.
Aqui, estamos aproximando o valor p usando a Tabela 1C do Apêndice, e relatamos p< 0,010.
Valores p refletem a significância exata dos testes de hipóteses. Neste exemplo, descobrimos
p< 0,010, indicando que há menos de 1% de chance de estarmos rejeitando incorretamente a
hipótese nula se a hipótese nula for verdadeira. Suponha, neste exemplo, que a estatística de
teste seja z = 1,70. Ainda rejeitamos H0 em α = 0,05, porque 1,70> 1,645. Entretanto, com z =
1,70, o valor p seria relatado como p< 0,05. O valor p é mostrado graficamente na Figura 7–5.
FIGURA 7-5 Valor p, nível de significância exato
Valor p
1,70
Valores p menores são um indicativo de mais incompatibilidade dos dados com o modelo
estatístico presumido. Na literatura, com frequência, os pesquisadores relatam valores p para
resumir a significância de testes de hipóteses. A regra a seguir pode ser usada para interpretar
valores p:
Rejeitar H0 se p ≤ α,
Por exemplo, suponha que queremos testar H0: µ = 100 contra H1: µ> 100 em α = 0,05. Os dados
são coletados e analisados com um pacote de computação estatística que relata p = 0,0176.
Como p = 0,0176, α = 0,05, rejeitamos H0. Entretanto, se tivéssemos selecionado α = 0,01, não
rejeitaríamos H0. Nos exemplos a seguir, aproximamos valores p usando a Tabela 1C do
Apêndice para testes envolvendo estatísticas z e a Tabela 2 do Apêndice para testes envolvendo
estatísticas t. Também discutimos a interpretação adequada.
Quando fazemos um teste de hipóteses e decidimos rejeitar H0 (p. ex., porque a estatística do
teste está abaixo do valor crítico em um teste de cauda superior), ou tomamos uma decisão
correta, porque a hipótese nula é verdadeira, ou cometemos um erro do Tipo II. β representa a
probabilidade de um erro do Tipo II e é definido como
Infelizmente, não podemos escolher um β pequeno (p. ex., 0,05) para controlar a probabilidade
de cometer um erro do Tipo II, porque β depende de diversos fatores, incluindo o tamanho da
amostra, o nível de significância (α), e a hipótese de pesquisa. Esses problemas serão discutidos
mais detalhadamente no Capítulo 8. Por enquanto, devemos reconhecer que, quando não
rejeitamos H0, pode ser muito provável que estejamos cometendo um erro do Tipo II (ou seja,
não conseguindo rejeitar H0 quando ela é falsa). Portanto, quando os testes são executados e a
hipótese nula não é rejeitada, com frequência fazemos uma declaração de conclusão fraca,
permitindo a possibilidade de que estejamos cometendo um erro do Tipo II. Se não rejeitamos
H0, concluímos que não temos evidências significativas para mostrar que H1 é verdadeira. Não
concluímos que H0 é verdadeira. O motivo mais comum para um erro do Tipo II é uma amostra
de tamanho pequeno.
Um teste de hipóteses com uma variável de resultado categórica ou ordinal em uma única
população é realizado novamente de acordo com o procedimento de cinco etapas. Semelhante
aos testes para médias e proporções descritos nas Seções 7.2 e 7.3, um componente chave é
definir as hipóteses nula e de pesquisa. As variáveis categóricas e ordinais são variáveis que
assumem mais de duas respostas ou categorias distintas. Além disso, respostas podem ser
ordenadas ou não ordenadas (ou seja, ordinais ou categóricas). O procedimento que
descrevemos aqui pode ser usado para resultados ordinais ou categóricos. O objetivo é comparar
a distribuição de respostas — ou a proporção de participantes em cada categoria de resposta —
para uma distribuição conhecida. A distribuição conhecida é derivada de outro estudo ou relatório
e é, novamente, importante para definir as hipóteses de que a distribuição comparadora
especificada na hipótese nula é uma comparação justa.
Em testes de uma amostra para um resultado categórico ou ordinal, nós definimos nossas
hipóteses contra um comparador adequado. Selecionamos uma amostra e computamos as
estatísticas descritivas dos dados da amostra usando as técnicas descritas no Capítulo 4.
Especificamente, calculamos o tamanho da amostra (n) e as proporções de participantes em
cada categoria de resposta (𝑝𝑝̂1 , 𝑝𝑝̂2 , … 𝑝𝑝̂𝑘𝑘 ) onde k representa o número de categorias de resposta.
Em seguida, determinamos a estatística de teste adequada (Etapa 2) para o teste de hipóteses.
A fórmula para a estatística de teste se encontra na Tabela 7–6.
(Encontre o valor
crítico na Tabela 3,
gl = k - 1)
O teste de hipóteses com um resultado categórico ou ordinal medido em uma única amostra,
onde o objetivo é avaliar se a distribuição de respostas segue uma distribuição conhecida, é
chamado de χ2 teste de aderência. Como o nome indica, a ideia é avaliar se a distribuição de
respostas na amostra se "ajusta" a uma distribuição específica da população. No próximo
exemplo, ilustramos o teste usando a abordagem de cinco etapas. Conforme trabalhamos com
o exemplo, forneceremos detalhes adicionais relacionados ao uso dessa nova estatística do
teste.
Exemplo 7.6. Uma universidade conduziu uma pesquisa de seus recém-formados para
coletar informações demográficas e de saúde para fins de planejamento futuro e para avaliar a
satisfação dos estudantes com suas experiências universitárias. A pesquisa revelou que uma
grande parte dos estudantes não estava praticando exercícios regulares, muitos achavam que
não se alimentavam bem e uma grande parte era fumante. Em resposta a uma pergunta sobre
a prática de exercícios, 60% dos recém-formados relataram que não faziam exercícios regulares,
25% relataram que faziam exercícios esporadicamente e 15% relataram que faziam exercícios
regulares como universitários. No ano seguinte, a universidade lançou uma campanha de
promoção da saúde no campus, em uma tentativa de incentivar comportamentos saudáveis entre
universitários. O programa incluía módulos sobre exercícios, nutrição e auxílio para deixar de
fumar. Para avaliar o impacto do programa, a universidade realizou outra pesquisa com recém-
formados, fazendo as mesmas perguntas. A pesquisa teve a participação de 470 formandos e
os dados exibidos na Tabela 7–7 foram coletados a partir da pergunta sobre prática de
exercícios. Com base nos dados, existe evidência de uma mudança na distribuição das respostas
à pergunta sobre prática de exercícios depois da implementação da campanha de promoção da
saúde no campus? Realize o teste em um nível de significância de 5%.
Número de
estudantes
Neste exemplo, temos uma amostra e uma variável de resultado ordinal (com três opções de
resposta). Queremos comparar, especificamente, a distribuição de respostas na amostra à
distribuição relatada no ano anterior (ou seja, 60%, 25% e 15% relatando nenhum exercício,
exercício esporádico e exercício regular, respectivamente). Agora realizamos o teste usando a
abordagem de cinco etapas.
Observe que a hipótese de pesquisa está escrita em palavras em vez de com símbolos. A
hipótese de pesquisa, conforme afirmado, capta qualquer diferença na distribuição de respostas
das especificadas na hipótese nula. Nós não especificamos uma distribuição alternativa
específica; em vez disso, estamos testando se os dados da amostra se "ajustam" à distribuição
em H0 ou não. Com o teste de aderência χ2, não há versões unilaterais superiores ou inferiores
do teste.
Etapa 2: Selecionar a estatística de teste adequada.
2
(Ο − 𝐸𝐸)2
𝜒𝜒 = Σ
𝐸𝐸
Devemos, primeiro, avaliar se o tamanho da amostra é adequado. Especificamente, precisamos
verificar o mín.(np10,…,npk0) ≥ 5. O tamanho da amostra aqui é n = 470 e as proporções
especificadas na hipótese nula são 0,60, 0,25, e 0,15. Assim,
O tamanho da amostra é mais do que adequado, então a estatística do teste pode ser usada.
A regra de decisão para o teste χ2 é definida de uma maneira semelhante às regras de decisão
que estabelecemos para os testes z e t. A regra de decisão depende do nível de significância e
dos graus de liberdade, definidos por gl = k - 1, onde k é o número de categorias de resposta.
Novamente, com os testes χ2, não há versões unilaterais superiores ou inferiores do teste. Se a
hipótese nula for verdadeira, as frequências observadas e esperadas são próximas em valor e a
estatística χ2 é próxima de 0. Se a hipótese nula for falsa, a estatística χ2 é grande. A região de
rejeição para o teste χ2 está sempre na curva superior (direita), como exibido na Figura 7–6.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1 ∝ = 0,05
0
A Tabela 3 do Apêndice contém os valores críticos para o teste χ2, indexados por graus de
liberdade e pelo nível de significância desejado. Aqui temos gl = k-1 = 3-1 = 2 e um nível de
significância de 5%. O valor crítico adequado da Tabela 3 é 5,99 e a regra de decisão é
Rejeitar H0 se χ2 ≥ 5,99.
2
(255 − 282)2 (125 − 177,5)2 (90 − 70,5)2
𝜒𝜒 = + +
282 117,5 70,5
Etapa 5: Conclusão.
Rejeitamos H0 porque 8,46 > 5,99. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que a distribuição de respostas não é 0,60, 0,25 e 0,15. Usando a
Tabela 3 do Apêndice, podemos aproximar o valor p. Temos que olhar para valores críticos para
menores níveis de significância com gl = 2. Usando a Tabela 3 do Apêndice, o valor p é p <
0,025.
Exemplo 7.7. O NCHS (National Center for Health Statistics, Centro Nacional de Estatística em
Saúde dos Estados Unidos) forneceu dados sobre a distribuição de peso (em categorias) entre
americanos em 2002. A distribuição foi baseada em valores específicos de índice de massa
corporal (IMC) calculados como peso em quilogramas sobre altura em metros quadrados.
"Abaixo do peso" foi definido como IMC abaixo de 18,5; "peso normal", como IMC entre 18,5 e
24,9; "sobrepeso", como IMC entre 25 e 29,9; e "obeso", como IMC de 30 ou maior. Americanos,
em 2002, foram distribuídos da seguinte forma: 2% abaixo do peso, 39% com peso normal, 36%
com sobrepeso e 23% obeso. Suponha que queiramos avaliar se a distribuição de IMC é
diferente na amostra de descendentes do estudo Framingham. Usando dados dos n = 3.536
participantes que compareceram à sétima análise de descendentes no Framingham Heart Study,
criamos as categorias de IMC definidas, que são os dados apresentados na Tabela 7–9.
2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
Devemos avaliar se o tamanho da amostra é adequado. Especificamente, precisamos verificar o
mín.(np10, …, npk0) ≥ 5. O tamanho da amostra aqui é n = 3.326 e as proporções especificadas
na hipótese nula são 0,02, 0,39, 0,36, e 0,23. Assim,
O tamanho da amostra é mais do que adequado, então a estatística do teste pode ser usada.
Etapa 3: Definir a regra de decisão.
Aqui temos gl = k - 1 = 4 - 1 = 3 e um nível de significância de 5%. O valor crítico adequado da
Tabela 3 do Apêndice é 7,81 e a regra de decisão é
Rejeitar H0 se χ2 ≥ 7,81.
2
(20 − 66,5)2 (932 − 1297,1)2 (1374 − 1197,4)2 (1000 − 765,0)2
𝜒𝜒 = + + +
66,5 1297,1 1197,4 765,0
Etapa 5: Conclusão.
Os dados para o teste de independência χ2 são organizados em uma tabela cruzada. As variáveis
de resultado e de agrupamento são apresentadas nas linhas e colunas da tabela. A tabela 7–43
ilustra o layout dos dados da amostra. As entradas da tabela (vazia) são os números de
participantes em cada grupo respondendo a cada categoria de resposta da variável de resultado.
Tabela 7-10 Frequências observadas e esperadas
A última afirmação indica que se dois eventos, A e B, são independentes, a probabilidade de sua
interseção pode ser calculada multiplicando a probabilidade de cada evento individual. Para
conduzir o teste de independência χ2, devemos calcular frequências esperadas em cada célula
da tabela. As frequências esperadas são calculadas supondo que a variável de agrupamento e
resultado sejam independentes (ou seja, sob a hipótese nula). Deste modo, se a hipótese nula
for verdadeira, usando a definição de independência:
A anterior afirma que a probabilidade de um indivíduo estar no Grupo 1 e o resultado dele ser a
Opção de resposta 1 é calculada multiplicando a probabilidade daquela pessoa estar no Grupo
1 pela probabilidade de uma pessoa dar a Opção de resposta 1. Isso é verdadeiro se Grupo e
Resposta forem independentes. Para conduzir o teste de independência χ2, precisamos de
frequências esperadas e não de probabilidades esperadas. Para converter a probabilidade em
uma frequência, multiplicamos por N (o tamanho total da amostra). Considere o exemplo a seguir.
Grupo 1
Grupo 2
Grupo 3
Total
Deste modo, se Grupo e Resposta forem independentes, podemos esperar que 6,9% da amostra
esteja na célula superior esquerda da tabela (Grupo 1 e Resposta 1). A frequência esperada é
150(0,069) = 10,4. Podemos fazer o mesmo para o Grupo 2 e Resposta 1:
Exemplo 7.17. No Exemplo 7.6, examinamos os dados de uma pesquisa de graduados de uma
universidade que avaliou (entre outras coisas) a frequência com que eles se exercitavam. A
pesquisa teve a participação de 470 graduados. Usamos o teste de aderência χ2 para avaliar se
houve uma mudança na distribuição de respostas à pergunta sobre prática de exercícios depois
da implementação de uma campanha de promoção da saúde no campus. Consideramos
especificamente uma amostra (todos os estudantes) e comparamos a distribuição observada de
respostas à pergunta sobre prática de exercícios à distribuição de respostas do ano anterior (um
controle de histórico). Suponha que desejemos avaliar se há uma relação entre a prática de
exercícios em campus e a situação de moradia dos estudantes. Como parte da mesma pesquisa,
perguntaram aos graduados onde eles moravam no último ano da faculdade. As opções de
resposta eram: dormitório, apartamento no campus, apartamento fora do campus e em casa (ou
seja, se deslocavam para a universidade diariamente). Os dados são exibidos na Tabela 7-45.
Dormitório
Apartamento no
campus
Apartamento fora
do campus
Em casa
Total
Com base nos dados, existe uma relação entre a prática de exercícios e a situação de moradia
do estudante? Temos quatro grupos de comparação independentes (moradias) e uma variável
de resultado ordinal com três opções de resposta. Queremos especificamente testar se a
situação de moradia e a prática de exercícios são independentes. Realizamos o teste usando a
abordagem de cinco etapas.
2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
A condição para o uso adequado da estatística de teste anterior é de que cada frequência
esperada seja pelo menos cinco. Na Etapa 4, calculamos as frequências esperadas e garantimos
que a condição seja cumprida.
Etapa 3: Definir a regra de decisão.
A Tabela 3 do Apêndice contém os valores críticos para o teste χ2, indexados por graus de
liberdade e o nível de significância desejado. Para gl = 6 e um nível de significância de 5%, o
valor crítico adequado da Tabela 3 é 12,59 e a regra de decisão é
Rejeitar H0 se χ2 ≥ 12,59.
Lembre-se de que, na Etapa 2, uma condição para o uso adequado da estatística de teste era
que cada frequência esperada fosse pelo menos cinco. É o caso desta amostra (a menor
frequência esperada é 9,6) e, portanto, o uso da estatística de teste é adequado. A estatística do
teste é calculada da seguinte forma:
(32 − 48,8)2 (30 − 23,9)2 (28 − 17,2)2 (74 − 97,7)2 (64 − 47,9)2
𝜒𝜒 2 = + + + +
48,8 23,9 17,2 97,7 47,9
(42 − 34,5)2 (110 − 81,4)2 (25 − 39,9)2 (15 − 28,7)2
+ + + +
34,5 81,4 39,9 28,7
(39 − 27,1)2 (6 − 13,3)2 (5 − 9,6)2
+ + +
27,1 13,3 9,6
𝜒𝜒 2 = 5,78 + 1,56 + 6,78 + 5,75 + 5,41 + 1,63 + 10,05 + 5,56 + 6,54 + 5,23 + 4,01 + 2,20
= 60,5
Etapa 5: Conclusão.
Rejeitamos H0 porque 60,5 > 12,59. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que situação de moradia e prática de exercício não são
independentes (ou seja, são dependentes ou relacionadas). Usando a Tabela 3 do Apêndice,
podemos aproximar o valor p. Temos que olhar para valores críticos para menores níveis de
significância com gl = 6. Usando a Tabela 3, o valor p é p < 0,005.
Dormitório
Apartamento no
campus
Apartamento fora
do campus
Em casa
Total
Exemplo 7.18. No Exemplo 7.13, analisamos dados de um ensaio aleatório projetado para
avaliar a eficácia de um analgésico novo para reduzir a dor em pacientes após a cirurgia de
substituição de articulação. O ensaio comparou um analgésico novo ao analgésico usado
atualmente (chamado de tratamento padrão). Suponha que haja um terceiro braço do estudo e
pacientes designados a ele receberam uma dose maior do analgésico novo. Suponha que N =
150 pacientes concordaram em participar do ensaio e foram designados aleatoriamente a um
dos três tratamentos. Antes de receber o tratamento designado, os pacientes foram convidados
a classificar a dor que sentiam em uma escala de 0 a 10, com pontuações maiores sendo
indicadoras de uma dor maior. O tratamento designado foi administrado a cada paciente que,
após 30 minutos, foi novamente convidado a classificar a dor que sentia usando a mesma escala.
O resultado primário foi uma redução da dor em 3 ou mais pontos na escala (definido, por
médicos, como uma redução clinicamente significativa). Os dados apresentados na Tabela 7–
48 são observados no ensaio.
Analgésico padrão
Total
Aqui temos três grupos de comparação independentes e uma variável de resultado categórica
(dicotômica). Queremos testar se existe uma diferença nas proporções dos pacientes que
relataram uma redução significativa da dor entre os três tratamentos. Realizamos o teste usando
a abordagem de cinco etapas.
2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
A condição para o uso adequado da estatística de teste anterior é de que cada frequência
esperada seja pelo menos cinco. Na Etapa 4, calculamos as frequências esperadas e garantimos
que a condição seja cumprida.
Rejeitar H0 se χ2 ≥ 5,99.
2
(23 − 23,1)2 (27 − 28,7)2 (30 − 21,3)2 (20 − 28,7)2 (11 − 21,3)2
𝜒𝜒 = + + + +
21,3 28,7 21,3 28,7 21,3
(39 − 28,7)2
+
28,7
Etapa 5: Conclusão.
Rejeitamos H0 porque 15,12 > 5,99. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que há uma diferença nas proporções de pacientes que relataram
uma redução significativa da dor entre os três tratamentos. Usando a Tabela 3 do Apêndice,
podemos aproximar o valor p. Temos que olhar para valores críticos para menores níveis de
significância para gl = 2. Usando a Tabela 3 do Apêndice, o valor p é p < 0,005.
Estudos devem ser projetados para incluir um número suficiente de participantes para enfocar
adequadamente a pergunta da pesquisa. Perceber, ao final de um estudo, que a amostra era
pequena demais para responder a pergunta da pesquisa é um desperdício em termos de tempo
do participante e do investigador, recursos para conduzir as avaliações, esforços analíticos e
assim por diante. Também pode ser visto como antiético, já que participantes podem ter sido
colocados em risco como parte de um estudo que foi incapaz de responder a uma pergunta
importante. Por outro lado, estudos não devem ser grandes demais, pois, novamente, recursos
podem ser desperdiçados e alguns participantes podem ser colocados em risco
desnecessariamente.
As fórmulas que apresentamos aqui geram os tamanhos de amostra necessários para satisfazer
os critérios estatísticos. Em muitos estudos, o tamanho da amostra é determinado por restrições
financeiras ou logísticas. Por exemplo, suponha que um estudo seja proposto para avaliar um
novo teste de rastreamento para Síndrome de Down. Suponha que o teste de rastreamento seja
baseado na análise de uma amostra de sangue retirada de mulheres no início da gravidez. Para
avaliar as propriedades do teste de rastreamento (por exemplo, a sensibilidade e especificidade),
cada mulher grávida terá que providenciar uma amostra de sangue e passar por uma
amniocentese. A amniocentese é incluída como padrão áureo e o plano é comparar os resultados
do teste de rastreamento com os resultados da amniocentese. Suponha que a coleta e o
processamento da amostra de sangue custe US$ 250 por participante e que a amniocentese
custe US$ 900 por participante. Somente essas restrições financeiras já podem limitar
substancialmente o número de mulheres que podem ser inscritas. Assim como é importante
considerar as questões estatísticas e as questões práticas ao interpretar resultados de uma
análise estatística, também é importante pesar questões estatísticas e logísticas ao determinar
o tamanho da amostra para uma análise. Nosso foco aqui está nas considerações estatísticas.
Pesquisadores devem avaliar se o tamanho da amostra determinada para ser suficiente de um
ponto de vista estatístico é realista e viável.
8.2 QUESTÕES PARA A ESTIMATIVA DO TAMANHO DA AMOSTRA
PARA TESTE DE HIPÓTESES
Por exemplo, em cada teste de hipótese existem dois erros que podem ser cometidos. O primeiro
é chamado de erro do Tipo I e se refere à situação em que rejeitamos incorretamente H0 quando,
na verdade, ela é verdadeira. Na primeira etapa de qualquer teste de hipóteses, selecionamos
um nível de significância α e
Potência é a probabilidade de um teste rejeitar corretamente uma hipótese nula falsa. Um bom
teste tem uma probabilidade pequena de cometer um erro de Tipo I (ou seja, um α pequeno) e
potência alta (ou seja, β pequeno, potência alta).
H0: μ = 90,
H1: μ ≠ 90.
Para testar as hipóteses, suponha que selecionemos um tamanho de amostra n = 100. Para este
exemplo, presuma que o desvio padrão do resultado seja σ = 20. Calculamos a média da amostra
e então decidimos se a ela fornece evidências para confirmar a hipótese de pesquisa ou não.
Isso é feito calculando uma estatística do teste e a comparando a um valor crítico adequado.
Se a hipótese nula realmente for verdadeira (µ = 90), estamos propensos a selecionar uma
amostra cuja média seja próxima em valor de 90. No entanto, também é possível selecionar uma
amostra cuja média seja muito maior ou muito menor que 90. Lembre-se do Teorema central do
limite (consulte o capítulo 5) em que, para grandes n (aqui, n = 100 é suficientemente grande), a
distribuição das médias da amostra é aproximadamente normal com uma média de 𝜇𝜇𝑥𝑥̅ − 𝜇𝜇 − 90
e um desvio padrão de σx� = 𝜎𝜎� = 20� = 2,0. Se a hipótese nula for verdadeira, é possível
√𝑛𝑛 √100
observar qualquer média de amostra exibida na Figura 8–1, já que todas são possíveis sob
H0: µ = 90.
� sob H0 : 𝜇𝜇 = 90
Figura 8-1 Distribuição de X
Quando determinamos a regra de decisão para nosso teste de hipóteses, determinamos valores
críticos com base em α = 0,05 e um teste bilateral. Quando fazemos testes de hipóteses,
normalmente padronizamos os dados (por exemplo, convertendo para z ou t) e os valores críticos
são valores adequados da distribuição de probabilidade usada no teste. Para facilitar a
interpretação, continuamos essa discussão com X � em vez de z. Os valores críticos de X
� para um
teste bilateral com α = 0,05 são 86,08 e 93,92 (esses valores correspondem a -1,96 e 1,96,
respectivamente, na escala z), então a regra de decisão é
� ≤ 86,08 ou se X
Rejeitar H0 se X � ≥ 93,92.
A região de rejeição é exibida nas caudas da Figura 8–2. As áreas nas duas caudas da curva
representam a probabilidade de um erro de Tipo I, α = 0,05. Esse conceito foi discutido com
detalhe no capítulo 7.
Figura 8-2 Região de rejeição para o teste H0 : 𝜇𝜇 = 90 contra e
H1 : 𝜇𝜇 ≠ 90 em ∝ = 0,05
Agora suponha que a hipótese alternativa, H1, seja verdadeira (µ ≠ 90) e que a média verdadeira
seja, na verdade, 94. A Figura 8–3 mostra as distribuições da média da amostra sob as hipóteses
nula e alternativa. Os valores da média da amostra são exibidos ao longo do eixo horizontal.
Potência
β é exibido na Figura 8–3 como a área sob a curva mais à direita (H1), à esquerda da linha vertical
(onde não rejeitamos H0). Potência é definida como
1 − β = P (Rejeitar H0 | H0 é falsa)
e é exibida na Figura 8–3 como a área sob a curva mais à direita (H1), à direita da linha vertical
(onde rejeitamos H0).
Potência
Nas seções a seguir, forneceremos fórmulas para determinar o tamanho da amostra necessário
para garantir que um teste tenha potência alta. Ao projetar estudos, a maioria das pessoas
considera a potência de 80 ou 90% (assim como, em geral, utilizamos 95% como o nível de
confiança para estimativas de intervalo de confiança). As entradas para as fórmulas de tamanho
da amostra incluem a potência desejada, o nível de significância e o tamanho do efeito. O
tamanho do efeito é selecionado para representar uma diferença clinicamente significativa ou
virtualmente importante no parâmetro de interesse. Isso será ilustrado nos exemplos a seguir.
As fórmulas que apresentamos produzem o tamanho mínimo da amostra para garantir que o
teste de hipóteses tenha uma probabilidade especificada de rejeitar a hipótese nula quando ela
for falsa (ou seja, uma potência especificada). Ao planejar estudos, os pesquisadores devem,
novamente, explicar atritos ou perdas para dar seguimento. As fórmulas apresentadas produzem
o número mínimo de participantes necessários com dados completos. Nos exemplos, também
ilustramos como o atrito é abordado no planejamento de estudos.
No exemplo 9.1, descobrimos que a associação entre obesidade e DCV incidental era muito mais
forte na amostra agrupada (todas as idades juntas) do que em cada grupo de faixa etária. A
estimativa baseada na amostra agrupada é, às vezes, chamada de estimativa não ajustada ou
bruta. Geramos uma estimativa bruta do risco relativo de 1,78. A razão de possibilidades bruta
ou não ajustada é de 1,93. Agora, queremos estimar a associação entre obesidade e DCV
incidental que explica a confusão por idade.
A Tabela 9–10 é uma tabela 2 x 2 que resume a associação entre um fator de risco dicotômico
e um resultado dicotômico. Nos capítulos anteriores, estimamos o risco relativo e as razões de
chances como
Resultado Resultado
presente ausente Total
Fator de risco
presente
(exposto)
Fator de risco
ausente (não
exposto)
Total
Usando a notação da tabela 9–10, o risco relativo e a razão de possibilidades são equivalentes
a
Quando há uma variável de confusão, estabelecemos uma série de tabelas 2 x 2, uma para cada
estrato (categoria) da variável de confusão. Por exemplo, no exemplo 9.1, consideramos duas
faixas etárias e, deste modo, estabelecemos duas tabelas mostrando a associação entre
obesidade e DCV incidental em cada um dos dois estratos de idade.
As estimativas Cochran–Mantel–Haenszel do risco relativo e razão de possibilidades ajustadas
para confusão são
onde ai, bi, ci, e di são os números de participantes nas células da tabela 2 x 2 no estrato i da
variável de confusão (veja a tabela 9–10). ni representa o número de participantes no estrato i.
Ilustramos o uso do método Cochran–Mantel–Haenszel no exemplo 9.3.
Exemplo 9.3. Considere, novamente, os dados do Exemplo 9.1. Usamos esses dados para
estimar o risco relativo e razão de possibilidades descrevendo a associação entre obesidade e
DCV incidental, ajustando para a idade. Consideramos, novamente, duas faixas etárias ou
estratos: pessoas com menos de 50 anos de idade e pessoas com 50 anos ou mais. Os dados
são apresentados na tabela 9-11 para cada estrato de idade.
Obeso
Não obeso
Total
Idade 50+
DCV Sem
incidental DCV Total
Obeso
Não obeso
Total
Observe que o risco relativo e a razão de possibilidades ajustados, 1,44 e 1,52, não são iguais
ao risco relativo ou bruto e à razão de possibilidades não ajustados, 1,78 e 1,93. O ajuste para
idade produz estimativas do risco relativo e razão de possibilidades muito mais próximas às
estimativas específicas ao estrato (as estimativas ajustadas são médias ponderadas das
estimativas específicas ao estrato).
A análise de regressão é uma técnica usada para avaliar a relação entre uma variável de
resultado e um ou mais fatores de risco ou variáveis de confusão. A variável de resultado também
é chamada de variável de resposta ou variável dependente e os fatores de risco e confundidores
são chamados de variáveis prognosticadoras, explicativas ou independentes. Existe um
aspecto potencialmente confuso nesta nomenclatura. O termo "prognosticador" pode ser
interpretado como a habilidade de prever, além dos limites dos dados. O termo "explicativo" pode
dar uma impressão de um efeito (quando inferências devem ser limitadas a associações). Os
termos "variável independente" e "variável dependente" estão menos sujeitos a essas
interpretações, já que eles não implicam fortemente causa e efeito. Em análise de regressão, a
variável dependente é designada y e a variável independente é designada x.
O cenário 1 na figura 9–5 pode retratar a associação forte e positiva geralmente observada entre
o peso e o comprimento de um bebê ao nascer, ou entre a pressão arterial sistólica e a diastólica.
O cenário 2 pode retratar a associação mais fraca observada entre idade e índice de massa
corporal (que tende a aumentar com a idade). O cenário 3 pode retratar a falta de associação
entre o grau de exposição à mídia na adolescência e a idade em que adolescentes iniciam
atividades sexuais. O cenário 4 pode retratar a associação forte e negativa geralmente observada
entre os números de horas de exercícios aeróbicos por semana e a porcentagem de gordura
corporal. No exemplo 9.4, ilustramos o cálculo do coeficiente de correlação amostral.
1 34,7 1895
2 36,0 2930
3 29,3 1440
4 40,1 2835
5 35,7 3090
6 42,4 3827
7 40,3 3260
8 37,3 2690
9 40,9 3285
10 38,3 2920
11 38,5 3430
12 41,4 3657
13 39,7 3685
14 39,7 3345
15 41,1 3260
16 38,0 2680
17 38,7 2005
Desejamos estimar a associação entre idade gestacional e peso ao nascer. Neste exemplo, o
peso ao nascer é a variável dependente e a idade gestacional é a variável independente. Deste
modo, y = peso ao nascer e x = idade gestacional. Os dados são exibidos em um diagrama de
dispersão na figura 9–6. Cada ponto representa um par (x, y). Neste caso, a idade gestacional,
medida em semanas, e o peso ao nascer, medido em gramas. Diagramas de dispersão exibem
a variável independente no eixo horizontal (ou eixo x) e a variável dependente no eixo vertical
(ou eixo y).
Figura 9-6 Diagrama de dispersão da idade gestacional e do peso ao nascer
Peso ao nascer (gramas)
25,0 27,0 29,0 31,0 33,0 35,0 37,0 39,0 41,0 43,0 45,0
A figura 9–6 mostra uma associação positiva ou direta entre idade gestacional e peso ao nascer.
Bebês com idades gestacionais menores têm maior probabilidade de nascerem com pesos
menores e bebês com idades gestacionais maiores têm maior probabilidade de nascerem com
pesos maiores. Agora, estimamos a correlação entre idade gestacional e peso ao nascer usando
os dados da amostra.
cov(𝑥𝑥,𝑦𝑦)
A fórmula para o coeficiente de correlação amostral é 𝑟𝑟 = , onde cov(x, y) é a
�𝑠𝑠𝑥𝑥2 𝑠𝑠𝑦𝑦2
� )(Y−Y
Σ(X−X �)
covariância de x e y, definida como cov (x, y) = , e s2x e s2y são as variâncias da
𝑛𝑛−1
� )2
Σ(X−X � )2
Σ(Y−Y
amostra de x e y, definida como s𝑥𝑥2 = 2
, s𝑦𝑦 = (consulte o capítulo 4). As
n−1 n−1
variâncias de x e y medem a variabilidade de pontuações x e pontuações y em volta de suas
respectivas médias de amostra � X e �Y, consideradas separadamente. A covariância mede a
variabilidade dos pares (x, y) em volta da média de x e da média de y, consideradas
simultaneamente. Para calcular o coeficiente de correlação amostral, precisamos calcular a
variância da idade gestacional, a variância do peso ao nascer e também a covariância da idade
gestacional e do peso ao nascer. Primeiro, resumimos os dados da idade gestacional. A idade
gestacional média é
Σx 652,1
X� = = = 38,4 weeks
𝑛𝑛 17
Para calcular a variância da idade gestacional, precisamos somar os desvios quadráticos (ou
diferenças) entre cada idade gestacional observada e a idade gestacional média. Os cálculos
estão resumidos na tabela 9–14. A variância da idade gestacional é
Σ(X − �
X) 2 159,45
s𝑥𝑥2 = = = 10,0.
n−1 16
ΣY 49334
�
Y= = = 2902 gramas.
𝑛𝑛 17
Para calcular a variância do peso ao nascer, precisamos somar os desvios quadráticos entre
cada peso ao nascer observado e o peso médio ao nascer. Os cálculos estão resumidos na
tabela 9-15. A variância do peso ao nascer é
Σ(Y − Y� )2 7767660
𝑠𝑠𝑦𝑦2 = = = 485478,8
𝑛𝑛 − 1 16
Tabela 9-15 Variância do peso ao nascer
Número de identificação do bebê Peso ao nascer (gramas) �)
(𝐘𝐘 − 𝐘𝐘 �)𝟐𝟐
(𝐘𝐘 − 𝐘𝐘
1 1895 -1007 1014049
2 2030 -872 760384
3 1440 -1462 2137444
4 2835 -67 4489
5 3090 188 35344
6 3827 925 855625
7 3260 358 128164
8 2690 -212 44944
9 3285 383 146689
10 2920 18 324
11 3430 528 278784
12 3657 755 570025
13 3685 783 613089
14 3345 443 196249
15 3260 358 128164
16 2680 -222 49284
17 2005 -897 804609
ΣY = 49334 �) = 0
Σ(Y − Y Σ(Y − �
Y)2 = 7767660
� )(Y−Y
Σ(X−X �)
Em seguida, calculamos a covariância cov (x, y) = . Para calcular a
𝑛𝑛−1
covariância da idade gestacional e do peso ao nascer, precisamos multiplicar o desvio da idade
gestacional média pelo desvio do peso ao nascer médio (ou seja, (X − � X)(Y − �
Y)) para cada
participante. Os cálculos estão resumidos na tabela 9-16. Observe que nós simplesmente
copiamos os desvios da idade gestacional média e do peso médio ao nascer nas duas tabelas
anteriores, em colunas da tabela a seguir e multiplicamos valores correspondentes. A
� )(Y−Y
Σ(X−X �)
covariância da idade gestacional e do peso ao nascer é cov (x, y) = =
𝑛𝑛−1
28768,4
= 1798,0.
16
Tabela 9-16 Covariância da idade gestacional e do peso ao nascer
Número de identificação do bebê �)
(𝐗𝐗 − 𝐗𝐗 �)
(𝐘𝐘 − 𝐘𝐘 �)(𝐘𝐘 − 𝐘𝐘
(𝐗𝐗 − 𝐗𝐗 �)
O coeficiente de correlação amostral é positivo, como esperado, e forte (ou seja, próximo de 1).
Novamente, a amplitude do coeficiente de correlação amostral, r, está entre -1 e +1. Na prática,
correlações significativas (ou seja, correlações que são clinicamente ou virtualmente
importantes) podem ser tão pequenas quanto 0,4 (ou -0,4) para associações positivas (ou
negativas). Existem testes estatísticos para determinar se uma correlação observada é
estatisticamente significativa ou não (ou seja, estatística e significativamente diferente de zero).
Procedimentos para testar se uma correlação de amostra observada sugere uma correlação
estatisticamente significativa são descritos em detalhe em Kleinbaum, Kupper e Muller.
A análise de regressão é uma técnica bem geral e amplamente aplicada. Focamos, novamente,
na estrutura conceitual geral e, de certa forma especificamente, na aplicação da análise de
regressão para avaliar e explicar a confusão e também para avaliar a modificação de efeito. Os
leitores interessados devem consultar Kleinbaum, Kupper e Muller para obter mais detalhes
sobre a análise de regressão e suas muitas aplicações.1
Quando existe uma única variável dependente e uma única variável independente, a análise é
chamada de análise de regressão linear simples. Esta análise presume que existe uma
associação linear entre as duas variáveis. (Se existir a hipótese de uma relação diferente, como
uma relação curvilínea ou exponencial, análises de regressão alternativas são realizadas.) A
figura 9–7 exibe dados sobre o IMC e o colesterol total medidos em uma amostra de n = 20
participantes. O IMC médio é de 27,4 kg/m2 com um desvio padrão de 3,7 (ou seja, sx = 3,7). O
nível médio de colesterol total é de 205,9 mg/dl com um desvio padrão de 30,8 (ou seja, sy =
30,8).
X = IMC
A figura 9–7 mostra uma associação positiva ou direta entre o IMC e o colesterol total.
Participantes com IMC mais baixos têm uma probabilidade maior de terem níveis de colesterol
total mais baixos; participantes com IMC mais altos têm uma probabilidade maior de terem níveis
de colesterol total mais altos. A correlação entre IMC e colesterol total é r = 0,78. Em contraste,
suponha que examinemos a associação entre IMC e colesterol HDL. A figura 9–8 é um diagrama
de dispersão do IMC e colesterol HDL medidos em uma amostra de n = 20 participantes. A
correlação entre IMC e colesterol HDL é r = -0,72. O nível médio de colesterol HDL é de 47,4
mg/dl com um desvio padrão de 12,1 (ou seja, sy = 12,1).
Figura 9-8 Diagrama de dispersão do IMC e do colesterol HDL
Y = Colesterol HDL
X = IMC
A figura 9–8 mostra uma associação negativa ou inversa entre o IMC e o colesterol HDL.
Participantes com IMC mais baixos têm uma probabilidade maior de terem níveis de colesterol
HDL mais altos; participantes com IMC mais altos têm uma probabilidade maior de terem níveis
de colesterol HDL mais baixos.
Na análise de regressão linear simples, estimamos a equação da linha que melhor descreve a
associação entre a variável independente e a variável dependente. A equação de regressão
linear simples é
As estimativas dos mínimos quadráticos do ponto de intersecção com o eixo y e do declive são
calculadas da seguinte forma:
𝑠𝑠𝑦𝑦
𝑏𝑏1 = 𝑟𝑟 � − 𝑏𝑏1 X
e 𝑏𝑏0 = Y �,
𝑠𝑠𝑥𝑥
onde r é o coeficiente de correlação amostral, �
Xe�
Y são as médias; sx e sy são os desvios padrão
da variável independente x e da variável dependente y, respectivamente.
𝑠𝑠𝑦𝑦 30,8
𝑏𝑏1 = 𝑟𝑟 = 0,78 = 6,49 e
𝑠𝑠𝑥𝑥 3,7
� − 𝑏𝑏1 X
𝑏𝑏0 = Y � = 205,9 − 6,49(27,4) = 28,07.
A estimativa do ponto de intersecção com o eixo y (b0 = 28,07) representa o nível de colesterol
total estimado quando o IMC for zero. Já que um IMC = 0 é irrelevante, o ponto de intersecção
com o eixo y não é informativo. A estimativa do declive (b1 = 6,49) representa a mudança no
colesterol total relativo à mudança de uma unidade no IMC. Por exemplo, se compararmos dois
participantes cujos IMC variam em apenas uma unidade, esperaríamos que o nível de colesterol
total deles tenha uma diferença de aproximadamente 6,49 mg/dl (em que a pessoa com o IMC
mais alto tenha colesterol total mais alto). A equação da linha de regressão é
Existem testes estatísticos que podem ser realizados para avaliar se os coeficientes de regressão
estimados (b0 e b1) fornecem evidências de que os respectivos coeficientes na população sejam
estatística e significativamente diferentes de zero. O teste de maior interesse normalmente é H0:
β1 = 0 contra H1: β1 ≠ 0, onde β1 é o declive populacional. Se o declive populacional for
significativamente diferente de zero, concluímos que existe uma associação estatisticamente
significativa entre as variáveis independente e dependente. O teste de significância para o declive
é equivalente ao teste de significância para a correlação. Esses testes são conduzidos na maioria
dos pacotes de computação estatística (omitimos os detalhes aqui). A figura 9–9 mostra a linha
de regressão sobreposta estimada no diagrama de dispersão do IMC e do colesterol total.
X = IMC
𝑠𝑠𝑦𝑦 12,1
𝑏𝑏1 = 𝑟𝑟 = −0,72 = 2,35 e
𝑠𝑠𝑥𝑥 3,7
� − 𝑏𝑏1 X
𝑏𝑏0 = Y � = 47,4 − (−2,35)(27,4) = 111,79.
X = IMC
Em análise de regressão linear, a variável dependente é contínua. Existe uma suposição de que
a distribuição da variável dependente (y) em cada valor da variável independente (x) seja
aproximadamente distribuído normalmente. A variável independente pode ser uma variável
contínua (por exemplo, o IMC) ou uma variável dicotômica (também chamada de variável
indicadora). Variáveis dicotômicas (ou indicadoras) são normalmente codificadas como 0 ou 1,
onde o 0 é atribuído a participantes que não apresentam um fator de risco, exposição ou
característica particular e 1 é atribuído a participantes que apresentam o fator de risco, exposição
ou característica particular.
No exemplo 9.2, consideramos os dados de um ensaio clínico projetado para avaliar a eficácia
de um novo medicamento para aumentar o colesterol HDL. 100 pacientes se inscreveram no
estudo e foram designados aleatoriamente para receber um medicamento novo ou um placebo.
Estatísticas resumidas sobre o resultado primário, colesterol HDL, foram exibidas na tabela 9–7.
Comparamos os níveis médios de HDL entre grupos de tratamento usando um teste t de duas
amostras independentes. A análise de regressão também pode ser usada para comparar os
níveis médios de HDL entre tratamentos. O colesterol HDL é a variável dependente contínua e o
tratamento (novo medicamento contra placebo) é a variável independente. Uma equação de
regressão linear simples é estimada como
Nas seções 9.4 e 9.5, ampliamos o conceito de regressão simples para incluir variáveis
independentes adicionais. Na seção 9.4, introduzimos a análise de regressão linear múltipla, que
se aplica a situações em que o resultado é contínuo e há mais de uma variável independente.
As variáveis independentes podem ser contínuas ou dicotômicas (indicadoras). Na seção 9.5,
introduzimos a análise de regressão logística múltipla, que se aplica a situações em que o
resultado é dicotômico (por exemplo, DCV incidental).