Sie sind auf Seite 1von 40

CAPÍTULO 7: Teste de hipóteses

PÁGINAS 129-131, 135-139,157-163

Se a hipótese nula for rejeitada, um nível de significância exato é computado para descrever a
probabilidade de observar os dados da amostra, presumindo que a hipótese nula seja verdadeira.
O nível exato de significância é chamado de valor p e será menor que o nível de significância
escolhido. Pacotes de computação estatística fornecem valores p exatos como parte da sua
produção padrão para testes de hipótese. Aproximamos valores p usando a Tabela 1C para
testes envolvendo estatísticas z e a Tabela 2 para testes envolvendo estatísticas t.

Agora usamos o procedimento de cinco etapas para testar a hipótese de pesquisa de que o peso
médio dos homens em 2006 é superior a 86,5 quilos. Presumimos os dados da amostra
observados conforme segue: n = 100, Χ� = 197,1, s = 25,6.

Etapa 1: Definir a hipótese e determinar o nível de significância.


H0: µ = 191,
H1: µ> 191,
α = 0,05.

A hipótese de pesquisa é que os pesos aumentaram, portanto, um teste de cauda superior é


usado.

Etapa 2: Selecionar a estatística de teste adequada.


Devido ao fato de a amostra ser grande (n> 30), a estatística de teste adequada é

Χ� − 𝜇𝜇0
𝑧𝑧 =
𝑠𝑠/√𝑛𝑛

(Na Seção 7.2, apresentamos estatísticas de teste alternativas adequadas para amostras
pequenas).

Etapa 3: Definir a regra de decisão.


Neste exemplo, estamos fazendo um teste de cauda superior (H1: µ> 191), com uma estatística
de teste z e selecionamos α = 0,05. A regra de decisão é mostrada na Figura 7–2,

Rejeitar H0 se z ≥ 1,645.

Etapa 4: Calcular a estatística de teste.


Substituímos os dados da amostra da fórmula pela estatística de teste identificada na Etapa 2,

� − 𝜇𝜇0
Χ 197,4−191
𝑧𝑧 = = = 2,38
𝑠𝑠/√𝑛𝑛 25,6/√100
Etapa 5: Conclusão.
Rejeitamos H0 porque 2,38 > 1,645. Temos evidências estatisticamente significativas em α = 0,05
para mostrar que o peso médio dos homens em 2006 é superior a 86,5 quilos. Por termos
rejeitado a hipótese nula, nos aproximamos agora do valor p, que é a probabilidade de observar
dados como mais extremos sob o modelo estatístico presumido. Uma definição alternativa do
valor p é o menor nível de significância em que ainda rejeitamos H0.

Neste exemplo, observamos z = 2,38, e para α = 0,05 o valor crítico é 1,645. Por 2,38 exceder
1,645, rejeitamos H0. Na nossa conclusão, relatamos um aumento estatisticamente significativo
no peso médio em um nível de significância de 5%. Os dados, de fato, fornecem evidências mais
sólidas. A Tabela 7–2 é uma cópia da Tabela 1C do Apêndice que contém valores críticos para
testes de cauda superior.

TAPELA 7-2 Valores críticos para testes Z de


cauda superior

α do teste de
cauda superior Valor crítico de z
0,10 1,282
0,05 1,645
0,025 1,960
0,010 2,326
0,005 2,576
0,001 3,090
0,0001 3,719

Qual é o menor nível de significância que poderíamos escolher e ainda rejeitar H0? Se
selecionarmos α = 0,025, o valor crítico é 1,96, e ainda rejeitamos H0 porque 2,38> 1,960. Se
selecionarmos α = 0,010, o valor crítico é 2,326, e ainda rejeitamos H0 porque 2,38> 2,326.
Entretanto, se selecionarmos α = 0,005, o valor crítico é 2,576, e não podemos rejeitar H0, porque
2,38> 2,576. Portanto, o menor α em que ainda rejeitamos H0 é 0,010. Esse é o valor p. Um
pacote de computação estatística produz um valor p mais preciso, que seria entre 0,005 e 0,010.
Aqui, estamos aproximando o valor p usando a Tabela 1C do Apêndice, e relatamos p< 0,010.

Valores p refletem a significância exata dos testes de hipóteses. Neste exemplo, descobrimos
p< 0,010, indicando que há menos de 1% de chance de estarmos rejeitando incorretamente a
hipótese nula se a hipótese nula for verdadeira. Suponha, neste exemplo, que a estatística de
teste seja z = 1,70. Ainda rejeitamos H0 em α = 0,05, porque 1,70> 1,645. Entretanto, com z =
1,70, o valor p seria relatado como p< 0,05. O valor p é mostrado graficamente na Figura 7–5.
FIGURA 7-5 Valor p, nível de significância exato

Valor p

1,70

Valores p menores são um indicativo de mais incompatibilidade dos dados com o modelo
estatístico presumido. Na literatura, com frequência, os pesquisadores relatam valores p para
resumir a significância de testes de hipóteses. A regra a seguir pode ser usada para interpretar
valores p:

Rejeitar H0 se p ≤ α,

Por exemplo, suponha que queremos testar H0: µ = 100 contra H1: µ> 100 em α = 0,05. Os dados
são coletados e analisados com um pacote de computação estatística que relata p = 0,0176.
Como p = 0,0176, α = 0,05, rejeitamos H0. Entretanto, se tivéssemos selecionado α = 0,01, não
rejeitaríamos H0. Nos exemplos a seguir, aproximamos valores p usando a Tabela 1C do
Apêndice para testes envolvendo estatísticas z e a Tabela 2 do Apêndice para testes envolvendo
estatísticas t. Também discutimos a interpretação adequada.

Em todos os testes de hipóteses (para resultados contínuos, dicotômicos, categóricos e ordinais,


com uma, duas ou mais de duas amostras), há dois erros que podem ser cometidos. O primeiro
é chamado de erro do Tipo I e se refere à situação em que rejeitamos incorretamente H0 quando,
na verdade, ela é verdadeira. Isso também é chamado de resultado falso positivo (já que
concluímos incorretamente que a hipótese de pesquisa é verdadeira quando não é). Quando
fazemos um teste de hipóteses e decidimos rejeitar H0 (p. ex., porque a estatística do teste é
maior que o valor crítico ou igual a ele em um teste de cauda superior), tomamos uma decisão
correta, porque a hipótese de pesquisa é verdadeira, ou cometemos um erro do Tipo I. As
diferentes conclusões são resumidas na Tabela 7–3. Observe que nunca sabemos se a hipótese
nula é realmente verdadeira ou falsa (isto é, nunca sabemos qual linha da Tabela 7–3 reflete a
realidade).

TABELA 7-3 Erros em testes de hipóteses

Conclusão em teste de hipóteses


Não rejeitar H0 Rejeitar H0
H0 é verdadeiro Decisão correta Erro do tipo II
H0 é falso Erro do tipo II Decisão correta

Na primeira etapa de um teste de hipóteses, selecionamos um nível de significância, α, e α = P


(erro do Tipo I). Por selecionarmos propositadamente um valor pequeno para α, controlamos a
probabilidade de cometer um erro do Tipo I. Por exemplo, selecionamos α = 0,05 e nosso teste
nos diz para rejeitar H0, há uma probabilidade de 5% de cometermos um erro do Tipo I. A maioria
dos pesquisadores tem bastante tranquilidade com isso e fica confiante quando rejeita H0 no
sentido em que a hipótese de pesquisa é verdadeira, já que é o cenário mais provável quando
rejeitamos H0.

Quando fazemos um teste de hipóteses e decidimos rejeitar H0 (p. ex., porque a estatística do
teste está abaixo do valor crítico em um teste de cauda superior), ou tomamos uma decisão
correta, porque a hipótese nula é verdadeira, ou cometemos um erro do Tipo II. β representa a
probabilidade de um erro do Tipo II e é definido como

β = P (erro do Tipo II) = P (não rejeitar H0 | H0 é falso).

Infelizmente, não podemos escolher um β pequeno (p. ex., 0,05) para controlar a probabilidade
de cometer um erro do Tipo II, porque β depende de diversos fatores, incluindo o tamanho da
amostra, o nível de significância (α), e a hipótese de pesquisa. Esses problemas serão discutidos
mais detalhadamente no Capítulo 8. Por enquanto, devemos reconhecer que, quando não
rejeitamos H0, pode ser muito provável que estejamos cometendo um erro do Tipo II (ou seja,
não conseguindo rejeitar H0 quando ela é falsa). Portanto, quando os testes são executados e a
hipótese nula não é rejeitada, com frequência fazemos uma declaração de conclusão fraca,
permitindo a possibilidade de que estejamos cometendo um erro do Tipo II. Se não rejeitamos
H0, concluímos que não temos evidências significativas para mostrar que H1 é verdadeira. Não
concluímos que H0 é verdadeira. O motivo mais comum para um erro do Tipo II é uma amostra
de tamanho pequeno.

7.4 TESTES COM UMA AMOSTRA, RESULTADOS CATEGÓRICOS E


ORDINAIS

Um teste de hipóteses com uma variável de resultado categórica ou ordinal em uma única
população é realizado novamente de acordo com o procedimento de cinco etapas. Semelhante
aos testes para médias e proporções descritos nas Seções 7.2 e 7.3, um componente chave é
definir as hipóteses nula e de pesquisa. As variáveis categóricas e ordinais são variáveis que
assumem mais de duas respostas ou categorias distintas. Além disso, respostas podem ser
ordenadas ou não ordenadas (ou seja, ordinais ou categóricas). O procedimento que
descrevemos aqui pode ser usado para resultados ordinais ou categóricos. O objetivo é comparar
a distribuição de respostas — ou a proporção de participantes em cada categoria de resposta —
para uma distribuição conhecida. A distribuição conhecida é derivada de outro estudo ou relatório
e é, novamente, importante para definir as hipóteses de que a distribuição comparadora
especificada na hipótese nula é uma comparação justa.

Em testes de uma amostra para um resultado categórico ou ordinal, nós definimos nossas
hipóteses contra um comparador adequado. Selecionamos uma amostra e computamos as
estatísticas descritivas dos dados da amostra usando as técnicas descritas no Capítulo 4.
Especificamente, calculamos o tamanho da amostra (n) e as proporções de participantes em
cada categoria de resposta (𝑝𝑝̂1 , 𝑝𝑝̂2 , … 𝑝𝑝̂𝑘𝑘 ) onde k representa o número de categorias de resposta.
Em seguida, determinamos a estatística de teste adequada (Etapa 2) para o teste de hipóteses.
A fórmula para a estatística de teste se encontra na Tabela 7–6.

TABELA 7-6 Estatística de teste para Teste H0: p1 =


p10, p2 = p20, …, pk = pk0

(Encontre o valor
crítico na Tabela 3,
gl = k - 1)

Com a estatística χ2, comparamos as frequências observadas em cada categoria de resposta


(O) às frequências que poderíamos esperar (E) se a hipótese nula for verdadeira. Essas
frequências esperadas são determinadas alocando a amostra às categorias de resposta de
acordo com a distribuição especificada em H0. Isso é feito multiplicando o tamanho da amostra
observado (n) pelas proporções especificadas na hipótese nula (p10, p20, …, pk0). Para garantir
que o tamanho da amostra seja apropriado para o uso da estatística do teste na Tabela 7–6,
precisamos garantir que a frequência esperada em cada categoria de resposta seja de pelo
menos 5, ou

mín.(np10, np20,…, npk0) ≥ 5.

O teste de hipóteses com um resultado categórico ou ordinal medido em uma única amostra,
onde o objetivo é avaliar se a distribuição de respostas segue uma distribuição conhecida, é
chamado de χ2 teste de aderência. Como o nome indica, a ideia é avaliar se a distribuição de
respostas na amostra se "ajusta" a uma distribuição específica da população. No próximo
exemplo, ilustramos o teste usando a abordagem de cinco etapas. Conforme trabalhamos com
o exemplo, forneceremos detalhes adicionais relacionados ao uso dessa nova estatística do
teste.
Exemplo 7.6. Uma universidade conduziu uma pesquisa de seus recém-formados para
coletar informações demográficas e de saúde para fins de planejamento futuro e para avaliar a
satisfação dos estudantes com suas experiências universitárias. A pesquisa revelou que uma
grande parte dos estudantes não estava praticando exercícios regulares, muitos achavam que
não se alimentavam bem e uma grande parte era fumante. Em resposta a uma pergunta sobre
a prática de exercícios, 60% dos recém-formados relataram que não faziam exercícios regulares,
25% relataram que faziam exercícios esporadicamente e 15% relataram que faziam exercícios
regulares como universitários. No ano seguinte, a universidade lançou uma campanha de
promoção da saúde no campus, em uma tentativa de incentivar comportamentos saudáveis entre
universitários. O programa incluía módulos sobre exercícios, nutrição e auxílio para deixar de
fumar. Para avaliar o impacto do programa, a universidade realizou outra pesquisa com recém-
formados, fazendo as mesmas perguntas. A pesquisa teve a participação de 470 formandos e
os dados exibidos na Tabela 7–7 foram coletados a partir da pergunta sobre prática de
exercícios. Com base nos dados, existe evidência de uma mudança na distribuição das respostas
à pergunta sobre prática de exercícios depois da implementação da campanha de promoção da
saúde no campus? Realize o teste em um nível de significância de 5%.

TABELA 7-7 Resultados da pesquisa sobre prática de


exercícios

Nenhum Exercício Exercício


exercício esporádic regular Total

Número de
estudantes

Neste exemplo, temos uma amostra e uma variável de resultado ordinal (com três opções de
resposta). Queremos comparar, especificamente, a distribuição de respostas na amostra à
distribuição relatada no ano anterior (ou seja, 60%, 25% e 15% relatando nenhum exercício,
exercício esporádico e exercício regular, respectivamente). Agora realizamos o teste usando a
abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

A hipótese nula, novamente, representa a situação de "nenhuma mudança" ou "nenhuma


diferença". Se a campanha de promoção da saúde não tiver nenhum impacto, podemos esperar
que a distribuição de respostas à pergunta sobre prática de exercícios seja a mesma da que foi
medida antes da implementação do programa.

H0: p1 = 0,60, p2 = 0,25, p3 = 0,15 ou, de forma equivalente,


H0: A distribuição de respostas é 0,60, 0,25, 0,15,
H1: H0 é falso,
α = 0,05.

Observe que a hipótese de pesquisa está escrita em palavras em vez de com símbolos. A
hipótese de pesquisa, conforme afirmado, capta qualquer diferença na distribuição de respostas
das especificadas na hipótese nula. Nós não especificamos uma distribuição alternativa
específica; em vez disso, estamos testando se os dados da amostra se "ajustam" à distribuição
em H0 ou não. Com o teste de aderência χ2, não há versões unilaterais superiores ou inferiores
do teste.
Etapa 2: Selecionar a estatística de teste adequada.

A fórmula para a estatística de teste se encontra na Tabela 7–6 e é

2
(Ο − 𝐸𝐸)2
𝜒𝜒 = Σ
𝐸𝐸
Devemos, primeiro, avaliar se o tamanho da amostra é adequado. Especificamente, precisamos
verificar o mín.(np10,…,npk0) ≥ 5. O tamanho da amostra aqui é n = 470 e as proporções
especificadas na hipótese nula são 0,60, 0,25, e 0,15. Assim,

mín.[470(0,60), 470(0,25), 470(0,15)] = mín.(282, 117,5, 70,5) = 70,5.

O tamanho da amostra é mais do que adequado, então a estatística do teste pode ser usada.

Etapa 3: Definir a regra de decisão.

A regra de decisão para o teste χ2 é definida de uma maneira semelhante às regras de decisão
que estabelecemos para os testes z e t. A regra de decisão depende do nível de significância e
dos graus de liberdade, definidos por gl = k - 1, onde k é o número de categorias de resposta.
Novamente, com os testes χ2, não há versões unilaterais superiores ou inferiores do teste. Se a
hipótese nula for verdadeira, as frequências observadas e esperadas são próximas em valor e a
estatística χ2 é próxima de 0. Se a hipótese nula for falsa, a estatística χ2 é grande. A região de
rejeição para o teste χ2 está sempre na curva superior (direita), como exibido na Figura 7–6.

Figura 7-6 Região de rejeição para o teste χ2 com α = 0,05 e gl = 2

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1 ∝ = 0,05
0
A Tabela 3 do Apêndice contém os valores críticos para o teste χ2, indexados por graus de
liberdade e pelo nível de significância desejado. Aqui temos gl = k-1 = 3-1 = 2 e um nível de
significância de 5%. O valor crítico adequado da Tabela 3 é 5,99 e a regra de decisão é

Rejeitar H0 se χ2 ≥ 5,99.

Etapa 4: Calcular a estatística de teste.

Agora nós calculamos as frequências esperadas usando o tamanho da amostra e as proporções


especificadas na hipótese nula. Em seguida, substituímos os dados da amostra (frequências
observadas) e as frequências esperadas pela fórmula para a estatística de teste identificada na
Etapa 2. Os cálculos podem ser organizados como mostrado na Tabela 7–8. Observe que as
frequências esperadas são levadas a uma casa decimal e que a soma das frequências
observadas é igual à soma das frequências esperadas. A estatística do teste é calculada como

2
(255 − 282)2 (125 − 177,5)2 (90 − 70,5)2
𝜒𝜒 = + +
282 117,5 70,5

𝜒𝜒 2 = 2,59 + 0,48 + 5,39 = 8,46

Tabela 7-8 Cálculo das frequências esperadas

Nenhum exercício Exercício esporádico Exercício regular Total


Frequências observadas (O) 255 125 90 470
Frequências esperadas (E) 470 (0,60) = 282 470 (0,25) = 117,5 470 (0,15) = 70,5 470

Etapa 5: Conclusão.

Rejeitamos H0 porque 8,46 > 5,99. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que a distribuição de respostas não é 0,60, 0,25 e 0,15. Usando a
Tabela 3 do Apêndice, podemos aproximar o valor p. Temos que olhar para valores críticos para
menores níveis de significância com gl = 2. Usando a Tabela 3 do Apêndice, o valor p é p <
0,025.

No teste de aderência χ2, concluímos que ou a distribuição especificada em H0 é falsa (quando


rejeitamos H0) ou não temos evidências suficientes para provar que a distribuição especificada
em H0 é falsa (quando não rejeitamos H0). No Exemplo 7.6, rejeitamos H0 e concluímos que a
distribuição de respostas à pergunta sobre prática de exercícios, depois da implementação da
campanha de promoção da saúde, não é a mesma que a distribuição anterior. O teste em si não
fornece detalhes de como a distribuição mudou. Uma comparação das frequências observadas
e esperadas fornece algumas informações sobre a mudança (quando a hipótese nula é
rejeitada). No Exemplo 7.6, observamos os dados apresentados na primeira linha da Tabela 7–
8. Se a hipótese nula fosse verdadeira, poderíamos esperar que mais estudantes entrassem na
categoria Nenhum exercício e menos deles entrassem na categoria Exercício regular. Na
amostra, 255 / 470 = 54% relatam "nenhum exercício" e 90 / 470 = 19% relatam "exercício
regular". Portanto, há uma mudança em direção a uma maior prática de exercícios regulares
depois da implementação da campanha de promoção da saúde.

Exemplo 7.7. O NCHS (National Center for Health Statistics, Centro Nacional de Estatística em
Saúde dos Estados Unidos) forneceu dados sobre a distribuição de peso (em categorias) entre
americanos em 2002. A distribuição foi baseada em valores específicos de índice de massa
corporal (IMC) calculados como peso em quilogramas sobre altura em metros quadrados.
"Abaixo do peso" foi definido como IMC abaixo de 18,5; "peso normal", como IMC entre 18,5 e
24,9; "sobrepeso", como IMC entre 25 e 29,9; e "obeso", como IMC de 30 ou maior. Americanos,
em 2002, foram distribuídos da seguinte forma: 2% abaixo do peso, 39% com peso normal, 36%
com sobrepeso e 23% obeso. Suponha que queiramos avaliar se a distribuição de IMC é
diferente na amostra de descendentes do estudo Framingham. Usando dados dos n = 3.536
participantes que compareceram à sétima análise de descendentes no Framingham Heart Study,
criamos as categorias de IMC definidas, que são os dados apresentados na Tabela 7–9.

Tabela 7-9 Distribuição de IMC nos descendentes do estudo de Framingham


Abaixo do peso, Peso normal, Sobrepeso, Obeso,
IMC < 18,5 IMC 18,5 a 24,9 IMC 25,0 a 29,9 IMC 30 ou mais Total
Número de participantes

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: p1 = 0,02, p2 = 0,39, p3 = 0,36,


p4 = 0,23 ou, de forma equivalente,
H0: A distribuição de respostas é 0,02, 0,39, 0,36, 0,23,
H1: H0 é falso,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.

A fórmula para a estatística de teste se encontra na Tabela 7–6 e é

2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
Devemos avaliar se o tamanho da amostra é adequado. Especificamente, precisamos verificar o
mín.(np10, …, npk0) ≥ 5. O tamanho da amostra aqui é n = 3.326 e as proporções especificadas
na hipótese nula são 0,02, 0,39, 0,36, e 0,23. Assim,

mín.[3326(0,02), 3326(0,39), 3326(0,36), 3326(0,23)] =


mín.(66,5, 1297,1, 1197,4, 765,0) = 66,5.

O tamanho da amostra é mais do que adequado, então a estatística do teste pode ser usada.
Etapa 3: Definir a regra de decisão.
Aqui temos gl = k - 1 = 4 - 1 = 3 e um nível de significância de 5%. O valor crítico adequado da
Tabela 3 do Apêndice é 7,81 e a regra de decisão é

Rejeitar H0 se χ2 ≥ 7,81.

Etapa 4: Calcular a estatística de teste.


Agora nós calculamos as frequências esperadas usando o tamanho da amostra e as proporções
especificadas na hipótese nula. Em seguida, substituímos os dados da amostra (frequências
observadas) pela fórmula para a estatística de teste identificada na Etapa 2. Organizamos os
cálculos na Tabela 7–10.

Tabela 7-10 Frequências observadas e esperadas


Abaixo do peso, Peso normal, Sobrepeso, Obeso,
IMC < 18,5 IMC 18,5 a 24,9 IMC 25,0 a 29,9 IMC 30 ou mais Total

Frequências observadas (O) 20 932 1374 1000 3326


Frequências esperadas (E) 66,5 1297,1 1197,4 765,0 3326

A estatística do teste é calculada como

2
(20 − 66,5)2 (932 − 1297,1)2 (1374 − 1197,4)2 (1000 − 765,0)2
𝜒𝜒 = + + +
66,5 1297,1 1197,4 765,0

𝜒𝜒 2 = 32,52 + 102,77 + 26,05 + 72,19 = 233,53

Etapa 5: Conclusão.

Rejeitamos H0 porque 233,53 > 7,81. Temos evidências estatisticamente significativas em α =


0,05 para provar que H0 é falso, ou que a distribuição de IMC nos descendentes do estudo
Framingham é diferente dos dados nacionais relatados em 2002. Usando a Tabela 3 do
Apêndice, podemos aproximar o valor p. Temos que olhar para valores críticos para menores
níveis de significância para gl = 3. Usando a Tabela 3, o valor p é p < 0,005.

Novamente, o teste de aderência χ2 nos permite avaliar se a distribuição de respostas se "ajusta"


a uma distribuição específica. No Exemplo 7.7, mostramos que a distribuição de IMC no estudo
dos descendentes de Framingham é diferente da distribuição nacional. Para entender a natureza
da diferença, comparamos frequências observadas e esperadas ou proporções observadas e
esperadas (ou porcentagens). No exemplo 7.7, as frequências são grandes por causa do
tamanho grande da amostra — as porcentagens observadas de pacientes na amostra
Framingham são: 0,6% abaixo do peso, 28% com peso normal, 41% com sobrepeso e 30%
obeso. Na amostra de descendentes Framingham, há maiores porcentagens de pessoas com
sobrepeso e obesas (41% e 30% em Framingham, em comparação aos 36% e 23% nacionais)
e menores porcentagens de pessoas abaixo do peso e com peso normal (0,6% e 28% em
Framingham, em comparação aos 2% e 39% nacionais).

7.9 TESTES PARA DUAS OU MAIS AMOSTRAS INDEPENDENTES,


RESULTADOS CATEGÓRICOS E ORDINAIS
Na Seção 7.4, apresentamos o teste de aderência χ2, que foi usado para testar se a distribuição
de respostas para uma variável categórica ou ordinal medida em uma única amostra seguia uma
distribuição conhecida. Aqui, nós ampliamos essa aplicação para os dois ou mais casos de
amostras independentes. Especificamente, o resultado de interesse tem duas ou mais respostas
e elas estão ordenadas ou não ordenadas (ou seja, ordinal ou categórica). Agora nós
consideramos a situação onde há dois ou mais grupos de comparação e o objetivo da análise é
comparar a distribuição de respostas à variável de resultado categórica ou ordinal entre vários
grupos de comparação independentes.

O teste é chamado de teste de independência χ2 e a hipótese nula é a de que não há diferença


na distribuição de respostas para o resultado entre grupos de comparação. Isso é
frequentemente determinado como: A variável de resultado e a variável de agrupamento (por
exemplo, os tratamentos de comparação ou grupos de comparação) são independentes (por isso
o nome do teste). A independência, neste caso, implica homogeneidade na distribuição do
resultado entre grupos de comparação. A hipótese nula no teste de independência χ2 é, muitas
vezes, determinada em palavras como

H0: A distribuição do resultado é independente dos grupos.

A hipótese de pesquisa é de que existe uma diferença na distribuição da variável do resultado


entre grupos de comparação (ou seja, que a distribuição de respostas "depende" do grupo). Para
testar a hipótese, medimos a variável de resultado categórica ou ordinal em cada participante de
cada grupo de comparação. Os dados de interesse são as frequências observadas (ou número
de participantes em cada categoria de resposta em cada grupo). A fórmula para a estatística do
teste para o teste de independência χ2 é fornecida na Tabela 7–42.

Tabela 7-42 Estatística de teste para teste H0: A


distribuição do resultado é independente dos grupos

(Encontre o valor crítico na


tabela 3, gl = (r - 1)(c - 1))

Os dados para o teste de independência χ2 são organizados em uma tabela cruzada. As variáveis
de resultado e de agrupamento são apresentadas nas linhas e colunas da tabela. A tabela 7–43
ilustra o layout dos dados da amostra. As entradas da tabela (vazia) são os números de
participantes em cada grupo respondendo a cada categoria de resposta da variável de resultado.
Tabela 7-10 Frequências observadas e esperadas

Opção de resposta 1 Opção de resposta 2 … Opção de resposta c Totais da linha


Variável de agrupamento
Grupo 1
Grupo 2

Grupo r
Totais da coluna N

Na Tabela 7–43, a variável de agrupamento é apresentada nas linhas da tabela; r denota o


número de grupos independentes. A variável de resultado é apresentada nas colunas da tabela;
c denota o número de opções de resposta na variável de resultado. Cada combinação de uma
linha (grupo) e uma coluna (resposta) é chamada de célula da tabela. A tabela tem r × c células
e, às vezes, é chamada de tabela r × c ("r por c"). Por exemplo, se existirem quatro grupos e
cinco categorias na variável de resultado, os dados serão organizados em uma tabela 4 x 5. Os
totais da linha e da coluna são apresentados ao longo da margem direita e da parte de baixo da
tabela, respectivamente. O tamanho total da amostra, N, é calculado somando os totais da linha
ou os totais da coluna. Semelhante a uma ANOVA, N, neste caso, não se refere a um tamanho
de população, mas ao tamanho total da amostra na análise. Os dados da amostra estão
organizados em uma tabela como a exibida na Tabela 7–43. Os números de participantes em
cada grupo que selecionam cada opção de resposta são exibidos nas células da tabela e estas
são as frequências observadas usadas na estatística do teste.

A estatística do teste para o teste de independência χ2 envolve comparar frequências observadas


(dados da amostra) e esperadas em cada célula da tabela. As frequências esperadas são
calculadas presumindo que a hipótese nula é verdadeira. A hipótese nula afirma que as duas
variáveis (a variável de agrupamento e o resultado) são independentes. No capítulo 5,
introduzimos o conceito de independência. A definição de independência é

Dois eventos, A e B, são independentes se P(A|B) = P(A) ou se P(B|A) = P(B) ou,


de forma equivalente,
Dois eventos, A e B, são independentes se P(A e B) = P(A) P(B).

A última afirmação indica que se dois eventos, A e B, são independentes, a probabilidade de sua
interseção pode ser calculada multiplicando a probabilidade de cada evento individual. Para
conduzir o teste de independência χ2, devemos calcular frequências esperadas em cada célula
da tabela. As frequências esperadas são calculadas supondo que a variável de agrupamento e
resultado sejam independentes (ou seja, sob a hipótese nula). Deste modo, se a hipótese nula
for verdadeira, usando a definição de independência:

P(Grupo 1 e Opção de resposta 1) = P (Grupo 1)


P(Opção de resposta 1).

A anterior afirma que a probabilidade de um indivíduo estar no Grupo 1 e o resultado dele ser a
Opção de resposta 1 é calculada multiplicando a probabilidade daquela pessoa estar no Grupo
1 pela probabilidade de uma pessoa dar a Opção de resposta 1. Isso é verdadeiro se Grupo e
Resposta forem independentes. Para conduzir o teste de independência χ2, precisamos de
frequências esperadas e não de probabilidades esperadas. Para converter a probabilidade em
uma frequência, multiplicamos por N (o tamanho total da amostra). Considere o exemplo a seguir.

Tabela 7-44 Respostas observadas por grupo

Reposta 1 Reposta 2 Reposta 3 Total

Grupo 1
Grupo 2
Grupo 3
Total

Os dados apresentados na Tabela 7–44 são medidos em um tamanho de amostra N = 150. As


frequências nas células da tabela são as frequências observadas. Se Grupo e Resposta forem
independentes, podemos calcular a probabilidade de uma pessoa da amostra ser do Grupo 1 e
Opção de resposta 1 usando

P(Grupo 1 e Resposta 1) = P(Grupo 1) P(Resposta 1),


P(Grupo 1 e Resposta 1) = (25 / 150)(62 / 150) = 0,069.

Deste modo, se Grupo e Resposta forem independentes, podemos esperar que 6,9% da amostra
esteja na célula superior esquerda da tabela (Grupo 1 e Resposta 1). A frequência esperada é
150(0,069) = 10,4. Podemos fazer o mesmo para o Grupo 2 e Resposta 1:

P(Grupo 2 e Resposta 1) = P(Grupo 2) P(Resposta 1),


P(Grupo 2 e Resposta 1) = (50 / 150) (62 / 150) = 0,138.

A frequência esperada no Grupo 2 e Resposta 1 é 150(0,138) = 20,7.

A fórmula para determinar as frequências de célula esperadas no teste de independência χ2 é

Total da linha x total da coluna


Frequência de célula esperada =
Ν

A equação anterior produz a frequência esperada em uma etapa em vez de calcular a


probabilidade esperada primeiro para então converter para uma frequência.

Exemplo 7.17. No Exemplo 7.6, examinamos os dados de uma pesquisa de graduados de uma
universidade que avaliou (entre outras coisas) a frequência com que eles se exercitavam. A
pesquisa teve a participação de 470 graduados. Usamos o teste de aderência χ2 para avaliar se
houve uma mudança na distribuição de respostas à pergunta sobre prática de exercícios depois
da implementação de uma campanha de promoção da saúde no campus. Consideramos
especificamente uma amostra (todos os estudantes) e comparamos a distribuição observada de
respostas à pergunta sobre prática de exercícios à distribuição de respostas do ano anterior (um
controle de histórico). Suponha que desejemos avaliar se há uma relação entre a prática de
exercícios em campus e a situação de moradia dos estudantes. Como parte da mesma pesquisa,
perguntaram aos graduados onde eles moravam no último ano da faculdade. As opções de
resposta eram: dormitório, apartamento no campus, apartamento fora do campus e em casa (ou
seja, se deslocavam para a universidade diariamente). Os dados são exibidos na Tabela 7-45.

Tabela 7-45 Prática de exercícios por situação de


moradia

Nenhum Exercício Exercício


esporádico regular Total
exercício

Dormitório
Apartamento no
campus
Apartamento fora
do campus
Em casa
Total

Com base nos dados, existe uma relação entre a prática de exercícios e a situação de moradia
do estudante? Temos quatro grupos de comparação independentes (moradias) e uma variável
de resultado ordinal com três opções de resposta. Queremos especificamente testar se a
situação de moradia e a prática de exercícios são independentes. Realizamos o teste usando a
abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: Moradia e prática de exercícios são independentes,


H1: H0 é falso,
α = 0,05.
As hipóteses nula e de pesquisa estão escritas em palavras em vez de com símbolos. A hipótese
de pesquisa é que a variável de agrupamento (moradia) e a variável de resultado (exercício) são
dependentes ou relacionadas.

Etapa 2: Selecionar a estatística de teste adequada.

A fórmula para a estatística de teste se encontra na Tabela 7-42 e é dada como

2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
A condição para o uso adequado da estatística de teste anterior é de que cada frequência
esperada seja pelo menos cinco. Na Etapa 4, calculamos as frequências esperadas e garantimos
que a condição seja cumprida.
Etapa 3: Definir a regra de decisão.

A regra de decisão para o teste de independência χ2 é definida de uma maneira semelhante às


regras de decisão que estabelecemos para os testes z e t. A regra de decisão depende do nível
de significância e dos graus de liberdade, definidos como gl = (r - 1)(c - 1), onde r e c são os
números de linhas e colunas na tabela de dados bidirecionais. A variável de linha é a situação
de moradia e há quatro arranjos considerados; portanto, r = 4. A variável de coluna é a prática
de exercícios e três respostas são consideradas; portanto, c = 3. Para este teste, gl = (4 - 1)(3 -
1) = 3(2) = 6. Novamente, com testes χ2, não há versões unilaterais superiores ou inferiores do
teste. Se a hipótese nula for verdadeira, as frequências observadas e esperadas são próximas
em valor e a estatística χ2 é próxima de 0. Se a hipótese nula for falsa, a estatística χ2 é grande.
A região de rejeição para o teste de independência χ2 está sempre na curva superior (direita) da
distribuição, como exibido na Figura 7–6.

A Tabela 3 do Apêndice contém os valores críticos para o teste χ2, indexados por graus de
liberdade e o nível de significância desejado. Para gl = 6 e um nível de significância de 5%, o
valor crítico adequado da Tabela 3 é 12,59 e a regra de decisão é

Rejeitar H0 se χ2 ≥ 12,59.

Etapa 4: Calcular a estatística de teste.

Agora calculamos as frequências esperadas usando a fórmula,

Total da linha x total da coluna


Frequência de célula esperada =
Ν
Os cálculos são organizados em uma tabela bidirecional. As frequências esperadas são levadas
a uma casa decimal e as somas das frequências observadas são iguais às somas das
frequências esperadas em cada linha e coluna da tabela (veja a Tabela 7–46).

Tabela 7-46 Frequências esperadas

Nenhum Exercício Exercício


esporádico regular Total
exercício

Dormitório 48,8 23,9 17,2 90


Apartamento no 97,8 47,9 34,5 180
campus
Apartamento fora 81,4 39,9 28,7 150
do campus
Em casa 27,1 13,3 9,6 50
Total 255 125 90 470

Lembre-se de que, na Etapa 2, uma condição para o uso adequado da estatística de teste era
que cada frequência esperada fosse pelo menos cinco. É o caso desta amostra (a menor
frequência esperada é 9,6) e, portanto, o uso da estatística de teste é adequado. A estatística do
teste é calculada da seguinte forma:

(32 − 48,8)2 (30 − 23,9)2 (28 − 17,2)2 (74 − 97,7)2 (64 − 47,9)2
𝜒𝜒 2 = + + + +
48,8 23,9 17,2 97,7 47,9
(42 − 34,5)2 (110 − 81,4)2 (25 − 39,9)2 (15 − 28,7)2
+ + + +
34,5 81,4 39,9 28,7
(39 − 27,1)2 (6 − 13,3)2 (5 − 9,6)2
+ + +
27,1 13,3 9,6

𝜒𝜒 2 = 5,78 + 1,56 + 6,78 + 5,75 + 5,41 + 1,63 + 10,05 + 5,56 + 6,54 + 5,23 + 4,01 + 2,20
= 60,5

Etapa 5: Conclusão.

Rejeitamos H0 porque 60,5 > 12,59. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que situação de moradia e prática de exercício não são
independentes (ou seja, são dependentes ou relacionadas). Usando a Tabela 3 do Apêndice,
podemos aproximar o valor p. Temos que olhar para valores críticos para menores níveis de
significância com gl = 6. Usando a Tabela 3, o valor p é p < 0,005.

O teste de independência χ2 é usado para testar se a distribuição da variável de resultado é


diferente entre os grupos de comparação. No Exemplo 7.17, rejeitamos H0 e concluímos que a
distribuição de prática de exercício não é independente da situação de moradia, ou que há uma
relação entre moradia e prática de exercício. O teste fornece uma avaliação geral da significância
estatística. Quando a hipótese nula é rejeitada, é importante revisar os dados da amostra para
entender a natureza da relação. Considere, novamente, os dados do Exemplo 7.17.

Por haver números diferentes de estudantes em cada situação de moradia, a comparação de


padrões de exercícios se torna difícil baseando-se apenas nas frequências. A Tabela 7–47 exibe
as porcentagens de estudantes em cada categoria de exercício por situação de moradia. As
porcentagens somam 100% em cada linha da tabela. Para fins de comparação, as porcentagens
também são exibidas para o total da amostra ao longo da última linha da tabela. Analisando a
Tabela 7–47, fica claro que maiores porcentagens de estudantes que moram em dormitórios e
em apartamentos no campus fazem exercícios regulares (31% e 23%), em comparação aos
estudantes que moram em apartamentos fora do campus e em casa (10% cada).
Tabela 7-47 7 Porcentagens de estudantes que
praticam exercícios por situação de moradia

Nenhum Exercício Exercício


exercício esporádico regular

Dormitório
Apartamento no
campus
Apartamento fora
do campus
Em casa
Total

Exemplo 7.18. No Exemplo 7.13, analisamos dados de um ensaio aleatório projetado para
avaliar a eficácia de um analgésico novo para reduzir a dor em pacientes após a cirurgia de
substituição de articulação. O ensaio comparou um analgésico novo ao analgésico usado
atualmente (chamado de tratamento padrão). Suponha que haja um terceiro braço do estudo e
pacientes designados a ele receberam uma dose maior do analgésico novo. Suponha que N =
150 pacientes concordaram em participar do ensaio e foram designados aleatoriamente a um
dos três tratamentos. Antes de receber o tratamento designado, os pacientes foram convidados
a classificar a dor que sentiam em uma escala de 0 a 10, com pontuações maiores sendo
indicadoras de uma dor maior. O tratamento designado foi administrado a cada paciente que,
após 30 minutos, foi novamente convidado a classificar a dor que sentia usando a mesma escala.
O resultado primário foi uma redução da dor em 3 ou mais pontos na escala (definido, por
médicos, como uma redução clinicamente significativa). Os dados apresentados na Tabela 7–
48 são observados no ensaio.

Tabela 7-48 Redução da dor por tratamento

Redução Sem redução


significativa significativa
(3 ou mais pontos) (< 3 pontos) Total
Analgésico novo
Dose maior do
analgésico novo

Analgésico padrão

Total
Aqui temos três grupos de comparação independentes e uma variável de resultado categórica
(dicotômica). Queremos testar se existe uma diferença nas proporções dos pacientes que
relataram uma redução significativa da dor entre os três tratamentos. Realizamos o teste usando
a abordagem de cinco etapas.

Etapa 1: Definir a hipótese e determinar o nível de significância.

H0: Tratamento e redução da dor são independentes,


H1: H0 é falso,
α = 0,05.

Etapa 2: Selecionar a estatística de teste adequada.

A fórmula para a estatística de teste se encontra na Tabela 7-42 e é dada como

2
(Ο − Ε)2
𝜒𝜒 = Σ .
Ε
A condição para o uso adequado da estatística de teste anterior é de que cada frequência
esperada seja pelo menos cinco. Na Etapa 4, calculamos as frequências esperadas e garantimos
que a condição seja cumprida.

Etapa 3: Definir a regra de decisão.

A variável de linha é o tratamento e há três arranjos considerados (r = 3). A variável de coluna é


o resultado e duas respostas são consideradas (c = 2). Para este teste, gl = (3 - 1)(2 - 1) = 2(1)
= 2. Para gl = 2 e um nível de significância de 5%, o valor crítico adequado da Tabela 3 do
Apêndice é 5,99 e a regra de decisão é

Rejeitar H0 se χ2 ≥ 5,99.

Etapa 4: Calcular a estatística de teste.

Agora calculamos as frequências esperadas usando a fórmula,

Total da linha x total da coluna


Frequência de célula esperada =
Ν
As frequências esperadas são apresentadas na Tabela 7–49.
Tabela 7-49 Frequências esperadas

Redução Sem redução


significativa significativa
(3 ou mais pontos) (< 3 pontos) Total
Analgésico novo 21,3 28,7 50
Dose maior do 21,3 28,7 50
analgésico novo
Analgésico padrão 21,3 28,7 50
Total 64 86 150

A estatística do teste é calculada como

2
(23 − 23,1)2 (27 − 28,7)2 (30 − 21,3)2 (20 − 28,7)2 (11 − 21,3)2
𝜒𝜒 = + + + +
21,3 28,7 21,3 28,7 21,3
(39 − 28,7)2
+
28,7

𝜒𝜒 2 = 0,14 + 0,10 + 3,56 + 2,64 + 4,98 + 3,70 = 15,12.

Etapa 5: Conclusão.

Rejeitamos H0 porque 15,12 > 5,99. Temos evidências estatisticamente significativas em α = 0,05
para provar que H0 é falso, ou que há uma diferença nas proporções de pacientes que relataram
uma redução significativa da dor entre os três tratamentos. Usando a Tabela 3 do Apêndice,
podemos aproximar o valor p. Temos que olhar para valores críticos para menores níveis de
significância para gl = 2. Usando a Tabela 3 do Apêndice, o valor p é p < 0,005.

Qual é a natureza da relação entre redução significativa da dor e os três tratamentos?


CAPÍTULO 8: Potência e determinação do tamanho da amostra
PÁGINAS 171-172, 179-181
Nos capítulos 6 e 7, apresentamos técnicas para teste de estimativa e de hipóteses,
respectivamente. No capítulo 6, vimos que estimativas de intervalo de confiança com base em
amostras maiores tinham margens de erro menores. No capítulo 7, vimos que testes de hipóteses
com base em amostras maiores tinham uma probabilidade maior de detectar pequenos
aumentos, reduções ou diferenças no parâmetro de interesse. Amostras maiores produzem
análises mais precisas. Entretanto, existe um ponto no qual uma amostra maior não melhora
substancialmente a precisão da análise.

Estudos devem ser projetados para incluir um número suficiente de participantes para enfocar
adequadamente a pergunta da pesquisa. Perceber, ao final de um estudo, que a amostra era
pequena demais para responder a pergunta da pesquisa é um desperdício em termos de tempo
do participante e do investigador, recursos para conduzir as avaliações, esforços analíticos e
assim por diante. Também pode ser visto como antiético, já que participantes podem ter sido
colocados em risco como parte de um estudo que foi incapaz de responder a uma pergunta
importante. Por outro lado, estudos não devem ser grandes demais, pois, novamente, recursos
podem ser desperdiçados e alguns participantes podem ser colocados em risco
desnecessariamente.

Um aspecto extremamente importante do delineamento de estudos é determinar o tamanho da


amostra adequado para responder à pergunta da pesquisa. Existem fórmulas que são utilizadas
para estimar o tamanho necessário da amostra para produzir uma estimativa de intervalo de
confiança com uma margem de erro especificada, ou para garantir que um teste de hipótese
tenha uma probabilidade alta de detectar uma diferença significativa no parâmetro, se ela existir.
Em condições ideais, essas fórmulas são usadas para gerar estimativas do tamanho da amostra
necessário para responder à pergunta do estudo antes de qualquer dado ser coletado.

As fórmulas que apresentamos aqui geram os tamanhos de amostra necessários para satisfazer
os critérios estatísticos. Em muitos estudos, o tamanho da amostra é determinado por restrições
financeiras ou logísticas. Por exemplo, suponha que um estudo seja proposto para avaliar um
novo teste de rastreamento para Síndrome de Down. Suponha que o teste de rastreamento seja
baseado na análise de uma amostra de sangue retirada de mulheres no início da gravidez. Para
avaliar as propriedades do teste de rastreamento (por exemplo, a sensibilidade e especificidade),
cada mulher grávida terá que providenciar uma amostra de sangue e passar por uma
amniocentese. A amniocentese é incluída como padrão áureo e o plano é comparar os resultados
do teste de rastreamento com os resultados da amniocentese. Suponha que a coleta e o
processamento da amostra de sangue custe US$ 250 por participante e que a amniocentese
custe US$ 900 por participante. Somente essas restrições financeiras já podem limitar
substancialmente o número de mulheres que podem ser inscritas. Assim como é importante
considerar as questões estatísticas e as questões práticas ao interpretar resultados de uma
análise estatística, também é importante pesar questões estatísticas e logísticas ao determinar
o tamanho da amostra para uma análise. Nosso foco aqui está nas considerações estatísticas.
Pesquisadores devem avaliar se o tamanho da amostra determinada para ser suficiente de um
ponto de vista estatístico é realista e viável.
8.2 QUESTÕES PARA A ESTIMATIVA DO TAMANHO DA AMOSTRA
PARA TESTE DE HIPÓTESES

No capítulo 7, apresentamos técnicas para teste de hipóteses para médias, proporções,


diferenças nas médias e diferenças nas proporções. Embora cada teste envolva detalhes
específicos ao resultado de interesse (contínuo, dicotômico, categórico ou ordinal) e ao número
de grupos de comparação (um, dois, ou mais de dois), existem elementos comuns a cada teste.

Por exemplo, em cada teste de hipótese existem dois erros que podem ser cometidos. O primeiro
é chamado de erro do Tipo I e se refere à situação em que rejeitamos incorretamente H0 quando,
na verdade, ela é verdadeira. Na primeira etapa de qualquer teste de hipóteses, selecionamos
um nível de significância α e

α = P(Erro de Tipo I) = P(Rejeitar H0|H0 é verdadeira).

Já que, propositadamente, selecionamos um valor pequeno para α, controlamos a probabilidade


de cometer um erro de Tipo I. O segundo tipo de erro é chamado de erro de Tipo II e é definido
como a probabilidade de não rejeitarmos H0 quando for falsa. A probabilidade de um erro de Tipo
II é representada por β e

β = P(Erro de Tipo II) = P (Não rejeitar H0|H0 é falsa).

No teste de hipóteses, normalmente focamos em potência, que é definida como a probabilidade


de rejeitarmos H0 quando for falsa.

Potência = 1 − β = P (Rejeita H0|H0 é falsa).

Potência é a probabilidade de um teste rejeitar corretamente uma hipótese nula falsa. Um bom
teste tem uma probabilidade pequena de cometer um erro de Tipo I (ou seja, um α pequeno) e
potência alta (ou seja, β pequeno, potência alta).

Nas seções a seguir, apresentaremos fórmulas para determinar o tamanho da amostra


necessário para garantir que um teste tenha potência alta. Os cálculos de tamanho da amostra
dependem do nível de significância, α, a potência desejada para o teste (equivalente a 1 - β), a
variabilidade do resultado e o tamanho do efeito. O tamanho do efeito é a diferença no parâmetro
de interesse que representa uma diferença clinicamente significativa. Semelhante à margem de
erro em aplicações de intervalo de confiança, o tamanho do efeito é determinado com base em
critérios clínicos ou práticos e não em critérios estatísticos. O conceito de potência estatística
pode ser difícil de compreender. Antes de apresentar as fórmulas para determinar o tamanho da
amostra necessário para garantir potência alta em um teste, devemos discutir potência de um
ponto de vista conceitual.

Suponha que queiramos testar as seguintes hipóteses em α = 0,05:

H0: μ = 90,
H1: μ ≠ 90.

Para testar as hipóteses, suponha que selecionemos um tamanho de amostra n = 100. Para este
exemplo, presuma que o desvio padrão do resultado seja σ = 20. Calculamos a média da amostra
e então decidimos se a ela fornece evidências para confirmar a hipótese de pesquisa ou não.
Isso é feito calculando uma estatística do teste e a comparando a um valor crítico adequado.

Se a hipótese nula realmente for verdadeira (µ = 90), estamos propensos a selecionar uma
amostra cuja média seja próxima em valor de 90. No entanto, também é possível selecionar uma
amostra cuja média seja muito maior ou muito menor que 90. Lembre-se do Teorema central do
limite (consulte o capítulo 5) em que, para grandes n (aqui, n = 100 é suficientemente grande), a
distribuição das médias da amostra é aproximadamente normal com uma média de 𝜇𝜇𝑥𝑥̅ − 𝜇𝜇 − 90
e um desvio padrão de σx� = 𝜎𝜎� = 20� = 2,0. Se a hipótese nula for verdadeira, é possível
√𝑛𝑛 √100
observar qualquer média de amostra exibida na Figura 8–1, já que todas são possíveis sob
H0: µ = 90.

� sob H0 : 𝜇𝜇 = 90
Figura 8-1 Distribuição de X

Quando determinamos a regra de decisão para nosso teste de hipóteses, determinamos valores
críticos com base em α = 0,05 e um teste bilateral. Quando fazemos testes de hipóteses,
normalmente padronizamos os dados (por exemplo, convertendo para z ou t) e os valores críticos
são valores adequados da distribuição de probabilidade usada no teste. Para facilitar a
interpretação, continuamos essa discussão com X � em vez de z. Os valores críticos de X
� para um
teste bilateral com α = 0,05 são 86,08 e 93,92 (esses valores correspondem a -1,96 e 1,96,
respectivamente, na escala z), então a regra de decisão é

� ≤ 86,08 ou se X
Rejeitar H0 se X � ≥ 93,92.

A região de rejeição é exibida nas caudas da Figura 8–2. As áreas nas duas caudas da curva
representam a probabilidade de um erro de Tipo I, α = 0,05. Esse conceito foi discutido com
detalhe no capítulo 7.
Figura 8-2 Região de rejeição para o teste H0 : 𝜇𝜇 = 90 contra e
H1 : 𝜇𝜇 ≠ 90 em ∝ = 0,05

Agora suponha que a hipótese alternativa, H1, seja verdadeira (µ ≠ 90) e que a média verdadeira
seja, na verdade, 94. A Figura 8–3 mostra as distribuições da média da amostra sob as hipóteses
nula e alternativa. Os valores da média da amostra são exibidos ao longo do eixo horizontal.

Figura 8-3 Distribuição de 𝑋𝑋� sob H0 : 𝜇𝜇 = 90 e sob H1 : 𝜇𝜇 = 94

Potência

Não rejeitar H0 Rejeitar H0


Se a média real for 94, a hipótese alternativa é verdadeira. Em nosso teste, selecionamos α =
0,05 e rejeitamos H0 se a média da amostra observada for maior que 93,92 (focando na parte
superior da cauda da região de rejeição, por enquanto). O valor crítico (93,92) é indicado pela
linha vertical. A probabilidade de um erro de Tipo II é representada por β e

β = P (Não rejeitar H0 | H0 é falsa).

β é exibido na Figura 8–3 como a área sob a curva mais à direita (H1), à esquerda da linha vertical
(onde não rejeitamos H0). Potência é definida como

1 − β = P (Rejeitar H0 | H0 é falsa)

e é exibida na Figura 8–3 como a área sob a curva mais à direita (H1), à direita da linha vertical
(onde rejeitamos H0).

Como observamos anteriormente, β e potência estavam relacionados com α, com a variabilidade


do resultado e com o tamanho do efeito. Pela figura 8–3, podemos ver o que acontece com β e
com a potência, se aumentarmos α. Por exemplo, se aumentarmos α para 0,10. O valor crítico
superior seria 92,56, em vez de 93,92. A linha vertical mudaria para a esquerda, aumentando α,
diminuindo β e aumentando a potência. Embora um teste melhor seja um com potência maior,
não é aconselhável aumentar α como uma maneira de aumentar a potência. No entanto, existe
uma relação direta entre α e potência (quando α aumenta, a potência também aumenta).

β e potência também estão relacionados à variabilidade do resultado e ao tamanho do efeito. O


tamanho do efeito é a diferença no parâmetro de interesse (por exemplo, µ) que representa uma
diferença clinicamente significativa. A Figura 8–3 apresenta graficamente α, β, e potência quando
a diferença na média sob a hipótese nula, comparada à hipótese alternativa, é de 4 unidades (ou
seja, 90 em vez de 94). A Figura 8–4 apresenta os mesmos componentes para a situação onde
a média sob a hipótese alternativa é 98.

Figura 8-4 Distribuição de 𝑋𝑋� sob H0 : 𝜇𝜇 = 90 e sob H1 : 𝜇𝜇 = 98

Potência

Não rejeitar H0 Rejeitar H0


Observe que existe uma potência muito maior quando há uma maior diferença entre a média sob
H0 quando comparada com H1 (ou seja, 90 contra 98). Um teste estatístico tem uma probabilidade
bem maior de rejeitar a hipótese nula a favor da alternativa se a média verdadeira for 98 do que
se a média verdadeira for 94. Observe na Figura 8–4 que existe uma pequena sobreposição nas
distribuições sob as hipóteses nula e alternativa. Se uma média da amostra de 97 ou maior for
observada, é bem improvável que ela tenha vindo de uma distribuição cuja média fosse 90. Na
Figura 8–3, se observarmos uma média da amostra de 93, não seria tão claro se ela veio de uma
distribuição cuja média é 90 ou de uma cuja média é 94.

Nas seções a seguir, forneceremos fórmulas para determinar o tamanho da amostra necessário
para garantir que um teste tenha potência alta. Ao projetar estudos, a maioria das pessoas
considera a potência de 80 ou 90% (assim como, em geral, utilizamos 95% como o nível de
confiança para estimativas de intervalo de confiança). As entradas para as fórmulas de tamanho
da amostra incluem a potência desejada, o nível de significância e o tamanho do efeito. O
tamanho do efeito é selecionado para representar uma diferença clinicamente significativa ou
virtualmente importante no parâmetro de interesse. Isso será ilustrado nos exemplos a seguir.

As fórmulas que apresentamos produzem o tamanho mínimo da amostra para garantir que o
teste de hipóteses tenha uma probabilidade especificada de rejeitar a hipótese nula quando ela
for falsa (ou seja, uma potência especificada). Ao planejar estudos, os pesquisadores devem,
novamente, explicar atritos ou perdas para dar seguimento. As fórmulas apresentadas produzem
o número mínimo de participantes necessários com dados completos. Nos exemplos, também
ilustramos como o atrito é abordado no planejamento de estudos.

CAPÍTULO 9: Métodos multivariáveis


PÁGINAS 201-211

9.2 MÉTODO COCHRAN–MANTEL–HAENSZEL


Nos exemplos 9.1 e 9.2, ilustramos os conceitos de confusão e modificação de efeito,
respectivamente. A confusão ocorre quando uma terceira variável, o confundidor, afeta a relação
entre o fator de risco ou exposição e o resultado. No exemplo 9.1, a idade foi o confundidor. A
idade foi relacionada à obesidade e à DCV (doença cardiovascular) incidental. Em outras
palavras, havia um desequilíbrio na distribuição da idade entre pessoas obesas e não obesas. A
associação entre a obesidade e a DCV incidental era similar entre pessoas mais novas e mais
velhas (na análise estratificada). Quando os dados foram reunidos (todas as idades juntas), o
efeito da obesidade foi ampliado. No exemplo 9.2, descobrimos que o sexo era um modificador
de efeito. Expressada de outra maneira, havia uma interação estatística entre sexo e tratamento
na média dos níveis de HDL (o resultado primário). O efeito do tratamento era diferente em
homens e mulheres.

O método Cochran–Mantel–Haenszel é uma técnica que gera uma estimativa de uma


associação entre um fator de risco ou exposição e um resultado explicando a confusão. O método
é usado com uma variável de resultado dicotômica e um fator de risco dicotômico e,
essencialmente, calcula uma média ponderada dos riscos relativos (ou razões de chances,
qualquer uma das medidas usadas para quantificar associação) através do estrato (ou grupos)
definido pela variável de confusão. Para implementar o método Cochran–Mantel–Haenszel, o
confundidor deve ser categorizado para que uma série de tabelas 2 x 2 possam ser geradas
mostrando a associação entre fator de risco e resultado em cada estrato.

No exemplo 9.1, descobrimos que a associação entre obesidade e DCV incidental era muito mais
forte na amostra agrupada (todas as idades juntas) do que em cada grupo de faixa etária. A
estimativa baseada na amostra agrupada é, às vezes, chamada de estimativa não ajustada ou
bruta. Geramos uma estimativa bruta do risco relativo de 1,78. A razão de possibilidades bruta
ou não ajustada é de 1,93. Agora, queremos estimar a associação entre obesidade e DCV
incidental que explica a confusão por idade.

A Tabela 9–10 é uma tabela 2 x 2 que resume a associação entre um fator de risco dicotômico
e um resultado dicotômico. Nos capítulos anteriores, estimamos o risco relativo e as razões de
chances como

𝑃𝑃�1 𝑃𝑃�1 /�1 − 𝑃𝑃�1 �


R^ R = e O^ 𝑅𝑅 =
𝑃𝑃�2 𝑃𝑃�2 /�1 − 𝑃𝑃�2 �

Tabela 9-10 Layout de dados para estimativas


Cochran–Mantel–Haenszel

Resultado Resultado
presente ausente Total

Fator de risco
presente
(exposto)
Fator de risco
ausente (não
exposto)

Total

Usando a notação da tabela 9–10, o risco relativo e a razão de possibilidades são equivalentes
a

𝑎𝑎/(𝑎𝑎 + 𝑏𝑏) 𝑎𝑎/𝑏𝑏 𝑎𝑎𝑎𝑎


R^ R = e O^ 𝑅𝑅 = =
𝑐𝑐/(𝑐𝑐 + 𝑑𝑑) 𝑐𝑐/𝑑𝑑 𝑏𝑏𝑏𝑏

Quando há uma variável de confusão, estabelecemos uma série de tabelas 2 x 2, uma para cada
estrato (categoria) da variável de confusão. Por exemplo, no exemplo 9.1, consideramos duas
faixas etárias e, deste modo, estabelecemos duas tabelas mostrando a associação entre
obesidade e DCV incidental em cada um dos dois estratos de idade.
As estimativas Cochran–Mantel–Haenszel do risco relativo e razão de possibilidades ajustadas
para confusão são

Σ𝑎𝑎𝑖𝑖 (𝑐𝑐𝑖𝑖 + 𝑑𝑑𝑖𝑖 )/𝑛𝑛𝑖𝑖 Σ𝑎𝑎𝑖𝑖 𝑑𝑑𝑖𝑖 /𝑛𝑛𝑖𝑖


R^ R CMH = e O^ R CMH =
Σ𝑐𝑐𝑖𝑖 (𝑎𝑎𝑖𝑖 + 𝑏𝑏𝑖𝑖 )𝑛𝑛𝑖𝑖 Σ𝑏𝑏𝑖𝑖 𝑐𝑐𝑖𝑖 /𝑛𝑛𝑖𝑖

onde ai, bi, ci, e di são os números de participantes nas células da tabela 2 x 2 no estrato i da
variável de confusão (veja a tabela 9–10). ni representa o número de participantes no estrato i.
Ilustramos o uso do método Cochran–Mantel–Haenszel no exemplo 9.3.

Exemplo 9.3. Considere, novamente, os dados do Exemplo 9.1. Usamos esses dados para
estimar o risco relativo e razão de possibilidades descrevendo a associação entre obesidade e
DCV incidental, ajustando para a idade. Consideramos, novamente, duas faixas etárias ou
estratos: pessoas com menos de 50 anos de idade e pessoas com 50 anos ou mais. Os dados
são apresentados na tabela 9-11 para cada estrato de idade.

Tabela 9-11 Obesidade e DCV incidental por faixa


etária
Idade < 50
DCV Sem
incidental DCV Total

Obeso
Não obeso
Total
Idade 50+

DCV Sem
incidental DCV Total
Obeso
Não obeso
Total

O método Cochran–Mantel–Haenszel produz uma única medida resumida de associação que


explica o fato de haver uma associação diferente em cada estrato de idade. O risco relativo
ajustado e a razão de possibilidades ajustada são

Σ𝑎𝑎𝑖𝑖 (𝑐𝑐𝑖𝑖 + 𝑑𝑑𝑖𝑖 )/𝑛𝑛𝑖𝑖 10 (35 + 465)/600 + 36 (25 + 175)/400


R^ R CMH = = = 1,44
Σ𝑐𝑐𝑖𝑖 (𝑎𝑎𝑖𝑖 + 𝑏𝑏𝑖𝑖 )𝑛𝑛𝑖𝑖 35 (10 + 90)/600 + 25(36 + 164)/400

Σ𝑎𝑎𝑖𝑖 𝑑𝑑𝑖𝑖 /𝑛𝑛𝑖𝑖 10(465)/600 + 36 (175)/400


O^ R CMH = = = 1,52
Σ𝑏𝑏𝑖𝑖 𝑐𝑐𝑖𝑖 /𝑛𝑛𝑖𝑖 90 (35)/600 + 164(25)/400
A tabela 9–12 resume os riscos relativos e razões de chances que calculamos até agora para
resumir a associação entre obesidade e DCV incidental.

Tabela 9-12 Estimativas de associação entre


obesidade e DCV incidental
Risco Razão de
relativo possibilidades
Bruta, não ajustada 1,78 1,93
Idade < 50 1,43 1,48
Idade 50+ 1,44 1,52
Ajustada para idade 1,44 1,52

Observe que o risco relativo e a razão de possibilidades ajustados, 1,44 e 1,52, não são iguais
ao risco relativo ou bruto e à razão de possibilidades não ajustados, 1,78 e 1,93. O ajuste para
idade produz estimativas do risco relativo e razão de possibilidades muito mais próximas às
estimativas específicas ao estrato (as estimativas ajustadas são médias ponderadas das
estimativas específicas ao estrato).

9.3 INTRODUÇÃO À ANÁLISE DE CORRELAÇÃO E REGRESSÃO

A análise de regressão é uma técnica usada para avaliar a relação entre uma variável de
resultado e um ou mais fatores de risco ou variáveis de confusão. A variável de resultado também
é chamada de variável de resposta ou variável dependente e os fatores de risco e confundidores
são chamados de variáveis prognosticadoras, explicativas ou independentes. Existe um
aspecto potencialmente confuso nesta nomenclatura. O termo "prognosticador" pode ser
interpretado como a habilidade de prever, além dos limites dos dados. O termo "explicativo" pode
dar uma impressão de um efeito (quando inferências devem ser limitadas a associações). Os
termos "variável independente" e "variável dependente" estão menos sujeitos a essas
interpretações, já que eles não implicam fortemente causa e efeito. Em análise de regressão, a
variável dependente é designada y e a variável independente é designada x.

Antes de discutirmos análise de regressão, primeiro descreveremos uma técnica relacionada,


chamada de análise de correlação. A análise de correlação é usada para quantificar a
associação entre duas variáveis contínuas (por exemplo, entre uma variável independente e uma
variável dependente ou entre duas variáveis independentes). Em análise de correlação,
estimamos um coeficiente de correlação amostral, mais especificamente, o coeficiente de
correlação produto-momento de Pearson. O coeficiente de correlação amostral, designado r,
varia entre -1 e +1 e quantifica a direção e a força da associação linear entre duas variáveis. A
correlação entre duas variáveis pode ser positiva (ou seja, níveis mais altos de uma variável são
associados com níveis mais altos da outra) ou negativa (ou seja, níveis mais altos de uma
variável são associados com níveis mais baixos da outra). O sinal do coeficiente de correlação
indica a direção da associação. A dimensão do coeficiente de correlação indica a força da
associação. Por exemplo, uma correlação de r = 0,9 sugere uma associação forte e positiva entre
duas variáveis, enquanto uma correlação de r = -0,2 sugere uma associação fraca e negativa.
Uma correlação quase nula sugere nenhuma associação linear entre duas variáveis contínuas.
É importante observar que pode haver uma associação não linear entre duas variáveis contínuas.
O coeficiente de correlação não detecta isso. Portanto, é sempre importante avaliar os dados
com cuidado além de calcular estatísticas resumidas, como o coeficiente de correlação.
Exibições gráficas são particularmente úteis para explorar associações entre variáveis. Por
exemplo, a figura 9–5 mostra quatro cenários diferentes e, em cada cenário, uma variável
contínua é representada ao longo do eixo x e a outra ao longo do eixo y. O cenário 1 sugere uma
associação forte e positiva entre duas variáveis (por exemplo, r = 0,9); o cenário 2 sugere uma
associação fraca e positiva entre duas variáveis (por exemplo, r = 0,2); o cenário 3 não sugere
nenhuma associação (ou nenhuma correlação) entre duas variáveis (por exemplo, r = 0); e o
cenário 4 sugere uma associação forte e negativa entre duas variáveis (por exemplo, r = -0,9).

Figura 9-5 Correlações diferentes entre variáveis

1. Forte, positiva 2. Fraca, positiva

3. Sem correlação 4. Forte, negativa

O cenário 1 na figura 9–5 pode retratar a associação forte e positiva geralmente observada entre
o peso e o comprimento de um bebê ao nascer, ou entre a pressão arterial sistólica e a diastólica.
O cenário 2 pode retratar a associação mais fraca observada entre idade e índice de massa
corporal (que tende a aumentar com a idade). O cenário 3 pode retratar a falta de associação
entre o grau de exposição à mídia na adolescência e a idade em que adolescentes iniciam
atividades sexuais. O cenário 4 pode retratar a associação forte e negativa geralmente observada
entre os números de horas de exercícios aeróbicos por semana e a porcentagem de gordura
corporal. No exemplo 9.4, ilustramos o cálculo do coeficiente de correlação amostral.

Exemplo 9.4. Um pequeno estudo é conduzido envolvendo 17 bebês para investigar a


associação entre idade gestacional no nascimento, medida em semanas, e o peso do bebê ao
nascer, medido em gramas. Os dados são exibidos na Tabela 9-13.
Tabela 9-13 Idade gestacional e peso ao nascer

Número de Idade gestacional Peso as nascer


identificação do bebê (semanas) (gramas)

1 34,7 1895
2 36,0 2930
3 29,3 1440
4 40,1 2835
5 35,7 3090
6 42,4 3827
7 40,3 3260
8 37,3 2690
9 40,9 3285
10 38,3 2920
11 38,5 3430
12 41,4 3657
13 39,7 3685
14 39,7 3345
15 41,1 3260
16 38,0 2680
17 38,7 2005

Desejamos estimar a associação entre idade gestacional e peso ao nascer. Neste exemplo, o
peso ao nascer é a variável dependente e a idade gestacional é a variável independente. Deste
modo, y = peso ao nascer e x = idade gestacional. Os dados são exibidos em um diagrama de
dispersão na figura 9–6. Cada ponto representa um par (x, y). Neste caso, a idade gestacional,
medida em semanas, e o peso ao nascer, medido em gramas. Diagramas de dispersão exibem
a variável independente no eixo horizontal (ou eixo x) e a variável dependente no eixo vertical
(ou eixo y).
Figura 9-6 Diagrama de dispersão da idade gestacional e do peso ao nascer
Peso ao nascer (gramas)

25,0 27,0 29,0 31,0 33,0 35,0 37,0 39,0 41,0 43,0 45,0

Idade gestacional (semanas)

A figura 9–6 mostra uma associação positiva ou direta entre idade gestacional e peso ao nascer.
Bebês com idades gestacionais menores têm maior probabilidade de nascerem com pesos
menores e bebês com idades gestacionais maiores têm maior probabilidade de nascerem com
pesos maiores. Agora, estimamos a correlação entre idade gestacional e peso ao nascer usando
os dados da amostra.

cov(𝑥𝑥,𝑦𝑦)
A fórmula para o coeficiente de correlação amostral é 𝑟𝑟 = , onde cov(x, y) é a
�𝑠𝑠𝑥𝑥2 𝑠𝑠𝑦𝑦2
� )(Y−Y
Σ(X−X �)
covariância de x e y, definida como cov (x, y) = , e s2x e s2y são as variâncias da
𝑛𝑛−1
� )2
Σ(X−X � )2
Σ(Y−Y
amostra de x e y, definida como s𝑥𝑥2 = 2
, s𝑦𝑦 = (consulte o capítulo 4). As
n−1 n−1
variâncias de x e y medem a variabilidade de pontuações x e pontuações y em volta de suas
respectivas médias de amostra � X e �Y, consideradas separadamente. A covariância mede a
variabilidade dos pares (x, y) em volta da média de x e da média de y, consideradas
simultaneamente. Para calcular o coeficiente de correlação amostral, precisamos calcular a
variância da idade gestacional, a variância do peso ao nascer e também a covariância da idade
gestacional e do peso ao nascer. Primeiro, resumimos os dados da idade gestacional. A idade
gestacional média é
Σx 652,1
X� = = = 38,4 weeks
𝑛𝑛 17
Para calcular a variância da idade gestacional, precisamos somar os desvios quadráticos (ou
diferenças) entre cada idade gestacional observada e a idade gestacional média. Os cálculos
estão resumidos na tabela 9–14. A variância da idade gestacional é

Σ(X − �
X) 2 159,45
s𝑥𝑥2 = = = 10,0.
n−1 16

Tabela 9-14 Variância da idade gestacional


Número de identificação do bebê Idade gestacional (semanas) �)
(𝐗𝐗 − 𝐗𝐗 �)𝟐𝟐
(𝐗𝐗 − 𝐗𝐗
1 34,7 -3,7 13,69
2 36,0 -2,4 5,76
3 29,3 -9,1 82,81
4 40,1 1,7 2,89
5 35,7 -2,7 7,29
6 42,4 4,0 16,00
7 40,3 1,9 3,61
8 37,3 -1,1 1,21
9 40,9 2,5 6,25
10 38,3 -0,1 0,01
11 38,5 0,1 0,01
12 41,4 3,0 9,00
13 39,7 1,3 1,69
14 39,7 1,3 1,69
15 41,1 2,7 7,29
16 38,0 -0,4 0,16
17 38,7 0,3 0,09
ΣX = 652,1 �) = 0
Σ(X − X �)2 = 159,45
Σ(X − X

Em seguida, resumimos os dados do peso ao nascer. O peso médio ao nascer é

ΣY 49334

Y= = = 2902 gramas.
𝑛𝑛 17
Para calcular a variância do peso ao nascer, precisamos somar os desvios quadráticos entre
cada peso ao nascer observado e o peso médio ao nascer. Os cálculos estão resumidos na
tabela 9-15. A variância do peso ao nascer é

Σ(Y − Y� )2 7767660
𝑠𝑠𝑦𝑦2 = = = 485478,8
𝑛𝑛 − 1 16
Tabela 9-15 Variância do peso ao nascer
Número de identificação do bebê Peso ao nascer (gramas) �)
(𝐘𝐘 − 𝐘𝐘 �)𝟐𝟐
(𝐘𝐘 − 𝐘𝐘
1 1895 -1007 1014049
2 2030 -872 760384
3 1440 -1462 2137444
4 2835 -67 4489
5 3090 188 35344
6 3827 925 855625
7 3260 358 128164
8 2690 -212 44944
9 3285 383 146689
10 2920 18 324
11 3430 528 278784
12 3657 755 570025
13 3685 783 613089
14 3345 443 196249
15 3260 358 128164
16 2680 -222 49284
17 2005 -897 804609
ΣY = 49334 �) = 0
Σ(Y − Y Σ(Y − �
Y)2 = 7767660

� )(Y−Y
Σ(X−X �)
Em seguida, calculamos a covariância cov (x, y) = . Para calcular a
𝑛𝑛−1
covariância da idade gestacional e do peso ao nascer, precisamos multiplicar o desvio da idade
gestacional média pelo desvio do peso ao nascer médio (ou seja, (X − � X)(Y − �
Y)) para cada
participante. Os cálculos estão resumidos na tabela 9-16. Observe que nós simplesmente
copiamos os desvios da idade gestacional média e do peso médio ao nascer nas duas tabelas
anteriores, em colunas da tabela a seguir e multiplicamos valores correspondentes. A
� )(Y−Y
Σ(X−X �)
covariância da idade gestacional e do peso ao nascer é cov (x, y) = =
𝑛𝑛−1
28768,4
= 1798,0.
16
Tabela 9-16 Covariância da idade gestacional e do peso ao nascer
Número de identificação do bebê �)
(𝐗𝐗 − 𝐗𝐗 �)
(𝐘𝐘 − 𝐘𝐘 �)(𝐘𝐘 − 𝐘𝐘
(𝐗𝐗 − 𝐗𝐗 �)

1 -3,7 -1007 3725,9


2 -2,4 -872 2092,8
3 -9,1 -1462 13304,2
4 1,7 -67 -113,9
5 -2,7 188 -507,6
6 4,0 925 3700,0
7 1,9 358 680,2
8 -1,1 -212 233,2
9 2,5 383 957,5
10 -0,1 18 -1,8
11 0,1 528 52,8
12 3,0 755 2265,0
13 1,3 783 1017,9
14 1,3 443 575,9
15 2,7 358 966,6
16 -0,4 -222 88,8
17 0,3 -897 -269,1
Σ(X − �
X)(Y − �
Y) = 28768,4

Agora, calculamos o coeficiente de correlação amostral.

cov(𝑥𝑥, 𝑦𝑦) 1798,0 1798,0


𝑟𝑟 = = = = 0,82.
�𝑠𝑠𝑥𝑥2 𝑠𝑠𝑦𝑦2 �10,0 × 485478,8 2203,4

O coeficiente de correlação amostral é positivo, como esperado, e forte (ou seja, próximo de 1).
Novamente, a amplitude do coeficiente de correlação amostral, r, está entre -1 e +1. Na prática,
correlações significativas (ou seja, correlações que são clinicamente ou virtualmente
importantes) podem ser tão pequenas quanto 0,4 (ou -0,4) para associações positivas (ou
negativas). Existem testes estatísticos para determinar se uma correlação observada é
estatisticamente significativa ou não (ou seja, estatística e significativamente diferente de zero).
Procedimentos para testar se uma correlação de amostra observada sugere uma correlação
estatisticamente significativa são descritos em detalhe em Kleinbaum, Kupper e Muller.

A análise de regressão é uma técnica bem geral e amplamente aplicada. Focamos, novamente,
na estrutura conceitual geral e, de certa forma especificamente, na aplicação da análise de
regressão para avaliar e explicar a confusão e também para avaliar a modificação de efeito. Os
leitores interessados devem consultar Kleinbaum, Kupper e Muller para obter mais detalhes
sobre a análise de regressão e suas muitas aplicações.1

Primeiro, apresentamos um cenário simples para estabelecer a notação e os princípios gerais e,


em seguida, revisitamos os exemplos anteriores. Suponha que queiramos avaliar a associação
entre colesterol total e índice de massa corporal (IMC). Nesta aplicação, o colesterol total é a
variável dependente e o IMC é a variável independente. Podemos expandir esta análise e
considerar outros prognosticadores potenciais ou variáveis independentes associadas com o
colesterol total, como idade, sexo e tabagismo. Quando existem mais variáveis independentes,
elas são designadas x1, x2, …, xp. Considerando apenas o IMC, y = colesterol total e x = IMC.

Quando existe uma única variável dependente e uma única variável independente, a análise é
chamada de análise de regressão linear simples. Esta análise presume que existe uma
associação linear entre as duas variáveis. (Se existir a hipótese de uma relação diferente, como
uma relação curvilínea ou exponencial, análises de regressão alternativas são realizadas.) A
figura 9–7 exibe dados sobre o IMC e o colesterol total medidos em uma amostra de n = 20
participantes. O IMC médio é de 27,4 kg/m2 com um desvio padrão de 3,7 (ou seja, sx = 3,7). O
nível médio de colesterol total é de 205,9 mg/dl com um desvio padrão de 30,8 (ou seja, sy =
30,8).

Figura 9-7 Diagrama de dispersão do IMC e do colesterol total


Y = Colesterol total

X = IMC

A figura 9–7 mostra uma associação positiva ou direta entre o IMC e o colesterol total.
Participantes com IMC mais baixos têm uma probabilidade maior de terem níveis de colesterol
total mais baixos; participantes com IMC mais altos têm uma probabilidade maior de terem níveis
de colesterol total mais altos. A correlação entre IMC e colesterol total é r = 0,78. Em contraste,
suponha que examinemos a associação entre IMC e colesterol HDL. A figura 9–8 é um diagrama
de dispersão do IMC e colesterol HDL medidos em uma amostra de n = 20 participantes. A
correlação entre IMC e colesterol HDL é r = -0,72. O nível médio de colesterol HDL é de 47,4
mg/dl com um desvio padrão de 12,1 (ou seja, sy = 12,1).
Figura 9-8 Diagrama de dispersão do IMC e do colesterol HDL

Y = Colesterol HDL

X = IMC

A figura 9–8 mostra uma associação negativa ou inversa entre o IMC e o colesterol HDL.
Participantes com IMC mais baixos têm uma probabilidade maior de terem níveis de colesterol
HDL mais altos; participantes com IMC mais altos têm uma probabilidade maior de terem níveis
de colesterol HDL mais baixos.

Na análise de regressão linear simples, estimamos a equação da linha que melhor descreve a
associação entre a variável independente e a variável dependente. A equação de regressão
linear simples é

𝑦𝑦� = 𝑏𝑏0 + 𝑏𝑏0 𝑥𝑥,


onde 𝑦𝑦� é o valor previsto ou esperado do resultado, x é a variável independente ou o
prognosticador, b0 é o ponto estimado de intersecção com o eixo y e b1 é o declive estimado. O
ponto de intersecção com o eixo y e o declive são estimados a partir dos dados da amostra e
minimizam a soma das diferenças quadráticas entre os valores observados (y) e previstos (𝑦𝑦�) do
resultado — ou seja, as estimativas minimizam Σ(𝑦𝑦� − 𝑦𝑦)2 . Essas diferenças são chamadas de
residuais. As estimativas do ponto de intersecção com o eixo y e o declive minimizam a soma
dos resíduos quadráticos e são chamadas de estimativas dos mínimos quadráticos. O ponto de
intersecção com o eixo y é o valor da variável dependente (y) quando a variável independente
(x) é zero. O declive é a mudança esperada na variável dependente (y) relativa a uma mudança
de uma unidade na variável independente (x).

As estimativas dos mínimos quadráticos do ponto de intersecção com o eixo y e do declive são
calculadas da seguinte forma:

𝑠𝑠𝑦𝑦
𝑏𝑏1 = 𝑟𝑟 � − 𝑏𝑏1 X
e 𝑏𝑏0 = Y �,
𝑠𝑠𝑥𝑥
onde r é o coeficiente de correlação amostral, �
Xe�
Y são as médias; sx e sy são os desvios padrão
da variável independente x e da variável dependente y, respectivamente.

As estimativas dos mínimos quadráticos dos coeficientes de regressão, b0 e b1, descrevendo a


relação entre o IMC e o colesterol total são b0 = 28,07 e b1 = 6,49. Isso é calculado da seguinte
forma:

𝑠𝑠𝑦𝑦 30,8
𝑏𝑏1 = 𝑟𝑟 = 0,78 = 6,49 e
𝑠𝑠𝑥𝑥 3,7
� − 𝑏𝑏1 X
𝑏𝑏0 = Y � = 205,9 − 6,49(27,4) = 28,07.

A estimativa do ponto de intersecção com o eixo y (b0 = 28,07) representa o nível de colesterol
total estimado quando o IMC for zero. Já que um IMC = 0 é irrelevante, o ponto de intersecção
com o eixo y não é informativo. A estimativa do declive (b1 = 6,49) representa a mudança no
colesterol total relativo à mudança de uma unidade no IMC. Por exemplo, se compararmos dois
participantes cujos IMC variam em apenas uma unidade, esperaríamos que o nível de colesterol
total deles tenha uma diferença de aproximadamente 6,49 mg/dl (em que a pessoa com o IMC
mais alto tenha colesterol total mais alto). A equação da linha de regressão é

𝑦𝑦� = 28,07 + 6,49 IMC.


A equação de regressão pode ser usada para estimar o colesterol total de um participante como
função do IMC dele. Por exemplo, suponha que um participante tenha um IMC de 25.
Estimaríamos que seu colesterol total seja 28,07 + 6,49(25) = 190,32 mg/dL. A equação também
pode ser usada para estimar o colesterol total para outros valores de IMC. No entanto, a equação
só deve ser usada para estimar níveis de colesterol para pessoas que tenham o IMC na faixa
dos dados usados para gerar a equação de regressão. Em nossa amostra, o IMC varia entre 20
e 32; portanto, a equação só deve se usada para gerar estimativas do colesterol total para
pessoas com IMC nesta faixa.

Existem testes estatísticos que podem ser realizados para avaliar se os coeficientes de regressão
estimados (b0 e b1) fornecem evidências de que os respectivos coeficientes na população sejam
estatística e significativamente diferentes de zero. O teste de maior interesse normalmente é H0:
β1 = 0 contra H1: β1 ≠ 0, onde β1 é o declive populacional. Se o declive populacional for
significativamente diferente de zero, concluímos que existe uma associação estatisticamente
significativa entre as variáveis independente e dependente. O teste de significância para o declive
é equivalente ao teste de significância para a correlação. Esses testes são conduzidos na maioria
dos pacotes de computação estatística (omitimos os detalhes aqui). A figura 9–9 mostra a linha
de regressão sobreposta estimada no diagrama de dispersão do IMC e do colesterol total.

Figura 9-9 Regressão linear simples relacionando o colesterol total ao IMC


Y = Colesterol total

X = IMC

As estimativas dos mínimos quadráticos dos coeficientes de regressão, b0 e b1, descrevendo a


relação entre o IMC e o colesterol HDL são b0 = 111,79 e b1 = -2,35. Isso é calculado da seguinte
forma:

𝑠𝑠𝑦𝑦 12,1
𝑏𝑏1 = 𝑟𝑟 = −0,72 = 2,35 e
𝑠𝑠𝑥𝑥 3,7
� − 𝑏𝑏1 X
𝑏𝑏0 = Y � = 47,4 − (−2,35)(27,4) = 111,79.

Novamente, o ponto de intersecção com o eixo y não é informativo porque um IMC = 0 é


irrelevante. A estimativa do declive (b1 = 22,35) representa a mudança esperada no colesterol
HDL relativa à mudança de uma unidade no IMC. Se compararmos dois participantes cujos IMC
variam em apenas uma unidade, esperaríamos que o nível de colesterol HDL deles tivesse uma
diferença de aproximadamente 2,35 mg/dl (em que a pessoa com o IMC mais alto tivesse o
colesterol HDL mais baixo). A figura 9–10 mostra a linha de regressão sobreposta no diagrama
de dispersão do IMC e do colesterol HDL.
Figura 9-10 Regressão linear simples relacionando o colesterol HDL ao IMC
Y = Colesterol HDL

X = IMC

Em análise de regressão linear, a variável dependente é contínua. Existe uma suposição de que
a distribuição da variável dependente (y) em cada valor da variável independente (x) seja
aproximadamente distribuído normalmente. A variável independente pode ser uma variável
contínua (por exemplo, o IMC) ou uma variável dicotômica (também chamada de variável
indicadora). Variáveis dicotômicas (ou indicadoras) são normalmente codificadas como 0 ou 1,
onde o 0 é atribuído a participantes que não apresentam um fator de risco, exposição ou
característica particular e 1 é atribuído a participantes que apresentam o fator de risco, exposição
ou característica particular.

No exemplo 9.2, consideramos os dados de um ensaio clínico projetado para avaliar a eficácia
de um novo medicamento para aumentar o colesterol HDL. 100 pacientes se inscreveram no
estudo e foram designados aleatoriamente para receber um medicamento novo ou um placebo.
Estatísticas resumidas sobre o resultado primário, colesterol HDL, foram exibidas na tabela 9–7.
Comparamos os níveis médios de HDL entre grupos de tratamento usando um teste t de duas
amostras independentes. A análise de regressão também pode ser usada para comparar os
níveis médios de HDL entre tratamentos. O colesterol HDL é a variável dependente contínua e o
tratamento (novo medicamento contra placebo) é a variável independente. Uma equação de
regressão linear simples é estimada como

𝑦𝑦� = 39,21 + 0,95𝑥𝑥,


onde 𝑦𝑦� é o nível estimado de HDL e x é uma variável dicotômica (ou indicadora) refletindo o
tratamento designado. Neste exemplo, x é codificado como 1 para participantes que receberam
o novo medicamento, e como 0 para participantes que receberam o placebo. A estimativa do
ponto de intersecção com o eixo y é b0 = 39,21. O ponto de intersecção com o eixo y é o valor
esperado de y (colesterol HDL) quando x é 0. Neste exemplo, x = 0 se refere ao grupo do placebo.
Portanto, o ponto de intersecção com o eixo y é exatamente igual ao nível médio de HDL no
grupo do placebo. O declive é b1 = 0,95. O declive representa a mudança em y (colesterol HDL)
relativa a uma mudança de uma unidade em x. A mudança de uma unidade em x representa
uma diferença em atribuição de tratamento (placebo contra novo medicamento). O declive
representa a diferença em níveis médios de HDL entre grupos de tratamento (veja a tabela 9–7;
o HDL médio no grupo do placebo é 39,21 e a diferença nas médias entre os grupos do placebo
e do novo medicamento é 0,95 mg/dl).

Nas seções 9.4 e 9.5, ampliamos o conceito de regressão simples para incluir variáveis
independentes adicionais. Na seção 9.4, introduzimos a análise de regressão linear múltipla, que
se aplica a situações em que o resultado é contínuo e há mais de uma variável independente.
As variáveis independentes podem ser contínuas ou dicotômicas (indicadoras). Na seção 9.5,
introduzimos a análise de regressão logística múltipla, que se aplica a situações em que o
resultado é dicotômico (por exemplo, DCV incidental).

Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística


em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.

Das könnte Ihnen auch gefallen