Sie sind auf Seite 1von 129

Sum ario

1 Deni c oes e Conceitos 1.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 BioEstat stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Os Conceitos da Bioestat stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Experimenta c ao Biom etrica 2.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . 2.2 O Racioc nio Indutivo da Biometria . . . . . 2.3 Delineamentos Experimentais . . . . . . . . . 2.3.1 Etapa de um levantamento estat stico 2.4 Aspectos Estat sticos dos Estudos Etiol ogicos 2.4.1 Estudo de Caso-Controle . . . . . . . 2.4.2 Estudo de Coorte . . . . . . . . . . . . 2.4.3 Ensaios Cl nicos Aleatorizados . . . . 2.4.4 Estudos Descritivos . . . . . . . . . . 1 1 1 2 7 7 7 7 8 11 11 13 16 17 20 20 20 21 23 24 29 29 32 35 41 41 41 42 43 44 46 46 47 48 49 49 50 50 52

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

3 Estat stica Descritiva 3.1 Organiza c ao de Dados Estat sticos . . . . . . . . . . . 3.1.1 Normas para a Apresenta c ao Tabular de Dados 3.2 Distribui c ao de Frequ encias . . . . . . . . . . . . . . . 3.3 Gr acos . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Diagramas . . . . . . . . . . . . . . . . . . . . . 3.4 Medidas Descritivas . . . . . . . . . . . . . . . . . . . 3.4.1 Medidas de Tend encia Central ou de Posi c ao . 3.4.2 Medida de Variabilidade ou de Dispers ao . . . 3.4.3 Medidas Separatrizes . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

4 No c oes de Probabilidade 4.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Espa co Amostral e Eventos . . . . . . . . . . . . . . . . . 4.3 Deni c ao Axiom atica de Probabilidade . . . . . . . . . . . 4.4 Propriedades Fundamentais . . . . . . . . . . . . . . . . . 4.5 Probabilidade Condicional . . . . . . . . . . . . . . . . . . 4.6 Independ encia Estat stica . . . . . . . . . . . . . . . . . . 4.7 Vari avel Aleat oria Discreta e Cont nua . . . . . . . . . . . 4.7.1 Esperan ca Matem atica de uma Vari avel Aleat oria 4.7.2 Variabilidade de uma Vari avel Aleat oria . . . . . . 5 Distribui co es de Probabilidade 5.1 Distribui c ao Binomial . . . . 5.2 Distribui c ao de Poisson . . . 5.3 Distribui c ao Normal . . . . . 5.4 Distribui c ao Exponencial . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

6 Infer encia Estat stica 6.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 No c oes de Amostragem . . . . . . . . . . . . . . . . . . . . 6.2.1 Plano de Amostragem . . . . . . . . . . . . . . . . . 6.2.2 Amostragem Aleat oria Simples (AAS) . . . . . . . . 6.2.3 Amostragem Aleat oria Simples Sistem atica (AASist) 6.2.4 Amostragem Aleat oria por Conglomerados (AAC) . 6.2.5 Amostragem Aleat oria Estraticada (AAE) . . . . . 6.3 Distribui c ao Amostral . . . . . . . . . . . . . . . . . . . . . 6.3.1 Distribui c ao Amostral da M edia . . . . . . . . . . . 6.3.2 Distribui c ao Amostral da Diferen ca de M edias . . . 6.3.3 Distribui c ao Amostral da Propor c ao . . . . . . . . . 6.4 Intervalo de Conan ca . . . . . . . . . . . . . . . . . . . . . 6.4.1 Intervalo de Conan ca para M edia . . . . . . . . . . 6.4.2 Intervalo de Conan ca para Diferen ca de M edias . . 6.4.3 Intervalo de Conan ca para Propor c ao . . . . . . . . 6.5 Tamanho da Amostra . . . . . . . . . . . . . . . . . . . . . 6.5.1 M etodo Simples . . . . . . . . . . . . . . . . . . . . 6.5.2 M etodo Inferencial . . . . . . . . . . . . . . . . . . . 6.6 Testes de Hip oteses . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 Constru c ao de um Teste de Hip otese . . . . . . . . . 6.6.2 O p -valor . . . . . . . . . . . . . . . . . . . . . . . . 6.6.3 Teste de Hip otese para M edia . . . . . . . . . . . . . 6.6.4 Teste de Hip otese para Propor c ao . . . . . . . . . . 7 An alise em Tabelas 2x2 e LxC 7.1 Tabelas de Conting encia . . . . . . . . . . . . 7.2 Teste de Independ encia e de Homogeneidade 7.3 An alise de Res duos em Tabelas 2L . . . . . 7.4 Medidas do Efeito em Tabelas 22 . . . . . . 7.4.1 Risco Relativo (RR) . . . . . . . . . . 7.4.2 Odds-Ratio (OR) . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

53 53 54 54 55 56 56 57 59 59 62 63 64 64 65 65 66 66 67 71 71 72 73 76 78 78 78 83 85 85 87 90 90 90 91 92 92 93 95 96 96 98 98 99 100 100 102 102 103 105 107 108

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

8 Compara c oes Entre Grupos 8.1 Introdu c ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Normalidade dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Faixas de Refer encia (M etodo de Gauss) . . . . . . . . . . . . 8.3 Resposta Dicot omica: Amostras Independentes . . . . . . . . . . . . 8.3.1 Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . 8.3.3 Teste z para Compara c ao de Propor c oes . . . . . . . . . . . . 8.4 Resposta Dicot omica: Amostras Pareadas . . . . . . . . . . . . . . . 8.4.1 Teste McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Resposta Cont nua - Teste de M edias para Amostras Independentes 8.5.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Teste z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Resposta Cont nua - Teste de M edias para Amostras Pareadas . . . 8.6.1 Teste t-pareado . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7 Testes N ao-Param etricos . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Teste Mann-Whitney para Amostras Independentes . . . . . 8.7.2 Teste Kruskal-Wallis para k Amostras Independentes . . . . . 8.7.3 Teste de Wilcoxon para Amostras Pareadas . . . . . . . . . . 8.7.4 Teste Friedman para k Amostras Pareadas . . . . . . . . . . 8.7.5 Outros Testes N ao-Param etricos . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

9 An alise de Vari ancia 9.1 ANOVA para Experimentos ao Acaso . 9.2 Teste de Compara c oes M ultiplas . . . . 9.2.1 N umero Igual de Repeti c oes . . . 9.2.2 N umero Diferente de Repeti c oes Refer encias Bibliogr acas Formul arios

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

111 111 114 114 116 120 122

Funda c ao Universidade Estadual de Maring a - UEM


Centro de Ci encias Exatas Departamento de Estat stica - DES

Bioestat stica
Centro de Ci encias da Sa ude Programa de P os-Gradua c ao - Mestrado em Enfermagem

Prof. Dr. Robson Marcelo Rossi www.des.uem.br/docentes/robson

Cap tulo 1

Deni c oes e Conceitos


1.1 Introdu c ao

O objetivo deste cap tulo e ilustrar o papel que conceitos e t ecnicas estat sticas t em na forma c ao do especialista na area biom etrica, na sua pr atica prossional e de modo especial no avan co do conhecimento nesta area espec ca. Este objetivo ser a alcan cado principalmente atrav es da apresenta c ao e discuss ao dos resultados de estudos relevantes. Atrav es destes exemplos, argumenta-se que conceitos estat sticos t em importante papel a desempenhar, tanto no estudo da sa ude de popula c oes, como nos tratamentos individuais.

1.2

BioEstat stica

A m a utiliza c ao de dados nas areas das ci encias, com interpreta c oes err oneas ou mal intencionadas, tem produzido um grande ceticismo em rela c ao ` a estat stica. Podemos encontrar muitos professores, cl nicos ou mesmo prossionais de ci encias b asicas, que acham que bom senso e suciente para tratar desses dados, que qualquer coisa que exija prova estat stica n ao pode ter valor pr atico ou que procurar ao um matem atico se tiverem algum problema estat stico em seu trabalho. importante compreender, no entanto, que cada vez que se toma a m E edia de duas leituras de pipeta, por exemplo, ou o n umero m edio de dias de interna c ao no hospital de pacientes com determinada doen ca, se est a usando um m etodo estat stico. Do mesmo modo, usamos m etodos estat sticos para concluir que a press ao arterial do paciente est a normal ou que um tratamento cir urgico e melhor que outro. Convencionou-ser chamar de Bioestat stica o conjunto de conceitos e m etodos cient cos usados no tratamento da variabilidade nas ci encias da sa ude, biol ogicas e farmac euticas. A Bioestat stica fornece m etodos para se tomar decis oes otimas na presen ca de incerteza, estabelecendo faixas de conan ca para a ec acia dos tratamentos e vericando a inu encia de fatores de risco no aparecimento de doen cas. A enfase crescente do papel dos m etodos quantitativos torna imperativo que o prossional tenha algum conhecimento de estat stica. O estudante aprende na escola o melhor m etodo de diagnose e terap eutica; depois de formado depender a necessariamente de trabalhos apresentados em reuni oes, jornais e revistas m edicas, para aprender novos m etodos de terapia, assim como os progressos em diagnose e t ecnica cir urgica. Portanto, dever a estar apto a avaliar por si pr oprio os resultados de outros pesquisadores, dever a decidir quando uma nova t ecnica ou m etodo pode substituir os antigos. Dever a estar apto a responder ` a pergunta da m ae que o consulta sobre a vacina mais recente e, com a mesma seguran ca, aconselh a-la em rela c ao ` a vacina antip olio ou antisarampo. Dever a estar apto a dar ` a fam lia do paciente seguran ca quanto ao diagn ostico, o que pode depender de sua capacidade de avaliar adequadamente os resultados de exames laboratoriais, como tamb em de seu conhecimento sobre a rela c ao da idade, sexo e outras condi c oes do paciente a uma determinada doen ca. Os novos conhecimentos vir ao atrav es do trabalho de pesquisa realizado por ele pr oprio ou por outros. Deve, portanto, ser capaz de selecionar, da massa de informa c oes, aquelas que forem v alidas e que resistirem a testes cient cos r gidos. Deve desenvolver um ceticismo sadio em rela c ao a tudo que l e. Uma no c ao b asica em planejamentos experimentais referentes ` a pesquisa m edica, e o reconhecimento de que os indiv duos diferem n ao apenas uns dos outros, mas tamb em em rela c ao a si pr oprios, de dia para 1

1.3

Os Conceitos da Bioestat stica

ROSSI, Robson M. 2

dia ou mesmo de hora para hora. Uma certa quantidade de varia c ao e normal, mas a quest ao que desaa o m edico e determinar quando uma varia c ao espec ca se torna patol ogica (referente ` a doen ca). Para isso, o estudante deve aprender como medir a varia c ao em indiv duos normais e denir qual e o limite de varia c ao altamente normal. Deve aprender que h a algum erro aleat orio presente em cada medida ou contagem feita. E improv avel que duas contagens sucessivas de gl obulos, feitas na mesma amostra de sangue, sejam id enticas. Quando, por em, uma diferen ca se torna maior que o erro de mensura c ao? Para tratar seu paciente do melhor modo poss vel, o m edico deve saber responder ` a quest oes como essa. Para cada medida ou determina c ao fornecida pelo laborat orio, o m edico deve conhecer a varia c ao que e parte do pr oprio m etodo, para saber quando uma dada varia c ao representa uma mudan ca real no paciente. Sempre que novos m etodos de terapia s ao introduzidos, e necess ario saber se s ao realmente superiores, isto e, mais ecientes aos velhos m etodos. Ser a necess ario fazer-se a avalia c ao cr tica do estudo experimental, vericando principalmente se as medidas foram realizadas de modo a produzir resultados dedignos, se o fator em prova foi o u nico fator de diferen ca entre o grupo experimental e o grupo controle, se a diferen ca entre os resultados obtidos nos dois grupos foi maior que aquela que poderia ser atribu da ao acaso. Apenas depois da avalia c ao, atrav es de t ecnicas estat sticas adequadas, da dedignidade dos resultados, comparabilidade dos grupos experi encia e controle e, signic ancia da diferen ca encontrada e que podemos tirar as conclus oes relativas ao novo m etodo. O n umero de falhas encontradas em publica c oes m edicas enfatiza a necessidade de uma avalia c ao cr tica da literatura. Para ajudar o estudante a desenvolver tal atitude s ao necess arios certos conceitos estat sticos b asicos e uma certa familiaridade com a terminologia mais usada. M etodos estat sticos s ao essenciais no estudo de situa c oes em que as vari aveis de interesse est ao sujeitas, inerentemente, a utua c oes aleat orias. Este e o caso da area da sa ude. Mesmo tomando-se um grupo de pacientes homog eneos, observa-se grande variabilidade, por exemplo, no tempo de sobrevida ap os um tratamento adequado. Dosagens de caracter sticas hematol ogicas utuam n ao s o entre indiv duos, como tamb em no mesmo indiv duo em ocasi oes diferentes. Na realidade, h a varia c oes entre diferentes pacientes para qualquer vari avel de interesse cl nico. Portanto, para se estudar problemas cl nicos, e necess aria uma metodologia capaz de tratar a variabilidade de forma adequada. Deve-se notar, entretanto, que ao tratar um paciente, o m edico se vale da experi encia de eventos anteriores, vivenciada pessoalmente ou transmitida por outros atrav es de livros e artigos. Assim, a Estat stica pode ser vista como ferramenta de organiza c ao e valida c ao do conhecimento m edico. Nas areas da sa ude e biol ogica coletam-se dados de pessoas, de animais experimentais e de fen omenos f sicos e qu micos. Interessam aos pesquisadores dessas areas dados sobre mortalidade infantil, eci encia de medicamentos, incid encia de doen cas, causas de morte etc. Os dados referem-se a vari aveis, classicadas como qualitativas, ordinais e quantitativas. O dado qualitativo est a fortemente presente nas ci encias da sa ude. Caracter sticas de pessoas, ra ca, doen cas, etc, s ao frequentemente medidas como vari aveis categ oricas. No entanto, merc e de sua tradi c ao escol astica, as ci encias da sa ude ainda mostram prefer encia pelas medidas cont nuas de alta precis ao: medir em miligramas, mil metros etc. Engajado no conhecimento do bi ologo, o cientista da sa ude tende a isentar-se de reex ao sobre a import ancia das estrat egias de mensura c ao e an alise providas por outras ci encias, como a estat stica.

1.3

Os Conceitos da Bioestat stica

Para que serve a Estat stica? Imagine um m edico e um farmac eutico querendo saber se um rem edio em desenvolvimento e bom ou ruim. Para testar o rem edio, e preciso PLANEJAR muito bem o experimento, COLETAR corretamente os dados, ANALISAR com muito cuidado e rigor os resultados para poder DIVULGAR de forma honesta e com conan ca no que est a dizendo. Imagine o perigo de uma pesquisa mal feita num assunto t ao importante! Bom, para n ao colocar a vida de ningu em em risco, e preciso tomar muitos cuidados. Dentro do planejamento saber claramente a respeito de algumas quest oes: O rem edio ser a testado em quem? Homens? Jovens? Mulheres? Obesos? Idosos? Crian cas?... Quantas pessoas ser ao necess arias para testar? Basta testar em uma ou duas pessoas? ou ser a melhor testar em 10 pessoas? 30? 50? 2.000? como saber? H a dinheiro para testar em tantas pessoas?

1.3

Os Conceitos da Bioestat stica

ROSSI, Robson M. 3

E se houver dois grupos de pessoas? Para o grupo de volunt ario d a-se o rem edio a ser testado; para o outro grupo, d a-se um rem edio de mentirinha, chamado placebo, mas n ao se conta a verdade para ningu em. Ser a que h a diferen ca nos resultados de um grupo para outro? Mas se o rem edio foi testado s o com um grupo de pessoas, em geral volunt arios, como e que depois pode-se armar que este rem edio vai ser certeza absoluta? bom para todo mundo? E A estat stica pode ser utilizada simplesmente para descrever conjuntos de dados, mostrando sua distribui c ao, m edia, dispers oes, etc. Mas, pode ir al em, pode estar presente nas diversas etapas de uma pesquisa, desde o seu planejamento, at e na interpreta c ao de seus resultados, podendo ainda, inuenciar na condu c ao do processo da pesquisa. Deni c ao: Estat stica e um conjunto de conceitos e m etodos cient cos para a coleta, a organiza c ao, a descri c ao, a an alise e a interpreta c ao de dados experimentais, que permitem conclus oes v alidas e tomadas de decis oes razo aveis. Classica c ao: Usualmente, a estat stica e dividida em tr es grandes areas que atuam em conjunto: Planejamentos de Experimentos e Amostragem, Estat stica Descritiva e, Estat stica Inferencial. a parte que tem por objetivo planejar a pesquisa e se Amostragem e Planejamento de Experimentos : E preocupa com o mecanismo da coleta de dados. a parte que tem por objetivo organizar, apresentar e sintetizar dados observados Estat stica Descritiva : E de determinada popula c ao, sem preten c oes de tirar conclus oes de car ater extensivo. a parte que, baseando-se em estudos realizados sobre os dados de Estat stica Inferencial ou Indutiva : E uma amostra, procura inferir, induzir ou vericar leis de comportamento da popula ca o da qual a amostra foi retirada. A estat stica inferencial tem sua estrutura fundamentada na teoria matem atica das probabilidades. tamb E, em denida como um conjunto de m etodos para a tomada de decis oes.

Figura 1.1: Processo Cient co na An alise Estat stica.

1.3

Os Conceitos da Bioestat stica

ROSSI, Robson M. 4

A Estat stica est a presente em diversas areas e em diversas abordagens. Podemos citar alguns exemplos de suas aplica c oes: 1. Elei c oes : An uncio pr evio, em termos percentuais, de que o candidato A e o prov avel vencedor. (A previs ao pode ser feita ap os a contagem de 2% dos votos); 2. Marketing : Ajudar a decidir que tipo de modelo de carro deve ser lan cado no mercado; ou perfume, bolacha, sorvete, roupas, etc. Onde deve ser lan cado; Avalia c ao de campanhas publicit arias, etc; 3. Ind ustria : Teste de l ampadas ash para m aquinas fotogr acas. O fabricante deve saber com anteced encia se o lote fabricado pode ser colocado no mercado ou n ao (Ele pode estar sujeito a riscos ! O Recall e um exemplo, onde ocorre a retirada ou troca de produtos devido a uma falha em algum est agio de fabrica c ao n ao detectado pelo controle de qualidade); 4. Meteorologia : Informa que a chance de chuva para hoje e de 30% (utiliza c ao de m etodos estat sticos de previs ao); 5. Economia : Decis ao na compra ou venda de a c oes Risco; Desenvolver um produto banc ario que d e mais lucro para o banco; Prever a arrecada c ao de impostos municipais, etc; 6. Institui c oes banc arias/cr edito : An alise de cr edito; Desenvolvimento de modelos matem aticos para seguro de Vida e/ou de autom oveis; Minera c ao de dados e busca de potenciais clientes, etc; ndices : Censo; Taxa de desemprego; Ina c ao; Custo de vida; Valor do sal ario m nimo, cesta 7. IBGE/ b asica, ndices de pre cos-INPC; Taxa de mortalidade/Natalidade; Indices de analfabetismo, desenvolvimento de modelos matem aticos para prever se uma popula c ao vai aumentar ou diminuir; fornecer informa c oes que ajudam no planejamento urbano; 8. Farm acia/Medicina/sa ude p ublica : Analisar a entrada de um novo medicamento, vericando a sua ec acia; Ajudando a estabelecer n veis e padr oes para testes cl nicos; planejar e realizar experimentos com grupos de controle, para avalia c ao de tratamentos; desenvolvimento de estudos sobre a distribui c ao e incid encia de doen cas; Analisar o comportamento de epidemias, doen cas, c aries, seus tratamentos e controles, desnutri c ao; Estabelecer padr oes/curvas que servir ao como par ametros de compara c ao (idade vs altura, por exemplo); 9. Pesquisas biol ogicas : Estudo sobre h abitos migrat orios de certo animal; Estima c ao do tamanho populacional de certas esp ecies; 10. Experimenta c ao agr cola : Estudos de uma nova variedade de semente (modica c ao gen etica) ou de fertilizantes; 11. Telecomunica c oes : A utiliza c ao da Internet gera informa c oes preciosas de clientes; Controle de tr afego telef onico, chamadas e consumo, for cam a utiliza c ao de modelos estat sticos complexos; Analisar desempenho de diversos programas de televis ao, r adio, jornais, revistas, etc; 12. Esportes : Comparar o aproveitamento dos atletas, acompanhar o desempenho progressivo, etc; 13. Artes : Analisar estilos liter arios, de pintura, escultura; Atribui c ao de obra ao autor; Lexologia, etc; 14. Experimenta c ao zoot ecnica : Estudo do desenvolvimento de um animal e an alise de fatores que inuenciam neste desenvolvimento tais como, alimenta c ao, cativeiro e outros; Melhoramento gen etico; Pesquisas com vacinas animais entre outros; c oes de Pesquisas : O docente/pesquisador desenvolve novas metodologias de 15. Universidades e Institui an alise estat stica para mais variados problemas pr aticos e te oricos; Assessoria em pesquisas de outras areas, dando suporte tecnocient co para tomada de decis oes dentro da variabilidade instr nseca de cada problema auxiliando desde o planejamento at e a publica c ao de resultados. A revista SUPER INTERESSANTE, da Editora Abril, trouxe na edi c ao 271 de novembro de 2009 (pg. 84) a reportagem 6 raz oes para Acreditar que Estat stica e a Pross ao do Futuro, classicando-a como a pross ao dos sonhos, com base na declara c ao do economista Chefe da Google, Dr. Hal Varian, de que a estat stica ser a a pross ao de destaque dos pr oximos 10 anos.

1.3

Os Conceitos da Bioestat stica

ROSSI, Robson M. 5

A amostragem e naturalmente usada na vida di aria. Por exemplo, para vericar o tempero de um alimento em prepara c ao, pode-se provar (observar) uma pequena por c ao deste alimento. Desta forma, est a se fazendo uma amostragem, ou seja, extraindo do todo (popula c ao) uma parte (amostra), com o prop osito de avaliar (inferir) sobre a qualidade de tempero de todo o alimento. Nas pesquisas cient cas em que se quer conhecer algumas caracter sticas de uma popula c ao, tamb em e muito comum se observar apenas uma amostra de seus elementos e, a partir dos resultados dessa amostra, obter valores aproximados, ou estimativas, para as caracter sticas populacionais de interesse. Este tipo de pesquisa e usualmente chamado de levantamento por amostragem. Num levantamento por amostragem, a sele c ao dos elementos que ser ao observados, deve ser feita sob uma metodologia adequada, de tal forma que os resultados da amostra sejam informativos para avaliar caracter sticas de toda a popula c ao. A popula c ao pode ser formada por pessoas da fam lia, indiv duos de uma certa esp ecie, estabelecimentos industriais, ou qualquer outro tipo de elementos, cujas vari aveis que se pretende estudar sejam pass veis de serem mensuradas. Os elementos de uma popula c ao diferem entre si com respeito a fatores tais como: sexo, idade, medidas f sicas, cor, susceptibilidade a doen ca, agressividade, etc. Desta forma o padr ao de comportamento no qual o pesquisador esta interessado pode ser muito complicado pela grande variabilidade existente. Por estas raz oes, muitos trabalhos nas ci encias em geral tendem a ser de natureza comparativa, procurando lidar com as varia c oes inerentes. Popula c ao qualquer conjunto de elementos, tendo pelo menos uma vari E avel em comum (Pode ser nita ou innita). Censo Pesquisas utilizando todos os elementos da popula c ao. Obs. Desvantagem quando a popula c ao e muito grande Ex.: A popula c ao brasileira estimada em 2011: 196.655.014 (Fonte: IBGE - http://www.ibge.gov.br/paisesat ). Amostra qualquer subconjunto da popula E c ao. Pesquisas utilizando amostras da popula c ao denominam-se pesquisas por amostragem. Par ametros S ao certas caracter sticas populacionais espec cas que se deseja descrever. Estimativas dos Par ametros ou Estat stica S ao os valores calculados a partir dos dados da amostra, com o objetivo de avaliar par ametros desconhecidos, por exemplo, m edia amostral. Unidade de Amostragem a unidade a ser selecionada para se chegar aos elementos da popula E c ao. Pode ser os pr oprios elementos da popula c ao, ou, outras unidades f aceis de serem selecionadas e que, de alguma forma, estejam associadas aos elementos da popula c ao. Vari aveis S ao as caracter sticas medidas. As vari aveis apresentam variabilidade dentro da popula c ao. Podem ser qualitativas ou quantitativas. Vari aveis Qualitativas Quando seus valores forem expressos por atributos (n ao-num ericos). Nominal quando tem nome (ex.: Cor dos olhos, sexo, ra ca, consumo de alcool (sim, n ao), gostar de estudar ... etc). Ordinal quando tem ordem (ex.: classe social, grau de instru c ao, consumo de alcool (pouco, m edio, muito) ... etc). Vari aveis Quantitativas Quando seus valores podem ser descritos numericamente. Discreta quando seus valores resultam de contagem (ex.: n umero de lhos, n umero de reprova c oes, n umero de copos de alcool consumidos... etc). Cont nua quando seus valores resultam de medi c oes e podem assumir qualquer valor em um intervalo da reta (ex.: estatura, nota na prova, imc, quantidade de alcool consumido ... etc)

1.3

Os Conceitos da Bioestat stica

ROSSI, Robson M. 6

Exemplo 1.1. Com o objetivo de levantar conhecimento sobre algumas caracter sticas de homens com doen cas card acas de uma cl nica especializada de Maring a, no Paran a, decidiu-se pesquisar os pacientes com idade entre 40 e 70 anos. As caracter sticas de interesse eram: 1 N vel de instru c ao; 2 Peso; 3 Altura; 4 Idade; 5 Tabagismo; 6 Atividade f sica; 7 Taxa de glicose; 8 Taxa de colesterol s erico; 9 Press ao sangu nea diast olica/sist olica; 10 Uso de medicamentos de controle.

Cap tulo 2

Experimenta c ao Biom etrica


2.1 Introdu c ao

Na medicina como em outros campos da ci encia aplicada, o efeito geral da estat stica e tornar um observador mais cr tico e mais consciente quando, por falta de informa c ao segura, ele tem de agir com base em impress oes ou opini ao. Esta e a atitude cient ca, e o melhor modo de come car a adquir -la e procurar evid encias, e provar. Alguns princ pios dessa procura de evid encias ser ao estudadas neste cap tulo.

2.2

O Racioc nio Indutivo da Biometria

Quando realizamos um experimento, a observa c ao resultante e vista n ao como um resultado a esmo e irreprodut vel, mas como um resultado que poderia vir a ser obtido outras vezes, sempre que o experimento fosse repetido nas mesmas condi c oes. De fato, a generaliza c ao e feita sob a hip otese de que o resultado obtido e t pico de uma classe de experimentos similares e, se consegu ssemos repetir, exatemente, um experimento, uma u nica observa c ao constitui-se-ia em base suciente para fazermos arma c oes gerais. Na pr atica, obviamente, nunca podemos garantir que dois experimentos sejam exatamente iguais em cada min ucia de suas circunst ancias, de tal sorte que nunca podemos garantir resultados identicamente reprodut veis. As observa c oes v ao, de fato, variar em maior ou menor grau - aquilo que chamamos de erro experimental estar a presente - e, em lugar de um u nico resultado que se repete exatamente, teremos numerosos resultados que variam entre si, de acordo com o tamanho do erro experimental. As nossas generaliza c oes n ao podem ser absolutamente precisas: devem levar em considera c ao o erro experimental e conter, em si, um elemento de incerteza. Essa incerteza e caracter stica do racioc nio indutivo, e o grande problema no racioc nio do particular ao geral e levar em devida conta essa incerteza. Em Biologia, o problema da incerteza e muito s erio, pois organismos vivos e suas partes s ao coisas altamente vari aveis. Eles est ao inuenciados por uma riqueza de fatores - gen eticos, ambientais e de desenvolvimento - de tal modo que nenhuma situa c ao do sistema pode ser reproduzida exatamente; em geral elas n ao podem ser reproduzidas nem com muita aproxima c ao. Poucas (se e que algumas) circunst ancias de um experimento podem ser supostas triviais em seus efeitos sobre os resultados e raramente conseguimos identicar um ou dois fatores cujos controles reduziriam o erro experimental a propor c oes desprez veis. Efetivamente, com muita freq u encia o nosso problema e tentar distinguir um efeito que seja pouco maior do que o de outros fatores que provocam a varia c ao do sistema; devemos ent ao enfrentar o problema: Qual deve ser a dedignidade da mensura c ao? Ou mesmo: Ser a o efeito observado atribu vel ao fator em que estamos interessados, ou ser a conseq u encia de alguma outra causa de varia c ao que n ao pudemos reconhecer e certamente n ao pudemos controlar?

2.3

Delineamentos Experimentais

Muitos trabalhos em pesquisas m edicas s ao acometidos de v arios erros devido ao procedimento na coleta e no tratamento de dados. Um dos fen omenos mais comuns e a ocorr encia de diferen cas entre homens e mulheres, entre crian cas e adultos, entre as estaturas, pesos, cor dos olhos e comportamento de pessoas

2.3

Delineamentos Experimentais

ROSSI, Robson M. 8

da mesma ra ca, sexo e idade, entre diferentes amostras da mesma subst ancia qu mica pura. Todas essa diferen cas s ao coletivamente chamadas varia c ao e a estat stica pode ser descrita como ci encia de tratar a varia c ao. Os seres humanos s ao t ao innitamente vari aveis interna quanto o s ao externamente, mas algumas mat erias b asicas do curso m edico, como a Anatomia, parecem n ao reconhecer tal fato, deixando de destacar esse profundo sentido da varia c ao humana. A pseudoprecis ao anat omica, criando um conceito articial do corpo humano no in cio da carreira do estudante, parece que largamente partilham essa responsabilidade; e mesmo se todos os professores enfatizassem a import ancia da varia c ao, n ao iria ajudar muito, a n ao ser que o estudante adquirisse pr atica em enfrentar problemas que surgem da varia c ao - especialmente, pr atica na procura de evid encias e uma atitude cr tica em face dos assuntos que l e, ouve ou discute.

2.3.1

Etapa de um levantamento estat stico

a realizada: A. Planejamento experimental. Consiste no planejamento da pesquisa que ser Mainland, D. (1952) em Elementary medical statistics - The principles of quantitative medicine, sugere nove quest oes que constituem um roteiro valioso para desenvolvimento dessa atitude: 1. Quem?...(relativa ao pesquisador) 2. Para qu e?...(relativa ao objetivo da pesquisa) 3. O qu e?...(refere-se a pessoas, coisas ou fatos estudados) 4. Onde?...(refere-se ao local e ambiente) 5. Quando?...(refere-se ao tempo) 6. Como?...(relativa aos m etodos) as medidas) 7. Quanto?...(relativa ` a enumera c ao) 8. Quantos?...(relativa ` 9. Por qu e?...(referente ` a interpreta c ao causal) Tomadas as devidas precau c oes, alguns aspectos estat sticos dever ao ser analisados e o tipo de estudo adequado dever a ser abordado. Exemplo 2.1. Considere a seguinte hip otese: Associa c ao entre incid encia de luz solar e c ancer de mama. Compara c oes regionais, na antiga Uni ao sovi etica, mostraram correla c ao negativa entre incid encia de luz solar e de c ancer do seio: em locais de baixa luminosidade solar, foi encontrada alta incid encia deste tipo de neoplasia, e vice-versa. Em muitos pa ses, semelhante associa c ao tamb em foi detectada. A evid encia sugere, segundo os autores, que a vitamina D possa ter papel de relevo na redu c ao do risco de c ancer de mama, e estudos adicionais devem ser feitos para esclarecer a mat eria. (GOHAM et al, 1990). Os principais delineamentos experimentais para a realiza c ao destas pesquisas ser ao: 1. Quem? GOHAM et al. 2. Para qu e? Vericar a associa c ao entre a taxa de incid encia de luz solar sobre indiv duos em diferentes lugares com luminosidades desiguais e a incid encia de c ancer de mama. 3. O qu e? N umero de mulheres com c ancer de mama e incid encia de luminosidade no local destas onde habitam estas mulheres. Pelo fato de quanto maior a luminosidade maior a s ntese de vitamina D pela pele, h a evid encias que a vitamina D possa ter elevo na redu c ao do risco de c ancer de mama. 4. Onde? Regi oes diferentes que apresentam tamb em diferentes incid encias de luminosidade na antiga Uni ao Sovi etica. 5. Quando? 1990.

2.3

Delineamentos Experimentais

ROSSI, Robson M. 9

6. Como? (Metodologia): considerando que o c ancer de mama e o que mais mata nas mulheres, por em em rela c ao ` a popula c ao de mulheres e uma doen ca pouco prevalente, como, por exemplo, Transtorno Pr e-Menstrual. Assim, um estudo de caso-controle em mulheres com c ancer de mama j a diagnosticado exposto ` a luminosidade solar por um per odo de tempo predeterminado devendo ser razoavelmente grande, mas n ao saberia dizer quanto sem revis ao bibliogr aca. Na entrevista retrospectiva perguntaria as mulheres h a quanto tempo residiam naquela regi ao, e se tivessem dentro do tempo predeterminado entrariam no estudo. Faria tamb em um grupo controle de mulheres daquela regi ao para compara c ao dos dados. Repetindo este mesmo estudo em mulheres de diferentes regi oes com diferentes luminosidades, e comparando-se as taxas de fatores de riscos, poder-se-ia chegar a conclus ao de associa c ao e em seguida calcular o Odds Ratio, isto e, a raz ao de chances. 7. Quanto? As medidas seriam o n umero de mulheres diagnosticadas com c ancer de mama comparadas a um n umero semelhantes de mulheres sem o c ancer (controles) separadas ap os serem examinadas por m edicos. J a a luminosidade colheria as informa c oes com as centrais de meteriol ogicas locais ou algum centro de refer encia deste assunto para o estudo. vel para melhorar a conabilidade dos resultados, j a que 8. Quantos? A amostra tentaria ser a maior poss a doen ca e pouco prevalente. Procuraria os centros de sa udes locais (hospitais, cl nicas especializadas, etc) das respectivas regi oes a serem estudadas. Se o n umero de centros for muito grande e for muito dif cil abord a-los, sortearia os centros para amostragem. 9. Por qu e? Alguns cuidados t em que serem relevados como o v cio da sele c ao, de informa c ao e confundimento. Por exemplo, a ingest ao de alimentos ricos em precursores e da pr opria vitamina D bem como uso de suplementos alimentares com vitamina D (p lulas), poderia inuenciar os resultados dos estudos. Observa c ao: Outros tipos de estudos e delineamentos podem ser utilizados nesta pesquisa. Avalia c ao de informa c oes existentes. Inicialmente, deve-se realizar um levantamento bibliogr aco sobre o assunto para obter subs dios que podem representar valiosa colabora c ao para o estudo e, tamb em, serem aproveitados nas discuss oes posteriores. B. Formula c ao de hip oteses. Com exce c ao das pesquisas meramente descritivas, todas as pesquisas estat sticas comportam a formula c ao de hip oteses. Com base nos dados observados, a hip otese ser a rejeitada ou n ao. C. Verica c ao das hip oteses. A verica c ao das hip oteses ser a realizada no decorrer da pesquisa. D. Delineamento da pesquisa. Compreende o estudo (planejamento) detalhado da coleta de dados, da realiza c ao do trabalho e da an alise dos dados. Os dados podem ser retirados diretamente da fonte ou aproveitados de bancos de dados retirados por outros indiv duos. Para o caso de dados retirados diretamente da fonte, existem 3 procedimentos: a observa c ao direta, o question ario ou interrogat orio e a entrevista. Observa c ao: e a observa c ao direta dos fen omenos em laborat orios ou na natureza. Question ario: e uma seq u encia de perguntas previamente preparadas. O question ario e aplicado por meio de entrevista ou remetido pelo correio. Os valores observados podem ser complementados por observa c ao. Execu c ao da pesquisa. Coleta dos dados e realiza c ao da an alise estat stica. An alise e apresenta c ao dos resultados. Os dados coletados devem ser apresentados na forma de: gr acos e/ou de tabelas. A an alise dos dados deve ser realizada pelo pesquisador, com a ajuda de um estat stico, aplicando os recursos estat sticos necess arios para refutar ou n ao as hip oteses previamente formuladas. Exemplo 2.2. Objetivo geral: conhecer o perl dos homens portadores de doen cas card acas em Honolulu, Hava . Para dar seq u encia a esta pesquisa, e preciso especicar melhor o que se quer conhecer da popula ca o de portadores de doen cas card acas, ou seja, os objetivos espec cos. Exemplos de alguns desses objetivos. c ao do grau de instru c ao dos portadores de doen cas card acas. (a) conhecer a distribui

2.3

Delineamentos Experimentais

ROSSI, Robson M. 10

(b) Conhecer a idade e o peso m edio dos portadores de doen cas card acas. (c) Conhecer os h abitos dos portadores de doen cas card acas. (d) Avaliar a condi c ao de sa ude dos portadores de doen cas card acas. Exemplo 2.3. Delineamento da pesquisa: um levantamento de dados a partir do levantamento das informa c oes contidas em uma amostra dos prontu arios dos pacientes. Dados observados: resultados de diversos atributos e medidas relativas aos pacientes selecionados para participarem da amostra. Esquematicamente:
Populao: Todos os portadores de doenas cardacas de Honolulu. Levantamento de dados. Amostra: Parte dos portadores de doenas cardacas de Honolulu. Dados observados. Plano de amostragem.

Figura 2.1: Esquema 1. Exemplo 2.4. Objetivo geral: Comparar a eci encia de dois m etodos para detectar o bacilo causador de tuberculose. Em outras palavras, quer-se avaliar se os meios utilizados s ao equivalentes ou se um e mais eciente que o outro. Delineamento da pesquisa: s ao formados dois grupos de pacientes com tuberculose e amostras de saliva destes pacientes foram colocadas em duas culturas (A e B). Dados observados: a detec c ao ou n ao do bacilo foi registrada para cada amostra, resultando em dois conjuntos, relativos a cada m etodo. Esquematicamente:

Meio A.

Meio B.

Grupo 1 de pacientes. Amostra 1 de respostas Sim ou No.

Grupo 1 de pacientes. Amostra 2 de respostas Sim ou No.

Figura 2.2: Esquema 2. Este e um delineamento de pesquisa experimental, onde o pesquisador exerce controle sobre o m etodo utilizado.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 11

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

O objetivo central da pesquisa etiol ogica (parte da medicina que trata das causas das doen cas) e determinar se o fato de uma pessoa contrair uma dada doen ca est a associado com um dado fator, o qual pode ser, por exemplo uma caracter stica pessoal, alguma especicidade do ambiente onde viveu ou uma experi encia pela qual passou. Discutiremos maneiras de se organizar um estudo etiol ogico, m etodos estat sticos para se determinar quais fatores est ao associados com o contrair da doen ca e meios de se quanticar esta associa c ao. A pesquisa etiol ogica e baseada em dados coletados em pacientes convenientemente escolhidos. O pesquisador n ao controla quem ser a exposto ou n ao ao fator em quest ao, mas tem liberdade de determinar quem entrar a ou n ao no estudo. Para que os resultados tenham validade, a pesquisa tem de ser planejada segundo modelos bem denidos. Os principais tipos de planejamento para estudos etiol ogicos receberam os nomes de estudos tipo Caso-Controle, estudos tipo Coorte, Ensaios Cl nicos Aleatorizados, Estudos Descritivos e Seccionais ou Tranversais.

2.4.1

Estudo de Caso-Controle

Um estudo tipo caso-controle pode ser denido como um estudo no qual a determina c ao da associa c ao da doen ca com um fator e baseada na observa c ao de freq u encias muito altas ou muito pequenas do fator entre as pessoas doentes. Para isto um grupo de indiv duos afetados pela doen ca em quest ao e comparado com um grupo controle de indiv duos n ao afetados. Como as informa c oes s ao obtidas de maneira retrospectiva, freq uentemente, este tipo de planejamento recebe o nome de Estudo Retrospectivo. Um estudo retrospectivo come ca com um grupo de indiv duos, a serem chamados de casos, que tenham contra dos a doen ca em quest ao. O pesquisador escolhe como padr ao de compara c ao, um grupo controle constitu do de pacientes que n ao est ao sofrendo da doen ca. A seguir obt em a hist oria cl nica de todos os pacientes selecionados a m de averiguar a presen ca ou aus encia do fator de risco que est a sendo estudado. A quest ao e saber se o fator de risco est a presente mais freq uentemente ou em n vel mais elevados entre os casos do que entre os controles. Se a evid encia for suciente o pesquisador concluir a que existe uma associa c ao entre o fator de risco e a doen ca. Idealmente, os casos devem ser todos os que ocorreram durante um per odo de tempo em uma popula c ao nita. Os controles devem ser pessoas compar aveis aos casos, mas sem a doen ca, ou seja, pessoas que, se desenvolvessem a doen ca, seriam escolhidas como casos. Os grupos de casos e de controles podem ser formados de forma emparelhada ou de forma independente. No primeiro esquema, para cada caso ou mais controles semelhantes s ao escolhidos. J a na forma c ao de grupos de forma independente, os controles n ao escolhidos de forma associada a um caso espec co. Preocupa-se apenas em garantir que o grupo de casos seja, na sua totalidade, parecido com o grupo de controles. O caso particular do emparelhamento em que h a apenas um controle para cada caso e denominado pareamento. Os estudos de caso-controle s ao uma forma de pesquisa simples e eciente, por isso muito utilizada. Atrav es dela, j a se vericaram ou se conrmaram associa c oes entre fatores de risco e v arios tipos de c ancer. N ao h a diculdades eticas para sua implementa c ao e, portanto, os dados usados s ao os de seres humanos. Isto livra o pesquisador de dif ceis generaliza c oes inerentes aos estudos desenvolvidos em animais. O tempo gasto e os custos associados s ao relativamente pequenos, j a que, normalmente, s ao utilizados dados preexistentes. S ao particularmente adequados ao estudo de doen cas raras, porque o pesquisador come ca com um grupo de pessoas que comprovadamente t em a doen ca. Sua grande limita c ao e a suscetibilidade aos v cios de informa c ao e de sele c ao. Outra e que obtemos apenas informa c ao sobre associa c ao entre fatores e doen ca e n ao sobre causas da doen ca. O resultado de tais estudos deve ser considerado um elo a mais em uma cadeia de evid encias que levar a ao veredito de causalidade. Descreveremos abaixo alguns tipos de tendenciosidade aos quais os estudos caso-controle est ao sujeitos. O leitor deve, antes de se envolver no planejamento de um tal estudo, conhecer mais profundamente a literatura m edica da area. Esta experi encia e fundamental pois lhe dar a conhecimento das formas espec cas pelas quais estas tendenciosidades aparecem. Embora n ao existindo associa c ao entre o fator e a doen ca em quest ao, existem v arias maneiras pelas quais uma associa c ao pode aparecer em um estudo caso-controle. Uma delas e chamada V cio da Sele c ao. Ocorre quando os casos ou os controles s ao inclu dos no estudo por causa de alguma caracter stica que possuam e que est a relacionada com o fator de risco sendo considerado. Chamamos de V cio de Informa c ao ` aquele

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 12

introduzido pelos pesquisadores que, j a desconando da associa c ao a ser constatada, s ao mais cuidadosos ao levantar a hist oria cl nica dos casos que dos controles. Dizemos que houve V cio de Confundimento se a associa c ao observada e produto n ao do fator considerado mas de outros fatores n ao controlados no estudo. O grupo controle e usualmente constitu do de pacientes de hospitais, onde est ao sendo tratados os pacientes do grupo de casos. Deve-se escolher para o grupo controle pacientes de uma grande variedade de doen cas. Isto protege os resultados de uma forma de v cio da sele c ao; o estudo n ao detecta uma associa c ao porque a doen ca dos pacientes-controle e a doen ca sendo estudada est ao ambas associadas com o fator de risco. Quando existe facilidade na coleta de dados o n umero de pacientes do grupo controle pode ser at e4 vezes maior que o n umero de pacientes do grupo de casos. O m etodo de sele c ao dos indiv duos do grupo controle e quase que inteiramente dependente das circunst ancias espec cas do estudo. Aqui tamb em e fundamental o conhecimento da literatura m edica da area, j a que e usual apresentar-se uma descri c ao detalhada dos controles utilizados. Exemplo 2.5. Fatores de risco em c ancer de mama. Gomes (1992), em tese de doutorado na Faculdade de Medicina da UFMG, realizou estudo caso-controle com o objetivo de avaliar a inu encia de fatores de risco no c ancer de mama, utilizando dados de nosso meio. Como casos foram escolhidas pacientes portadoras de c ancer de mama registradas no Hospital das Cl nicas da UFMG, que satiszeram os seguintes crit erios de inclus ao: idade na epoca do diagn ostico entre 25 e 75 anos, diagn ostico feito entre 1978-1987 e conrmado por exame an atomo-patol ogico, tumor origin ario do tecido epitelial e ter sido submetida a algum tipo de cirurgia na mama. Como controles foram escolhidas pacientes com idade igual ` a do caso (mais ou menos dois anos), data de admiss ao ao hospital igual ` a data de conrma c ao do diagn ostico do caso (mais ou menos seis meses) e exame cl nico da mama sem indica c ao de patologias mam arias. De acordo com esses crit erios, foram selecionados, atrav es de emparelhamento, dois controles para cada caso. O primeiro foi selecionado no ambulat orio de ginecologia e o segundo no registro geral do hospital. A an alise estat stica, entre v arias outras conclus oes, mostrou que a presen ca na paciente de hist oria familiar (retrospectivamente) de c ancer de mama aumenta o risco desta patologia em 8,84 vezes.
a EXPOSTOS

NO-EXPOSTOS

DOENTES (GRUPOS DE CASOS) AMOSTRA DE CASOS POPULAO DE CASOS E DE CONTROLES

xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx

ANLISE DE DADOS

EXPOSTOS NO-DOENTES (GRUPO DE CONTROLES) NO-EXPOSTOS

AMOSTRA DE CONTROLES

xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx xxxxxxxxxx

a, b, c, d : os quatro possveis resultados (note o carter retrospectivo)

MENSURAO DA EXPOSIO

FORMAO DOS GRUPOS POR OBSERVAO DA EXPOSIO

Figura 2.3: Esquema de Estudo Caso-Controle.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 13

Vantagens do Estudo de Caso-Controle Baixo custo relativo; Alto potencial anal tico; Adequado para estudar doen cas raras. Desvantagens do Estudo de Caso-Controle Incapaz de estimar risco (reduzido poder descritivo); Vulner avel a in umeros biases (sele c ao, etc.) Complexidade anal tica.

2.4.2

Estudo de Coorte

Em contraste com um estudo retrospectivo, um estudo prospectivo avan ca no tempo e coloca enfase no fator de risco. O Estudo de Coorte e uma forma de pesquisa que visa vericar se indiv duos, selecionados porque foram expostos ao fator de risco, desenvolvem a doen ca em quest ao, em maior ou menor propor c ao do que um grupo de indiv duos, compar aveis, mas n ao expostos ao fator de risco. Identicam-se um grupo exposto ao fator e o grupo controle, constitu do de pessoas que n ao foram expostas a ele. Os dois grupos s ao acompanhados por um per odo de tempo e as taxas de incid encia da doen ca calculadas. Se essas taxas s ao signicativamente diferentes nos dois grupos, o pesquisador conclui que h a associa c ao signicativa entre a doen ca e o fator. Os epidemiologistas preferem o termo Estudo Tipo Coorte para este tipo de estudo, entretanto Estudo Prospectivo e a nomenclatura mais utilizada. Os Estudos de Coorte possuem v arias vantagens. O pesquisador tem a possibilidade de usar crit erios uniformes, tanto na identica c ao da presen ca ou n ao do fator de risco ao in cio do estudo, quanto na verica c ao da ocorr encia da doen ca nos v arios exames de acompanhamento. Nos dois grupos a comparabilidade pode ser vericada no in cio do estudo e identicadas as vari aveis para as quais s ao necess arios ajustamentos na an alise dos dados. Em um estudo prospectivo, o pesquisador tem muito mais liberdade sobre o que medir e como medir, j a que n ao se restringir a ao uso de dados j a coletados. Uma outra vantagem, que s o poder a ser completamente apreciada ao se estudar a metodologia de an alise de dados, e que os estudos de coorte nos permitem obter diretamente uma estimativa da magnitude do risco relativo. Isto signica que e poss vel quanticar o risco de desenvolver a doen ca comparando-se o grupo de expostos ao fator de risco com o grupo de n ao expostos. Estudos de Coorte s ao grandes, longos e normalmente caros. Quanto mais rara a doen ca em quest ao, maior o n umero de pacientes que precisam ser examinados, portanto n ao indicado para doen cas raras. Embora, do ponto de vista te orico, os Estudos de Coorte sejam melhores que os Estudos Caso-Controle, estes u ltimos s ao mais comuns.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 14

Sele c ao das Coortes Grupos de pessoas s ao selecionadas para o Estudo de Coorte por uma variedade de raz oes. Apresentamos a seguir dois exemplos: Exemplo 2.6. Fumo e c ancer de pulm ao. O cl assico estudo de Doll & Hill (1964) sobre associa c ao entre c ancer no pulm ao e fumo ilustra a escolha da coorte pelo fato de o grupo possuir caracter sticas que facilitam a obten c ao dos dados sobre a exposi c ao ao fator e o seguimento dos pacientes. Foram acompanhados m edicos da Inglaterra desde o m dos anos 20, um grupo f acil de contactar e no qual todas as mortes s ao rotineiramente bem documentadas. Estas pesquisas iniciaram-se devido ao grande aumento da mortalidade causada por este c ancer. No primeiro estudo, publicado em 1950, compararam-se dois grupos de pacientes. O primeiro, constitu do de todos os casos de c ancer de pulm ao de um conjunto de hospitais londrinos. Assistentes sociais, especialmente treinadas para o estudo, entrevistaram todos os pacientes internados com diagn ostico de c ancer de pulm ao, levantando sua hist oria cl nica e seus h abitos tabagistas. O segundo grupo, chamado de controle, foi constitu do por pacientes dos mesmos hospitais, sem diagn ostico de c ancer, na mesma faixa et aria, do mesmo sexo e da mesma regi ao de resid encia que os casos anteriores. A Tabela 2.1 mostra os resultados obtidos. A associa c ao e clara e forte. Tabela 2.1: N umero de fumantes e n ao fumantes entre pacientes do sexo masculino com diagn ostico de c ancer pulmonar e controles. Grupo Fumantes N ao-Fumantes Total C ancer pulmonar 647 2 650 Controle 622 27 649 Total 1269 29 1299 ` A forma de organiza c ao deste estudo e chamada de Estudo Caso-Controle. A epoca, esta metodologia era muito criticada, pois, com facilidade, podia produzir associa c oes esp urias. Por isso, a evid encia, embora clara e forte, n ao foi convincente o suciente. Assim, os mesmos autores iniciaram um segundo estudo, cuja caracter stica b asica e o fato de que o acompanhamento dos pacientes foi prospectivo. Este tipo de planejamento e chamado de Estudo de Coorte. Em outubro de 1951, os pesquisadores enviaram um question ario simples a todos os m edicos da Inglaterra, aproximadamente 60.000 indiv duos. O question ario perguntava se o respondente j a havia fumado ou n ao. Em caso armativo, pedia informa c oes sobre o que e quanto. Mais de dois ter cos dos m edicos responderam com detalhe suciente para que seus dados pudessem ser inclu dos no estudo. As respostas possibilitaram aos pesquisadores classicar cada respondente como fumante ou n ao fumante. A deni c ao de n ao-fumante usada foi: um n ao fumante e uma pessoa que fumou at e no m aximo um cigarro di ario, em m edia, por um per odo inferior a um ano. Atrav es de complexo sistema de acompanhamento, observaram-se nos primeiros 10 anos, 136 mortes associadas ao c ancer pulmonar entre os m edicos inclu dos no estudo. Destas, apenas 3 eram de n ao-fumantes. Para equalizar os per odos de acompanhamento nos v arios grupos, trabalhou-se com a taxa de incid encia por 1.000 pessoas-ano de exposi c ao. Os valores desta taxa est ao na Tabela 2.2. O risco de morte por c ancer pulmonar das pessoas que fumam mais de 25 cigarros di arios e quase 32 vezes maior do que o mesmo risco para quem n ao fuma. Tabela 2.2: Taxa de mortalidade por 1.000 pessoas-ano devida a c ancer pulmonar (n umero de mortes entre par enteses) para n ao fumantes e fumantes. N ao-Fumantes Cigarros di arios (Fumantes) 1-14 5-24 25+ 0,07(3) 0,57(22) 1,39(54) 2,27(57) Estes dois planejamentos, estudo Caso-Controle e Estudo de Coorte, s ao as formas usuais de organiza c ao da pesquisa etiol ogica. Muitos outros estudos como os descritos anteriormente foram feitos em popula c oes variadas para se vericar o poss vel papel do fumo. Em todos, a evid encia foi clara. Hoje, o papel de agente

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 15

causador do c ancer de pulm ao e amplamente reconhecido e justica a milit ancia cada vez mais organizada contra o fumo. Em muitos Estudos de Coorte os grupos de compara c ao s ao obtidos ap os o in cio do estudo, de acordo com o n vel de exposi c ao ao fator. As coortes do estudo de Framingham sobre doen cas coran arias (Kannel et al., 1972), foram constru das dividindo-se o grupo acompanhado de acordo com h abitos de fumo, n veis de colesterol, etc. Nestes casos n ao h a necessidade de um grupo externo de compara c ao. Exemplo 2.7. Personalidade e desenvolvimento de doen ca coronariana. Um Estudo de Coorte com o objetivo de avaliar o poss vel efeito da personalidade no risco de desenvolvimento de doen ca coronariana foi conduzido entre 3.154 trabalhadores do sexo masculino com idade de 30 a 59 anos (Brand et al., 1976). Os indiv duos entraram no estudo entre 1960-61 e foram acompanhados por um per odo m edio de 8 anos e meio. Atrav es de entrevista no in cio do estudo, foram classicados em dois tipos de personalidade, A e B, sendo os primeiros mais agressivos, competitivos e ansiosos. Os resultados da Tabela 2.3 indicam que nas duas faixas et arias consideradas os percentuais de indiv duos do tipo A que desenvolveram doen ca coronariana s ao aproximadamente o dobro dos encontrados no outro grupo. Em outras situa c oes, particularmente quando um grupo submetido a uma exposi c ao pouco comum e estudado, e importante comparar o resultado observado com aquele esperado, caso os indiv duos n ao tivessem sido submetidos ao fator de risco. Usa-se a experi encia da popula c ao em geral, ao tempo em que a coorte e formada, como padr ao de compara c ao. Tabela 2.3: Percentual de indiv duos que desenvolveram doen ca coronariana segundo faixa et aria e tipo de personalidade. Faixa et aria Personalidade A B 39-49 8,9 4,2 50-59 15,9 7,6 Finalmente, usa-se tamb em como base de compara c oes outra coorte formada por pessoas n ao expostas, parecidas nas caracter sticas demogr acas com o grupo exposto. Por exemplo, considerando uma coorte de radiologistas, Seltser e Sartwell (1965) usaram como padr ao de compara c ao dados de oftalmologistas e otorrinolaringologistas.
DOENTES POPULAO EXPOSTOS ou grupo-experimental AMOSTRA PARA ESTUDO
xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx xxxxxxxxxxxxxxx

NO-DOENTES

ANLISE DE DADOS

DOENTES NO-EXPOSTOS ou grupo-controle FORMAO DOS GRUPOS POR OBSERVAO DA EXPOSIO MEDIO DOS EFEITOS

NO-DOENTES

a, b, c, d : os quatro possveis resultados

Figura 2.4: Esquema de Estudo Coorte.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 16

Vantagens do Estudo de Coorte Produz medidas diretas de risco; Alto poder anal tico; Facilidade de an alise. Desvantagens do Estudo de Coorte Estudos de Coorte s ao grandes, longos e normalmente caros. Quanto mais rara a doen ca em quest ao, maior o n umero de pacientes que precisam ser examinados. Portanto este estudo e inadequado para doen cas de baixa frequ encia; Vulner avel a perdas (biases).

2.4.3

Ensaios Cl nicos Aleatorizados

O Ensaio Cl nico Aleatorizado e um experimento m edico, realizado com o objetivo de vericar, entre dois ou mais tratamentos, qual e o mais efetivo. S ao usados quando e incerto o valor de uma nova terapia ou os m eritos da terapia existente est ao em a metodologia apropriada para a compara disputa. E c ao de tratamentos. Ap os um crit erio de admiss ao ter sido denido, os pacientes s ao, ` a medida que entram no experimento, alocados de maneira aleat oria ao grupo controle, que recebe a terap eutica padr ao, ou ao grupo tratamento, que recebe a terap eutica sendo testada. Todo esfor co deve ser feito para oferecer os mesmos cuidados aos dois grupos. Terminado o experimento, t ecnicas estat sticas s ao usadas para se decidir se h a ou n ao diferen ca na ec acia das terapias envolvidas. Esta e uma forma experimental de pesquisa, isto e, o pesquisador interfere deliberadamente no curso natural dos acontecimentos, em contraposi c ao aos estudos observacionais, em que o pesquisador se restringe a coleta de dados, sem alterar a din ` amica do processo em considera c ao. Por isto est a sujeita a costrangimentos eticos, disciplinados pela conven c ao de Helsinque. O conhecimento pelo paciente ou pelo m edico do tratamento a ser administrado pode inuir na evolu c ao o efeito da doen ca, n ao atrav es de fatores extr nsecos, mas diretamente pelo processo de auto-sugest ao. E placebo, que traz v cios ao estudo cl nico. A u nica maneira de eliminar o efeito placebo nos grupos comparados e realizar, sempre que poss vel, experimentos cegos, nos quais o paciente ou o m edico n ao conhece o tratamento, ou duplo-cego, no qual ambas as parte desconhecem o tratamento. Este ideal, entretanto, nem sempre e fact vel. Exemplo 2.8. Tamoxifeno e c ancer de mama. Muitos avan cos no tratamento do c ancer de mama t em sido estabelecidos atrav es de estudos realizados pelo National Surgical Adjuvant Breast and Bowel Project (NSABP). Em 1985, discutia-se a necessidade de se submeter ` a quimioterapia ou hormonioterapia, pacientes de bom progn ostico, logo ap os a cirurgia. Em particular, havia evid encias de v arias origens de que o tamoxifeno poderia melhorar ainda mais o progn ostico dessas pacientes. Naquela epoca, o tamoxifeno j a era usado largamente no tratamento de pacientes com c ancer de mama. Diante disto, o NSABP iniciou o protocolo B-14 para determinar a ec acia do tamoxifeno em pacientes consideradas de bom progn ostico, isto e, aquelas com tumores com receptor de estr ogeno positivo (>10 fmol ), idade inferior a 70 anos, com c ancer de mama oper avel e linfonodos axilares negativos ao exame histol ogico. Foram criados dois grupos de pacientes atrav es de aleatoriza c ao feita dentro de estratos denidos por idade e tamanho do tumor na an alise cl nica, tipo de cirurgia e concentra c ao de receptor de estr ogeno. Um grupo recebeu tamoxifeno (10 mg por dia, via oral, duas vezes ao dia) e o outro, placebo, indistingu vel do tamoxifeno na apar encia e gosto. Al em disto, o ensaio foi organizado na forma duplo-cego. Ap os acompanhamento das pacientes por um per odo de at e 4 anos, constatou-se uma diferen ca signicativa em termos de tempo livre de doen ca em favor das pacientes que receberam o tamoxifeno. No grupo tratamento, 83% estavam livres da doen ca aos quatro anos ap os a cirurgia, enquanto que no grupo placebo esta porcentagem era de 73%. Este estudo, publicado por Fisher et al. (1989), contribuiu decisivamente para a ado c ao do tamoxifeno como quimioterapia adjuvante logo ap os a cirurgia em pacientes de bom progn ostico.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 17

EFEITO: PRESENTE POPULAO EXPOSTOS INTERVENO ou grupo-experimental AMOSTRA PARA ESTUDO


xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxx

EFEITO: AUSENTE

ANLISE DE DADOS

EFEITO: PRESENTE NO-EXPOSTOS INTERVENO ou grupo-controle FORMAO DOS GRUPOS POR ALEATORIZAO E APLICAO DOS TRATAMENTOS MEDIO DOS EFEITOS

EFEITO: AUSENTE

a, b, c, d : os quatro possveis resultados

Figura 2.5: Esquema de um Ensaio Cl nico Aleatorizado.

2.4.4

Estudos Descritivos

As investiga c oes de cunho descritivo, t em o objetivo de informar sobre a distribui c ao de um evento, na popula c ao, em termos quantitativos. Elas podem ser de incid encia ou de preval encia. Nelas, n ao h a forma c ao de grupo-controle para a compara c ao dos resultados, ao menos na forma como e feita nos estudos anal ticos - da serem considerados estudos n ao-controlados. Exemplos de temas de estudos descritivos A incid encia de infec c ao chag asica em habitantes rurais; A preval encia da hepatite B entre os volunt arios ` a doa c ao de sangue; As caracter sticas demogr acas e socioecon omicas dos pacientes que sofrem de artrite reumat oide ou das pessoas que fumam; As principais causas de obito da popula c ao residente em um dado munic pio; O estado imunit ario de pr e-escolares, de um munic pio, frente ` a poliomielite; Os padr oes de crescimento e desenvolvimento de crian cas normais ou daquelas acometidas por uma determinada doen ca; A varia c ao regional na utiliza c ao de servi cos de sa ude. encia do coeciente de mortalidade por tuberculose, de uma cidade, nos u ltimos anos. A tend Estudo de Caso Trata-se de observar um ou poucos indiv duos com uma mesma doen ca ou evento e, a partir de descri c ao dos respectivos casos, tra car um perl das suas principais caracter sticas. Muitas revistas cient cas apresentam uma se c ao de relato ou apresenta c ao de casos, para difundir os resultados destes estudos. O estudo de casos e empregado para enfocar grupos espec cos da popula c ao ou um particular aspecto de interesse, n ao devidamente investigados em pesquisas quantitativas ou que simplesmente necessitem de suplementa c ao de informa c oes, com maior riqueza de detalhes. Vantagens do Estudo de Casos Em geral, o estudo de caso e relativamente f acil de ser realizado e de baixo custo.

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 18

O relato pode restringir-se a uma simples descri c ao ou ir mais al em, de modo a sugerir explica c oes sobre elementos pouco conhecidos, tais como os fatores implicados na etiologia ou no curso de uma doen ca, sob vig encia ou n ao de terap eutica. Em cl nica, e poss vel acompanhar pacientes durante anos, e mesmo d ecadas, chegando-se a um quadro repleto de detalhes sobre aspectos evolutivos de uma dada condi c ao. O estudo de casos constitui-se em um verdadeiro invent ario do que acontece genericamente, ` a luz da observa c ao de poucos indiv duos. um enfoque qualitativo e explorat E orio, embora muitas facetas possam ser quanticadas. Um aspecto positivo, conv em real car, e a possibilidade de observa c ao intensiva de cada caso. Desvantagens do Estudo de Casos ` vezes, a observa Os indiv duos observados costumam ser altamente selecionados. As c ao restringe-se a situa c oes incomuns de enfermos graves, outras vezes, aos casos de evolu c ao at pica, de rea c ao inusitada ou de resultado terap eutico inesperado; muito raramente, abrange pacientes em todas as faces de manifesta c ao da doen ca. A falta de indiv duos-controle, para comparar resultados, pode fazer com que simples coincid encias sejam dif ceis de interpretar: por exemplo, em investiga c ao de um surto de diarr eia, se os casos beberam agua de um certo po co a evid encia e ainda fr agil para incriminar a agua do po co na etiologia da doen ca. Seria conveniente saber se os sadios tamb em beberam ou n ao agua do mesmo po co. Em s ntese, apesar das vantagens referentes ` a facilidade de realiza c ao e baixo custo, duas limita c oes principais est ao presentes no estudo de casos: a falta de controle - eles serviriam para contornar problemas de aferi c ao e compara c ao acima mencionados; o n umero pequeno de indiv duos inclu dos para observa c ao - o que aponta para a prud encia na interpreta c ao dos resultados de estudos de casos, especialmente, na generaliza c ao, como ele tem sido atualmente empregado na area cl nica, eu til para levantar problemas, muitos dos quais s ao complementarmente investigados com o aux lio de outros m etodos. Seccionais ou Transversais Investiga c oes que produzem instant aneos da situa ca o de sa ude de uma popula c ao ou comunidade, com base na avalia c ao individual do estado de sa ude de cada um dos membros do grupo, e da produzindo indicadores globais de sa ude para o grupo investigado, s ao chamadas de estudos seccionais ou de cortetransversal-seccional. O Estudo Seccional tamb em e conhecido como Estudo Transversal ou da Preval encia. Vantagens do Estudo Seccional Simplicidade e baixo custo; Rapidez; N ao h a necessidade de seguimento das pessoas; Alto potencial descritivo (subs dio ao planejamento); Boa op c ao para descrever as caracter sticas dos eventos na popula c ao, para identicar casos na comunidade e para detectar grupos de alto risco, aos quais pode ser oferecida aten c ao especial. Desvantagens do Estudo Seccional Vulnerabilidade a biases ou v cios (especialmente de sele c ao);

2.4

Aspectos Estat sticos dos Estudos Etiol ogicos

ROSSI, Robson M. 19

POPULAO

AMOSTRA PARA ESTUDO

FORMAO DOS GRUPOS POR OBSERVAO SIMULTNEA DE EXPOSIO E DOENA

EXPOSTOS E DOENTES a

EXPOSTOS E NO-DOENTES b

ANLISE DOS DADOS

Figura 2.6: Esquema de um Estudo Seccional. tico (inadequado para testar hip oteses causais); Baixo poder anal Condi c oes de baixa preval encia exigem amostra de grande tamanho, logo t em diculdades operacionais; N ao determina risco absoluto (ou seja, a incid encia); A associa c ao entre exposi c ao e doen ca, se detectada, refere-se ` a epoca de realiza c ao do estudo e pode n ao ser a mesma da epoca de aparecimento da doen ca.

xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx

NO-EXPOSTOS E DOENTES c

NO-EXPOSTOS E NO-DOENTES d

Cap tulo 3

Estat stica Descritiva


3.1
3.1.1

Organiza c ao de Dados Estat sticos


Normas para a Apresenta c ao Tabular de Dados

A representa c ao tabular e uma apresenta c ao num erica dos dados. Consiste em dispor os dados em linhas e colunas, distribu das de modo ordenado, segundo algumas regras pr aticas adotadas pelos diversos sistemas estat sticos. As regras que prevalecem no Brasil foram xadas pelo Conselho Nacional de Estat stica. Uma tabela estat stica comp oe-se de elementos essenciais e elementos complementares. 1. Elementos essenciais tulo: a. T a indica E c ao da natureza do fato estat stico observado, fazendo refer encia ao local e ao tempo em que foi observado. b. Cabe calho: S ao as indica c oes que especicam o conte udo das colunas. c. Coluna indicadora: S ao as indica c oes que especicam o conte udo das linhas. 2. Elementos complementares a. Fonte a entidade respons E avel pelos dados contidos na tabela. b. Nota S ao informa c oes que esclarecem crit erios usados na confec c ao da tabela. c. Chamada a informa E c ao de natureza espec ca, que serve para complementar determinado dado usado na confec c ao da tabela.

20

3.2

Distribui c ao de Frequ encias

ROSSI, Robson M. 21

Tabela 3.1: Popula c ao brasileira por faixa et aria. Idades (Anos) 1980 (%) 1991 (%) 0` a9 27, 9 23, 6 10 ` a 19 20, 6 18, 3 20 ` a 59 45, 0 50, 9 60 6, 5 7, 2 Fonte: IBGE

3.2

Distribui c ao de Frequ encias

Geralmente ap os a coleta de dados, estes s ao apresentados de forma desorganizada e de dif cil manipula c ao, logo faz-se necess ario organiz a-los. Para organizar os dados provenientes de uma vari avel qualitativa, e usual fazer uma Tabela de frequ encias. Tabela 3.2: Total de alunos matriculados na UEM em 2002. Sexo Frequ encia Feminino 7.545 Masculino 5.905 Total 13.450 Fonte: UEM/2002. Quando a vari avel em estudo e do tipo cont nua e assume muitos valores distintos, o agrupamento dos dados em classes ser a sempre necess ario na constru c ao das tabelas de frequ encias. Em publica c oes mais antigas sobre constru c ao de tabelas de frequ encias, h a f ormulas para determina c ao do n umero de classes de acordo com o n umero de dados. Essas f ormulas eram u teis, pois a constru c ao dos gr acos era muito custosa sem o aux lio do computador. Esse procedimento e aconselh avel como uma primeira visualiza c ao da distribui c ao de frequ encias de uma vari avel. A seguir e apresentado um roteiro para constru c ao de distribui c oes de frequ encia. Exemplo 3.1. Considere uma amostra de 25 crian ca, das quais foram obtidas medidas de intoxica c ao alimentar por uma subst ancia desconhecida ( g). 0, 77 0, 85 0, 85 0, 75 0, 61 0, 90 0, 80 0, 78 0, 96 Dados brutos 0, 78 0, 75 0, 65 1, 05 0, 58 0, 52 0, 78 1, 02 0, 79 0, 55 Fonte: Dados hipot eticos 1, 10 0, 99 0, 75 0, 65 0, 75 0, 55

Os dados, como apresentados acima, s ao chamados brutos, pois n ao foram ainda submetidos a nenhum tipo de tratamento. Inicialmente, os dados devem ser colocados em ordem crescente: 0, 52 0, 75 0, 96 0, 55 0, 77 0, 99 0, 55 0, 78 1, 02 Dados em ordem crescente 0, 58 0, 61 0, 65 0, 65 0, 75 0, 78 0, 78 0, 79 0, 80 0, 85 1, 05 1, 10 Fonte: Dados hipot eticos 0, 75 0, 85 0, 75 0, 90

Pode-se observar, agora, que das 25 observa c oes o menor valor e xm e xm n = 0, 55 e o maior ax = 1, 10. Amplitude (AT): e a diferen ca entre o maior e o menor valor do conjunto de dados observados. AT = xm ax xm n

3.2

Distribui c ao de Frequ encias

ROSSI, Robson M. 22

Para os dados acima: AT = 1, 10 0, 52 = 0, 58 Observe que esse exemplo cont em um n umero pequeno de observa c oes (n = 25), quando h a um grande n umero de dados observados o processo de ordena c ao e trabalhoso e a listagem nal pouco representar a. Nesses casos, pode-se simplicar o processo agrupando os dados em certo n umero de classes, cujos limites ser ao denominados limite inferior e limite superior. A quantidade de classes e a amplitude destas devem ser obtidas observando as seguintes normas: i) as classes devem cobrir a amplitude total; ii) o extremo superior de uma classe e o extremo inferior da classe seguinte; iii) cada valor observado deve enquadrar-se em apenas uma classe; iv) o n umero total de classes n ao deve ser inferior a 5 e nem superior a 25; O n umero de classes (k ), pode ser obtido de uma das f ormulas seguintes: i) k = n ;

ii) k = 1 + 3, 22 log n , (f ormula de Sturges). Para o exemplo 2.1: k = 25 = 5 ou k = 1 + 3, 22log (25) 5, 50. Dividindo a amplitude total (AT ) por k = 5 chega-se ao tamanho ou amplitude de cada uma das classes: h= AT 0, 58 = = 0, 12 k 5

Obs.: quando os valores observados s ao n umeros inteiros, os limites das classes tamb em devem ser AT em n umeros inteiros. Para isso, aconselha-se escolher o n umero mais pr oximo de AT que resulte h = k um n umero inteiro. Agora, utilizando esse valor pode-se obter os limites inferiores e superiores das classes: erie, neste caso : 0,52. i) o limite inferior da primeira classe pode ser o menor valor da s ii) os demais limites ser ao obtidos somando aos limites inferiores o valor de h. Isto e, 0, 52 0, 64 0, 76 0, 88 1, 00 (0, 52 + h = 0, 52 + 0, 12) = 0, 64 (0, 64 + h) = 0, 76 (0, 76 + h) = 0, 88 (0, 88 + h) = 1, 00 (1, 00 + h) = 1, 12.

Lembrando que a nota c ao () signica que se esta incluindo os valores iguais ao limite inferior e excluindo os valores iguais ou superiores ao limite superior. A partir da listagem ordenada das classes, pode-se construir os chamados quadros (ou tabelas) de frequ encia ou distribui c oes de frequ encia, que permitem uma melhor visualiza c ao dos dados. Frequ encia: e o n umero de valores que aparecem no dom nio de uma classe. Um quadro de frequ encias completo deve conter as seguintes informa c oes: i) xi e o ponto m edio da i- esima classe; representa a m edia dos pontos limites da classe; xi = li + Li ; li : limite inferior e Li : limite superior da classe i. 2

ii) n e o tamanho da amostra; e a frequ encia absoluta da i- esima classe; iv) Fi

3.3

Gr acos

ROSSI, Robson M. 23

v) fi e a frequ encia relativa da i- esima classe, fi = e a frequ encia acumulada da i- esima classe; vi) Faci

Fi ; n

vii) faci e a frequ encia relativa acumulada da i- esima classe, faci =

Faci . n

Assim, no caso da amostra de 25 crian ca intoxicadas, a distribui c ao de frequ encia pode ser da seguinte forma:

Tabela 3.3: Distribui c ao do n vel de intoxica c ao. Classes xi Fi fi Fac 0, 52 0, 64 0, 58 5 0, 20 5 0, 64 0, 76 0, 70 6 0, 24 11 0, 76 0, 88 0, 82 8 0, 32 19 0, 88 1, 00 0, 94 3 0, 12 22 1, 00 1, 12 1, 06 3 0, 12 25 Total 25 1 Fonte: Dados hipot eticos

fac 0, 20 0, 44 0, 76 0, 88 1, 00 -

Outras informa c oes: Nenhuma cela ( casa ) deve car em branco; H fen ( - ), indica que o valor num erico e nulo; Retic encia ( ... ), indica que n ao se disp oe do dado; Interroga c ao ( ? ), indica d uvida quanto a exatid ao do valor num erico; Zeros ( 0 ; 0,0 ; 0,00 ), indica valor muito pequeno em rela c ao a unidade utilizada.

3.3

Gr acos

Os gr acos s ao representa c oes pict oricas, de grande valia na compreens ao e visualiza c ao dos dados. Os principais gr acos utilizados na representa c ao estat stica s ao: 1. Diagramas; (a) Por Pontos; (b) Por Linhas; i. Poligonais; ii. Curvas; (c) Por Superf cies; i. ii. iii. iv. v. em em em em em Colunas; Barras; Histogramas; Box; Setores;

2. Cartogramas; 3. Estereogramas.

3.3

Gr acos

ROSSI, Robson M. 24

3.3.1

Diagramas

S ao representa c oes gr acas de s eries estat sticas por interm edio de linhas e superf cies. As linhas utilizadas s ao as poligonais e as curvas, e as superf cies s ao ret angulos, c rculos e quadrados. Para suas constru c oes pode-se utilizar a proporcionalidade entre s erie de n umeros ou do sistema retil nio ortogonal. Este sistema estabelece uma correspond encia biun voca entre os pares de n umeros reais e os pontos de um plano. Assim, de modo geral, num sistema retil neo ortogonal, um ponto P do plano est a determinado pelos n umeros reais X e Y, tomados sobre dois eixos divididos em segmentos unit arios. Diagramas por Pontos (Diagramas de Dispers ao): a representa E c ao gr aca dos dados de forma bruta e geral, o que pode fornecer uma id eia da variabilidade dos dados, pontos extremos etc.

Figura 3.1: Diagrama de dispers ao e de rela c ao entre X e Y.

Diagramas por Linha Poligonal: a representa um dos mais imporE c ao gr aca de uma s erie estat stica por meio de uma linha poligonal. E tantes gr acos; representa observa c oes feitas ao longo do tempo, em intervalos iguais ou n ao. Tais conjuntos de dados constituem as chamadas s eries hist oricas ou s eries temporais. Traduzem o comportamento de um fen omeno em certo intervalo de tempo.

Figura 3.2: Gr aco para s eries temporais.

3.3

Gr acos

ROSSI, Robson M. 25

O pol gono de frequ encia e um gr aco que se obt em unindo por uma poligonal os pontos correspondentes `s frequ a encias das diversas classes, centradas nos respectivos pontos m edios. Para obter as intersec c oes do pol gono com o eixo, cria-se em cada extremo do histograma uma classe com frequ encia nula. Obs.: Suavizando a linha poligonal que dene o pol gono obt em-se uma curva que visualiza a tend encia de varia c ao dos dados.

Probabilidade

0.0
4

0.1

0.2

0.3

Amostra

Figura 3.3: Suaviza c ao do pol gono de frequ encia.

Ogiva A Ogiva ou Pol gono de Frequ encia Acumulada, consiste de uma linha poligonal das Fac ou das fac .

Figura 3.4: Gr aco da Ogiva.

3.3

Gr acos

ROSSI, Robson M. 26

Diagramas por Linha Curva: a representa E c ao de uma s erie estat stica por meio de uma linha curva. Pode ser utilizada para representar uma tend encia do tipo linear ou n ao-linear.

Figura 3.5: Gr aco para modelos lineares n ao-lineares.

Diagrama por Superf cie em Barras ou Colunas: a representa E c ao de uma s erie estat stica por interm edio de ret angulos em posi c oes verticais. Este tipo de gr aco proporciona comparar grandezas. Os valores da vari avel dependente, dados pela s erie estat stica ou suas diferen cas, devem ser proporcionais as ` areas dos ret angulos a serem tra cados. Para tanto pode-se utilizar o sistema retil nio ortogonal marcandose os pontos de forma j a indicada, e a partir do eixo dos x, construir ret angulos de bases iguais e que tenham respectivamente, por meio de cada base, os valores da vari avel independente e os pontos marcados.

Figura 3.6: Gr aco Gr aco em Barras ou Colunas.

3.3

Gr acos

ROSSI, Robson M. 27

Diagrama por Superf cie em Histogramas: O Histograma e um conjunto de ret angulos com bases sobre um eixo dividido de acordo com os tamanhos de classe, centrados nos pontos m edios das classes e areas proporcionais ` as frequ encias.

Figura 3.7: Gr aco do Histograma.

3.3

Gr acos

ROSSI, Robson M. 28

Diagrama por Superf cie em Caixas (BoxPlot): O BoxPlot e uma representa c ao da forma de distribui c ao dos dados que visa apresentar a massa de dados assim como identicar valores extremos e/ou outliers.

Figura 3.8: Gr aco BoxPlot.

Diagrama por Superf cie em Setores (Pizza): a representa E c ao gr aca de uma s erie estat stica por interm edio de superf cies setoriais. utilizado quando se pretende comparar os valores de uma s E erie com a sua soma total. A representa c ao e feita tomando como gura b asica um c rculo que e dividido em setores. O quociente entre a soma dos valores da s erie e a area do c rculo deve ser o mesmo que entre cada valor da vari avel dependente e a respectiva area do setor representativo. Por em em virtude da proporcionalidade das areas dos setores de um c rculo com seus angulos centrais, podem-se dividir os valores considerados na s erie proporcionalmente a estes angulos.

Figura 3.9: Diagrama por Superf cie em Setores (Pizza).

3.4

Medidas Descritivas

ROSSI, Robson M. 29

3.4
3.4.1

Medidas Descritivas
Medidas de Tend encia Central ou de Posi c ao

S ao medidas que objetivam representar o ponto central de equil brio de uma distribui c ao de dados. Essas medidas representam quantitativamente os dados, sendo as mais utilizadas em an alise: M edia Representa o ponto de equil brio de um conjunto de dados. Seja (x1 , . . . , xn ) um conjunto de dados. A m edia ser a dada por: N xi = i=1 ( dados populacionais ), para dados n ao-agrupados em tabelas de frequ encias. N n xi i=1 x= ( dados amostrais ), para dados n ao-agrupados em tabelas de frequ encias. n
k

xi Fi

( dados amostrais ), quando os dados agrupados em tabelas de frequ encias, com k classes. n Quando os dados s ao agrupados em intervalos de classes, xi corresponde ao ponto m edio do intervalo. avel n vel Exemplo 3.2. Considere do Exemplo anterior, o conjunto de dados da amostra retirada da vari de intoxica c ao, dado no in cio desta parte. A m edia ser a dada por:
25

x=

i=1

xi =

xA =

i=1

19, 53 = 0, 7812, para os dados brutos, ou 25

xi Fi n =

xB =

i=1

19, 66 = 0, 7864, para os dados agrupados (Tabela 3.3). 25

Observe que x A x B .

3.4

Medidas Descritivas

ROSSI, Robson M. 30

Propriedades da M edia: 1 - A soma alg ebrica dos desvios tomados em rela c ao a m edia e nula. Isto e, k
i=1

di =

i=1 (xi

x) = 0 ,

i = 1, 2, . . . , n

pela propriedade:

X = {2, 3, 7} x = 4, k i=1 di = (2 4) + (3 4) + (7 4) = 0.

2 - Somando-se ou subtraindo-se uma constante k , a todos os valores de uma vari avel, a m edia do conjunto ca aumentada ou diminu da dessa constante. yi = xi k y =xk

Para k = +2, tem-se: Y = {4, 5, 9} y = 6, pela propriedade: y = x + 2 = 4 + 2 = 6. avel por uma constante k , a m edia do 3 - Multiplicando-se ou dividindo-se todos os valores de uma vari conjunto ca multiplicada ou dividida por essa constante. yi = k xi y =kx e yi = xi k y= x ; .k = 0. k

Para k = +5, tem-se Y = {10, 15, 35} y = 20, pela propriedade: y = 5.x = 5.4 = 20. Vantagens e desvantagens da M edia: uma medida que, p 1- E or uniformizar os dados, n ao representa bem os conjuntos que revelam tend encias extremas, uma vez que a mesma ser a grandemente inuenciada pelos valores discrepantes. Suponha por exemplo, que durante um ano letivo, um aluno tenha as seguintes notas em uma disciplina: 30, 35, 25, 30, 25 35, 35, 95, 90, 100. 500 Um c alculo r apido nos mostra que sua m edia nal foi x = = 50. Como a m edia deve traduzir o 10 aproveitamento do aluno durante o ano e a m edia 50 s o foi conseguida ` a custa das tr es u ltimas notas, conclu mos que 50 e um valor falho para medir o aproveitamento do aluno. 2 - A m edia nem sempre tem exist encia real, isto e, ela nem sempre faz parte do conjunto de dados (x / X ). a medida de posi 3- E c ao mais conhecida e de maior emprego. facilmente calculada. 4- E 5 - Serve para compararmos conjuntos semelhantes. 6 - Depende de todos os valores do conjunto de dados. 7 - em geral n ao ocupa a posi c ao central do conjunto (ocupa a posi c ao do centro de equil brio). Moda A Moda (Mo ) e o valor que ocorre com maior frequ encia em uma s erie de dados. Existem s eries de dados em que nenhum valor aparece mais vezes que outros. Neste caso n ao apresenta moda. S ao s eries amodais. Em outros casos, pode aparecer dois ou mais valores de concentra c ao. Diz-se ent ao, que a s erie tem duas ou mais modas (bimodal, trimodal ou multimodal). X : {2, 2, 2, 2, 5, 5, 5, 6, 6, 7, 8} Mo = 2 (unimodal).

3.4

Medidas Descritivas

ROSSI, Robson M. 31

Quando os dados se apresentam agrupados em tabelas de frequ encias e necess ario utilizar a express ao de Czuber (a mais precisa), dada a seguir, para calcular o valor que representa a moda: ( onde i e a ordem da classe de maior frequ encia). Czuber: Mo = li + Outras modas: Pearson: Mo = 3.Md 2.x e King: Mo = li + h.Fi+1 . Fi1 + Fi+1 h(Fi Fi1 ) . (Fi Fi1 ) + (Fi Fi+1 )

Gracamente, A eque c ao de Czuber de d a quando, em um conjunto de dados qualquer, identica-se a classe modal como aquela que apresenta o ret angulo de maior altura (frequ encia). A intersec c ao das retas que unem os pontos AD e os pontos BC, determina o ponto P que, projetado perpendicularmente no eixo da vari avel, corresponder a ao valor da moda M o.

Figura 3.10: Proje c ao de Czuber para Moda. Exemplo 3.3. Calcular a moda de Czuber, para os dados agrupados da amostra dada na Tabela 3.3. i = 3 (Classe de maior frequ encia) h = 0, 12 l3 = 0, 76 Fi = F3 = 8 Fi1 = F2 = 6 Fi+1 = F4 = 3 Mo = 0, 76 + 0, 12(8 6) 0, 794 (8 6) + (8 3)

Isto signica que o n vel de toxicidade mais frequente e de 0,794 g.

3.4

Medidas Descritivas

ROSSI, Robson M. 32

Mediana A mediana (Md ) de um conjunto de valores ordenados segundo uma ordem de grandeza, e o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo n umero de elementos ( e o valor que est a no meio !). Quando o conjunto de observa c oes tem um n umero mpar de valores, n ao-agrupados em classes, ent ao n+1 a mediana e dada pela express ao: Md = xp , onde p = . 2 x1 3 x2 5 x3 5 x4 6 x5 Md = 5 . 7

Quando o conjunto de observa c oes tem um n umero par de valores, n ao-agrupados em classes, ent ao a xp + xp+1 mediana ser a, a m edia aritm etica dos dois n umeros que ocuparem o meio da s erie: Md = , onde 2 n p= . 2 x1 3 x2 5 x3 5 x4 6 x5 7 5+6 x6 Md = = 5, 5. 7 2

Quando o conjunto de observa c oes se apresenta agrupados em classes em uma tabela de frequ encias, e, a classe onde ent ao a mediana e dada pela express ao abaixo, onde onde i representa a classe mediana, isto n estar a presente o valor de p = . 2 h(p Fac1 ) Md = li + Fi Exemplo 3.4. Calcular a mediana para os dados agrupados da amostra da Tabela 3.3. n = 25 ( ) n i = 3 p = = 12, 5 est a na terceira linha olhar em Fac 2 h = 0, 12 Fi = 8 Fac1 = 11 (frequ encia acumulada da classe anterior) l3 = 0, 76 0, 12(12, 5 11) Md = 0, 76 + 0, 783 8 Isto signica que o 50% das crian cas apresenta n vel de toxicidade acima de 0,783 g.

3.4.2

Medida de Variabilidade ou de Dispers ao

S ao medidas estat sticas que indicam o grau de dispers ao, ou variabilidade do conjunto de observa c oes . pesquisados, em rela c ao a uma medida de tend encia central, por exemplo, x Uma u nica medida n ao e suciente para descrever de modo satisfat orio um conjunto de observa c oes. Por exemplo, dois conjuntos de dados podem ter a mesma m edia aritm etica e, no entanto, a dispers ao de um pode ser muito maior que a dispers ao do outro. As principais medidas de dispers ao s ao: amplitude total (AT), vari ancia ( 2 ou s2 ), desvio-padr ao ( ou s) e coeciente de varia c ao (CV). Amplitude total Amplitude total ou AT e a diferen ca entre o maior e o menor valor observado AT = xm ax xm n

3.4

Medidas Descritivas

ROSSI, Robson M. 33

Desvio absoluto m edio Desvio absoluto m edio ou Dm e a m edia aritm etica dos valores absolutos dos desvios tomados em rela c ao a uma das seguintes medidas de tend encia central: m edia ou mediana. Desvio m edio em rela c ao ` a m edia para dados n ao tabulados:
n

|xi x | n

Dm =

i=1

Desvio m edio em rela c ao ` a m edia para dados tabulados:


n

|xi x | Fi n

Dm = Vari ancia

i=1

Vari ancia ou Var(X) e a medida que fornece o grau de dispers ao, ou variabilidade dos valores do conjunto de observa c oes em torno da m edia. Ela e calculada somando os quadrados dos desvios em rela c ao a m ` edia: Amostral n 2 (xi x ) s2 = i=1 n1 k 2 (xi x ) Fi i =1 s2 = n1 Populacional
N

D. Brutos

( ou s2 = 1 n1 ) k 2 xi Fi i=1

)2 xi Fi n

(xi )2 N

i=1

D. Agrupados

i=1

2 =

(xi )2 Fi N

i=1

Desvio-padr ao Desvio-padr ao ou DP(X) - Como a vari ancia calculada a partir do quadrados dos desvios, sua unidade e quadrada em rela c ao ` a vari avel estudada, o que, sob o ponto de vista pr atico e um inconveniente. Por isso mesmo, imaginou-se uma nova medida que tem utilidade e interpreta c ao pr atica, denominada desvio padr ao, denida como a raiz quadrada da vari ancia e representada por: Amostral s = s2 Populacional = 2

Propriedades da Vari ancia e do Desvio-Padr ao 1 - V ar(X ) 0 = DP (X ) 0. 2 - Somando-se ou subtraindo-se uma constante k , a todos os valores de uma vari avel, a vari ancia e o desvio-padr ao do novo conjunto permanecem inalterados: Y =X k Y =X k X : Vari avel Aleat oria e k : constante real. 3 - Multiplicando-se ou dividindo-se todos os valores de uma vari avel por uma constante, k , a vari ancia e o desvio-padr ao do novo conjunto s ao alterados da seguinte forma: Y = kX Y = kX V ar(Y ) = k 2 V ar(X ) DP (Y ) = |k |DP (X ) V ar(Y ) = V ar(X ) + 0 DP (Y ) = DP (X ) + 0

3.4

Medidas Descritivas e para k = 0, Y = Y = X k X k V ar(Y ) = DP (Y ) = V ar(X ) k2 DP (X ) |k |

ROSSI, Robson M. 34

4 - Sejam X e W vari aveis aleat orias independentes, a e b constantes reais, tal que Y = aX bW, tem-se: Y = aX bW Vari ancia Relativa A vari ancia relativa de uma s erie X e indicada por VR(X) e denida por: V R(X ) = s2 ( x)
2

V ar(Y ) = V ar(aX bW ) = a2 V ar(X ) + b2 V ar(W ).

(amostral)

Note que o coeciente de varia c ao, como e uma divis ao de elementos de mesma unidade, e um n umero puro. Portanto, pode ser expresso em percentual. Coeciente de varia c ao Coeciente de varia c ao ou CV e uma medida relativa da dispers ao ou variabilidade dos dados: CV(x) = s (amostral) ou CV(x) = (populacional). x

Crit erios para interpreta c ao : Quanto menor for o coeciente de varia c ao (CV 25%), mais representativa dos dados ser a a m edia. ancia, o desvio-padr ao e o coeciente de varia c ao para o conjunto de dados Exemplo 3.5. Calcular a vari da amostra X: {2, 3, 5, 7}. Sabemos que x = 4, 25 4, 3, ent ao: n 2 (xi x ) 2 2 2 2 (2 4, 3) + (3 4, 3) + (5 4, 3) + (7 4, 3) i=1 2 s = = 4, 92 3 n1 s = 4, 92 2, 12, assim: 2, 12 CV = 0, 522 (sendo CV = 52,2% > 25%, h a indicativo de que a m edia n ao e representativa). 4, 25 Exemplo 3.6. Calcular a vari ancia, o desvio-padr ao e o coeciente de varia c ao para o conjunto de dados amostrais apresentados na tabela abaixo. Tabela 3.4: Exemplo de Tabela de Frequ encia. xi Fi 1 2 4 3 5 2 Total 8
3

xi Fi n =

sendo x =

i=1

1 2 + 3 4 + 5 .2 = 3, temos 8

3.4

Medidas Descritivas
k

ROSSI, Robson M. 35

(1 3) 2 + (3 3) 4 + (5 3) 2 2, 29, ou n1 7 ( k )2 ( ) k xi Fi 1 2 i=1 F x s2 = = s2 i n 1 i=1 i n s2 =


i=1

(xi x ) Fi

] )[ 2 1 (24) 16 = 88 = 2, 29 81 8 7 logo, s = 2, 29 1, 51, assim: 1, 51 cv = 0, 50 (h a indicativo de que a m edia n ao e representativa). 3 (

3.4.3

Medidas Separatrizes

Quartis, Decis e Percentis As medidas de posi c ao denominadas Separatrizes para valores agrupados s ao calculadas atrav es da express ao: Sk = li + h(p Fac1 ) Fi

onde SK : e a medida de posi c ao separatriz desejada (Md : M ediana, Qk : Quartil, Dk : Decil ou Pk : P ercentil de ordem k ); k: e a ordem da medida; w: e o divisor; Sk Md Q D P p: e a posi c ao da observa c ao, dado por: p= n.k w k 1 1, 2, 3 1, 2, ...,9 1, 2, ...,99 w 2 4 10 100

Exemplo 3.7. Calcule o Q1 , Q2 , Q3 , D7 , P10 e P90 para os dados da Tabela 3.3.

Tabela 3.5: Distribui c ao do n vel de intoxica c ao (g) em 25 crian cas. Classes xi Fi fi Fac fac 0,52 0,64 0,58 5 0,20 5 0,20 0,64 0,76 0,70 6 0,24 11 0,44 0,76 0,88 0,82 8 0,32 19 0,76 0,88 1,00 0,94 3 0,12 22 0,88 1,06 3 0,12 25 1,00 1,00 1,12 Total 25 1 Fonte: Dados hipot eticos

3.4

Medidas Descritivas

ROSSI, Robson M. 36

Solu c ao: C alculo de Q1 : {k = 1; w = 4; } 25 1 p= = 6, 25 (i = 2 : olhar em Fac ) 4 h = 0, 12 Fi = F2 = 6 li = 0, 64 Fac1 = 5 0, 12(6, 25 5) Q1 = 0, 64 + = 0, 64 + 0, 025 = 0, 665 6 Obs.: O valor Q1 = 0, 665 representa o n vel de intoxica c ao que deixa 25% dos demais valores abaixo dele. C alculo de Q2 : {k = 2; w = 4; } 25 2 p= = 12, 5 (i = 3) 4 h = 0, 12 Fi = 8 li = 0, 76 Fac1 = 11 0, 12(12, 5 11) Q2 = 0, 76 + 0, 783 = Md 8 Obs.: O valor Q2 0, 783 representa o o n vel de intoxica c ao que deixa 50% dos demais valores abaixo dele, isto e, e o valor mediano. C alculo de Q3 : {k = 3; w = 4; } 25 3 p= = 18, 75 (i = 3) 4 h = 0, 12 Fi = 8 li = 0, 76 Fac1 = 11 0, 12(18, 75 11) Q3 = 0, 76 + 0, 876 8 Obs.: O valor Q3 0, 876 representa o n vel de intoxica c ao que deixa 75% dos demais valores abaixo dele. C alculo de D7 : {k = 7; w = 10; } 25 7 p= = 17, 5 (i = 3) 10 h = 0, 12 Fi = 8 li = 0, 76 Fac1 = 11 0, 12(17, 5 11) D7 = 0, 76 + 0, 858 8 Obs.: O valor D7 0, 858 representa o o n vel de intoxica c ao que deixa 70% dos demais valores abaixo dele. C alculo de P10 : {k = 10; w = 100; } 25 10 p= = 2, 5 (i = 1) 100 h = 0, 12 Fi = 5 li = 0, 52 Fac1 = 0 0, 12(2, 5 0) P10 = 0, 52 + = 0, 58 5 Obs.: O valor P10 = 0, 58 representa o o n vel de intoxica c ao que deixa 10% dos demais valores abaixo dele. C alculo de P90 : {k = 90; w = 100; } 25 90 p= = 22, 5 (i = 1) 100 h = 0, 12 Fi = 3

3.4

Medidas Descritivas

ROSSI, Robson M. 37

0, 12(22, 5 22) = 1, 02 3 Obs.: O valor P90 = 1, 02 representa o o n vel de intoxica c ao que deixa 90% dos demais valores abaixo dele ou 10% acima dele. P90 = 1 + Medidas de Assimetria Tem por objetivo b asico medir o quanto a distribui c ao de frequ encias do conjunto de valores observados se afasta da condi c ao de simetria. (A) Distribui c ao Assim etrica negativa. Quando a m edia e menor que a mediana que e menor que a moda. (B) Distribui c ao Sim etrica. Quando a m edia, moda e mediana s ao iguais, ou muito pr oximas. (C) Distribui c ao Assim etrica positiva. Quando a m edia e maior que a mediana que e maior que a moda.

li = 1, 00 Fac1 = 22

3.4

Medidas Descritivas

ROSSI, Robson M. 38

Gr aco das distribui c oes quanto ` a assimetria

Figura 3.11: (A) Assim etrica Negativa ( x < M d < Mo )

Figura 3.12: (B) Sim etrica ( x = Md = Mo )

Figura 3.13: (C) Assim etrica Positiva (Mo < Md < x ) Uma das medidas para quanticar a assimetria de uma distribui c ao pode ser dada pelo primeiro coeciente de assimetria de Pearson (Ap ) : Ap = x Mo 3 ( x Md ) ou Ap = s s

Outra e atrav es do coeciente quartil tico de Bowley (Ab ) : Ab = Q3 + Q1 2Md Q3 Q1

Em ambos temos: Se A < 0 a distribui c ao e assim etrica negativa. Se A = 0 a distribui c ao e distribui c ao sim etrica. Se A > 0 a distribui c ao e assim etrica positiva. Obs.: 0, 15 < |A| < 1 a assimetria e considerada moderada e se |A| > 1, forte. Exemplo 3.8. Considerando o conjunto de dados da Tabela 3.3, obter Ap . sabemos que: x = 0, 7864; s = 0, 153 e Mo 0, 794, assim: x Mo 0, 786 0, 794 Ap = = 0, 04967 (Ap < 0 : assim etrica negativa). s 0, 153

3.4

Medidas Descritivas

ROSSI, Robson M. 39

Medidas de Curtose A curtose ou achatamento mede a concentra c ao ou dispers ao dos valores de um conjunto de valores em rela c ao ` as medidas de tend encia central em uma distribui c ao de frequ encias conhecida (a distribui c ao Normal). (A) Distribui c ao Leptoc urtica. Quando a distribui c ao apresenta uma curva de frequ encia mais fechada que a da distribui c ao Normal. (B) Distribui c ao Mesoc urtica. Quando a distribui c ao apresenta uma curva de frequ encia parecida a da distribui c ao Normal. (C) Distribui c ao Platic urtica. Quando a distribui c ao apresenta uma curva de frequ encia mais aberta que a da distribui c ao Normal. Gr aco das distribui c oes quanto ` a curtose

Figura 3.14: Leptoc urtica

Figura 3.15: Mesoc urtica

Figura 3.16: Platic urtica As medidas de curtose podem ser calculadas atrav es da express ao: k= (Q3 Q1 ) 2(P90 P10 )

3.4

Medidas Descritivas

ROSSI, Robson M. 40

Obs.1 : k : coeciente de curtose Obs.2 : DQ: Q3 Q1 e denominado Desvio interquartil tico. Relativamente ` a curva da distribui c ao Normal, temos: Se k < 0, 263 ( leptoc urtica ); Se k = 0, 263 ( mesoc urtica ); Se k > 0, 263 ( platic urtica ). Podemos utilizar tamb em, o coeciente de curtose baseado nos momentos centrados (k4 ), para dados tabelados: (xi x )4 Fi Fi k4 = 3 4 Lembrando que ( )2 = 2 =
4

(xi x )2 Fi N

)2 (populacional).

( )2 s = s2 =
4

( )2 (xi x )2 Fi (amostral). n1

Analogamente, temos: Se k4 > 0 a distribui c ao e leptoc urtica; Se k4 = 0 a distribui c ao e mesoc urtica; Se k4 < 0 a distribui c ao e platic urtica. Exemplo 3.9. Considerando o conjunto de dados da Tabela 3.3, obter k, o coeciente de curtose interquartil tico. Sabemos que Q1 = 0, 665, Q3 = 0, 876, P10 = 0, 58 e P90 = 1, 02 , ent ao: (Q3 Q1 ) (0, 876 0, 665) k= = = 0, 2398 (k < 0, 263 : leptoc urtica). 2(P90 P10 ) 2(1, 02 0, 58) Do exemplo ??, tem-se a Figura 3.17:

Figura 3.17: Histograma do n vel de intoxica c ao (g).

Cap tulo 4

No c oes de Probabilidade
4.1 Introdu c ao

Uma das ferramentas fundamentais da Infer encia Estat stica e a Probabilidade, a qual teve seu in cio formal com jogos de azar no s eculo XVII. Muitas decis oes precisam ser tomadas na presen ca da incerteza. Os pre cos e modelos de novos carros devem ser selecionados com base na previs ao inst avel do consumidor, na tend encia da economia nacional e nas a c oes competitivas. A loca c ao e o quadro de funcion arios de um hospital devem ser decididos com informa c ao limitada na quantidade de pacientes. O estoque de um produto deve ser feito em face da incerteza sobre a demanda. Probabilidade e a linguagem da incerteza. Assim sendo, probabilidade ser a estudada como o mecanismo de fazer infer encias. Independente de qual seja a aplica c ao em particular, a utiliza c ao da teoria de probabilidade indica que existe um elemento de acaso, ou de incerteza, quanto a ocorr encia ou n ao de um acontecimento futuro. Assim e que, em muitos casos, pode ser virtualmente imposs vel armar por antecipa c ao o que ocorrer a; mas e poss vel dizer o que pode ocorrer. Por exemplo, se uma moeda for jogada para o ar, de modo geral n ao se pode armar se vai dar cara ou coroa. Entretanto, e reconhecido que embora o resultado sabido que se a moeda seja incerto, existe um resultado previs vel a longo prazo. E e ideal (balanceada, sim etrica) cerca de metade das provas resultar ao em caras. Al em disso, mediante determinada combina c ao de julgamento, experi encia passada e dados hist oricos, em geral e poss vel dizer qu ao prov avel e a ocorr encia de determinado acontecimento futuro. Neste longo prazo, a regularidade previs vel possibilitam que as casas de jogos se empenhem no neg ocio.

4.2

Espa co Amostral e Eventos

Suponha que um experimento seja realizado sob certas condi c oes xas. Seja o conjunto de resultados poss veis, onde por resultado poss vel entende-se resultado elementar e indivis vel do experimento. ser a chamado espa co amostral do experimento. claro que = {1, 2, Exemplo 4.1. Lan car um dado equilibrado e observar o n umero da face superior. E 3, 4, 5, 6}, pois esses 6 resultados s ao os u nicos poss veis. ` vezes, o conjunto de resultados poss As veis n ao e t ao f acil de ser denido, veja o exemplo: Exemplo 4.2. Selecionar ao acaso um habitante de Maring a e medir sua altura em metros. Quais os resultados poss veis deste experimento? N umeros reais entre 0 e ? Supondo que n ao exista uma altura m axima, e evidente que esse conjunto cont em resultados imposs veis. talvez seja razo avel fazer = (0, ). Mas Outros candidatos para seriam, por exemplo, os intervalos limitados (0, 3) e [1/10, 3]. Os dois intervalos cont em, aparentemente, todos os resultados poss veis do experimento. Esta propriedade j a e suciente para os prop ositos aqui estudados, e qualquer desses intervalos (incluindo (0, )) pode ser escolhido para ser espa co amostral. De fato, a pr opria reta R, embora contenha muit ssimos resultados imposs veis, pode representar uma escolha muito conveniente para .

41

4.3

Deni c ao Axiom atica de Probabilidade

ROSSI, Robson M. 42

O importante, ent ao, e que contenha todo resultado poss vel; por isso suponha que a todo resultado poss vel corresponda um, e somente um, ponto ; e resultados distintos correspondem a pontos distintos em , i. e., n ao pode representar mais de um resultado. Para uma terminologia uniforme os resultados dos experimentos ser ao denominados eventos. Quando se realiza um experimento h a certos eventos que ocorrem ou n ao. Por exemplo, no primeiro exemplo alguns eventos s ao: A = observa-se um n umero par B = observa-se o n umero 2 C = observa-se um n umero > 3. Note que cada um desses eventos pode ser identicado a um subconjunto de , a saber: A = {2, 4, 6}, B = {2} e C = {4, 5, 6}. Esta identica c ao costuma ser realiz avel no caso de um experimento qualquer. Deni c ao: Seja o espa co amostral do experimento. Todo subconjunto A ser a chamado evento. e o evento certo, o evento imposs vel. Se , o evento { } e dito evento elementar (ou simples). Nota c oes de conjuntos e eventos: AB e o evento A ou B ; AB e o evento A e B ; Ac e o evento n ao A ou A (isto e, ocorre o evento Ac se, e s o se, n ao ocorre A); A B signica: a ocorr encia do evento A implica a ocorr encia do evento B ; A B = signica: A e B s ao eventos mutuamente exclusivos ou incompat veis. Deni c ao de Probabilidade A esta altura pode-se perguntar: a que ser a atribu do probabilidade? Seja A um evento, i. e., A . Desta forma pode-se atribuir probabilidade a A: P (A) = #A #

#A : n umero de resultados favor aveis a A; # : n umero de resultados poss veis. Outro m etodo de denir probabilidade e o da frequ encia relativa: pode-se denir P (A) como o limite da frequ encia relativa da ocorr encia de A em n repeti c oes independentes do experimento, com n tendendo ao innito, isto e: #A n em que #A e o n umero de ocorr encias de A em n ensaios independentes do experimento. Essa e a deni c ao frequentista de probabilidade. Baseia-se na experi encia, comum a todos, da estabilidade da frequ encia relativa de ocorr encia de eventos, quando e realizado muitas repeti c oes do experimento. Essa deni c ao foi utilizada por Von Mises na constru c ao de uma teoria de probabilidade. Observa c ao: Embora nenhuma destas deni c oes - cl assica e frequ encial - seja completamente rigorosa, sendo, portanto, ambas insatisfat orias do ponto de vista te orico, elas servem para que se avance bastante no conhecimento das principais id eias da Teoria das Probabilidades. P (A) = lim
n

4.3

Deni c ao Axiom atica de Probabilidade

Suponha agora que existam as probabilidades em uma certa fam lia A de eventos, chamados eventos aleat orios. Suponha tamb em que a todo A seja associado um n umero real P (A), chamado probabilidade de A, de modo que os itens a seguir sejam satisfeitos: 1. 0 P (A) 1; 2. P () = 1.

4.4

Propriedades Fundamentais

ROSSI, Robson M. 43

4.4

Propriedades Fundamentais

Seja P uma probabilidade em uma fam lia de eventos A. Ent ao e as propriedades a seguir s ao consequ encias dos axiomas: Se e o conjunto vazio, ent ao P () = 0; Se Ac for o evento complementar de A, ent ao P (A) = 1 P (Ac ) j a que P () = P (A) + P (Ac ); ao dois eventos quaisquer e A B e o complemento de A em rela c ao a B , ent ao Se A e B s P (A B ) = P (A) P (A B ). Prova. Pelo diagrama de Venn podemos notar que A = (A B ) (A B ) e que A B e A B s ao disjuntos, logo: P (A) = P ((A B ) (A B )) P (A) = P (A B ) + P (A B ) P (A B ) = P (A) P (A B ); Se A e B forem dois eventos quaisquer, ent ao, P (A B ) = P (A) + P (B ) P (A B ). Prova. Pelo diagrama de Venn podemos notar que A B = B (A B ). Uma vez que, B e A B s ao mutuamente exclusivos, segue que: P (A B ) = P (B (A B )) P (A B ) = P (B ) + P (A B ) P (A B ) = P (A) + P (B ) P (A B ). Se A, B e C forem tr es eventos quaisquer, ent ao: P (A B C ) = P (A) + P (B ) + P (C ) P (A B P (A C ) P (B C ) P (A B C ). Exemplo 4.3. Se A e B s ao eventos de A mutuamente exclusivos, e e conhecido que P(A)=0,20 enquanto P(B)=0,30, pode-se avaliar varias probabilidades: a. P (Ac ) = 1 P (A) = 0, 80 b. P (B c ) = 1 P (B ) = 0, 70 c. P (A B ) = P (A) + P (B ) = 0, 2 + 0, 3 = 0, 5 d. P (B A) = 0 e. P (Ac B c ) = P ((A B )c ), pela Lei de Morgan = 1 P (A B ) = 1 (P (A) + P (B )) = 0, 5 Exerc cio 4.1. Suponha que os eventos A e B n ao sejam mutuamente exclusivos e que P (A) = 0, 20, P (B ) = 0, 30 e P (B A) = 0, 10. Ent ao, calcule as mesmas probabilidades do exemplo anterior. Exerc cio 4.2. Entre os 1.820 indiv duos em um estudo, 30 sofriam de tuberculose e 1.790 n ao. Raios X do t orax foram administrados para todos; 73 tiveram raio X positivo o que implica evid encia signicante de doen ca inamat oria enquanto os resultados dos outros 1.747 foram negativos. Os dados pra esse estudo s ao apresentados a seguir: Raio X Tuberculose Total N ao Sim Negativo 1.739 8 1.747 Positivo 51 22 73 Total 1.790 30 1.820 Escolhido um individuo ao acaso, qual a probabilidade: a) de ter raio X negativo? b) de ter tuberculose e o raio X positivo?

4.5

Probabilidade Condicional

ROSSI, Robson M. 44

4.5

Probabilidade Condicional

Deni c ao: Se A e B s ao eventos tal que P (B ) > 0, a probabilidade condicional de A dado B e denida por: P (A B ) . P (B ) Do diagrama de Venn se A e B s ao desenhados de modo que areas de A, B e A B sejam proporcionais `s suas probabilidades, ent a ao P (A|B ) e a propor c ao do evento B ocupada pelo evento A. P (A|B ) =

Note que P (A|B ), e realmente uma probabilidade. Consequentemente as propriedade de probabilidade s ao mantidas, por exemplo: P (Ac |B ) = 1 P (A|B ). Decorre da deni c ao que: P (A B ) = P (B )P (A|B ) ou P (A B ) = P (A)P (B |A). Esta igualdade se generaliza: sendo A, B e C eventos aleat orios, tem-se P (A B C ) = P (A)P (B |A)P (C |A B ). Isto pode ser visto pelo diagrama, pensando nas probabilidades de todos os eventos como proporcionais as suas ` areas: P (A B C ) = P (A B )P (C |A B ) = P (A)P (B |A)P (C |A B ).

Exerc cio 4.3. Para os dados do exerc cio anterior, escolhido um indiv duo ao acaso, qual a probabilidade: a) de ter raio X negativo e ser tub erculo? b) de ter tuberculose, dado que o resultado do raio X foi negativo? c) de ter raio X positivo, dado que n ao e tuberculoso? Teorema da Probabilidade Total: Se a sequ encia (nita ou enumer avel) de eventos aleat orios B e A1 , e., se s ao eventos aleat orios mutuamente exclusivos e exaustivos, A2 , ... formar uma parti c ao de , i. os Ai s ao disjuntos (2 a 2) ent ao Ai = , ent ao: P (B ) = P (Ai )P (B |Ai ).
i

4.5

Probabilidade Condicional

ROSSI, Robson M. 45

Teorema de Bayes: Considerando o Teorema da Probabilidade Total, segue que: P (B |Ai )P (Ai ) P (Ai |B ) = . n P (B |Ai )P (Ai )
i=1

em 5 bolas brancas e 3 bolas pretas. Duas bolas s ao retiradas simultaneamente Exemplo 4.4. Uma caixa cont ao acaso e substitu das por 3 bolas azuis. Em seguida, duas novas bolas s ao retiradas ao acaso da caixa. a) calcular a probabilidade de que essas duas u ltimas bolas sejam da mesma cor; b) se as duas ultimas bolas retiradas forem uma branca e uma preta, calcular a probabilidade de que, na primeira extra c ao, tenham sido duas bolas brancas. Solu c ao: a) Uso do teorema da probabilidade total . Para a primeira retirada de duas bolas, os eventos E1 : sa rem duas bolas brancas E2 : sair uma bola branca e uma preta E3 : sa rem duas bolas pretas formam uma participa c ao de , isto e, s ao mutuamente exclusivos e exaustivos tal que: 5 4 10 P (E1 ) = = 8 7 28 5 3 15 P (E2 ) = P (BP ) + P (P B ) = 2 = 8 7 28 3 2 3 P (E3 ) = = 8 7 28 Observe que P (E1 ) + P (E2 ) + P (E3 ) = 1 Agora sendo F : duas u ltimas bolas da mesma cor, podemos calcular as P (F |Ei ), cada uma sendo calculada, em cada caso, pela soma das probabilidades de sa rem duas brancas, duas pretas ou duas azuis. Para isso basta analisar a nova composi c ao da caixa condicionada ` a ocorr encia de cada um dos eventos da fam lia Ei . Teremos: 9 3 2 3 2 3 2 P (F |E1 ) = P (BB |E1 ) + P (P P |E1 ) + P (AA|E1 ) = + + = 9 8 9 8 9 8 36 10 4 3 2 1 3 2 P (F |E2 ) = P (BB |E2 ) + P (P P |E2 ) + P (AA|E2 ) = + + = 9 8 9 8 9 8 36 13 5 4 1 0 3 2 P (F |E3 ) = P (BB |E3 ) + P (P P |E3 ) + P (AA|E3 ) = + + = 9 8 9 8 9 8 36 Finalmente, utilizando a equa c ao da probabilidade total, temos que: 10 9 15 10 3 13 579 P (F ) = P (E1 )P (F |E1 ) + P (E 2)P (F |E2 ) + P (E3 )P (F |E3 ) = + + = 28 36 28 36 28 36 1008 0, 5744. b) A solu c ao desta parte e dada pelo teorema de Bayes. Seja G : as duas u ltimas bolas retiradas serem uma preta e uma branca, temos que:

4.6

Independ encia Estat stica

ROSSI, Robson M. 46

3 3 3 3 9 + = 9 8 9 8 36 4 2 4 2 8 P (G|E2 ) = P (P B |E2 ) + P (BP |E2 ) = + = 9 8 9 8 36 5 1 5 1 5 P (G|E3 ) = P (BP |E3 ) + P (P B |E3 ) = + = 9 8 9 8 36 O denominador da formula de Bayes e a probabilidade do evento que ocorreu dado pelo teorema da probabilidade total. No caso 3 10 9 15 8 3 5 225 P (G) = P (Ei )P (G|Ei ) = + + = 28 36 28 36 28 36 1008 i=1 Logo pela formula de Bayes 10 9 P (Ei )P (G|Ei ) P (E G ) 36 = 90 = 0, 4. = = 28 P (E1 |G) = 225 P (G) P (G) 225 1008 3 Exerc cio 4.4. Encontrar P (E2 |G), P (E3 |G) e somas P (Ei |G). P (G|E1 ) = P (P B |E1 ) + P (BP |E1 ) =
i=1

Exemplo 4.5. Experimento de duas etapas (experimento composto). Supor que uma caixa contenha tr es moedas: duas honestas e uma de duas caras. Retirar uma moeda ao acaso e jog a-la. Pergunta: qual a probabilidade condicional da moeda ter sido a de duas caras, dado que o resultado nal foi cara? Solu c ao: Nesse experimento, deseja-se calcular a probabilidade de um evento determinado pela primeira etapa dado um evento determinado pela segunda etapa. Sejam, ent ao A1 = moeda retirada e honesta, A2 = moeda retirada e a de duas caras e B = resultado nal e cara. Aplicando a f ormula de Bayes, tem-se: 1 1 P (B |A2 )P (A2 ) 1 3 P (A2 |B ) = = = . 1 1 2 P (B |A1 )P (A1 ) + P (B |A2 )P (A2 ) 2 1 + 3 3 3 Esse resultado pode ser interpretado em termos de freq u encia relativa: se o experimento fosse repetido independentemente um grande n umero de vezes, ent ao a moeda de duas caras seria a escolhida na primeira etapa de aproximadamente metade dos experimentos em que o resultado nal fosse cara.

4.6

Independ encia Estat stica

Deni c ao: Os eventos aleat orios A e B s ao independentes se P (A B ) = P (A)P (B ). Obs.: Eventos de probabilidade 0 (zero) ou 1 s ao independentes de qualquer outro: se P (A) = 0, ent ao P (A B ) = 0 e A e B s ao independentes; se P (B ) = 1, ent ao P (A B ) = P (A) P (A B c ) e, como A B c B c implica P (A B c ) P (B c ) = 0, tem-se que P (A B c ) = 0 e P (A B ) = P (A) = P (A)P (B ). Logo A e B s ao independentes. Exemplo 4.6. No experimento em que os eventos A: observa-se um n umero par e Ac : observa-se um n umero mpar em que : {1, 2, 3, 4} n ao s ao independentes. Intuitivamente, porque n ao s ao compat veis, 1 e formalmente, porque P (A Ac ) = P () = 0 = = P (A)P (Ac ). 4

4.7

Vari avel Aleat oria Discreta e Cont nua

S ao provenientes de Experimentos Aleat orios (todos as possibilidades s ao equiprov aveis, isto e, tem a mesma chance de ocorr encia). As v.as. geralmente s ao representadas por letras mai usculas A, X, Y ou W, que podem assumir qualquer um dos conjuntos de valores que lhe s ao atribu dos. Exemplo 4.7. Em um experimento de lan car uma moeda e observar a sua face, existem duas possibilidades:Cara ou Coroa. Considerando uma v.a. discreta X: n umero de caras em dois lan camentos, temos: { Cara: c possibilidades {cc,ck,kc,kk}: X : {0, 1, 2}.Muitos experimentos produzem resultados n aoCoroa: k num ericos. Antes de analis a-los, e conveniente transformar seus resultados em n umeros, o que e feito atrav es

4.7

Vari avel Aleat oria Discreta e Cont nua

ROSSI, Robson M. 47

da vari avel aleat oria (v.a.), que e uma regra de associa c ao de um valor num erico a cada ponto do espa co amostral. As vari aveis aleat orias podem ser discretas, cont nuas ou mistas. No caso discreto, a distribui c ao de probabilidade pode ser caracterizada por uma fun c ao de probabilidade, que indica diretamente as probabilidades associadas a cada valor. O passo fundamental para se entender uma v.a. e associar a cada valor a sua probabilidade, obtendo o que se chama uma distribui c ao de probabilidades, que ca caracterizada pelos valores da v.a. X e pela fun c ao que associa a cada valor uma probabilidade. Esta fun c ao e chamada fun c ao de probabilidade. No caso discreto, a fun c ao p(xi ) que associa a cada valor xi (de uma vari avel aleat oria discreta X ) sua probabilidade de ocorr encia, isto e: p(xi) = P (Xi = xi ) = p. Para que uma fun c ao p(x) seja uma distribui c ao de probabilidade, e necess ario que: 1. p(x) 0; 2. p(x) = 1 (somat orio para todos os valores de x do dom nio de X ); 3. P (X = x) = p(x). No caso cont nuo, a distribui c ao de probabilidade e caracterizada pela fun c ao de densidade de probabilidade, que e uma fun c ao cont nua gozando das seguintes propriedades: 1. f (x) 0; 2. 3.
b a

e a probabilidade entre a e b); f (x)dx = P (a x b) ( area sobre a curva f (x) entre os pontos a e b f (x)dx = 1.

Para melhor entender a abrang encia do conceito de v.a., e necess ario proceder a algumas etapas assim como estudar caracter sticas gerais das distribui c oes das v.a. para as distribui c oes mais importantes, que descrevem um grande n umero de fen omenos aleat orios. Neste texto ser a apresentado apenas conceitos b asicos.

4.7.1

Esperan ca Matem atica de uma Vari avel Aleat oria

A M edia ou Esperan ca matem atica de uma vari avel aleat oria e denida como: Para vari aveis aleat orias discretas: E (X ) = (X ) = aveis aleat orias cont nuas, por: Para vari

xi P (xi ).
i

E (X ) =

xf (x)dx.

Propriedades da M edia: 1. E (k ) = k , k e uma constante; 2. E (kX ) = kE (X ); 3. E (X Y ) = E (X ) E (Y ); 4. E (X k ) = E (X ) k .

4.7

Vari avel Aleat oria Discreta e Cont nua

ROSSI, Robson M. 48

4.7.2

Variabilidade de uma Vari avel Aleat oria

A Vari ancia, o Desvio-padr ao e o Coeciente de Varia c ao s ao par ametros que caracterizam a variabilidade das vari aveis aleat orias, sendo de grande import ancia. A Vari ancia de uma Vari avel Aleat oria e denida por: 2 = 2 (X ) = E [(X x )2 ] = E (X 2) [E (X )]2 , em que, de acordo com a deni c ao da m edia, tem-se: E (X 2 ) = x2 i P (xi ),
i

para vari aveis aleat orias discretas, e E (X 2 ) =

x2 f (x)dx,

e para vari aveis aleat orias cont nuas. Propriedades da Vari ancia: 1. 2 (k ) = 0, k e uma constante; 2. 2 (kX ) = k 2 2 (X ); 3. se X e Y s ao vari aveis aleat orias independentes, 2 (X Y ) = 2 (X ) + 2 (Y ); 4. 2 (X k ) = 2 (X ). O Desvio-padr ao de uma Vari avel Aleat oria e a raiz quadrada positiva da vari ancia. Tem a vantagem denotado por de ser expresso na mesma unidade da vari avel. Suas propriedades decorrem da vari ancia. E ou (X ). O Coeciente de Varia c ao de uma Vari avel Aleat oria e denido como: CV = . (X ) uma medida adimensional da dispers utilizado para comparar conjuntos de dados quanto a E ao. E dispers ao.

Cap tulo 5

Distribui c oes de Probabilidade


O objetivo da Infer encia Estat stica e obter arma c oes sobre uma dada caracter stica da popula c ao, na qual se tem interesse, a partir de informa c oes colhidas de uma amostra. Essa caracter stica de interesse pode ser representada por uma vari avel aleat oria. Se informa c oes completa sobre a distribui c ao de probabilidade da vari avel em estudo, fosse conhecida n ao haveria necessidade de colher uma amostra. Ent ao, toda arma c ao desejada seria obtida atrav es desta distribui c ao. Mas isso raramente acontece. A informa c ao que se tem a respeito da vari avel e parcial ou nada se conhece. Exemplos: a altura dos brasileiros adultos, apresenta uma distribui c ao Normal? encia (propor c ao) de uma determinada doen ca infecciosa segue uma distribui c ao Binomial? a preval o n umero de lhos de um casal humano segue uma distribui c ao de Poisson ? c ao Exponencial? o tempo de vida de pacientes soropositivos segue uma distribui Se n ao h a informa c oes nem sobre os par ametros, nem sobre a forma da curva, ent ao, o uso de uma amostra nos d a uma id eia sobre o comportamento da vari avel na popula c ao. Atrav es de suas caracter sticas e atrav es de testes de ader encia, podemos vericar qual o modelo probabil stico (conhecido) ser a mais adequado aos dados. Muitas vezes isto n ao acontece. Nestes casos um novo modelo dever a ser produzido, ou a distribui c ao e produzida atrav es de simula c ao computacional.

5.1

Distribui c ao Binomial

Considere n ensaios independentes e todos com a mesma probabilidade de sucesso p. A vari avel aleat oria discreta que conta o n umero total de sucessos e denominada Binomial com par ametros n e p, isto e X Bin(n; p) onde sua fun c ao de probabilidade e dada por: ( ) n x n x P (X = x) = p q , q = 1 p; x = 0, 1, 2, ..., n. x Exemplo 5.1. Uma certa doen ca pode ser curada atrav es de procedimentos cir urgicos em 80% dos casos. Dentre os que t em essa doen ca, sorteamos 15 pacientes que ser ao submetidos ` a cirurgia. Fazendo alguma suposi c ao adicional que julgar necess aria. Qual a probabilidade de todos serem curados? X P (X = Bin(15; 0, 8) ( ) 15 15) = 0, 815 0, 21515 15 0, 0352 ou 3, 52%. 49

5.2

Distribui c ao de Poisson

ROSSI, Robson M. 50

Obs.: Se X tem uma distribui c ao Binomial ent ao: M edia : E (X ) = np e Vari ancia : V ar(X ) = npq.

5.2
por

Distribui c ao de Poisson

Uma vari avel X tem distribui c ao de Poisson com par ametro > 0 se sua fun c ao de probabilidades e dada e , x = 0, 1, 2, ... x! com par ametro sendo usualmente referido como a taxa de ocorr encia. A nota c ao utilizada ser a P (X = x) = X P o(). O modelo Poisson e um modelo discreto muito utilizado em experimentos biol ogicos e, nesses casos, e a frequ encia m edia ou esperada de ocorr encias num determinado intervalo de tempo. Exemplo 5.2. Chegada de pacientes em um pronto socorro. Suponha que o n umero de pacientes que chegam a um pronto socorro de uma pequena cidade durante a madrugada tenha distribui c ao de Poisson com m edia 3 ( = 3). Calcular as probabilidades de chegadas desses pacientes: Solu c ao: Para X valendo 0 temos P (X = 0) = an alogo e os resultados est ao na Tabela 5.1. 3e3 = 0, 05. Para os demais (x = 1, 2, ...) o c alculo e 0!

Tabela 5.1: Distribui c ao de Poisson com par ametro = 3. x P(X = x) x P(X = x) 0 0,050 7 0,022 1 0,149 8 0,008 2 0,224 9 0,003 3 0,224 10 0,001 4 0,168 11 0,000 12 0,000 5 0,101 6 0,050 13 0

5.3

Distribui c ao Normal

Esta distribui c ao e muito importante na teoria e na aplica c ao de estat stica. A distribui c ao Normal foi inicialmente estudada no s eculo XVIII quando foi observado que os erros de mensura c oes seguem uma distribui c ao em forma de sino. Ela foi apresentada na forma matem atica em 1733 por DeMoivre, que derivou-a como uma forma limitante da distribui c ao binomial. Esta distribui c ao foi tamb em descoberta por Laplace por volta de 1775. Devido aos erros hist oricos, seu descobrimento tem sido atribu do a Gauss, por em suas primeiras publica c oes com refer encia a ela apareceu em 1809. V arias tentativas foram feitas durante os s eculos dezoito e dezenove para estabelecer sua distribui c ao como a lei b asica de probabilidade para todas as vari aveis aleat orias; assim o nome normal foi aplicado. A maioria dos fen omenos da natureza, em especial os biol ogicos, apresenta varia c oes dentro de um intervalo denido. Se colet assemos os dados quanto ao peso de mil indiv duos, encontrar amos diversos valores, dos quais haveria pequena quantidade de baixos e altos, e grande quantidade em torno dos valores centrais. Numa representa c ao gr aca dos dados obtidos, encontrar amos uma distribui c ao normal, conforme Figura 5.1.

5.3

Distribui c ao Normal

ROSSI, Robson M. 51

Figura 5.1: Distribui c ao Normal. A Distribui c ao de Probabilidade Normal, ou Distribui c ao Gaussiana (curva de Gauss), se caracteriza por reunir um grande n umero de valores em torno da m edia, que diminuem gradualmente de frequ encia ` a medida que se afastam dela. A distribui c ao de probabilidade e dada por: P (X = x) = 1 2 1 x e 2
( )2

< x < +

X N (, ) L e-se: O conjunto de dados X, t em distribui c ao Normal com m edia : e desvio-padr ao : . Devido a complexidade da fun c ao de probabilidade, fazemos uso da Tabela Normal-Padr ao ou NormalReduzida, constru da atrav es da transforma c ao na vari avel X: Z= Caracter sticas: 1. e cont nua; encias ou 100%; 2. a curva em forma de sino, que engloba o total de frequ 3. e sim etrica: a m edia () = a moda (Mo ) = a mediana (Md ); 4. e unimodal; 5. o desvio-padr ao e ; 6. a curva de inex ao ocorre nos pontos x = ; Como j a dissemos, a area subordinada ` a curva normal representa 100% das frequ encias. Em torno da m edia determinamos intervalos com utiliza c ao do desvio-padr ao, conforme abaixo: 2 3 = 68, 26% = 95, 45% = 99, 73% X N (0, 1)

Exemplo 5.3. Press ao sist olica em jovens saud aveis. Suponha que a press ao arterial sist olica em pessoas jovens gozando de boa sa ude tenha distribui c ao N (120, 10) mmHg. Qual e a probabilidade de se encontrar uma pessoa com press ao sist olica acima de 140 mmHg ? Solu c ao: X 140 120 Z= = =2 10 P (X 140) = P (Z 2) = P (Z 2) = 0, 0228 ou 2, 28%. Isto e, 2, 28% das pessoas jovens e sadias t em press ao sist olica acima de 140 mmHg.

5.4

Distribui c ao Exponencial

ROSSI, Robson M. 52

Exemplo 5.4. O peso ( mg) de um determinado medicamento e denotada por X e e distribu da como N(800, 12). Um t ecnico em farm acia ao test a-lo requer que ele tenha peso de pelo menos 772 mg. Uma amostra do medicamento e selecionada aleatoriamente e testada. Solu c ao: Para encontrar P (X 772), primeiro calculamos: P (X 772) = 1 P (Z < 2, 33) = 1 0, 001 = 0, 99.

Figura 5.2: P(X < 772) onde X N(800, 12).

5.4

Distribui c ao Exponencial

Uma vari avel aleat oria X , que toma todos os valores n ao negativos, ter a uma distribui c ao exponencial com par ametro > 0, se sua fun c ao de densidade for dada por: { ex ; x 0 f (x) = 0; c.c. onde o par ametro e uma constante real positiva. 1 1 Sua m edia e dada por E (X ) = e sua vari ancia por V (X ) = 2 . Obs.: Uma informa c ao u til e que P (T x) = 1 ex , x 0. Exemplo 5.5. A vida u til de um componente eletr onico pode ser representada por uma fun c ao densidade exponencial com raz ao de falha 0, 5 falhas por hora (isto e, = 0, 5). O tampo m edio de falhas, E (X ), e de 2 horas. Suponha que se deseje determinar a fra c ao dos tais componentes que ir ao falhar antes do tempo m edio ou tempo de vida esperado. Solu c ao: Como P (T 2) = 1 e0,52 = 0, 6321. Neste caso, 63,212% dos tens ir ao falhar antes de 2 horas.

Figura 5.3: A m edia de uma distribui c ao exponencial.

Cap tulo 6

Infer encia Estat stica


6.1 Introdu c ao

Infer encia Estat stica ou Estat stica indutiva e a parte da estat stica que utiliza m etodos cient cos para fazer arma c oes e tirar conclus oes sobre caracter sticas ou par ametros de uma popula c ao, baseando-se em resultados de uma amostra. O pr oprio termo indutiva decorre da exist encia de um processo de indu c ao, isto e, um processo de racioc nio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclus oes sobre a realidade no todo. O uso de informa c oes da amostra para concluir sobre o todo faz parte da atividade di aria da maioria das pessoas. Basta observar como uma cozinheira verica se o prato que ela est a preparando tem ou n ao a quantidade adequada de sal. Ou ainda, quando uma dona de casa, ap os experimentar um peda co de uma laranja numa banca de feira, decide se as compra ou n ao. Essas s ao decis oes baseadas em procedimentos amostrais. O objetivo e procurar a conceitua c ao formal desses princ pios intuitivos do dia-a-dia para que possam ser utilizados cienticamente em situa c oes mais complexas. f E acil perceber que um processo de infer encia ou indu c ao ( em estat stica) n ao pode ser exato. A Infer encia Estat stica, entretanto, ir a dizer at e que ponto pode-se estar errando nas infer encias, e com que probabilidade. Esse fato e fundamental para que uma infer encia possa ser considerada estat stica, e faz parte dos objetivos da Infer encia Estat stica. Em suma, a Infer encia Estat stica busca obter resultados sobre as popula c oes a partir das amostras, dizendo tamb em, qual a precis ao desses resultados e com que probabilidade se pode conar nas conclus oes obtidas. Evidentemente, a forma como as infer encias ser ao realizadas ir a depender de cada tipo de problema, conforme ser a estudado posteriormente. Segue-se que a teoria da Infer encia Estat stica recorre intensamente a conceitos e resultados do C alculo de Probabilidades. O objetivo da Infer encia Estat stica e obter arma c oes sobre uma dada caracter stica da popula c ao, na qual se tem interesse, a partir de informa c oes colhidas de uma amostra. Essa caracter stica de interesse pode ser representada por uma vari avel aleat oria. Se informa c oes completa sobre a distribui c ao de probabilidade da vari avel em estudo, fosse conhecida n ao haveria necessidade de colher uma amostra. Toda arma c ao desejada seria obtida atrav es da distribui c ao da vari avel, usando-se as propriedades estudadas anteriormente. Mas isso raramente acontece. A informa c ao que se tem a respeito da vari avel e parcial ou nada se conhece. Por exemplo, a altura dos brasileiros adultos, apresenta uma distribui c ao normal, mas os par ametros que a caracterizam (m edia e vari ancia) s ao desconhecidos. Em outros casos, pode-se ter uma id eia da m edia e vari ancia, mas se desconhece a forma da curva. Ou ainda, n ao h a informa c oes nem sobre os par ametros, nem sobre a forma da curva. Ent ao, o uso de uma amostra permite ter uma id eia sobre o comportamento da vari avel na popula c ao.

53

6.2

No c oes de Amostragem

ROSSI, Robson M. 54

6.2

No c oes de Amostragem

Uma quest ao das mais comuns em planejamentos de pesquisas cient cas e: Por que amostragem? S ao quatro as principais raz oes para o uso de amostragem em levantamento de grandes popula c oes: Economia. Em geral, torna-se bem mais econ omico o levantamento de somente uma parte da popula c ao. Tempo. Em geral a pesquisa por amostragem e bem mais r apida que o censo. Numa pesquisa eleitoral, a tr es dias de uma elei c ao presidencial n ao haveria tempo suciente para pesquisar a popula c ao de eleitores do pa s, mesmo que houvesse recurso nanceiros em abund ancia. Conabilidade dos dados. Quando se pesquisa uma n umero reduzido de elementos, pode-se dar mais aten c ao aos casos individuais, evitando erros nas respostas. mais f Operacionalidade. E acil realizar opera c oes de pequena escala. Um dos problemas t picos nos grandes censos e o controle dos entrevistados. Situa c oes em que o uso da amostragem NAO e interessante Popula c ao pequena. Sob o enfoque de amostragem aleat orias que ser a estudado no pr oximo item, se a popula c ao for pequena (digamos de 50 elementos ou menos) para se ter uma amostra capaz de gerar resultados precisos para os par ametros da popula c ao, ser a necess ario uma amostra relativamente grande (em torno de 80% da popula c ao). Caracter stica de f acil mensura c ao. Mesmo que a popula c ao n ao seja t ao pequena, mas a vari avel que se quer observar e de t ao f acil mensura c ao, que n ao compensa investir num plano de amostragem. Por exemplo, para vericar a porcentagem de funcion arios favor aveis ` a mudan ca no hor ario de um turno de trabalho, pode-se entrevistar toda a popula c ao no pr oprio local de trabalho. Necessidade de alta precis ao. A cada dez anos o IBGE realiza um censo demogr aco para estudar diversas caracter sticas da popula c ao brasileira. Dentre estas caracter sticas t em-se o par ametro n umero de habitantes residentes no pa s, que e fundamental para o planejamento do pa s. Desta forma este par ametro precisa ser avaliado com grande precis ao e, por isto, se pesquisa toda a popula c ao.

6.2.1

Plano de Amostragem

Para se fazer um plano de amostragem e necess ario ter bem denidos os objetivos da pesquisa, a popula c ao a ser amostrada, bem como os par ametros que precisam ser estimados para atingir os objetivos da pesquisa. Num plano de amostragem deve constar a deni c ao da unidade de amostragem, a forma de sele c ao dos elementos da popula c ao e o tamanho da amostra. Amostras Probabil sticas e N ao Probabil sticas A sele c ao dos elementos que far ao parte da amostra pode ser feita sob alguma forma de sorteio ou por escolha deliberada. As amostras obtidas atrav es de algum tipo de sorteio s ao chamadas amostras probabil sticas ou aleat orias. Estes tipos de amostragens s ao particularmente interessante por permitir a utiliza c ao das t ecnicas cl assicas infer encia estat sticas, facilitando a an alise dos dados e fornecendo maior seguran ca ao generalizar resultados da amostra para a popula c ao. As amostras n ao aleat orias ou n ao probabil sticas podem levar a resultados u teis, n ao se prestam, entretanto, ` a utiliza c ao de processos estat sticos infer encias. Exemplo 6.1. Exemplos de casos de amostragens n ao probabil sticas: Amostragem sem crit erio (escolha desordenada); Amostragem intencional ou por conveni encia (o pesquisador escolhe certos elementos para a amostra); Amostragem com desigualdade de acesso aos elementos da popula c ao (h a elementos com mais facilidade de gurarem na amostra); Outras.

6.2

No c oes de Amostragem

ROSSI, Robson M. 55

Alguns Tipos de Amostragens Probabil sticas

6.2.2

Amostragem Aleat oria Simples (AAS)

Para a sele c ao de uma amostra aleat oria simples e necess ario ter uma lista completa dos elementos da popula c ao (ou de unidades de amostragens apropriadas). Este tipo de amostragem consiste em selecionar a amostra atrav es de um sorteio, sem restri c ao Seja uma u nica popula c ao com N elementos. Uma forma de extrair uma amostra aleat oria simples de tamanho n, sendo n < N , e identicar os elementos da popula c ao em pequenos peda cos de papel e retirar, ao acaso, n peda cos. Ser a considerado sorteio realizado sem reposi c ao. A amostragem aleat oria simples tem a seguinte propriedade: qualquer subconjunto da popula c ao, com o mesmo n umero de elementos, tem a mesma chance de fazer parte da amostra. Em particular tem-se que cada elemento da popula c ao tem a mesma probabilidade de pertencer ` a amostra. O uso de tabelas de n umeros aleat orios As tabelas de n umeros aleat orios facilitam o processo de sele c ao de uma amostra aleat oria simples. Tais tabelas s ao formadas por sucessivos sorteios de algarismos do conjunto {0, 1, 2, 3, ..., 9}, com reposi c ao. Uma parte destas tabelas e apresentada a seguir.

Figura 6.1: Esquema de uma Amostragem Aleat oria Simples e uma Tabela de N umeros Aleat orios. Procedimento: 1. Numere todos os elementos da popula c ao; umeros aleat orios; 2. Sorteie uma linha ou coluna da tabela de n 3. Leia os n umeros na tabela de n umeros aleat orios de modo que o n umero de algarismos em cada um seja igual ao n umero de algarismos do u ltimo da sua listagem. Assim, se o u ltimo n umero e 56, devem ser lidos n umeros com dois algarismos; 4. Despreze quaisquer n umeros que n ao correspondam a n umeros da lista. No caso de amostragem sem reposi c ao, despreze tamb em os n umeros que sejam repeti c oes de n umeros lidos anteriormente. Continue o processo at e obter o n umero desejado de observa c oes; 5. Use os n umeros assim escolhidos para identicar os tens da lista a serem inclu dos na amostra.

6.2

No c oes de Amostragem

ROSSI, Robson M. 56

6.2.3

Amostragem Aleat oria Simples Sistem atica (AASist)

Muitas vezes e poss vel obter uma amostra de caracter sticas parecidas com a amostra aleat oria simples, por um processo bem mais r apido. Por exemplo, tirar uma amostra de 1.000 chas, dentre uma popula c ao de 5.000 chas, pode-se tirar, sistematicamente, uma cha a cada cinco (5.000/1.000 = 5). Para garantir que cada cha da popula c ao tenha a mesma probabilidade de pertencer a amostra, a primeira cha deve ser sorteada, dentre as cinco primeiras. Numa amostragem sistem atica a rela c ao N/n e chamada intervalo de sele c ao. No exemplo das chas o intervalo de sele c ao e 5.000/1.000 = 5.

Figura 6.2: Esquema de uma Amostragem Aleat oria Sistem atica.

6.2.4

Amostragem Aleat oria por Conglomerados (AAC)

A popula c ao e dividida em diferentes conglomerados (grupos), extraindo-se uma amostra apenas dos conglomerados selecionados, e n ao de toda a popula c ao. O ideal seria que cada conglomerado representasse tanto quanto poss vel o total da popula c ao. Na pr atica, selecionam-se os conglomerados geogracamente. Escolhem-se aleatoriamente algumas regi oes, em seguida algumas sub-regi oes e nalmente, alguns lares. Esse processo possibilita ao pesquisador entrevistar apenas poucas pessoas. Suponha que desejamos selecionar uma amostra de domic lios na cidade de Maring a. Para se proceder, a sele c ao precisamos de uma lista atualizada dos endere cos dos domic lios. muito mais A elabora c ao dessa lista e uma tarefa que requer um consider avel esfor co f sico e nanceiro. E conveniente identicarmos no mapa da cidade alguns conglomerados naturais ou seja, as ruas ou quarteir oes. Algumas vezes e poss vel a constru c ao de conglomerados, nesse caso a melhor t ecnica consiste em se colocar num mesmo conglomerado unidades elementares com caracter sticas ou valores bem diferentes. Isto e justamente o princ pio oposto da estratica c ao onde os estratos eram formados com unidades elementares com caracter sticas ou valores bem pr oximos. Se cada conglomerado e uma miniatura da popula c ao, n o podemos fazer boas estimativas pela sele c ao de poucos conglomerados. No entanto rara s ao ` as vezes que temos oportunidade de construir conglomerados, pois na maioria dos casos somos obrigados a nos valer de conglomerados naturais, como ruas, quarteir oes ou munic pios. Isso devido ao fato de que e necess ario se ter os limites dos conglomerados plenamente identicados no campo. Normalmente os conglomerados naturais n ao s ao t ao ecientes, por exemplo as pessoas que moram numa mesma rua tem aproximadamente as mesmas caracter sticas (renda). Esse fato faz com que o conglomerado seja internamente bem homog eneo.

6.2

No c oes de Amostragem

ROSSI, Robson M. 57

Figura 6.3: Congromerados da cidade de Maring a e Regi ao.

6.2.5

Amostragem Aleat oria Estraticada (AAE)

A t ecnica de amostragem estraticada consiste em dividir a popula c ao em subgrupos, que s ao denominados de estratos. Estes estratos devem ser internamente mais homog eneos do que a popula c ao toda, com respeito ` as vari aveis em estudo. Por exemplo, para estudar alguns par ametros, de um conjunto de hot eis, pode-se estraticar esta popula c ao por quantidade de estrelas, pelo tipo de acomoda c oes (quarto, apartamento, chal e etc), ou pela dist ancia at e o cento da cidade. Deve-se escolher um crit erio de estratica c ao que forne ca estratos bem homog eneos, com respeito ao que se est a estudando. Neste contexto, um pr evio conhecimento sobre a popula c ao em estudo e fundamental. Sobre os diversos estratos da popula c ao, s ao realizadas sele c oes aleat orias, de forma independente. A amostra completa e obtida atrav es da agrega c ao das amostras de cada estrato Amostragem Aleat oria Estraticada Proporcional (AAEp) Neste caso particular de amostragem estraticada, a proporcionalidade do tamanho de cada estrato da popula c ao e mantida na amostra. Por exemplo: se um estrato corresponde a 20% do tamanho da popula c ao ele tamb em deve corresponder a 20% da amostra. A amostragem estraticada proporcional garante que cada elemento da popula c ao tem a mesma probabilidade de pertencer a amostra e a soma dos tamanhos dos subgrupos na amostra deve ser igual ou maior ao tamanho da amostra. Desde que no problema em estudo, os estratos formam subgrupos mais homog eneos do que a popula c ao como um todo, uma amostra estraticada proporcional tende a gerar resultados mais precisos, quando comparada com uma amostra aleat oria simples.

Figura 6.4: Ilustra c ao de uma amostragem estraticada proporcional.

6.2

No c oes de Amostragem

ROSSI, Robson M. 58

Exemplo 6.2. A popula c ao de N=1.200 indiv duos de uma escola e composta por 20% de professores, 20% de servidores e 60% de alunos. Separam-se os grupos e sorteia-se uma amostra de tamanho 10% de N, com 24 professores, 24 servidores e 72 alunos.

Figura 6.5: Ilustra c ao de uma amostragem estraticada proporcional dos indiv duos de uma escola.

FONTES DE ERROS O erro amostral, denido como a diferen ca entre uma estat stica (calculada a partir de uma amostra de n elementos) e o verdadeiro valor do par ametro (caracter stica de uma popula c ao de N elementos), parte do princ pio de que as n observa c oes que comp oem a amostra s ao obtidas sem erro. Na pr atica, isso geralmente n ao acontece. Havendo erros ou desvios nos dados da pr opria amostra, a diferen ca entre a estat stica e o par ametro pode ser maior que o limite toler avel, que ser a usado para o c alculo do tamanho da amostra. Por isso, o planejamento e a execu c ao da pesquisa devem ser feitos com muita cautela, para evitar ou reduzir, os erros nos pr oprios dados da amostra, conhecidos como erros n ao amostrais. Alguns dos erros s ao: Popula c ao acess vel diferente da popula c ao alvo; Exemplo: Em uma pesquisa sobre febre amarela no Amazonas, a investiga c ao se d a no centro da cidade ao inv es de ser a beira dos rios e/ou mata. Falta de resposta; Exemplo: Geralmente em question arios em que n ao h a orienta c ao ao indiv duo selecionado, ou ent ao quando a pergunta cria d uvida ou constrangimento em sua resposta. Erros de mensura c ao; Exemplo: Aparelhos desajustados e/ou cansa co do experimentador (ou inexperi encia). Efeito placebo; Exemplo: O indiv duo acredita realmente que tomou o medicamento com o princ pio ativo, certo que obteve melhoras signicativas (efeito psicol ogico). Efeito experimentador; Exemplo: Quando o pesquisador (dono de uma empresa, por exemplo) inuencia involuntariamente nas respostas ao questionar se o seu funcion ario est a satisfeito com sal ario.

6.3

Distribui c ao Amostral

ROSSI, Robson M. 59

6.3

Distribui c ao Amostral

J a foi visto, que o problema da Infer encia Estat stica e fazer uma arma c ao sobre par ametros da popula c ao atrav es da amostra. Suponha que uma arma c ao deva ser feita sobre um par ametro populacional (m edia, vari ancia ou qualquer outra medida). Ser a utilizado uma amostra aleat oria simples, com reposi c ao, de n elementos sorteados dessa popula c ao. A decis ao ser a baseada em uma estat stica calculada em fun c ao da amostra, (X1 , X2 , ..., Xn ). A validade da resposta seria melhor compreendida se fosse conhecido o que acontece com a estat stica, quando todas as amostras de uma popula c ao conhecida s ao retiradas, segundo o plano amostral adotado. veis. Esta Isto e, qual a distribui c ao da estat stica quando (X1 , X2 , ..., Xn ) assume todos os valores poss distribui c ao e chamada de distribui c ao amostral da estat stica e desempenha papel fundamental na teoria de Infer encia Estat stica. Didaticamente, tem-se o seguinte esquema: 1. Uma popula c ao X , com um certo par ametro de interesse; 2. Todas as amostras retiradas da popula c ao, de acordo com um certo procedimento; 3. Para cada amostra, calcula-se o valor da estat stica; 4. Os valores da estat stica formam uma nova popula c ao, cuja distribui c ao recebe o nome de distribui c ao amostral da estat stica. Para a obten c ao das distribui c oes amostrais em sua forma matem atica, precisamos entender o Teorema do Limite Central.

6.3.1

Distribui c ao Amostral da M edia

Considere uma popula c ao identicada pela vari avel X , cujos par ametros m edia populacional ( ) e vari ancia ( 2 ), s ao supostamente conhecidos. Todas as poss veis amostras aleat orias simples de tamanho n dessa popula c ao, devem ser retirada e para cada uma deve-se calcular x, a m edia da amostra. Em seguida, ser a constru do a distribui c ao amostral de e estudadas as suas propriedade. Teorema do Limite Central Teorema. Para amostras aleat orias simples (X1 , X2 , ..., Xn ), retiradas de uma popula c ao com m edia e vari ancia 2 , a distribui c ao amostral da m edia aproxima-se de uma distribui c ao Normal com m edia e 2 vari ancia e , quando n , isto n ( ) 2 X N ; . n
2 x1 + x2 + ... + xn ) = e V ar(X ) = . E (X n n i=1 ( ) 2 ( ) 2 N ; Portanto se X N ; , ent ao X ou n

= Prova: X

1 n

xi =

Z=

X N (0; 1) . n

6.3

Distribui c ao Amostral

ROSSI, Robson M. 60

Figura 6.6: Distribui c ao Amostral.

Verica c ao da Adequa c ao do Modelo Na pr atica n ao podemos fazer suposi c oes arbitr arias a respeito da distribui c ao de probabilidade dos dados, logo usamos de t ecnicas para fazer uma verica c ao da adequa c ao do modelo suposto. A verica c ao pode ser baseada nas caracter sticas do modelo, em gr acos especiais e em testes de ader encia. Para a distribui c ao Normal, em especial, sabemos que: 2 3 = 68, 26% = 95, 45% = 99, 73%

Figura 6.7: Faixa de Refer encia. Grandes discrep ancias entre as frequ encias relativas observadas e as probabilidades te oricas acima citadas, indicam uma poss vel falta de adequa c ao ao modelo gaussiano. Outros crit erios: T ecnicas Gr acas: Normal-plot, Q-Q-plot e P-P-plot; Testes de ader encia: Kolmogorov-Smirnov (K-S) [ e conhecidos], Shapiro Wilks (W) e/ou Lilliefors es de x e s, respectivamente]. (L) [ e desconhecidos e estimados pelos dados atrav Faixas de Refer encia Toda medida laboratorial e analisada confrontando-se seu valor com uma faixa padr ao. Isto e t ao comum que, na pr opria apresenta c ao do resultado, muitos laborat orios j a indicam os limites inferiores e superiores para o valor da medida que devem servir de base ao racioc nio cl nico. Devemos xar, inicialmente, o n vel de conan ca (1 )% ou cobertura; Calculamos atrav es da amostra de pessoas supostamente saud aveis: x e s.

6.3

Distribui c ao Amostral

ROSSI, Robson M. 61

Tabela 6.1: Faixas de Cobertura (1 )% 90% 95% 99% . . . (1 )%

Refer encia. Faixa x 1, 64.s x 1, 96.s x 2, 58.s . . . x Z .s 2

Exemplo 6.3. Faixa de refer encia para identicar o Pseudomonas sp. Um pesquisador deseja criar um padr ao para identicar presen ca de infec c ao bacteriana (Pseudomonas sp ) no trato respirat orio atrav es de cultura de escarro. Para isto, coletaram-se dados de pessoas sabidamente sadias e determinou-se o n umero de col onias encontradas em cada cultura. Foram encontrados os seguintes resultados, em duas etapas amostrais distintas. Amostra 1: 20 26 30 32 35 21 26 30 32 35 23 27 30 32 36 24 28 30 33 36 25 29 30 33 37 25 29 31 33 37 25 29 31 34 38 25 29 31 34 38 25 29 32 34 41 25 30 32 35 42

Amostra 2: 17 24 25 35 51 22 24 26 35 54 23 23 28 35 56 23 25 28 36 56 23 25 29 40 56 23 25 30 41 58 24 25 30 41 60 24 25 31 41 68 24 25 31 42 79

0.10

0.08

Freqncias

0.06

amostra

0.04

0.0

0.02

20

25

30

35

40

Q-QPlot

20

25

30

35

40

-2

-1

+1

+2

Figura 6.8: Histograma e Q-Q Plot da Amostra 1 Observe atrav es da Figura 6.8 o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados a distribui c ao Normal. Para a Amostra 1, foram realizados alguns testes de normalidade com uso de um software estat stico e indicaram ajuste dos dados j a (mais detalhes ser ao apresentados no cap tulo referente a Testes de Hip oteses). Observe atrav es da Figura 6.9 uma assimetria do histograma comparado ` a normal assim como a n ao ader encia ou desajuste dos dados (pontos) sob a reta, indicando que os dados n ao seguem uma distribui c ao normal. Testes conrmam isto para a Amostra 2. Neste caso duas metodologias distintas dever ao ser utilizadas para construir faixas de refer encia:

6.3

Distribui c ao Amostral

ROSSI, Robson M. 62

0.05

Q-=Q Plot

0.04

Freqncias 0.03

amostra2
20 40 60 80

0.02

0.01

0.00

20

30

40

50

60

70

-2

-1

Figura 6.9: Histograma e Q-Q Plot da Amostra 2 M etodo de Gauss para a Amostra 1: [ x 1, 96s] : [30, 7 1, 96(4, 9)] [21; 40] col onias - Adequado Observe que devido a normalidade temos praticamente a mesma faixa, utilizando o m etodo dos percentis: [21; 41] col onias - Adequado Sendo assim, considerando esse m etodo, um indiv duo ser a considerado doente se tiver com o n umero de col onias acima de 41 unidades. e M etodo dos Percentis para a Amostra 2, isto e, obter uma faixa de inclua, por exemplo, 95% dos elementos, excluindo os 2,5% valores menores e os 2,5 % maiores valores [22; 68] col onias - Adequado Considerando esse m etodo, um indiv duo na amostra 2 ser a considerado doente se tiver com o n umero de col onias acima de 68 unidades. Observe que, se opt assemos pelo m etodo de gauss para a amostra 2 ter amos: [7; 63] col onias - Inadequado Um teste estat stico a ser usado depende do tipo de vari avel e do tipo de planejamento.

6.3.2

Distribui c ao Amostral da Diferen ca de M edias

Analogamente ao caso da m edia, consideremos o caso em que temos duas popula c oes de modo que o car ater que estudamos em ambas (X1 e X2 ) s ao v.a. distribu das conforme as leis gaussianas: ( ) X1 N 1 ; 2 1 ( ) X2 N 2 ; 2 2 De cada uma dessas popula c oes, extraem-se, mediante amostragem aleat oria simples, amostras que n ao 1 e X 2 , ent ao: consit em por que serem necessariamente do mesmo tamanho (respectivamente, n1 e n2 ): X 2 2 derando que 2 1 = 2 = , tem-se que: ( ) 1 X 2 (1 2 ) X Z= N (0; 1) . 1 1 n + n 2 1

6.3

Distribui c ao Amostral

ROSSI, Robson M. 63

Quando as vari ancias das popula c oes s ao desconhecidas, mas podemos assumir que, pelo menos, s ao iguais, a seguinte estat stica distribui-se como uma t de Student com n1 + n2 2 graus de liberdade, isto e: ( ) 1 X 2 (1 2 ) X T = tn1 +n2 2 1 + 1 S n1 n2 2 2 e S 2 : em que S e a quase-vari ancia amostral ponderada de S 1 2 2 2 2 = (n1 1)S1 + (n2 1)S2 . S n1 + n2 2

6.3.3

Distribui c ao Amostral da Propor c ao

Seja uma popula c ao em que a propor c ao de elementos portadores de uma certa caracter stica e p. Assim, a popula c ao pode ser considerada como a vari avel aleat oria X , tal que: { 1, se o indiv duo possui a caracter stica ; X: 0, se o indiv duo n ao possui a caracter stica. assim, para n sucientemente grande, pelo Teorema Limite Central, a vari avel aleat oria X que conta o n umero de sucessos na amostra ter a a distribui c ao Normal com m edia np e vari ancia np(1 p), ou seja, c ao amostral de p como: X N (np; np(1 p)). Assim, para n , pode-se considerar a distribui ( ) p(1 p) p N p; . n em que a propor c ao de indiv duos portadores da caracter stica na amostra e dada por: p = X . n

6.4

Intervalo de Conan ca

ROSSI, Robson M. 64

6.4

Intervalo de Conan ca

Utilizando-se deste teorema, podemos construir um Intervalo de Conan ca de (1 )% para o par ametro de interesse, para um n vel de signic ancia, , xo.

6.4.1

Intervalo de Conan ca para M edia

Se a popula c ao original e pr oxima da normal, sua converg encia e r apida; j a, se a distribui c ao da popula c ao tem outra distribui c ao, essa converg encia e mais demorada. Como regra pr atica, aceita-se que para amostras com mais de 30 elementos a aproxima c ao j a pode ser considerada muito boa. Z IC () : X 2 n j a que Z= X N (0; 1) . n

Figura 6.10: Intervalo de Conan ca.

Exemplo 6.4. Sabe-se que o peso dos rec em-nascidos segue uma distribui c ao normal com um desvio padr ao de 0,75 kg. Se em uma amostra aleat oria simples de 100 deles, se obt em uma m edia amostral de 3 kg e um desvio padr ao de 0,5 kg, o IC() com uma conan ca de 95% e dado por: 0, 75 Z IC () : X = 3 1, 96 = 3 0, 147 : [2, 853; 3, 147]kg. 2 n 100 No caso de amostras pequenas ou no desconhecimento da dispers ao populacional, usa-se uma aproxima c ao atrav es da distribui c ao t de Student, substituindo por s, desvio-padr ao amostral. s t(n1; ) IC () : X . 2 n ao se conhe ca a dispers ao populacional, assim o IC() Exemplo 6.5. Suponha o exemplo anterior em que n com uma conan ca de 95% e dado por: 0, 5 s t(n1; ) IC () : X = 3 t(99;2,5%) = 3 1, 98(0, 05) : [2, 901; 3, 099]kg. 2 n 100

6.4

Intervalo de Conan ca

ROSSI, Robson M. 65

6.4.2

Intervalo de Conan ca para Diferen ca de M edias

Se (1 )% e o n vel de signic ancia com que desejamos estabelecer o intervalo para a diferen ca das duas m edias, calculamos o valor tn1 +n2 2 que deixa al em de si /2 da massa da probabilidade de Tn1 +n2 2 , o intervalo de conan ca para vari ancias desconhecidas ser a: ( ) 1 1 IC (1 2 ) : X1 X2 tn1 +n2 2; 2 S + n1 n2 2 2 2 = (n1 1)S1 + (n2 1)S2 . sendo S n1 + n2 2 encia que pode exercer o tabaco no peso de crian cas ao nascer. Para Exemplo 6.6. Deseja-se estudar a inu isso, consideram-se dois grupos de mulheres gr avidas (um de fumante e outro de n ao-fumante) e obt em-se os seguintes dados sobre o peso (X) de seus lhos: 1 = 3, 6 kg, S 1 = 0, 5 kg M aes fumantes n1 = 35, X 2 = 0, 8 kg M aes n ao-fumantes n2 = 27, X2 = 3, 2 kg, S Em ambos os grupos, os pesos dos rec em-nascidos prov em de distribui co es normais de m edias desconhe poss cidas e com vari ancias que, embora sejam desconhecidas, podemos supor que sejam as mesmas. E vel determinar quanto a m ae fumante inui no peso de seu lho ! 2 2 2 2 2 = (n1 1)S1 + (n2 1)S2 = (35 1)0, 5 + (27 1)0, 8 = 0, 419 S = 0, 6473. Solu c ao: S n1 + n2 2 35 + 27 2 Considerando um n vel de conan ca de 5%, a dado por: o IC (1 2 ) ser 1 1 IC (1 2 ) : (3, 6 3, 2) t60;2,5% 0, 6473 35 + 27 = 0, 4 2(0, 6473)(0, 256) IC (1 2 ) : 0, 4 0, 3316 : [0, 068; 0, 731] kg, com o qual pode-se dizer que em um lho de m ae n aofumante supera o de m ae fumante, est a compreendido, com um n vel de conan ca de 95%, entre 0,068 kg e 0,731 kg.

6.4.3

Intervalo de Conan ca para Propor c ao

Analogamente ao processo de obten c ao do IC para a m edia, podemos obter um IC com uma conan ca de (1 )%, para a propor c ao populacional, considerando um n vel de signic ancia, , xo: p (1 p ) IC (p) : p Z . 2 n Exemplo 6.7. Deseja-se estimar o resultado de um referendo mediante uma sondagem. Para isso, realizase uma amostragem aleat oria simples com n=100 pessoas e obt em-se 35% que votar ao a favor e 65% que votar ao contra (supomos que n ao haja indecisos para simplicar o problema a uma vari avel dicot omica). Com um n vel de signic ancia de 5%, o Intervalo de Conan ca para a propor ca o de favor aveis e dado por: 35 0, 35(1 0, 35) IC (p) : 1, 96 = 0, 35 0, 093 : [25, 7; 44, 3]%. 100 100 Portanto, estima-se com 95% de conan ca que a propor c ao de favor aveis ao referendo e de no m nimo 25,7% e no m aximo 44,3% ou de 35% com uma margem de erro de 9,3% para mais ou para menos.

6.5

Tamanho da Amostra

ROSSI, Robson M. 66

6.5

Tamanho da Amostra

O assunto pertence ` a Teoria da Amostragem. Pode-se, entretanto, calcular, para algumas situa c oes especiais, o tamanho da amostra necess ario para se fazer infer encias.

6.5.1

M etodo Simples

Tamanho de uma amostra aleat oria simples. Ser a abordado c alculo do tamanho da amostra para amostragem aleat oria simples. A diferen ca entre a estat stica descritiva dos elementos da amostra e o verdadeiro valor do par ametro que se deseja estimar como o erro amostral. Para determinar o tamanho da amostra o pesquisador deve especicar o erro amostral toler avel, ou seja, quanto ele admite errar na avalia c ao dos par ametros de interesse. A especica c ao do erro amostral toler avel deve ser feita sob um enfoque probabil stico, pois por maior que seja a amostra, existe sempre o risco do sorteio gerar uma amostra com caracter sticas bem diferentes da popula c ao de onde ela foi extra da. O calcular do tamanho m nimo de uma amostra aleat oria simples e dado por: Sejam: N: tamanho (n umero de elementos) da popula c ao; n: tamanho (n umero de elementos) da amostra; n0 : uma primeira aproxima c ao do tamanho da amostra, e E0 : erro amostral toler avel. onde 1 n0 = . E0 Conhecendo N o tamanho da popula c ao, pode-se corrigir o c alculo: n= N n0 . N + (n0 1)

Exemplo 6.8. Com objetivo de conhecer algumas caracter sticas dos pacientes de uma cl nica com 35 pacientes. Suponha que seja de interesse realizar um levantamento por amostragem para avaliar diversas caracter sticas da popula c ao de pacientes. Qual deve ser o tamanho m nimo da amostra aleat oria simples, tal que se possa admitir, com alta conan ca, que os erros amostrais n ao ultrapassem 4% (E0 = 0,04)? Solu ca o: Uma primeira aproxima c ao e dada por: n0 = 1 = 625 pacientes. 0, 042

Corrigindo, em fun c ao do tamanho N da popula c ao, tem-se: n= 35(625) 34. 35 + 624

Exemplo 6.9. Suponha que na clinica do Exemplo anterior a popula c ao fosse de N = 200 pacientes. Qual deve ser o tamanho m nimo da amostra aleat oria simples, tal que se possa admitir, com alta conan ca, que os erros amostrais n ao ultrapassem 4% (E0 = 0, 04)? Solu ca o: O valor de n0 continua sendo o mesmo do exemplo anterior, pois n ao depende de N . Fazendo a corre c ao em termos do novo valor de N , tem-se: n= 200(625) 152. 200 + 624

Exemplo 6.10. Suponha agora que a popula c ao fosse de N = 200.000 pacientes.

6.5

Tamanho da Amostra

ROSSI, Robson M. 67

Solu ca o: Da mesma forma, o valor de n0 continua sendo o mesmo dos exemplos anteriores. E a corre c ao em termos do novo valor de N , e: n= 200.000(625) 623 pacientes. 200.000 + 624

Observe que para manter o mesmo erro amostral, no Exemplo ?? foi necess aria uma amostra abrangendo quase 100% da popula c ao; enquanto no Exemplo 6.9 a amostra abrange 76%; e no Exemplo 6.10 abrange portanto, err 0,3% da popula c ao. E, onea a id eia de que para uma amostra ser representativa deva abranger uma percentagem xa da popula c ao. Tamanho da amostra em subgrupos da popula c ao muito comum termos interesse em estudar separadamente certos subgrupos da popula E c ao. Nesta situa c ao, e preciso calcular o tamanho da amostra para cada uma destas partes. O tamanho total da amostra vai corresponder ` a soma dos tamanhos das amostras de cada parte. O tamanho total da amostra cresce bastante quando se desejam estimativas isoladas para os diversos subgrupos da popula c ao, por isso, e comum o pesquisador n ao ser muito exigente na precis ao das estimativas nos subgrupos, tolerando erros amostrais maiores.

6.5.2

M etodo Inferencial

Erro Tipo I e Tipo II Muitas vezes temos necessidade de saber: Que estat sticas ser ao utilizadas e retiradas dessa amostra? Qual o comportamento desta estat stica? e razo avel? Dois tipos de erros podem ser cometidos em um TH: H0 Decis ao N ao Rejeitar Rejeitar Verdadeira Correto Probabilidade: (1 ) Erro tipo I: Falsa Erro tipo II: Correto Probabilidade: (1 )

Figura 6.11: Erro tipo I e Erro tipo II.

6.5

Tamanho da Amostra

ROSSI, Robson M. 68

Tamanho da Amostra para estimar a M edia e a Propor c ao Se o objetivo e estimar a m edia, ou uma propor c ao, pode-se usar os intervalos de conan ca anteriormente estabelecidos para obter n, o tamanho da amostra. Para isto, e preciso xar o maior erro aceit avel e o n vel de conan ca com que se quer trabalhar. Sendo o tamanho m aximo do erro aceit avel : e (xo), com probabilidade (1 ) (xo), o intervalo de conan ca de n vel 100(1 )% ser ao, respectivamente, para a m edia e para a propor c ao, considerando a popula c ao innita, tem-se: M edia: Propor c ao: ] Z s 2 2 o n= e [ ]2 Z 2 p 0 (1 p 0 ) n= e [ onde ou s o e = Z 2 n [ ]2 Z 2 se p e desconhecido. n 2e

onde p 0 e so s ao estimativas da propor c ao e da dispers ao, respectivamente, obtidos atrav es de uma amostra piloto, ou de informa c oes populacionais. Exemplo 6.11. Numa amostra de classica ca o de veteranos de um col egio com. x = 2, 6 e so = 0, 3, qual deve ser o tamanho da amostra para que tenhamos 95% de conan ca em que erro da estimativa de n ao supere 0,05? Solu c ao: [ n = [ = Z s 2 o e ]2 ]2

1, 96(0, 3) 0, 05 139.

Exemplo 6.12. Suponha que, em uma amostra de 500 fam lias que possuem aparelho de televis ao em certa cidade, haja 340 com televisor em cores. Se o objetivo e estimar o n umero de fam lias que possuem televisor em cores, qual o tamanho da amostra necess ario para que tenhamos 95% de conan ca em que o erro da estimativa n ao seja superior a 0,02 ? Solu c ao: Trate as 500 fam lias como uma mostra preliminar que fornece a estimativa p 0 = 0, 68. Ent ao: [ n = [ = Z 2 e ]2 p 0 (1 p 0 ) ]2 0, 68(0, 32)

1, 96 0, 02 2.090.

Para o caso em que a popula c ao e nita (N conhecido), onde a amostragem e sem reposi c ao, temos as f ormulas para o c alculo do tamanho amostral, respectivamente, para a m edia e para a propor c ao: M edia: Propor c ao: ( )2 N Z s 2 o n= ( )2 ; (N 1)e2 + Z s 2 o ( )2 Np 0 q 0 Z 2 n= ( )2 p 0 q 0 Z + ( N 1)e2 2

ou n (

Z 2

)2

( )2 N Z 2 + 4(N 1)e2

0 for desconhecido. se p

Alternativamente, temos tanto para o caso em que estudamos vari aveis quantitativas discretas, quanto cont nuas, utilizamos as f ormula descritas anteriormente, e tomamos n = n0 , e conhecendo N , o c alculo de n, tamanho amostral poder a ser obtido atrav es de: n= N n0 . N + (n0 1)

6.5

Tamanho da Amostra

ROSSI, Robson M. 69

Exemplo 6.13. Determinado trabalho, realizado para investigar a preval encia de hansen ase em trabalhadores rurais, apresentou um valor igual a 22%. Para estimar o tamanho da amostra para novo projeto sobre hansen ase, desejamos um n vel de conan ca de 95% e erro de amostragem de 5%. Determine n, o tamanho da amostra necess aria para uma popula c ao de tamanho N = 100.000. Solu c ao: [ n0 n0 n0 = [ = Z 2 e ]2 p 0 (1 p 0 ) ]2 0, 22(0, 78)

1, 96 0, 05 264,

logo, o tamanho da amostra corresponder a a: 100.000(264) 1 + 263 n 253. n = Por deni c ao o Poder do teste e: 1 e na pr atica, utilizam-se valores entre 80% a 90% no c alculo dos tamanhos amostrais para a M edia e para a Propor c ao, agora podem ser dados, respectivamente por: M edia: Propor c ao: [( ) ]2 Z + Z s0 2 n0 = ; e [ ]2 Z p0 (1 p0 ) + Z p1 (1 p1 ) 2 n0 = e

e = p1 p0 ; p0 : propor c ao presumida da popula c ao (referente a H0 ); p1 : e a alternativa ou propor c ao esperada na popula c ao. Exemplo 6.14. Suponha que desejemos testar a hip otese nula H0 : = 180 mg/100 ml ao n vel de signic ancia = 1%. Neste contexto e o n vel m edio s erico de colesterol da popula c ao de homens de 20 a 74 anos. O desvio-padr ao e = 46 mg/100 ml. Se uma amostra piloto indica que o n vel m edio s erico de colesterol e de 201 mg/100 ml (e = 201 180 = 21), queremos adotar um poder do teste de 95%. Qual o tamanho da amostra para inferir em uma popula c ao de 1.500 indiv duos? [( ) ]2 [ ]2 Z + Z s0 (2, 58 + 1, 65) 46 2 n0 = = n0 = 85, e 201 180 e corrigindo para N, temos: n= 1.500(85) 81. 1 + 84

6.5

Tamanho da Amostra

ROSSI, Robson M. 70

Exemplo 6.15. A propor c ao de pacientes com c ancer nos pulm oes abaixo dos 40 anos no diagn ostico, que sobrevivem pelo menos 5 anos e conhecida e igual a p0 = 8, 2%. Deseja-se testar essa hip otese baseado em dados de uma amostra que acusou uma propor ca o de p1 = 20%. Qual o tamanho desta amostra, considerando um n vel de conan ca de 99% e um poder do teste com 95%? [ n0 = [ n0 = Z 2 ]2 p0 (1 p0 ) + Z p1 (1 p1 ) e

2, 57

]2 0, 082(0, 918) + 1, 65 0, 2(0, 8) 134. 0, 2 0, 082

Tamanho da Amostra Ensaios Cl nicos Aqui devem ser considerados outros fatores. n0 : tamanho amostral; n2 r : raz ao entre grupos controles (n2 ) e os casos (n1 ), ou seja: r = ; n1 p0 : propor c ao de indiv duos n ao-expostos (ou controles); p1 : propor c ao de indiv duos expostos (ou tratados); p1 + rp0 p = ; 1+r s0 : desvio-padr ao obtida atrav es de uma amostra piloto; : n vel de signic ancia ou erro tipo I (1%, 5%, 10%, ...); : erro tipo II (10%, 15%, 20%, ...); e : erro m aximo de estima c ao. Tamanho de amostra para duas m edias: )2 Z + Z s2 0 (r + 1) 2 n0 = ; 2 e r Tamanho de amostra para duas propor c oes: ( )2 Z + Z (r + 1) 2 n0 = p (1 p ). e2 r Exemplo 6.16. Com objetivo de comparar m edias de teor de hemoglobina devido a dois tratamentos distintos, um experimento ser a realizado com duas amostras independentes.Sabe-se que = 0, 05, e portanto n2 Z = 1, 96; = 0, 20, ou seja, um poder de 80%, portanto Z = 0, 84; r = = 3, ou seja, 3 controles 2 n1 para cada caso; s0 = 1, 5 mg varia c ao observada em estudos anteriores; e = 0, 5 mg erro m aximo desejado, assim, tem-se que: 2 2 (1, 96 + 0, 84) (1, 5) (3 + 1) n= 94. (0, 5)2 3 Portanto, o grupo tratado dever a ter 94 indiv duos, enquanto o grupo controle, o triplo : 282. Exemplo 6.17. Um ensaio cl nico aleat orio ser a realizado e para a determina c ao do tamanho das amostras, n2 = 2; p0 = 0, 40 e as seguintes informa c oes foram utilizadas: = 0, 05; = 0, 10, ou seja, Z = 1, 28; r= n1 p1 = 0, 60; e = 0, 20, assim tem-se: n= (1, 96 + 1, 28) (2 + 1) 98. (0, 2)2 2
2

Portanto, o grupo tratado dever a ter 98 indiv duos, enquanto o grupo controle, o dobro : 196.

6.6

Testes de Hip oteses

ROSSI, Robson M. 71

6.6

Testes de Hip oteses

Frequentemente e necess ario tomar decis oes sobre par ametros ou distribui c oes populacionais com base em informa c oes amostrais, as quais s ao denominadas decis oes estat sticas. Na tomada de decis oes, s ao formuladas hip oteses que ser ao rejeitadas ou n ao rejeitadas. Tais hip oteses, que podem ser verdadeiras ou n ao, chamam-se hip oteses estat sticas e, em geral, consistem de arma c oes sobre os par ametros populacionais ou sobre as distribui c oes de probabilidade das popula c oes, como, por exemplo: 1. a m edia populacional da altura dos brasileiros e 1,65 m; 2. a propor c ao de brasileiros com a doen ca X e 40% (p = 0, 40); 3. a distribui c ao dos pesos dos pacientes adultos do hospital X e normal. Os processos que nos permitem decidir por rejeitar ou n ao rejeitar uma hip otese, ou determinar se amostras observadas diferem signicativamente dos resultados esperados s ao chamados Testes de Hip oteses. O objetivo e fornecer ferramentas que nos permitam validar ou refutar uma hip otese, atrav es de resultados da amostra. Os Testes de Hip oteses podem ser de dois tipos: (a) N ao Param etricos : quando formulamos hip oteses com respeito ` a natureza da distribui c ao da popula c ao. Estes testes n ao dependem dos par ametros populacionais, nem de suas respectivas estimativas. Veja o tem (3.); etricos : quando formulamos hip oteses com respeito ao valor de um par ametro populacional. (b) Param Veja tens (1.) e (2.).

6.6.1

Constru c ao de um Teste de Hip otese

Inicialmente, para a constru c ao de um teste, deve-se formular duas hip oteses a cerca da arma c ao: (a) Hip otese Nula (H0 ): e uma arma c ao que diz que o par ametro populacional e tal como especicado. otese alternativa (Ha ): e uma arma c ao que oferece uma alega c ao alternativa (isto e, o par ametro (b) Hip e diferente do valor alegado). As hip oteses estat sticas para um par ametro , podem ser formuladas como segue: 1. Teste Bilateral: quando utilizamos ambas as caudas da distribui c ao. H0 : Ha : = 0 = 0

2. Teste Unilateral ` a Direita: quando utilizamos a cauda direita da distribui c ao. H0 : Ha : = 0 > 0

3. Teste Unilateral ` a Esquerda: quando utilizamos a cauda esquerda da distribui c ao. H0 : Ha : = 0 < 0

Ao se testar uma hip otese, o que se deseja vericar e, atrav es de uma estat stica obtida de uma amostra, se a hip otese pode ou n ao rejeitada com o n vel de signic ancia pr e-xado, . Esta conclus ao e tomada com area corresponde a ) que e constru da de modo que: base na Regi ao Cr tica (RC : cuja P ( RC |H0 verdadeira) = . RA e denominada Regi ao de n ao rejei c ao cuja area corresponde a 1 . O procedimento que ser a utilizado para a constru c ao de um teste de hip otese e o que consiste em apresentar o n vel descritivo ou p-valor. A sequ encia abaixo pode ser usada sistematicamente para qualquer teste de hip otese:

6.6

Testes de Hip oteses

ROSSI, Robson M. 72

1-alfa

alfa/2
xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx

alfa/2
xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx

-Zalfa/2

+Z alfa/2

Figura 6.12: Teste de Hip otese Bilateral. 1. Passo 1: Denir as hip oteses H0 e Ha ; 2. Passo 2: Use a teoria estat stica e as informa c oes para decidir qual a distribui c ao da estat stica (estimador) que ser a utilizada no julgamento de H0 ; Exemplos: para (n 30) x N (0, 1) Zc = / n para (n < 30 ou desconhecido) x Tc = tn1 s/ n

para p (supondo normalidade) p p0 Zc = N (0, 1) p0 (1 p0 ) n 3. Passo 3: Escolher o n vel de signic ancia (erro tipo I) e utilizando as informa c oes fornecidas pela amostra para encontrar o valor do estimador do par ametro (estat stica) que est a sendo testado; Dois tipos de erros podem ser cometidos em um TH: H0 Decis ao N ao Rejeitar Rejeitar Verdadeira Correto Probabilidade: (1 ) Erro tipo I: Falsa Erro tipo II: Correto Probabilidade: (1 )

4. Passo 4: Com o valor da estat stica observada na amostra encontrar a probabilidade (probabilidade de signic ancia p-valor) de ocorrer amostras com valores mais extremos do que o valor obtido. 5. Passo 5: Conclus ao. Compare a probabilidade obtida, p-valor, com o valor de : Rejeitamos H0 quando p-valor < .

6.6.2

O p -valor

O procedimento de teste de hip otese descrito acima fornece informa c ao sobre a for ca da evid encia contra H0 obtida a partir dos dados. Isto e, e informado se o valor observado para a estat stica de teste que levou a rejei ` c ao de H0 est a pr oxima da fronteira da RC-regi ao cr tica ou RR-regi ao de rejei c ao (baixa evid encia contra H0 ) ou se est a muito afastada da fronteira (alta evid encia contra H0 ). O p-valor e a probabilidade de ocorr encia do valor particular observado para a estat stica de teste ou de e verdadeira. Quanto maior valores mais extremos, na dire c ao da regi ao cr tica, quando a hip otese nula H0 for a for ca da evid encia contra H0 , menor ser a o p-valor.

6.6

Testes de Hip oteses

ROSSI, Robson M. 73

6.6.3

Teste de Hip otese para M edia

Existem diferentes estat sticas para se testar uma m edia: Desvio-padr ao conhecido Caso 1. conhecido ( !). Nessa situa c ao a estat stica teste e a Z, isto e: Zc = x N (0, 1). / n

Exemplo 6.18. Deseja-se investigar se uma certa mol estia que ataca o rim altera o consumo de oxig enio desse org ao. Para indiv duos sadios, admite-se que esse consumo tem distribui c ao Normal com m edia 12 estia foram: cm3 /min. Os valores medidos em cinco pacientes com a mol 14, 4 12, 9 15, 0 13, 7 13, 5

Qual seria a conclus ao, ao n vel de 5% de signic ancia? Solu c ao: O teste de interesse e: H0 : Ha : A mol estia n ao altera a m edia de consumo renal de oxig enio; Indiv duos portadores da mol estia t em m edia alterada.

Em termos da m edia populacional, estamos testando as hip oteses: H0 : Ha : = 12 = 12,

e a regi ao cr tica, considerando um teste bilateral, e da forma: RR = {z R|z < z1 ou z > z2 }. Sendo conhecido e igual a 0,5, temos como valor calculado: Zc = x N (0, 1) / n 13, 9 12 = 1, 5/ 5 ( ) p-valor = +2, 83 = 0, 002327 p-valor = 0, 0047 . 2

Os valores tabelados para = 5%, s ao: Z0,025 = 1, 96. Portanto, como Zc RR, decidimos pela rejei c ao da hip otese nula, ou seja, a m edia de consumo de vel de 5% (p-valor = 0, 0047 < 0, 05 = ). oxig enio difere de 12 cm3 /min ao n

6.6

Testes de Hip oteses

ROSSI, Robson M. 74

Figura 6.13: Teste de hip otese - Desvio-padr ao conhecido. Desvio-padr ao desconhecido e n 30 Caso 2. desconhecido ( ?, n 30). Nessa situa c ao a estat stica teste continua sendo a Z, por em = s, isto e: x Zc = N (0, 1). s/ n Exemplo 6.19. Considere o Exemplo 6.18, e que n ao h a conhecimento de , al em disso o tamanho amostral tivesse sido 50, refa ca o teste ao n vel de 5%. Solu c ao: Sendo desconhecido e n = 50, usaremos s como seu estimador e a estat stica teste ser a: x N (0, 1) s/ n 13, 9 12 = 0, 82/ 50 ( ) p-valor = +16, 4 =0 . 2 =

Zc

Os valores tabelados para = 5%, s ao: Z0,025 = 1, 96. Portanto, como Zc RR, decidimos pela rejei c ao da hip otese nula, ou seja, o n vel m edio de consumo de oxig enio difere de 12 cm3 /min ao n vel de 5% (p-valor = 0 < 0, 05 = ).

6.6

Testes de Hip oteses

ROSSI, Robson M. 75

Figura 6.14: Teste de hip otese - Desvio-padr ao desconhecido e n >= 30. Desvio-padr ao desconhecido e n < 30 Caso 3. desconhecido ( ?, n < 30). Nessa situa c ao a estat stica teste e a t-Student, por em = s, isto e: x Tc = t(n1) . s/ n ao h a conhecimento de , refa ca o teste ao n vel de 5%. Exemplo 6.20. Considere o Exemplo 6.18, e que n Solu c ao: Sendo desconhecido e n = 5, usaremos s como seu estimador e a estat stica teste ser a: x t(4) s/ n 13, 9 12 = 0, 82/ 5 = +5, 21 (p-valor = 0, 0066). =

Tc

Os valores tabelados para = 5%, s ao: t(4;0,025) = 2, 78. Portanto, como Tc RR, decidimos pela rejei c ao da hip otese nula, ou seja, o n vel m edio de consumo de oxig enio difere de 12 cm3 /min ao n vel de 5%.

6.6

Testes de Hip oteses

ROSSI, Robson M. 76

Figura 6.15: Teste de hip otese - Desvio-padr ao desconhecido e n < 30.

6.6.4

Teste de Hip otese para Propor c ao

Exemplo 6.21. Suponha que um laborat orio alegue que uma determinada droga que ele comercializa e eciente em pelo menos 85% dos casos em que e utilizada. Suponha que, para comprovar a alega c ao do laborat orio, um organismo de controle testou 180 pacientes, vericando a a c ao da droga em 146 casos. Solu c ao: O teste da eci encia alegada pelo laborat orio, aos n veis cl assicos de signic ancia, seria feito da seguinte forma: 146 Y = 0, 811 (propor c ao de eci encia na amostra) p = n 180 H0 : Ha : A Estat stica teste e Zc = p p0 p0 (1 p0 ) n 0, 811 0, 85 0, 85 < 0, 85

Zc

0, 85(1 0, 85) 180 0, 0389 = 0, 0266 = 1, 46 (p = 0, 072145 ou 7, 2%)

Os valores tabelados para os n veis de signic ancia de interesse s ao: Z 10% 1, 28 5% 1, 65 1% 2, 33

Observe que Rejeitamos H0 para : 10%, mas n ao para : 1% e 5%. Conclus ao: Ao n vel de signic ancia = 10%, h a evid encias estat sticas de que a droga e menos ecaz do que o alegado.

6.6

Testes de Hip oteses

ROSSI, Robson M. 77

Figura 6.16: Teste de Hip otese para Propor c ao.

Cap tulo 7

An alise em Tabelas 2x2 e LxC


Neste t opico estudaremos a rela c ao entre duas vari aveis categ oricas (ou qualitativas), onde as observa c oes podem ser classicadas em uma das v arias categorias (n veis ou c elulas) mutuamente exclusivas. O problema de mensura c ao do grau de associa c ao entre dois conjuntos de escores e de car ater bem diferente do teste da simples exist encia de uma associa c ao em determinada popula c ao. Naturalmente, h a interesse em avaliar o grau de associa c ao entre dois conjuntos de escores referentes a um grupo de indiv duos. Mas e talvez de muito maior interesse podermos armar que determinada associa c ao observada em uma amostra de escores indica, ou n ao, probabilidade de associa c ao entre as vari aveis na popula c ao da qual se extraiu a amostra (Siegel, 1956).

7.1

Tabelas de Conting encia

Segundo o dicion ario Webster o termo contingency signica the quality or state of having a close connection or relationship. O termo contingency table se refere ao fato de que as tabelas constru das s ao usadas para testar a exist encia de rela c oes entre duas vari aveis. Observamos que infelizmente este termo em portugu es n ao tem o mesmo signicado. Segundo o Aur elio, conting encia signica qualidade do que e contingente, incerteza se uma coisa vai acontecer ou n ao e contingente signica que pode ou n ao suceder, eventual, incerto. Logo, em estat stica, quando nos referimos a palavra conting encia estamos tomando o mesmo signicado da l ngua inglesa. O teste chi-quadrado (2 ) pode ser usado para avaliar a rela c ao entre duas vari aveis qualitativas. Este teste e um teste n ao-param etrico, que e muito u til, pois n ao precisa da suposi c ao de normalidade das vari aveis para analisar o grau de associa c ao entre as duas vari aveis, por em este teste e menos poderoso que o teste param etrico. Dentro deste teste devemos distinguir dois tipos de testes: o de independ encia e o de homogeneidade. Vejamos quando estamos tratando de um teste de independ encia e quando estamos tratando com um teste de homogeneidade, atrav es de exemplos.

7.2

Teste de Independ encia e de Homogeneidade

Suponha que uma educadora quer analisar se existe rela c ao entre a participa c ao ativa dos pais dos alunos nos deveres extra-escolares e o desempenho dos alunos em Matem atica. Suponha que ela categoriza o desempenho dos alunos em tr es grupos: baixo, m edio, alto e, do mesmo modo, categoriza a participa c ao dos pais em dois grupos: participa c ao ativa, participa c ao fraca. Suponha que ela deseja trabalhar com 300 crian cas. Neste caso a educadora pode delinear sua pesquisa de duas formas:

78

7.2

Teste de Independ encia e de Homogeneidade

ROSSI, Robson M. 79

Caso 1. Selecionar uma amostra de crian cas aleatoriamente e examinar em que c elula cada uma est a alocada, logo o u nico valor xo ser a o total geral que ser a de 300. Mas os totais de colunas e de linhas ser ao frutos da pesquisa, portanto, aleat orios, neste caso estamos frente a um teste de independ encia de vari aveis. Logo a tabela de conting encia ser a: Tabela 7.1: Exemplo de tabela de conting encia. Desempenho do aluno em Matem atica Total Baixo M edio Alto Teste de Aleat orio = Independ encia Aleat orio Aleat orio Aleat orio Aleat orio 300

Participa c ao dos pais Ativa Fraca Total

Por em ela pode xar o n umero de alunos de acordo com seu desempenho. Caso 2. Pegar uma amostra aleat oria de tamanho 100 de cada grupo de alunos, logo os totais das colunas ser ao xos, mas os totais das linhas ser ao aleat orios e assim estaremos frente a um teste de homogeneidade: Logo a tabela de conting encia ser a: Tabela 7.2: Exemplo de tabela de conting encia. Desempenho do aluno em Matem atica Total Baixo M edio Alto Teste de Aleat orio = Homogeneidade Aleat orio 100 (xo) 100 (xo) 100 (xo) 300

Participa c ao dos pais Ativa Fraca Total

Os valores totais, das colunas e das linhas, s ao chamados de totais marginais. Quando os totais marginais variam livremente, o teste de associa c ao e chamado de independ encia, e quando um dos conjuntos, linha ou coluna e xado pelo pesquisador ent ao e chamado de teste de homogeneidade. Isso vai depender do pesquisador. No exemplo da educadora, observemos que para ela e muito mais f acil xar o n umero de alunos segundo seu desempenho, do que xar pela participa c ao dos pais, que, apriori ser a quase imposs vel. Teste de Independ encia Apresentaremos a l ogica do teste com um exemplo bastante simples. cas foram expostas a tr es tipos de comerciais de TV, sobre cereais Exemplo 7.1. Suponha que 125 crian para caf e da manh a. Ap os a exposi ca o foi solicitado a cada crian ca para indicar qual dos comerciais ela gostou mais. O que se deseja saber e se a escolha do comercial est a relacionado ao g enero da crian ca: pois suspeita-se de que o g enero pode estar inuenciando na escolha do comercial. Os dados podem ser apreciados na Tabela 7.3. Tabela 7.3: N umero de crian cas segundo tipo de comercial escolhido e g enero. Tipo de comercial G enero A B C Total Meninos 30 29 16 75 Meninas 12 33 5 50 Total 42 62 21 125 Analisando atentamente a Tabela 7.3, composta por valores absolutos, percebemos:

7.2

Teste de Independ encia e de Homogeneidade a amostra est a composta por mais meninos do que meninas, nos comerciais A e C o n umero de meninos e maior do que meninas, e no comercial B essa rela c ao se inverte.

ROSSI, Robson M. 80

Contudo, essa an alise ca prejudicada pela composi c ao da amostra, que tem mais meninos do que meninas. Portanto, a primeira coisa a fazer e analisar as estruturas percentuais, mostradas na Tabela 4.3, ou seja retirar a inu encia da amostragem. Tabela 7.4: Porcentagem para os valores absolutos de crian cas por tipo de comercial escolhido e g enero apresentados na tabela anterior. Tipo de comercial G enero A B C Total Meninos 71% 47% 76% 60% Meninas 29% 53% 24% 40% Total 100% 100% 100% Observe cuidadosamente a Tabela 7.4, onde 60% da amostra e composta por meninos. Se a prefer encia das crian cas pelos comerciais independe do g enero, esperar amos que a estrutura percentual para cada comercial casse em torno de 60% para os meninos e 40% para as meninas, desvios grandes destes percentuais estariam mostrando evid encias de que existe alguma rela c ao entre essas vari aveis. Essa inspe c ao intuitiva, tamb em, pode ser feita analisando a estrutura dentro de cada g enero como mostra a Tabela 7.5. Tabela 7.5: Porcentagem de crian cas por g enero e tipo de comercial escolhido. Tipo de comercial G enero A B C Total Meninos 40% 39% 21% 100% Meninas 24% 66% 10% 100% Total 33% 50% 17% Analisando a Tabela 7.5 observamos que as meninas tem uma forte prefer encia pelo comercial B, enquanto que os meninos se dividem entre o comercial A e B. Assim, intuitivamente percebemos que existe interfer encia do g enero na prefer encia, agora precisamos saber at e que ponto essas diferen cas se devem ao acaso, ou a exist encia de associa c ao entre as duas vari aveis: X: prefer encia pelo comercial ( A, B e C) qualitativa; Y: g enero (meninos, meninas) qualitativa. Hip otese nula (H0 ): A prefer encia pelo comercial independe do g enero da crian ca; Hip otese alternativa (Ha ): A prefer encia pelo comercial depende do g enero da crian ca (ou, o g enero interfere na prefer encia pelo comercial); Analogamente, temos: Ho H1 : independ encia de vari aveis : depend encia de vari aveis

Como deveriam ser os valores a serem observados se as vari aveis fossem independentes?, ou dito de outra forma, sob a hip otese de nulidade, de independ encia de vari aveis, como deveriam ser os valores a serem observados? A l ogica nos diz que esses valores devem estar muito pr oximos da estrutura percentual global. Esses valores s ao chamados de valores esperados. Cada valor esperado ser a calculado supondo que a estrutura percentual global se mantenha em cada coluna: Calculando os valores esperados, sobre a suposi c ao de independ encia:

7.2

Teste de Independ encia e de Homogeneidade

ROSSI, Robson M. 81

Tabela 7.6: Valores percentuais Tipo de comercial G enero A B C Meninos 60% 60% 60% Meninas 40% 40% 40% Total 42 62 21 Valores absolutos Valores esperados Total G enero A B C e 60% Meninos 25 37 13 40% Meninas 17 25 8 125 Total 42 62 21

Total 75 50 125

Valor esperado menino, comercial A: 60% de 42 = 25,2 Valor esperado menino, comercial B: 60% de 62 = 37,2 ... O mesmo teria acontecido se xarmos primeiro o comercial: Valor esperado comercial A, menino: 33,7% de 75 = 25,2 Valor esperado comercial A, menina: 33,7% de 50 = 16,8 ... Tanto faz xar a linha ou a coluna pois: Ei = Tl Tc Tc Tl = Tl = Tc T T T

Por exemplo, calculemos o valor esperado da primeira linha e primeira coluna: Ei = 75 42 42 75 = 75 = 42 = 25, 2 125 125 125

Assim calculando os valores esperados para todas as c elulas temos: Tabela 7.7: Tipo de comercial A B Oi = 30 Ei = 25,2 29 37,2 di = +4,8 -8,2 12 16,8 33 24,8 -4,8 +8,2 42 62

G enero Meninos Meninas Total

C 16 12,6 +3,4 5 8,4 -3,4 21

Total 75 50 125

Dentro de cada c elula, no canto superior esquerdo colocamos o valor observado, no canto superior direito o valor esperado (sob a hip otese de independ encia) e, na parte inferior, a dist ancia entre o observado e o esperado. Logo, se as vari aveis fossem independentes, as dist ancias entre os valores observados e esperados deveriam ser muito pequenas, caso contr ario haver a ind cios de depend encia. A pergunta agora e: quando a dist ancia e pequena ou grande? Para isto devemos calcular o valor (2 ) qui-quadrado da amostra: 2 amostra =
k (observado esperado)2 k (O E )2 i i = esperado Ei i=1 i=1

que ter a uma distribui c ao chi-quadrado com graus de liberdade igual ao produto do n umero de linhas menos um vezes o n umero de colunas menos um, isto e:
2 2 amostra

: graus de liberdade : (no colunas - 1)(no linhas - 1)

Para testar as hip oteses, temos a estat stica teste qui-quadrado com corre c ao de continuidade de Yates: ( )2 k |O E | 1 i i 2 2 cY = 2 [L1C 1;(1)%] (Tabelas L C) Ei i=1

7.2

Teste de Independ encia e de Homogeneidade

ROSSI, Robson M. 82

No nosso exemplo sem a corre c ao de Yates, temos: 2 amostra = = = (+4, 8)2 (8, 2)2 (+3, 4)2 (4, 8)2 (+8, 2)2 (3, 4)2 + + + + + 25, 2 37, 2 12, 6 16, 8 24, 8 8, 4 0, 914 + 1, 808 + 0, 917 + 1, 371 + 2, 711 + 1, 376 9, 09818 (p-valor : 0,0106) onde v = (2 1) (3 1) = 1 2 = 2 Para aceitar ou rejeitar a hip otese devemos conhecero valor de 2 calculado na tabela qui-quadrado, com dois graus de liberdade. Para = 5%, o valor cr tico e 5, 991, como o valor da amostra e maior que o valor cr tico, logo rejeitamos a hip otese nula, concluindo que o g enero interfere na prefer encia pelos comerciais. No caso de dispormos de um pacote estat stico, este, via de regra, calcula o p-valor, nesse caso e s o comparar esse valor com o n vel de signic ancia desejado. No nosso caso o p valor = 0, 01058, ou seja, ao ao n vel de 1%. rejeitamos ao n vel de 5% mas n Obs.: Quando as vari aveis s ao independentes (H0 ), as freq u encias observadas tendem a car perto das esperadas. Neste caso, o valor de 2 deve ser pequeno. Limita c oes do teste 2 : 1. Infelizmente, o teste qui-quadrado n ao permite concluir como se d a a rela c ao, uma v ez que ele testa apenas a hip otese geral de que as duas vari aveis s ao independentes. Examinando a dist ancia entre valor observado e esperado, por exemplo, observamos que as meninas tem uma maior prefer encia pelo comercial B, por em n ao podemos concluir nada. 2. Uma outra limita c ao do teste qui-quadrado e que o valor esperado das c elulas n ao deve ser menor ou igual a 5 e devido a isso torna vulner avel a estat stica. Nesse caso usamos outra estrat egia: o teste exato de Fisher. Teste de Homogeneidade Quando testamos independ encia de vari aveis, o pesquisador s o controla o tamanho total da amostra, mas os totais para cada coluna e linha s ao aleat orios. Exemplo 7.2. No caso do exemplo anterior, os pesquisadores selecionaram aleatoriamente 125 crian cas, das quais 75 eram meninos e 50 meninas. Ele n ao xou o numero de meninos e o n umero de meninas. Vejamos um exemplo de teste de homogeneidade. Retomemos o exemplo inicial e suponhamos que a professora xou o tamanho dentro de cada grupo de alunos e os resultados foram os seguintes: Tabela 7.8: N umero de alunos segundo seu desempenho em Matem atica e participa c ao dos pais nas atividades extra-escolares. Desempenho em Matem. Participa c ao Baixo M edio Alto Total dos pais Ativa 5 25 70 100 Fraca 95 75 30 200 Total 100 100 100 300

H0 H1

: p11 = p12 = p13 igualdade de propor c oes : p1i = p1j ; para algum i = j existe pelo menos uma propor c ao diferente

A hip otese nula esta testando que a propor c ao de alunos com baixo desempenho e igual a propor c ao de alunos m edio e igual a propor c ao de alunos com desempenho alto quando seus pais participam ativamente das atividades extra-escolares, contra a hip otese alternativa que indica que existe pelo menos uma propor c ao diferente. O teste e id entico ao teste de independ encia.

7.3

An alise de Res duos em Tabelas 2L

ROSSI, Robson M. 83

O Coeciente de Conting encia. O coeciente de conting encia e uma medida do alcance da associa c ao ou rela c ao entre dois conjuntos de atributos. Ele e calculado em fun c ao do valor calculado na tabela de conting encia e independe de ordena c ao das categorias das vari aveis: 2 C= , onde n e o tamanho da amostra. 2 +n Exemplo 7.3. No exemplo dos comerciais de TV, o coeciente de conting encia ser a: 9, 09818 C= = 0, 26047. 9, 09818 + 125 Para testar a signic ancia deste coeciente ter amos que recorrer a tabela pr opria. H0 H1 : C=0 : C = 0

Se o p-valor associado for menor que alfa rejeitamos H0 e conclu mos de que existe associa c ao entre as vari aveis, caso contr ario n ao. Para facilitar a interpreta c ao, usaremos uma modica c ao deste coeciente. Chamaremos de k o menor entre l (no de linhas da tabela) e c (no de colunas da tabela), isto e: k = min{l; c}. O chamado coeciente de conting encia modicado (C ) e dado por: k.2 C = . (k 1)(2 + n) O valor C sempre estar a no intervalo de 0 a 1. Ser a 0, somente quando houver completa independ encia e ser a 1 quando houver associa c ao perfeita. Valores de C pr oximos de 1 descrevem associa c ao forte, enquanto oximos de 0 indicam associa c ao fraca. Os valores de C em torno de 50% podem ser que valores de C pr interpretados como associa c ao moderada. Exemplo 7.4. C alculo do coeciente de conting encia para os dados do exemplo anterior. k C = min{2; 3} = 2 k.2 = (k 1)(2 + n) 2.(9, 09818) = (2 1)(9, 09818 + 125) = 0, 3684 ou 36, 84%.

Este resultado indica uma fraca associa c ao entre X: prefer encia pelo comercial e Y: g enero.

7.3

An alise de Res duos em Tabelas 2L

Exemplo 7.5. Vieira e Prolla (1979) estudaram uma amostra de 384 pacientes com problemas pulmonares, classicando-os segundo a presen ca ou n ao de eosin olos no escarro e o tipo de pneumopatia diagnosticada. Grupo 1: asmas; Grupo 2: bronquite cr onica com broncoespasmo; Grupo 3: bronquite cr onica ou ensema sem broncoespasmo; Grupo 4: outras doen cas pulmonares.

7.3

An alise de Res duos em Tabelas 2L

ROSSI, Robson M. 84

Tabela 7.9: Presen ca de eosin olos no escarro e tipo de doen ca pulmonar em 384 pacientes porto-alegrenses. Grupo quanto a pneumopatia Eosin olos no escarro Grupo 1 Grupo 2 Grupo 3 Grupo 4 Total Sim 142 26 32 28 228 N ao 55 19 41 41 156 Total 197 45 73 69 384 { Hip oteses :

H0 : Ha :

N ao existe associa c ao entre Eosin olos no escarro e pneumopatia ; Existe a ssocia c ao entre Eosin olos no escarro e pneumopatia.

O teste 2 de associa c ao indica haver associa c ao entre o tipo de pneumopotia e a ocorr encia de eosin olos no escarro (2 vel de 1%. c = 30, 6465; p < 0, 001) ao n Uma conclus ao simples de exist encia de associa c ao e em geral insatisfat oria para os pesquisadores, que gostariam de entender melhor o tipo de associa c ao observada. Para responder a esta indaga c ao, existem v arias t ecnicas estat sticas; a an alise de res duos e uma das mais interessantes. A an alise de res duos e usada como auxiliar na interpreta c ao de dados organizados em tabelas L x C. Por seu interm edio, e poss vel avaliar como as diferentes caselas contribuem para o valor do 2 c. Calcula-se inicialmente o res duo padronizado (R p ) para cada casela: OE Rp = . E A seguir, cada res duo deve sofrer uma corre c ao, passando a denominar-se res duo ajustado (Raj ) : Raj = ( Rp )( TC
TG

TL TG

).

Finalmente, os valores de Raj s ao comparados com valores cr ticos da distribui c ao normal, por exemplo, z = 1,96, para um n vel de 5% de signic ancia. Se Raj for maior do que z , conclui-se que o valor observado na casela (O) desvia-se signicativamente (para mais ou para menos, conforme o sinal de Raj ) do valor esperado (E). Os res duos ajustados obtidos para os dados da Tabela 7.9, est ao apresentados na Tabela 7.10. Na primeira casela, o res duo ajustado foi obtido do seguinte modo: OE 142 117 Rp (Sim; G1) = = = +2, 311 117 E Raj (Sim; G1) = ( Rp )( TC
TG

) = ( TL 1 1 T G

+2, 311 )( 197 1 384

228 384

) = +5, 20.

Como Raj = |+5, 20| > Z5% = 1, 96, conclui-se que o n umero de asm aticos que apresentam eosin olos no escarro foi signicantemente maior (pois Raj e positivo) do que o esperado se as vari aveis fossem independentes. Portanto, existe associa c ao positiva entre asma e presen ca de eosin olos no escarro. A interpreta c ao dos demais res duos ajustados e feita do mesmo modo, ap os compar a-los com Z . Por exemplo, no Grupo 3 a freq u encia de indiv duos com eosin olos no escarro e signicantemente menor do que o esperado ao acaso (Raj = |+3, 00| > 1, 96). Na Tabela 7.10 h a seis res duos signicativos. Cambinando este resultado com as percentagens observadas na Tabela 7.9, a conclus ao geral e a de que indiv duos com eosin olos no escarro s ao mais freq uentes entre os asm aticos (142/197 = 72%) e menos comuns em pacientes dos Grupos 3 (44%) e 4 (41%). Em pacientes do Grupo 2, a percentagem de pessoas com eosin olos no escarro (58%) n ao diferem signicativamente daquela observada para o total da amostra (59%).

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 85

Tabela 7.10: Res duos ajustados (Raj) obtidos para os dados da tabela anterior. Os valores com (*) s ao signicativos ao n vel de 5%. Grupo quanto a pneumopatia Eosin olos no escarro Grupo 1* Grupo 2 Grupo 3* Grupo 4* Sim 5,20 -0,23 -3,00 -3,51 N ao -5,20 0,23 3,00 3,51

7.4
7.4.1

Medidas do Efeito em Tabelas 22


Risco Relativo (RR)

Os pesquisadores em sa ude investigam a todo momento a ocorr encia de doen cas, sua forma de apresenta c ao, sua freq u encia, localiza c ao, enm, re unem uma s erie de informa c oes que s ao apresentadas de forma expositiva, dando ci encia de tudo o que encontraram a respeito. Por em, existe uma preocupa c ao maior, que e a de se estudar o vardadeiro sistema no qual est a inserido o fato, a m de pesquisarem-se os fatores que a ele estariam associados. Com o objetivo de analisar os fatores respons aveis e quanticar em sua grandeza a participa c ao desses fatores, vale a pena ressaltar que um dos estudos mais importantes que visa a responder a essas indaga c oes seria a an alise dos fatores de risco, que podem ser um agente qu mico, um tipo de acidente ou mesmo um h abito de vida. Em determinados tipos de estudo, atrav es de um procedimento metodol ogico estat stico, e poss vel realizar estimativas como indicadores relevantes de causa e efeito. O risco relativo e uma forma de expressarmos a for ca de associa c ao entre exposi c ao ao fator e a doen ca. Os estudos longitudinais prospectivos e retrospectivos proporcionam ao investigador a oportunidade de identicar, dentro do sitema composto das vari aveis que s ao selecionadas e estudadas, os fatores de risco e de prote c ao, considerando as vari aveis independentes e dependentes contidas no modelo de estudo. Um dos primeiros procedimentos no estudo e identicar a vari avel dependente e as vari aveis independentes. Tanto seja vari avel discreta ou cont nua, podemos realizar a an alise dos dados, com o intuito de vericar o risco de ocorr encia de um fato, pela presen ca de um ou mais fatores, considerando inclusive a sua intensidade. Exemplicando, poder amos vericar a hip otese de que o consumo de cigarros tenha associa c ao com c ancer de pulm ao, determinando-se o risco para tabagistas, baseando-se em indiv duos n ao fumantes, tendo-se em conta que os n ao tabagistas tamb em podem contrair a doen ca. Conceituar o que seja risco e fundamental para nossa apresenta c ao. Portanto, considera-se como risco a probabilidade de que pessoas que est ao sem a doen ca, mas expostas a certos fatores, possam adquir -la. Na verica c ao da ocorr encia de doentes na popula c ao, vari avel chave da investiga c ao epidemiol ogica, as medidas de incid encia, preval encia e outros coecientes servem como indicadores de risco. Incid encia (I): n umero de casos novos registrados em determinado per odo de tempo (dia, m es ou ano). Preval encia: n umero de casos (novos+antigos) registrados no per odo de tempo determinado. Coeciente de incid encia: n umero de casos novos em rela c ao ao total de indiv duos expostos na unidade de tempo. Coeciente de preval encia: n umero de casos novos + antigos, em rela c ao ao total de indiv duos expostos na unidade de tempo. Risco Relativo (RR): rela c ao existente entre o coeciente de incid encia de casos expostos (IE ) e o coeciente de incid encia de casos n ao-expostos (IN E ) RR = IE P (doente|exposto) = IN E P (doente|n ao-exposto)

Risco Atribu vel (RA): diferen ca entre coeciente de incid encia no grupo exposto ao fator e o coeciente de incid encia do grupo n ao exposto ao fator RA = IE IN E Risco Atribu vel na Popula c ao (RAP%): expresso em porcentagem, e uma medida de associa c ao que depende da ocorr encia do fator de risco na popula c ao ( e o excesso de risco na popula c ao devido ao fator de

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 86

risco) RAP % =

IN IN E (RR 1)p = IN (RR 1)p + 1

onde IN : e a incid encia global nos expostos e n ao expostos e p: preval encia do fator de risco. No estudo de coorte e bastante natural pensar na raz ao entre a propor c ao dos que desenvolveram a doen ca dentre os pacientes expostos e a propor c ao an aloga entre os pacientes n ao-expostos. Observando a disposi c ao dos grupos na Tabela 7.11 a seguir, Tabela 7.11: Distribui c ao quanto ` a ocorr encia de um evento Doen ca Fator Total (Exposto) (N ao-exposto) Presente Ausente Presente a b n1 = a + b Ausente c d n2 = c + d Total m1 = a + c m2 = b + d n = n1 + n2 de modo geral, podemos encarar o RR como a IE a + c. RR = = b IN E b+d Ensaios cl nicos podem ser vistos como um estudo de coortes, em que os grupos foram criados atrav es de aloca c ao aleat oria de pacientes aos grupos. Portanto, o risco relativo tamb em pode ser calculado para ensaios cl nicos. Exemplo 7.6. Quando estamos interessados em estimar probabilidades condicionais, por exemplo, de um nascituro ter aberra c ao cromoss omica, dado que a gestante est a na faixa et aria de 35 at e 40 anos, e a probabilidade (condicional) de um nascituro ter aberra ca o cromoss omica, dado que a gestante tem 40 anos ou mais, e comum na area da sa ude usar a palavra risco para identicar esta probabilidade. Tabela 7.12: Resultados de casos de diagn ostico pr e-natal segundo a idade da gestante e a presen ca ou aus encia de aberra c ao cromoss omica. Doen ca Fator (Idade em anos) Total (Exposto) (N ao-exposto) (Aberra c ao) 40 35 40 Presente 18 10 28 Ausente 510 447 957 Total 528 457 985 Ent ao, com base nas dados da Tabela 7.12, podemos calcular: 1. o risco de um nascituro ter aberra c ao cromoss omica, dado que a gestante tem 40 anos ou mais (IE ): IE = 18 = 0, 0341 ou 3, 41%. 528

2. o risco de um nascituro ter aberra c ao cromoss omica, dado que a gestante est a na faixa et aria de 35 at e 40 anos (IN E ): 10 IN E = = 0, 0219 ou 2, 19%. 457 3. a incid encia global (I N ) : IN = 10 + 18 = 0, 0284 ou 2, 84%. 985

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 87

4. o risco atribu vel (RA) : RA = IE IN E = 3, 41% 2, 19% = 1, 22%. 5. o risco atribu vel na popula c ao (RAP%) : RAP % = IN IN E 2, 84% 2, 19% = = 0, 2289 ou 22, 89%. IN 2, 84%

6. o Risco Relativo (RR) e a raz ao entre duas probabilidades condicionais (ou dois riscos condicionais). Com base na Tabela 7.12, tem-se o risco relativo RR = 3, 41 = 1, 56. 2, 19

Este resultado mostra que o risco de um nascituro apresentar aberra c ao cromoss omica e 1,56 maior se a gestante tiver 40 anos ou mais do que se a gestante estiver na faixa et aria de 35 at e 40 anos. Intervalo de Conan ca para RR Nos estudos longitudinais de coorte, em que procedemos ` a verica c ao e ` a identica c ao dos fatores considerados de risco ou de prote c ao, determinamos os valores referentes ao risco relativo. Entretanto, para que possamos concluir sobre os verdadeiros fatores de risco ou prote c ao, utilizamos IC(RR) o intervalo de conan ca para o RR, o IC(RR):
1

IC (RR) = RR onde 2 c

Z 2 c

e o valor da estat stica teste calculada atrav es dos dados na tabela de conting encia formada.

Exemplo 7.7. Dos dados da Tabela 7.12, para RR = 1,56, podemos obter seu respectivo IC(RR), j a que 2 vel de signic ancia de 5%, o valor de Z5% = 1, 96 : c = 1, 32 e para um n
1

IC (RR) = 1, 56 = 1, 5611,71 IC (RR) :

1, 96 1, 32

[0, 73; 3, 34]

Observa c ao: Este intervalo n ao incluindo a unidade, isto e, (o no 1) possibilita-nos rejeitar H0 : N ao existe associa c ao entre as vari aveis. Para o exemplo portanto, concluimos que existe associa c ao entre idade e aberra c ao cromoss omica, isto e, a idade e realmente um fator de risco para a doen ca em estudo.

7.4.2

Odds-Ratio (OR)

O risco relativo, embora seja uma medida de efeito com muitas qualidades, tem uma grande limita c ao: n ao pode ser estimado em estudo de caso-controle, forma mais freq uente de estudo comparativo. Isto porque, neste tipo de estudo, as incid encias observadas s ao meras conseq u encias do n umero escolhido de casos e controles e n ao caracter sticas dos grupos em estudo. Por isto, buscaram-se maneiras alternativas para se denir o efeito da exposi c ao de forma adequada a todos os estudos epidemiol ogicos. A solu c ao encontrada foi o uso de uma medida denominada raz ao das chances ou Odds-Ratio (OR). Dene-se chance de se desenvolver a doen ca entre os expostos e os n ao expostos como a seguinte estimativa: a/(a + c) = c/(a + c) = a/c = ad = b/(b + d) b/d bc c/(b + d) =
P (doente|exposto) 1P (doente|exposto) P (doente|n ao-exposto) 1P (doente|exposto)

OR

OR

7.4

Medidas do Efeito em Tabelas 22

ROSSI, Robson M. 88

Tamb em pode ser denida como a chance de exposi c ao entre indiv duos doentes dividia pela chance de exposi c ao entre os n ao-doentes, isto e: OR =
P (exposto|doente) 1P (exposto|doentes) P (exposto|n ao-doente) 1P (exposto|n ao-doentes)

Intervalo de Conan ca para o OR M etodo A: O intervalo de conan ca para a raz ao de chances, IC(OR), pode ser obtido analogamente ao processo do IC(RR): Z 1 2 c IC (OR) = OR M etodo B: Alternativamente podemos por raz oes te oricas obter o IC(OR), j a que muitas vezes a varia c ao de e mais facilmente calculada na escala logar tmica. Vale o seguinte resultado: ) = V ar(ln 1 1 1 1 + + + . a b c d

: Como ln tem aproximadamente distribui c ao gaussiana, constru mos intervalos de conan ca para ln [ ] Z V ar(ln ) . ln[IC (OR)] = [Li ; Ls ] = ln Obs.: Se este intervalo cont em o n umero 0 (zero ) (correspondente ao valor 1 para o RR) ent ao a associa c ao entre a doen ca e o fator pode ser vericada. Para obter o intervalo de conan ca para basta exponenciar os limites do intervalo acima, isto e: [ Li Ls ] IC (OR) = e ; e . Exemplo 7.8. Amamenta c ao na inf ancia e c ancer de mama. Para vericar se o fato de ter sido amamentado pela m ae e um fator de prote c ao para o c ancer de mama, Freudenheim et al. (1994) realizaram estudo do tipo caso-controle nos condados de Erie e Ni agara situados na parte oeste do estado de New York (EUA). As pacientes tomadas como controle foram escolhidas na popula c ao da regi ao, n ao existindo portanto o emparelhamento. Os dados obtidos est ao apresentados na Tabela 7.13. Tabela 7.13: Distribui c ao de casos e controles segundo a amamenta c ao. (Fator) Doen ca Total Amamenta c ao Sim N ao Casos 353 175 528 Controles 449 153 602 Total 802 328 1130 O risco de desenvolver c ancer de mama entre mulheres amamentadas pela m ae, aproximado pela raz ao de chances (odds-ratio ), e estimado por = 353 153 = 0, 69 OR : 175 449 ou seja, nominalmente, o risco do grupo amamentado e apenas 69% do risco do grupo n ao-amamentado. Para obtermos um intervalo com 95% de conan ca para temos os m etodos A e B: M etodo A: 1, 96 1 8, 16 IC (OR) = 0, 69 = 1, 5610,69 IC (OR) : [0, 53; 0, 89]

7.4

Medidas do Efeito em Tabelas 22 M etodo B: = ln(0, 69) = 0, 37 ln

ROSSI, Robson M. 89

1 1 1 1 + + + = 0, 02 353 175 449 153 ou seja, a estimativa do desvio-padr ao de ln e 0, 02 = 0, 14. Um intervalo de 95% de conan ca para ln e portanto 0, 37 1, 96.(0, 14) ) = V ar(ln ou ln[IC (OR)] = [0, 64; 0, 10] . Observe que o n umero 0 (zero) n ao pertence ao intervalo, onde conclu mos na exist encia de associa c ao entre as vari aveis (Rejeitamos H0 ). O intervalo para e ent ao obtido tomando-se o exponencial dos limites inferior e superior deste intervalo, ou seja: IC (OR) = [0, 53; 0, 89] indicando uma associa c ao signicativa entre ter sido amamentada e c ancer de mama (1 / IC ). Esse resultado deve ser interpretado com cuidado, uma vez que n ao foram considerados fatores importantes, como hist oria familiar e idade na primeira gesta c ao. De fato, ao ajustar o modelo incorporando essas vari aveis, a associa c ao deixou de ser signicativa.

Cap tulo 8

Compara c oes Entre Grupos


8.1 Introdu c ao

` vezes, As e preciso comparar duas popula c oes. Por exemplo, imagine que um pesquisador obteve, para um grande n umero de crian cas, a idade em que cada uma delas come cou a falar. Para vericar se meninos e meninas aprendem a falar na mesma idade, o pesquisador ter a que comparar os dados dos dois sexos. Outras vezes, e preciso comparar condi c oes experimentais. Por exemplo, para saber se um tratamento tem efeito positivo, organizam-se dois grupos de unidades: um grupo recebe o tratamento em teste ( e o grupo tratado ), enquanto o outro n ao recebe o tratamento ( e o grupo controle ). O efeito do tratamento e dado pela compara c ao dos dois grupos. Freq uentemente, para compara c ao de dois tratamentos observam-se caracter sticas ou mede-se o valor da vari avel resposta de interesse que as caracter sticas importantes dos indiv duos que integram o mesmo par sejam t ao semelhantes quanto poss vel. O tratamento e administrado a um dos elementos do par e o outro e mantido como controle. A vantagem do procedimento e clara. Os indiv duos no par s ao semelhantes, exceto no que se refere ao tratamento recebido. Em algumas situa c oes o par e constitu do do mesmo indiv duo em duas ocasi oes diferentes (amostras dependentes). A suposi c ao de Normalidade e necess aria em alguns testes estat sticos. Nesta se c ao apresentaremos alguns testes de normalidade assim como algumas t ecnicas gr acas, am de que possamos vericar a normalidade dos dados (No caso armativo optamos por testes param etricos).

8.2

Normalidade dos Dados

Na pr atica n ao podemos fazer suposi c oes arbitr arias a respeito da distribui c ao de probabilidade dos dados, logo usamos de t ecnicas para fazer uma verica c ao da adequa c ao do modelo suposto. A verica c ao pode ser baseada nas caracter sticas do modelo, em gr acos especiais e em testes de ader encia. Para a distribui c ao normal, em especial, sabemos que: 2 3 = 68, 26% = 95, 45% = 99, 73%

Grandes discrep ancias entre as freq u encias relativas observadas e as probabilidades te oricas acima citadas, indicam uma poss vel falta de adequa c ao ao modelo gaussiano. Testes de ader encia 1. Kolmogorov-Smirnov (K-S) [ e supostamente conhecidos]; e uma varia c ao do K-S [ e estimados pelos dados]; 2. Lilliefors 3. Shapiro Wilks (W) [ e estimados pelos dados].

90

8.2

Normalidade dos Dados

ROSSI, Robson M. 91

Este u ltimo, tem sido muito utilizado para dados amostrais devido a sua capacidade de adapta c ao a uma variada gama de problemas sobre avalia c ao de normalidade. { H0 : Os dados s ao normalmente distribu dos; T.H. Ha Os dados n ao s ao normalmente distribu dos. Outros crit erios: T ecnicas Gr acas 1. Normal-plot 2. Q-Q-plot 3. P-P-plot

8.2.1

Faixas de Refer encia (M etodo de Gauss)

Toda medida laboratorial e analisada confrontando-se seu valor com uma faixa padr ao. Isto e t ao comum que, na pr opria apresenta c ao do resultado, muitos laborat orios j a indicam os limites inferiores e superiores para o valor da medida que devem servir de base ao racioc nio cl nico. Quando h aa suposi c ao de normalidade nos dados pode-se fazer uso desta informa c ao para obten c ao de uma FR (Faixa de Refer encia) pelo m etodo gaussiano: vel de conan ca (1 )% ou cobertura; Devemos xar, inicialmente, o n Calculamos atrav es da amostra de pessoas supostamente saud aveis: x e s. Tabela 8.1: Faixas de Cobertura (1 )% 90% 95% 99% . . . (1 )% Refer encia. Faixa x 1, 64.s x 1, 96.s x 2, 58.s . . . x Z .s 2

1-alfa

alfa/2
xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx xxxxxx

alfa/2
xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx xxxxxxx

-Z alfa/2

+Z alfa/2

Figura 8.1: Faixa de Refer encia. Observa c ao: Como em geral se trabalha com amostras, ent ao o uso dos Intervalos de Conan ca, con AMOSTRAL DA MEDIA, siderando a DISTRIBUIC AO e mais adequada para obten c ao dessas Faixas de Refer encias.

8.3

Resposta Dicot omica: Amostras Independentes

ROSSI, Robson M. 92

Exemplo 8.1. Faixa de refer encia para identicar o Pseudomonas sp (continua c ao do Exemplo 6.3). Observe atrav es da Figura 6.8o ajuste dos dados (pontos) linearizados, indicando ajuste dos dados a distribui c ao normal. Para a Amostra 1, foram realizados os testes de normalidade e indicaram ajuste dos dados j a que p Lillief ors > 0, 20 e p W ilks = 0, 8892. (Software Statistica). Observe atrav es da Figura 6.9 uma assimetria do Histograma comparado ` a normal assim como a n ao ader encia ou desajuste dos dados (pontos) sob a reta, indicando que os dados n ao seguem uma distribui c ao normal. Os testes conrmam isto: Para a Amostra 2 obtemos p Lillief ors < 0, 01 e p W ilks < 0, 000013.

8.3

Resposta Dicot omica: Amostras Independentes

Comparar dois grupos atrav es do resultado observado em uma vari avel dicot omica e um problema comum na pesquisa m edica, aparecendo com freq u encia em todos os tipos de estudos cl nicos. A vari avel de interesse e a ocorr encia de um evento, como o desenvolvimento de uma doen ca de certo atributo, por exemplo, albinismo. O problema de compara c oes das probabilidades de ocorr encia do evento ou do atributo nos dois grupos (p1 e p2 ) e formulado atrav es das hip oteses: { H0 : p1 = p2 n ao h a diferen ca signicativa entre os grupos Ha : p1 = p2 h a diferen ca signicativa entre os grupos

8.3.1

Teste Qui-Quadrado

A Tabela 8.2 apresenta dados gen ericos de uma situa c ao envolvendo a compara c ao de dois grupos e que a resposta de interesse e dicot ominca: a ocorr encia ou n ao de um evento. Tabela 8.2: Distribui ca o quanto ` a ocorr encia de um evento. Grupo Ocorr encia do Evento Total Sim N ao I a b n1 = a + b II c d n2 = c + d Total m1 = a + c m2 = b + d n = n1 + n2 A estat stica teste ser a: 2 c = ou, para Tabelas 22: 2 c =
k (Oi Ei )2 i=1 2

Ei

2 1;(1)%

n (ad bc) 2 1;(1)% (Tabelas 2 2) n1 n2 m 1 m 2

H a restri c oes para aplica c ao do 2 em tabelas conting encia, logo a corre c ao de Yates (1934) e necess aria. Esta corre c ao deve ser feita quando: n < 40 ou Ei 5 20 < n < 40 e Ei 5 para algum i; n > 40 e Ei 5 para algum i; Para testar as hip oteses acima citadas temos a estat stica teste qui-quadrado com corre ca o de continuidade de Yates, temos ( )2 n |ad bc| n 2 2 cY = 2 1;(1)% (Tabelas 2 2) n1 n2 m 1 m 2

8.3

Resposta Dicot omica: Amostras Independentes

ROSSI, Robson M. 93

Exemplo 8.2. Estudo sobre a associa c ao entre o uso corrente de contraceptivos e o infarto de mioc ardio. Shapiro et al. (1979) observaram os resultados entre pacientes com idade entre 30 e 34 anos e estes s ao mostrados na Tabela 8.3. Tabela 8.3: Distribui c ao de uso de contraceptivo oral segundo Grupo Uso recente Sim N ao Casos 9 12 Controles 33 390 Total 42 402 grupo que sofreu ou n ao infarto do mioc ardio. Total 21 423 444

Entre os casos, ou seja, entre as pacientes que tiveram um infarto do mioc ardio, a propor c ao de uso recente 9 33 de contraceptivos e = 0, 43 e entre os controles, = 0, 08. A diferen ca entre estas duas propor c oes 21 423 (0,35) parece indicar que o uso de contraceptivos orais e mais freq uente entre os casos (infartos). Mas ser a que este resultado n ao ocorreu por mero acaso? 2 A express ao 2 ca (95%) armar que existe c = 24, 76 > 3, 84 = 1;95% , nos indica, com alto grau de conan associa c ao entre o uso de contraceptivos orais e infarto do mioc ardio para pacientes entre 30 e 34 anos.

8.3.2

Teste Exato de Fisher

Nos casos em que formamos uma tabela de conting encia com formato 2 2, com pequeno n umero de observa c oes (n < 20 ou pr oximo) e, conseq uentemente, com freq u encias observadas em cada casela muito baixas, a literatura apresenta a utiliza c ao do teste exato de Fisher, no qual estimamos, a partir da menor freq u encia contida na tabela, a probabilidade de ocorr encia deste valor e de uma freq u encia menor ainda, n fazendo-se p = pi , em que n e a menor freq u encia vericada na tabela. Numa tabela de conting encia 2 2, com os totais marginais xos, apresentada como a Tabela 5.1, as freq u encias observadas t em distribui c ao hipergeom etrica e a probabilidade de ocorr encia i ser a dada por: pi = n1 !n2 !m1 !m2 ! a!b!c!d!n!
i=0

encia de associa c ao entre o tipo de tratamento Exemplo 8.3. Um estudo foi realizado para vericar a exist e mortalidade por AIDS. A Tabela 8.4 apresenta os dados.

Tabela 8.4: Associa c ao entre o tipo de tratamento e mortalidade por AIDS. Tratamento Mortalidade Total Sim N ao A 7 5 12 B 1 9 10 Total 8 14 22 Sendo p =
1 i=0

pi , temos p1 = 12!10!8!14! = 0, 024. 7!5!1!9!22!

12!10!8!14! = 0, 0015. 8!4!0!10!22! O valor de p ser a 0, 024 + 0, 0015 = 0, 0255 (p-valor : 0,0263). Como este p e menor que o n vel de signic ancia, para = 0, 05 a decis ao correta ser a rejeitar H0 , isto e, pode-se concluir que h a diferen ca quanto ` a mortalidade em rela c ao ao tipo de tratamento, sendo B mais ec az. p0 =

e assim

8.3

Resposta Dicot omica: Amostras Independentes

ROSSI, Robson M. 94

Tabela 8.5: Associa c ao entre o tipo de tratamento e mortalidade por AIDS. Tratamento Mortalidade Total Sim N ao A 8 4 12 B 0 10 10 Total 8 14 22

Exemplo 8.4. Suponha um grupo de dezesseis ratos, divididos em dois grupos, experimental e normal. O grupo experimental e formado por 9 animais geneticamente modicados, por apresentarem uma disfun c ao pancre atica com diminui c ao da capacidade de produ c ao de insulina. Imagine que, ap os um ano e meio em ambiente controlado, o n umero de ratos vivos do grupo experimental e do normal seja o seguinte (Tabela 8.6): Tabela 8.6: Estudo em ratos sobre disfun ca o pancre atica. Grupo Sobrevida + 1,5 ano Total Vivos Mortos Normal 5 2 7 Experimental 1 8 9 Total 6 10 16 Pode-se notar que aproximadamente 71% dos ratos normais ainda permaneciam vivos, enquanto a sobrevida para o grupo experimental e de apenas 11%. O teste exato de Fisher consiste em elaborar, com base nos totais marginais do fator discriminante da tabela original, duas outras tabelas, que ser ao denominadas tabelas ou matrizes extremas, X1 e X2 . A matriz extrema 1 e a matriz em que todos os animais mortos pertencem ao grupo normal (s ao 10 mortos, mas o grupo normal tem 7 ratos, logo, os outros 3 que morreram pertencem ao grupo experimental) e todos que sobraram do grupo experimental est ao vivos (todos os vivos, pois sobraram 9-3 = 6 ratos). Desta forma, resulta na Matriz X1 (Tabela 8.7): Tabela 8.7: Matriz X 1 . Sobrevida + 1,5 ano Vivos Mortos Normal 0 7 Experimental 6 3 Total 6 10 Grupo

Total 7 9 16

A matriz extrema 2, X2 , corresponde a uma tabela com os mesmos totais marginais, mas com todos os animais vivos no grupo normal. Ent ao, pela matriz X2 (Tabela 8.8): Observe que existe um obito no grupo normal, pois o n umero de ratos do grupo normal e maior que o de ratos que sobreviveram. Obviamente, os 9 mortos que restaram pertencem ao grupo experimental. Nenhum rato do grupo experimental sobreviveu. Finalmente, o valor de signic ancia para o teste e calculado segundo a f ormula apresentada anteriormente: Para a matriz original: 7!.9!.10!.6! F0 : = 0, 02360 2!.5!.8!.1!.16! Para a matriz X 1 : 7!.9!.10!.6! FX1 : = 0, 0105 0!.7!.6!.3!.16! Para a matriz X 2 : 7!.9!.10!.6! = 0, 0009 FX2 : 6!.1!.0!.9!.16!

8.3

Resposta Dicot omica: Amostras Independentes

ROSSI, Robson M. 95

Tabela 8.8: Matriz X 2 . Sobrevida + 1,5 ano Vivos Mortos Normal 6 1 Experimental 0 9 Total 6 10 Grupo

Total 7 9 16

Finalmente, p = F0 + FX1 + FX2 = 0, 0236 + 0, 01505 + 0, 0009 = 0, 035 ou 3, 5%. Ou seja, a arma c ao de que a sobrevida dos ratos geneticamente alterados e menor que a dos ratos normais envolve uma probabilidade de erro de 3,5%. Portanto, ao n vel de 5% de signic ancia, rejeita-se a hip otese de nulidade (ou seja, de que as vidas dos ratos normais e dos transg enicos s ao iguais).

8.3.3

Teste z para Compara c ao de Propor c oes

Denotamos os dois resultados poss veis da vari avel dicot omica por sucesso e fracasso. Sejam p1 e p2 as propor c oes de sucesso referentes aos tratamentos a serem comparados, que s ao estimadas por p 1 e p 2 , as propor c oes amostrais baseadas em amostras de tamanhos n1 e n2 , respectivamente. Queremos testar as hip oteses: H0 Ha : p1 = p2 : p1 = p2

isto e, estamos investigando a equival encia entre os dois tratamentos. Apresentaremos uma alternativa para o teste qui-quadrado para a compara c ao de propor c oes. Trata-se de um teste aproximado que requer amostras grandes para sua aplica c ao. Um crit erio e exigir que n1 p 1 e n2 p 2 excedam o valor 5. O teste e baseado em p 1 p 2 Zc = N (0, 1). p 1 (1p 1 ) p 2 (1p 2 ) + n1 n2 c ao de drogas contra n ausea. Exemplo 8.5. Compara Com o objetivo de comparar a ec acia de dois preventivos contra n ausea, dividiu-se aleatoriamente uma amostra de 400 marinheiros em dois grupos de 200. Um grupo recebeu a p lula A e o outro a p lula B, sendo que no primeiro grupo 152 n ao enjoaram durante uma tempestade e no outro grupo apenas 132. H a indica c oes de que a ec acia da p lula A e B e a mesma? Sol.: Sejam pA e pB as propor c oes de marinheiros que n ao enjoam, respectivamente para as p lulas A e B. Temos que nA = 200, nB = 200, p A = 152 B = 132 200 = 0, 76, p 200 = 0, 66, logo tem-se: Z= 0, 76 0, 66
0,76(10,76) 200 0,66(10,66) 200

= 2, 22 (p-valor : 0,0281).

Fixando-se o n vel de signic ancia em 5%, rejeita-se H0 . Portanto, pode-se concluir que as duas p lulas n ao s ao igualmente efetivas. H a indica c ao de que a p lula A oferece maior prote c ao contra n ausea comparada a p ` lula B.

8.4

Resposta Dicot omica: Amostras Pareadas

ROSSI, Robson M. 96

8.4

Resposta Dicot omica: Amostras Pareadas

Podemos disting uir tr es tipos de pareamento: auto-pareamento, pareamento natural e pareamento articial. O auto-pareamento ocorre quando o indiv duo serve como seu pr oprio controle, como na situa c ao em que um indiv duo recebe duas drogas administradas em ocasi oes diferentes. Outra situa c ao e a que um tratamento e administrado e as vari aveis de interesse s ao observadas antes e depois do programa. Finalmente, a compara c ao de dois org aos no mesmo indiv duo, como bra cos, pernas, olhos, narinas, segundo alguma caracter stica estudada tamb em constitui um auto-pareamento. O pareamento natural consiste em formar pares t ao homog eneos quanto poss vel, controlando os fatores que possam interferir na resposta, sendo que o pareamento aparece de forma natural. Por exemplo, em experimentos de laborat orio pode-se formar pares de cobaias selecionadas da mesma ninhada; em investiga c oes cl nicas, g emeos univitelinos s ao muitos usados. No pareamento articial escolhe-se indiv duos com caracter sticas semelhantes, tais como, idade, sexo, n vel s ocio-econ omico, estado de sa ude ou, em geral, fatores que podem inuenciar de maneira relevante a vari avel resposta.

8.4.1

Teste McNemar

O exemplo a seguir ilustra a necessidade de desenvolvimento de um teste espec co para a situa c ao de dados pareados em que a resposta e dicot omica. Exemplo 8.6. Suponhamos que dois patologistas examinaram, separadamente, o material de 100 tumores e os classicaram como benignos ou malignos. A quest ao de interesse e saber se os patologistas diferem nos seus crit erios de decis ao. Neste caso, a forma adequada de apresenta c ao dos dados e mostrada na Tabela 8.9. Tabela 8.9: Classica ca o de dois patologistas (A e B) quanto ` a malignidade de tumores. Diagn ostico de B Diagn ostico de A Total Malignos Benignos Malignos 9 1 10 Benignos 9 81 90 Total 18 82 100 importante observar que a unidade de an E alise aqui e o tumor, avaliado por dois patologistas. Embora tenham sido feitas 200 an alises, o total de tumores e, na realidade, apenas 100. Al em disto, alguns tumores ser ao claramente mais malignos do que outros e, portanto, a hip otese fundamental na constru c ao do teste de probabilidade constante de malignidade n ao e razo avel aqui. Isto explica a necessidade de desenvolvimento de teste espec co, isto e, para dados pareados. Os dados a serem analisados no processo de compara c ao podem ser resumidos no formato da Tabela 8.10. H0 : Os patologistas tem o mesmo diagn ostico. Tabela 8.10: Apresenta c ao de dados obtidos em uma classica c ao de dados pareados. Controle Tratamento Total Sucesso Fracasso Sucesso a b n1 Fracasso c d n2 Total m1 m2 n Se p1 e p2 s ao as probabilidades de sucesso nos grupos controle e tratamento, respectivamente, a hip otese de interesse e: H0 Ha : p1 = p2 : p1 = p2

8.4

Resposta Dicot omica: Amostras Pareadas

ROSSI, Robson M. 97

A Estat stica Teste: (B/C) 2 M cN = (|b c| 1)2 2 1. b+c

2 A hip otese nula dever a ser rejeitada quando 2 M cN > 1 .

ca de Hodgkin. Exemplo 8.7. Amigdalectomia e doen Johnson & Johnson (1972), ao analisarem retrospectivamente a hist oria cl nica de pacientes de doen ca de Hodgkin, um tipo de c ancer no tecido linf oide, n ao encontraram evid encias que sustentassem a hip otese de que a amigdalectomia aumenta a suscetibilidade ` a doen ca, pela remo c ao da barreira linf atica representada pela am gdala. Neste estudo, usaram um planejamento do tipo caso-controle pareado. A conclus ao relatada no artigo foi feita, entretanto, com uma an alise apropriada para dados provenientes de grupos independentes. Logo ap os a publica c ao, v arios autores observaram a impropriedade da an alise e, utilizando as informa c oes do artigo, zeram a an alise correta, que e baseada nos dados da Tabela 8.11. Tabela 8.11: Distribui c ao de pacientes com e sem doen ca de Hodgkin em um estudo caso-controle pareado segundo ` a amigdalectomia. Doen ca de Controle Total Hodgkin Operados N ao operados Operados 26 15 41 N ao operados 7 37 44 Total 33 52 85 O valor da estat stica do teste de McNemar e: 2 M cN = (|15 7| 1)2 = 2, 23 (p-valor : 0,1356). 15 + 7

Este valor dever ser comparado com 3,84 para um n vel de signic ancia de 5%. Ou seja, com uma conan ca de 95% acreditamos que n ao h a associa c ao entre a doen ca de Hodgkin e a amigdalectomia. Esta conclus ao n ao est a de acordo com trabalhos anteriores, como o de Vianna et al. (1971).

8.5

Resposta Cont nua - Teste de M edias para Amostras Independentes ROSSI, Robson M. 98

8.5

Resposta Cont nua - Teste de M edias para Amostras Independentes

` vezes, As e preciso comparar duas popula c oes. Por exemplo, imagine que um pesquisador obteve, para um grande n umero de crian cas, a idade em que cada uma delas come cou a falar. Para vericar se meninos e meninas aprendem a falar na mesma idade, o pesquisador ter a que comparar os dados dos dois sexos. Nesta se c ao apresentamos a metodologia para comparar dois grupos de pacientes (por exemplo, doentes versus n ao doentes) em rela c ao a uma resposta cont nua, por exemplo, press ao sist olica. Testa-se, neste caso, a igualdade das m edias das respostas de dois tratamentos. Sejam 1 e 2 as m edias da vari avel estudada para os dois grupos, respectivamente. As hip oteses a serem testadas s ao: H0 Ha : 1 = 2 : 1 = 2

8.5.1

Teste t

Se a vari avel em an alise tem distribui c ao normal ou aproximadamente normal, aplica-se o teste t para comparar duas m edias. Mas primeiro e preciso estabelecer o n vel de signic ancia, . Depois, dados os dois grupos, 1 e 2, calculam-se: a) as m edias de cada grupo: x 1 x 2 : m edia do grupo 1 : m edia do grupo 2

b) as vari ancias ou os desvios-padr oes de cada grupo: s1 s2 c) a vari ancia ponderada:


2 (n1 1)s2 1 + (n2 1)s2 n1 + n2 2 d) o valor da estat stica teste, tc , denida por:

: :

desvio-padr ao do grupo 1 desvio-padr ao do grupo 2

s2 p =

tc =

x 1 x 2 ( ) tn1 +n2 2;% 1 1 2 sp + n1 n2 ( )

O intervalo de conan ca para (1 2 ) ser a: ( x1 x 2 ) tn1 +n2 2;% .s2 p.

1 1 + n1 n2

c ao entre tratamentos para dieta. Exemplo 8.8. Compara Para vericar se duas dietas para emagrecer s ao igualmente ecientes, um m edico separou, ao acaso, um conjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para seu grupo. Decorrido certo tempo, o m edico obteve a perda (ou ganho) de peso, em quilogramas, de cada paciente de cada grupo. Os dados est ao apresentados na Tabela 8.12: 2 2 Ap os alguns c alculos preliminares, temos: x 1 = 12; x 2 = 15; s2 1 = 4; s2 = 5; sp = 4, 4, desta forma, para = 5%, temos t15;5% = 2, 13, assim: tc = 12 15 ao de rejei c ao de H0 , logo podemos ) = 2, 902 Regi ( 1 1 + 4, 4 10 7

p valor

0, 010947

8.5

Resposta Cont nua - Teste de M edias para Amostras Independentes ROSSI, Robson M. 99

Tabela 8.12: Perdas de peso, em quilogramas, segundo a dieta. 1 15 19 15 12 13 16 15 2 12 8 15 13 10 12 14 11 12 13 concluir que, em m edia, as perdas de peso de pacientes submetidos aos dois tipos de dieta s ao diferentes. Em termos pr aticos, a perda de peso e maior quando os pacientes s ao submetidos ` a dieta 2.

8.5.2

Teste z

Um pressuposto importante para aplicar o teste t visto anteriormente e que os dois grupos comparados tenham a mesma variabilidade, o que nem sempre acontece na pr atica. No caso de amostras grandes (n1 e 2 n2 30) dispomos de um teste em que n ao e necess ario qualquer suposi c ao adicional sobre 2 1 e 2 , ou seja, as var ancias podem ser iguais ou diferentes. A estat stica teste usada ser a: x 1 x 2 N (0, 1). Zc = s2 s2 2 1 + n1 n2 Exemplo 8.9. Efeito do halotano em cirurgias card acas. O halotano e uma droga bastante utilizada para induzir a anestesia geral. Trata-se de um poderoso anest esico de inala c ao, n ao inam avel e n ao explosivo, com um odor relativamente agrad avel. Pode ser administrado ao paciente com o mesmo equipamento usado para sua oxigena c ao. Ap os a inala c ao, a subst ancia chega aos pulm oes tornando poss vel a passagem para o estado anest esico mais rapidamente do que seria poss vel com drogas administradas de forma intravenosa. Entretanto, os efeitos colaterais incluem a depress ao do sistema respirat orio e cardiovascular, sensibiliza c ao a arritmias produzidas por adrenalina e eventualmente o desenvolvimento de les ao hep atica. Alguns anestesistas acreditam que esses efeitos podem causar complica c oes em pacientes com problemas card acos e sugerem o uso da morna como um agente anest esico nesses pacientes devido ao seu pequeno efeito na atividade card aca. Conahan et al. (1973) compararam esses dois agentes anest esicos em um grande n umero de pacientes submetidos a uma cirurgia de rotina para reparo ou substitui c ao da v alvula card aca. Para obter duas amostras compar aveis, os pacientes foram alocados aleatoriamente a cada tipo de anestesia. Com o objetivo de estudar o efeito desses dois tipos de anestesia, foram registradas vari aveis hemodin amicas, como press ao sang u nea antes da indu c ao anest esica, ap os a anestesia mas antes da incis ao, e em outros per odos importantes durante a opera c ao. A quest ao que surge e se o efeito do halotano e da morna na press ao sang u nea e o mesmo. Para comparar os dois grupos, necessitamos dos resultados apresentados na Tabela 8.13 a seguir:

Tabela 8.13: M edia e desvio-padr ao da press ao sang u nea (mmHg) segundo o tipo de anestesia. Informa c oes Anestesia sobre a amostra Halotano Morna M edia 66,9 73,2 Desvio-Padr ao 12,2 14,4 n 61 61

Nas condi c oes do problema, as hip oteses s ao: { H0 : 1 = 2 ; Ha : 1 = 2 isto e, devemos testar a diferen ca entre as press oes sang u neas m edias de indiv duos anestesiados com halotano ou morna.

8.6

Resposta Cont nua - Teste de M edias para Amostras Pareadas

ROSSI, Robson M. 100

Como as amostras s ao grandes, podemos usar o teste Z , cujo valor da estat stica do teste e: Zc = 6, 30 = = 2, 61 (p-valor : 0,0103). 5, 84 12, 2 14, 4 + 61 61
2 2

66, 9 73, 2

Adotando um n vel de siginic ancia de 5%, o resultado e estatisticamente signicativo, j a que | 2, 61| > 1, 96, indicando que os dois anest esicos n ao s ao equivalentes.

8.6
8.6.1

Resposta Cont nua - Teste de M edias para Amostras Pareadas


Teste t-pareado

Para estudar o efeito de um tratamento, muitas vezes comparam-se pares de indiv duos. Por exemplo, em alguns estudos de psicologia comparam-se pares de g emeos: um dos g emeos recebe o tratamento, enquanto o outro permanece sem o tratamento (controle). Outras vezes, comparam-se os dois lados dos mesmos indiv duos. Por exemplo, par estudar o efeito de um tratamento para preven c ao de c aries, o dentista pode aplicar o tratamento em um lado da arcada dent aria de cada paciente, e deixar o outro lado sem tratamento (controle). Tamb em s ao feitos experimentos em que se observam os mesmos indiv duos duas vezes, isto e, uma vez antes, outra vez, depois de administrar o tratamento. Por exemplo, para vericar o efeito de um tratamento sobre press ao arterial, o m edico pode obter a press ao arterial de seus pacientes, antes e depois de administrar o tratamento. Todos esses exemplos s ao de observa c oes pareadas (pares de g emeos, dois lados de um indiv duo, observa c oes no mesmo indiv duo). Para testar o efeito de um tratamento, quando as observa c oes s ao pareadas, aplica-se o teste t. Estat stica teste: d tc = tn1;% s2 n onde: : m d edia das diferen cas, di = x2 x1 : a diferen ca entre as unidades de cada um dos n pares
n

di

= d

i=1

s2 : vari ancia das diferen cas, di . Toda vez que o valor absoluto de tc for igual ou maior do que o valor tabelado tn1;% , conclui-se que o tratamento tem efeito ao n vel % estabelecido. O intervalo de conan ca para d, ser a dado por: S tn1;% . d n

8.6

Resposta Cont nua - Teste de M edias para Amostras Pareadas

ROSSI, Robson M. 101

Exemplo 8.10. S ao dados os pesos de 9 pessoas, antes e depois da dieta para emagrecimento. Tabela 8.14: Pesos em Kg de 9 pessoas antes e depois da dieta para emagrecimento. Dieta Antes Depois di 77 80 3 62 58 -4 61 61 0 76 -4 80 90 79 11 72 69 -3 90 4 86 59 51 -8 88 81 -7 Total -30

Para fazer o teste, e preciso primeiro estabelecer o n vel de signic ancia. Seja = 1%, = 30 = 3, 33 d 9 s2 = 25 logo 3, 33 tc = = 2, 0 (p-valor : 0,080516). 25 9

Ao n vel de siginic ancia de 1% com g.l. = 8, o valor de t tabelado para t8;1% . e de 3,36. Como o valor absoluto de tc (2,0) e menor do que o valor da tabela, concui-se que o tratamento n ao tem efeito signicativo. Em termos pr aticos, o experimento n ao provou que a dieta emagrece.

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 102

8.7

Testes N ao-Param etricos

Os testes n ao-param etricos s ao boas op c oes para situa c oes em que ocorrem viola c oes dos pressupostos b asicos necess arios para a aplica c ao de um teste param etrico. Por exemplo, para testar a diferen ca de dois ou mais grupos quando a distribui c ao subjacente e assim etrica ou dos dados foram coletados em uma escala ordinal.

8.7.1

Teste Mann-Whitney para Amostras Independentes

Este teste corresponde a mais uma alternativa para a compara c ao de duas amostras independentes, utilizando, como os demais testes n ao-param etricos, os n umeros naturais para classica c ao conjunta dos valores observados. Portanto, o posto de um valor de um conjunto de n valores corres-ponde a um n umero natural que indicar a a sua posi c ao no conjunto anteriormente ordenado (posto, score ou rank ), isto e, todas as N observa c oes recebem uma pontua c ao atrav es dos n umeros naturais 1, 2, 3, 4, ..., n. Assim, ao menor valor se dar a o n umero 1, e assim sucessivamente at e o valor maior, que receber a a maior pontua c ao. Quando ocorre a presen ca de valores iguais no conjunto, considera-se um ponto m edio, n ao afetando o posto seguinte. Portanto, num conjunto de seis valores j a ordenados {7-12-18-18-19-23} os postos ser ao {1-2-3,5-3,5-5-6}, respectivamente. Quanto ao procedimento mais adequado para a aplica c ao do teste, baseamo-nos no c alculo de U1 e U2 , sendo: ni (ni + 1) Ui = n1 n2 + Ti , i = 1, 2. 2 Os valores n1 e n2 s ao os tamanhos das duas amostras de T1 e T2 , que correspondem as somas dos pontos (postos) atribu dos aos valores das duas amostras. Para amostras pequenas (ni 20) Uc = m n{U1 ; U2 } Obtemos uma estat stica tabelada : UT = U,n1 ,n2 e conclu mos para a rejei c ao de H0 se UT Uc . Para amostras grandes (ni > 20) Neste caso o teste pode ser aplicado por aproxima c ao normal: e = ni (n1 + n2 + 1) , sendo ni = min{n1 ; n2 } 2 n1 n2 (n1 + n2 + 1) = , 12

considerando w = min{T1 ; T2 } tem-se a express ao: Z= w N (0, 1).

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 103

Exemplo 8.11. Vericar se os dados das duas amostras apresentam diferen ca signicativa.

Tabela 8.15: Dados hipot eticos. Amostra A Amostra B 2,6 (9,5) 2,3 (5) 2,9 (13) 2,8 (12) 2,5 (8) 2,0 (2) 2,7 (11) 1,8 (1) 3,2 (14) 2,4 (7) 2,6 (9,5) 2,3 (5) 2,3 (5) 2,2 (3) 3,3 (15) T1 = 85, 0 T2 = 35, 0 Procede-se ` a ordena c ao dos valores para obten c ao dos seus postos e posteriormente seu somat orio. Temos ent ao n1 = 8, n2 = 7, T1 = 85 e T2 = 35. O valor de U1 e de U2 , respectivamente ser ao: U1 = 8(7) + U2 = 8(7) + Assim Uc = m n{7;49} = 7 O valor da estat stica tabelada (Anexo) ser a de: UT = U,n1 ,n2 = U5%,8,7 12 Como Uc UT rejeitamos Ho . Portanto as amostras diferem entre si ao n vel de 5% de signic ancia. Suponho n > 20 O teste pode ser aplicado tanto para U1 ou U2 , pois ambos s ao sim etricos em rela c ao ` a m edia. 7(8 + 7 + 1) 112 8(7)(8 + 7 + 1) = = = 56 e = = 8, 63. 2 2 12 Sendo assim, w = min{85; 35} = 35, tem-se: Z= 35 56 = 2, 43 (p-valor : 0,013986). 8, 63 8(8 + 1) 85 = 7 2

7(7 + 1) 35 = 49. 2

Como o valor de |Z | e maior do que Z , quando = 5%, ou seja, o valor 1,96, rejeitamos H0 . Considera-se que as amostras diferem entre si ao n vel de 5% de signic ancia.

8.7.2

Teste Kruskal-Wallis para k Amostras Independentes

O teste de Kruska-Wallis foi criado como um substituto ao teste F na an alise de vari ancia param etrica (ANOVA) que ser a apresentado no pr oximo cap tulo. Ele e utilizado para que se verique o contraste entre k (k>2) amostras independentes. Requisitos: Compara c ao entre 3 ou mais grupos independentes; Dados ordinais (que possam ser ordenados); ni 6.

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 104

Os valores obtidos nas diversas amostras diferem entre si e portanto, ser a uma maneira de vericar se estas diferen cas s ao devidas ao acaso ou se as amostras prov em de popula c oes diferentes. Da mesma forma que nos outros testes, ser ao consideradas as hip oteses nula (H0 ) e alternativa (Ha ), isto e: H0 Ha : n ao h a diferen ca signicativa entre os tratamentos . : h a diferen ca signicativa entre os tratamentos .

Quanto ` a metodologia usada no teste de Kruskal-Wallis, a express ao e denida por: HK W =


k T2 12 i 3(N + 1) tal que H 2 (k1) N (N + 1) i=1 ni

em que: Ti : e a soma das ordens atribu das ao tratamento i; k : corresponde ao n umero de tratamentos ou amostras a comparar; ni : o n umero de observa c oes em cada tratamento k e, N : o total de observa c oes em todos os tratamentos k. Exemplo 8.12. Analisar o tempo de sobrevida, em meses, de pacientes atendidos na cl nica de abd omen do hospital X, na cidade de Cabrob o.

Tabela 8.16: Tempo de sobrevida. Radioterapia (n1 = 7) Quimioterapia (n2 = 8) Cirurgia (n3 = 8) 17 (11) 20 (12) 32 (17) 14 (9) 5 (3) 35 (20) 4 (2) 9 (6) 26 (15) 8 (5) 13 (8) 34 (18,5) 29 (16) 34 (18,5) 21 (13) 6 (4) 2 (1) 45 (21) 15 (10) 11 (7) 50 (23) 22 (14) 47 (22) T1 = 57, 0 T2 = 69, 5 T3 = 149, 5 Quest oes: H a diferen ca sifnicativa entre os tempos de sobreviv encia? Qual o tratamento recomendado baseado no tempo de sobrevida? Independentemente do n umero de observa c oes em cada grupo e utilizando os n umeros naturais, procedemos ` a ordena c ao dos valores. Assim os valores acima receberiam a seguinte numera c ao, conforme os valores j a entre par enteses. Ent ao: H K W = = = = =
k T2 12 i 3(N + 1) N (N + 1) i=1 ni 3 T2 12 i 3(23 + 1) 23(23 + 1) i=1 ni [ ] 1 572 69, 52 149, 52 + + 72 46 7 8 8 1 (3861, 7) 72 46 11, 95 (p-valor : 0,0025).

2 2 Como HK W 2 ao H 2 (k1) , ent (31) 2;5% = 5, 99 e 2;1% = 9, 21, portanto, considerando que o valor encontrado de HK W = 11, 95 e maior do que os valores da tabela, tanto para = 5% como para = 1%, conclu mos pela rejei c ao de H0 e conseq uentemente, pela indica c ao de que o tratamento cir urgico se destaca dos demais, pois apresenta maiores valores aos tempos de sobrevida.

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 105

8.7.3

Teste de Wilcoxon para Amostras Pareadas

Trata-se de um teste n ao-param etrico para comparar dois tratamentos quando os dados s ao obtidos atrav es do esquema de pareamento. A prova de Wilcoxon avalia a grandeza das diferen cas quando comparados postos de observa c oes. Dada a grandeza das diferen cas observadas, atribui-se maior valor para a maior diferen ca encontrada, diminuindo este valor de acordo com as menores diferen cas existentes. Procedimento ca entre as obseva c oes 1. Calcular di : diferen di = xi 2. Ignorar os sinais e atribuir postos 3. Calcular a soma dos postos (T+ e T ). 4. Obter o valor da estat stica calculada Tc = min{|T |; |T+ |} 5. Obter o valor da estat stica Tabelada (Anexo V) T;n 6. Concluir pela rejei c ao de H0 se Tc T;n . Pequenas Amostras (n 20) No confronto de dois grupos quando desejamos identicar se existe diferen ca signicativa entre os mesmos quanto ` as medidas encontradas, empregamos o teste de Wilcoxon quando a varia c ao dos valores apresenta-se de forma acentuada. A aplica c ao deste teste pressup oe que as duas amostras sejam casualizadas e independentes, e que as vari aveis em confronto sejam cont nuas. A metodologia do teste consiste em se proceder ` a ordena c ao dos valores das amostras e, posteriormente, atribuir aos mesmos seus ranks. Em seguinda, obt em-se os totais do ranks da amostra de menor tamanho, consultando-se a tabela (anexo) do referido teste. Exemplo 8.13. Foi realizado um ensaio cl nico em que foram utilizadas duas drogas A e B. Com a droga A foram tratados oito pacientes e com a droga B, cinco pacientes. Os n veis de anticorpos corresponderam a: Tabela 8.17: N veis de anticorpos. Tratamento d rank de |d| A B 7,4 9,1 1,7 5 12,3 9,7 -2,6 6 7,4 8 11,8 19,2 16,4 22,4 6,0 7 1,5 -0,4 1 1,9 3,0 3,5 0,5 2,5 7,8 1,0 4 6,8 20,4 19,9 -0,5 2,5
(2)

xi

(1)

Tem-se: Soma dos ranks (-) : 9,5 Soma dos ranks (+) : 26,5

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 106

assim Tc = min{9, 5; 26, 5} = 9, 5 consultando-se a Tabela de Wilcoxon, verica-se que T;n = T5%;5 = 5 < 9, 5 (no Statistica o p-valor : 0,234). Assim, n ao rejeitamos H0 , ou seja, que os valores comparados, referentes ` as drogas A e B, n ao apresentamse com diferen ca siginicativa. Conclui-se, ent ao, que os valores de n veis de anticorpos em rela c ao aos dois tipos de drogas se comportam de forma semelhante. Grandes Amostras (n > 20) Nos casos de grandes amostras, estas apresentam valores com distribui c ao normal e, portanto, a compara c ao das medidas ser a realizada atrav es de determina ca o de um valor W . S ao enunciadas naturalmente as hip oteses. H0 ser a rejeitada se o valor de W for maior ou igual a Z e-determinado. para um n vel de signic ancia, , pr Assim, para a compara c ao de conjuntos de medidas, provenientes de duas amostras, ser a necess ario utilizar a express ao de W : n(n + 1) Tc 4 W = N (0, 1) n(n + 1)(2n + 1) 24 em que: n : n umero de elementos da menor amostra; Exemplo 8.14. Evolu c ao do tratamento com tianeptina: Escores dos pacientes do grupo tianeptina no primeiro e no u ltimo dia: Tabela 8.18: Tratamento com tianeptina. Tianeptina Primeiro dia (m = 8) Ultimo dia (n = 8) d 24 6 -18 46 33 -13 26 21 -5 26 -18 44 27 10 -17 34 29 -5 33 33 0 25 29 +4 35 37 +2 30 15 -15 38 2 -36 38 21 -17 31 7 -24 * * 27 34 * * 26 -6 32 Sendo assim temos: |T | = 99 e |T+ | = 6, ent ao Tc = min{99; 6} = 6 De acordo com a Tabela de Wilcoxon, T;n = T5%;14 = 21 Como 6 < 21, rejeitamos H0 .

Postos (-) 11,5 (-) 7 (-) 4,5 (-) 11,5 (-) 9,5 (-) 4,5 (+) 1 (+) 3 (+) 2 (-) 8 (-) 14 (-) 9,5 (-) 13 * * (-) 6

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 107

Supondo n grande teremos: 14(14 + 1) 4 W = = 2, 92 (p-valor : 0,003). 14(14 + 1)(2.14 + 1) 24

Considerando que o valor de W = 2, 92 est a na area de rejei c ao de H0 , para o valor de Z5% = 1, 96, rejeitamos H0 , ou seja, os valores dos dois conjuntos apresentam diferen cas signicativas.

8.7.4

Teste Friedman para k Amostras Pareadas

O teste de Friedman e recomendado como um substituto do teste F (ANOVA), quando procede-se ` a compara c ao de k (k>2) amostras relacionadas ou dependentes cujas observa c oes apresentam valores com acentuadas varia c oes e em cada tratamento s ao constitu dos blocos. Na verdade, procura-se fazer a compara c ao de tratamentos em que s ao formados blocos com a inten c ao de que isto resulte em um pareamento consider avel entre os diversos tratamentos. A forma de realiza c ao do teste e an alogo aos demais. Dentro de cada um do n blocos formados procede-se a classica ` c ao das i- esimas observa c oes em k tratamentos, utilizando-se n umeros naturais. Assim, tem-se a estat stica teste: HF r =
k 12 T 2 3n(k + 1) tal que HF r 2 (k1) nk (k + 1) i=1 i

Exemplo 8.15. S ao prescritos quatro procedimentos t ecnicos para determina c ao de certa vari avel. Foram formados cinco blocos e obtidos os seguintes valores:

Tabela 8.19: Dados de quatro procedimentos t ecnicos. Tratamentos A B C D 12 (2) 13 (3) 16 (4) 7 (1) 8 (2) 9 (3) 12 (4) 5 (1) 14 (2) 20 (3) 22 (4) 6 (1) 16 (2) 21 (4) 11 (1) 17 (3) 12 (2) 15 (3) 16 (4) 10 (1) T1 = 11 T2 = 14 T3 = 20 T4 = 5 Substituindo-se os valores na express ao no teste, tem-se: HF r = = =
4 12 . Ti2 3.5(4 + 1) 5.4(4 + 1) i=1 12 . [121 + 196 + 400] 75 100 14, 04 (p-valor : 0,00285).

2 2 Como HF r 2 ao HF r 2 (k1) , ent (41) 3;5% = 7, 82 e 3;1% = 11, 34, portanto, considerando que o valor encontrado de HF r = 14, 04 e maior do que os valores da tabela, tanto para = 5% como para = 1%, conclu mos pela rejei c ao de H0 , logo verica-se que h a diferen ca signicativa entre as medidas dos tratamentos. O tratamento C apresentou melhores resultados em rela c ao aos demais grupos.

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 108

8.7.5

Outros Testes N ao-Param etricos

Teste de Concord ancia ou de Replicabilidade (Coeciente de Kappa) O coeciente de Kappa e utilizado para vericar a concord ancia entre os diagn osticos de dois especialistas. Observe a Tabela (8.20) abaixo: Tabela 8.20: Concord ancia entre o diagn ostico de dois especialistas. Diagn ostico Diagn ostico Especialista 1 Total Especialista 2 Presente (+) Ausente (-) Presente (+) a (++) b (+-) n1 = a + b Ausente (-) c (-+) d () n2 = c + d Total m1 = a + c m2 = b + d n C alculos auxiliares: Propor c ao de concord ancia observada: po = Propor c ao de concord ancia casual: pc = Coeciente: Kappa = Classica c ao: Kappa k=0 k < 0, 4 0, 4 k < 0, 8 0, 8 k < 1 k=1 Concord ancia nenhuma leve moderada forte perfeita a+d n

n1 m 1 + n2 m 2 n2 po pc . 1 pc

Exemplo 8.16. Em uma determinada experi encia, foi avaliado o grau de les ao do tecido hep atico, em 20 cobaias ` as quais foi administrada uma certa subst ancia t oxica. Os resultados dos exames efetuados por dois patologistas foram o seguinte:

Tabela 8.21: Teste Kappa Cobaia 1 2 Patologista 1 + + Patologista 2 + +

para a concord ancia entre patologistas quanto 3 4 5 6 7 8 9 10 11 12 + + + + - + + + + + - + + + - + + + + : presen ca de les ao hep atica - : aus encia de les ao hep atica.

ao grau de les ao do 13 14 15 16 + + + -

tecido hep atico. 17 18 19 20 + + + -

Com base nesses resultados, e poss vel construir a tabela abaixo: Ent ao tem-se: a+d 10 + 5 po = = = 0, 75 n 20 n1 m 1 + n2 m 2 15(10) + 5(10) 200 pc = = = = 0, 5 2 2 n 20 400 po pc 0, 75 0, 5 Kappa = = = 0, 5. 1 pc 1 0, 5 Conclui-se que existe uma concord ancia apenas moderada entre os diagn osticos dos patologistas.

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 109

Tabela 8.22: Concord ancia entre o diagn ostico de dois especialistas. Diagn ostico Diagn ostico Patologista 1 Total Patologista 2 Presente (+) Ausente (-) Presente (+) 10 5 15 Ausente (-) 0 5 5 Total 10 10 20

Teste de Cochran O teste de Cochran e utilizado quando se deseja comparar tratamentos distintos aplicados a uma mesma amostra (medidas repetidas), o que caracteriza a depend encia ou o pareamento das unidades amostrais em que a resposta e da forma 0 ou 1, isto e, sucesso ou fracasso. O teste de Cochran e uma extens ao do teste de McNemar. A hip otese a ser testada ser a: H0 : Os tratamentos n ao diferem entre si; Ha : Pelo menos um par de tratamentos diferem entre si. Estat stica teste: k 2 k (k 1) (Ti ) (k 1)N 2 i=1 Q= 2 k1 . n 2 kN (Sj )
j =1

Sendo k : tratamentos e N : total de uns. A decis ao pela rejei c ao de Ho ser a tomada se Q 2 k1 , assim existe pelo menos um par de tratamentos que diferem entre si ao n vel de signic ancia. Um psiquiatra quer testar a eci encia de 4 tratamentos em 10 sujeitos submetidos a um teste cuja resposta e sim ou n ao. Tabela 8.23: Teste de Cochran: Dez indiv duos submetidos a quatro tratamentos supostamente homog eneos. Tratamentos 2 Indiv duos T1 T2 T3 T4 Sj ( Sj ) 1 1 1 1 1 4 16 2 1 0 0 1 2 4 3 1 0 1 0 2 4 4 1 1 1 0 3 9 5 0 0 0 0 0 0 6 0 1 1 1 3 9 7 1 0 1 1 3 9 8 0 0 1 0 1 1 9 1 1 1 0 3 9 10 0 1 0 0 1 1 Ti 6 5 7 4 22 62 2 (Ti ) 36 25 49 16 126 Assim tem-se: 4(4 1) Q =
4 i=1

(Ti ) (4 1)(222 )
10 j =1

4(22) = =

(Sj )

4(3) (126) (4 1)(222 ) 4(22) (62) 2, 31 < 2 3 = 7, 815,

8.7

Testes N ao-Param etricos

ROSSI, Robson M. 110

logo n ao se rejeita H0 .Conclu -se que os tratamentos n ao diferem entre si ao n vel de 5% de signic ancia. Observa c ao: Em caso de rejei c ao da hip otese nula, um procedimento de compara c oes m ultiplas deve ser realizado (ver CASTELLANOS e MERINO, 1989).

Cap tulo 9

An alise de Vari ancia


` vezes As e preciso comparar m edias de mais de duas popula c oes. Por exemplo, para vericar se pessoas com diferentes n veis de renda, isto e, alto, m edio e baixo t em, em m edia, o mesmo peso corporal, e preciso comparar m edias de tr es popula c oes. Outras vezes, e preciso comparar v arias situa c oes experimentais. Por exemplo, se um pesquisador separa, ao acaso, um conjunto de pacientes em 4 grupos e administra uma droga diferente a cada grupo, ter a que comparar m edias de quatro popula c oes. Para comparar m edias de mais de duas popula c oes normais ou aproximadamente normais, aplica-se o teste F. Neste caso conv em vericar antecipadamente a normalidade dos dados. Por exemplo, imagine que 4 amostras casuais simples, todas com cinco elementos mas cada uma proveniente de uma popula c ao, conduziram aos dados apresentados na Tabela 9.1.

Tabela 9.1: Dados de 4 amostras e respectivas m edias. Amostras A B C D 11 8 5 4 8 5 7 4 5 2 3 2 8 5 3 0 8 5 7 0 x 1 = 8 x 2 = 5 x 3 = 5 x 4 = 2

Ser a que as diferen cas das m edias das amostras s ao sucientemente grandes para que se possa armar que as m edias das popula c oes s ao diferentes? Para responder a esta pergunta, e preciso um teste estat stico.

9.1

ANOVA para Experimentos ao Acaso

Primeiro, e preciso estudar as causas de varia ca o. Por que os dados variam? Uma explica c ao e o fato de as amostras provirem de popula c oes diferentes. Outra explica c ao e o caso, porque mesmo dados provenientes da mesma popula c ao variam. O teste F e feito atrav es de uma an alise de vari ancia, que separa a variabilidade devido aos tratamentos (no exemplo, devido ` as amostras terem provindo de popula c oes diferentes) da variabilidade residual, isto e, devido ao acaso. Para aplicar o teste F e preciso fazer uma s erie de c alculos, que exigem conhecimento de nota c ao. A Tabela 9.2, apresenta os dados de k tratamentos, cada um com r repeti c oes (no exemplo, denominam-se c oes de um mesmo tratamento constitui o repeti c oes os elementos da mesma amostra). A soma das r repeti total desse tratamento. O total geral e dado pela soma dos k totais de tratamentos.

111

9.1

ANOVA para Experimentos ao Acaso

ROSSI, Robson M. 112

Tabela 9.2: Nota c ao para a an alise Tratamentos 1 2 3 ... x11 x21 x31 ... x12 x22 x32 ... . . . x1r x2r x3r Total T1 T2 T3 ... No de repeti c oes r r r ... M edia x 1 x 2 x 3

de vari ancia. k xk1 xk2 . . . xkr Tk r x k Total

T = x n = kr

Para fazer a an alise de vari ancia e preciso calcular as seguintes quantidades: 1. os graus de liberdade: (a) de tratamento: k 1 (b) de total: n 1 (c) de res duo: (n 1) (k 1) = n k 2. o valor C, dado pelo total geral elevado ao quadrado e dividido pelo n umero de dados. O valor C e chamado corre c ao. ( x)2 C= n 3. a soma de quadrados total: SQT = 3. a soma de quadrados de tratamentos: SQT r = 4. a soma de quadrados de res duos: SQR = SQT SQT r 5. o quadrado m edio de tratamentos: QM T r = 6. o quadrado m edio de res duo: QM R = 7. o valor de F F = SQR nk SQT r k1 T2 C r x2 C

QM T r QM R

Em seguida, e preciso comparar o valor calculado de F com o valor tado em tabela, ao n vel de signic ancia estabelecido e com (k 1) graus de liverdade no numerador e (n k ) graus de liberdade no denominador. Toda vez que o valor calculado de F for maior ou igual do que o da tabela conclui-se, ao n vel de signic ancia estabelecido, que as m edias de tratamentos s ao iguais. Exemplo 9.1. Para os dados apresentados na Tabela 9.1, proceder uma an alise de vari ancia para vericar se existe diferen ca signicativa entre os tratamentos.

9.1

ANOVA para Experimentos ao Acaso

ROSSI, Robson M. 113

1. os graus de liberdade: (a) de tratamento: k 1 = 4 1 = 3 (b) de total: n 1 = 20 1 = 19 (c) de res duo: (n 1) (k 1) = n k = 20 4 = 16 2. o valor C: C= ( x)2 (11 + 8 + ... + 0)2 = = 500 n 20

3. a soma de quadrados total: SQT = x2 C = 112 + 82 + ... + 02 500 = 658 500 = 158 3. a soma de quadrados de tratamentos: 2 402 + 252 + 252 + 102 T C = 500 = 590 500 = 90 SQT r = r 5 4. a soma de quadrados de res duos: SQR = SQT SQT r = 158 90 = 68 5. o quadrado m edio de tratamentos: QM T r = edio de res duo: 6. o quadrado m QM R = 7. o valor de F F = SQR 68 = = 4, 25 nk 16 QM T r = 7, 06 QM R SQT r 90 = = 30 k1 3

As quantidades calculadas s ao apresentadas numa tabela de an alise de vari ancia. Veja a Tabela 9.3: Tabela 9.3: An alise de vari ancia dos dados da Tabela 6.1. Causas da varia c ao GL SQ QM F p Tratamentos 3 90 30 7,06 0,003086 Res duo 16 68 4,25 Total 19 158 Ao n vel de signic ancia de 5%, o valor de F tabelado, com 3 e 16 graus de liberdade (numerador e denominador, respectivamente), e de 3,24. Como o valor obtido e maior do que 3,24, conclui-se que as m edias n ao s ao iguais, ao n vel de signic ancia de 5%.

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 114

9.2
9.2.1

Teste de Compara c oes M ultiplas


N umero Igual de Repeti co es

Teste Tukey Uma an alise de vari ancia permite estabelecer se as m edias das popula c oes em estudo s ao, ou n ao s ao, estatisticamente iguais. No entanto, esse tipo de an alise n ao permite detectar quais s ao as m edias estat sticamente diferentes das demais. Por exemplo, a an alise de vari ancia apresentada na Tabela 6.3 mostrou que as m edias das popula c oes n ao s ao iguais, mas n ao permite concluir que e, ou quais s ao, as m edias diferentes das demais. O teste de Tukey permite estabelecer a diferen ca m nima signicante (d.m.s), ou seja, a menor diferen ca de m edias de amostras que deve ser tomada como estatisticamente signicante, em determinado n vel. Essa diferen ca (d.m.s) e dada por: QM R d.m.s = q r onde q e um valor dado em tabela, QMR e o quadrado m edio do res duo da an alise de vari ancia e r e o n umero de repeti c oes de cada tratamento. Considere agora os dados da Tabela 9.1. A an alise de vari ancia apresentada na Tabela 9.3 mostra um valor F signicante ao n vel de 5%. Ent ao as m edias de A, B, C e D n ao s ao estat sticamente iguais. Mas qual e, ou quais s ao, as m edias diferentes entre si? A pergunta pode ser respondida com a aplica c ao do teste de Tukey. Ao n vel de signic ancia de 5%, duo, e de 4,05. o valor de q para comparar 4 tratamentos (A,B, C e D), com 16 graus de liberdade no res Como QMR = 4,25 e r = 5, segue-se que: 4, 25 d.m.s = 4, 05 = 3, 73. 5 De acordo com o teste de Tukey, duas m edias s ao estatisticamente diferentes toda vez que o valor absoluto da diferen ca entre elas for igual ou superior ao valor da d.m.s. No caso do Exemplo, o valor da d.m.s. e 3.73 f e os valores absolutos das diferen cas entre as m edias est ao apresentados a seguir. E acil ver que a diferen ca entre as m edias A e D e maior do que a d.m.s. Ent ao, ao n vel de 5%, a m edia de A e signicativamente mair do que a m edia de D. Tabela 9.4: Compara c oes entre as m edias via Tukey. Pares de m edias Valor absoluto da diferen ca AeB |8 5 | = 3 AeC |8 5 | = 3 AeD |8 2 | = 6 BeC |5 5 | = 0 BeD |5 2 | = 3 CeE |5 2 | = 3 Exemplo 9.2. Com base nos dados apresentados na Tabela 9.5 abaixo, verique se existe diferen ca estat stica entre os grupos. Note que s ao tr es grupos em compara c ao. No grupo operado foi feita a remo c ao das gl andulas salivares maiores, e no grupo pseudo-operado foram executados todos os tempos cir urgicos, mas nenhuma gl andula foi removida (Banco de dados: Tukey1 ex.stw). Sol.: A tabela de an alise de vari ancia resume os c alculos: Para aplicar o teste de Tukey ao n vel de signic ancia de 5%, tem-se: q3;21 3, 57 e d.m.s. = 3, 57 53, 247 = 9, 21. 8

Os valores absolutos das diferen cas de m edias s ao: A taxa de glicose e, em m edia, maior nos operados do que nos pseudo-operados, ao n vel de signic ancia de 5%.

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 115

Tabela 9.5: Taxa de glicose, em miligramas por 100 ml de sangue, em ratos Wistar machos de 60 dias, segundo o grupo. Grupo Operado Pseudo-operado Normal 96 90 86 95 93 85 100 89 105 108 88 105 120 87 90 110,5 92,5 100 97 87,5 95 92,5 85 95 Tabela 9.6: ANOVA para a taxa de glicose. Causas da varia c ao GL SQ QM F p Grupos 2 717,25 358,625 6,73 0,005509 Res duo 21 1118,75 53,274 Total 23 1836,00

Teste Dunnett Em muitos experimentos, e comum a necessidade de se realizar m ultiplas compara c oes, todas em rela c ao a um u nico grupo denominado Controle. Neste caso, o test Dunnett (1964) e apropriado. Teremos (k 1) compara c oes a serem realizadas em rela c ao ao controle e queremos testas as seguintes hip oteses: H0 Ha : i = c i = 1, 2, ..., k 1 : i = c c: controle

O procedimento de Dunnett e an alogo ao teste t, mas modicado. 2.QM R d.m.s = d. r onde r e o n umero de repeti c oes. Considerando um n vel de conan ca , rejeitamos H0 se: ) ( 1 1 + |x i x c | > d,(k1),f . QM R. ni nc onde: d,(k1),f est a tabelado (Tabela Dunnett) para k 1 comara c oes e f : no de observa c oes dos tratamentos (exceto o controle); QM R : proveniente da ANOVA (Quadrado M edio dos Res duos); ni : no de observa c oes do tratamento i; nc : no de observa c oes do controle; x i e x c : m edias, do tratamento e controle, respectivamente. Exemplo 9.3. Deseja-se comparar o efeito de cinco drogas na diminui ca o da press ao arterial. Para isto utilizou-se cinco grupos distintos e foram comparadas suas m edias em rela c ao a m edia de um grupo controle, que recebeu placebo. Ao todo, 30 indiv duos participaram no experimento. A Tabela abaixo apresenta os valores referentes a diferen ca entre a press ao arterial no in cio e no m do experimento (mmHg).

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 116

Tabela 9.7: Compara c oes para as taxas m edias de Pares de m edias Valor absoluto da diferen ca Operado vs pseudo |102, 375 89, 0| = 13, 375 Operado vs normal |102, 375 95, 125| = 7, 25 Pseudo vs normal |89, 000 92, 125| = 6, 125

glicose. p 0,0004 0,1403 0,2368

Tabela 9.8: Diminui c ao da press ao arterial, em mil metros de merc urio, segundo o tratamento. Tratamento A B C D E Controle 25 10 18 23 11 8 17 -2 8 29 23 -6 27 12 4 25 5 6 21 4 14 35 17 0 15 16 6 33 9 2 Ap os a an alise de vari ancia, tem-se: Como o valor de F apresentado e de 13,08 (p-valor = 0,000003) e signicante ao n vel de 5%, e razo avel procurar um teste para comparar as m edias dos tratamentos. A d.m.s. estabelecida pelo teste Dunnett (espec co para este caso) ser a: 2.QM R 2.36 d.m.s = d. = 2, 70 = 10, 25 r 5 Obs. O valor d = 2, 70 e proveniente da Tabela Dunnett com 24 graus de liberdade. Desta forma teremos: facil observar que os tratamentos A, D e E apresentam, em m E edia, resultados melhores que os do controle, ao n vel de 5%.

9.2.2

N umero Diferente de Repeti co es

Muitas vezes o pesquisador disp oe de diversas amostras, cada uma proveniente de uma popula c ao, mas essas amostras n ao t em todas o mesmo tamanho. Mesmo assim, e poss vel conduzir a an alise de vari ancia. Ali as, todos os c alculos, com exce c ao da soma de quadrados de tratamentos, s ao feitos na forma j a apresentada anteriormente. Para entender como se calcula a soma de quadrados de tratamentos quando os tratamentos n ao t em o mesmo n umero de repeti c oes, primeiro observe a Tabela 9.11. A soma de quadrados de tratamentos e dada pela f ormula: SQT r =
2 T1 T2 T2 + 2 + ... + k C r1 r2 rk

onde C e a corre c ao j a denida anteriormente. mais f E acil entender a aplica c ao de f ormulas atrav es de um exemplo. Exemplo 9.4. An alise de vari ancia para os dados da Tabela 9.12. 1. os graus de liberdade: (a) de tratamento: k 1 = 3 1 = 2 (b) de total: n 1 = 15 1 = 14 (c) de res duo: (n 1) (k 1) = n k = 15 3 = 12 2. o valor C: C= ( x)2 (15 + 10 + ... + 16)2 = = 4001, 67 n 15

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 117

Tabela 9.9: ANOVA para os dados de press ao arterial, em mil metros de merc urio, segundo o tratamento. Causas da varia c ao GL SQ QM F p Grupos 5 2354,17 470,83 13,08 0,000003 Res duo 24 864 36 Total 29 3218,17 Tabela 9.10: Compara c oes entre as m edias dos dados de Pares de m edias Valor absoluto da diferen ca A vs Controle |21 2| = 19 > 10, 25 B vs Controle |8 2| = 6 < 10, 25 C vs Controle |10 2| = 8 < 10, 25 D vs Controle |29 2| = 27 > 10, 25 E vs Controle |13 2| = 11 > 10, 25 3. a soma de quadrados total: SQT = x2 c = 152 + 102 + ... + 162 4001, 67 = 159, 33 Press ao arterial. p 0,000182 0,392329 0,162730 0,000007 0,032024

3. a soma de quadrados de tratamentos: 2 842 762 852 T SQT r = C = + + 4001, 67 = 63, 33 r 6 4 5 4. a soma de quadrados de res duos: SQR = SQT SQT r = 159, 33 63, 33 = 96, 00 edio de tratamentos: 5. o quadrado m QM T r = 6. o quadrado m edio de res duo: QM R = 7. o valor de F F = SQR 96 = = 8, 00 nk 12 SQT r 63, 33 = = 31, 67 k1 2

QM T r 31, 67 = = 3, 96 QM R 8, 00

Os valores calculados est ao apresentados na Tabela 9.13. Ao n vel de signic ancia de 5%, com 2 e 12 g.l., o valor de F tabelado e de 3,89, menor do que 3,96, conclui-se que as m edias diferem entre si. Os m etodos de compara c ao de m edias apresentados anteriormente tamb em podem ser usados quando o ao o n umero de repeti c oes dos tratamentos n umero de repeti c oes por tratamento n ao e constante. Se ri e rj s em compara c ao, as f ormulas para a diferen ca m nima signicante cam como segue: Teste Tukey Para comparar as m edias de tratamentos duas a duas, pode-se aplicar o teste de Tukey que, neste caso, e aproximado, porque os tratamentos t em n umeros diferentes de repeti c oes. A diferen ca m nima signicativa e dada pela f ormula: (d.m.s.) ( ) 1 1 QM R d.m.s. = q + ri rj 2

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 118

Tabela 9.11: Nota c ao para a an alise de vari ancia com diferentes repeti co es. Tratamentos 1 2 3 ... k Total x11 x21 x31 ... xk1 x12 x22 x32 ... xk2 . . . . . . x1r x2r x3r xkr Total T1 T2 T3 ... Tk T = x No de repeti c oes r1 r2 r3 ... rk n = kr M edia x 1 x 2 x 3 x k Tabela 9.12: Dados de 3 amostras e respectivas m edias. Amostras A B C 15 23 19 10 16 15 13 19 21 18 18 14 15 16 13 x 1 = 84 x 2 = 76 x 3 = 86 onde ri e o n umero de repeti c oes do i- esimo tratamento e rj e o n umero de repeti c oes do j - esimo tratamento. No caso do Exemplo anterior com dados na Tabela 9.12, para comparar a m edia de A com a m edia de B, tem-se: ( ) 1 1 8 d.m.s. = 3, 77 + = 4, 87. 6 4 2 Para comparar A com C, tem-se: ( ) 1 1 8 d.m.s. = 3, 77 + = 4, 57. 6 5 2 Para comparar B com C, tem-se: ( ) 1 1 8 d.m.s. = 3, 77 + = 5, 06. 4 5 2 Os valores absolutos das diferen cas entre as m edias est ao s ao apresentados a seguir. Como o valor absoluto da diferen ca entre A e B e maior do que a respectiva d.m.s., conclui-se que, em m edia, A difere de B, ao n vel de signic ancia de 5%. Existem diferentes testes de compara c oes m ultiplas. Dentre eles destacam-se: Teste t A diferen ca m nima signicativa (d.m.s.) e dada pela f ormula: ( ) 1 1 + QM R d.m.s. = t ri rj

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 119

Tabela 9.13: An alise de vari ancia. Causas da varia c ao GL SQ QM F Tratamentos 2 63,33 31,67 3,96 Res duo 12 96 8 Total 14 159,33

p 0,04784

Tabela 9.14: Comapara c oes entre m edias. Pares de m edias Valor absoluto da diferen ca p AeB |14 19| = 5 0,0443* AeC |14 17| = 3 0,2272 BeC |19 17| = 2 0,5589 Teste Dunnett A diferen ca m nima signicativa (d.m.s.) e dada pela f ormula: ( ) 1 1 d.m.s. = d + QM R ri rj Considera c oes A escolha apropriada de um teste e muito ex vel. Se o pesquisador quer ter alta chance de rejeitar H0 : de que as m edias s ao iguais, pode optar pelo teste t ou pelo teste Duncan (N ao apresentado neste material-Ver Vieira, 1999). Estes dois testes t em caracter sticas similares, mas o teste t e mais antigo e, talvez por isso, mais conhecido. Tamb em e de aplica c ao mais f acil. Entretanto, o pesquisador tamb em pode optar por aplicar o teste de Tukey ou de Dunnett, com n vel de signic ancia mais elevado. Estes testes teriam, ent ao, maior poder. Por exemplo, o teste de Tukey a 10% tem maior poder do que o teste de Tukey a 5%. Um pesquisador que pretende somente rejeitar a hip otese de que as m edias s ao iguais com muita conan ca, deve optar pelo teste de Tukey ou de Dunnett, com baixo n vel de signic ancia. Esta situa c ao pode ocorrer quando se comparam novas drogas terap euticas com uma droga conhecida. Toda droga tem efeitos colaterais. Ent ao, muitas vezes s o e razo avel indicar uma nova droga - de efeitos colaterais desconhecidos - quando existem indica c oes seguras de que essa nova droga e melhor do que a convencional. De qualquer forma, ca aqui um alerta: todos os procedimentos para a compara c oes de m edias t em vantagens e desvantagens. Ainda n ao existe um teste denitivamente melhor que todos os outros.

Refer encias Bibliogr acas


[1] ARANGO, H. G. Bioestat stica: Te orica e computacional. Guanabara Koogan S.A. 3a Ed. RJ, 2009. [2] BUSSAB, W. O e MORETTIN, P. A. Estat stica b asica. Ed. Saraiva, 5a Ed. SP, 2003. stica: Princ pios e Aplica c oes. Ed. Artmed. RS, 2003. [3] CALLEGARI-JACQUES, S. M. Bioestat [4] CAMPOS, H. Estat stica Experimetal N ao-Param etrica. 4a Ed. USP/ESALQ, 1983. [5] CARVAJAR, S. S. R. Elementos de Estat stica (com aplica c oes ` as ci encias m edicas e biol ogicas). Rio de Janeiro: UFRJ, 1970. [6] CASTELLANOS, R. S.; MERINO, A. P.. Psicoestadistica-Contrastes Param etricos y no Param etricos. Ediciones Piramide S.A., Madrid, 1989. [7] CENTENO, A. J. Curso de Estat stica aplicada ` a Biologia. Goi ania: Ed. Universidade Federal de Goi as, 1981. [8] CARVAJAR, S. S. R. Elementos de Estat stica (com aplica c oes ` as ci encias m edicas e biol ogicas). Rio de Janeiro: UFRJ, 1970. [9] DANIEL, W. W. Bioestatistics: a foundation for analysis in the health sciences. 2 Ed. New York: John Wiley, 1999. [10] DIAS, F, R; LOPES, F. J. B. Bioestat stica. 1a Ed. Thomson Learning, 2007. stica aplicada. 2a Ed. Saraiva. SP, 2002. [11] DOWNING, D.; CLARK, J. Estat [12] GAUVREAU, K.; PAGANO. Principios de Bioestat stica. 2a Ed. Thonson, 2004. [13] GUEDES, M. L. S.; GUEDES, J. S. Bioestat stica - Para prossionais de sa ude. 1a Ed. Ao livro t ecnico S.A. RJ, 1988. [14] MAGALHAES, M. N.; LIMA, A. C. P. No c oes de Probabilidade e Estat stica. 6a Ed. EDUSP, 2008. [15] MEDRONHO, R. A.. Epidemiologia. Ed. Atheneu. SP, 2003. [16] MONTGOMERY, DOUGLAS. Desigin and analysis of experiments. 3a Ed. NY, John Wiley & Sons, 1991. [17] MORETTIN, L. G. Estat stica B asica. S ao Paulo: Makron Books, 2000, vol. I e II. [18] PAGANO, M.; GAUVREAU, K. Princ pios de Bioestat stica. Ed. Thomson, 2a Edi c ao, SP, 2004. [19] PEREIRA, M. G.. Epidemiologia: Teoria e Pr atica. Ed. Guanabara & Koogan, 1995. [20] SOARES, J. F.; BARTMAN, F. C. M etodos estat sticos em medicina e biologia. 14o Col oquio Brasileiro de Matem atica. IMPA/CNPq. RJ, 1983. [21] SOARES, J. F.; SIQUEIRA, A.L. Introdu c ao ` a estat stica m edica. Ed. UFMG. 1999. [22] SOKAL, R. R. Biometry: The Principles and Practice of Statistics in Biological Research. New York: W.F. Freeman, 1995. 120

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 121

[23] SIEGEL, S. Estat stica n ao-param etrica. 1a Ed. RJ, Editora McGraw Hill do Brasil Ltda, 1981. [24] SOUNIS, E. Bioestat stica. Princ pios fundamentais, metodologia, estat stica, aplica c ao ` a ci encias biol ogicas. 2a Ed. Revisada, McGraw-Hill, 1975. [25] STEEL, R. G. D. Principles and Procedures of Statistics a Biometrical Approach. 2. Ed. New York: Mc Graw-Hill, 1980. [26] VIEIRA, S. Bioestat stica. T opicos Avan cados. 3a Edi c ao. Rio de Janeiro: Elsevier, 2010. [27] WAYNE, W. D. Biostatistics. A foundation for analysis in the health sciences. 7a Ed. J&S. NY, 1999.

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 122

FORMULARIOS
Formul ario I - Estat stica Descritiva 1

AT = xmax xmin Linf + Lsup xi = 2 n xi x = i=1 n Md = xp ; p = Sk = li +


n+1 2

h(p Fac1 ) Fi x Mo Ap = s n 2 (xi x ) s2 = i=1 n1


k

n Fi fi = n k xi Fi x = i=1 n xp + xp+1 n Md = ;p= 2 2 kn p= w (Q3 Q1 ) k= 2( ) P90 P10 ( k )2 ( ) k xi 1 i=1 s2 = x2 n 1 i=1 i n ( ( s2 = ) k 1 2 x Fi n 1 i=1 i


k

k=

k = 1 + 3, 22 log n e h = Fac fac = n Mo = li +

AT k

h(Fi Fi1 ) (Fi Fi1 ) + (Fi Fi+1 ) h(p Fac1 ) n Md = li + ;p= Fi 2 w : 1, 4, 10 ou 100 s = s2

)2 xi Fi n cv = s 100 x

(xi x ) Fi n1

s2 =

i=1

i=1

Formul ario II - Probabilidade e Distribui c oes Probabil sticas P (A) =


#A #S

P (Ac ) = 1 P (A) E (X ) = xi p(xi ) E (aX b) = aE (X ) b ( ) x n x p(X = x) = n x p q e x p(X = x) = x! X Z= p(X = x) = ex

P (A B ) = P (A) + P (B ) P (A B ) P (A B ) P (A|B ) = P (B ) V ar(X ) = E [(X E (X ))2 ] = E (X 2 ) [E (X )]2 V ar(aX b) = a2 V ar(X ) (n) n! x = x!(n x)!

P (X > x) = ex

1 Para

fazer uso deste formul ario nas avalia c oes, n ao fa ca nenhum tipo de anota c ao.

9.2

Teste de Compara c oes M ultiplas

ROSSI, Robson M. 123

p/ : p/ p :

Formul ario III - Infer encia Param etrica * Supondo X N (; )2 Tamanho de Amostra ( )2 ]2 [ Z s N s2 so N n0 o o Z2 2 n= onde e = Z 2 ; n = ou n = ( )2 2 e N + (n0 1) n (N 1)e + s2 o Z2 [ ]2 [ ]2 Z Z N n0 2 2 n= p0 q0 ou n= ; n = e 2e N + (n0 1) Formul ario IV - Infer encia - IC e TH | Supondo X N (; )

p/ :

Intervalos de Conan ca (IC) x e; e = Z 2 n s x e; e = Z 2 n x e; e = t p Z


2 ,

{ ! { ?e n { 30

s n

? e n < 30 g.l : = n 1 X n

p/ p :

p q n 2 2 1 + 2 n1 n2 s2 s2 1 + 2 n1 n2

p =

Testes de Hip oteses (TH) x 0 Zc = N (0, 1) n x 0 Zc = N (0, 1) s n x 0 tc = tn1 s n p p0 Zc = N (0, 1) pq n x 1 x 2 Zc = N (0, 1) 2 2 1 + 2 n1 n2 x 1 x 2 Zc = N (0, 1) 2 s1 s2 + 2 n1 n2 tc = x x 2 1 t 1 1 sp + n1 n2

p/ 1 2 :

( x1 x 2 ) Z 2 ( x1 x 2 ) Z 2

{ 2 1 ! e 2 2 ! {

2 2 1 ? e 2 ? n1 + n2 30

( x1 x 2 ) t s 2 , p

1 1 + n1 n2

2 2 1 = 2 2 = ? n1 + n2 < 30 = n1 + n2 2

2 (n1 1)s2 1 + (n2 1)s2 n1 + n2 2 s2 s2 1 2 ( x1 x 2 ) t + , 2 n1 n2

sp =

2 2 1 = 2 ? n1 + n2 < 30

x 1 x 2 tc = t s2 s2 1 2 + n1 n2

p/ :
dados pareados

p/ p1 p2 :

( 1 + 2 ) 2 2 1 2 + n1 1 n2 1 sd t ,n1 d 2 n p 2 q 2 p 1 q 1 + ( p1 p 2 ) Z 2 n1 n2 =

s2 1 n 1 onde, s2 2 2 = n2 1 = n < 30 ni pi > 5; i = 1, 2.

n d tn1 sd p 1 p 2 N (0, 1) Zc = p 1 q 1 p 2 q 2 + n1 n2 tc =

2 Para

fazer uso deste formul ario nas avalia c oes, n ao fa ca nenhum tipo de anota c ao.

9.2

Teste de Compara c oes M ultiplas Formul ario IV - An alise em Tabelas de Conting encia 3 2 =
k (O E )2 i i 2 (l1)(c1) Ei i=1

ROSSI, Robson M. 124

2 Y ates =

k (|O E | 0.5)2 i i 2 (l1)(c1) Ei i=1

2 =

n (ad bc) 2 (1) m 1 m 2 n1 n2

Coluna) onde Ei = (Total Linha)(Total Total Geral Para Tabelas 2X2 ( )2 2 n |ad bc| n [|b c| 1] 2 2 2 Y ates = 2 = 2 M cN (1) (1) m 1 m 2 n1 n2 b+c

An alise de Res duos OE Rp = ; E Raj = ( 1 Rp )( TC


TG

TL TG

) N (0, 1)

Medidas do Efeito RR = Pr(Doente|Exposto) = Pr(Doente|N ao exposto) Z 1 2 2 c IC (RR; 1 %) : RR


a/(a+c) b/(b+d)

OR =

Pr(Exposto|Doente)/[1 Pr(Exposto|Doente)] ac = Pr(Exposto|N ao Doente)/[1 Pr(Exposto|N ao Doente)] bd Z 1 2 2 c IC (OR; 1 %) : OR Coeciente de Kappa (replicabilidade) Kappa = po pe a+d n1 m1 + n2 m2 ; po = ; pe = 1 pe n n2 Kappa k=0 k < 0, 4 0, 4 k < 0, 8 0, 8 k < 1 k=1 Concord ancia nenhuma leve moderada forte perfeita

3 Para

fazer uso deste formul ario nas avalia c oes, n ao fa ca nenhum tipo de anota c ao.

9.2

Teste de Compara c oes M ultiplas Formul ario V - Infer encia N ao-Param etrica 4 Teste Mann-Whitney para 2 amostras independentes n < 25 M -W = Uc = min{U1 ; U2 } U;n1 ;n2 ni (ni + 1) onde Ui = n1 n2 + Ti 2 nmin (n1 + n2 + 1) min{T1 ; T2 } 2 Zc = N (0, 1)
n1 n2 (n1 +n2 +1) 12

ROSSI, Robson M. 125

n 25

Teste Wilcoxon para 2 amostras pareadas Wc = min{ T() ; T(+) } W;n n(n + 1) Wc 4 Zc = N (0, 1) n(n + 1)(2n + 1) 24

n < 20 n 20

Teste Kruskal-Wallis para k amostras independentes HK W =


k T2 12 i 3(N + 1) tal que H 2 (k1) N (N + 1) i=1 ni

Teste Friedman para k amostras pareadas HF r =


k 12 T 2 3n(k + 1) tal que HF r 2 (k1) nk (k + 1) i=1 i

Teste Cochran para k amostras pareadas (Resposta dicot omica)


k i=1

k (k 1) Q=

(Ti ) (k 1)N 2
n j =1

kN

(Sj )

2 k 1

4 Para

fazer uso deste formul ario nas avalia c oes, n ao fa ca nenhum tipo de anota c ao.

Das könnte Ihnen auch gefallen