Beruflich Dokumente
Kultur Dokumente
Desenvolvimento estatstico: Manuel Ayres Professor Emrito da Universidade Federal do Par Manuel Ayres Jr. Ph.D., Universidade de Maryland Desenvolvimento do software Daniel Lima Ayres Engenheiro de Computao Universidade de Illinois
Alex de Assis Santos dos Santos
Manuel Ayres, Manuel Ayres Jnior, Daniel Lima Ayres, Alex de Assis Santos dos Santos e Lucas Lima Ayres dedicam esta verso 5.0 do BioEstat a IZA DO AMARAL CORRA AYRES, com um abrao carinhoso, repassado com admirao e apreo. Ao longo de mais de dez (10) anos ininterruptos, voc IZA tem nos proporcionado apoio incondicional na elaborao de nosso trabalho cientfico, participando direta e indiretamente com sugestes, na escolha de textos e imagens que enriquecem nosso livro, e no apoio material e espiritual desmedido para o aperfeioamento de uma ferramenta imprescindvel para todos aqueles que desenvolvem pesquisa em nosso Pas. Sua bondade e humanidade nos tem sido preciosos e voc tem sido a grande responsvel por nossa alegria e energia nesse labor, no havendo qualquer exagero nessa afirmao. A unanimidade dentre aqueles que tem sorte de conhec-la de perto no deixa margem a equvocos quanto ao estofo de que feita a sua personalidade, sendo uma criatura singular difcil de encontrar nesse mundo conturbado em que vivemos. Voc a Me admirvel, a Mulher incomparvel e a amiga mais carinhosa que poderamos desejar. Um muito obrigado de todos os seus fiis admiradores: Manuel Ayres Manuel Ayres Jnior Daniel Lima Ayres Alex Santos dos Santos Lucas Lima Ayres
Prefcio da 5a Edio
O universo encontra-se em constante evoluo. A idia de que o mundo seria imutvel, com toda a sua monotonia, foi alterada por outra, de uma dinmica incessante. Da mesma maneira, a famlia Ayres e seu fiel companheiro Alex Santos dos Santos tambm no param. Estamos agora diante da quinta verso de um manual que j provou sua imensa utilidade junto comunidade cientfica brasileira. Tendo como origem texto publicado h 20 anos atrs, as diferentes verses do BioEstat esto sempre procurando manter-se alertas s necessidades desta comunidade, em uma rea que tradicionalmente considerada difcil por alunos e profissionais da biologia e biomedicina. Esta natural (ser mesmo natural?) averso de bilogos e biomdicos matemtica e estatstica est sendo vencida, e boa parte do progresso alcanado vincula-se revoluo causada pela eletrnica. Com a internet houve uma considervel democratizao do saber. Informaes que antes levavam meses para transitar entre o Primeiro e o Terceiro Mundos atualmente podem ser obtidas de maneira quase instantnea. Da mesma forma, os pacotes estatsticos tornaram imensamente mais fcil a tarefa dos nefitos, como pode ser perfeitamente testemunhado por todos os usurios das verses anteriores do BioEstat. O que pode ser encontrado nas mesmas, bem como na verso atual? Bem, ali (e aqui) esto matrias presentes tambm em qualquer tratado de bioestatstica, como probabilidades; amostragem; construo de grficos e tabelas; frmulas mais empregadas; estimao de parmetros clssicos; correlao e regresso; e anlise de varincia. Mas tambm h tpicos mais especializados e de grande valor, como anlise de sobrevivncia; bootstrap; ou meta-anlises diversas. O que h de novo? O teste de Mantel; acrscimo aos testes de risco relativo; ndices de diversidade; e diversos outros aplicativos que complementam de maneira importante aspectos de processos considerados anteriormente. Qual seria a mensagem final desta breve introduo? A de que devemos agradecer que crebros como os dos autores deste livro estejam se dedicando difcil tarefa de colocar disposio de seus colegas ou de qualquer outro interessado as ferramentas bsicas necessrias utilizao de conceitos e interpretao de processos cientficos. Em uma poca em que lado a lado com os fantsticos progressos da cincia pululam por todo o mundo movimentos anticincia salutar encontrar obras como esta: uma aragem revigorante que parte do ambiente quase sempre escaldante da nossa Amaznia! Francisco M. Salzano Professor Emrito
Universidade Federal do Rio Grande do Sul
Prefcio da 1a e 2a Edies
O alvio da pobreza na Amaznia s pode ser feito se diminuirmos a migrao da zona rural para as grandes cidades. Para mantermos a populao humana na zona rural, alm de darmos infra-estrutura escolar, sanitria e mdica, precisamos manejar os recursos naturais de forma sustentvel com base cientfica slida e assim manter a estrutura dos ecossistemas atravs da conservao dos processos ecolgicos e evolutivos. Jos Mrcio Ayres
APRESENTAO
O pacote estatstico BioEstat, aqui apresentado, tem como objetivo propiciar aos acadmicos de diversas reas do conhecimento um instrumento de grande praticidade e de fcil manuseio na avaliao de informaes originadas atravs de pesquisa, sendo composto por este manual e de um aplicativo. Este estudo representa na verdade uma evoluo bastante significativa dos mesmos autores de Aplicaes Estatsticas em Basic, publicado em 1987 pela editora McGraw-Hill e, atravs de observaes ao longo dos anos, oriundas do curso de Bioestatstica fornecido pelo autor principal na Universidade Federal do Par. Este trabalho foi realizado por trs geraes dos Ayres: a primeira est representada por Manuel Ayres, professor de Estatstica da Universidade Federal do Par; a segunda, por Manuel Ayres Jr., PhD em engenharia civil pela Universidade de Maryland (EUA); e a terceira, pelo estudante do segundo grau, Daniel Lima Ayres, com 15 anos de idade, que desenvolveu o aplicativo, juntamente com Alex de Assis Santos dos Santos, em Visual Basic, e a diagramao deste manual. BioEstat dirigido especialmente aos estudantes de graduao e psgraduao das reas mdica e biolgica que possuam noes bsicas de estatstica. O pacote bastante facilitado pelo emprego do aplicativo e deste manual, onde a escolha do teste adequado poder ser feita de maneira prtica de acordo com a natureza dos dados, nmero de amostras e tipo de experimento. Ainda, para facilitar seu uso, cada teste tem seu respectivo exemplo que auxilia o emprego deste pacote estatstico. Os exemplos aqui
fornecidos podem ter sido originados de situaes prticas reais ou puramente hipotticas. Embora os testes estatsticos aqui apresentados sejam empregados nas mais diversas reas da cincia, a escolha foi baseada na demanda levantada ao longo dos ltimos anos por estudantes das reas mdicas e de diversos segmentos da rea biolgica. Podero ser observadas pequenas divergncias de resultados quando comparados a outros pacotes desse gnero. Essas diferenas, porventura detectadas, podem estar relacionadas ao emprego de distintos algoritmos. Sugestes para melhoria do pacote e possveis erros encontrados durante o seu uso sero bem recebidos pelos autores. Essas modificaes tambm podero ser inseridas em futuras verses. J. Mrcio C. Ayres MPEG/CNPq Wildlife Conservation Society NY Belm, Par, Maio de 1998. In memorian: o Autor desta Apresentao faleceu em 7 de maro de 2003 e, se vive fosse, o segundo pargrafo desta Apresentao teria certamente o seguinte teor: Este trabalho foi realizado por trs geraes dos Ayres: a primeira est representada por Manuel Ayres, ex-professor de Estatstica da Universidade Federal do Par; a segunda, por Manuel Ayres Jr., PhD em engenharia civil pela Universidade de Maryland (EUA); e a terceira, por Daniel Lima Ayres, engenheiro de computao pela Universidade de Illinois (EUA), que desenvolveu o aplicativo, juntamente com Alex de Assis Santos dos Santos, e a diagramao deste manual, e, mais recentemente, Lucas Lima Ayres, estudante de medicina veterinria da Universidade Federal de Minas Gerais, o qual contribuiu no desenvolvimento do Captulo 18 sobre Estatsticas Circulares.
Prefcio da 3a Edio
A conservao da biodiversidade componente essencial para qualquer poltica de desenvolvimento sustentvel. A falta de uma poltica consistente para este fim poder levar a contnua eliminao de diferentes formas de vida, perda de recursos genticos e a modificao de processos ecolgicos e evolutivos que so essenciais para a prpria sobrevivncia da nossa prpria espcie. Como demonstrado por inmeros estudos, a perda da diversidade biolgica ter custos enormes para toda a humanidade, tanto se utilizarmos os indicadores econmicos tradicionais, como se considerarmos tambm os valores sociais, estticos e espirituais que fazem parte da nossa cultura. A Conservation International acredita que conservao da biodiversidade deve ser baseada em cincia de boa qualidade. Por isso, estamos estabelecendo, atravs dos nossos Centros de Conservao da Biodiversidade, parcerias diversas para o desenvolvimento de pesquisas e capacitao em todas as reas do conhecimento relevantes para a ao de conservao. Independente da rea, o conhecimento da estatstica fundamental. Uma necessidade comum no Brasil, tanto para os cientistas mais novos como para os que j possuem anos de experincia, a existncia de programas de computador que sejam efetivos para as anlises estatsticas. nesse contexto, que temos a honra de apoiar a publicao da terceira edio do livro BIOESTAT, escrito com toda a competncia por Manuel Ayres, Manuel Ayres Jnior, Daniel Lima Ayres e Alex Santos dos Santos. H poucos cientistas no Brasil que no conhecem as verses anteriores e certamente so milhares os estudantes de graduao e ps-graduao no pas que iniciaram ou aprofundaram seus estudos de estatstica utilizando este livro. O sucesso das duas verses anteriores foi to grande, que os autores tiveram que trabalhar bastante para atender a uma demanda enorme para a atualizao e publicao peridica de um livro to importante para todos. Em nome de todos os que se dedicam ao estudo e a conservao da biodiversidade brasileira e mundial, desejamos agradecer o extraordinrio esforo dos autores para produzir uma obra to importante para todos, assim como reconhecer a importncia do trabalho realizado por nosso grande amigo Jos Mrcio Ayres, cujo trabalho fenomenal para demonstrar de forma inequvoca a indissociabilidade entre cincia e conservao. Russel A. Mittermeier Presidente Conservation International Gustavo A. B. da Fonseca Vice-Presidente Executivo
Conservation International
Prefcio da 4a Edio
A Estatstica tem tido grande importncia ao longo de sua histria, que comea Antes de Cristo, com os registros egpcios de presos de guerra, a partir da organizao de bancos de dados que possibilitaram o estabelecimento de uma relao-verdade entre o passado, o presente e o futuro. O BioEstat trilha a gide que fortalece o conhecimento da Estatstica como cincia, desvendando modelos matemticos e procedimentos de anlises e, assim, possibilitando maior facilidade na interpretao dos fenmenos que se manifestam espontaneamente ou so induzidos natureza dos seres vivos, sobretudo pelo prprio Homem. A evoluo deste trabalho didtico deve-se, entre outros fatores, s fases evolutivas dos conhecimentos estatsticos. A princpio houve a preocupao de introduzir aqueles aplicativos de uso mais geral, e assim o BioEstat 1.0 se apresentou como ferramenta destinada a oferecer aspectos voltados sobretudo para estudantes de graduao e ps-graduao das reas mdicas e biolgicas. Na segunda etapa, o BioEstat 2.0 no perde seu foco inicial, mas evolui com a incluso de novos modelos de anlises e ultrapassa as fronteiras brasileiras e alcana o pblico tcnico-cientfico da lngua espanhola. Na fase seguinte, com a adio de novos aplicativos, a sugesto da escolha dos testes estatsticos e o clculo do tamanho das amostras, o BioEstat 3.0 solidifica-se como ferramenta didtica quase obrigatria devida, sobretudo, facilidade de sua aplicao e interpretao dos fenmenos biolgicos, sejam de ordem observacional, quer de natureza experimental. Tem assim incio, e de forma definitiva, a empatia entre usurios e autores, cada um interpretando as necessidades de desenvolvimento do outro. Por fim, ocorre a interdependncia de diversas reas do conhecimento das cincias biomdicas com a Biometria o BioEstat 4.0 chega com nova roupagem, com mais 15 aplicativos, sem se despir de sua trajetria histrica, mas atendendo as exigncias dos usurios, vidos por ampliar seus conhecimentos e se coloca, com seus 184 testes, como alternativa didtica para outras reas das cincias, com sugestes dos prprios usurios. Esta edio do BioEstat 4.0 consolida a relao de dependncia com o seu pblico fiel, onde as trocas se igualam vontade de evoluir, com ganhos de conhecimentos e confiabilidade, diante da necessidade de aprender a ensinar ensinando. Desperta interesse maior e permite a sua insero, como instrumento de consultas, por estudiosos de outras reas de conhecimento tcnico-cientfico, que se auxiliam do BioEstat nas avaliaes de seus estudos experimentais e observacionais. Do mesmo modo como a Estatstica surgiu e ganhou reconhecimento, o projeto BioEstat vem evoluindo a cada lanamento. Esta evoluo s se tornou possvel pelo forte empenho e competncia de seus autores, os quais tem se dedicado ao longo de 20 anos no aperfeioamento e na produo desta obra. Ana Rita Pereira Alves
Diretora
AGRADECIMENTOS
Os autores penhoradamente agradecem o desvelo da Professora JUSSARA MORETTO MARTINELLI, da Universidade Federal do Par, na reviso minuciosa e com primor do manuscrito do BioEstat 5.0. O interesse inexcedvel da ilustre Professora na execuo dessa rdua tarefa, trouxe grande satisfao, incentivo e alegria aos participantes do trabalho ora publicado.
Ao LUCAS LIMA AYRES, aluno de Medicina Veterinria da Universidade Federal de Minas Gerais, outro componente da famlia Ayres engajado nesta tarefa, agradecemos seu incentivo na introduo dos ndices de Shannon-Wiener e de Simpson no BioEstat 5.0 e, sobretudo, no desenvolvimento das Estatsticas Circulares, ainda de menor utilizao em nosso meio acadmico.
NOTA: Manuel Ayres, Manuel Ayres Jnior, Daniel Lima Ayres e Alex Assis Santos dos Santos tm a satisfao em lanar a mais nova edio do BioEstat (5.0), com 210 aplicativos voltados sobretudo para as reas de cincias biolgicas e mdicas, resultantes do aperfeioamento das verses anteriores e de sugestes recebidas dos Usurios deste softwere, esclarecendo, todavia, que possveis incorrees no programa e no texto so de inteira responsabilidade dos seus autores.
Agradecemos, tambm, a todas as pessoas que colaboraram direta ou indiretamente na construo do BioEstat, tornando pblico o nosso reconhecimento quelas indicadas em seguimento e, ainda, aos docentes e discentes das Universidades brasileiras que muito contriburam com suas sugestes no aperfeioamento deste trabalho:
Ademar Ayres do Amaral Alberto Cargnelutti Filho Alex Fiza de Melo Altino Pinheiro Ana Rita Pereira Alves Anis Rassi Jnior Antonio Carlos Simes Pio Arno Holf Hamel Bernardo Beiguelman Ceclia Banhara Marigo Cristovam Diniz Deborah Magalhes Lima Edson Elias Andrade Berbary Elon Lages Lima Fbio Pereira Alves Fernanda Sagica Francisco Mauro Salzano Giorgini Augusto Venturieri Gustavo A. B. da Fonseca Helder Lima de Queiroz Horcio Schneider Ima Vieira Israel Roisenberg Iza do Amaral Corra Ayres J. C. Voltolini
*
Jeffrey Shaw Jos Mrcio Corra Ayres * Jos Maria Cardoso da Silva Jos Maria de Azevedo Barbosa * Jos Maria de Sousa Jos Slvio Govone Jussara Moretto Martinelli Lucimar Macedo Rodrigues Lcio Flvio Pinto Luiz Claudio Marigo Marcos Porpino de Oliveira Maria Aparecida Pion Abuabara Miguel Petrere Jr. Oswaldo Frota-Pessoa Paulo A. Otto Peter Toledo Renata Gomes G. Oliveira Roberto B. Cavalcanti Russel A. Mittermeier Srgio Cacela Alves Sdia M. Callegari Jacques Suely Fraiha Victoria J. Isaac William D. Hamilton *
: In memorian
Os autores estendem seus agradecimentos s seguintes Instituies: Conselho Nacional de Pesquisa - CNPq Conservation Internacional - CI Instituto de Desenvolvimento Sustentvel Mamirau Imprensa Oficial do Estado do Par - IOEPA Museu Paraense Emlio Goeldi - MPEG Ministrio da Cincia e Tecnologia MCT Universidade Federal do Par - UFPA Wildlife Conservation Society - WCS
SUMRIO
CAPTULO 1 Usando o BioEstat
1
1.7 Imprimindo, 6 1.8 Escolhendo o teste, 6 1.9 Executando o teste, 6 1.10 Configurando o BioEstat, 7 1.10 Obtendo ajuda, 7 1.12 Capacidade do geral do sistema, 7
1.1 Requerimentos de sistema, 1 1.2 Instalando o BioEstat, 1 1.3 Expresso de casas decimais, 1 1.4 Entrando com os dados, 3 1.5 Salvando os dados, 4 1.6 Abrindo arquivos, 5
CAPTULO 2
2.1 Introduo, 9 2.2 Amostra Aleatria Simples, 10 2.3 Amostra Sistemtica, 10 2.4 Amostra Estratificada, 11
CAPTULO 3
Anlise Multivariada. 3.6 Distncia Euclidiana, 30 3.7 Distncia Penrose-Mahalanobis, 31 3.8 Teste de Bartlett, 33 3.9 Teste de Hotelling, 33 3.10 Teste de Mantel, 34
17
3.1 Introduo, 17 3.2 Anlise de Conglomerados, 17 3.3 Anlise Discriminante, 20 3.4 Componentes Principais, 23 3.5 Correlao Cannica, 25
CAPTULO 4
39
4.4 Cox: Modelo de Risco Proporcional, 42 4.9 Pirmide Populacional, 53 4.5 Kaplan-Meyer, 46
- xi -
SUMRIO
CAPTULO 5
Anlise de Varincia 5.5 ANOVA: fatorial a x b x c, 67 5.6 Teste de Friedman, 68 5.7 Teste de Kruskal-Wallis, 70 5.8 Teste Q de Cochran, 72
59
5.1 Introduo, 59 5.2 ANOVA: um critrio, 59 5.3 ANOVA: dois critrios, 64 5.4 ANOVA: fatorial a x b, 65 CAPTULO 6 Bootstrap Tira de Bota
75 6.6 IC da Proporo , 80 6.7 Teste t, 2 amostras independentes, 81 6.8 ANOVA, um critrio, 82 6.9 Correlao Linear, 83 *IC: Intervalo de Confiana
6.1 Introduo, 75 6.2 Dados Dicotmicos, 75 6.3 Dados Contnuos, 77 6.4 IC da Correlao Linear, 78 6.5 IC da Mdia , 79
CAPTULO 7
Correlao 7.6 Coeficiente de Contingncia C, 90 7.7 Concordncia de Kendall, 91 7.8 Correlao de Kendall, 92 7.9 Coeficiente Phi: r, 93 7.9 Correlao de Spearman: rs, 94
85
7.1 Introduo, 85 7.2 Correlao Linear de Pearson, 85 7.3 Matriz de Correlao, 86 7.4 Correlao Parcial, 88 7.5 Correlao Linear: 0, 89
CAPTULO 8
.
Ponto de Corte, 105
95
8.1 Introduo, 95 8.2 Distribuio Binomial, 95 8.3 Distribuio Hipergeomtrica, 96 8.4 Distribuio de Poisson, 97 8.5 Distribuio Exponencial, 98 8.6 Distribuio Normal, 99 8.7 Crivo (Screening Test), 102 8.8 Curva ROC, 103
8.10 Regra de Bayes, 106 8.11 Sensibilidade/Especificidade, 107 8.12 Distribuio F, 107 8.13 Distribuio do Qui-Quadrado, 108 8.14 Distribuio t de Student, 109 8.15 Distribuio Z, 110
- xii -
SUMRIO
CAPTULO 9
Uma Amostra
.
9.8 Teste G, 119
111
9.1 Introduo, 111 9.2 Teste t, dados amostrais, 111 9.3 Teste t, resumo amostral, 113 9.4 Teste Z, dados amostrais, 114 9.5 Teste Z, resumo amostral, 115 9.6 Teste Binomial, 116 9.7 Iteraes (runs test), 117
9.9 Teste de Kolmogorov-Smirnov, 120 9.10 Teste de Lilliefors, 121 9.11 Teste do Qui-Quadrado, iguais, 121 9.12 Teste do Qui-Quadrado, desiguais, 122 9.13 Teste de Poisson, 123
CAPTULO 10
125
10.1 Introduo, 125 10.2 Teste t, dados amostrais, 126 10.3 Teste t, resumo amostral, 128 10.4 Teste Z, dados amostrais, 129 10.5 Teste Z, resumo amostral, 130 10.6 Teste Binomial, 131 10.7 Teste Exato de Fisher, 132 10.8 Teste G, 133 10.9 Teste de Kolmogorov-Smirnov, 134
10.10 Teste U, de Mann-Whitney, 135 10.11 Teste da Mediana, 137 10.12 Teste do Qui-Quadrado, 138 10.13 Odds Ratio (OR), 139 10.14 Risco Relativo (RR), 140 10.15 Taxa de Incidncia, 143 10.16 Coeficiente de Variao, 144 10.17 Teste de Poisson, 145
CAPTULO 11
147
11.1 Introduo,147 11.2 Teste t, dados amostrais, 147 11.3 Teste t, resumo amostral, 149 11.4 ANOVA, 150 11.5 Correlao Intraclasse, 151 (dados contnuos)
11.6 Teste de McNemar, 152 11.7 Teste dos Sinais 154 11.8 Teste Kappa, 156 11.9 Teste de Wilcoxon, 157
- xiii -
SUMRIO
CAPTULO 12 Estatstica Descritiva 12.1 Introduo, 159 12.2 Variveis quantitativas, 160 12.3 Variveis qualitativas, 162
159 12.3.1 ndice de Shannon-Wiener, 162 12.3.2 ndice de Simpson: k amostras, 163
CAPTULO 13
Estimao de Parmetros
.
13.9 Fourier (densidade), 173
165
13.1 Introduo, 165 13.2 Da Mdia, 165 13.3 Da Proporo, 167 13.4 Diferena entre Duas Mdias, 167
13.10 Impacto Populacional, PIN-ER-t, 174 13.11 Matriz de Crescimento Populacional, Modelo de Leslie, 175
13.5 Diferena entre Duas Propores, 169 13.12 Tamanho (simples, direto), 176 13.6 Densidade e Tamanho, 170 13.7 Equilbrio de Hardy-Weinberg, 171 13.8 Fentipos e Gentipos, 172 13.13 Tamanho (simples, inverso), 177 13.14 Tamanho (mltipla, fechada), 177 13.15 Tamanho (mltipla, aberta), 179
CAPTULO 14
Meta-Anlise
.
14.7 14.8 14.9 Regresso para k amostras, 194 Risco Relativo (k Tabelas), 195
14.1 Introduo, 181 14.2 Teste de DerSimonian-Laird, 182 14.3 Dados Contnuos, 185 14.4 Teste de Mantel-Haenszel, 187 14.5 P-Valor (pw combinado), 190 14.6 Qui-Quadrado (aderncia), 191
14.10 Teste G (aderncia), 197 14.11 Vrias Correlaes, 198 14.12 Vrias Propores, 199
CAPTULO 15
Normalidade
.
15.5 Teste de Lilliefors, 205 15.6 Teste de Shapiro-Wilk, 206 15.7 Valores Extremos (desvios), 207 15.8 Valores Extremos (quartis), 209
203
15.1 Introduo, 203 15.2 Teste DAgostino, 203 15.3 Teste DAgostino-Pearson, 204 15.4 Teste de Kolmogorov-Smirnov, 205
- xiv -
SUMRIO
CAPTULO 16
Qui-Quadrado 16.2 Partio, 211 16.3 Resduos do Qui-Quadrado, 212 16.4 Teste de Tendncia, 213
211
16.1 Introduo, 211 16.1 Aderncia (ver Captulo 9) 16.1 Independncia (ver Captulo 10)
CAPTULO 17
Anlise de Regresso
.
17.6 Logstica Simples, 224 17.7 Logstica Mltipla, 226 17.8 Polinomial, 228
215
17.1 Introduo, 215 17.2 Linear Simples, 215 17.3 Linear Mltipla, 217 17.4 Ajustamento de Curvas, 219 17.5 Anlise de Resduos, 221
17.9 Seleo Regressores (stepwise), 230 17.10 Comparao: duas Regresses, 233
CAPTULO 18
Estatstica Circular
235 18.5 Duas Amostras Independentes, 240 18.5 Trs Amostras Independentes, 242
18.3 Uma Amostra: Teste de Rayleigh, 238 18.7 Duas Amostras Relacionadas, 243 18.4 Uma Amostra: Teste V, 239 18.9 Correlao Circular, 244
CAPTULO 19 Tamanho das Amostras 19.1 Introduo, 245 19.2 Anlise de Varincia, 246 19.3 Correlao Linear, 246 19.4 Teste de McNemar, 247 19.5 Proporo: uma amostra, 248 19.6 Proporo: duas amostras, 249
.
19.7 Qui-Quadrado, 250 19.8 Regresso Linear, 250 19.9 Teste t: uma amostra, 251 19.10 Teste t: duas independentes, 252 19.11 Teste t: amostras pareadas, 253
245
CAPTULO 20
Transformao de Dados
- xv -
SUMRIO
CAPTULO 21
Grficos e Tabela
.
21.11 Grfico de Linha, 275 21.12 Grfico Mximo e Mnimo, 276 21.13 Pirmide populacional, 277 21.14 Grfico Polar, 281 21.15 Grfico de setor, 282 21.16 Manipulao de Grficos, 283 21.17 Tabelas de Freqncias, 285 21.18 Grficos de Resultados, 287 21.19 Configuraes Avanadas, 287
259
21.1 Introduo, 259 21.2 Grfico de rea, 260 21.3 Box-Plot (Mediana e quartis), 261 21.4 Box-Plot (Mdia e desvios), 262 21.5 Caule e Folha (Stem and Leaf), 263 21.6 Grfico de Colunas, 265 21.7 Diagrama de Disperso, 267 21.8 21.9 Diagrama IC (95% e 99%), 268 Diagrama Pontual (Dot plot), 271
CAPTULO 22
Frmulas Estatsticas
.
22.10 Estatstica Descritiva, 307 22.11 Estimao de Parmetros, 309 22.12 Meta-Anlise, 315 22.13 Normalidade, 318 22.14 Qui-Quadrado, 319 22.15 Regresso, 321 22.16 Tamanho das Amostras, 325 22.17 Transformao de dados, 327 22.18 Distribuio circular, 327
289
22.1 Introduo, 289 22.2 Anlise Multivariada, 289 22.3 Anlise de Sobrevivncia, 292 22.4 Anlise de Varincia, 294 22.5 Correlao, 296 22.6 Distribuio de Probabilidades, 297 22.7 Uma Amostra, 300 22.8 Duas Amostras Independentes, 301 22.9 Duas Amostras Relacionadas, 305
CAPTULO 23
331
23.1 Introduo, 331 23.2 Nmero de Amostras, 332 23.3 Uma Amostra, 332 23.4 Duas Amostras Independentes, 334
23.5 Duas Amostras Relacionadas, 335 23.6 k Amostras Independentes, 336 23.7 k Amostras relacionadas, 337
- xvi -
SUMRIO
Glossrio
. .
339
Referncias Bibliogrficas
351
ndice
359
- xvii -
CAPTULO 1
USANDO O BIOESTAT
1.1 REQUERIMENTOS DE SISTEMA O BioEstat 5.0 requer o sistema operacional Microsoft Windows XP ou posterior e um processador compatvel com o padro Intel Pentium com no mnimo 128MB de memria RAM. 1.2 INSTALANDO O BIOESTAT a) Coloque o CD-ROM do BioEstat no drive apropriado; b) O programa de instalao deve inicializar aps alguns instantes. Caso isso no ocorra, clique no boto Iniciar, em seguida escolha Executar e digite: D:\SETUP.EXE, onde D a letra do drive apropriado; c) Aps o programa de instalao inicializar, siga as instrues contidas na tela; d) Quando a instalao estiver terminada, voc pode rodar o BioEstat clicando em Iniciar, Programas, BioEstat 5.0 e, por fim, ao lado, em BioEstat 5.0. 1.3 EXPRESSO DE CASAS DECIMAIS No BioEstat, para que seja mantida a compatibilidade com outros softwares e acompanhando a norma aceita internacionalmente nas calculadoras eletrnicas, todos os valores que possuam casas decimais devem ser grafados usando o ponto decimal. A vrgula, portanto, no usada no BioEstat como indicador da separao entre a parte inteira e a decimal, conforme os exemplos abaixo: GRAFIA CORRETA 1.5 2.75 5000.01 GRAFIA INCORRETA 1,5 2,75 5000,01
VALOR DESEJADO
Um e meio. Dois inteiros e 75 centsimos. Cinco mil e um centsimo.
-1-
Barra de status
Ajuda
Novo grid
Localizar
-2-
b) Preencha a caixa de texto com a palavra ou o valor a ser localizado, pressione em Localizar prxima; c) Aps fechar-se a janela Localizar, pode-se repetir a ltima busca utilizando a tecla F3 ou a opo Localizar prxima do menu Editar. Caso queira, pode-se apagar todos os dados presentes no grid clicando no boto Limpar tudo da barra de ferramentas ou na opo Limpar tudo do menu Editar.
-3-
Clique no menu Estatstica e escolha, conforme o caso, um dos testes acima indicados. Aps introduzir os escores nas caixas de texto, como especificado na Figura 1.4, digite em Nome do arquivo a designao que servir para identificar seus dados. Depois desses procedimentos, o nome do arquivo aparecer na lista dos itens salvos na parte superior esquerda do respectivo grid com a denominao do teste em questo. A Figura 1.4 mostra um exemplo do salvamento de um teste de Anlise de Sobrevivncia teste de Gehan. Na lista daqueles que foram salvos aparecem dois exemplos: Exemplo_5_6_1.Gehan e Exemplo_5_6_2.Gehan.
-4-
Na parte superior do grid consta o seguinte: Novo, Deletar, Salvar e Imprimir, que podem ser utilizados pelo usurio, conforme o caso. 1.7 ABRINDO ARQUIVOS Quando for necessrio abrir um arquivo, siga as seguintes instrues: a) Clique na opo Abrir (tecla Ctrl + A) no menu Arquivo ou pressione o boto Abrir na barra de ferramentas; b) Selecione o arquivo desejado e pressione o boto Abrir. Para abrir um arquivo que foi recentemente utilizado, clique no menu Arquivo e selecione aquele desejado na parte inferior do menu. O BioEstat contm os dados dos vrios exemplos encontrados neste manual; para acess-los, siga os seguintes passos: a) Clique na opo Abrir (tecla Ctrl + A) no menu Arquivo ou pressione o boto Abrir na barra de ferramentas; b) D um duplo clique na pasta Exemplos, que se encontra na lista de arquivos; c) Selecione um dos vrios exemplos disponveis e pressione o boto Abrir. O programa tambm permite importar dados do formato CSV (delimitado por vrgula) e, para isso, siga as seguintes condutas: a) Clique na opo Importar do menu Arquivo; b) Selecione o arquivo desejado e pressione o boto Abrir.
-5-
1.8 IMPRIMINDO Para imprimir dados, siga os seguintes passos: a) Clique na opo Imprimir (Ctrl + P) do menu Arquivo ou no boto Imprimir da barra de ferramentas; b) Escolha se deseja imprimir o ttulo ou no, o nmero de cpias e a orientao da pgina, sendo que a opo Automtica utiliza a orientao mais adequada; c) Caso seja necessrio, configure a impresso apertando no boto Configuraes ou atravs da opo Configurar impresso do menu Arquivo. d) Quando esses procedimentos estiverem definidos, pressione o boto Imprimir. 1.9 ESCOLHENDO O TESTE Quando o usurio desejar escolher um teste estatstico que seja adequado para os seus dados, siga, a ttulo de sugesto, os seguintes procedimentos: a) Pressione Sugestes no menu superior; b) Clique na clula correspondente ao nmero de amostras do seu trabalho: uma amostra, duas amostras independentes, duas amostras pareadas, k amostras independentes ou k amostras relacionadas; c) Clique na clula relacionada com o nmero de variveis da(s) amostra(s): uma, duas ou k variveis; d) Clique na clula relativa ao tipo de dados amostrais: categricos, ordenativos ou numricos, surgindo, nesse momento, na parte inferior da tela, exemplos desses modelos de dados e, na coluna seguinte, os testes sugeridos pelo programa; e) Ao passar o cursor sobre as sugestes do BioEstat, surgiro, na parte inferior da tela, um resumo e a frmula estatstica do teste correspondente. Se julgar adequado, pressione o teste desejado. A qualquer momento possvel retornar coluna anterior pressionando o boto correspondente: Dados, Variveis ou Amostras, conforme o caso ou, ainda, em Sair para retornar ao grid geral. 1.10 EXECUTANDO O TESTE O BioEstat 5.0 dispe de 210 mtodos estatsticos, entre procedimentos de amostragem, descritivos e inferenciais; para execut-los, adote as seguintes condutas: a) Abra um dos arquivos de Exemplos do BioEstat ou digite seus prprios dados no grid principal; b) Clique no menu Estatsticas e escolha um teste dentre as diversas opes; c) Na janela Seleo de Amostras: i - Selecione as colunas a serem utilizadas no teste, clicando-as. Para selecionar todas as colunas disponveis para o teste, aperte o boto >>; ii - Caso queira remover alguma coluna que havia sido selecionada, d um duplo clique nela mesma e, para remover todas as colunas selecionadas, pressione o boto <<; d) Quando as colunas desejadas estiverem selecionadas, clique no boto Executar Estatstica.
-6-
-7-
-8-
CAPTULO 2
AMOSTRAGEM
2.1 INTRODUO Amostragens ou sondagens so procedimentos de seleo de subconjuntos de populaes as amostras , destinados ao conhecimento de uma ou vrias caractersticas dos universos investigados. Quando se estuda uma populao por sondagens, necessrio selecionar suas amostras representativas, a fim de que os resultados obtidos possam ser inferidos para o conjunto objeto da investigao. As amostragens dividem-se em dois grupos: a) Amostragens probabilsticas: i amostras aleatrias simples; ii amostras sistemticas; iii amostras estratificadas; iv amostras por conglomerados; v amostras aleatrias: dados do grid; vi aumento do tamanho da amostra; vii reamostragem Bootstrap. b) Amostras no-probabilsticas: i intencional; ii por convenincia; iii por cotas. No BioEstat sero abordadas as amostragens probabilsticas, nas quais cada indivduo tem uma chance conhecida, diferente de zero, de ser includo na amostra e o mtodo de seleo deve ser compatvel com a probabilidade de cada unidade. Algumas etapas devem ser observadas na seleo amostral: a) Definio da populao-alvo; b) Alistamento de todos os indivduos desse universo: 1, 2, 3, , n; c) Determinao do tamanho da amostra; d) Escolha do modelo de amostragem; e) Seleo das unidades da populao. 2.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Amostragem, quando surgir a figura abaixo, comum para todos os modelos de seleo amostral do BioEstat:
Figura 2.1 Menu de
Amostragem.
-9-
CAPTULO 2 AMOSTRAGEM
2.2 AMOSTRAS ALEATRIAS SIMPLES So aquelas cujos indivduos foram obtidos ao acaso da populao, tendo cada amostra a mesma chance de ser escolhida dentre todas aquelas possveis do mesmo tamanho. Os termos aleatrio, randmico, casual e ao acaso so sinnimos. As amostras aleatrias simples podem ser obtidas por sorteio, em tabelas de nmeros aleatrios e por computao. 2.2.1 EXEMPLO Para determinar a estatura mdia de uma populao de 350 alunos da segunda srie do Ensino Fundamental, tomou-se amostra aleatria de 40 estudantes, precedida da listagem numrica de todos os discentes desse universo. 2.2.2 INSTRUES a) Apontar o mouse em Aleatria, para escolha de um dos modelos: Com ou Sem reposio. b) Clicar o mouse em Sem reposio, modelo escolhido neste exemplo; preencher as caixas de texto com os tamanhos da populao e da respectiva amostra, pressionando, a seguir, o boto Executar.
Figura 2.2 Amostragem Aleatria (Sem Reposio).
2.3 AMOSTRAS SISTEMTICAS Nestas amostras o primeiro elemento escolhido ao acaso e os demais, a partir dessa unidade, so selecionados a intervalos sistemticos (k) previamente definidos at ser atingido o nmero total de indivduos. Os intervalos so calculados pela razo: k = tamanho da populao (N) / tamanho da amostra (n). A primeira unidade amostral pode variar de um (1) at o limite mximo do intervalo sistemtico (k). 2.3.1 EXEMPLO Do mesmo alunado do exemplo anterior, retirar amostra sistemtica de tamanho 50. 2.3.2 INSTRUES a) Clicar o mouse em Sistemtica; b) Preencher as caixas de texto com os tamanhos da populao e da respectiva amostra, pressionando, a seguir, o boto Executar.
- 10 -
CAPTULO 2 AMOSTRAGEM
Figura 2.3 Amostragem sistemtica.
2.4 AMOSTRAS ESTRATIFICADAS Trata-se de amostras obtidas de subconjuntos de uma populao designados por estratos ou grupos, sem superposio de unidades entre eles, retirando-se amostra randmica de cada um. H maior homogeneidade dos elementos dentro de cada grupo e maior diversidade entre os estratos, possibilitando maximizar as informaes sobre todo o universo investigado. Deve-se definir cuidadosamente a quantidade de estratos, os limites de cada um e o nmero de variveis a investigar. 2.4.1 EXEMPLO A populao de uma cidade de 600 habitantes foi dividida em dois estratos: urbano e rural, com a finalidade de se estudar a incidncia de malria em cada grupo de seus residentes. O estrato urbano possui 400 habitantes e o rural, 200. O tamanho total da amostra deve compreender 60 pessoas. Deve-se notar que o tamanho da amostra retirada de cada subconjunto proporcional ao tamanho de cada estrato em relao ao tamanho da populao (ver Figura 2.4). 2.4.2 INSTRUES a) Clicar o mouse em Estratificada; b) Preencher as caixas de texto com o nmero de estratos, o tamanho total da amostra e o tamanho da populao em cada estrato, pressionando, a seguir, o boto Executar.
2.5 AMOSTRAS POR CONGLOMERADOS Caracterizam-se pelo fato de que os elementos simples destas amostras so obtidos de unidades coletivas denominadas conglomerados ou clusters. Os conglomerados apresentam acentuada similitude no que diz respeito variao de seus indivduos, como so exemplos as colmias, os blocos residenciais, as aldeias de um mesmo grupo indgena, etc. Por esse procedimento possvel a listagem de todos os clusters, a escolha randmica de alguns, a relao completa das unidades simples daqueles j sorteados e, finalmente, a obteno casual dos indivduos dos conglomerados
- 11 -
CAPTULO 2 AMOSTRAGEM
selecionados. A retirada da amostra pode ser efetuada em dois ou mais estgios: duplo, triplo, mltiplo, conforme o caso.
Figura 2.4 Amostragem Estratificada.
2.5.1 EXEMPLO Calcular o peso mdio de estudantes da quinta srie do ensino fundamental das escolas pblicas de um municpio. O total de estabelecimentos de ensino de 52 escolas (conglomerados do 1o estgio), cada uma com 10 turmas da quinta srie (conglomerados do 2o estgio), e cada turma apresentando 40 alunos matriculados (unidades simples, 3o estgio). Foram selecionadas 5, 4 e 8 unidades dos estgios 1o, 2o e 3o, respectivamente, constituindo, ao final, amostra de 160 discentes (5 x 4 x 8). 2.5.2 INSTRUES a) Clicar o mouse em Conglomerados; b) Preencher a caixa de texto com o nmero de estgios (3), com a denominao de cada um, o nmero de unidades contidas nos respectivos clusters e, por fim, a quantidade de unidades determinadas para sorteio em cada conglomerado. Pressionar, em seguida, o boto Executar.
Figura 2.5 Amostragem por Conglomerados. (parte dos resultados)
- 12 -
CAPTULO 2 AMOSTRAGEM
2.6 AMOSTRA ALEATRIA DOS ESCORES DO GRID SEM REPOSIO Pode-se retirar amostras aleatrias de escores inseridos no grid geral do BioEstat. 2.6.1 EXEMPLO Esto inseridos no grid 140 escores (Figura 2.6), referentes estatura de estudantes do sexo masculino de idades compreendidas entre 16 e 18 anos, de uma escola de ensino fundamental. Tendo em vista que os dados compreendem todos os alunos matriculados nessa instituio, com as caractersticas referidas, esses escores constituem, portanto, uma populao, com estatura mdia igual a 169.45 cm. Retirou-se amostra aleatria desse conjunto para calcular a mdia amostral da varivel estatura no sentido de verificar se ela representativa do universo em questo.
Figura 2.6 Dados parciais do Exemplo 2.6.1.
2.6.2 INSTRUES a) Introduzir os dados no grid padro do BioEstat, conforme a Figura 2.6; b) Pressionar o mouse em Aleatria dos escores do grid; c) Selecionar a coluna, neste exemplo a de nmero 1; d) Pressionar em Executar; Informar na caixa de texto o tamanho da amostra desejada (10, neste caso) e Pressionar em OK, para resultados (Figuras 2.7 e 2.8).
Figura 2.7 Tamanho da Amostra.
- 13 -
CAPTULO 2 AMOSTRAGEM
Efetuando-se a estatstica descritiva dos escores amostrais, com o clculo da mdia e do erro padro, e comparando-os com a mdia paramtrica, obtm-se: Dados da amostra: X = 176.4; s x = 3.4; Dado da populao: = 178.5; Vis = ( - X ) = 178.5 176.4 = 2.1 Pode-se concluir que a mdia amostral ( X = 176.4) um estimador no enviesado do parmetro ( =178.5), eis que o vis (2.1) inferior a um erro padro, representado por s x = 3.4. A mdia amostral , assim, representativa do universo em questo.
2.7 AUMENTO DO TAMANHO DA AMOSTRA um mtodo computacional de gerao de dados a partir de valores observados, com o objetivo de gerar novas e maiores amostras, cujo tamanho ser decidido pelo pesquisador. possvel, assim, aumentar o poder do teste, sobretudo quando as amostras iniciais so pequenas por indisponibilidade de indivduos. 2.7.1 EXEMPLO A partir de dados hipotticos foram obtidas duas amostras independentes de tamanho n = 4, cujos escores medidos em escala ordinal expressam resultados de anlise histolgica, sendo identificados conforme o grau da leso: - Escore 1: leve; - Escore 2: moderada; - Escore 3: alta. A figura abaixo contm os escores observados no experimento. Quando o teste de Mann-Whitney foi aplicado o p-valor no foi significativo (p = 0.1266).
Figura 2.9 Dados do Exemplo 2.7.1
2.7.2 INSTRUES a) Inserir no grid os dados obtidos; b) Selecionar no menu Amostragem: Escores do Grid e Aumento da Amostra; c) Na janela Seleo de Amostras, escolha apenas uma coluna de cada vez; d) Clique em Executar Estatstica; e) Informe o tamanho da amostra a ser gerada. Neste exemplo adotamos 40 como o tamanho da nova amostra; f) O BioEstat 5.0 informar em qual coluna ser inserida a reamostragem; g) Repita o procedimento para a segunda amostra; h) Execute o teste em questo com as novas amostras obtidas.
- 14 -
CAPTULO 2 AMOSTRAGEM
Neste exemplo, com amostras geradas de tamanho = 40, foi aplicado o teste de MannWhitney o qual mostrou diferena muito significativa, com p-valor <0.0001. Este procedimento poder ser aplicado para k amostras, como na Anlise de Varincia.
Figura 2.11 Resultado do teste de Mann-Whitney para a reamostragem
- 15 -
CAPTULO 2 AMOSTRAGEM
- 16 -
CAPTULO 3
ANLISE MULTIVARIADA
3.1 INTRODUO A maioria dos testes estatsticos concernente ao exame de uma nica varivel, a qual considerada importante na descrio ou no estudo analtico dos dados amostrais. Em algumas situaes, porm, torna-se importante considerar a anlise de diversas variveis aleatrias de modo simultneo, para atingir outros aspectos no abrangidos por um exame mais simplificado. Embora se deva a Francis Galton (1886) as primeiras anlises multivariadas, somente com o desenvolvimento dos computadores foi possvel construir pacotes estatsticos com diferentes modelos de anlises multivariadas, possibilitando seu uso em escala muito mais ampla. Do ponto de vista matemtico, alm dos conhecimentos bsicos de lgebra, h necessidade de alguma noo sobre matrizes algbricas, para a efetivao da anlise multivariada. A atual verso do BioEstat (5.0) dispe dos seguintes testes: a) Anlise de Conglomerados; b) Anlise Discriminante; c) Componentes Principais; d) Correlao Cannica; e) Distncia Multivariada (Euclidiana); f) Distncia Multivariada (Penrose e Mahalanobis); g) Teste de Bartlett (duas amostras); h) Teste de Hotelling (uma amostra); i) Teste de Mantel. 3.1.1 INSTRUES a) Introduzir os dados no grid padro ou especfico, conforme o teste; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Anlise Multivariada, conforme demonstra a Figura 3.1:
Figura 3.1 Menu de anlise multivariada.
3.2 ANLISE DE CONGLOMERADOS O objetivo desta anlise agrupar os indivduos em conglomerados ou clusters. Os conglomerados so identificados como grupos que compem a populao ou a amostra que est sendo analisada. As unidades de um grupo apresentam muitas
- 17 -
- 18 -
Figura 3.3 Valores que representam as duas primeiras letras de cada idioma. Exemplo 3.2.1B.
Deseja-se efetuar a Anlise de Conglomerados para que sejam identificados e agrupados os idiomas conforme as similitudes e as diferenas existentes entre eles. 3.2.2 INSTRUES a) Clicar no menu Anlise Multivariada e na opo Anlise de Conglomerados; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para obter a Figura 3.4:
Figura 3.4 Critrios usados na anlise.
- 19 -
3.3 ANLISE DISCRIMINANTE uma tcnica de Anlise Multivariada que determina a separao de grupos de indivduos de acordo com os valores de suas variveis. Na Anlise Discriminante pode-se obter: a) A determinao das funes discriminantes de Fisher (Y1 e Y2) capazes de separar ou discriminar os grupos de indivduos. Y1 e Y2 so duas variveis adimensionais, criadas de modo a permitir melhor separao entre os grupos que esto sendo analisados. b) O diagrama que identifica os grupos e permite a visualizao das separaes e aproximaes grupais. c) Atravs das funes discriminantes de Fisher, torna-se possvel a classificao de novos indivduos, em um dos grupos determinados, sendo o clculo semelhante ao utilizado na Regresso Linear Mltipla.
- 20 -
3.3.2 INSTRUES a) Clicar no menu Anlise Multivariada e selecionar em Anlise Discriminante; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para obter a Figura 3.7; d) Pressionar em OK, nessa Figura, surgindo as funes discriminantes de Fisher (Y1 e Y2), com os respectivos estimadores das variveis X1, X2, X3 e X4.
Figura 3.7 As funes discriminante de Fisher. Exemplo 3.3.1.
- 21 -
Pressionar o boto Grfico, na parte superior esquerda da Figura 3.7, para obter o diagrama representado pela Figura 3.8.
Observe os agrupamentos: o Grupo 2 est ao centro, entre os Grupos 1 e 3. Quando desejamos classificar uma nova unidade, devemos preencher o valor de cada uma de suas variveis e pressionar em Classificar. Por exemplo, foram introduzidos os valores X1 = 4.7, X2 = 3.5, X3 = 1.3 e X4 = 0.22, (Figura 3.9), pressionando-se o boto Classificar, resulta em uma unidade do Grupo 3 (ris sp.3).
Figura 3.9 Entrada de dados das variveis para obter a classificao de um novo indivduo. Exemplo 3.3.1.
- 22 -
Percebe-se que a nova unidade (Objeto Classificado) est localizada entre as unidades do Grupo 3, Iris sp.3, conforme resultados n Figura 3.9.
3.4 COMPONENTES PRINCIPAIS O principal objetivo deste teste indicar a significncia relativa de variveis preditivas, eis que, quando o nmero delas em um conjunto de dados muito grande, podem surgir, pela anlise de regresso mltipla, coeficientes irracionais, dificultando uma acurada identificao da importncia daquelas variveis. Trata-se, portanto, de um teste interpretativo, o qual consiste em examinar um grupo de k variveis correlacionadas, transformando-as em outro conjunto de variveis no correlacionadas e independentes, dispostas em combinaes lineares e em ordem decrescente de importncia atravs de ndices designados de Zp, de tal maneira que a varincia var(Z1) varincia var(Z2) varincia var(Z3) ., , varincia var(Zp). Os primeiros ndices so chamados de Componentes Principais, devendo-se dar maior nfase queles que descrevem cerca de 80% ou mais da variao, os quais, em alguns casos, esto representados pelo primeiro e segundo componentes. Os tamanhos das amostras podem ser iguais ou desiguais. 3.4.1 EXEMPLO Foram examinadas 40 andorinhas, mensurando-se cinco (5) variveis: X1, X2, X3, X4 e X5, representando o comprimento total, comprimento das asas, comprimento do bico, permetro ceflico e comprimento do esterno, respectivamente. Determinar os componentes principais dentre essas variveis, cujos valores foram inseridos no grid geral como demonstrado a seguir:
- 23 -
3.4.2 INSTRUES f) Pressionar o mouse em Componente Principal; g) Selecionar as colunas referentes s variveis do grid geral; h) Clicar em Executar o Teste, para obter os resultados (ver Figura 3.12).
Figura 3.12 Resultados do Exemplo 3.4.1 Os resultados demonstram que os ndices 1 e 2 representam 84% da variao total (73% + 11%) dos indivduos testados, constituindo os Componentes Principais nesse Exemplo.
- 24 -
3.5 CORRELAO CANNICA Trata-se de um modelo de Anlise Multivariada que permite investigar o relacionamento entre duas sries de variveis: um grupo de variveis X e outro de variveis Y. A associao entre os grupos de variveis tem como resultante a correlao (Rc) denominada Cannica. Assim, na rea mdica, um pesquisador poder relacionar um grupo de sintomas com um conjunto de fatores de risco em relao a determinada doena. OBJETIVOS a) Determinar a magnitude da relao entre dois conjuntos de variveis; b) Deduzir os pesos de cada grupo de variveis de forma que a correlao de cada composio linear seja maximizada; c) Avaliar a contribuio relativa de cada varivel na correlao cannica, no sentido de explicar a natureza do relacionamento; d) Para propsitos descritivos e inferenciais, devendo, neste caso, as variveis apresentar distribuio normal. LIMITAES a) A Correlao Cannica reflete a variao explicada pela composio linear das variveis; b) Os valores cannicos derivados constituem amostra-dependente; c) As variveis cannicas derivadas maximizam a Correlao e no a varincia extrada; d) As interpretaes estatsticas ainda no esto bem desenvolvidas.
- 25 -
3.5.1.1 INSTRUES a) Clicar no menu Anlise Multivariada e na opo Correlao Cannica; b) Selecionar todas as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para obter o dilogo mostrado na Figura 3.15; d) Indique a quantidade de variveis do Grupo Xi; e) Indique a quantidade de variveis do Grupo Yi; f) Pressionar em Executar, para obter os resultados.
- 26 -
A figura acima define que as variveis sero analisadas em dois grupos, onde o primeiro grupo formado por trs colunas, o segundo grupo de variveis tambm formado por trs colunas. Esta especificao obedece a ordem na qual as colunas foram selecionadas na interface Seleo de Amostras para Correlao Cannica.
Figura 3.16 Resultados da correlao cannica. Exemplo 3.5.1.
A Figura 3.16 mostra as correlaes cannicas, os autovalores e as probabilidades. A primeira correlao cannica (a correlao entre o primeiro par de variveis cannicas) 0.9352. Este valor, tambm denominado R Cannico, representa a melhor correlao possvel entre qualquer combinao linear das variveis de satisfao do profissional (Grupo Y) com as variveis da caracterstica da atividade desenvolvida (Grupo X).
- 27 -
3.5.2 EXEMPLO 2 Estrutura populacional dos camares Penaeidae no esturio do rio Caet, litoral norte do Brasil. Sendo seis variveis do grupo X. a) CPUA: ndice de captura por rea (B/A), sendo B a biomassa em gramas e A corresponde a abertura efetiva da rede embaixo dgua. b) Densidade: medida em indivduos/m2. c) Temperatura. d) Salinidade. e) Oxignio dissolvido. f) pH. Variveis do grupo Y. a) Dimenso 1. b) Dimenso 2. Obs: As Dimenses representam o escalonamento multidimensional da matriz gerada pelo agrupamento dos dados com a distncia. Os dados esto exibidos parcialmente na Figura 3.18.
Figura 3.18 Viso parcial dos dados do Exemplo 3.5.2.
- 28 -
Figura 3.20
Resultados do Exemplo
3.5.2.
A correlao foi altamente significativa (p-valor < 0.0001) verificando-se na Figura 3.21 pela matriz de correlao as principais associaes lineares entre as variveis que compem os dois grupos X e Y.
- 29 -
Figura 3.21
3.6 DISTNCIA MULTIVARIADA (Euclidiana) A distncia Euclidiana abrange amostra com n indivduos de espcies ou subespcies diferentes, cada uma apresentando p variveis X1, X2, , Xp mensuradas a nvel intervalar ou de razes, procurando-se determinar a distncia, sob o aspecto evolutivo, entre os indivduos estudados. Os tamanhos das amostras podem ser iguais ou desiguais. 3.6.1 EXEMPLO (hipottico) Procurou-se verificar a distncia Euclidiana de cinco (5) espcies de felinos, medindo-se: X1 = distncia entre o primeiro molar e o ltimo molar; X2 = comprimento do canino; X3 = extenso da mandbula; X4 = distncia entre o primeiro pr-molar e o ltimo molar; X5 = altura mandibular. Os dados foram inseridos no grid geral, de tal modo que as variveis mensuradas correspondem s colunas X1, X2, X3, X4 e X5 , e as espcies de felinos so correlativas s linhas: 1 = espcie A; 2 = espcie B; 3 = espcie C; 4 = espcie D; e 5 = espcie E.
Figura 3.22 Dados do Exemplo 3.6.1.
3.6.2 INSTRUES a) Pressionar o mouse em Distncia Multivariada (Euclidiana); b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste para obter os resultados (ver Figura 3.23).
Figura 3.23 Resultados do Exemplo 3.6.1. A distncia observada entre as espcies.
- 30 -
3.7 DISTNCIA MULTIVARIADA (Penrose e Mahalanobis) O mtodo de Penrose testa as distncias multivariadas de duas ou mais populaes, levando em considerao, para o clculo, os dados sobre mdias, varincias e covarincias. O teste de Mahalanobis considera ainda as correlaes entre as variveis, alm dos valores numricos utilizados no procedimento de Penrose. Os tamanhos das amostras podem ser iguais ou desiguais. 3.7.1 EXEMPLO O exemplo diz respeito a um trabalho (hipottico) realizado por um antroplogo sobre as medidas de quatro (4) variveis cranianas do homem em cinco diferentes grupos indgenas: Grupo A = variveis A1, A2, A3, A4; Grupo B = variveis B1, B2, B3, B4; Grupo C = variveis C1, C2, C3, C4; Grupo D = variveis D1, D2, D3, D4; Grupo E = variveis E1, E2, E3, E4. Os dados so introduzidos no grid geral abrangendo 20 colunas e 30 linhas, estas representando o nmero de indivduos mensurados, conforme demonstrado na Figura 3.25.
Figura 3.25 Dados parciais do Exemplo 3.7.1.
- 31 -
f)
Figura 3.27 Grfico do Exemplo 3.7.1.
Pressionar em Grfico barra de ferramentas da Fig. 3.26 para visualizar a seguinte imagem:
- 32 -
3.9 TESTE DE HOTELLING Destina-se a comparar duas amostras multivariadas, cada uma com o mesmo nmero de variveis duas ou mais , baseando-se na generalizao do Teste t de Student, mais precisamente no quadrado dessa estatstica, sendo representado simbolicamente por T2. A probabilidade do teste p-valor calculada pela estatstica F resultante da transformao de T2, conforme demonstrado no captulo sobre Frmulas Estatsticas. Os dados devem ser mensurados a nvel intervalar ou de razes. 3.9.1 EXEMPLO Duas amostras foram selecionadas, estudando-se cinco (5) variveis de cada uma, cujos dados foram introduzidos no grid geral, correspondendo s variveis Xi
- 33 -
3.9.2 INSTRUES a) Pressionar o mouse em Teste de Hotelling; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para resultados:
Figura 3.30 Resultados do Exemplo 3.9.1. No h diferena estatisticamente significante entre as duas amostras, p = 0.5210.
3.10 TESTE DE MANTEL Comparao entre duas matrizes de distncias, como, por exemplo, da composio gentica entre vrias populaes e respectivos intervalos geogrficos ou temporais, obtendo-se valores do Coeficiente de Correlao (r), o qual pode variar de 1 a +1, denotando ou no associao matricial. H dois procedimentos que podem ser utilizados na entrada de dados para este teste: 1) Procedimento A: dispomos das informaes para a construo das matrizes; 2) Procedimento B: dispomos das matrizes M e E.
- 34 -
3.10.1.1 OBTENO DAS MATRIZES a) Com os dados do Ex 03.10.1A Dados Genticos efetuar o procedimento de PenroseMahalanobis, para cinco (5) amostras, conforme descrito no item 3.7.1, para obter as distncias entre as cinco (5) amostras. A matriz das distncias de Penrose mostrada no Figura 3.33.
- 35 -
b) Clicar em Teste de Mantel (segmento superior da Figura 3.33), para obter a imagem como na Figura 3.34. Este procedimento insere instantaneamente as Distncias de Penrose (matriz) na entrada de dados do Teste de Mantel.
Figura 3.34 Entrada de dados da primeira matriz (dados genticos) para o teste de Mantel.
c) Para fechar as janelas do Teste de Mantel e da Distncia Multivariada de PenroseMahalanobis, clicar na seta (parte inferior direita da Figura 3.34), e fechar a janela das Figuras 3.34 e 3.33; d) Repetir este procedimento para os dados das Distncias Geogrficas (Figura 3.32), mas utilizando a Distncia Euclidiana, como se observa na Figura 3.34;
Figura 3.35 Dados da Matriz Euclidiana.
- 36 -
Repetir os procedimentos do item b), ou seja, clicar em Teste de Mantel, na parte superior da Figura 3.33, no sentido de obter a seguinte imagem:
f) Clicar em Teste de Mantel (parte inferior da figura 3.34), para obter os seguintes resultados (Fig. 3.37):
Figura 3.37 Resultado do Teste de Mantel
Os resultados mostram associao entre dados genticos e distncias geogrficas, com o Coeficiente de Correlao igual a 0.6830 e p-valor significativo (0.0294). O valor Z representa o somatrio do produto das variveis das matrizes Mi e Ei. Assim temos: Z = (0.0897 x 2.4360 + 0.4093 x 4.9666 + ... + 0.2448 x 2.4073) = 7.3819. possvel, entretanto, obter outros valores de Z permutando-se os valores das matrizes, procedimento conhecido como bootstrap. Assim, basta clicar em Bootstrap, na parte inferior da Figura 3.34, e preencher as caixas de texto, conforme o desejado, como se depreende da Figura 3.38.
Figura 3.38 Resultados da reamostragem das matrizes.
Os resultados so semelhantes aos obtidos diretamente no Teste de Mantel, sem a reamostragem, com Coeficiente de Correlao r = 05484 e p-valor = 0.0170. possvel, na reamostragem, a ocorrncia de valores positivos ou negativos, mas o p-valor ter a significao aproximada do obtido diretamente das matrizes sem bootstrap, e que correspondeu a 0.0294 (Figura 3.37).
- 37 -
A correlao obtida, com r = 0.6548, significativa, eis que o p-valor igual a 0.0398, rejeitando-se a hiptese de nulidade. H, portanto, associao entre as freqncias gnicas e as distncias geogrficas. Se houver interesse na reamostragem, pressionar em Bootstrap, na parte superior da Figura 3.40, efetuando o mesmo procedimento j referido.
- 38 -
CAPTULO 4
ANLISE DE SOBREVIVNCIA
4.1 INTRODUO A anlise de sobrevivncia vem sendo enfatizada nos estudos biomtricos e destina-se a calcular a probabilidade de ocorrncia de eventos ao longo de certo perodo, o qual dividido em vrios intervalos de tempo. Os eventos podem ser de diversas naturezas, tais como: perodos de remisso de uma doena, tempo de sobrevivncia de indivduos acometidos por neoplasia, estudos epidemiolgicos, durao de matrimnios, efeitos de drogas e outros. Um fato a destacar nas anlises de sobrevivncia o de que nem todos os elementos selecionados para o estudo atendem ao seguimento ao longo do perodo previamente estabelecido, podendo, a qualquer momento, abandon-lo por motivos diversos. Esses indivduos recebem a designao geral de censurados, os quais, de acordo com o teste escolhido, devem ou no ser registrados em cada tempo t no qual o perodo total foi dividido. O BioEstat oferece os seguintes modelos de Anlise de Sobrevivncia: a) Atuarial; b) Cox-Mantel; c) Cox: Modelo de Risco Proporcional; d) Kaplan-Meier; e) Log-Rank Test; f) Gehan (Wilcoxon generalizado); g) Mantel-Haenszel; h) Pirmide Populacional. 4.1.1 INSTRUES a) Introduzir os dados no grid padro do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Anlise de Sobrevivncia, conforme demonstra a Figura 4.1
Figura 4.1 Menu Anlise de Sobrevivncia.
- 39 -
4.2 ATUARIAL Este procedimento consiste na observao de um grupo de indivduos em perodos relativamente longos e divididos em vrios intervalos constantes t de semanas, a a meses ou anos, registrando-se na 1 coluna o nmero de indivduos vivos, na 2 , o de a ocorrncias remisses, recidivas, mortes, etc. e na 3 , o de censurados 0, 1, 2, , n. Este modelo de largo uso em instituies securitrias. 4.2.1 EXEMPLO Um estudo foi efetuado em 87 pessoas operadas de neoplasia do estmago, as quais foram observadas ao longo de cinco anos, com intervalos t anuais. Os dados foram introduzidos no grid geral, registrando-se nas colunas 1, 2 e 3 os vivos, as ocorrncias e os censurados, respectivamente. As linhas correspondem aos intervalos anuais: 1, 2, 3, 4 e 5 anos.
Figura 4.2 Dados do Exemplo 4.2.1.
4.2.2 INSTRUES a) Pressionar o mouse em Atuarial; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, informando caixa de texto ao lado da Fig. 4.2 a unidade de tempo representada pelos nmeros 1 a 5 (ano, neste exemplo); d) Pressionar OK, para resultados.
Figura 4.3 Resultados do Exemplo 4.2.1.
Ao final de cinco (50 anos, a chance de sobrevivncia bem exgua (0.0174), aumentando a proporo de risco a cada intervalo t. A expectativa de vida anual de 2.82.
- 40 -
4.3 COX-MANTEL Teste estatstico no-paramtrico para duas amostras independentes com observaes censuradas. 4.3.1 EXEMPLO (hipottico) Dois grupos de seis (6) mulheres com cncer mamrio foram tratados do seguinte modo: o primeiro grupo recebeu quimioterapia e radioterapia, enquanto o outro nada recebeu aps mastectomia total. Ao final de trs (3) anos, o tempo de remisso foi assinalado em meses. As observaes censuradas esto assinaladas no grid especfico com o sinal +. H0: S1(t) = S2(t); H1: S1(t) > S2(t); Nvel de deciso: alfa = 0.05 (unilateral) 4.3.2 INSTRUES a) Pressionar o mouse em Cox-Mantel; b) Inserir os valores de cada grupo (A e B) no grid especfico, assinalando com o caractere + sucedendo os escores censurados; c) Clicar em OK para obter os resultados, conforme disposto na Figura 4.5.
- 41 -
A diferena entre os tratamentos muito significativa (p = 0.0079), rejeitando-se a hiptese de nulidade, constatando-se que o tempo de sobrevivncia foi maior no grupo tratado com quimioterapia e radioterapia.
4.4 COX: MODELO DE RISCO PROPORCIONAL uma tcnica de anlise estatstica que busca explicar o efeito que um grupo de variveis exerce na sobrevivncia do paciente. Permite a anlise, alm do efeito da droga, de vrios outros fatores de risco simultaneamente. As variveis denominadas preditoras (explanatrias) podem ser fatores de risco tais como: idade, sexo, peso, glicemia, durao da doena ou variveis de controle que indicam o tipo de tratamento administrado ao paciente. O modelo de risco proporcional introduzido por Cox conhecido na literatura como Proporcional Hazard Regression Analysis. INTERPRETAO DO COEFICIENTE b Quando o Coeficiente de Regresso (b) de uma das variveis preditoras um nmero positivo (b>0), ento entendemos que o risco (hazard) para os pacientes crescente com a grandeza da varivel e, por via de conseqncia, o prognstico que a varivel em questo diminui o tempo de sobrevivncia do paciente. Por outro lado, quando uma especificada varivel caracterizada por um Coeficiente de Regresso Negativo (b<0) devemos deduzir que a tal varivel melhora o prognstico de sobrevivncia do paciente.
- 42 -
4.4.2 INSTRUES a) No menu Estatsticas clique em Anlise de Sobrevivncia; b) Selecione a opo Cox: Modelo de Risco Proporcional; c) Na janela Seleo de Amostras, escolha inicialmente as variveis: Droga, Idade, Sexo, Uria, Clcio srico, Hemoglobina, Protena de Bence-Jones. d) Ainda na mesma janela selecione as colunas: Tempo e Remisso, as quais devem, obrigatoriamente, ser as duas ltimas colunas selecionadas, nessa ordem. e) A janela Seleo de Amostras ser configurada conforme a visualizao a seguir.
- 43 -
f)
Figura 4.8 Parte superior do grid de resultados do Exemplo 4.4.1.
Finalmente, clique em Executar Estatstica para obter os resultados abaixo, que para fins didticos foram divididos em duas partes (Figuras 4.8 e 4.9).
A parte superior da tela de resultados da anlise de Cox apresenta: - O Qui-Quadrado igual a 32.5782 e o correspondente p < 0.0001, o qual indica uma forte evidncia do efeito da droga (p = 0.0002) e de variveis preditoras sobre a varivel Remisso, destacando-se tambm os nveis de Clcio srico (p = 0.0046) e o de Hemoglobina (p = 0.0025). - A droga (riluzole) obteve o coeficiente b = !1.8432 (p = 0.0002), cuja Taxa de Risco correspondente igual a 0.1583 (15.83%), dando uma proteo de 84.17%.
Figura 4.9 Viso parcial da parte Inferior dos resultados do Exemplo 4.4.1.
Na parte superior da Figura 4.8 est localizada a opo que permite visualizar as Curvas de Sobrevivncia.
- 44 -
Outras curvas podem ser obtidas para ilustrar a influncia de cada varivel preditora na sobrevivncia dos indivduos que compem a amostra: a) Droga; b) Idade; c) Sexo; d) Uria; e) Clcio; f) Hemoglobina; g) Proteina de Bence-Jones.
Figura 4.11 Grfico do Exemplo 4.4.1.
Grfico da varivel Droga. A curva superior corresponde aos pacientes que receberam o tratamento (p = 0.002).
Grfico da varivel Sexo. As curvas se sobrepem indicando que o sexo no influenciou o tempo de sobrevivncia (p = 0.7858).
- 45 -
4.5.2 INSTRUES a) Pressionar o mouse em Kaplan-Meier; b) Selecionar as duas colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste para obter os resultados.
Figura 4.13 Resultados do Exemplo 4.5.1.
Probabilidade de sobrevivncia em cada perodo e a chance acumulada at o referido tempo, com IC 95%. Pressionando-se em Grfico, na barra superior da Figura 4.13, escolhe-se uma das opes: Freqncia, Proporo ou Chance acumulada de sobrevivncia com IC (95%). Neste exemplo escolheu-se a primeira opo, surgindo o diagrama da Figura 4.14.
- 46 -
4.6 LOG-RANK TEST Este teste de anlise de sobrevivncia permite comparar duas amostras, cujas observaes foram efetuadas em perodos e intervalos idnticos. 4.6.1 EXEMPLO 1 (sem censurados, mtodo 1) O tempo de recidiva ao alcoolismo foi observado em dois grupos: a) Grupo A, indivduos com at 45 anos (n = 376); b) Grupo B, com idade superior a 45 anos (n = 450). O objetivo era verificar se a varivel idade influenciava a ocorrncia objeto da investigao. O tempo de observao foi de 365 dias, dividido em intervalos trimestrais, e contadas as ocorrncias. Os dados foram introduzidos no grid geral.
Figura 4.15 Dados do Exemplo 4.6.1 (sem censurados).
H0: o tempo de recidiva ao alcoolismo o mesmo nos dois grupos de pessoas: p1 = p2; H1: o tempo de recidiva ao alcoolismo dependente do grupo etrio dos indivduos: p1 p2; Nvel de deciso: alfa = 0.05.
- 47 -
H0: no h diferena no tempo de sobrevivncia dos indivduos submetidos aos tratamentos A e B: p1 = p2; H1: h diferena no tempo de sobrevivncia dos indivduos submetidos aos tratamentos A e B: p1 p2; Nvel de deciso: alfa = 0.05. 4.6.3 EXEMPLO 3 (com censurados) Dados hipotticos de duas amostras sobre tempo de sobrevivncia de dois conjuntos de indivduos submetidos a tratamentos diferentes: A, para um grupo e B, para o outro, com seguimento ao longo de seis anos, correspondendo cada valor do grid ao respectivo nmero de indivduos. Os indivduos dos Eventos A e B totalizaram 99 e 77, respectivamente. H0: no h diferena no tempo de sobrevivncia dos indivduos submetidos aos tratamentos A e B: p1 = p2; H1: h diferena no tempo de sobrevivncia dos indivduos submetidos aos tratamentos A e B: p1 p2; Nvel de deciso: alfa = 0.05.
Figura 4.17 Dados do Exemplo 4.6.3 (com censurados).
4.6.4 INSTRUES a) Pressionar o mouse em Log-Rank test, e escolha uma das duas opes: Sem Censurados (Figuras 4.15 e 4.16) ou Com Censurados (Figura 4.17);
- 48 -
- 49 -
O grfico desta anlise de sobrevivncia compatvel com o resultado do teste, o qual no mostrou diferena significativa entre os dois tratamentos. As curvas so muito semelhantes. 4.6.6 GRFICO DO EXEMPLO 4.6.2 Pressionar em Grfico na barra da Fig. 4.19, para visualizar a seguinte imagem:
Figura 4.22 Grfico do Exemplo 4.6.2.
- 50 -
4.7 GEHAN (WILCOXON GENERALIZADO) Teste estatstico semelhante ao anterior para duas amostras independentes com observaes censuradas. 4.7.1 EXEMPLO (hipottico) Dois grupos de seis (6) mulheres com cncer mamrio foram tratados do seguinte modo: o primeiro grupo recebeu quimioterapia e radioterapia, o outro nada recebeu aps mastectomia total. Ao final de trs (3) anos, o tempo de remisso foi assinalado em meses. As observaes censuradas esto assinaladas no grid especfico com o sinal +. H0: S1(t) = S2(t); H1: S1(t) > S2(t); Nvel de deciso: alfa = 0.05 (unilateral) 4.7.2 INSTRUES a) Pressionar o mouse em Gehan (Wilcoxon generalizado); b) Inserir os valores de cada grupo, assinalando com + os escores censurados; c) Clicar em OK para obter os resultados, conforme disposto na Figura 4.24.
- 51 -
A diferena entre os tratamentos muito significativa (p = 0.0085), rejeitando-se a hiptese de nulidade, constatando-se que o tempo de sobrevivncia foi maior no grupo tratado com quimioterapia e radioterapia.
4.8 MANTEL-HAENSZEL O teste de Mantel-Haenszel se aplica para duas ou mais amostras cujos dados so dispostos em n tabelas de contingncia 2 x 2. 4.8.1 EXEMPLO Efetuou-se levantamento de duas investigaes (Amostras A e B) em 865 mulheres com idades compreendidas entre 40 e 50 anos, relativo associao entre neoplasia cervical e positividade para HPV. Amostra A: 490 mulheres Neoplasia cervical Sem neoplasia HPV+ HPV 152 108 120 110
Amostra B: 375 mulheres Neoplasia cervical Sem neoplasia HPV+ HPV 143 45 111 76
Essas tabelas foram introduzidas nas caixas de texto do teste de Mantel-Haenszel, como sero vistas a seguir. H0: no h associao entre neoplasia cervical e HPV positivo: p0 = p1; H1: h associao entre neoplasia cervical e HPV positivo: p0 p1; Nvel de deciso: alfa = 0.01.
- 52 -
O teste foi muito significativo (p = 0.0013) rejeitando-se a hiptese de nulidade, demonstrando que a neoplasia cervical est associada presena de HPV. O Odds Ratio calculado conjuntamente com o teste de MantelHaenszel, concluindo-se que as mulheres com teste positivo para HPV tm mais de uma vez e meia a probabilidade de ter cncer do colo uterino do que aquelas com teste negativo.
4.9 PIRMIDE POPULACIONAL A maioria dos grficos estatsticos refere-se s amostras. Pode-se, contudo, representar Populaes atravs de Pirmides, constitudas por grupos etrios, propores sexuais, locais de residncias, estados civis e outras variveis. 4.9.1 EXEMPLO 1 A populao do Estado do Par (IBGE) no ano 2000 foi tabulada em relao aos grupos etrios e respectivos sexos. Figura 4.26
Viso parcial dos dados do Exemplo 4.9.1.
- 53 -
H ligeiro predomnio de indivduos do sexo masculino nos primeiros anos de vida e do sexo feminino aps os 80 anos de vida. 4.9.3 EXEMPLO 2 A populao do Estado do Par (IBGE) no ano 1970 foi tabulada em relao aos grupos etrios e locais de residncia, urbana e rural. Figura 4.28
Viso parcial dos dados do Exemplo 4.9.3.
- 54 -
H ligeira predominncia na proporo de residentes na rea rural (52.56%) em relao aos da rea urbana (47.44%), no ano de 1970. 4.9.5 EXEMPLO 3 A populao do Estado do Par (IBGE) no ano 2000 foi tabulada em relao aos grupos etrios e locais de residncia, urbana e rural. Figura 4.30
Viso parcial dos dados do Exemplo 4.9.5.
- 55 -
H predominncia de moradores na rea urbana (66.55%) quando comparados com os da rea rural, denotando uma migrao para as cidades em todo o Estado do Par. 4.9.7 EXEMPLO 4 A populao do Estado do Par foi tabulada em relao aos grupos etrios, sexos e estado civil (solteiros e outros). Os dados so hipotticos, apenas para demonstrar a possibilidade da introduo de trs (3) variveis.
Figura 4.32 Viso parcial dos dados do Exemplo 4.9.7.
4.9.8 INSTRUES a) Inserir no grid os dados hipotticos; b) Pressionar em Grficos e, a seguir, em Pirmide Populacional;
- 56 -
Esta pirmide representa trs variveis: faixa etria, sexo e estado civil (solteiros e no solteiros).
- 57 -
- 58 -
CAPTULO 5
ANLISE DE VARINCIA
5.1 INTRODUO A Anlise de Varincia, introduzida por R. A. Fisher, compara a magnitude das variaes de mais de duas amostras, decompondo a varincia total em duas partes: a) entre as amostras, constituindo o chamado quadrado mdio dos tratamentos; b) dentre cada tratamento, compondo o denominado quadrado mdio do erro experimental. c) O teste da anlise da varincia a razo entre esses quadrados mdios. Esta anlise compreende dois grupos: a) Testes paramtricos: i ANOVA: um critrio; ii ANOVA: dois critrios; iii ANOVA: Fatorial (a x b) com replicao; iv ANOVA: Fatorial (a x b x c) sem replicao. b) Testes no-paramtricos: i Teste de Friedman; ii Teste de Kruskal-Wallis; iii Teste Q de Cochran. 5.1.1 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Anlise de Varincia, conforme demonstra a Figura 5.1:
Figura 5.1 Menu de Anlise de Varincia.
5.2 ANOVA: um critrio A designao ANOVA deriva da expresso inglesa ANalysis Of VAriance, chamando-se F-teste em homenagem a Fisher. Destina-se a comparar mais de duas amostras cujos dados devem ser mensurados em escala intervalar ou de razes. A designao um critrio pelo fato de se comparar somente as variaes entre os
- 59 -
H0: o fumo no influencia a funo pulmonar medida pelo fluxo mdio expiratrio: 1 = 2 = 3; H1: o fumo influencia a funo pulmonar medida pelo fluxo mdio expiratrio, havendo diferena, pelo menos, entre duas mdias: 1 2 etc.; Nvel de deciso: alfa = 0.01.
5.2.2 EXEMPLO 2 (DUNNETT) Trs extratos de origem vegetal foram introduzidos em ces por via oral com a finalidade de testar o possvel efeito sobre a presso arterial sistlica desses animais. Os ces foram divididos em grupos de cinco animais, recebendo cada grupo um tipo de extrato B, C ou D , alm de um grupo controle A injetado com placebo. Os dados esto contidos no grid geral. H0: a presso arterial sistlica no alterada pela introduo oral dos extratos vegetais referidos no experimento: 1 = 2 = 3 = 4; H1: a administrao desses extratos produz alteraes na presso arterial sistlica dos animais, havendo diferena entre a mdia do grupo controle com um dos demais grupos submetidos ao experimento: 1 i; Nvel de deciso: alfa = 0.05.
- 60 -
5.2.3 INSTRUES a) Pressionar o mouse em ANOVA: um critrio; b) Selecionar as colunas referentes aos tratamentos do grid geral; c) Clicar em Executar o Teste, surgindo a Figura 5.4 naqueles casos em que h diferena estatisticamente significativa do F calculado (ver p-valor), selecionando-se um dos testes sugeridos para a comparao das mdias amostrais, os quais foram o de Tukey e o de Dunnett. Exemplos 5.2.1 e 5.2.2, respectivamente.
Figura 5.4 Tela de seleo do teste para ANOVA: um critrio, Exemplo 5.2.1.
- 61 -
O F obtido altamente significativo (p < 0.0001). Pelo teste de Dunnett verifica-se que os extratos B (Coluna 2) e C (Coluna 3) quando comparados com o Controle (Coluna 1) aumentaram de maneira significativa a presso arterial sistlica dos animais submetidos ao experimento (p < 0.01), enquanto o extrato D (Coluna 4) no produziu alteraes significativas na presso dos animais investigados (ns). Para se obter os grficos desses resultados, seguir as instrues abaixo: 5.2.4 GRFICO DO EXEMPLO 5.2.1 a) Pressionar, com o mouse, em Grfico (barra da Figura 5.5) surgindo a seguinte imagem:
- 62 -
5.2.5 GRFICO DO EXEMPLO 5.2.2 b) Pressionar, com o mouse, em Grfico (barra da Figura 5.7) surgindo a seguinte imagem:
Figura 5.9 Grfico do Exemplo 5.2.2.
- 63 -
H0: o tipo de disciplina cursada no afeta os ndices de reprovao; H1: pelo menos duas mdias so diferentes; H0: o turno cursado pelo estudante no afeta os ndices de reprovao; H1: pelo menos duas mdias so diferentes; Nvel de deciso: alfa = 0.05. 5.3.2 INSTRUES a) Pressionar o mouse em ANOVA: dois critrios; b) Selecionar as colunas referentes aos tratamentos (Cincias, Matemtica, Portugus) do grid geral; c) Clicar em Executar o Teste, surgindo a Figura 5.11 naqueles casos em que h diferena estatisticamente significativa entre mdias dos tratamentos e/ou blocos p-valor, selecionando-se um dos testes sugeridos para a comparao dos valores mdios amostrais, o qual, neste exemplo, foi escolhido o t de Student (Blocos). d) Pressionar Executar, para resultados.
Figura 5.11 Tela de seleo do teste a posteriori para ANOVA: dois critrios.
- 64 -
Figura 5.12
Resultados do Exemplo 5.3.1.
O F-teste significativo entre blocos (F = 8.0453, p = 0.0411), o que no ocorreu com os tratamentos (F = 4.2754, p = 0.1023). A comparao entre as mdias dos blocos exibe diferenas significativas entre os Blocos 1 vs. 2 e 1 vs. 3, o que no foi observado entre os Blocos 2 vs. 3. Pode-se concluir, assim, que as turmas da manh referentes s trs disciplinas apresentaram propores menores de alunos reprovados, rejeitando-se, conseqentemente, a hiptese de nulidade entre os blocos (turnos), mas aceitando-se no que diz respeito aos tratamentos (disciplinas). 5.4 ANOVA: Fatorial a x b (com replicao) Algumas vezes o estudo procura esclarecer se h interaes entre os tratamentos e os blocos, devendo-se, nessa circunstncia, efetuar repeties para visualizar esse detalhe da pesquisa. Os resultados desta anlise de varincia so apresentados sob a forma de trs (3) F-testes: a) dos tratamentos; b) dos blocos; c) da interao entre tratamentos e blocos, todos com os respectivos valores de p. 5.4.1 EXEMPLO Estudo experimental procurou verificar a influncia das drogas A, B e C no peso de frangos e frangas, ou seja, procurou-se determinar se, alm da ao ponderal, haveria influncia relacionada com o sexo e, ainda, a possibilidade de interao entre peso e sexo dos animais determinada pelas drogas, com as seguintes hipteses: H0: as drogas no afetam o peso mdio das aves em crescimento: 1 = 2 = 3; H1: pelo menos duas mdias so diferentes; H0: a condio sexual no afeta o peso mdio das aves em crescimento: m = f; H1: a condio sexual afeta o peso mdio das aves em crescimento: m f; Ho: no h interao significativa entre as variveis independentes: droga e sexo; H1: h interao significativa entre as variveis independentes; Nvel de deciso: alfa = 0.05.
- 65 -
O F-teste dos tratamentos foi elevado, com p-valor < 0.0001, indicando que o efeito das drogas sobre o peso muito significativo, rejeitando-se sob esse aspecto a hiptese de nulidade e aceitando-se a hiptese alternativa. No que diz respeito varivel sexo e interao entre drogas e sexo conclui-se, pelos resultados dos respectivos valores de F, que as diferenas no so estatisticamente significativas, aceitando-se, assim, a hiptese de nulidade (ver Figura 5.14).
- 66 -
- 67 -
Observa-se pelos resultados contidos na Figura 5.16 que a interao dos Fatores a e b, variedades vs. temperaturas, respectivamente, significativa, com p-valor da ordem de 0.0146. 5.6 TESTE DE FRIEDMAN A Anlise de Varincia de Friedman um teste no-paramtrico para dados mensurados a nvel ordinal, abrangendo trs ou mais amostras e equivalendo ANOVA com dois critrios. Este procedimento recebe, tambm, a designao de Dupla Anlise de Varincia por Postos. Os dados devem ter dupla disposio: as linhas representam os indivduos e as colunas, as condies experimentais ou tratamentos. As amostras (tratamentos) devem ter o mesmo tamanho, a fim de permitir a comparao entre todos os indivduos submetidos ao teste. 5.6.1 EXEMPLO Em um experimento, cinco coelhos foram submetidos a quatro estmulos de intensidade crescente: A < B < C < D. As respostas de cada animal variaram em uma escala ordinal de 0 a 100 e os escores foram introduzidos no grid geral do programa.
Figura 5.17 Dados do Exemplo 5.6.1.
H0: a intensidade dos estmulos no influencia a magnitude de resposta dos animais submetidos ao experimento: 1 = 1 = 2 = 3; H1: a intensidade dos estmulos influencia a magnitude de resposta dos animais submetidos ao experimento: 1 1 2 3; Nvel de deciso: alfa = 0.05.
- 68 -
5.6.3 GRFICO DO EXEMPLO 5.6.1 d) Pressionar, com o mouse, em Grfico (barra da Figura 5.18):
Figura 5.19 Grfico do Exemplo 5.6.1.
- 69 -
5.7.2 INSTRUES a) Pressionar o mouse em Kruskal-Wallis; b) Selecionar as colunas referentes aos tratamentos do grid geral; c) Se a estatstica H obtiver p-valor significativo, o usurio poder optar entre dois mtodos para comparao da mdia dos postos: Dunn ou Student-NewmanKeuls. Neste exemplo foi escolhido o mtodo de Dunn, o qual mais conservador, pois retifica o Nvel Alfa conforme o nmero de amostras: Nvel Alfa/(k(k-1)), sendo k o nmero de amostras; d) Clicar em Executar, para obter resultados:
- 70 -
5.7.3 GRFICO DO EXEMPLO 5.7.1 e) Pressionar, com o mouse, em Grfico (barra da Figura 5.21):
Figura 5.22 Grfico do Exemplo 5.7.1.
O valor de H = 15.0230 altamente significativo (p = 0.0018). Rejeita-se a hiptese de nulidade e aceita-se a hiptese alternativa. Verifica-se, de outro lado, que as
- 71 -
H0: a probabilidade da resposta favorvel (1) a mesma em todas as trs etapas da investigao; H1: a probabilidade da resposta favorvel (1) difere em cada etapa do questionamento; Nvel de deciso: alfa = 0.05.
- 72 -
O teste Q de Cochran exibe um valor estatisticamente significativo (p = 0.0439), devendo-se rejeitar a hiptese de nulidade e aceitar a hiptese alternativa. As respostas favorveis diferem em cada etapa de resposta ao questionrio, no havendo, portanto, uniformidade sobre o assunto objeto da pesquisa.
- 73 -
- 74 -
CAPTULO 6
BOOTSTRAP
6.1 INTRODUO A tcnica empregada para este procedimento consiste em retirar de uma pequena amostra numerosas outras com reposio, por exemplo 500, 1000, 10000 ou mais. Cada uma delas tem a probabilidade de 1/n de ser obtida. Chama-se, tambm, de tcnica de simulao ou de reamostragem, cuja denominao na lngua inglesa bootstrap, e a traduo tem sido Tira de Bota. Esta designao foi atribuda a Bradle Efron, como tambm a afirmao de que a distribuio relativa de repetidas amostras estatsticas uma estimao da distribuio de amostragem, conforme publicao de seu artigo no The Annals of Statistics, em 1979. Para alguns autores, requerido, para este procedimento, que as reamostragens nunca sejam inferiores a 500, constituindo o bootstrap um mtodo computacional intensivo, de anlise estatstica por simulao para estimativas de intervalos de confiana, erro padro e testes de significncia, aplicveis a modelos paramtricos e no paramtricos. Os aplicativos tipo Bootstrap Tira de Bota - apresentados no BioEstat so: a) Dados Qualitativos: Dicotmicos; b) Dados Quantitativos: Contnuos; c) Intervalo de Confiana da Correlao Linear; d) Intervalo de Confiana da Mdia; e) Intervalo de Confiana da Proporo; f) Teste de hiptese: Teste t Duas Amostras Independentes; g) Teste de hiptese: ANOVA (um critrio); h) Teste de hiptese: Correlao Linear. 6.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Bootstrap, quando surgir a figura abaixo:
Figura 6.1 Menu de Bootstrap.
6.2 DADOS QUALITATIVOS: DICOTMICOS Os dados dicotmicos ou binrios so representados pelos dgitos Um (1) e Zero (0), correspondentes a SIM e NO, respectivamente.
- 75 -
CAPTULO 6 BOOTSTRAP
Exemplos: casados (1) e no casados (0), homens (1) e mulheres (0), cara (1) e coroa (0), tratados (1) e no tratados (0), tabagistas (1) e no tabagistas (0), etc. No caso de dados usados em certos jogos, constitudos de seis faces, representadas pelos algarismos 1, 2, 3, 4, 5 e 6, pode-se tambm usar o sistema dicotmico, escolhendo-se qualquer um dos valores, 5 por exemplo, que corresponder a SIM e os demais (1, 2, 3, 4 e 6), a NO. 6.2.1 EXEMPLO O lanamento de moeda onze (11) vezes resultou em seis (6) caras, representadas por um (1), e cinco (5) coroas, equivalentes a 0 (zero). Os dados esto contidos no grid geral (Figura 6.2).
Figura 6.2 Dados do Exemplo 6.2.1.
Neste exemplo, a simulao (reamostragem) ser aplicada para estimar a proporo de coroas na populao.
6.2.2 INSTRUES a) Pressionar o mouse em Dados Qualitativos: Dicotmicos; b) Selecionar a coluna Moeda, do Exemplo 6.2.1; c) Clicar em Executar o Teste, preencher as caixas de texto, com os seguintes dados: i tamanho da amostra inicial; ii tamanho da reamostra; iii valor do evento de interesse, 0 (coroa) no presente caso; iv nmero de simulaes, 10000 no presente exemplo; d) Pressionar o mouse em Executar, para resultados.
Figura 6.3 Resultados do Exemplo 6.2.1.
Os dados da reamostragem esto bem prximos do valor da proporo inicial da amostra de coroas da amostra (valor 0 do evento), 45.45% e 45.51%, respectivamente.
- 76 -
CAPTULO 6 BOOTSTRAP
6.3 DADOS QUANTITATIVOS: CONTNUOS Trata-se de um procedimento de reamostragem a partir de uma pequena amostra aleatria, de onde se retira um grande nmero de amostras do mesmo tamanho da amostra inicial, sempre com reposio, tendo por objetivo a estimao da mdia e da varincia da amostra original e das reamostragens. Os resultados alcanados das medidas de tendncia central e de variao aproximam-se dos valores paramtricos. 6.3.1 EXEMPLO De uma populao de cinco (5) mil pacientes, com faixa etria entre 20 e 40 anos, retirou-se amostra de nove (9) indivduos. Determinou-se a mdia e o desvio padro e em seguida, foram efetuadas as reamostragens cujos resultados esto contidos na Figura 6.5.
Figura 6.4 Dados do Exemplo 6.3.1.
6.3.2 INSTRUES a) Introduzir os dados no grid geral (Figura 6.4); b) Pressionar o mouse em Dados Quantitativos: Contnuos; c) Selecionar a amostra (Ex 06.03.1); d) Clicar no boto Executar Estatstica; e) Informar o Nmero de Reamostragens, neste exemplo 5000 (Figura 6.5); f) Clicar no boto Executar.
Figura 6.5 Exemplo 6.3.1.
A reamostragem apresentou Mdia Aritmtica = 32.0124 e Desvio Padro = 17.6226, sendo estes valores considerados estimaes dos valores paramtricos.
- 77 -
CAPTULO 6 BOOTSTRAP
6.4 INTERVALO DE CONFIANA DA CORRELAO LINEAR um dos testes estatsticos de largo uso, cujos dados amostrais das variveis X e Y podem ser submetidos reamostragem, para determinao do intervalo de confiana do coeficiente r (Pearson), como demonstrado em seguida. 6.4.1 EXEMPLO Efetuou-se levantamento de 30 recm-nascidos de ambos os sexos, no sentido de verificar a associao entre peso (X) e comprimento (Y) dessas crianas. A amostra foi randmica, cujos dados esto contidos no grid geral (Figura 6.6).
Figura 6.6 Dados parciais do Exemplo 6.4.1.
6.4.2 INSTRUES a) Pressionar o mouse em Intervalo de Confiana da Correlao Linear; b) Selecionar as colunas Peso (X) e Comprimento (Y); c) Clicar em Executar o Teste. Sero exibidas caixas de texto, as quais devem ser preenchidas com o nmero de simulaes - 12000, no caso - e o Intervalo de Confiana desejado (95%, neste exemplo). Pressionar, a seguir, em Executar, para resultados.
Figura 6.7 Resultados do Exemplo 6.4.1.
O IC (95%), aps 12000 simulaes, est compreendido entre 0.12 a 0.73, tambm mostrado graficamente na figura inferior em linha de cor cinza, assinalando-se, ainda, o trao vertical escuro correspondente ao valor de r da simulao, igual a 0.4545, includo, como seria de esperar, no respectivo intervalo, prximo do valor de r da amostra inicialmente coletada (0.4542).
- 78 -
CAPTULO 6 BOOTSTRAP
6.5 INTERVALO DE CONFIANA DA MDIA De dados amostrais randmicos podem-se obter a mdia das reamostragens e seu respectivo intervalo de confiana baseado em percentis. 6.5.1 EXEMPLO De amostra formada por dez (10) insetos, mediu-se o peso de cada indivduo em gramas. Os resultados foram estes:
Figura 6.8 Dados do Exemplo 6.5.1.
6.5.2 INSTRUES a) Pressionar o mouse em Intervalo de Confiana da Mdia; b) Selecionar a coluna do grid geral correspondente aos valores amostrais e clicar em Executar o Teste; c) Preencher as caixas de texto com as informaes sobre o nmero de simulaes e o Intervalo de Confiana desejado; d) Pressionar em Executar, para resultados.
Figura 6.9 Resultados do Exemplo 6.5.1.
Foram efetuadas 10000 simulaes, ou seja, a retirada de dez mil amostras da amostra inicial, com reposio, obtendo-se os seguintes valores da Mdia e do Intervalo de Confiana de 95%: Mdia = 3.050 e IC (95%): 2.640 a 3.407 (em termos de percentis).
- 79 -
CAPTULO 6 BOOTSTRAP
Para efeito de comparao, quando se efetua a estimao de parmetros somente com base na mdia e no desvio padro da amostra original, obtm-se: Mdia = 3.05 IC (95%): 2.622 a 3.478 (em termos de desvio padro) Obs.: pode-se repetir n vezes o mesmo procedimento, com ou sem alteraes do nmero de Simulaes e do Intervalo de Confiana, clicando-se em Executar, para resultados.
6.6 INTERVALO DE CONFIANA DA PROPORO O procedimento semelhante ao utilizado para mdia, como ser visto em seguida, cujos Intervalos de Confiana esto baseados nos percentis. 6.6.1 EXEMPLO Em sondagem eleitoral, efetuada com dois meses de antecedncia do pleito, obteve-se amostra de tamanho 200 e a seguinte proporo para o candidato AZ: 0.36 (36%), correspondendo a 72 eventos favorveis em 200 eleitores. Efetuar 15000 simulaes, para calcular a proporo e o Intervalo de Confiana de 99%. 6.6.2 INSTRUES a) Pressionar o mouse em Intervalo de Confiana da Proporo; b) Preencher as caixas de texto com as informaes sobre o nmero de simulaes, o Intervalo de Confiana desejado e os valores originais do tamanho da amostra e da respectiva proporo; c) Pressionar em Executar, para resultados.
Figura 6.10 Resultados do Exemplo 6.6.1.
- 80 -
CAPTULO 6 BOOTSTRAP
Foram efetuadas 15000 simulaes, ou seja, a retirada de quinze mil amostras com reposio da amostra original, obtendo-se os seguintes valores: Proporo = 0.363; IC (99%): 0.275 a 0.445 (em termos de percentis). Para efeito de comparao, quando se efetua a estimao de parmetros somente com base na amostra inicial e no nmero de eventos favorveis, obtm-se: Proporo amostral = 0.36; IC (99%): 0.272 a 0.448 (em termos de desvio padro); Obs.: pode-se repetir n vezes o mesmo procedimento, com ou sem alteraes do Nmero de Simulaes e do Intervalo de Confiana, clicando-se em Executar, para resultados.
6.7 TESTE DE HIPTESE: Teste t Duas Amostras Independentes Realiza-se a reamostragem de duas amostras independentes teste t , as quais podem ser do mesmo tamanho ou desiguais. 6.7.1 EXEMPLO Um investigador admite que a estatura dos homens de duas populaes de pases da Europa Ocidental so diferentes. Foram mensurados 36 indivduos do pas A e 33 do B. Os dados esto inseridos no grid geral (Figura 6.11).
Figura 6.11 Dados parciais do Exemplo 6.7.1
H0: no h diferena entre a estatura mdia dos homens nos pases A e B: 1 = 2; H1: h diferena entre a estatura mdia dos homens nos pases A e B: 1 2; Nvel de deciso: alfa = 0.05. 6.7.2 INSTRUES a) Pressionar o mouse em Teste de hiptese: teste t - Duas Amostras Independentes; b) Selecionar as colunas referentes aos pases A e B, do Exemplo 6.7.1; c) Informar, em seguida, o nmero de simulaes desejadas, 1000 neste caso; d) Clicar em Executar, para resultados.
- 81 -
CAPTULO 6 BOOTSTRAP
A Mdia geral prior e o Desvio prior so estatsticas obtidas das amostras, sem simulao. O p-valor da simulao mostrou resultado altamente significativo (0.0010), rejeitando-se, portanto, a hiptese de nulidade, podendo-se admitir que a estatura mdia dos homens desses pases diferente.
6.8 TESTE DE HIPTESE: ANOVA (um critrio) Para obter a reamostragem de dados para fins de anlise de varincia, realiza-se o seguinte procedimento: retirar trs ou mais amostras, dos mesmos tamanhos ou desiguais, cujos critrios de comparao so os tratamentos. Procede-se, ento, a simulao conforme o exemplo indicado a seguir. 6.8.1 EXEMPLO Foram coletadas sementes das espcies A, B, C e D, cujo peso medido em gramas de cada unidade e as respectivas espcies so mostrados na tabela seguinte:
Figura 6.13 Dados do Exemplo 6.8.1.
H0: os pesos das sementes obtidas das espcies em questo no apresentam diferenas significativas: 1 = 2 = 3 = 4; H1: os pesos das sementes pelo menos de duas das espcies obtidas apresentam diferenas significativas: i j; Nvel de deciso: alfa = 0.01.
- 82 -
CAPTULO 6 BOOTSTRAP
6.8.2 INSTRUES a) Pressionar o mouse em Teste de hiptese: ANOVA (um critrio); b) Selecionar as colunas referentes aos tratamentos (Espcies A, B, C e D) do Exemplo 6.8.1; c) Clicar em Executar o Teste e informar o Nmero de Tratamentos includos no teste (quatro tratamentos). Preencher, em seguida, o Nmero de Simulaes desejadas, 10000 neste exemplo, e pressionar em Executar, para resultados.
Figura 6.14 Resultados do Exemplo 6.8.1.
O p-valor da simulao mostrou resultado altamente significativo (0.0001), rejeitandose, portanto, a hiptese de nulidade, podendo-se admitir que, pelo menos, o peso mdio das sementes de duas espcies das amostras coletadas so diferentes.
6.9 TESTE DE HIPTESE: CORRELAO LINEAR Pelo procedimento de reamostragem, podemos obter os valores de r (Pearson) e o respectivo p-valor da Correlao Linear. 6.9.1 EXEMPLO Os dados contidos na Figura 6.15 foram submetidos ao teste de reamostragem para obteno de r simulado e do respectivo p-valor. H0: no h correlao entre as variveis X e Y: r = 0; H1: h correlao entre as variveis X e Y: r 0; Nvel de deciso: alfa = 0.01.
Figura 6.15 Dados do Exemplo 6.9.1.
- 83 -
CAPTULO 6 BOOTSTRAP
6.9.2 INSTRUES a) Pressionar o mouse em Teste de hiptese: Correlao Linear; b) Selecionar as colunas do grid geral correspondentes aos valores amostrais X e Y (Exemplo 6.9.1) e clicar em Executar o Teste; c) Preencher as caixas de texto com o nmero de simulaes desejado, 1000 no presente exemplo; d) Clicar em Executar, para resultados.
Figura 6.16 Resultados do Exemplo 6.9.1.
O p-valor obtido igual a 0.0040, sendo estatisticamente muito significativo. Os valores de r, prior e simulado, foram 0.8728 e 0.5036, respectivamente.
- 84 -
CAPTULO 7
CORRELAO
7.1 INTRODUO A Anlise de Correlao proporciona um meio de se verificar o grau de associao entre duas ou mais variveis. Os testes mais utilizados para essa anlise so: a) Testes paramtricos: i Correlao linear de Pearson; ii Matriz de Correlao; iii Correlao parcial; iv Correlao linear quando o parmetro diferente de zero (r < 0 ou r > 0); b) Testes no-paramtricos: i Contingncia C; ii Concordncia de Kendall; iii Correlao de Kendall; iv Coeficiente Phi; v Correlao de Spearman. 7.1.1 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Correlao, conforme demonstra a Figura 7.1:
Figura 7.1 Menu de Correlao.
7.2 CORRELAO LINEAR DE PEARSON um teste de largo emprego em bioestatstica, onde os valores das variveis X e Y so mensurados a nvel intervalar ou de razes. O coeficiente de Pearson r pode variar de 1 a +1, e quanto mais prximos desses valores, mais forte a associao das variveis em exame. O escore zero desse coeficiente indica ausncia de correlao. 7.2.1 EXEMPLO Efetuou-se levantamento em adolescentes no sentido de verificar a associao de peso e estatura desses indivduos. A amostra foi randmica e os dados esto no grid geral (ver Figura 7.2).
- 85 -
CAPTULO 7 CORRELAO
H0: no h associao entre peso e estatura de adolescentes: r = 0; H1: h correlao entre as duas variveis: r 0; Nvel de deciso: alfa = 0.05.
Figura 7.2 Dados do Exemplo 7.2.1.
7.2.2 INSTRUES a) Pressionar o mouse em Coef. de Correlao de Pearson; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste para obter resultados.
Figura 7.3 Resultados do Exemplo 7.2.1.
Os resultados mostram forte correlao positiva entre Peso e Estatura de adolescentes (r = 0.9624 e p = 0.0021), rejeitando-se, assim, a hiptese de nulidade e aceitando-se a alternativa. Em outras palavras, medida que aumenta uma das variveis, a outra cresce de valor, no havendo, entretanto, relao de dependncia de X em relao a Y ou de Y sobre X. 7.3 MATRIZ DE CORRELAO Pode-se calcular diversos valores de r com as respectivas probabilidades e, ao mesmo tempo, obter a matriz dos valores da correlao. 7.3.1 EXEMPLO Os dados contidos no grid geral, apresentados na Figura 7.4, correspondem a valores de quatro (4) amostras, as quais devem apresentar o mesmo tamanho. A Figura 7.5 indica os resultados obtidos e a matriz de correlao. 7.3.2 INSTRUES a) Pressionar o mouse em Matriz de Correlao; b) Selecionar as colunas referentes s variveis do grid geral;
- 86 -
CAPTULO 7 CORRELAO
c) Clicar em Executar o Teste para obter resultados
Figura 7.4 Dados do Exemplo 7.3.1.
Figura 7.5 Resultados do Exemplo 7.3.1. Na parte inferior est representada a matriz de correlao.
As variveis das colunas um (1) e quatro (4) apresentam Coeficiente de Pearson igual a 0.9609, com p = 0.0092. As demais correlaes no so estatisticamente significativas. A matriz est representada na parte inferior da Figura 7.5. 7.3.3 GRFICO DO EXEMPLO 7.3.1 Pressionar em Grfico na linha superior da Figura 7.5:
Figura 7.6 Grfico do Exemplo 7.3.1, Colunas 1 e 4.
- 87 -
CAPTULO 7 CORRELAO
7.4 CORRELAO PARCIAL No estudo da correlao linear possvel estender o conceito medindo-se a associao entre duas variveis e, ao mesmo tempo, controlando o efeito de uma terceira, a varivel Z. Neste caso, chama-se o procedimento de Correlao Parcial. 7.4.1 EXEMPLO O exemplo que vai ser mostrado o da influncia da renda familiar varivel Z na correlao entre tempo de estudo dos pais varivel X e tempo de estudo dos filhos varivel Y. O programa permite que se escolha a varivel Z, a qual pode ser qualquer uma das trs colunas preenchidas com os escores. No exemplo, a varivel a ser fixada est na coluna trs (3) do grid. Alm disso, os resultados da Correlao Linear de Pearson das variveis X e Y so apresentados a ttulo comparativo. H0: a renda familiar (varivel Z) no influencia a correlao tempo de estudo dos pais (varivel X) e o tempo de escolaridade dos filhos (varivel Y); H1: a renda familiar (varivel Z) influencia a correlao tempo de estudo dos pais (varivel X) e o tempo de escolaridade dos filhos (varivel Y); Nvel de deciso: alfa = 0.05.
Figura 7.7 Dados do Exemplo 7.4.1.
7.4.2 INSTRUES a) Pressionar o mouse em Coef. de Correlao Parcial; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, surgindo uma tela para a escolha da varivel Z; d) Pressionar Executar, para resultados.
Figura 7.8 Resultados do Exemplo 7.4.1.
- 88 -
CAPTULO 7 CORRELAO
H uma associao entre a escolaridade dos pais e dos filhos (r XY= 0.8295, p = 0.021), a qual deixa de ser significativa ao se introduzir a varivel Z (r XY.Z = 0.2719, p = 0.6022) 7.5 CORRELAO LINEAR: < 0 ou > 0 Algumas vezes h interesse do pesquisador no estudo da associao entre duas variveis, mas o parmetro de comparao passa a ser diferente de zero, como se exemplifica a seguir. 7.5.1 EXEMPLO Em estudo gentico (hipottico) verificou-se que o parmetro () de associao entre as variveis X e Y igual a 0.50. Tomou-se amostra aleatria de seis (6) indivduos, cujas variveis em questo foram mensuradas, a fim de verificar se estariam de acordo com a distribuio terica formulada. H0: = 0.50; H1: 0.50; Nvel de deciso: alfa = 0.05.
Figura 7.9 Dados do Exemplo 7.5.1.
7.5.2 INSTRUES a) Pressionar o mouse em Coef. de Correlao: < 0 ou > 0; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, surgindo a Figura 7.10, a qual deve ser preenchida com o valor de assumido da populao, 0.5 no caso;
Figura 7.10 Coef. de correlao da populao (). (Exemplo 7.5.1).
- 89 -
CAPTULO 7 CORRELAO
H diferena estatisticamente significativa entre o coeficiente observado (- 0.5456) e o parmetro (0.50), sendo o p-valor igual a 0.044. Rejeita-se, portanto, a hiptese de nulidade. 7.6 COEFICIENTE DE CONTINGNCIA C Este Coeficiente indicado para determinar a magnitude de associaes de variveis mensuradas a nvel ordinal, dispostas em tabelas de contingncia n x n (n 2). 7.6.1 EXEMPLO Um pesquisador deseja verificar se h associao entre o grau de escolaridade (X) e o nvel salarial (Y). Os dados coletados de cada amostra correspondem ao nmero de indivduos e foram inseridos no grid geral da seguinte forma:
Figura 7.12 Dados do Exemplo 7.6.1.
a)
Colunas 1, 2 e 3 referentes aos nveis de escolaridade: fundamental, mdio e superior, respectivamente; b) Linhas 1, 2 e 3: relativas aos nveis salariais: um a dois, trs a cinco e mais de cinco salrios mnimos, respectivamente; c) Cada casela do grid registra o nmero de indivduos relativos escolaridade e ao respectivo nvel salarial. H0: no h associao entre nveis de escolaridade e salarial: Coeficiente C = 0; H1: h correlao entre as duas variveis, quanto maior a escolaridade dos indivduos, maior o salrio recebido: Coeficiente C 0; Nvel de deciso: alfa = 0.05. 7.6.2 INSTRUES a) Pressionar o mouse em Coef. de Contingncia C; b) Selecionar as colunas referentes aos tratamentos do grid geral; c) Clicar em Executar o Teste, para resultados (Figura 7.13).
- 90 -
CAPTULO 7 CORRELAO
H forte associao entre o grau de escolaridade e o nvel salarial: Coef. C = 0.3977 e p < 0001, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. 7.7 COEFICIENTE DE CONCORDNCIA DE KENDALL: W Este coeficiente W testa a associao entre vrios (k) conjuntos de postos dos mesmos indivduos (n), cujas variveis so mensuradas a nvel ordinal. 7.7.1 EXEMPLO Testar o grau de correlao entre o nvel de desempenho de trs (3) mdicos residentes e as respectivas avaliaes efetuadas por trs (3) supervisores.
Figura 7.14 Dados do Exemplo 7.7.1.
H0: no h concordncia entre a avaliao dos supervisores em relao ao desempenho dos mdicos residentes: Coef. de Kendall W = 0; H1: h concordncia entre a avaliao dos supervisores em relao ao desempenho dos mdicos residentes: Coef. de Kendall W 0; Nvel de deciso: alfa = 0.05. 7.7.2 INSTRUES a) Pressionar o mouse em Coef. de Concordncia de Kendall; b) Selecionar as colunas (postos) referentes s variveis do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 7.15 Resultados do Exemplo 7.7.1.
- 91 -
CAPTULO 7 CORRELAO
O resultado no estatisticamente significativo (W = 0.7778 e p = 0.097), no tendo havido, portanto, concordncia (associao) entre os supervisores. Aceita-se, assim, a hiptese de nulidade. 7.8 COEFICIENTE DE CORRELAO DE KENDALL: Mede a associao entre duas variveis mensuradas a nvel ordinal, ou seja, por postos. 7.8.1 EXEMPLO Dois mdicos neonatalogistas efetuaram a avaliao de seis recm-nascidos pelos escores de Apgar. Os valores foram inseridos no grid geral. H0: no h associao entre a avaliao dos neonatalogistas em relao aos escores de Apgar dos recm-nascidos: Coef. de Correlao de Kendall = 0; H1: h associao entre a avaliao dos neonatalogistas em relao aos escores de Apgar dos recm-nascidos: Coef. de Correlao de Kendall 0; Nvel de deciso: alfa = 0.05.
Figura 7.16 Dados do Exemplo 7.8.1.
7.8.2 INSTRUES a) Pressionar o mouse em Coeficiente de Correlao de Kendall; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 7.17 Resultados do Exemplo 7.8.1.
- 92 -
CAPTULO 7 CORRELAO
Os resultados revelam um Coeficiente de Correlao de Kendall (0.7877) significativo (p = 0.0132) tendo havido associao (concordncia) dos mdicos especialistas em relao aos escores de Apgar dos recm-nascidos. Rejeita-se a hiptese de nulidade, aceitando-se a alternativa. 7.9 COEFICIENTE PHI: r Este teste aplicado para verificar a associao de variveis mensuradas a nvel nominal e que se apresentam de modo dicotmico em tabela de contingncia 2 x 2. 7.9.1 EXEMPLO Foi efetuado levantamento em uma universidade para verificar se h associao entre os sexos dos estudantes e os cursos de medicina e biologia. Nesse exemplo, ambas as variveis apresentam-se dicotmicas e so mensuradas a nvel nominal: sexo masculino e feminino de um lado e, de outro, os cursos de medicina e biologia, com os seguintes escores: a) estudantes do sexo masculino cursando biologia: 40; b) estudantes do sexo masculino cursando medicina: 48; c) estudantes do sexo feminino cursando biologia: 55; d) estudantes do sexo feminino cursando medicina: 47; H0: no existe associao entre os sexos dos estudantes e os cursos de medicina e de biologia: r = 0; H1: existe associao entre os sexos dos estudantes e os cursos de medicina e de biologia: r 0; Nvel de deciso: alfa = 0.05. 7.9.2 INSTRUES a) Pressionar o mouse em Coeficiente Phi; b) Preencher o grid conforme exemplo abaixo; c) Clicar em Executar, para resultados.
Figura 7.18 Coeficiente Phi. (Exemplo 7.9.1).
Entrada de Dados do Coeficiente Phi. A = estudantes masculinos que cursam biologia; B = estudantes masculinos que cursam medicina; C = estudantes femininos que cursam biologia; D = estudantes femininos que cursam medicina.
- 93 -
CAPTULO 7 CORRELAO
Pelos resultados verifica-se que no h diferena estatisticamente significativa entre sexos e escolha dos cursos em questo (p = 0.3085). Aceita-se, portanto, a hiptese de nulidade.
7.10 COEFICIENTE DE CORRELAO DE SPEARMAN: rs uma prova no-paramtrica com a finalidade de determinar o grau de associao entre duas variveis mensuradas, pelo menos, a nvel ordinal e dispostas em postos ordenados em duas sries: X e Y. 7.10.1 EXEMPLO Os mesmos dados relativos Correlao de Kendall sobre os escores de Apgar (ver Figura 7.16). H0: no h correlao entre a avaliao dos neonatalogistas em relao aos escores de Apgar dos recm-nascidos: rs = 0; H1: h correlao entre a avaliao dos neonatalogistas em relao aos escores de Apgar dos recm-nascidos: rs 0; Nvel de deciso: alfa = 0.05. 7.10.2 INSTRUES a) Pressionar o mouse em Coef. de Correlao de Spearman; b) Selecionar as colunas referentes s variveis do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 7.19 Resultados do Exemplo 7.10.1.
Os resultados mostram correlao entre as avaliaes efetuadas pelos dois mdicos em 6 recm-nascidos, sendo o teste estatisticamente significativo (p = 0.0198), confirmando aqueles obtidos pelo teste de Correlao de Kendall.
- 94 -
CAPTULO 8
DISTRIBUIO DE PROBABILIDADES
8.1 INTRODUO Quando o procedimento para a coleta de dados, conseqentemente das variveis investigadas, randmico, assumindo cada varivel um certo valor e uma determinada probabilidade, diz-se, ento, que so variveis aleatrias. O programa apresenta as seguintes distribuies: Distribuies discretas: i Binomial; ii Hipergeomtrica; iii Poisson. b) Distribuies contnuas: i Exponencial; ii Normal. c) Probabilidade condicional: i Crivo (screening test); ii Curva ROC; iii Ponto de Corte; iv Regra de Bayes; v Sensibilidade/Especificidade. d) Outras distribuies: i Distribuio F; ii Distribuio do Qui-quadrado; iii Distribuio t de Student; iv Distribuio Z. 8.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Distribuio de Probabilidades.
Figura 8.1 Menu de Distribuio de Probabilidades.
a)
8.2 DISTRIBUIO BINOMIAL Esta distribuio caracteriza-se quando: a) o experimento consiste de n provas idnticas, cada uma apresentando apenas dois resultados: sucesso e insucesso; b) a probabilidade do sucesso igual a p, e a do insucesso, a q, sendo q = 1 p;
- 95 -
c)
Observa-se, alm da mdia (), do desvio padro () e dos valores de p e q, a probabilidade de se obter exatamente cinco (5) linfcitos em 20 clulas leucocitrias (0.1161), a da obteno de cinco (5) ou menos linfcitos (k 5 = 0.2171) e, ainda, a chance de mais de cinco (5) clulas linfocitrias (0.7829). A soma desses valores igual unidade (0.2171+ 0.7829 = 1). A frao 0.1161 est includa em 0.2171 (igual ou menor que cinco (5) linfcitos).
8.3 DISTRIBUIO HIPERGEOMTRICA Em determinadas ocasies as distribuies de probabilidades de variveis discretas tm as mesmas caractersticas das distribuies binomiais, mas o tamanho da amostra relativamente grande em relao ao tamanho do universo. Desse modo, a retirada de uma unidade sem reposio altera acentuadamente a probabilidade dos demais constituintes da populao e, nesses casos, a distribuio passa a ser hipergeomtrica. O critrio adotado para considerar esse modelo o valor do quociente n/N, o qual deve ser 0.05. 8.3.1 EXEMPLO Uma caixa contm quinze (15) vidros (populao) de comprimidos de vitamina B1 e em cada caixa observou-se que trs (3) vidros apresentavam dosagem da vitamina
- 96 -
A probabilidade de se encontrar na amostra dois (2) vidros com subdosagem de vitamina B1 0.2198, a de 2 vidros ou menos 0.9780 e a de mais de dois vidros 0.0220. A soma dessas probabilidades igual unidade: 0.9780 + 0.0220 = 1 (o valor 0.2198 est includo em 0.9780).
8.4 DISTRIBUIO DE POISSON Trata-se de um modelo de distribuio de probabilidade discreta semelhante binomial, com as seguintes diferenas: a) A probabilidade do evento de interesse p se apresenta como ocorrncia rara e relacionada no tempo e no espao. b) O valor de q (1 - p) no considerado nos clculos. 8.4.1 EXEMPLO A hipersensibilidade penicilina de 0.0015 em populaes humanas. Se em determinada localidade e num perodo de um ano fossem testadas 4000 pessoas residentes, qual seria a probabilidade de trs (3) indivduos apresentarem a mencionada reao ao antibitico? Tratando-se de evento raro (0.0015) e relacionado no tempo e no espao, indica-se a distribuio de Poisson para o clculo da probabilidade dessa distribuio.
- 97 -
A probabilidade de ocorrncia de trs (3) indivduos com hipersensibilidade penicilina 0.0892; de trs (3) ou menos, 0.1512, e para mais de 3 pessoas, 0.8488. A soma dessas probabilidades igual unidade: 0.1512 + 0.8488 = 1. No escore 0.1512 est includo o p-valor de (x), igual a 0.0892. 8.5 DISTRIBUIO EXPONENCIAL A distribuio exponencial um modelo para variveis contnuas referentes a intervalos de tempo transcorrido entre eventos raros e discretos, como ocorre na distribuio de Poisson. O interesse, no entanto, o intervalo temporal, o qual apresenta distribuio contnua e exponencial. 8.5.1 EXEMPLO Em uma instituio de abrigo aos idosos, a admisso em 12 meses de 25 pessoas por 1000 habitantes, com valor lambda (p) = 25/1000 = 0.025. Calcular a probabilidade do recebimento de 25 idosos em oito (8) meses. 8.5.2 INSTRUES a) Clicar o mouse em Exponencial; b) Preencher as caixas de texto com os dados; c) Clicar em Executar, para obter os resultados.
- 98 -
A probabilidade do evento ocorrer (25 admisses) em oito (8) meses inferior a 20% (0.1813).
8.6 DISTRIBUIO NORMAL um dos mais importantes modelos de distribuio de probabilidades em estatstica, sobretudo nas reas das cincias biolgicas e da sade. A curva desta distribuio apresenta as seguintes caractersticas: a) simtrica; b) em forma de sino; c) assinttica: as extremidades se aproximam mas no tocam a linha das abscissas; d) dois pontos de inflexo situados a igual distncia da mdia, um de cada lado desse parmetro: 1. Os escores brutos so transformados em escores padronizados (Z), e nessa padronizao a mdia igual a zero (0) e o desvio padro igual a um (1). Aps o clculo do valor de Z, o programa determina as probabilidades da distribuio. A rea sob a curva normal apresenta estas propores, por exemplo: a) 1.645 = 90% da rea, sendo 45% de cada lado da curva; b) 1.96 = 95% da rea, sendo 47.5% de cada lado da curva; c) 2.33 = 98% da rea, sendo 49% de cada lado da curva; d) 2.58 = 99% da rea, sendo 49.5% de cada lado da curva.
- 99 -
A Figura acima expressa os valores de Z, as respectivas probabilidades (p) e os escores inferiores a X1 (17.97), entre X1 e X2 (183.51) e superiores a X2 (98.52). A questo argida, portanto, corresponde a 184 crianas. As casas decimais so importantes porque a curva normal representa dados contnuos. A probabilidade e a respectiva proporo de recm-nascidos pesando entre 3150g e 3300g, conforme argido no item b, est representada na prxima figura.
- 100 -
A Figura 8.7 apresenta os valores de Z, as respectivas probabilidades (p) e os escores inferiores a X1 (176.37), entre X1 e X2 (67.53) e superiores a X2 (56.10). A resposta pergunta formulada, assim, corresponde a 68 crianas.
Figura 8.8 Distribuio Normal. (Exemplo 8.6.1 - c)
A Figura 8.8 exibe os valores de Z, as respectivas probabilidades (p) e os escores inferiores a X1 (7.50), entre X1 e X2 (285) e superiores a X2 (7.50). A questo formulada (item c), dessa maneira, compreende 285 crianas. Registre-se que os escores escolhidos 2659 e 3541 correspondem a valores de Z de 1.96 e + 1.96, cujas probabilidades de distribuio situam-se nas faixas de 0.025 para cada lado da curva, aqum e alm dos escores X1 e X2, respectivamente, totalizando 0.025 + 0.025
- 101 -
Definies
- 102 -
8.8 CURVA ROC A Curva ROC (Receiver Operanting Characteristic Curve) um mtodo estatstico e grfico para determinar o melhor ponto de corte (cutoff point) de um teste diagnstico. Representa-se no eixo das ordenadas (Y) a sensibilidade e no eixo das abscissas a proporo de falsos positivos, ou seja, 1-especificidade. O ponto mais elevado da curva, correspondente ao ngulo superior esquerdo do grfico, representa 100% de sensibilidade e 0% de falsos positivos (d = 0), sendo, nesse caso, o valor ideal de uma prova diagnstica, chamado padro ouro. Podemos testar at vrias curvas por este mtodo, para avaliar o ponto de corte de cada uma, medindo-se, para isto, as respectivas reas e os valores de d. 8.8.1 EXEMPLO Uma investigao efetuada para determinar qual o melhor teste, A ou B, para enfermidade neoplsica, mostrou os resultados abaixo, em exames efetuados em 45 pessoas com a enfermidade e em 45 indivduos considerados normais:
Figura 8.11 Dados do Exemplo 8.8.1.
- 103 -
Figura 8.14 A linha diagonal representa a metade da rea. Quanto mais prximas estiverem as curvas dessa linha, menor o desempenho do teste.
A linha 'd' indica o teste de melhor desempenho, mais prximo do padro ouro, ou seja: Sensibilidade = 1 e Especificidade = 0. O melhor resultado foi obtido com o teste B, com a distncia d = 0.32.
- 104 -
Figura 8.16 Curva ROC, Ponto de Corte, Sensibilidade, Especificidade e a menor Distncia (d) ao Padro Ouro, Exemplo 8.9.1.
- 105 -
8.10 REGRA DE BAYES A probabilidade condicional para dois ou mais eventos pode ser obtida pela generalizao da regra de Bayes. O programa admite at dez eventos. 8.10.1 EXEMPLO Tendo em vista os dados populacionais e as informaes clnicas, obtiveram-se os seguintes escores relativos ao sintoma dispnia (A): a) Dados da populao (prevalncia): b) Dados clnicos: B1 = Asma brnquica: Pr (B1) = 0.15 Pr (A|B1) = 0.26 Pr (A|B2) = 0.75 B2 = Enfisema pulmonar: Pr (B2) = 0.01 B3 = Cncer do pulmo: Pr (B3) = 0.009 Pr (A|B3) = 0.43 Dada a ocorrncia de dispnia, calcular as respectivas probabilidades dessas afeces. 8.10.2 INSTRUES a) Apontar o mouse em Probabilidade Condicional e clicar em Regra de Bayes; b) Preencher as caixas de texto da Figura 8.18;
Figura 8.18 Regra de Bayes (Exemplo 8.10.1).
c) Clicar em Executar, preenchendo em seguida o grid especfico com os dados; d) Dirigir o mouse para o menu superior e clicar em Executar, para resultados.
Figura 8.19 Exemplo 8.10.1.
- 106 -
Com os valores da sensibilidade, da especificidade e da prevalncia (prior), obtm-se todos os indicadores quantificados na rea de resultados da Figura 8.20. 8.12 DISTRIBUIO F A distribuio F, como as demais que se seguem, facilita o clculo do p-valor a partir do valor de F obtido e de acordo com os graus de liberdade do numerador e do denominador. Trata-se, assim, de um procedimento didtico, de vez que o grfico aproximado da curva respectiva da distribuio mostrado com destaque para a rea de rejeio, o que torna mais fcil a compreenso de um teste F pelo usurio. 8.12.1 EXEMPLO Considerando o valor de F = 3.26, obtido em um teste de anlise de varincia baseada em um critrio, com quatro (4) e quinze (15) graus de liberdade do numerador e do denominador, respectivamente, determinar a curva e p-valor para esses dados. 8.12.2 INSTRUES a) Apontar o mouse em Outras distribuies; b) Clicar o mouse em Distribuio F; c) Preencher as caixas de texto com os dados do exemplo e clicar em Executar.
- 107 -
8.13 DISTRIBUIO DO QUI-QUADRADO A distribuio do Qui-Quadrado, com base no valor de 2 obtido e os graus de liberdade, calcula o p-valor e mostra, aproximadamente, a respectiva curva. 8.13.1 EXEMPLO Considerando o valor de 2 = 3.841, obtido em uma tabela de contingncia 2 x 2, portanto, com um (1) grau de liberdade, calcular o respectivo p-valor. 8.13.2 INSTRUES a) Apontar o mouse em e Outras distribuies; b) Clicar o mouse em Distribuio do Qui-Quadrado; c) Preencher as caixas de texto com os dados do exemplo e clicar em Executar.
Figura 8.22 O p-valor igual a 0.05 e corresponde ao segmento escuro direita da curva.
- 108 -
O resultado unilateral, como era esperado, igual a 0.005. Se fosse desejado o valor bilateral, bastaria pressionar o boto Bilateral, o qual, com esses dados, o p-valor corresponderia a 0.005 de cada lado da curva, totalizando 0.01 (0.005 + 0.005).
- 109 -
- 110 -
CAPTULO 9
UMA AMOSTRA
9.1 INTRODUO Os testes de inferncia estatstica para uma s amostra envolvem os dados amostrais e os parmetros da populao investigada. Algumas vezes a comparao dos valores numricos da amostra efetuada com distribuies tericas esperadas, recebendo a denominao, nesses casos, de testes de aderncia. Estes testes classificam-se em: a) Testes paramtricos: i Teste t: dados amostrais; ii Teste t: resumo amostral; iii Teste Z: dados amostrais; iv Teste Z: resumo amostral. b) Testes no-paramtricos: i Teste Binomial; ii Teste de Iteraes (Runs test); iii Teste G; iv Teste de Kolmogorov-Smirnov; v Teste de Lilliefors; vi Teste do Qui-Quadrado: propores esperadas iguais; vii Teste do Qui-Quadrado: propores esperadas desiguais; viii Teste de Poisson. 9.1.1 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Uma Amostra, conforme demonstra a Figura 9.1:
Figura 9.1 Menu dos aplicativos para uma amostra.
9.2 TESTE t DE STUDENT: DADOS AMOSTRAIS Prova paramtrica cuja finalidade a de comparar a mdia amostral com a mdia da populao, sendo necessrio assumir a mdia paramtrica do universo em questo, ou
- 111 -
9.2.2 INSTRUES a) Pressionar o mouse em Teste: Dados amostrais; b) Selecionar a coluna referente amostra do grid geral; c) Clicar em Executar o Teste surgindo a Figura 9.3 e preencher ento a caixa de texto com a mdia da populao.
Figura 9.3 Mdia da populao.
d) Clicar em Executar para obter os resultados. Pelo exame dos resultados (Figura 9.4), conclui-se que a diferena altamente significativa, eis que o p-valor inferior ao nvel alfa previamente estabelecido. Rejeita-se a hiptese de nulidade e aceita-se a alternativa, ou seja, o nvel de fosfatase srica em crianas alterado - aumentado - pela infeco malrica.
- 112 -
9.3 TESTE t DE STUDENT: RESUMO AMOSTRAL uma verso do Teste t de Student quando dispomos do tamanho, varincia e mdia amostrais e, ainda, o valor da mdia paramtrica. 9.3.1 EXEMPLO Dados coletados da temperatura (graus Centgrados) de 27 caranguejos: a) Tamanho da amostra = 27; b) Mdia da temperatura dos caranguejos = 24.90C; c) Varincia da amostra = 0.38; d) Mdia da temperatura do Meio Ambiente (parmetro) = 25.160C. H0: = 0; H1: 0; Nvel de deciso: = 0.05. 9.3.2 INSTRUES a) Pressionar o mouse em Teste t: Resumo Amostral; b) Introduzir os dados no grid Resumo Amostral (Figura 9.5); c) Clicar em Executar, para obter os resultados.
Figura 9.5 Entrada de dados do Exemplo 9.3.1.
- 113 -
A diferena estatisticamente significativa (p < 0.05). A temperatura dos animais foi inferior observada no meio ambiente.
9.4 TESTE Z: DADOS AMOSTRAIS Prova paramtrica semelhante anterior, devendo o procedimento ser escolhido quando a mdia e a varincia da populao so conhecidas. 9.4.1 EXEMPLO Em um lago criatrio foram pesados 50 peixes de determinada espcie, cujos escores esto inseridos no grid geral. Em estudos efetuados no hbitat natural, o peso mdio dos animais dessa espcie de 21600g e o desvio padro igual a 7338g.
Figura 9.7 Viso parcial dos dados do Exemplo 9.4.1.
H0: os animais do lago criatrio tm peso igual aos do hbitat natural: 1 = 0; H1: os animais do lago criatrio tm peso superior aos do hbitat natural: 1 > 0; Nvel de deciso: alfa = 0.05, unilateral. 9.4.2 INSTRUES a) Pressionar o mouse em Teste Z: Dados amostrais; b) Selecionar a coluna referente amostra do grid geral; c) Clicar em Executar o Teste surgindo a Figura 9.8 e preencher ento as caixas de texto com a mdia da populao e o desvio padro paramtrico.
- 114 -
Os resultados revelam que a diferena significativa (p unilateral = 0.0212), inferior, portanto, ao nvel de significncia previamente estabelecido. Rejeita-se a hiptese de nulidade e aceita-se a alternativa, ou seja, os peixes do lago criatrio tm mdia de peso superior queles existentes no hbitat natural.
9.5 TESTE Z: RESUMO AMOSTRAL uma verso do Teste Z quando dispomos do tamanho e mdia amostrais e, ainda, os valores da mdia e do desvio padro paramtricos. 9.5.1 EXEMPLO Dados coletados da altura de uma espcie de planta submetida a determinado fertilizante, comparados com a mdia da populao obtida de plantas da mesma espcie e coletadas no meio ambiente. a) Tamanho da amostra = 53; b) Mdia da altura das plantas com fertilizante = 54.4 cm; c) Desvio Padro da populao = 8.2 cm; d) Mdia da Populao das plantas coletadas no meio ambiente = 51.9 cm. Hipteses: H0: = 0; H1: 0; Nvel de deciso: = 0.05.
- 115 -
A diferena significativa (p < 0.05), tendo o fertilizante aumentado o tamanho das plantas submetidas ao tratamento. 9.6 TESTE BINOMIAL (para uma proporo) Trata-se de teste no-paramtrico utilizado quando os eventos na populao apresentam-se de forma dicotmica ou binria sucesso e insucesso. Os valores amostrais so comparados com os dados da populao. 9.6.1 EXEMPLO Supondo-se que, de 10000 indivduos com idade entre 50 e 60 anos e com histria familiar de cncer gstrico, 350 apresentaram esse tipo de carcinoma. Os estudos demonstraram que a prevalncia dessa doena na populao de 0.03. As hipteses formuladas so estas: H0: a prevalncia de cncer gstrico em indivduos com histria familiar dessa neoplasia igual a da observada na populao: p1 = p0; H1: a prevalncia de cncer gstrico em indivduos com histria familiar dessa neoplasia diferente da observada na populao: p1 p0; Nvel de deciso: alfa = 0.05, bilateral.
- 116 -
A diferena entre as propores da amostra e a da populao altamente significativa (p = 0.0034) no teste bilateral. Considerando-se que a proporo amostral superior a da populao, rejeita-se a hiptese de nulidade e aceita-se a alternativa, no sentido de que os indivduos com histria familiar de neoplasia gstrica tm maior prevalncia dessa enfermidade.
9.7 ITERAES (RUNS TEST) Destina-se a verificar se a amostra em questo foi obtida de maneira aleatria. A tcnica deste teste baseada na ordem ou seqncia com que os escores originais foram coletados. Os dados podem ser quantitativos ou qualitativos. No caso de binrios, como sucesso ou insucesso, sim ou no, masculino ou feminino, sinais + e -, os dados devem ser introduzidos no grid com os valores 1 e 0, respectivamente. Este teste est relacionado com a Mediana, estabelecendo valores abaixo e acima dessa medida de tendncia central. Conhecido tambm como Runs test of randomness. 9.7.1 EXEMPLO 1 Dados coletados na jogada de uma moeda dezoito (18) vezes: a varivel Cara foi assinalada no grid com o valor um (1), e a varivel Coroa, com o valor zero (0). Os dados, parciais, podem ser visualizados na Figura 9.12. H0: a seqncia de Caras e Coroas aleatria; H1: a seqncia obtida no lanamento da moeda no aleatria; Nvel de deciso: = 0.05.
Figura 9.12 Viso parcial dos dados do Exemplo 9.7.1.
- 117 -
Os resultados obtidos revelam que ocorreram dez (10) Coroas (n1) e oito (8) Caras (n2) e treze (13) Iteraes, sendo o p-valor no significativo (ns). A amostra, assim considerada aleatria. Neste exemplo o tamanho das amostras menor que 20, note que n1=10 e n2 = 8, neste caso os valores crticos so obtidos a partir da tabela de Frida S. e Eisenhart, C. (1943). 9.7.2 EXEMPLO 2 Em uma escola observaram-se, uma vez por dia, a discusso entre duas crianas de cada vez, no que diz respeito a determinado conceito social. O grau da intensidade da discusso foi assinalado de 24 pares, totalizando 48 estudantes. O objetivo era determinar se a amostra obtida era ou no aleatria. Os dados coletados poderiam variar numa escala de 0 a 100, conforme a intensidade da discusso de cada grupo de participantes, cujos escores podem ser visualizados na Figura 9.14. H0: a seqncia obtida aleatria; H1: a seqncia obtida no aleatria; Nvel de deciso: = 0.05.
Figura 9.14 Viso parcial dos dados do Exemplo 9.7.2.
9.7.2 INSTRUES a) Introduzir os dados no grid na ordem obtida no experimento (Fig. 9.14); b) Pressionar o mouse em Iteraes (Runs test); c) Clicar em Executar, para resultados.
- 118 -
Os resultados obtidos revelam que o nmero de Iteraes (r = 33) foi muito significativo (p-valor = 0.0073), com base na distribuio Z, o que ocorrer quando um ou os dois escores n1 e n2 forem superiores a 20 unidades. Concluso: rejeita-se a hiptese de nulidade, ou seja, a amostra no foi obtida de forma aleatria. 9.8 TESTE G Prova no-paramtrica de aderncia, semelhante ao teste do Qui-Quadrado, aplicada em amostra com dados mensurados na escala nominal e dispostos em duas ou mais categorias mutuamente exclusivas. 9.8.1 EXEMPLO Efetuaram-se 300 lanamentos de um dado cujos escores esto inscritos no grid geral. Considerando-se que o dado apresenta seis (6) categorias (s, duque, terno, quadra, quina e sena) e todas so equiprovveis, ento, do ponto de vista terico deve-se esperar que, em trezentos lanamentos, cada modalidade deve apresentar 50 sucessos. Testar: H0: os valores observados esto de acordo com os teoricamente esperados; H1: os valores esperados diferem da proporo terica esperada em cada categoria; Nvel de deciso: alfa = 0.01.
Figura 9.16 Dados do Exemplo 9.8.1.
9.8.2 INSTRUES a) Pressionar o mouse em Teste G; b) Selecionar as colunas do grid geral referentes aos dados observados e queles teoricamente esperados; e clicar em Executar, para resultados:
Figura 9.17 Resultados do Exemplo 9.8.1.
- 119 -
H0: as freqncias acumuladas observadas no diferem da distribuio esperada, com base nos dados da populao: F0(X) = Sn(X); H1: as freqncias acumuladas observadas diferem da distribuio esperada, com base nos dados da populao: F0(X) Sn(X); Nvel de deciso: alfa = 0.05. 9.9.2 INSTRUES a) Pressionar o mouse em Kolmogorov-Smirnov; b) Selecionar apenas uma coluna do grid geral referente aos dados observados, os quais, neste caso, correspondem coluna 2; c) Clicar em Executar e preencher as caixas de texto com as informaes referentes aos dados paramtricos mdia e desvio padro , clicando na tecla OK, para resultados.
Figura 9.19 Resultados do Exemplo 9.9.1.
- 120 -
9.10 TESTE DE LILLIEFORS Prova no-paramtrica de aderncia destinada a comparar o grau de concordncia entre a distribuio acumulada de um conjunto de valores de uma amostra com a distribuio terica acumulada esperada. 9.10.1 EXEMPLO O mesmo exemplo anterior Exemplo 9.9.1 sobre o grau mdio do teor alcolico de cada safra anual dos vinhos produzidos no perodo de 1980/89, conforme relao constante na Figura 9.18, desconhecendo-se os parmetros da populao (mdia e desvio padro). Este teste pode ser empregado para k amostras de modo simultneo. H0: as freqncias acumuladas observadas no diferem da distribuio terica esperada: F0(X) = Sn(X); H1: as freqncias acumuladas observadas diferem da distribuio terica esperada: F0(X) Sn(X); Nvel de deciso: alfa = 0.05. 9.10.2 INSTRUES a) Pressionar o mouse em Lilliefors; b) Selecionar apenas uma coluna do grid geral referente aos dados observados, os quais, neste caso, correspondem coluna 2; c) Clicar em Executar para obter resultados.
Figura 9.20 Resultados do Exemplo 9 10 1
Pelo resultado do teste (p > 0.05), aceita-se a hiptese de nulidade e consideram-se os dados amostrais com aderncia normalidade. Pelo modelo de Lilliefors o p-valor, dos dados do Exemplo 9.9.1, difere do modelo Kolmogorov-Smirnov.
9.11 TESTE DO QUI-QUADRADO: PROPORES ESPERADAS IGUAIS Constitui a prova no-paramtrica de mais largo uso nas reas de cincias biolgicas e mdicas. O teste para uma amostra um procedimento semelhante ao teste G, ou seja, de aderncia. A comparao efetuada entre os escores observados e os esperados, estes iguais, como no exemplo dado a seguir, no sendo necessrio introduzi-los no grid.
- 121 -
9.11.2 INSTRUES a) Apontar o mouse em Qui-Quadrado para Propores esperadas iguais, conforme o Exemplos 9.11.1; b) Selecionar a coluna do grid geral e clicar em Executar o Teste, para resultados.
Figura 9.22 Resultados do Exemplo 9.11.1.
O Qui-Quadrado corrigido (Yates) no significativo (p = 0.1124), evidenciando que os valores observados concordam com os esperados pela teoria gentica. A diferena existente , portanto, variao amostral.
9.12 TESTE DO QUI-QUADRADO: PROPORES ESPERADAS DESIGUAIS O teste para uma amostra um procedimento semelhante ao teste G, ou seja, um teste no-paramtrico de aderncia. A comparao efetuada entre os escores observados e os esperados, estes desiguais, calculados do ponto de vista matemtico ou de acordo com alguma teoria. 9.12.1 EXEMPLO Em casais com grupos sangneos AB x AB, testou-se o fentipo de 80 descendentes no que diz respeito a esse sistema, observando-se que dezoito (18) pertenciam ao grupo A, 36 ao AB e 26 ao B. Pela teoria gentica as propores esperadas seriam: 1:2:1 (25% : 50% : 25%), dos grupos A, AB e B, respectivamente. Os dados devem ser inseridos em duas colunas do grid geral: na primeira coluna os valores observados e na segunda, os esperados, visto que os valores esperados so desiguais.
- 122 -
H0: as propores fenotpicas observadas concordam com as esperadas pela teoria gentica (1:2:1): p1 = ; p2 = ; p3 = ; H1: as propores fenotpicas observadas no esto de acordo com as esperadas pela teoria gentica (1:2:1): p1 ; p2 ; p3 ; Nvel de deciso: alfa = 0.05. 9.12.2 INSTRUES a) Apontar o mouse em Qui-Quadrado, para Propores esperadas desiguais, conforme o Exemplo 9.12.1; b) Selecionar as colunas do grid geral e clicar em Executar o Teste, para resultados.
Figura 9.24 Resultados do Exemplo 9.12.1.
O Qui-Quadrado calculado no significativo (p = 0.3012), evidenciando que os valores observados concordam com os esperados pela teoria gentica. Aceitar a hiptese de nulidade, eis que a diferena existente , portanto, variao amostral.
9.13 TESTE DE POISSON Este teste deve ser empregado quando os dados so binrios, como no teste binomial, e se o evento em questo considerado raro e ocorrido em determinado espao de tempo. 9.13.1 EXEMPLO (hipottico) Uma investigao foi efetuada sobre a ocorrncia de linfomas em dez mil indivduos que trabalhavam em uma indstria de calados e que foram seguidos durante um (1) ano. O nmero registrado de casos foi igual a seis (6), enquanto a taxa dessa neoplasia na populao, por 10000 habitantes, no mesmo perodo, obtida dos rgos de sade, foi igual a 4.7. H diferena significativa entre esses dados? H0: = 0; H1: 0; Nvel de deciso: alfa = 0.05. 9.13.2 INSTRUES a) Pressionar o mouse em Teste de Poisson;
- 123 -
As propores observadas concordam com as esperadas, eis que o teste de Poisson no significativo (p = 0.6631). A diferena detectada no importante do ponto de vista epidemiolgico, sendo considerada de natureza amostral.
- 124 -
CAPTULO 10
DUAS AMOSTRAS INDEPENDENTES
10.1 INTRODUO Um dos testes mais freqentes em bioestatstica consiste na avaliao da diferena entre duas amostras independentes, que devem representar as respectivas populaes, em que os dados de uma no esto relacionados com os escores da outra. a) Testes paramtricos: i Teste t: dados amostrais; ii Teste t: resumo amostral; iii Teste Z: dados amostrais; iv Teste Z: resumo amostral. b) Testes no-paramtricos: i Binomial para Duas Propores; ii Exato de Fisher; iii Teste G; iv Kolmogorov-Smirnov; v Mann-Whitney; vi Mediana; vii Qui-Quadrado; vii Odds Ratio; viii Risco Relativo; ix Taxa de Incidncia. x Coeficiente de Variao; xii Poisson; 10.1.1 INSTRUES a) Introduzir os dados no grid geral do BioEstat ou preencher caixas de texto; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Duas Amostras Independentes.
Figura 10.1 Menu de Duas Amostras Independentes.
- 125 -
H0: no h diferena entre a estatura mdia dos indivduos dos grupos A e B: 1 = 2; H1: h diferena entre a estatura mdia dos indivduos dos grupos A e B: 1 2; Nvel de deciso: alfa = 0.05.
- 126 -
O valor de t (5.0647) altamente significativo, com p-valor menor que 0.0001 (bilateral). Rejeita-se, assim, a hiptese de nulidade e aceita-se a alternativa: h diferena na estatura dos homens das populaes investigadas, sendo em mdia mais altos aqueles pertencentes ao grupamento indgena A.
10.2.3 GRFICO DO EXEMPLO 10.2.1 Pressionar em Grfico na barra superior da Fig. 10.3.
Figura 10.4 O grfico sugestivo da diferena entre as mdias amostrais do Exemplo 10.2.1.
- 127 -
A diferena muito significativa (p < 0.01). O fertilizante YY foi superior ao XX em termos de crescimento das plantas submetidas aos tratamentos.
- 128 -
H0: no h diferena entre as drogas no tempo de alvio da dor muscular: 1 = 2; H1: a droga A alivia a dor muscular em um tempo inferior ao da droga B: 1 < 2; Nvel de deciso: alfa unilateral = 0.01.
Figura 10.7 Dados parciais do Exemplo 10.4.1.
10.3.2 INSTRUES a) Pressionar o mouse em Teste Z; b) Selecionar as colunas referentes s amostras do grid geral e clicar em Executar o Teste; c) Preencher as caixas de texto (Figura 10.8), com as informaes sobre as varincias paramtricas e pressionar em Continuar, para obter resultados (Figura 10.9).
- 129 -
O valor de Z (2.9194) calculado muito significativo no teste unilateral (p = 0.0018), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. A droga D1 alivia a dor muscular em um perodo de tempo inferior (5.06 minutos) ao da droga D2. Se desejar o grfico desse Exemplo, pressionar em Grfico na barra superior da Figura 10.9.
10.5 TESTE Z DUAS AMOSTRAS INDEPENDENTES: RESUMO AMOSTRAL Trata-se do Teste Z, quando se dispe apenas das mdias e tamanhos amostrais, e ainda, das varincias paramtricas. 10.5.1 EXEMPLO Duas drogas: A (primeira amostra) e B (segunda amostra) foram testadas em dois grupos de pacientes para alvio de dores nas panturrilhas depois de caminhada de 5000 metros. O tempo decorrido entre a ingesto da droga e o desaparecimento das dores foi registrado em minutos. Os dados amostrais e as respectivas varincias das populaes esto registradas no grid Resumo Amostral. H0: 1 = 0; H1: 1 0; Nvel de deciso: = 0.05 10.5.2 INSTRUES a) Pressionar o mouse em Teste z: resumo amostral; b) Introduzir os dados no grid de Resumo Amostral (Figura 10.10); c) Clicar em Executar para resultados (Figura 10.11).
- 130 -
O valor de Z significativo (p < 0.05). O tempo decorrido entre a ingesto das drogas e o alvio do sintoma foi menor com o emprego do medicamento A (p < 0.05).
10.6 TESTE BINOMIAL Destina-se a testar a diferena entre duas propores amostrais independentes, procurando-se determinar se a diferena (p1 p2) de tal grandeza que permita rejeitar a hiptese de nulidade. O tamanho de cada amostra deve ser suficiente para a devida aproximao da distribuio binomial curva normal, ou seja, quando atendidas duas condies: n1 p1 q1 5 e n2 p2 q2 5 . 10.6.1 EXEMPLO Uma pesquisa foi conduzida para estudar o efeito da aspirina no enfarte do miocrdio. Um grupo de 10000 pessoas do sexo masculino, de 40 anos de idade, cada uma recebeu 100 mg da droga por dia e foram observados durante 10 anos. Ocorreram manifestaes de enfarte coronariano em quatorze (14). Outro grupo de 9500
- 131 -
10.6.2 INSTRUES a) Pressionar o mouse em Teste Binomial: duas propores; b) Preencher as caixas de texto com os dados; c) Clicar em Executar, para resultados.
Figura 10.12 Teste Binomial (Exemplo 10.6.1).
A diferena observada muito significativa (p unilateral = 0.0049), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. O uso prolongado da aspirina diminui a incidncia da doena coronria no homem.
10.7 TESTE EXATO DE FISHER Prova no-paramtrica com a finalidade de verificar se duas amostras independentes provieram da mesma populao. As amostras devem ser classificadas sob dois critrios ou categorias, dispostas em tabelas de contingncias 2 x 2, cujos escores amostrais podem ser pequenos, com valor zero (0) inclusive. A probabilidade exata (p-valor) apresentada sob as formas unilateral e bilateral. A vantagem do BioEstat 5.0 que a soma de todas as caselas pode atingir 600 escores.
- 132 -
primeiro grupo: i aderncia presente: 9 animais; ii aderncia ausente: 1 animal. b) segundo grupo: i aderncia presente: 2 animais; ii aderncia ausente: 8 animais. H0: a presena de aderncia do epploo no coto duodenal independe do nmero de planos de sutura: p1 = p2; H1: a presena de aderncia do epploo no coto duodenal depende do nmero de planos de sutura: p1 p2; Nvel de deciso: alfa bilateral = 0.01.
10.7.2 INSTRUES a) Pressionar o mouse em Teste Exato de Fisher; b) Preencher as caixas de texto com os dados; c) Clicar em Executar, para resultados.
Figura 10.13 Resultados do Teste Exato de Fisher (Exemplo 10.7.1).
a)
O p-valor bilateral igual a 0.0055, rejeitando-se a hiptese de nulidade e aceitandose a alternativa. Os animais submetidos ao experimento, cuja sutura foi efetuada em dois planos, apresentaram menor nmero de aderncias ao coto duodenal.
10.8 TESTE G Teste no-paramtrico para duas amostras independentes, semelhante em todos os seus aspectos ao do Qui-Quadrado, para dados categricos. Os escores devem ser mensurados a nvel nominal ou ordinal, e as amostras podem apresentar duas ou mais categorias dispostas em tabelas de contingncia l x c. Os graus de liberdade so assim calculados: (l 1) x (c 1).
- 133 -
H0: a ocorrncia de filariose independe do grupo do sistema secretor ABH ao qual pertence o paciente; H1: a ocorrncia de filariose est associada ao grupo do sistema secretor ABH ao qual pertence o paciente; Nvel de deciso: alfa = 0.05.
10.8.2 INSTRUES a) Pressionar o mouse em Teste G; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados d) Clicar em Grfico na barra da Figura 10.15.
Figura 10.15 Resultados do Exemplo 10.8.1 e respectivo Grfico.
Os resultados mostram associao estatstica significativa entre sistema Secretor ABH e filariose, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa.
10.9 TESTE DE KOLMOGOROV-SMIRNOV Prova no-paramtrica para duas amostras independentes e vrias modalidades, com dados mensurados a nveis nominais, ordinais ou intervalares e retiradas da mesma populao ou com a mesma distribuio cumulativa.
- 134 -
H0: o perodo de adaptao escola independe da idade da criana; H1: o tempo de adaptao escola depende da idade da criana; Nvel de deciso: alfa = 0.05.
10.9.2 INSTRUES a) Pressionar o mouse em Kolmogorov-Smirnov; b) Selecionar as colunas 2 e 3 do grid geral; c) Informar se os dados esto ou no agrupados em classe. Neste exemplo os dados esto agrupados, devendo-se clicar em Sim; d) Clicar em Executar o Teste, para resultados.
Figura 10.17 Resultados do Exemplo 10.9.1.
O teste revela que a diferena entre as duas amostras muito significativa, rejeitandose a hiptese de nulidade e aceitando-se a alternativa. mais fcil a adaptabilidade das crianas ao Jardim I que ao Maternal, indicando que a idade influencia o comportamento desses escolares.
10.10 TESTE DE MANN-WHITNEY O teste de Mann-Whitney, conhecido tambm como Teste U de Wilcoxon-MannWhitney ou ainda Wilcoxon rank-sum test, uma prova no-paramtrica destinada a comparar duas amostras independentes do mesmo tamanho ou desiguais, cujos escores tenham sido mensurados pelo menos a nvel ordinal.
- 135 -
H0: os nveis de fosfatase sangnea independem da espcie de Plasmodium que parasita o homem; H1: os nveis de fosfatase sangnea esto relacionados com a espcie de Plasmodium encontrada nos doentes de malria; Nvel de deciso: alfa = 0.05.
Figura 10.18 Dados do Exemplo 10.10.1.
10.10.2 INSTRUES a) Pressionar o mouse em Mann-Whitney; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 10.19 Resultados do Exemplo 10.10.1.
O teste U no estatisticamente significativo (p = 0.6444), aceitando-se, portanto, a hiptese de nulidade. No h diferena nos nveis sangneos de fosfatase em pacientes acometidos de malria pelo P. vivax ou pelo P. falciparum.
- 136 -
H0: o atendimento de enfermagem no difere nos hospitais de onde os indivduos foram selecionados; H1: o atendimento de enfermagem difere nos hospitais de onde provieram as pessoas selecionadas; Nvel de deciso: alfa = 0.05.
Figura 10.20 Dados do Exemplo 10.11.1.
10.11.2 INSTRUES a) Pressionar o mouse em Mediana; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 10.21 Resultados do Exemplo 10.11.1.
O teste da Mediana foi significativo (p = 0.0323), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. Os cuidados de enfermagem do Hospital A foram superiores queles oferecidos pelo Hospital B.
- 137 -
H0: a proporo dos animais vivos e mortos independe dos cuidados veterinrios recebidos; H1: a proporo dos animais vivos e mortos depende dos cuidados veterinrios recebidos; Nvel de deciso: alfa = 0.05.
10.12.2 INSTRUES a) Pressionar o mouse em Qui-Quadrado; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados;
Figura 10.23 Resultados do Exemplo 10.12.1.
O Qui-Quadrado obtido e devidamente corrigido (Yates) significativo, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. A freqncia de animais vivos ou mortos dependente dos cuidados veterinrios recebidos.
- 138 -
O Aumento Relativo do Risco resumido pela sigla ARR e obtido por (p1 p2), todas as vezes que o OR for superior a um (1). A probabilidade de enfisema pulmonar entre os fumantes superior a cerca de quatro (4) vezes a dos no-fumantes, com p-valor < 0.0001. Quando o Odds Ratio calculado atinge valores maiores que um (1), exibido o Nmero Necessrio para causar um evento desfavorvel (NNH). Neste exemplo o NNH = 3. Significa que seriam necessrios trs indivduos expostos ao fator de risco para, num perodo de dez (10) anos, surgir um novo caso da doena (enfisema).
- 139 -
Figura 10.25 Teste de Odds Ratio (Exemplo 10.13.1 com posio invertida das amostras).
10.14 RISCO RELATIVO (RR) O RR um teste para duas amostras dicotomizadas e dispostas em tabelas de contingncia 2 x 2, no qual se calcula o quociente das propores p1 e p2. bastante utilizado para comparar a incidncia de eventos em pessoas expostas a determinado fator em relao aos de indivduos no expostos. O programa determina tambm o p-valor do RR e o intervalo de confiana de 95%. Se o risco relativo se aproxima da unidade, os eventos devem ser considerados independentes, no havendo, por conseguinte, vantagem ou desvantagem entre eles. De outro lado, quanto mais afastado de 1 (um), maior a relao de dependncia entre os eventos investigados. Deve ser calculado em ensaios randomizados e estudos de coorte, nos quais um dos grupos de pacientes submetido a determinado tratamento e o outro sem essa interferncia, e que so seguidos durante determinado perodo de tempo (follow-up), a fim de que sejam observadas as ocorrncias. O BioEstat calcula ainda: a) p1: proporo de indivduos tratados; b) p2: proporo de indivduos controles; c) RR: Risco Relativo = p1/p2; d) RRR: Reduo Relativa do Risco = 1-RR; e) ARR: Aumento Relativo do Risco: RR 1; f) RAR: Reduo Absoluta do Risco: p2 p1; g) AAR: Aumento Absoluto do Risco: p1 p2;
- 140 -
- 141 -
O Risco Relativo (RR) de 2.5, muito significativo, determina um Aumento Relativo do Risco (ARR) de 150% e um Aumento Absoluto do Risco (AAR) de 30%. O Nmero
- 142 -
H diferena nas taxas de incidncia desses grupos? H0: TI1 = TI2; H1: TI1 TI2; Nvel de deciso: alfa = 0.01.
10.15.2 INSTRUES a) Clicar em Taxa de Incidncia; b) Preencher as caixas de texto com os dados; c) Clicar em Executar, para obter os resultados.
Figura 10.28 Resultados do Exemplo 10.15.1.
A diferena altamente significativa (p = 0.0015), havendo maior incidncia entre o grupo exposto ao contgio domiciliar com o bacilo responsvel pela tuberculose. Os
- 143 -
10.16 COEFICIENTE DE VARIAO Este teste permite comparar dois Coeficientes de Variao (CV) de dados mensurados de variveis diferentes, por exemplo: peso (kg) e estatura (cm) de pr-escolares, largura (cm) e peso (g) de folhas, etc. Deve-se pressupor distribuio normal para os dados. 10.16.1 EXEMPLO Um estudo foi efetuado em uma maternidade, registrando-se o peso e o comprimento de 40 recm-nascidos do sexo feminino, obtendo-se os dados inseridos no grid geral, mostrados, em parte, na Figura 10.29.
H0: a variabilidade inerente ao peso a mesma variabilidade inerente ao comprimento das crianas recm-nascidas do sexo feminino; H1: a variabilidade inerente ao peso no a mesma da variabilidade inerente ao comprimento das crianas recm-nascidas do sexo feminino; Nvel de deciso: alfa = 0.05.
10.16.2 INSTRUES a) Clicar em Coeficiente de Variao; b) Selecionar as colunas do grid geral; c) Clicar em Executar, para obter os resultados.
Figura 10.29 Viso parcial dos dados do Exemplo 10.16.1.
Os Coeficientes de Variao do peso (CV = 0.0578) e do comprimento (CV = 0.0411) das crianas recm-nascidas do sexo feminino mostram maior variabilidade intrnseca da primeira varivel, com um p-valor significativo (0.0351). Rejeita-se, portanto, a hiptese de nulidade.
- 144 -
O valor de Z obtido estatisticamente significativo ao nvel alfa previamente fixado (p = 0.0221), rejeitando-se a hiptese de nulidade. O nmero de parasitas encontrados em cada animal diferente, podendo-se admitir que a parasitose mais intensa nas capivaras do sexo masculino.
- 145 -
- 146 -
CAPTULO 11
DUAS AMOSTRAS RELACIONADAS
11.1 INTRODUO um procedimento onde dois conjuntos so investigados, o segundo constitudo dos mesmos elementos do primeiro, formando-se pares de unidades onde cada indivduo contribui com dois escores, ou seja, funciona como seu prprio controle. So, pois, amostras relacionadas, pareadas ou dependentes, tomadas para testar-se a mdia das diferenas antes e depois da condio objeto da pesquisa. Os testes estatsticos para duas amostras relacionadas classificam-se em: a) Testes paramtricos: i Teste t de Student: dados amostrais; ii Teste t de Student: resumo amostral; iii ANOVA. b) Testes no-paramtricos: i Correlao Intraclasse; ii Kappa; iii McNemar; iv Sinais; v Wilcoxon (Signed-Rank Test). 11.1.1 INSTRUES a) Preencher duas colunas do grid geral com os dados: antes e depois, com exceo do Teste de McNemar; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Duas Amostras Relacionadas, para a escolha do teste:
Figura 11.1 Menu dos aplicativos para duas amostras relacionadas.
11.2 TESTE t DE STUDENT: DADOS AMOSTRAIS Teste paramtrico destinado a verificar se os dois grupos de escores dos mesmos indivduos, cujas unidades foram retiradas ao acaso da populao, no apresentam diferena em relao s mdias. Os dados devem ser mensurados em escala intervalar ou de razes, sendo o teste empregado quando a varincia da populao das diferenas desconhecida, com n 1 graus de liberdade, sendo n o nmero de pares.
- 147 -
H0: a infeco no altera o nmero de plaquetas no sangue perifrico: D = 0; H1: a infeco altera o nmero de plaquetas no sangue: D 0; Nvel de deciso: alfa = 0.01. 11.2.2 INSTRUES a) Pressionar o mouse em Teste t: dados amostrais; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 11.3 Resultados do Exemplo 11.2.1.
O valor de t calculado igual a -6.7053, com p < 0.0001, ou seja, a diferena observada estatisticamente muito significativa, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. Como o valor de t negativo, deduz-se que a contagem plaquetria antes do tratamento era bem inferior quela obtida aps a teraputica contra a infeco malrica, responsvel pela diminuio desses elementos figurados do sangue perifrico do homem.
- 148 -
11.3.2 INSTRUES a) Selecionar no menu: - Duas Amostras Relacionadas; - Teste t: resumo amostral; b) Introduzir os dados no formulrio (Figura 11.4) e clicar em Executar;
Figura 11.5
A estimulao eltrica do hipotlamo afeta o comportamento alimentar dos ratos (p < 0.01), rejeitando-se, portanto, a H0.
- 149 -
11.4.2 INSTRUES a) Pressionar o mouse em ANOVA; b) Selecionar as colunas referentes s amostras do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 11.7 Resultados do Exemplo 11.4.1.
- 150 -
O F obtido (88.6160) altamente significativo (p < 0.0001), para 1,11 graus de liberdade, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. Os nveis de triglicerdios so maiores quatro (4) horas aps o almoo do que os observados em jejum. Se o teste t fosse realizado, obter-se-ia um valor calculado igual raiz quadrada de F. Pode-se, ainda, visualizar o grfico desses dados, exibidos na Figura 11.8, bastando clicar na barra superior Grfico da Figura 11.7, o qual ilustra a relao entre os nveis de triglicerdios em jejum e quatro (4) horas aps refeio.
11.5 CORRELAO INTRACLASSE: DADOS CONTNUOS A correlao Intraclasse um aplicativo para testar a replicabilidade amostral para dados contnuos, no sendo tratadas as variveis como X e Y mas sim como Replicao 1 e Replicao 2. , desse modo, medida de replicabilidade amostral. 11.5.1 EXEMPLO Foram determinados os nveis de Testosterona Livre em seis (6) pacientes, tendo sido retiradas amostras sangneas de cada indivduo, sendo cada amostra dividida em dois frascos distintos (A e B), os quais foram enviados, aleatoriamente, a dois laboratrios, tornando-se impossvel distinguir para os tcnicos laboratoriais a Replicao 1 da Replicao 2.
Figura 11.9 Dados do Exemplo 11.5.1.
- 151 -
A Replicabilidade foi considerada Excelente, com valor da Correlao Intraclasse igual a 0.9712 e o p-valor = 0.002. Nos seis (6) pacientes, os nveis de Testosterona Livre em ambos os laboratrios podem ser considerados semelhantes, segundo resultados fornecidos pelos dois laboratrios.
11.6 TESTE DE McNEMAR Teste no-paramtrico para duas propores, no qual procura-se avaliar o grau de discordncia de dois tratamentos a que foram submetidos os mesmos indivduos. Os dados devem ser mensurados a nvel nominal ou ordinal e so dispostos em tabelas de contingncia 2 x 2, conforme definido a seguir: A (+ +) C ( +) B (+ ) D ( )
A forma mais usual de realizar a entrada de dados introduzir nas caselas A e D os pares concordantes. As caselas (B e C) representam os pares discordantes de interesse no teste. O programa, entretanto, est disposto de maneira que pode haver inverso na introduo dos dados, a saber: A (+ ) C ( ) B (+ +) D ( +)
Desta forma, portanto, os pares concordantes podem ser inseridos nas caselas B e C ou nas caselas A e D, e o programa calcula a probabilidade desses pares em ambas as situaes, devendo o pesquisador selecionar o resultado de acordo com o modo de
- 152 -
Exemplo 11.6.1.
Os pares discordantes foram inseridos nas caselas B e C e o resultado do teste altamente significativo (p = 0.0020), rejeitando-se a hiptese de nulidade e aceitandose a alternativa. H discordncia nos resultados das medidas de presso arterial
- 153 -
Considerando-se o p-valor (0.0044), rejeita-se H0, concluindo-se que h associao entre a presena de crie dentria e Sistema Secretor.
- 154 -
11.7 TESTE DOS SINAIS Teste no-paramtrico onde se define, em cada par, a diferena dos escores antes e depois do procedimento investigatrio, baseando-se apenas no sentido das diferenas dos escores, registrados sob a forma de sinais: (+) e (). Os pares com resultados iguais - considerados empatados -, so eliminados dos clculos pelo programa. Quando o nmero de pares (no empatados) for maior que 30, o programa calcula a probabilidade pela curva normal N(0,1), caso contrrio, utiliza-se a distribuio binomial. 11.7.1 EXEMPLO Em vinte (20) voluntrios testou-se o tempo de reao a determinado estmulo antes e aps exerccio fsico prolongado, registrado em segundos. H0: no h diferena no tempo de resposta ao estmulo utilizado antes e aps o exerccio fsico prolongado: p = q = ; H1: h diferena no tempo de resposta ao estmulo utilizado antes e aps o exerccio fsico prolongado: p q; Nvel de deciso: alfa = 0.05, bilateral.
Figura 11.13 Viso parcial dos Dados do Exemplo 11.7.1.
11.7.2 INSTRUES a) Pressionar o mouse em Sinais; b) Selecionar as colunas do grid geral; c) Clicar em Executar o Teste, para resultados; d) Para obter o grfico clique no menu Grfico.
Figura 11.14 Resultados do Exemplo 11.7.1.
O resultado muito significativo (p = 0.0022) e o poder do teste igual a 0.9970, rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. O exerccio fsico prolongado aumenta o tempo de resposta ao estmulo utilizado no experimento.
- 155 -
11.8 TESTE KAPPA Prova no-paramtrica destinada a comparar as propores da mesma varivel mensurada a nvel nominal em duas ocasies diferentes. Testa-se a reprodutibilidade dos resultados, admitindo-se que haver concordncia nas propores das respostas nos dois perodos considerados. Os dados so inseridos em caixas de texto, sob a forma de tabela de contingncia 2 x 2. 11.8.1 EXEMPLO Foram enviados, em maro de 2006, questionrios a 400 pessoas, solicitando informaes sobre o atendimento do posto de sade localizado no bairro onde elas residiam. Um ano mais tarde o procedimento foi repetido para os mesmos indivduos, obtendo-se 400 respostas para cada um dos dois perodos (400 em 2006 e 400 em 2007), conforme os dados contidos na tabela de contingncia abaixo:
ANO 2007
Satisfeito Insatisfeito 19 181 Satisfeito Insatisfeito 180 20
ANO 2006
H0: No h concordncia entre as respostas nos dois perodos (K = 0); H1: H concordncia entre as respostas nos dois perodos (K 0); Nvel de deciso: alfa = 0.05 (unilateral).
- 156 -
O valor de Kappa (K) obtido foi igual a 0.8050, se aproximando da unidade, e denotando Excelente replicabilidade. O p-valor obtido (< 0.0001) muito significativo, rejeitando-se a hiptese de nulidade, de no haver concordncias de respostas nos dois perodos com os mesmos indivduos. A escala de replicabilidade adotada foi a de Bernard Rosner em Fundamental of Biostatistics (2006).
11.9 TESTE DE WILCOXON (SIGNED-RANK TEST) O teste de Wilcoxon teste T uma prova no-paramtrica destinada a comparar dados pareados de uma amostra obtidos em ocasies distintas: antes e aps. Equivale ao teste t de Student para dados relacionados, mas aplicado a dados mensurados pelo menos a nvel ordinal, baseando-se no sentido e na magnitude das diferenas entre os pares amostrais. 11.9.1 EXEMPLO Culturas de linfcitos de nove (9) indivduos foram investigadas, determinando-se os ndices mitticos antes e aps exposio luz fluorescente branca durante 60 minutos.
Figura 11.17 Dados do Exemplo 11.9.1.
- 157 -
O T obtido altamente significativo (p = 0.0077), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. Os ndices mitticos so menores aps a aplicao nas culturas de luz fluorescente branca.
- 158 -
CAPTULO 12
ESTATSTICA DESCRITIVA
12.1 INTRODUO A funo descritiva da estatstica consiste em sumarizar os dados coletados da amostra ou da populao , ordenando-os e classificando-os, para torn-los de fcil entendimento, conforme o tipo da varivel que est em estudo.
Figura 12.1 Classificao das variveis e exemplos de cada tipo.
O programa calcula o seguinte: I Variveis Quantitativas a) Nmero de escores (N); b) Valor mnimo; c) Valor mximo; d) Amplitude total (At). e) Mediana (Md); f) Desvio Interquartlico; g) Primeiro e Terceiro Quartis; h) Mdia aritmtica ( ou X ); i) Varincia (2 ou s2); j) Desvio padro ( ou s); k) Erro padro ( x ou s x ); l) Coeficiente de variao (CV). m) Coeficiente de assimetria (g1); n) Coeficiente de curtose (g2). II Variveis Qualitativas a) ndice de Shannon-Wiener; b) ndice de Simpson.
- 159 -
12.2.2 EXEMPLO 2 Em uma cultura de bactrias, o nmero aumentou de 1431, no final do 1o dia, para 3250, 9610, 26800 e 63300 ao trmino do 2o, 3o, 4o e 5o dias, respectivamente. Descrever a amostra calculando a mdia geomtrica.
Figura 12.2 Dados do Exemplo 12.2.2.
- 160 -
A tabela acima contm os resultados das trs (3) amostras coletadas: medidas de tendncia central, de disperso e de forma.
Figura 12.4 Resultados do Exemplo 12.2.2.
A mdia geomtrica a medida de tendncia central que mais se ajusta aos dados amostrais, sendo duas vezes menor que a aritmtica e estando mais prxima da mediana.
- 161 -
12.3.1 NDICE DE SHANNON - WIENER: k amostras O ndice de Shannon-Wiener estima a diversidade de variveis categricas em uma populao, avaliando os aspectos da riqueza e eqitabilidade, os quais dizem respeito ao nmero de categorias da varivel em questo e s propores de cada uma destas, respectivamente. A uma populao com maior nmero de categorias que outra atribuda maior riqueza, e a uma populao com mais homogeneidade nas propores de suas categorias atribuda maior eqitabilidade. O ndice poder ser efetuado para k amostras. 12.3.1.1 EXEMPLO Foram coletadas amostras de ninhos de andorinhas em localidades distintas de dois Municpios: A e B. Os dados obtidos esto contidos na Figura 12.5. Figura 12.5 Dados do Exemplo 12.3.1.1.
12.3.1.2 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Clicar o mouse em Estatstica Descritiva e, a seguir, em Dados Qualitativos; d) Clicar em ndice de Shannon-Wiener e selecionar as colunas do grid (1, 2, ... , n); e) Pressionar em Executar o Teste, para Resultados. Figura 12.6 Resultados do Exemplo 12.3.1.1.
- 162 -
12.3.2 NDICE DE SIMPSON: k amostras Semelhante ao anterior, mede tambm a diversidade, quando os dados so categricos. 12.3.2.1 EXEMPLO Em duas ilhas, foi contado o nmero de espcies de mamferos encontrados em cada uma. Os dados esto resumidos na Figura 12.7. Estimar o ndice de Simpson para essas duas amostras. Figura 12.7 Dados do Exemplo 12.3.2.1.
12.3.2.2 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Clicar o mouse em Estatstica Descritiva e, a seguir, em Dados Qualitativos; d) Clicar em ndice de Simpson e selecionar as colunas do grid (1, 2, ... , n ); e) Pressionar em Executar o Teste, para Resultados. Figura 12.8 Resultados do Exemplo 12.3..2.1.
O ndice de Simpson foi maior na amostra da Ilha A (0.7436), enquanto o da ilha B atingiu 0.5664. Os resultados mostram, ainda, as propores (pi) de cada amostra.
- 163 -
- 164 -
CAPTULO 13
ESTIMAO DE PARMETROS
13.1 INTRODUO A estimao de parmetros parte da inferncia estatstica atravs da qual, a partir dos dados amostrais, se inferem os valores numricos da populao investigada. O BioEstat apresenta os seguintes programas de estimao paramtrica: a) b) c) d) e) f) g) h) i) j) k) l) m) n) Da Mdia; Da Proporo; Da Diferena entre Duas Mdias; Da Diferena entre Duas Propores; Da Densidade e Tamanho da Populao; Equilbrio de Hardy-Weinberg; Fentipos e Gentipos; Fourier (densidade); Impacto Populacional (PIN-ER-t); Mtodo de Leslie: Modelo Populacional Tamanho da Populao (amostragem simples, mtodo direto); Tamanho da Populao (amostragem simples, mtodo inverso); Tamanho da Populao (amostragem mltipla, populao fechada); Tamanho da Populao (amostragem mltipla, populao aberta).
13.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Estimao de Parmetros, como demonstra a Fig. 13.1:
Figura 13.1 Menu de Estimao de Parmetros.
13.2 ESTIMAO DA MDIA A estimao da mdia populacional () efetuada de duas maneiras: a) Estimao de Ponto; b) Estimao de Intervalos de Confiana: 95% e 99%. O procedimento consiste em retirar amostra aleatria da populao e computar a mdia aritmtica cujo valor, com base no Teorema do Limite Central, constituir a
- 165 -
H 95% de chance de que a mdia paramtrica seja um valor situado no espao compreendido entre 0.9506 e 1.1314, e de 99%, entre 0.9220 e 1.1600.
- 166 -
A estimativa de ponto igual a 0.035 (3.5%), devendo a proporo paramtrica () ser um valor situado no intervalo de 0.032 a 0.038, com probabilidade de 95%, ou entre 0.031 e 0.039, com chance de 99%.
13.4 ESTIMAO DA DIFERENA ENTRE DUAS MDIAS Do mesmo modo que se infere a mdia de uma populao, pode-se estimar a da diferena entre duas mdias (12). Quando se conhecem as varincias paramtricas,
- 167 -
a) Mdia da primeira amostra = 3300g; b) Varincia da primeira amostra = 80200; c) Mdia da segunda amostra = 3050g; d) Varincia da segunda amostra = 81000; Em estudo prvio, as varincias amostrais foram consideradas homogneas. Efetuar as estimativas de ponto e de intervalos de confiana de 95% e 99% da diferena entre as duas mdias.
13.4.2 INSTRUES a) Pressionar o mouse em Diferena entre Duas Mdias; b) Preencher as caixas de texto com os dados; c) Clicar o boto correspondente a varincias amostrais (s2); d) Pressionar em Executar e, a seguir, em Homogneas, para resultados.
Figura 13.4 Estimao da diferena entre duas mdias (Exemplo 13.4.1).
A estimativa de ponto da diferena entre as mdias igual a 250g, devendo o verdadeiro valor paramtrico dessa diferena das populaes investigadas estar situado entre os limites dos intervalos de confiana, com erro de estimao de 0.05 ou 0.01, IC (95%) e IC (99%), respectivamente.
- 168 -
Efetuar as estimativas de ponto e de intervalos de confiana de 95% e 99% da diferena entre as duas propores
13.5.2 INSTRUES a) Pressionar o mouse em Diferena entre Duas Propores; b) Preencher as caixas de texto com os dados; c) Clicar em Executar, para resultados.
Figura 13.5 Estimao da diferena entre duas propores (Exemplo 13.5.1).
A estimativa de ponto da diferena entre as duas propores e os respectivos intervalos de confiana de 95% e 99% esto contidos na Figura 13.5.
- 169 -
A densidade de seringueiras infectadas de 2.33 por are e a populao de rvores com fungo em todos os 400 ares de terra atinge 933 unidades. Os resultados assinalam os erros de estimao para o intervalo de confiana de 95%.
- 170 -
O Qui-Quadrado igual a 15.9106, sendo o p-valor = 0.0001, para um (1) grau de liberdade. A populao no est em Equilbrio de Hardy-Weinberg.
- 171 -
- 172 -
13.9 FOURIER (densidade) O programa Fourier, do BioEstat, destinado ao clculo dos estimadores da densidade de populaes animais. A largura da transeco determinada pela curva mais apropriada de uma srie de probabilidades baseada na distribuio das distncias de observaes. 13.9.1 EXEMPLO Em levantamento efetuado em certa reserva, no sentido de determinar a densidade de uma espcie de macacos, a distncia perpendicular mxima foi igual a 50 metros e a inventariada atingiu 2000 metros, tendo sido observados doze (12) grupos de indivduos nesse espao. Estimar a densidade pelo mtodo de Fourier. 13.9.2 INSTRUES d) Pressionar o mouse em Fourier; e) Preencher as caixas de texto e o grid especfico; f) Clicar em Executar, para resultados.
Figura 13.11 Anlise da srie de Fourier (Exemplo 13.9.1).
A estimativa de 88.0 grupos de indivduos por km2. Os intervalos de confiana e as medidas de variao esto contidos nos resultados.
Figura 13.12 Resultados do Exemplo 13.9.1.
- 173 -
Conforme o resultado do teste, o nmero de casos de Acidentes Coronarianos que poderiam ser prevenidos nessa populao, acima de 57 anos, se o 'fator de risco' Obesidade fosse eliminado, seria de 482, com IC 95%: 289 a 646.
- 174 -
13.11.2 INSTRUES a) Apontar o mouse em Mtodo de Leslie: Modelo Populacional; b) Selecione as colunas desejadas e clique em Executar Estatstica; c) Quando surgir o dilogo Mtodo de Leslie, digite o Nmero de passos a serem calculados, neste exemplo so cinco (5) e clique em OK.
Figura 13.15 Resultados do Exemplo 13.11.1.
Os resultados mostram que a populao mantida em ambiente controlado ter aumento de 20 para 62 indivduos cinco (5) anos, representando um aumento de 314%. A maioria dos indivduos, entretanto, estar concentrada na primeira faixa etria (entre zero e cinco anos).
- 175 -
13.12.2 INSTRUES a) Pressionar o mouse em Tamanho da populao (amostragem simples, mtodo direto); b) Preencher as caixas de texto; c) Clicar em Executar, para resultados.
Os resultados mostram que o tamanho estimado da populao de 763 capivaras, podendo o parmetro ser um valor situado entre 600 e 926 animais, conforme o clculo do intervalo de confiana de 95%.
- 176 -
13.13 TAMANHO DA POPULAO (amostragem simples, mtodo inverso) A metodologia semelhante do procedimento direto para o clculo do tamanho da populao (N), com a seguinte diferena: na primeira etapa capturam-se t animais, os quais so marcados e devolvidos ao meio ambiente, e, na segunda, algum tempo mais tarde, recapturam-se tantos espcimes at que nesta amostra tenham sido apreendidos n animais marcados e previamente determinados. 13.13.1 EXEMPLO Foram capturados e marcados 250 mergulhes e devolvidos, a seguir, ao respectivo hbitat. Decorridas duas semanas, programou-se a recaptura de 33 aves marcadas, sendo que o total da amostra para atingir esse objetivo foi de 120 indivduos. Estimar o tamanho da populao objeto da pesquisa. 13.13.2 INSTRUES a) Pressionar o mouse em Tamanho da populao (amostragem simples, mtodo inverso); b) Preencher as caixas de texto; c) Clicar em Executar, para resultados.
Figura 13.17 Tamanho da populao: mtodo inverso (Exemplo 13.13.1).
O tamanho da populao de mergulhes foi estimada em 909 indivduos, podendo o verdadeiro parmetro N ser um valor situado entre 643 e 1175 aves, definido pelo intervalo de confiana de 95%.
13.14 TAMANHO DA POPULAO (amostragem mltipla, populao fechada) O modelo para este teste o de Schumacher e Eschmeyer, considerando-se 'populao fechada' aquele universo que mantm constante seu tamanho durante o perodo de investigao. O procedimento desses autores baseia-se na regresso linear, com ajustes pelo mtodo dos mnimos quadrados.
- 177 -
13.14.2 INSTRUES a) Cada linha deve ter a seguinte disposio: Na linha 1: ni, nmero de animais capturados em cada amostra (marcados e no marcados); Na linha 2: mi, nmero de animais que j estavam marcados entre os capturados na amostra; Todos os animais capturados em cada amostra (ni ) so marcados, exceto os que j apresentavam a marca, portanto, quantificados na linha (mi ); b) Introduzir os dados no grid como mostra a Figura 13.18; c) Pressionar o mouse em Tamanho da populao (amostragem mltipla, mtodo de Schumacher e Eschmeyer); d) Selecionar as colunas do grid a partir da coluna 2, sendo neste exemplo de dois (2) a sete (7), totalizando as 6 amostras e clicar em Executar, para resultados.
Figura 13.19 Resultados do Exemplo 13.14.1.
Para obter o grfico desse Exemplo pressionar o mouse em Grfico da barra superior da Figura 13.19.
- 178 -
13.15 TAMANHO DA POPULAO (amostragem mltipla, populao aberta) O modelo para este teste o de Parker, considerando-se populao aberta aquele universo que altera seu tamanho por migraes, nascimentos e bitos , durante o perodo de investigao. O procedimento desse autor baseia-se na regresso linear, com ajustes pelo mtodo dos mnimos quadrados. De acordo com o autor, o intercepto constitui uma estimativa do quociente entre o nmero de indivduos marcados na populao e o tamanho do universo. Os dados devem ser introduzidos no grid geral do BioEstat, obedecendo aos seguintes critrios: NACMD = nmero de animais inicialmente capturados, marcados e devolvidos ao respectivo meio ambiente; perodos = nmero de perodos de recaptura (i = 1, 2, 3, ... , p); ni = nmero de indivduos capturados em cada amostra; mi = nmero de indivduos marcados e recapturados em cada amostra; 13.15.1 EXEMPLO (hipottico) Na regio de Mamirau, Estado do Amazonas, amostra de 3250 peixes de determinada espcie foram capturados, marcados e devolvidos ao meio ambiente. Posteriormente, efetuaram-se em cinco (5) perodos distintos e consecutivos novas capturas, contando-se, em cada apreenso, o nmero de animais capturados (marcados e no marcados). Os dados da Figura 13.21 indicam o procedimento da introduo dos dados no grid geral. Estimar o tamanho da populao e os intervalos de confiana de 95% e 99%. Tratando-se de amostragem mltipla e a populao sendo considerada aberta, o mtodo escolhido foi o de Parker.
- 179 -
O nmero estimado de animais da espcie em questo s e os respectivos intervalos de confiana esto contidos nos resultados.
- 180 -
CAPTULO 14
META-ANLISE
14.1 INTRODUO Define-se Meta-Anlise como um procedimento destinado a examinar, de modo simultneo, vrias investigaes, diversas pesquisas sobre um mesmo tpico. Esse tipo de estudo vem sendo largamente utilizado na esfera mdica, para, atravs de numerosos dados de vrios trabalhos sobre determinado assunto, aumentar o nvel de confiana nas inferncias estatsticas, com objetivos teraputicos e outros. Alguns estudos, como se sabe, sobre determinada matria, so concordantes, mas podem tambm ser contraditrios, o que aumenta a necessidade de anlises conjuntas para que se possa concluir com maior segurana. Embora o conceito de Meta-Anlise seja oriundo de uma escola de metodologia desenvolvida por Glass em 1976, estudos genticos sobre gentipos e fentipos j abrangiam esse conceito, conforme descrito por Sokal e Rohlf (Biometry, 1969), sob o ttulo "Replicated tests of goodness of fit" (pgina 575), ou seja, a combinao de vrias amostras com informaes sobre o mesmo assunto, para obter estimativas mais precisas das propores paramtricas. importante distinguir os efeitos observados entre os diversos estudos examinados em conjunto: 1 - quando diferem somente em decorrncia do erro amostral, ou seja, o verdadeiro efeito o mesmo em cada um dos estudos, na mesma direo e no devido a diferenas sistemticas em cada trabalho, diz-se que as amostras so homogneas e as diferenas so consideradas efeitos randmicos ou aleatrios; 2 - outras vezes os efeitos observados ultrapassam o esperado pelo erro amostral, existindo diferenas reais entre os estudos examinados. Quando isso ocorre, denominando-se o efeito, neste caso, de efeito fixo, o qual pode acontecer na mesma direo dos tratamentos efetuados - favorvel ou no - ou em diferentes direes benfico e adverso, sendo as amostras consideradas heterogneas. Alguns autores aplicam em tabelas 22 o teste do Qui-Quadrado de heterogeneidade. Quando o teste significativo, escolhem testes de efeitos aleatrios, como o de DerSimonian-Laird; caso contrrio, os de efeitos fixos, sendo o mais conhecido o de Mantel-Haenszel. Existem vrias discusses, contudo, sobre a escolha do teste, mas preciso lembrar ser fundamental preencher, pelo menos, estas recomendaes: a) as amostras devem ser aleatrias, representativas da populao em estudo; b) os experimentos devem ser controlados, escolhendo-se os indivduos de modo randmico para cada grupo. Estes procedimentos so designados na literatura inglesa como RCT (Randomized Controlled Trials);
- 181 -
CAPTULO 14 META-ANLISE
c) os critrios de tratamento devem ser semelhantes entre os estudos submetidos meta-anlise; d) rigorosa escolha dos trabalhos publicados, podendo-se incluir pesquisas ainda no editadas, desde que atendam os requisitos antes referidos. O BioEstat apresenta os seguintes aplicativos para Meta-Anlise: a) Efeito Aleatrio: DerSimonian-Laird: para k tabelas 2 x 2; b) Efeito Fixo: Dados Contnuos c) Efeito Fixo: Mantel-Haenszel e Odds Ratio: para k tabelas 2 x 2; d) p-valor (pw, combinado); e) Qui-Quadrado (aderncia): para k amostras; f) Qui-Quadrado (independncia): para k tabelas 2 x 2; g) Regresso (Bw): para k amostras; h) Risco relativo: para k tabelas 2 x 2; i) Teste G (aderncia): para k amostras; j) Vrias Correlaes (rw combinado); k) Vrias Propores (pw combinado). 14.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Meta-Anlise, conforme mostra a Figura 14.1; c) Introduzir os dados no grid geral ou nas caixas de texto, conforme o teste.
Figura 14.1 Menu de Meta-Anlise.
14.2 EFEITO ALEATRIO: DerSimonian-Laird Este teste recomendado quando o Qui-Quadrado da heterogeneidade significativo, aplicvel em k tabelas de contingncia 2 x 2. 14.2.1 EXEMPLO (dados hipotticos) Foram efetuados estudos sobre doena grave ocorrida em pessoas adultas, sendo, em todos esses estudos, um grupo submetido ao tratamento (A) e o outro ao tratamento tradicional (B). As amostras foram aleatrias e os indivduos de cada grupo escolhidos pelo processo de randomizao. Os resultados obtidos, aps o perodo de tratamento previamente estabelecido, foram os seguintes:
- 182 -
CAPTULO 14 META-ANLISE
Grupo A Tabelas (Estudos)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Sucessos (a)
181 214 118 100 1 217 163 109 906 345 212 33 24 30 100 250 180 307 100 1113 190 92 132 4270 369 123 293 1840 2000 6540
Insucessos (b)
29 69 36 3 31 60 40 21 110 80 30 17 16 1 1 173 29 41 6 37 40 16 10 268 48 1 18 67 43 33
Total
413 428 271 147 68 550 407 262 2029 564 493 100 88 88 133 844 406 713 210 2234 457 160 286 9052 833 223 622 3809 4075 8237
H0: a proporo de casos favorveis igual em ambos tratamentos; H1: a proporo de casos favorveis maior com o tratamento A; Nvel de deciso: alfa = 0.05. 14.2.2 INSTRUES a) Apontar e pressionar o mouse em Efeito Aleatrio: DerSimonian-Laird; b) Preencher as caixas de texto com os dados do Exemplo 14.2.1, Estudo 1; c) Clicar em Nova tabela e introduzir os dados do Estudo 2, e assim, sucessivamente, at o Estudo 30; d) Aps introduzir os ltimos dados, clicar em Executar, para resultados.
- 183 -
CAPTULO 14 META-ANLISE
Figura 14.2 Resultados do Exemplo 14.2.1.
O Odds Ratio (1.1486) significativo (p-valor = 0.0285) e contido no Intervalo de Confiana 95% (1.0149 a 1.2999), cujo limite inferior est acima da unidade (valor 1), rejeitando-se, portanto, a hiptese de nulidade. O teste de heterogeneidade foi significativo (p-valor = 0.0181), o que sugere o teste escolhido - DerSimonian-Laird. O tratamento A, em concluso, superior ao B. O nmero total de indivduos cuidados com os tratamentos referidos de 38202, conferindo maior relevncia aos resultados. Est tambm disponvel a anlise dos dados de cada amostra: Odds Ratio, Intervalos de Confiana (95%) e o Peso (inverso da varincia); para obter a tabela abaixo basta pressionar com o mouse em Anlise na barra da Figura 14.2.
Figura 14.3 Viso parcial da Anlise e da Meta-Anlise do Exemplo 14.2.1.
- 184 -
CAPTULO 14 META-ANLISE
Para obter o grfico Forest Plot pressionar o mouse em Grfico na barra da Figura 14.2, para resultado.
Figura 14.4 Grfico do Exemplo 14.2.1
O Odds Ratio (w) combinado est representado na parte inferior do grfico, sob a forma de um pequeno losango, cujo limite inferior maior que a unidade (1.015).
14.3 EFEITO FIXO: DADOS CONTNUOS Em determinadas situaes dispomos de vrios estudos sob a forma de dados contnuos, medidos em escala intervalar ou de razes, onde cada estudo compara duas amostras independentes. Essas pesquisas podem ser reunidas, desde que se tratem do mesmo tpico. 14.3.1 EXEMPLO (dados hipotticos) Duas drogas foram utilizadas no tratamento de indivduos com taxas elevadas de colesterolemia, cujas idades variavam entre 40 a 60 anos. A finalidade da pesquisa era testar o 'risco de aterosclerose' em dez (10) estudos independentes, do ponto de vista do Coeficiente Total/HDL. Dos dados coletados, registrou-se o tamanho das amostras, os valores mdios dos coeficientes obtidos e os respectivos desvios padres, dispostos no grid geral (Fig. 14.5), como segue: a) N (A): tamanho das amostras com a droga A; b) Mdia (A): mdia dos Coeficientes das amostras (tratamento A); c) DP (A): desvio padro das amostras (tratamento A);
- 185 -
CAPTULO 14 META-ANLISE
d) N (B): tamanho das amostras com a droga B; e) Mdia (B): mdia dos Coeficientes das amostras (tratamento B); f) DP (B): desvio padro das amostras (tratamento B);
Figura 14.5 Dados do Exemplo 14.3.1.
H0: no h diferena entre as mdias dos Coeficientes Total/HDL entre os tratamentos A e B: 1 = 0; H1: h diferena entre as mdias dos Coeficientes Total/HDL entre os tratamentos A e B: 1 0; Nvel de deciso: alfa = 0.05 14.3.2 INSTRUES a) Inserir os dados no grid geral, conforme mostra a Figura 14.5, obedecendo rigorosamente ordem e disposio dos dados nas colunas desse grid; b) Apontar e pressionar o mouse em Efeito Fixo: Dados Contnuos; c) Selecionar as seis (6) colunas do grid geral e Executar, para resultados.
Figura 14.6 Resultados do Exemplo 14.3.1.
Os resultados apresentam diferena muito significativa (p-valor = 0.0026) entre os dois tratamentos, podendo-se dizer que a mdia dos Coeficientes Total/HDL com a droga A inferior aos obtidos com a droga B (Mdia das diferenas = 0.2725). Foram testados 3792 indivduos no grupo A e 3701, no B, totalizando 7493 pessoas. Se desejar os dados de cada amostra (Mdia das Diferenas e respectivo Intervalo de Confiana de 95%), pressionar com o mouse em Anlise (Figura 14.6).
- 186 -
CAPTULO 14 META-ANLISE
Figura 14.7 Anlise e Meta-Anlise do Exemplo 14.3.1
Para obter a Figura 14.8: pressionar o mouse em Grfico na barra da Figura 14.6.
Figura 14.8 Grfico do Exemplo 14.3.1
A Mdia Geral das Diferenas (MD w) e os respectivos Intervalos de Confiana esto representados na parte inferior do grfico, sob a forma de um pequeno losango cujo limite superior menor que a unidade (-0.096). 14.4 EFEITO FIXO: MANTEL-HAENSZEL E ODDS RATIO Este teste tambm utilizado em anlise de sobrevivncia, mas indicado para avaliao dos chamados efeitos fixos, utilizando-se k tabelas 2 x 2. Calcula-se, simultaneamente, o valor do Odds Ratio e o respectivo intervalo de confiana. 14.4.1 EXEMPLO (Dados hipotticos) Estudos realizados durante cinco (5) anos em diferentes centros populacionais, sobre a ocorrncia de cncer pulmonar em fumantes e no fumantes, revelaram o seguinte:
- 187 -
CAPTULO 14 META-ANLISE
BELFAST Fumantes No Fumantes LISBOA Fumantes No Fumantes LONDRES Fumantes No Fumantes MADRI Fumantes No Fumantes BERLIM Fumantes No Fumantes
Com cncer 12 2 Com cncer 14 3 Com cncer 14 5 Com cncer 17 4 Com cncer 22 3
Sem cncer 598 613 Sem cncer 734 758 Sem cncer 709 742 Sem cncer 684 650 Sem cncer 918 832
H0: a prevalncia de cncer pulmonar (Efeito Fixo) em indivduos fumantes igual a da observada em pessoas no fumantes: 1 = 0; H1: a prevalncia de cncer pulmonar em indivduos fumantes diferente da observada em pessoas no fumantes: 1 0; Nvel de deciso: alfa = 0.01. 14.4.2 INSTRUES a) Apontar e pressionar o mouse em Efeito Fixo: Mantel-Haenszel e Odds Ratio; b) Preencher as caixas de texto com os dados da primeira tabela 2 x 2; c) Clicar em Nova tabela e introduzir os dados da segunda tabela e assim, sucessivamente, at a ltima; d) Clicar em Executar, para resultados.
- 188 -
CAPTULO 14 META-ANLISE
Figura 14.9 Resultados do Exemplo 14.4.1.
A meta-anlise, efetuada em amostras coletadas por vrios investigadores em cinco (5) cidades do continente europeu, revelou o seguinte: a diferena expressa em termos de Qui-quadrado estatisticamente muito significativa (p < 0.0001), ou seja, a proporo de indivduos fumantes com cncer pulmonar maior que a de no fumantes com essa neoplasia. O Odds Ratio indica que essa proporo quatro (4) vezes e meia maior entre fumantes, com intervalo de confiana (95%) de 2.71 a 7.76. O total de indivduos testados nessas cinco (5) amostras foi igual a 7334, o que confere maior confiabilidade nos resultados obtidos. O NNH obtido evidencia que em cada grupo de 61 fumantes deve ocorrer um (1) novo caso de cncer pulmonar no perodo de cinco (5) anos. O procedimento para se obter a Anlise dos Dados o mesmo dos exemplos anteriores, clicando em Anlise na barra da Figura 14.9.
Figura 14.10 Anlise e Meta-Anlise do Exemplo 14.4.1.
- 189 -
CAPTULO 14 META-ANLISE
Pressionar o mouse em Grfico na barra da Figura 14.9, para obter o resultado.
Figura 14.11 . Grfico do Exemplo 14.4.1.
O teste de Mantel-Haenszel altamente significativo e o Odds Ratio combinado, com o respectivo Intervalo de Confiana (95%), est representado pelo losango na parte inferior do grfico.
14.5 P-VALOR (pw combinado) Em alguns estudos, sobre o mesmo tpico, dispe-se apenas das probabilidades de erro na concluso de cada pesquisa de acordo com a hiptese formulada. H, assim, o p-valor de cada trabalho, sendo possvel, nesses casos, reuni-los para Meta-Anlise obtendo-se, ao final, um p-valor que representa o conjunto de dados submetidos ao teste. O p-valor de cada estudo transformado em logaritmo neperiano, aplicando-se, ao final, o teste do Qui-quadrado para obteno do valor combinado (w = pooled).
14.5.1 EXEMPLO Coletaram-se 15 estudos e as respectivas probabilidades (p-valor) de testes efetuados em amostras aleatrias, com o pressuposto de distribuio normal das populaes de onde eram oriundas e o conhecimento das varincias paramtricas. Foi aplicado o teste Z em cada um dos estudos efetuados. Os dados referidos esto parcialmente dispostos na Fig. 14.12.
- 190 -
CAPTULO 14 META-ANLISE
H0: as probabilidades dos testes submetidos Meta-Anlise no apresentam p-valor. combinado (w) significativo; H1: as probabilidades dos testes submetidos Meta-Anlise apresentam p-valor combinado (w) significativo; Nvel de deciso: alfa = 0.01.
Figura 14.12 Dados parciais do Exemplo 14.5.1.
14.5.2 INSTRUES a) Inserir os dados no grid geral conforme mostra a Figura 14.12; b) Apontar e pressionar o mouse em p-valor; c) Selecionar a coluna 2 e clicar em Executar, para resultados.
Figura 14.13 Resultados do Exemplo 14.5.1.
O Qui-quadrado com 30 graus de liberdade foi igual a 86.6554, cujo p-valor (w) altamente significativo (p < 0.0001). 14.6 QUI-QUADRADO (aderncia): PARA k AMOSTRAS Indicado para comparar vrias amostras em testes de aderncia para verificar se so ou no homogneas. 14.6.1 EXEMPLO Coletaram-se quatro (4) amostras sobre sazonalidade de nascimentos de crianas cujos pais residiam em localidades rurais ou urbanas do Mdio Solimes: Categoria A Nascimentos de maio a outubro (tempo menos chuvoso e de vazante do rio) Categoria B Nascimentos de novembro a abril (perodo chuvoso e de enchente do rio)
H0: Os desvios entre o Observado e o Esperado nas categorias de cada amostra no ocorrem na mesma direo, sendo as mesmas heterogneas; H1: Os desvios entre o Observado e o Esperado nas categorias de cada amostra ocorrem na mesmas direo, sendo as mesmas homogneas; Nvel de deciso: alfa = 0.05.
- 191 -
CAPTULO 14 META-ANLISE
14.6.2 INSTRUES a) Apontar o mouse em Qui-quadrado Aderncia: k amostras; b) Preencher as caixas de texto com o nmero de amostras e de categorias; c) Clicar em Ativar entrada de dados e, em seguida, preencher o grid especfico com os dados;
Figura 14.14 Dados do Exemplo 14.6.1.
As amostras so homogneas (p = 0.0218), ou seja, ocorreu, em todas as amostras, maior nmero de nascimentos no perodo chuvoso e de enchente do rio (Categoria B). No h evidncia de heterogeneidade das amostras (p = 0.5245).
14.7 QUI-QUADRADO (independncia): PARA k TABELAS 2 x 2 Da mesma forma, neste teste procura-se verificar se as amostras foram retiradas da mesma populao, isto , se so homogneas ou no. 14.7.1 EXEMPLO Em oito localidades endmicas de malria efetuou-se pesquisa de controle de casos (hospitalares), registrando-se os indivduos que eram admitidos com manifestaes sugestivas da doena, oriundos da zona urbana ou da rea rural, confirmando-se ou
- 192 -
CAPTULO 14 META-ANLISE
no o diagnstico a posteriori. As propores de casos positivos e negativos de cada municpio foram estas: ZONA
URBANA RURAL
Municpio A
POSITIVO NEGATIVO
Municpio B
POSITIVO NEGATIVO
Municpio C
POSITIVO NEGATIVO
Municpio D
POSITIVO NEGATIVO
35 70
50 55
48 74
56 60
17 29
18 20
30 73
52 39
ZONA
URBANA RURAL
Municpio E
POSITIVO NEGATIVO
Municpio F
POSITIVO NEGATIVO
Municpio G
POSITIVO NEGATIVO
Municpio H
POSITIVO NEGATIVO
33 75
52 50
43 78
66 47
31 78
55 40
31 74
59 38
Os totais gerais foram estes: a) Zona Urbana: testes positivos 268 casos; b) Zona Urbana: testes negativos 408 casos; c) Zona Rural: testes positivos 551 casos; d) Zona Rural: testes negativos 349 casos; e) Total geral = 268 + 408 + 551 + 349 = 1576 casos H0: a incidncia da malria no est relacionada com a rea de residncia dos pacientes; H1: a incidncia da malria ocorre com mais freqncia em pessoas residentes na zona rural, havendo, portanto, associao; Nvel de deciso: alfa = 0.01. 14.7.2 INSTRUES a) Apontar o mouse em Qui-quadrado (independncia): para k tabelas 2 x 2, preenchendo as caixas de texto com os valores das tabelas; b) Aps introduzir a ltima tabela (municpio H, nesse exemplo), clicar em Executar, para resultados.
Figura 14.17 Resultados do Exemplo 14.7.1.
- 193 -
CAPTULO 14 META-ANLISE
O Qui-Quadrado de associao muito significativo (p < 0.0001), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa. A incidncia de malria maior nas zonas rurais do que nas urbanas nos oito municpios investigados, compreendendo 1576 pessoas. As amostras no so heterogneas.
14.8 REGRESSO (Bw): PARA k AMOSTRAS Trata-se de verificar se vrias amostras, no que diz respeito aos coeficientes de regresso linear e aos interceptos, provieram do mesmo universo. Trata-se de uma combinao das anlises de varincia e de regresso, conhecida como Anlise de Covarincia ou ANCOVA. O programa determina, ainda, o coeficiente de regresso (b) e o intercepto (a) de cada amostra, bem como o coeficiente de regresso conjunto, tambm denominado pooled regression, simbolizado por Bw. A homogeneidade dos coeficientes de regresso e dos interceptos determinada pela anlise de varincia, constatando-se ou no se eles so oriundos da mesma populao, ou seja, se so homogneos ou heterogneos. As amostras podem ser de diferentes tamanhos. 14.8.1 EXEMPLO Registrou-se a presso arterial diastlica (P.A.D.) de pessoas do sexo feminino, cujas idades variavam de 39 a 73 anos, selecionando-se, ao acaso, trs amostras obtidas em diferentes cidades, cada uma constituda de oito (8) indivduos. O objetivo do estudo verificar se a relao entre a idade e a P.A.D. homognea, para as trs amostras levantadas. As hipteses formuladas foram as seguintes: H0: Os coeficientes de regresso so iguais, pois as amostras foram retiradas da mesma populao: b1 = b2 = b3; H1: Os coeficientes de regresso so desiguais, pois as amostras foram retiradas de populaes diferentes: pelo menos um bi bj ; H0: Os interceptos so iguais, pois as amostras foram retiradas da mesma populao: a1 = a2 = a3; H1: Os interceptos so desiguais, pois as amostras foram retiradas de populaes diferentes: pelo menos um ai aj ; Nvel de deciso: alfa = 0.05.
Figura 14.18 Dados do Exemplo 14.8.1.
Note que neste teste a ordem de seleo das colunas requer que para cada par (Y,X) a varivel dependente (Y) deve preceder a varivel independente (X).
- 194 -
CAPTULO 14 META-ANLISE
14.8.2 INSTRUES a) Preencher o grid geral com os escores amostrais, introduzindo na primeira coluna os valores da varivel P.A.D. (Y1) e na seguinte, os valores da varivel Idade (X1) e, de modo sucessivo, para as demais amostras; b) Clicar em Regresso (Bw): para k amostras e selecionar as colunas do grid geral; c) Clicar em Executar, para resultados.
Figura 14.19 Resultados do Exemplo 14.8.1.
A anlise comparativa dos coeficientes de regresso exibe um valor de F (Regresso) no-significativo, pois p = 0.5063, para 2,18 graus de liberdade, aceitando-se por isso a hiptese de nulidade. O mesmo pode-se afirmar da anlise comparativa dos interceptos, cujo valor de F (Interceptos) no significativo, sendo p = 0.9359, com 2,20 graus de liberdade. Assim, os coeficientes de regresso das amostras (b1, b2 e b3) so homogneos, o mesmo acontecendo com os interceptos (a1, a2 e a3). Conclui-se que as amostras so homogneas. O coeficiente de regresso conjunto - pooled regression - igual a 1.1327 (Bw), F (Bw) igual a 80.11, cujo p-valor menor que 0.0001, muito significativo. A Figura 14.19 exibe, ainda, os valores do intercepto (a) e do coeficiente de regresso (b) de cada amostra. 14.9 RISCO RELATIVO (w): PARA k TABELAS 2 x 2 Da mesma forma que se calcula o "Odds Ratio" (Teste de Mantel-Haenszel) em tabelas 2 x 2, pode-se verificar o Risco Relativo (RR), como se demonstra a seguir. 14.9.1 EXEMPLO O exemplo 14.4.1 e as respectivas tabelas 2 x 2, com as seguintes hipteses: H0: o risco relativo de cncer pulmonar em indivduos fumantes igual ao observado em pessoas no fumantes; H1: o risco relativo de cncer pulmonar em indivduos fumantes maior que o observado em pessoas no fumantes; Nvel de deciso: alfa = 0.01.
- 195 -
CAPTULO 14 META-ANLISE
14.9.2 INSTRUES a) Apontar e pressionar o mouse em Risco Relativo: para k amostras 2 x 2; b) Preencher as caixas de texto com os dados da primeira tabela 2 x 2; c) Clicar em Nova tabela e introduzir os dados da segunda tabela e assim, sucessivamente, at a ltima tabela (quinta, neste exemplo); d) Aps introduzir a ltima tabela, clicar em Executar, para resultados.
Figura 14.20 Resultados do Exemplo 14.9.1.
O Risco Relativo de cncer pulmonar cerca de quatro (4) vezes maior em fumantes do que em no fumantes, sendo a diferena muito significativa (p < 0.0001). As amostras so homogneas, ou seja, na mesma direo, como pode ser visto no resultado do teste do Qui-quadrado de homogeneidade = 35.26 e p < 0.0001. O procedimento para se obter a Anlise dos Dados o mesmo dos exemplos anteriores, clicando-se em Anlise na barra da Figura 14.20. O NNH obtido evidencia em cada grupo de 61 fumantes deve ocorrer um (1) novo caso de cncer pulmonar no perodo de cinco (5) anos.
Figura 14.21 Anlise e Meta-Anlise do Exemplo 14.9.1
- 196 -
CAPTULO 14 META-ANLISE
O Risco Relativo combinado altamente significativo e est representado pelo losango na parte inferior do grfico, com os respectivos intervalos de confiana (95%), e cujo limite inferior maior que a unidade (2.829 > 1).
14.10 TESTE G (aderncia): PARA k AMOSTRAS O teste G de aderncia semelhante ao teste do Qui-Quadrado de aderncia para vrias amostras, sendo que os valores esperados em cada categoria esto dispostos em somente uma coluna, em nmeros decimais. 14.10.1 EXEMPLO O mesmo exemplo do Qui-Quadrado (Exemplo 14.6.1), para o teste de Homogeneidade (aderncia) com quatro (4) amostras, sobre sazonalidade de nascimentos de crianas cujos pais residiam em localidades rurais ou urbanas do Mdio Amazonas, estando os dados assim dispostos: Categoria A: nascimentos de maio a outubro; Categoria B: nascimentos de novembro a abril. H0: os desvios entre os valores observados e os esperados em cada categoria no ocorrem na mesma direo: as amostras so heterogneas; H1: os desvios entre os valores observados e os esperados em cada categoria ocorrem nas mesmas direes: as amostras so homogneas; Nvel de deciso: alfa = 0.05.
- 197 -
CAPTULO 14 META-ANLISE
14.10.2 INSTRUES a) Apontar o mouse em Teste G (aderncia): para k amostras, surgindo a Figura 14.23; b) Preencher as caixas de texto com o nmero de amostras e o de categorias, 4 e 2, respectivamente, no presente caso; c) Clique em Ativar entrada de dados;
Figura 14.23 Quantidade de amostras e de categorias.
d) Preencher, a seguir, com os dados amostrais, as caixas de texto conforme demonstrado na Figura 14.24, clicando em Executar, para resultados.
Figura 14.24 Entrada de dados do Teste G.
Exemplo_14_10_1
Os resultados mostram que as amostras so homogneas, com valores observados e esperados na mesma direo, sendo o teste significativo com p-valor igual a 0.0217. Aceita-se a hiptese de alternativa, rejeitando-se a hiptese alternativa. Os resultados so semelhantes aos obtidos no teste de Homogeneidade (aderncia) pelo QuiQuadrado, sendo tambm o teste G Heterogeneidade no significativo (p = 0.5234).
14.11 VRIAS CORRELAES (rw combinado) Destinado a testar vrios coeficientes de correlao linear (r), no sentido de verificar se foram retirados da mesma populao, ou seja, se as amostras de onde provieram apresentam homogeneidade.
- 198 -
CAPTULO 14 META-ANLISE
14.11.1 EXEMPLO Pesquisa realizada sobre a associao linear entre peso e estatura de recm-nascidos foi efetuada em trs (3) maternidades, com a finalidade de verificar se as amostras eram homogneas. Cada amostra, independentemente do tamanho, tem um valor de r correspondente ao grau de associao entre as duas variveis analisadas. H0: r1 = r2 = r3; H1: pelo menos ri rk; Nvel de deciso: alfa = 0.05. 14.11.2 INSTRUES a) Pressionar o mouse em Vrias correlaes: homogeneidade; b) Preencher a tela seguinte (Figura 14.26) com o nmero de amostras a testar, sendo trs (3) neste exemplo, pressionando-se, ento, em Montar Grid;
Figura 14.26 Nmero de amostras. (Exemplo 14.11.1). Figura 14.27 Dados do Exemplo 14.11.1.
c)
Figura 14.28 Resultados do Exemplo 14.11.1.
Preencher ento o grid especfico com o Tamanho de cada amostra e o respectivo valor de r (Figura 14.27) e clicar em Executar para resultados.
O p-valor ajustado (0.0041) do teste com todas as amostras muito significativo, rejeitando-se a hiptese de nulidade: as amostras so heterogneas. Quando os valores de r so comparados entre si, constata-se que h diferena significativa entre os coeficientes das amostras 2 e 3 (p < 0.05) e muito significativa entre aqueles representados pelas amostras 1 e 3 (p < 0.01). Observa-se, ainda, que no h diferena significativa entre os coeficientes das amostras 1 e 2 (ns).
- 199 -
CAPTULO 14 META-ANLISE
14.12 VRIAS PROPORES (pw combinado) Em determinados estudos h interesse em comparar vrias propores no sentido de determinar se elas provieram ou no do mesmo universo, podendo ser efetuada a pesquisa por este modelo de procedimento. 14.12.1 EXEMPLO Procurou-se avaliar se os resultados da contagem de linfcitos na frmula leucocitria do sangue perifrico eram influenciados pelos tipos de aparelhos eletrnicos atualmente utilizados pelos laboratrios clnicos. Retirou-se amostra sangnea de um indivduo considerado clinicamente normal e efetuou-se o procedimento laboratorial em quatro (4) aparelhos de marcas diferentes: A, B, C e D. Os resultados foram estes:
Figura 14.29 Dados do Exemplo 14.12.1.
H1: H diferena nas propores de linfcitos obtidas nos aparelhos testados: pelo
menos duas propores so desiguais; pi pj;
O Qui-Quadrado obtido igual a 8.9866 (gl = 3) e o p-valor (w) = 0.0295, rejeitandose a hiptese de nulidade. Observa-se que as propores 1 (A) e 2 (B) apresentam
- 200 -
CAPTULO 14 META-ANLISE
diferena estatisticamente significativa (p < 0.05) e nas demais comparaes os resultados no so significativos (ns). Pressionar o mouse em Grfico na barra da Figura 14.30.
Figura 14.31 Grfico do Exemplo 14.12.1.
Pelo teste efetuado, no qual o pw-valor estatisticamente significativo, fica evidente que as amostras 1 (A) e 2 (B) apresentam diferenas do ponto de vista estatstico, com erro de concluso inferior a 5% (p < 0.05).
- 201 -
CAPTULO 14 META-ANLISE
- 202 -
CAPTULO 15
NORMALIDADE
15.1 INTRODUO Uma das pressuposies dos testes estatsticos paramtricos diz respeito distribuio normal das variveis nas populaes. Quando se retira, portanto, uma amostra para esses modelos de testes, deve-se supor que as unidades do universo em questo apresentem distribuio normal. Vrios testes tm sido descritos para a identificao da normalidade das variveis. O BioEstat apresenta os seguintes: a) Teste DAgostino, para n 10 e k amostras; b) Teste DAgostino-Pearson, para n 20 e k amostras; c) Teste de Kolmogorov-Smirnov, para uma amostra; d) Teste de Lilliefors, para k amostras; e) Teste de Shapiro-Wilk, para: 2 < n > 51 e k amostras; f) Teste para Valores Extremos (base nos desvios); g) Teste para Valores Extremos (base nos quartis). 15.1.1 INSTRUES a) Introduzir os dados no grid padro do BioEstat; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Normalidade, conforme mostra a Figura 15.1.
Figura 15.1 Menu Normalidade.
15.2 TESTE DAGOSTINO (k amostras) Trata-se de um teste para pequenas amostras, mas cujo valor de n deve ser igual ou superior a dez (10) unidades. Os resultados so comparados com os valores crticos previamente estabelecidos. A hiptese de nulidade, portanto de normalidade, deve ser rejeitada quando o valor calculado menor ou igual que o valor crtico mnimo ou igual ou maior que o valor crtico mximo. recomendvel, ainda, que os resultados sejam fornecidos em cinco (5) decimais, uma vez que o valor estatstico do desvio (D) pode ser muito pequeno. Pode ser efetuado para vrias (k) amostras simultaneamente. 15.2.1 EXEMPLO Foram determinados os nveis de glicemia (mg/dL) de quinze (15) crianas escolares, obtendo-se os valores constantes no grid padro, Figura 15.2. H0: a distribuio da varivel apresenta normalidade; H1: a distribuio da varivel no atende o pressuposto de normalidade; Nvel de deciso: alfa = 0.05.
- 203 -
CAPTULO 15 NORMALIDADE
15.2.2 INSTRUES a) Pressionar o mouse em DAgostino (k amostras); b) Selecionar a coluna correspondente amostra do grid geral; c) Clicar em Executar, para resultados.
Figura 15.3 Resultados do teste DAgostino (Exemplo 15.2.1.)
O D obtido igual a 0.2812, o qual est contido nos limites dos valores crticos tabelados ao nvel alfa de 5%, traduzindo um p > 0.05. A varivel em questo apresenta distribuio normal. 15.3 TESTE DAGOSTINO-PEARSON (k amostras) Este teste baseia-se nas medidas de simetria (g1) e curtose (g2) e o p-valor calculado pelo Qui-Quadrado com dois (2) graus de liberdade. Deve ser utilizado para amostras iguais ou maiores que 20 unidades, com uma ou k amostras. 15.3.1 EXEMPLO O peso (g) de sementes de uma espcie de leguminosa foi calculado de amostra aleatria de 30 unidades, cujos valores esto inseridos no grid geral. H0: a varivel peso das sementes da leguminosa normalmente distribuda; H1: a varivel peso das sementes da leguminosa no normalmente distribuda; Nvel de deciso: alfa = 0.05. 15.3.2 INSTRUES a) Pressionar o mouse em DAgostino-Pearson (k amostras); b) Selecionar a coluna do grid geral correspondente amostra; a) Clicar em Executar, para resultados.
- 204 -
CAPTULO 15 NORMALIDADE
O p-valor igual a 0.2195, aceitando-se a hiptese de nulidade. A varivel estudada apresenta distribuio normal. 15.4 TESTE DE KOLMOGOROV-SMIRNOV Este teste j foi descrito em detalhes no Captulo 9, referente a testes para uma amostra. Assim sendo, o exemplo e os resultados podem ser vistos nesse captulo e o teste compreende: a) Introduo dos dados amostrais no grid geral; b) Pressionar o mouse em Kolmogorov-Smirnov; c) Selecionar a coluna do grid referente aos dados amostrais; d) Clicar em Executar; e) Preencher as caixas de texto com os parmetros do universo em estudo (mdia e desvio padro); f) Clicar em OK, para resultados. 15.5 TESTE DE LILLIEFORS (k amostras) O teste de Lilliefors j est descrito no Captulo 9, para uma amostra. Efetuar o mesmo teste, mas com cinco (5) amostras de modo simultneo. 15.5.1 EXEMPLO Foram coletadas cinco (5) amostras, cada uma representando diferentes populaes. Testar a normalidade dessas amostras pelo Teste de Lilliefors. H0: as amostras apresentam normalidade em suas distribuies; H1: as amostras no apresentam normalidade em suas distribuies; Nvel de deciso: alfa = 0.05. 15.5.2 INSTRUES a) Introduzir os dados de cada amostra no grid geral; b) Pressionar o mouse em Lilliefors (k amostras); c) Selecionar as colunas do grid referentes aos dados amostrais; d) Clicar em Executar, para resultados.
- 205 -
CAPTULO 15 NORMALIDADE
O teste de Lilliefors mostra anormalidade nas amostras 2 e 5, cujos valores de p correspondem a < 0.05 e < 0.01, respectivamente. As demais amostras no apresentam diferenas significativas (p > 0.05), podendo-se consider-las como representantes de populaes com normalidade de distribuio. 15.6 TESTE DE SHAPIROWILK (k amostras) O teste de Shapiro-Wilk teste W obtido dividindo-se o quadrado da combinao linear apropriada dos valores ordenados da amostra pela varincia simtrica estimada. O BioEstat calcula este teste para amostras: 2 < n < 51. O teste pode ser efetuado para k amostras de modo simultneo. 15.6.1 EXEMPLO (hipottico) Foram escolhidas de modo aleatrio 42 laranjas, cujos pesos esto inseridos no grid geral, Figura 15.7. As hipteses formuladas foram as seguintes: H0: a varivel peso das laranjas normalmente distribuda; H1: a varivel peso das laranjas no apresenta normalidade em sua distribuio; Nvel de deciso: alfa = 0.05.
Figura 15.7 Viso parcial dos dados do Exemplo 15.6.1.
- 206 -
CAPTULO 15 NORMALIDADE
15.6.2 INSTRUES a) Pressionar o mouse em Shapiro-Wilk (k amostras); b) Selecionar a coluna correspondente amostra do grid geral; c) Clicar em Executar, para resultados.
Figura 15.8 Resultados do Teste de ShapiroWilk do Exemplo 15.6.1.
O p-valor obtido igual a 0.0137, rejeitando-se a hiptese de nulidade. 15.7 TESTE DE VALORES EXTREMOS, modelo com base nos desvios (OUTLIERS) A determinao dos chamados valores extremos ou outliers pode ser desejada, uma vez que podem desempenhar importante papel nas concluses das pesquisas. Um valor extremo pode ser introduzido em um conjunto de observaes em decorrncia de falha na coleta de dados, de erro no registro durante a coleta, na introduo equivocada desse escore no momento da execuo dos clculos ou, ainda, do fato de que o valor extremo obtido est correto. Torna-se, por conseguinte, importante sua identificao, devendo-se tomar, conforme o caso, as medidas adequadas. O BioEstat identifica os valores extremos contidos em uma s amostra, sem considerar, contudo, sua origem. De acordo com a experincia de Rosner (2006), o programa determina a quantidade de possveis outliers com base na equao min({n/10},5), onde n o tamanho da amostra e cinco (5) a quantidade mxima de valores extremos que podem ser detectados em uma distribuio normal. 15.7.1 EXEMPLO (baseado nos desvios) Foi efetuada coleta de 50 peixes de uma determinada espcie em um lago criatrio, cujos escores esto no grid geral. Parte da amostra est contida na Figura 15.9. H0: No h valores extremos na amostra obtida; H1: H valores extremos na amostra obtida; Nvel de deciso: alfa = 0.05.
Figura 15.9 Viso parcial dos dados do Exemplo 15.7.1.
- 207 -
CAPTULO 15 NORMALIDADE
15.7.2 INSTRUES a) Preencher o grid geral com os dados amostrais; b) Pressionar o mouse em Valores Extremos (base nos desvios); c) Selecionar a coluna correspondente aos dados; d) Clicar em Executar;
Figura 15.10 Resultados do Teste de Valores Extremos, com base nos desvios (Outliers).
O valor 65 kg considerado um valor extremo com p < 0.05. Se esse escore no for excludo da amostra, o peso mdio dos peixes ser de 19.418 kg e, com sua excluso, passa a ser igual a 18.4878 kg. H, portanto, diferena de 0.93 kg entre esses valores mdios. Deve-se, assim, verificar a origem do valor extremo referido. Como neste exemplo, n = 50, logo n/10 igual a 5, ento o programa admitiu a possibilidade de existirem at 5 outliers, como demonstrado na Figura 15.10.
Valor Extremo = 65
- 208 -
CAPTULO 15 NORMALIDADE
15.8 TESTE DE VALORES EXTREMOS, modelo com base nos quartis (OUTLIERS) A determinao dos valores extremos pode ser calculada com base nos quartis, onde os outliers sero: a) Os escores menores que o limite inferior, com base no primeiro quartil ajustado; b) Os escores maiores que o limite superior, baseado no terceiro quartil ajustado.
O BioEstat identifica, como se ver em seguimento, os valores extremos contidos em uma s amostra, sem considerar, contudo, sua origem.
15.8.1 EXEMPLO (baseado nos quartis) O exemplo o mesmo descrito no item 15.7.1, Figura 15.9.
H0: No h valores extremos na amostra obtida; H1: H valores extremos na amostra obtida; Nvel de deciso: alfa = 0.05.
15.8.2 INSTRUES e) Preencher o grid geral com os dados amostrais; f) Pressionar o mouse em Valores Extremos (base nos quartis); g) Selecionar a coluna correspondente aos dados; h) Clicar em Executar.
Figura 15.12 Resultados do Exemplo 15.8.1, baseado nos quartis.
Os escores 65 e 32 so considerados valores extremos, eis que se encontram acima do limite superior. Pelo mtodo anterior, com base nos desvios, apenas o escore 65 foi considerado outlier.
- 209 -
CAPTULO 15 NORMALIDADE
- 210 -
CAPTULO 16
QUI-QUADRADO
16.1 INTRODUO O teste do Qui-Quadrado um dos mais empregados em pesquisas biomdicas, sendo aplicado para dados mensurados em escala nominal ou ordinal. Os testes de aderncia e de independncia do Qui-Quadrado e o teste G j foram exibidos nos captulos relativos a uma e duas amostras independentes. Por sua vez, os testes envolvendo vrias amostras sobre o mesmo assunto, tanto de aderncia como o de n tabelas de contingncia, esto dispostos agora no Captulo 14 sobre MetaAnlise. Este Captulo, embora abranja os testes de Aderncia e de Independncia, inclui exemplos apenas dos aplicativos de Partio e de Tendncia: a) b) c) d) e) Uma amostra (Aderncia): Qui-Quadrado, Captulo 9; Duas amostras independentes: l x c, Captulo 10; Partio: l x c; Resduos do Qui-Quadrado; Teste de Tendncia.
16.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Qui-Quadrado, quando surgir a figura abaixo:
Figura 16.1 Menu do QuiQuadrado.
16.2 PARTIO O teste de independncia do Qui-Quadrado destinado para duas amostras dispostas em tabelas de contingncia l x c: 2 x 3, 3 x 3, 3 x 4 etc. Nessas tabelas, quando o resultado significativo (p-valor 0.05), no se pode saber com preciso em qual dos conjuntos testados ocorreu a associao estatstica. A partio dessas tabelas de contingncia em outras de tamanho 2 x 2, cada uma com um grau de liberdade, permite esclarecer o problema. Inicia-se a partilha pelo canto superior esquerdo da tabela geral, combinando-se linhas e colunas at abranger o todo.
- 211 -
H0: A produo de trigo independe do grau de infestao do cereal pela lagarta; H1: A produo de trigo depende do grau de infestao do cereal pela lagarta; Nvel de deciso: alfa = 0.01. 16.2.2 INSTRUES a) Clicar o mouse em Partio: L x C; b) Selecionar as colunas do grid geral; c) Clicar em Executar o Teste, para obter os resultados.
Figura 16.3 Resultados do Exemplo 16.2.1.
Pelos resultados pode-se concluir que as colheitas com infestao leve e moderada no apresentam diferena estatstica significativa (p = 0.3561). Quando comparadas, entretanto, com s infestaes alta e muito alta, parties 2:3 (2 linhas e 3 colunas) e 2:4 (duas linhas e 4 colunas), verifica-se que as discrepncias so muito significativas (p-valor = 0.0042 e p-valor = 0.0098, respectivamente). Se fosse efetuado o teste de independncia, o Qui-Quadrado seria altamente significativo (p-valor = 0.0013, 2 = 15.7086), mas no informaria as propores de interesse no caso: colheitas Satisfatrias e Insatisfatrias. 16.3 ANLISE DE RESDUOS DO QUI-QUADRADO O Teste de Resduos realizado em tabelas de contingncia L x C, o qual colabora na interpretao do Qui-Quadrado, eis que determina a importncia probabilstica de cada uma das caselas, complementando com mais especificidade o Teste de Partio, pois possvel comparar os resultados de cada valor obtido com a probabilidade padronizada da curva normal, uma vez que o denominador da equao final dos Resduos comparvel ao erro padro. Desse modo, o teste do Qui-Quadrado adquire
- 212 -
H0: Os valores das caselas, aps ajustamento, no apresentam diferena significativa; H1: Os valores das caselas, aps ajustamento, apresentam diferena significativa; Nvel de deciso: alfa = 0.05. 16.3.2 INSTRUES a) Clicar o mouse em Resduos; b) Selecionar as colunas do grid geral; c) Clicar em Executar o Teste, para obter os resultados.
Figura 16.5 Resultados do Exemplo 16.3.1.
Os valores apresentados na Figura 16.5 expressam a contribuio de cada casela para a respectiva avaliao probabilstica, demonstrando que os valores da linha 5 foram mais expressivos nos resultados obtidos, revelando dados probabilsticos inferiores a 0.01. Quando se calcula o Qui-Quadrado de Partio observa-se a confirmao dos resduos obtidos.
16.4 TESTE DE TENDNCIA O Teste de Tendncia realizado em k amostras, cada uma com duas categorias (A e B), em tabelas 2 x k. Cada amostra reflete determinados perodos de tempo, os quais devem ser espaados de maneira regular. O objetivo determinar o aumento ou diminuio do evento sucesso nas amostras, ou seja, se h alguma Tendncia crescente ou decrescente ou se inexiste qualquer associao dos eventos com os perodos investigados.
- 213 -
H0: No h tendncia de maior nmero de indivduos com hipertrofia prosttica com o aumento da idade; H1: H tendncia de maior nmero de indivduos com hipertrofia prosttica com o aumento da idade; Nvel de deciso: alfa = 0.05. 16.4.2 INSTRUES a) Clicar o mouse em Teste de Tendncia; b) Preencher o grid especfico com os dados;
Figura 16.6 Dados do Exemplo 16.4.1.
A tendncia aumentar o nmero de casos de hipertrofia prosttica medida que o indivduo acresce a idade. O teste significativo (p = 0.0367), indicando tendncia crescente pelo valor positivo de A (52.8443). Rejeita-se a hiptese de nulidade e aceita-se a alternativa. A seo 22.14.4, do captulo Frmulas Estatsticas, define a varivel A. Quando A > 0, a tendncia crescente; e se A < 0, a tendncia decrescente.
- 214 -
CAPTULO 17
ANLISE DE REGRESSO
17.1 INTRODUO No estudo de correlao procura-se verificar a magnitude e o sentido da associao que possa existir entre duas variveis, sem haver qualquer grau de dependncia de uma em relao outra. No teste de regresso, ao contrrio, a finalidade determinar a dependncia de uma varivel em relao chamada varivel independente ou preditora. O BioEstat contm os seguintes programas de regresso: a) Regresso linear simples; b) Regresso linear mltipla; c) Ajustamento de curvas; d) Anlise de Resduos da Regresso; e) Regresso logstica simples; f) Regresso logstica mltipla; g) Regresses polinomiais; h) Regresses passo-a-passo (Stepwise regression) i) Regresso: comparao de duas regresses lineares 17.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Regresso, quando surgir a figura abaixo:
Figura 17.1 Menu dos Aplicativos de Regresso. .
17.2 REGRESSO LINEAR SIMPLES um dos modelos de regresso de largo emprego nas pesquisas biomdicas, no qual procura-se predizer o valor de uma varivel dependente (Y) a partir de uma varivel independente (X) ou preditora, pressupondo que elas assumam modelo linear. 17.2.1 EXEMPLO Determinou-se a presso arterial diastlica (P.A.D.) de 20 indivduos do sexo masculino, registrando-se a idade, em anos, de cada pessoa. Os dados obtidos esto inseridos no grid geral.
- 215 -
17.2.2 INSTRUES a) Preencher o grid geral com os escores amostrais, representando a primeira coluna os valores da varivel Y (dependente) e a segunda os escores da varivel X (independente); b) Clicar em Linear Simples e selecionar as colunas do grid geral; c) Clicar em Executar o Teste, para resultados.
Figura 17.3 Resultados do Exemplo 17.2.1.
O valor de F (regresso) muito significativo (p = 0.0011), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa: a presso arterial diastlica acresce medida que aumenta a idade do homem. Constata-se, neste exemplo, pelo coeficiente de determinao ajustado (R2), que 44.49% da varivel dependente explicada pela varivel preditiva, devendo outros fatores atuar como preditores do aumento da P.A.D.
- 216 -
17.3 REGRESSO LINEAR MLTIPLA A regresso mltipla linear semelhante regresso linear simples, mas a quantidade de variveis independentes ou preditoras de duas ou mais. 17.3.1 EXEMPLO Foi efetuada pesquisa em doze (12) indivduos do sexo masculino, com idades variando de 30 a 55 anos, determinando-se: Y: creatininemia em mg/dL; X1: idade em anos; X2: peso em kg; X3: estatura em cm.
Figura 17.5 Viso parcial dos dados do Exemplo 17.3.1.
H0: o nvel srico da creatinina no dependente da idade e/ou do peso e/ou da estatura: 1 = 0, 2 = 0, 3 = 0; H1: o nvel srico da creatinina dependente da idade e/ou do peso e/ou da estatura: pelo menos um i 0; Nvel de deciso: alfa 0.05.
- 217 -
O valor de F (regresso) significativo (p = 0.0399), rejeitando-se a hiptese de nulidade e aceitando-se a alternativa: pelo menos uma das variveis independentes X1, X2 ou X3 influencia o nvel srico de creatinina. Entre os coeficientes parciais de regresso somente o b1 estatisticamente significativo (t = 2.3102, p = 0.0496), sendo, portanto, X1 a varivel que mais explica a variao de Y. O nvel srico de creatinina (Y) deve aumentar 0.0223 mg/dL para cada acrscimo de uma unidade de X1 (cada ano de idade, a partir de 39 e at 55). Dados sobre os coeficientes de determinao (R2) e de correlao mltiplos (Ryy) esto contidos nos resultados, assinalando-se, ainda, a comparao entre os coeficientes parciais de regresso.
- 218 -
17.4 AJUSTAMENTO DE CURVAS Em algumas pesquisas, nas quais se procura analisar a relao de dependncia entre duas variveis, o modelo de distribuio pode no ser linear, eis que os dados podem se ajustar a uma distribuio exponencial, logartmica ou geomtrica. Torna-se mais fcil efetuar a regresso das variveis em questo de maneira simultnea, verificandose, pelo coeficiente de determinao, qual a curva que mais se ajusta aos escores coletados. 17.4.1 EXEMPLO Supondo-se que, em determinado experimento, os escores amostrais foram submetidos ao teste de regresso. Os dados sobre as variveis X e Y, independente e dependente, respectivamente, esto inseridos no grid geral. Efetuar o ajustamento.
Figura 17.9 Dados do Exemplo 17.4.1.
- 219 -
Considerando os valores dos Coeficientes de Determinao (R2), constata-se que as regresses logartmica e geomtrica, 98% e 97%, respectivamente, so as curvas que mais se ajustam aos dados obtidos no experimento. Em ordem decrescente, o ajustamento seria o seguinte: a) Logartmica, com R2 = 98.48%; b) Geomtrica, com R2 = 97.48%; c) Linear, com R2 = 73.73%; d) Exponencial, com R2 = 58.88%. Assim, a estimao da varivel dependente pela preditora deve obedecer ao modelo logartmico:
17.5 ANLISE DE RESDUOS Na anlise de regresso, a predio da varivel dependente Y efetuada diretamente atravs do escore da varivel independente X e dos coeficientes respectivos, pela = a + bX . No entanto, de modo indireto, pode-se examinar a varivel equao: Y dependente pela avaliao dos resduos, ou seja, dos escores ei, os quais so obtidos i ) , que estimam os valores paramtricos i. A pela conhecida diferena: ei = ( y i y mdia dos resduos sempre igual a zero, obtendo-se a varincia pela equao da soma dos quadrados e respectivo quadrado mdio. Essa anlise pode ser til para verificar os seguintes pressupostos: a) homogeneidade das varincias dos valores de Y; b) linearidade dos valores observados; c) normalidade dos escores de Y; d) presena de valores extremos (outliers). O exame dos resduos efetuado, em geral, com diagramas de disperso. Desse modo, aps a anlise residual, conveniente efetuar com os valores obtidos os referidos grficos. 17.5.1 EXEMPLO 1 (hipottico) Suponha-se que foi determinada a presso arterial sistlica (P.A.S.) de do\e (12) crianas de ambos os sexos consideradas normais, cujas idades estavam compreendidas entre um (1) e seis (6) anos (incluindo meses de vida). Os escores esto inseridos no grid geral.
- 221 -
H0: os escores da P.A.S. so homogneos (no apresentam valores extremos); H1: os escores da P.A.S. no so homogneos (apresentam valores extremos); Nvel de significncia: alfa = 0.05. 17.5.2 INSTRUES a) Preencher o grid geral com os escores amostrais, introduzindo na primeira coluna os valores da varivel X (independente) e na seguinte os valores da varivel Y (dependente); b) Orientar o mouse para Regresso e clicar em Anlise de Resduos; c) Selecionar as colunas correspondentes s variveis X e Y e clicar em Executar, para resultados.
Figura 17.13 Resultados do Exemplo 17.5.1.
d) Clique na opo Grfico do menu superior para obter o diagrama dos resduos.
- 222 -
A linha contnua horizontal representa a mdia dos resduos valores de Y, a qual igual zero (0). As linhas tracejadas correspondem a 1 em torno da mdia residual. Nota-se que h muita diferena entre o valor observado Y11= 172.0000 e o esperado 11= 130.8949 (Figura 17.13), cujo resduo igual a 41.1051, o qual est inserido na Y Figura 17.14 (ver seta indicativa). Testando-se o conjunto dos resduos, no sentido de verificar se esse escore pode ser considerado um valor extremo, obtm-se:
Figura 17.15 Valores Extremos do Exemplo 17.5.1.
Constata-se, pelos dados da Figura 17.15, que o resduo 41.1051 foi considerado um valor extremo (p < 0.05). Esse resduo corresponde P.A.S. igual a 172 mmHg, de uma criana de cinco (5) anos de idade. Considerando-se essa faixa etria, deve-se rever a medio referida, uma vez que pode ter ocorrido erro do observador, equvoco no registro, problemas com a aferio do aparelho medidor ou, ainda, hipertenso arterial verdadeira.
- 223 -
H0: os resduos dos escores da presso arterial sistlica apresentam normalidade; H1: os resduos dos escores da presso arterial sistlica no apresentam normalidade; Nvel de significncia: alfa = 0.05. 17.5.4 INSTRUES a) Preencher o grid geral com os escores residuais, como se verifica na Figura 17.16; b) Clicar em Normalidade e pressionar em Shapiro-Wilk; c) Selecionar a coluna do grid correspondente aos valores dos resduos; d) Pressionar em Executar, para resultados.
Figura 17.17 Resultados do Exemplo 17.5.3.
O teste de Shapiro-Wilk (W) significativo com p-valor igual a 0.0424, confirmando o resultado do teste de valores extremos (outliers). Os resduos no apresentam distribuio normal, rejeitando-se a hiptese de nulidade.
17.6 REGRESSO LOGSTICA SIMPLES A regresso logstica simples testa uma varivel dependente Y e uma varivel independente, sendo a varivel Y binria, ou seja, assume valores 1 (sucessos) e valores 0 (insucessos). Por exemplo, bito e sobrevivente, curado e no-curado, viciado em drogas e no-viciado, fumante e no-fumante, e assim por diante. A varivel independente pode ser binria ou contnua.
- 224 -
H0: = 0; H1: 0; Nvel de deciso: alfa = 0.05. 17.6.2 INSTRUES a) Clicar o mouse em Regresso Logstica Simples; b) Selecionar as colunas do grid geral, comeando pela coluna 1, a qual ser considerada como a varivel dependente (Y); c) Clicar em Executar o Teste, para resultados.
Figura 17.19 Resultados do Exemplo 17.6.1.
- 225 -
17.7 REGRESSO LOGSTICA MLTIPLA A regresso logstica mltipla testa uma varivel dependente Y e duas ou mais variveis independentes, sendo a varivel Y binria, ou seja, assume valores 1 (sucessos) e valores 0 (insucessos). As variveis independentes so geralmente binrias, mas uma delas pode ser contnua. 17.7.1 EXEMPLO (hipottico) Uma investigao verificou que a incidncia de cncer pulmonar (Y) em relao ao fumo (X1) e ao sexo dos indivduos (X2). O nmero total de indivduos investigados foi igual a 20, sendo os cinco (5) primeiros contidos na Fig. 17.21.
Figura 17.21 Dados parciais do Exemplo 17.7.1
DEFINIES: Y: Cncer presente = 1; Ausente = 0; X1: Sexos: Masculino = 1; Feminino =0; X2: Fumante = 1; No Fumante = 0
- 226 -
A chance (odds ratio) de neoplasia pulmonar cerca de 23 vezes se o indivduo fumante. Os valores probabilsticos exatos so estimados (Pi) pela equao: Logit Pi = -2.9892 + 2.1813 X1 + 3.1450 X2 Com base na equao acima referida, as probabilidades seriam assim calculadas: a) Para X1 = 0 (no-fumante) e X2 = 0 (sexo feminino): Logit P1 = -2.9892 + 2.1813 0 + 3.1450 0 = -2.9892 P1 = 1/(1+ EXP(-2.9892)) = 0.0479 = 4.79%; b) Para X1 = 1 (fumante) e X2 = 0 (sexo feminino): Logit P1 = -2.9892 + 2.1813 1 + 3.1450 0 = 0.8079 P1 = 1/(1+ EXP(0.8079)) = 0.31 = 31%; c) Para X1 = 0 (no-fumante) e X2 = 1 (sexo masculino): Logit P1 = -2.9892 + 2.1813 0 + 3.1450 1 = 0.1558 P1 = 1/(1+ EXP(0.1558)) = 0.54 = 54%; d) Para X1 = 1 (fumante) e X2 = 1 (sexo masculino): Logit P1 = -2.9892 + 2.1813 1 + 3.1450 1 = 2.3371 P1 = 1/(1+ EXP(2.3371)) = 0.91 = 91%.
- 227 -
17.8 REGRESSO POLINOMIAL O ajustamento de regresses polinomiais pode ser efetuado atravs do emprego dos conhecidos coeficientes dos polinmios ortogonais, os quais facilitam os clculos quando os escores da varivel independente apresentam intervalos iguais. O uso da computao permite calcular essas regresses sem auxlio dos referidos coeficientes, como ser observado em seguimento. O BioEstat executa as seguintes regresses polinomiais: a) Quadrtica; b) Cbica; c) Qurtica. A escolha de uma dessas Regresses Quadrtica, Cbica ou Qurtica - depende da disposio dos dados coletados. Assim, no Exemplo dado a seguir Regresso Qurtica: Exemplo 17.8.1. verifica-se que a produo de milho (varivel Y) aumenta a medida que aumenta a quantidade de fosfato na adubao (varivel X). A partir, porm, de determinada quantidade deste produto agrcola, h uma tendncia de diminuio na produo de milho. Ento a curva desses valores Y e X no ser linear e sim parablica, como se verifica no grfico da Figura 11.27. Da a escolha da Regresso Quadrtica. Pelas Curvas de outros Exemplos pode-se escolher outro modelo de Regresso Polinomial. 17.8.1 EXEMPLO (Regresso quadrtica) Em um experimento de emprego de fosfato (X) e produo de milho (Y), os resultados obtidos esto inseridos no grid geral (Figura 17.24). Efetuar a regresso quadrtica para esses dados: H0: 1 = 0; 2 =0; H1: 1 0; 2 0. Nvel alfa = 0.05
- 228 -
17.8.2 - INSTRUES a) Pressionar o mouse em Polinomial; b) Escolher uma das regresses polinomiais, que neste exemplo foi a Quadrtica; c) Selecionar as colunas do grid, comeando com a que representa a varivel Y; d) Clicar em Executar Estatstica, para resultados.
Figura 17.25 Resultados do Exemplo 17.8.1.
O F calculado significativo, como tambm os coeficientes b1 e b2. 17.8.3 ESTIMAO DE Y Para obter um valor estimado da varivel Y, pressione a opo 'Estimar Y' que est visvel no topo da Figura 17.25. Neste exemplo estamos supondo que o valor da varivel X1 120 (fosfato). O valor obtido da estimao da varivel Y (produo de milho) igual a 106.7554, conforme ilustrado na figura seguinte.
Figura 17.26 Estimao. Exemplo 17.8.1.
- 229 -
Obs.: O BioEstat dispe tambm de exemplos para as regresses Cbica (Ex 17.08.2) e Qurtica (Ex 17.08.3), com os respectivos grficos. 17.9 SELEO DE REGRESSORES (STEPWISE REGRESSION) Esta anlise possibilita a escolha das variveis preditoras que se relacionam com mais intensidade com a varivel dependente, aspecto importante na Regresso Linear Mltipla. Uma varivel considerada to importante para o modelo quanto for capaz de influenciar de maneira significativa a varivel dependente (Y). O mtodo de execuo pode ser de duas maneiras: a) Mtodo Progressivo (forward), a cada passo includa uma varivel. b) Mtodo Regressivo (backward), a cada passo excluda uma varivel. A incluso ou excluso de variveis depende de trs fatores: Coeficiente de Determinao, p-valor e Erro Quadrtico Mdio. 17.9.1 EXEMPLO: MTODO PROGRESSIVO (FORWARD) Em um estudo pesquisadores procuraram determinar a influncia de algumas variveis sobre a Presso Arterial Sistlica (P.A.S.). Os dados, para este exemplo hipottico, esto representados na Figura 17.28 pelas seguintes variveis: a) Presso Arterial Sistlica (P.A.S.), medida em mm/Hg, representando a varivel dependente; b) Idade, em anos completos; c) Peso, em quilogramas; d) Tempo de diagnstico da doena, em anos; e) Nvel de estresse, medido em escala de 1 a 100.
- 230 -
17.9.2 INSTRUES a) Pressionar o mouse em Regresso Linear Passo a Passo (Stepwise); b) Selecionar as colunas, comeando com a que representa a varivel Y; c) Clicar em Executar Estatstica, quando surgir a Figura 17.29; e) Clique no boto Progressivo >> para obter a regresses inicial. f) Para executar um novo passo da anlise clique no boto Prximo Passo.
Figura 17.29 Escolha do modelo de stepwise do Exemplo 17.9.1.
- 231 -
O mtodo stepwise regressivo preconiza que o modelo inicial seja composto por todas as variveis independentes. Neste caso o Coeficiente de Determinao (R2) foi responsvel por 95.13% da varivel dependente (P.A.S.). A cada passo eliminada uma das variveis independentes, fica bem claro que a de maior importncia neste Exemplo a varivel da Coluna 3 (Peso), as demais exercem menor influncia. Notar que a varivel da Coluna 2 (Idade) responsvel por apenas 3.23% da determinao da varivel dependente. Observa-se que, nas quatro simulaes realizadas neste exemplo o p-valor muito significativo, no
- 232 -
17.10.2 INSTRUES a) Pressionar o mouse em Comparao entre Duas Regresses; b) Selecionar as quatro colunas do grid, correspondentes s variveis Y e X da primeira e da segunda regresses; c) Clicar em Executar o Teste, para resultados.
- 233 -
Percebe-se que o Teste t dos Coeficientes de Regresso (0.6081 e 1.3636, respectivamente) muito significativo (p-valor = 0.0100), sendo, portanto, dissimilares. Os Interceptos, por sua vez, no evidenciam diferenas, eis que o pvalor do Teste T para esses Coeficientes no significativo do ponto de vista estatstico (0.1759).
- 234 -
CAPTULO 18
ESTATSTICA CIRCULAR
18.1 INTRODUO A estatstica circular (ou direcional) aplicada a dados que esto dispostos ao redor de uma circunferncia. Exemplos de dados deste tipo so diversos, e podem incluir as direes de vo de um pssaro, o nmero de pacientes chegando a um hospital ao longo do dia, a orientao do plo magntico da Terra, entre outros. importante ressaltar que o emprego de mtodos estatsticos convencionais para essas amostras no gera resultados com significado, da a necessidade de se utilizar frmulas e testes especficos. O BioEstat oferece os seguintes recursos para trabalhar com dados circulares: a) Estatstica Descritiva: i Tamanho da amostra; ii Mdia dos cossenos; iii Mdia dos senos; iv Mdia angular; v Comprimento do vetor Mdio; vi Varincia angular; vii Desvio angular; vii Intervalo de confiana (95%); b) Uma Amostra: Teste de Rayleigh; c) Uma Amostra: Teste V (Rayleigh); d) Duas Amostras Independentes (Watson-Williams); e) Trs Amostras Independentes (Watson-Williams); f) Duas Amostras Relacionadas: Paramtrico; g) Correlao Circular.
18.1.1 INSTRUES a) Introduzir os dados no grid padro do BioEstat. Os ngulos devem ser inseridos em graus; b) Dirigir o mouse para o menu superior e clicar em Estatsticas; c) Apontar o mouse em Estatsticas Circulares, conforme demonstra a Figura 18.1:
Figura 18.1 Menu de Estatsticas Circulares.
- 235 -
As medidas de disperso adotadas no BioEstat so a varincia angular e o desvio angular. A varincia angular sempre um nmero entre zero e dois (2), e o desvio angular varia no intervalo de zero a 81.03. Valores mais altos podem indicar maior disperso ou distribuio circular uniforme. 18.2.1 EXEMPLO Um pesquisador estudou um ninho contendo nove (9) filhotes de pssaros. Ao anotar a direo do primeiro vo de cada animal, observou os seguintes ngulos:
Figura 18.3 Dados do Exemplo 18.2.1.
- 236 -
A estatstica descritiva apontou a mdia angular prxima de dois (2) graus. Note que a mdia aritmtica seria 164. Destacamos, assim, a necessidade de mtodos apropriados para lidar com dados de natureza circular. O Grfico pode ser acionado para emitir a figura abaixo.
Figura 18.5 Grfico do Ex 18.2.1.
- 237 -
18.3.2 INSTRUES a) Selecionar Uma Amostra: Teste de Rayleigh; b) Na janela Seleo de Amostras escolha a coluna desejada; c) Clicar em Executar Estatstica, para obter os resultados.
Figura 18.7 Resultado do Exemplo 18.3.1.
O p-valor obtido foi menor que o nvel de significncia (0.05). Rejeita-se, portanto, a hiptese nula e conclui-se que h uma orientao direcional no primeiro vo desses pssaros. A mdia angular para esta amostra foi igual a 99.4 graus.
- 238 -
18.4.2 INSTRUES a) Selecionar o menu o Estatstica Circular; b) Clicar sobre a opo Uma Amostra: Teste V (Rayleigh); c) Na janela Seleo de Amostras, selecione a coluna que contm os dados e clique no boto Executar Estatstica; d) Ao surgir a janela Teste V de Rayleigh, digite o ngulo esperado e confirme com um clique no boto OK para que seja exibido o resultado do teste. Neste exemplo o ngulo mdio esperado de 180 graus.
- 239 -
O p-valor foi inferior ao nvel de significncia pr-estabelecido. Conclui-se que a mdia angular da amostra diferente do da populao (157.3 180).
18.5 DUAS AMOSTRAS INDEPENDENTES (WATSON-WILLIAMS) Prova paramtrica para comparar as mdias de duas amostras circulares independentes. A hiptese nula afirma que as populaes apresentam mdias iguais, enquanto a hiptese alternativa assegura que elas so diferentes. Este teste assume que as duas populaes tm distribuio circular normal (de von Mises) e disperses angulares iguais. 18.5.1 EXEMPLO Em um estudo observacional, as visitas de abelhas s flores de uma planta foram sendo registradas ao longo de dois anos. O pesquisador desejava saber se havia sincronizao entre o pico de atividade das abelhas e o pico anual de desabrochamento das flores. Antes de executar o teste de Watson-Williams, verificamos, pelo teste de Rayleigh, que havia sazonalidade tanto na atividade das abelhas quanto no desabrochamento das flores. Os dias e meses do ano foram convertidos em graus conforme mostra a prxima figura:
Figura 18.11 Diviso da circunferncia em meses (Ex 18.5.1).
- 240 -
18.5.2 INSTRUES a) Clicar o mouse em Duas Amostras Independentes (Watson-Williams); b) Na janela Seleo de Amostras, escolha as duas amostras que sero comparadas e clique no boto Executar Estatstica;
Figura 18.13 Resultados do Exemplo 18.5.1.
Com o p-valor maior que 0.05, aceitamos a hiptese nula. Conclui-se que h, de fato, uma sincronizao entre a atividade das abelhas e a poca do ano em que as flores desabrocham em maior quantidade.
- 241 -
H0: A mdia da direo dos vos igual nas trs (3) populaes: 1=2=3; H1: A mdia da direo dos vos no igual nas trs (3) populaes: i k. Nvel de deciso: alfa = 0.05. 18.6.2 INSTRUES a) Selecionar a opo: Trs Amostras Independentes (Watson-Williams); b) Na janela Seleo de Amostras, selecionar trs amostras e clicar em Executar Estatstica.
Figura 18.15 Resultado do exemplo 18.6.1.
- 242 -
H0: No houve alterao na mdia angular aps o tratamento. H1: Houve alterao na mdia angular aps o tratamento. Nvel de deciso: alfa = 0.01. 18.7.2 INSTRUES a) Clicar em Duas Amostras Relacionadas: Paramtrico; b) Na janela Seleo de Amostras, escolha as duas colunas correspondentes aos valores Antes e Depois. Clique em Executar Estatstica;
Figura 18.17 Resultados do Exemplo 18.7.1. .
O p-valor foi muito significativo (< 0.0001), rejeitando-se H0. O tratamento aumentou a mdia angular de flexo dos joelhos dos indivduos submetidos ao tratamento.
- 243 -
H0: raa=0; H1: raa0; Nvel de deciso: alfa = 0.05. 18.8.2 INSTRUES a) Clicar o mouse em Regresso Linear; b) Na janela Seleo de Amostras, escolha as duas colunas correspondentes aos valores Direo do Vento e ngulo de Vo;
Figura 18.19 Resultado do Exemplo 18.8.1.
c)
Com um p-valor maior que o nvel alfa de 0.05, aceitamos a hiptese nula e conclumos que no houve correlao entre a direo do vento e a direo de vo dos pssaros.
- 244 -
CAPTULO 19
TAMANHO DAS AMOSTRAS
19.1 INTRODUO O tamanho amostral est relacionado com o grau de variao dos dados, a magnitude dos efeitos a serem detectados e o poder do teste desejado. Cumpre salientar que: a) quanto maior a varincia, maior dever ser o tamanho da amostra, e vice-versa; b) quanto menor o nvel alfa, maior dever ser o tamanho da amostra; c) quanto maior o poder do teste, maior dever ser o tamanho da amostra; d) quanto maior a diferena entre as mdias a serem comparadas, menor poder ser o tamanho da amostra. importante obter informaes de outros trabalhos sobre o assunto objeto da investigao, pois possvel coletar informaes sobre parmetros e/ou estatsticas da mdia e da varincia, a fim de permitir, com mais preciso, determinar o tamanho amostral. Pode-se, ainda, efetuar um teste-piloto, cujo tamanho da amostra ficar a critrio do pesquisador, obtendo-se estatsticas com definies prvias do nvel alfa e do poder do teste que iro proporcionar os dados necessrios para o clculo do tamanho amostral. O BioEstat calcula o tamanho da amostra para os seguintes testes: i Anlise da varincia; ii Correlao linear; iii Teste de McNemar; iv Proporo: uma amostra; v Proporo: duas amostras; vi Qui-Quadrado: 2 x 2; vii Regresso Linear; viii Teste t: uma amostra; ix Teste t: duas amostras independentes; x Teste t: duas amostras pareadas. 19.1.1 INSTRUES a) Dirigir o mouse para o menu superior e clicar em Estatstica; b) Apontar o mouse em Tamanho das Amostras, quando surgir a figura abaixo:
Figura 19.1 Menu de Tamanho das Amostras.
- 245 -
19.3 CORRELAO LINEAR O tamanho amostral na correlao linear teste de Pearson depende do conhecimento prvio do valor de r obtido em testes anteriores, escolhendo-se o poder do teste e o nvel alfa desejado. 19.3.1 EXEMPLO Uma pesquisa-piloto revelou que o coeficiente de correlao linear entre duas variveis era de 0.73. Calcular o tamanho da amostra, considerando o nvel alfa de 0.05 e o poder do teste de 0.85.
- 246 -
19.4 TESTE DE McNEMAR O teste de McNemar, um caso especial de teste binomial, efetuado em tabelas de contingncia 2 x 2, onde se calcula a probabilidade dos chamados pares discordantes: a e d ou b e c. Os dados a serem introduzidos nas caixas de texto para o clculo amostral apresentam a seguinte configurao: a) Proporo, em decimais, de todos os pares concordantes: com o tratamento A e com o tratamento B; b) Proporo, em decimais, dos pares discordantes com um dos tratamentos; c) poder do teste e o nvel alfa, informando, ainda, se o teste unilateral ou bilateral. 19.4.1 EXEMPLO Supondo-se que mulheres com neoplasias mamrias, cujas idades variavam de 45 a 60 anos, foram submetidas a dois tipos de tratamento: A e B. Inicialmente, fez-se o pareamento das pacientes em dois grupos, de acordo com a idade, o tempo de doena, o grupo tnico e a situao scio-econmica. Ao final de um perodo de 4 anos, verificou-se o seguinte: a) em 87% de todos os pares amostrais o tratamento foi concordante, seja com o esquema teraputico A, quer com o B; b) dos pares discordantes, 75% ocorreram com o tratamento A.
- 247 -
19.5 PROPORO: UMA AMOSTRA Em diversas ocasies o pesquisador deseja realizar teste binomial para uma amostra, considerando as seguintes informaes: o poder do teste, o nvel alfa de significncia, o direcionamento da H1 e o conhecimento das propores paramtrica e amostral, esta ltima obtida em pesquisa-piloto. 19.5.1 EXEMPLO Quantos indivduos seriam necessrios para um teste bilateral, sabendo-se que a proporo do universo igual a 0.01 e a da amostra, obtida em pesquisa-piloto, igual a 0.04? Dados adicionais: poder do teste 0.80 e nvel alfa 0.05. 19.5.2 INSTRUES a) Clicar o mouse em Proporo: uma amostra; b) Preencher as caixas de texto com os dados; c) Pressionar em Teste Unilateral ou Teste Bilateral, para resultados.
- 248 -
19.6 PROPORO: DUAS AMOSTRAS O teste para duas propores binomiais, diferente do McNemar, para amostras independentes. Deve-se informar as propores estimadas de p de cada amostra, a relao entre elas (1:1, 1:2, 1:, etc.), o poder do teste, o nvel alfa e se o teste bilateral ou unilateral. 19.6.1 EXEMPLO Suponha-se que a incidncia da rubola na populao infantil no vacinada de 0.30, e que, aps campanha vacinal, a incidncia diminuiu para 0.15. Determinar o tamanho da amostra necessria para testar a diferena entre as duas propores, ao nvel alfa de 0.05, poder de 0.80 e teste unilateral. Nota-se que houve decrscimo na incidncia da doena aps imunizao. 19.6.2 INSTRUES a) Clicar o mouse em Proporo: duas amostras; b) Preencher as caixas de texto com os dados; c) Pressionar, neste caso, em Teste Unilateral, para resultados.
Figura 19.6 Tamanho da amostra: Duas Propores.
- 249 -
19.8 REGRESSO LINEAR O clculo baseado em informaes sobre estatsticas da Regresso Linear obtidas em teste piloto. As estatsticas necessrias para calcular o tamanho da amostra so as seguintes: Coeficiente de regresso (b); Desvio padro da varivel X; Desvio padro da varivel Y.
- 250 -
19.9 TESTE t : UMA AMOSTRA O tamanho da amostra calculado com base nas informaes sobre o parmetro da populao e de estatsticas obtidas em teste-piloto. O poder, o nvel de significncia e a determinao prvia de teste bilateral ou unilateral constituem elementos que definem o tamanho amostral. 19.9.1 EXEMPLO Uma amostra retirada de uma populao indgena mostrou que o nvel de colesterol no sangue perifrico dessas pessoas era em mdia igual a 159 mg/dL e o desvio
- 251 -
19.10 TESTE t : DUAS AMOSTRAS INDEPENDENTES O clculo baseado em informaes sobre as mdias amostrais e os respectivos desvios padres, fixando-se o tamanho da segunda amostra em relao primeira e determinando-se o poder, o nvel alfa e o direcionamento do teste, unilateral ou bilateral. O tamanho da segunda amostra poder ser igual ao da primeira (1:1) ou diferente (1:2), (1:1.5), (1:0.5), etc. 19.10.1 EXEMPLO Dados preliminares pressupem que o peso de recm-nascidos de famlias de baixo nvel socioeconmico (BNSE) diferente do das crianas filhas de casais com elevado nvel socioeconmico (ENSE). As estatsticas mostraram o seguinte: Mdia de peso 2950g 3240g Desvio padro 468g 470g
BNSE ENSE
- 252 -
19.11 TESTE t : AMOSTRAS PAREADAS No caso de duas amostras pareadas os dados so coletados antes e aps determinado experimento, coletando-se as informaes dos mesmos indivduos nos dois perodos considerados. O clculo prev o nvel alfa, o poder e, ainda, se o teste unilateral ou bilateral. 19.11.1 EXEMPLO Determinou-se a hemoglobina no incio da infeco malrica e oito (8) dias aps a cura. Os dados coletados revelaram os seguintes valores: Antes do tratamento: mdia = 9.5g/dL; Oito (8) dias aps a cura: mdia = 10.7g/dL; Desvio padro da diferena entre as mdias = 2.5g/dL.
- 253 -
- 254 -
CAPTULO 20
TRANSFORMAO DE DADOS
20.1 INTRODUO As transformaes so procedimentos estatsticos de mudanas de escalas, com a finalidade de obter a normalidade da distribuio dos escores e a estabilizao da varincia. Na distribuio normal os escores amostrais so transformados de modo linear em zescores, cuja mdia igual a zero (0) e o desvio padro igual a uma unidade (1). Outras transformaes no-lineares podem ser efetuadas para atender ao modelo de distribuio normal, sobretudo quando os escores brutos apresentam acentuada assimetria ou quando mdias muito grandes so acompanhadas por varincias tambm muito elevadas, com perda da normalidade, da homogeneidade e da homocedasticidade. O BioEstat apresenta os seguintes programas de transformaes: a) Box e Cox; b) Exponencial; c) Logaritmo natural (neperiano); d) Logaritmo decimal; e) Percentual; f) Quadrado; g) Raiz quadrada; h) Ordinal (rank); i) Recproca. Algumas indicaes so oferecidas nos textos de Estatstica sobre a escolha do modelo de transformao dos escores brutos coletados. A transformao logartmica, por exemplo, indicada quando os valores numa distribuio linear so multiplicativos, como crescimento bacteriano, ou quando a distribuio muito assimtrica, sendo indicada tambm em dados de pH. Esta transformao no admite, obviamente, valores negativos ou nulos. Quando o escore for zero, o programa adiciona um (1) a todos os valores. A transformao em raiz quadrada sugerida em variveis referentes a medidas de superfcie ou em variveis discretas nmero de leuccitos por mm3, nmero de filhos por casal, etc. Emprega-se, tambm, quando o modelo de distribuio dos escores brutos o de Poisson, no qual a mdia e a varincia tm o mesmo valor (np). Com essa transformao a varincia e a mdia tornam-se independentes. Quando o valor da varivel for zero, o programa acrescenta 0.5 a todos os valores. A transformao ordinal (rank) designada para distribuies muito assimtricas, sendo largamente usada nos testes no-paramtricos correlao de Spearman, anlise de varincia de Kruskal-Wallis, etc.
- 255 -
20.1.1 EXEMPLO 1 Determinaram-se as estatsticas dos dados inseridos no grid, verificando-se que a varincia cerca de 25 vezes maior que a mdia, sendo a curva assimtrica positiva. A transformao dos escores foi efetuada escolhendo-se, a ttulo ilustrativo, a logartmica (natural), a raiz quadrada e a recproca, cujos valores esto contidos na Figura 20.2. Os dados originais, contidos na coluna 1 do grid geral, foram ainda submetidos ao procedimento de Box e Cox, cujo resultado est contido na Figura 20.4.
Figura 20.2 Dados do Exemplo 20.1.1.
- 256 -
a) b) c) d)
Dados originais: 25.2; Transformao logartmica: 1.7; Transformao raiz quadrada: 1.8; Transformao recproca: 2.5.
- 257 -
20.1.4 INSTRUES a) Preencher o grid geral com os municpios selecionados e respectivos valores das populaes e reas; b) Dirigir o mouse para o menu superior e clicar em Estatstica; c) Apontar o mouse em Transformaes e clicar em ordinal, pressionando em ordem alfabtica ou numrica, a qual, neste exemplo, alfabtica; d) Selecionar as colunas do grid de interesse, comeando com a coluna que ir comandar as demais, a qual, neste caso a coluna 1 (Municpio); e) Escolher entre ordem crescente ou decrescente, e que, neste caso, foi crescente.
Figura 20.6 Rank Alfabtico.
Verifica-se que os Municpios esto ordenados em ordem alfabtica e que os valores de cada Municpio Populao (coluna 5) e rea (Coluna 6) - esto de acordo com os nmeros registrados nas Coluna 2 e 3, respectivamente.
- 258 -
CAPTULO 21
GRFICOS E TABELA
21.1 INTRODUO Os grficos constituem importantes instrumentos de comunicao rpida, clara e efetiva, poupando, sobretudo, tempo e esforo na visualizao de dados resumidos, permitindo fixar uma imagem duradoura, da o largo uso dessas representaes em trabalhos estatsticos. As tabelas de freqncia permitem, tambm, condensar os escores de modo a torn-los de fcil compreenso. O BioEstat apresenta os seguintes grficos e tabelas de freqncia: a) rea; b) Box Plot: mediana e quartis; c) Box Plot: mdia e desvios; d) Caule e Folha (Stem and Leaf); e) Colunas; f) Diagrama de Disperso; g) Diagramas IC; h) Diagrama Pontual (Dot Plot); i) Histograma; j) Linha (Curva); k) Mximo e Mnimo; l) Pirmide Populacional; m) Polar; n) Setor; o) Tabelas de Freqncia. 21.1.1 INSTRUES Dirigir o mouse para menu e clicar em Grficos, quando surgir a figura abaixo;
Figura 21.1 Menu Grficos.
a) Pressionar com o mouse o grfico escolhido ou Tabelas de Freqncia; b) Selecionar a(s) coluna(s) do grid, conforme o caso, e pressionar em Executar, para resultados; c) Configurar cada grfico de acordo com a orientao contida no item 21.16.
- 259 -
- 260 -
21.3.2 INSTRUES a) Clicar em Box Plot: mediana e quartis; b) Selecionar as colunas do grid e pressionar em Executar, para resultados.
Figura 21.5 Colunas selecionadas para o Exemplo 21.3.1.
O grfico compara valores das presses arteriais sistlicas nos perodos de viglia e de repouso noturno (sono), o mesmo ocorrendo com as diastlicas. As posies e as
- 261 -
21.4 GRFICO BOX-PLOT (mdia e desvios) Semelhante ao grfico anterior, mostrando, todavia, no box, a mdia e o desvio ou o erro padro. Exibe, ainda, o menor e o maior escores atravs do limite inferior e superior de linhas retas verticais. Pode-se verificar, tambm, a presena de valores extremos (outliers), como ocorreu no exemplo abaixo, representados atravs de pequenos crculos acima ou abaixo das linhas verticais do grfico. Com o mouse, pode-se visualizar, na parte superior do grfico, o valor de cada uma dessas estatsticas ou dos escores amostrais. 21.4.1 EXEMPLO Foi efetuada coleta de 50 peixes de uma determinada espcie em um lago criatrio, cujos escores esto inseridos no grid geral. Parte da amostra est contida na Fig. 21.7.
Figura 21.7 Dados do Exemplo 21.4.1 (Viso parcial).
- 262 -
Valores Extremos
As linhas horizontais de cada box representam, agora, a mdia aritmtica (linha central) e 1 desvio padro (linhas superior e inferior). 21.5 GRFICO CAULE E FOLHA (STEM AND LEAF) Algumas vezes difcil agrupar certos escores em tabelas e represent-los graficamente, perdendo-se, nesse propsito, o valor real de cada escore. O diagrama caule e folha contorna esse problema, mostrando, ainda, a disposio dos dados em forma de curva, evidenciando aspectos da simetria e da curtose. Para sua construo, o programa separa o componente caule e respectiva folha, sendo o primeiro representado por todos os dgitos de cada escore, menos o dgito da direita, o qual constitui a folha. A preciso da folha pode ser escolhida pelo usurio. Exemplos:
Escore 523 46.74 115.8 523 Caule 52 46 115 5 Folha 3 7 8 2 Preciso da Folha Unidade Centsimo Dcimo Dezena
- 263 -
21.5.2 INSTRUES a) Clicar em Caule e Folha (Stem and Leaf); b) Selecionar a coluna do grid e pressionar o mouse em Executar; c) O formulrio, mostrado na Figura 21.11 (lado direito), indica o maior e o menor escore e a amplitude dos dados; deve-se, com um clique do mouse, indicar o nvel de preciso da folha, que neste caso foi a unidade, e o nmero de linhas por classe, o qual, neste exemplo, foram escolhidas duas (2) linhas; d) Pressionar em Exibir Diagrama, para resultados (Figura 21.11).
Figura 21.11 Grfico de Caule e Folha do Exemplo 21.5.1. A figura abaixo ilustra a configurao que precede a exibio do diagrama de Caule e Folha. Note a importncia da escolha adequada do item Nvel de Preciso da Folha.
O diagrama Caule e Folha apresenta uma distribuio aproximadamente simtrica (g1 = 0.29) e mesocrtica (g2 = 0.05), com todos os escores amostrais, sendo a maior concentrao de valores em torno da mdia e da mediana, 119.8 e 119, respectivamente.
- 264 -
21.6.2 INSTRUES a) Clicar o mouse em Colunas e pressionar em Simples; b) Selecionar as duas colunas do grid e pressionar o mouse em Executar. Para visualizar as Barras Figura 21.13 de Erro, selecione na jaGrfico de nela de Configuraes a Colunas opo Outras e escolha do Exemplo o tipo de Barra de Erro 21.6.1 conforme disponvel na contendo parte inferior da janela. barras de
erro.
21.6.3
- 265 -
21.6.4 INSTRUES a) Clicar o mouse em Colunas e pressionar em Justapostas; b) Selecionar as trs colunas do grid e pressionar em Executar.
Figura 21.15 Grfico de Colunas justapostas do Exemplo 21.6.3.
21.6.5 EXEMPLO (colunas superpostas, dados hipotticos) A mesma investigao do exemplo anterior, mas com o tamanho da amostra diferente entre as diversas escolaridades. O modelo escolhido foi o de colunas superpostas, sendo os dados das colunas apresentados em forma percentual.
Figura 21.16 Dados do Exemplo 21.6.5.
- 266 -
21.7 DIAGRAMA DE DISPERSO Grfico utilizado para duas variveis mensuradas de maneira simultnea X e Y, como ocorre nos testes de Correlao e de Regresso. 21.7.1 EXEMPLO Peso e comprimento de folhas de gramnea coletadas em Ipixuna, Estado do Par. Os escores esto inseridos no grid geral (Figura 21.18).
Figura 21.18 Dados do Exemplo 21.7.1.
- 267 -
Ao lado do grfico de disperso esto os resultados do teste de Correlao Linear, mostrando o coeficiente r muito significativo, com p-valor = 0.0006. Quando este grfico expressa os escores da regresso linear, a reta representativa da equao dos mnimos quadrados pode ser ativada, conforme explicitado no item 21.16. 21.8 DIAGRAMA IC (95% e 99%) Este grfico aplicado quando em uma amostra h relao entre duas variveis: uma categrica (nominal ou ordinal) e outra numrica (discreta ou contnua), sobretudo quando a categrica , no mnimo, dicotmica (sexo masculino e feminino vs. idade, doentes e no doentes vs. nveis de colesterol). O diagrama descreve graficamente a estimao da mdia e o respectivo intervalo de confiana (95% ou 99%) da varivel numrica de cada categoria. Permite, ainda, comparar as mdias e intervalos de confiana das categorias com a mdia geral e seu intervalo de confiana, o qual abrange todos os valores. Trata-se de uma estimao de parmetros de cada categoria, com base na distribuio Z (1.96 e 2.58) quando as amostras forem maiores que 30; e na distribuio t, se o tamanho amostral for igual ou inferior a 30 unidades. Para este diagrama, o BioEstat estabelece o limite de dez (10) categorias. 21.8.1. EXEMPLO 1 Foi efetuada avaliao da cardiotoxicidade do antimoniato de meglumina no tratamento da leishmaniose tegumentar americana. Um grupo de quinze (15) pacientes, escolhidos de maneira aleatria, recebeu a dose de 15 mg/kg/dia dessa droga durante um perodo de 20 dias. Foram efetuados eletrocardiogramas
- 268 -
21.8.2 INSTRUES a) Introduzir os dados da seguinte forma: Primeira coluna: Contm as categorias. Neste exemplo os valores so de um (1) a quatro (4), correspondentes s dosagens de 15 e 20 mg/kg/dia, antes e aps os tratamentos. Segunda coluna: Os valores da varivel numrica. Neste caso o valor do Intervalo PR, em cada situao indicada na primeira coluna. Terceira e quarta colunas: indicam o nmero e o nome das categorias. b) Clicar em Grficos e, a seguir, em Diagrama IC 95% e selecionar as quatro (4) colunas; c) Pressionar em Executar para obter o diagrama abaixo.
Figura 21.21 Diagrama IC 95% do Exemplo 21.8.1.
- 269 -
21.8.4 INSTRUES a) Introduzir os dados da seguinte forma: Primeira coluna: Contm as categorias. Neste exemplo os valores so de 1 a 4 e correspondem s categorias: 1) assintomticos (controles); 2) com gastrite; 3) com lcera gstrica ou duodenal; 4) com cncer do estmago. Obs.: No h necessidade de ordenao prvia desses valores, conforme se verifica na Figura 21.23. O programa computacional efetua os respectivos ranks numricos, sendo essa uma das vantagens deste aplicativo. Segunda coluna: Varivel numrica. Esta coluna contm o valor das idades de cada grupo: controles, gastrite, etc. Terceira e quarta colunas: indicam o nmero e o nome das categorias. b) Clicar em Grficos e, a seguir, em Diagrama IC 95% e selecionar as quatro (4) colunas; c) Pressionar em Executar para obter o diagrama abaixo.
- 270 -
Percebe-se, nitidamente, o deslocamento da mdia e do IC dos acometidos de cncer gstrico. Neste grupo a mdia etria foi igual a 54.35 anos e o limite inferior (49.09) do respectivo IC foi maior que o limite superior do IC da mdia geral (45.83). A mdia geral (43.57), por sua vez, foi menor que a mdia dos acometidos de gastrite (44.19) ou de lcera gstrica ou duodenal (44.58), mas superou a dos indivduos controles (39.09). O Intervalo de Confiana (95%) da mdia geral, como seria o esperado, em face do tamanho amostral (n = 299), foi o menor (41.31 a 45.83), ou seja, de 4.52 anos.
21.9 DIAGRAMA PONTUAL (DOT PLOT) Este diagrama descreve graficamente duas ou mais amostras (at sete), permitindo a visualizao pontual dos escores em sentido vertical e as respectivas comparaes. 21.9.1 EXEMPLO O peso em gramas de sementes de duas variedades (A e B) da mesma espcie foram coletados de modo aleatrio, e esses valores foram inseridos no grid do BioEstat, conforme viso parcial contida na Figura 21.24.
Figura 21.24 Viso parcial dos dados do Exemplo 21.9.1.
- 271 -
21.10 HISTOGRAMA O histograma uma representao grfica para dados contnuos sob a forma de retngulos justapostos. A base de cada retngulo representa o intervalo de cada classe e a altura, a respectiva freqncia. O programa solicita que o usurio informe se os dados esto ou no agrupados em classes e, tambm, o nmero desejado. Para obter melhor representao grfica, deve-se evitar que o nmero de classes seja muito pequeno ou muito grande, pois a representao do histograma, nesses casos, no atender as finalidades esperadas. 21.10.1 EXEMPLO Foi tomada a presso arterial diastlica (P.A.D.) de 45 pessoas do sexo feminino, cujas idades variavam de 25 a 40 anos. Os dados esto inseridos no grid geral e parcialmente reproduzidos na Figura 21.26.
- 272 -
Dados do Exemplo 21.10.1 Nmero de escores Mnimo Mximo Mdia aritmtica Desvio Padro Mediana = 45 = 63 = 93 = 77,067 = 8,0068 = 76
21.10.2 INSTRUES a) Pressionar o mouse em Histograma; b) Selecionar a coluna do grid geral e clicar em Executar; c) Preencher o formulrio Especificao das Classes (Fig. 21.27): i Tipo de Limites de Classes: inferior fechado e superior aberto ( | ); ii Mantenha o contedo da caixa de texto Nmero de Classe (6); iii Ajuste os Limites Superior e Inferior, 96 e 60, respectivamente; iv - O Limite Inferior no poder ser maior que o Limite Inferior da Amostra, o qual corresponde ao menor valor amostral, 63 neste caso; v O Limite Superior no poder ser menor que o Limite Superior da Amostra, correspondente ao maior valor amostral, 93 neste exemplo; d) Pressionar o boto Confirmar para obter o Histograma.
Figura 21.27 Histograma do Exemplo 21.10.1.
- 273 -
O histograma pode ser associado ao polgono de freqncia, como observado na Figura 21.29.
Figura 21.29 Histograma com polgono de freqncia do Exemplo 21.10.1.
- 274 -
21.11.2 INSTRUES a) Clicar em Linha (Curva); b) Selecionar as colunas do grid e pressionar em Executar.
Figura 21.31 Grfico de linha do Exemplo 21.11.1.
- 275 -
21.12.2 INSTRUES a) Clicar em Mximo e Mnimo; b) Selecionar as colunas do grid e pressionar em Executar.
Figura 21.33 Grfico de Mximo e Mnimo do Exemplo 21.12.1.
As amplitudes, tanto sistlicas como diastlicas, assinaladas na parte superior de cada barra vertical, foram maiores nos indivduos do sexo masculino, o que demonstra maior variao dessas variveis entre os homens. J o valor mximo da presso sistlica foi maior entre as mulheres, enquanto o da diastlica, observou-se nas pessoas do sexo masculino.
- 276 -
21.13.2 INSTRUES a) Inserir no grid as informaes obtidas do IBGE; b) Pressionar em Grficos e, a seguir, em Pirmide Populacional; c) Clicar em Executar para Resultados.
Figura 21.35 Pirmide populacional do Exemplo 21.13.1.
H ligeiro predomnio de indivduos do sexo masculino nos primeiros anos de vida e do sexo feminino aps os 60 anos de vida.
- 277 -
24.13.4 INSTRUES a) Inserir no grid as informaes obtidas do IBGE; b) Pressionar em Grficos e, a seguir, em Pirmide Populacional; c) Clicar em Executar para Resultados.
Figura 21.37 Pirmide populacional do Exemplo 24.13.3.
Enquanto no ano 2000 a proporo de residentes na rea rural era de 33.45%, no ano de 1970 a populao dessa mesma rea chegava a 52.56%.
- 278 -
24.13.6 INSTRUES a) Inserir no grid as informaes obtidas do IBGE; b) Pressionar em Grficos e, a seguir, em Pirmide Populacional; c) Clicar em Executar para Resultados.
Figura 21.39 Pirmide populacional do Exemplo 21.13.5.
H predominncia de moradores na rea urbana quando comparados com os da rea rural, denotando uma migrao para as cidades em todo o Estado do Par.
- 279 -
21.13.8 INSTRUES a) Inserir no grid as informaes obtidas do IBGE; b) Pressionar em Grficos e, a seguir, em Pirmide Populacional; c) Clicar em Executar para Resultados.
Figura 21.41 Pirmide populacional do Exemplo 21.13.7.
Esta pirmide representa trs variveis: faixa etria, sexo, estado civil (solteiros e no solteiros).
- 280 -
21.14.2 INSTRUES a) Introduzir os dados no grid geral do BioEstat; b) Apontar o mouse em Grficos; c) Clicar em Polar; d) Selecionar as colunas do grid e pressionar o mouse em Executar.
Figura 21.43 Resultados do Exemplo 21.14.1.
- 281 -
21.15.2 INSTRUES a) Clicar em Setor; b) Na janela do grfico selecione Configuraes; c) Na aba Outras, selecione entre Absolutos ou Percentuais; e) Selecionar as colunas do grid e pressionar o mouse em Executar.
Figura 21.45 Grfico de setor do Exemplo 21.15.1. Para destacar uma ou mais 'fatias' do grfico de setor, pressione o menu 'Configuraes', selecione a janela 'Fontes e Cores', clique no boto ' Elementos do grfico', selecione o nmero do(s) elemento(s) desejado(s) e marque a caixa 'Destacar'
facilmente visualizado que a vacina Sabin e o BCG representaram as maiores propores de vacinaes efetuadas no perodo indicado. A fatia destacada corresponde vacina trplice, escolhida de forma aleatria.
- 282 -
21.16.2 COPIAR E COLAR GRFICOS Aps a exibio do grfico, acione o menu Editar, selecione a opo Copiar, para que a imagem do grfico fique armazenada na memria, podendo, dessa forma, ser colada (aplicada, visualizada) em outros programas como o Microsoft Excel, Word ou PowerPoint, atravs do uso das teclas CTRL-V ou no acionamento do menu Editar, Colar daqueles aplicativos. 21.16.3 CONFIGURAR APARNCIA DE GRFICOS As caractersticas do grfico podem ser alteradas pelo acionamento do menu Configuraes. O formulrio de Configuraes contm quatro (4) grupos de caractersticas que podem ser manipuladas: a) Ttulos; b) Fontes e Cores; c) Linhas Auxiliares; d) Outras. 21.16.3.1 - CONFIGURAR TTULOS a) Clique na aba Ttulos para visualizar a Figura 21.47. b) Preencha as caixas de texto com os ttulos desejados; c) Clique em Atualizar.
Figura 21.47 Configurao de ttulos da Figura 21.31.
- 283 -
Para configurar adequadamente o item Fontes e Cores, siga as instrues abaixo: 1. Escolha a abrangncia da configurao, entre as seguintes opes: a) Ttulo; b) Subttulos; c) Fundo (Cor de fundo); d) Legendas; e) Elementos do Grfico; f) Explodir. 2.
Figura 21.49 Tamanho dos caracteres.
3. 4. 5.
Escolha a aparncia dos textos selecionados, entre as seguintes opes: b) Itlico c) Sublinhado a) Negrito Escolha a cor desejada clicando na grade colorida exibida na Figura 21.48. Para alterar a cor de elementos como barras, linhas, pontos, etc.: a) Clique no boto Elementos do Grfico; b) Selecione o nmero do elemento, na caixa de combinao; c) Clique na cor desejada.
21.16.3.3 - CONFIGURAR LINHAS AUXILIARES Com os dados do Exemplo 21.7.1 e respectivo grfico, clique em Linhas Auxiliares para visualizar a Figura 21.50.
Figura 21.50 Configurao de linhas auxiliares.
- 284 -
As linhas tracejadas, Figura 21.51, correspondem a 1 em torno da mdia de Y. A linha contnua horizontal representa a mdia aritmtica da mesma varivel e a linha = a + bX ). contnua inclinada corresponde reta de regresso ( Y 21.16.3.4 OUTRAS (Dados, Dimenses, Eixos e Orientao) De acordo com o modelo selecionado do grfico, os dados podero ser apresentados sob a forma percentual ou em termos absolutos, as figuras (setor) representadas em duas ou trs dimenses, a intercesso entre os eixos cartesianos na origem (0,0) ou em um ponto varivel determinado pelo BioEstat, e a orientao das colunas em barras verticais ou horizontais. Para essas finalidades deve-se selecionar em Configuraes a opo Outras, escolhendo uma das opes conforme o tipo de grfico em questo, ou seja, Dados, Dimenses, Eixos ou Orientao. 21.17 TABELAS DE FREQNCIA As tabelas de freqncia constituem um modelo de representao tabular utilizado nas descries de dados quantitativos discretos ou contnuos. Embora sua construo manual seja relativamente simples, o BioEstat apresenta esse modelo, com os intervalos de classes, os pontos mdios e as freqncias absoluta e percentual de cada classe, podendo, ainda, o usurio colocar o ttulo, conforme o caso. O nmero de classes fica a critrio do usurio, mas o programa, considerando a amplitude total e o nmero de escores, sugere um nmero adequado, de acordo com a frmula de Sturges.
- 285 -
21.17.2 INSTRUES a) Pressionar o mouse em Tabelas de Freqncia; b) Selecionar a coluna do grid geral e clicar em Executar; c) Preencher o formulrio Especificao das Classes (Fig. 21.53): i Tipo de Limites de Classes: inferior fechado e superior fechado ( || ); ii Aumente o contedo da caixa de texto Nmero de Classes para 7; iii Ajuste os Limites Superior e Inferior, 73 e 32, respectivamente; iv - O Limite Inferior no poder ser maior que o Limite Inferior da Amostra, o qual corresponde ao menor valor amostral, 33 neste caso; v O Limite Superior no poder ser menor que o Limite Superior da Amostra, correspondente ao maior valor amostral, 70 neste exemplo; d) Pressionar o boto Confirmar para obter Tabela de Freqncia.
Figura 21.53 Formulrio Especificao das Classes.
- 286 -
Se desejar a imagem desses dados, pressione o mouse em Histograma na barra superior da Fig. 21.54. A figura 21.53 apresenta trs opes de tipos de limites dos intervalos de classes: a) | intervalos fechados esquerda e abertos direita, devendo-se, neste caso, aumentar o limite superior ajustado; b) || intervalos fechados direita e esquerda; c) | intervalos fechados direita e abertos esquerda, devendo-se, neste caso, diminuir o limite inferior ajustado.
21.18 GRFICOS DE RESULTADOS Alm dos grficos contidos neste captulo, o BioEstat 5.0 disponibiliza outros diagramas adequados interpretao de resultados especficos, os quais s podem ser obtidos atravs da opo Grfico que est localizada na parte superior do grid de resultados do teste em questo.
21.19 CONFIGURAES AVANADAS Alm das opes de configuraes de grficos disponveis no menu Configurar, o BioEstat permite o acesso interface de Configuraes Avanadas. O acesso a este recurso est disponvel quando uma janela de grfico est sendo exibida pelo BioEstat. Para visualizar essa interface pressione o boto direito do mouse sobre o diagrama exibido.
- 287 -
- 288 -
CAPTULO 22
FRMULAS ESTATSTICAS
22.1 INTRODUO Neste captulo esto dispostas as frmulas dos testes estatsticos contidos no BioEstat. 22.2 ANLISE MULTIVARIADA 22.2.1 ANLISE DE CONGLOMERADOS a) Distncias: ver 22.2.5, 22.2.6 e 22.2.7 b) Distncia Chebischev:
d ij = max X iv X jv ;
c) Distncia de Bray-Curtis:
BC ij =
d) Ligao simples:
! (n
n ik n jk
ik
+ n jk )
e) Mdia do Grupo:
ESS = ! x j x ' x j x ;
j =1
)(
! S ijv
;
! Wijv
d (i , j )k = min d ik ; jk .
- 289 -
1 ' x = x1 x2 ' S A combinao linear (Fisher) y=a pooled x maximizada pela equao:
max =
n1
s2 y =
j =1
2 2 2 ! (y1 j y1 ) + ! (y 2 j y 2 ) + n j =1 , sendo
n1 + n2 2 ' x1 j e y 2 j = a ' x2 j y1 j = a
( p 1)(q 1)
X1 X2 ... Xp X1 X2 . . . Xp Y1 Y2 . . . Yp
Y1 Y2 ... Yp
p x p matriz A
p x q matriz C
q x p matriz C
q x q matriz B
- 290 -
1 + 2 + 3 + + p = c11 + c 22 + c33 + + c pp ; 1 2 3 p 0 ;
a i1 , a i 2 , , a ip ;
Ordenao dos autovalores:
d) Autovetores: e) f)
- p * dij = , ! xik x jk 2 ) . +k =1 (
22.2.6 DISTNCIA MULTIVARIADA (Penrose) p = nmero de variveis;
Pij =
k =1
( ki kj )2 .
pVk
) (
).
- 291 -
C=
{(n1 1) C1 + (n2 1) C2 } ;
n1 + n2 2
b) Teste de Hotelling:
T2 =
n1n2 ( x1 x2 )' C 1 ( x1 x2 ) ; n1 + n2
'
Z = ME
r=
n! Z (! M )(E ) n! M 2 (! M )2 n ! E 2 (! E )2
gl = n - 2
22.3 ANLISE DE SOBREVIVNCIA 22.3.1 ANLISE ATUARIAL S(t) = funo de risco, que indica a probabilidade de sobrevivncia no tempo t, para cada t > 0; h(t) = risco no tempo t, determinado pela equao:
- 292 -
(t ) = ! var ln p j . var ln S
j =1
O = ! ai ;
+ bi )(ai + ci ) ; Ni i =1 k (a + b )(c + d )(a + c )(b + d ) i ; V = ! i i i 2i i i i i =1 N i ( N i 1) E=!
2 X LR
i =1 k
(ai
( O E 0.5)2 .
V
Ai ) ; Z = U I .
Var (W ) =
n1n 2 !
n1+ n2 i =1
U i2
;
(n1 + n2 )(n1 + n2 1)
Z = W Var (W ) .
- 293 -
S (t ) = e
h (t ) = ln S(t )
Xi. = totais dos tratamentos; SQ = soma dos quadrados: 2 2 X i. 2 X .. X .. 2 ; SQtratamentos = ; SQtotal = X ij rt r rt SQerro = SQtotal SQtratamentos; gltratamentos = t 1; glerro = t(r 1);
QM = quadrados mdios (varincias): QMtratamentos = SQtratamentos / gltratamentos; QMerro = SQerro / glerro; QM tratamentos Ftratamentos = . QM erro
22.4.2 ANOVA (dois critrios)
SQblo cos =
X .j t
glblocos = r 1; glerro = (t 1)(r 1); QMblocos = SQblocos / glblocos; QMerro = SQerro / glerro; Fblocos = QM blo cos .
QM erro
- 294 -
22.4.4 TESTE KRUSKAL-WALLIS k = nmero de amostras ou grupos; N = nmero total de escores; nj = nmero de escores da amostra j; Rj = somatrio dos postos da amostra j; ' 12 k 2$ H =% ! n j R j " 3( N + 1) . N ( N + 1) j =1 % " & #
- 295 -
2 = ! !
(Oij Eij )2 ;
Eij
;
i =1 j =1
C=
2
N + 2
=
z=
S 1 N ( N 1) 2
2(2 N + 5) ; 9 N ( N 1)
rxy. z =
2 1 rxz
2 r yz
gl = N 3.
- 296 -
r=
! XY (! X )(! Y ) / n
phi = r =
ad bc
rs = 1
6! Di2 N ( N 2 1)
t = rs
N 2 . 1 rs 2
22.6 DISTRIBUIO DE PROBABILIDADES 22.6.1 DISTRIBUIO BINOMIAL n = tamanho da amostra; E(x) = = np = mdia; V(x) = 2 = npq = varincia;
xe ; P( x ) =
x!
- 297 -
E(x) = = n
P( x 0) = e x , sendo > 0.
22.6.5 DISTRIBUIO NORMAL
P( x 0) = e x
=
2
! X = mdia; N 2 2 ! X (! X ) / N = varincia; = N
N e(x )
2 / 2 2 = equao da curva normal;
= 2 = desvio padro;
Y=
e = 2.71828 (constante matemtica, base dos logaritmos neperianos); = 3.1416 (constante matemtica); X = escores padronizados. z=
22.6.6 CRIVO (Screening Test) Tabela de contingncia 2 x 2: Teste Doente No-doente + a b c d Total a+c b+d
Total
a d 100 = sensibilidade; 100 = especificidade; a+c b+d a 100 = valor preditivo do teste positivo; a+b d 100 = valor preditivo do teste negativo; c+d a+c = prevalncia. a+b+c+d
22.6.7 CURVA ROC (Receiver Operating Characteristic curve)
rea =
i =1
Erro padro =
d = (1 Sensibilidade )2 + (1 Especificidade )2 Eixo das ordenadas (Y) = Sensibilidade Eixo das abscissas (X) = 1 Especificidade (Falso-positivos)
- 299 -
Pr( Bi A) =
Pr( A Bi ) Pr( Bi )
j =1
! Pr( A B j ) Pr( B j )
22.7 UMA AMOSTRA 22.7.1 KOLMOGOROV-SMIRNOV (aderncia) k = nmero de postos; N = tamanho da amostra; Fo(X) = distribuio terica acumulada sob H0; Sn(X) = distribuio amostral acumulada; D = mximo |Fo(X) Sn(X)| = desvio mximo;
1.36 N
, para = 0.05;
1.63 N
, para = 0.01.
2 =!
2
(O E )2 ;
E
(Yates ) = !
gl = k 1.
( O E 0.5)2 ;
E
22.7.4 TESTE BINOMAL: UMA PROPORO = proporo do evento amostral; p0 = proporo do evento na populao; p
Quando p p0 :
( p0 q 0 ) / N ]; p 0 ) ( p 0 q 0 ) / N ] }. p(valor ) = 2{1 [( p
- 300 -
! Xi ; sx = s / n ; n X ; gl = n 1. t= sx
X=
n = tamanho da amostra; ! Xi ; x = / n ; X= n
X
Z=
22.8 DUAS AMOSTRAS INDEPENDENTES 22.8.1 TESTE EXATO DE FISHER A = escore da casela A; B = escore da casela B; C = escore da casela C; D = escore da casela D; N = A + B + C + D;
p=
22.8.2 TESTE DE KOLMOGOROV-SMIRNOV k = nmero de postos; NA = tamanho da 1a amostra; Distribuio das freqncias acumuladas: SNA(X) = k/NA; SNB(X) = k/NB; D = mximo |SNA(X) SNB(X)| = desvio mximo;
NB = tamanho da 2a amostra;
2 = 4D 2
- 301 -
D 1.63
22.8.3 TESTE DE MANN-WHITNEY n1 = tamanho da primeira amostra; n2 = tamanho da segunda amostra; R1 = soma dos postos da primeira amostra; R2 = soma dos postos da segunda amostra;
U = n1n2 +
22.8.4 TESTE DA MEDIANA MC = mediana combinada; A = nmero de escores da amostra 1 acima da MC; B = nmero de escores da amostra 1 abaixo da MC; C = nmero de escores da amostra 2 acima da MC; D = nmero de escores da amostra 2 abaixo da MC;
N0 3 N 1 AD BC . 2/ 2 ; X2 = ( A + B )(C + D )( A + C )(B + D )
22.8.5 TAXA DE INCIDNCIA
gl = 1.
E1 = V1 =
(a1 + a 2 )t1
t1 + t 2 (a1 + a2 )t1t 2
(t1 + t 2 ) 2
a1 e a2 = nmero de eventos nos grupos 1 e 2; t1 e t2 = nmero de pessoas nos tempos 1 e 2; a E1 0.5 , quando a1 > E1; Z = 1 V1
Z= a1 E1 + 0.5 V1
- 302 -
Total
n1 n2 N
( O E .5) ; ad p1q 2 ; 2 X =! OR = = E bc p 2 q1
2
C1 = ln(OR) 1.96 1 + 1 + 1 + 1 ; a b c d C2 = ln(OR) + 1.96 1 + 1 + 1 + 1 ; a b c d IC(95%): 2.71828C1 OR 2.71828C2; IC vlido somente quando: n1p1q1 5 e n2p2q2 5.
22.8.7 QUI-QUADRADO r = nmero de linhas; k = nmero de colunas;
=!!
r k
(Oij Eij )2 ;
i =1 j =1
Yates
=!!
r k
( Oij Eij
Eij
E ij
0.5
)2 ;
i =1 j =1
gl = (r 1)(k 1);
Correo de Yates: somente quando gl = 1.
22.8.8 RISCO RELATIVO Tabela de contingncia 2 x 2: Sucesso Insucesso Amostra 1 a b Amostra 2 c d Total na nb
Total
n1 n2 N
- 303 -
X2 =!
( O E .5)2 ;
E b d ; + an1 cn2 b d ; + an1 cn2 C2 RR 2.71828 ;
= p
Z=
1 + n2 p 2 n1 p = 1 p ; , q n1 + n2
q (1 / n1 + 1 / n 2 ) p 1 p 2 p
X 1 = ! X 1 / n1 ;
X 2 = ! X 2 / n2 ;
0 . . / 3 1 1 0; 1 . 1n + n . 2/ 2 1
t = X 1 X 2 / s dif ;
gl = n1 + n2 2.
22.8.11 TESTE Z n1 = tamanho da amostra 1;
X 1 = ! X 1 / n1 ;
X2
n2 = tamanho da amostra 2; = ! X 2 / n2 ;
- 304 -
Z=
2= Vp
z=
2 X1 +
3 3 2X 2 + 4 4
22.9 DUAS AMOSTRAS RELACIONADAS 22.9.1 TESTE KAPPA po = probabilidade de concordncia observada; pe = probabilidade de concordncia esperada;
K=
po pe ; 1 pe
se(K ) =
4 4 2 c [a b (a + b )]* , p e + pe ! i i i i ); 2 4 4 N (1 pe ) i =1 ( + 1
Z=
p (valor ) = 1 (Z ) .
22.9.2 CORRELAO INTRACLASSE
K ; se( K )
Coeficient e
2 I = 2 A / A + 2
)
- 305 -
Estimao de ponto
2 2 2 ,0 I = A / A +
[ (
)]
ND 1 0 3 3 ND 0 ; X =1 . 1 1 NA 2 2. . 2 4 / 2 / 2 p (valor ) = Pr 1 X2 ;
2
Para ND < 20
n A n 3 1 0 nD 0 p = 2 ! 3 se n A < nD / 2 1 k D .1 . 2 2 / 2 / k =0
nD n p = 2 ! 3 1 kD k =nA 2 03 1 0 .1 . /2 2 / nD se n A > nD / 2
p = 1 se n A = n D / 2
1 ; 2
x
P(k x n, p ) = ! n Ck p k q n k ; Z= 2x 1 n n
k =0
T =
N ( N + 1) ; 4
- 306 -
T =
sD = sD = t=
! (D D ) ; N 1 sD
2
D ; gl = N 1. sD
22.9.7 ANOVA (dados pareados) a = 2 (colunas); b = nmero de itens; Y A1 = mdia da coluna 1; Y A 2 = mdia da coluna 2;
YBi = mdias aritmticas de cada par de observaes; 1 a b Y = ! ! Y = mdia geral; ab i =1 j =1 a SSA = b! (Y A Y )2 ; glA = 1; QMA = SSA/ glA;
i =1
22.10 ESTATSTICA DESCRITIVA 22.10.1 AMPLITUDE TOTAL At (valor mximo valor mnimo) = amplitude total.
- 307 -
X =
i =1
! Xi
.
n + 10 Md = valor da posio 3 1 .; 2 2 /
b) quando o nmero de observaes for par:
! Xi X s = n 1
2
)2
ou s 2 =
2 ! X i (! X i ) / n . n 1
22.10.5 DESVIO-PADRO
s = s2 .
22.10.6 ERRO-PADRO
sx =
s . n s 100 . X
CV =
m2 = ! X i X m3 m4
i i
( = ! (X = ! (X
); X) ; X) .
2
3 4
- 308 -
g1 =
(n 1) (n 2) 3
n m3
g1 = 0: curva simtrica; g1 > 0: curva assimtrica positiva; g1 < 0: curva assimtrica negativa.
22.10.10 COEFICIENTE DE CURTOSE
GM =
i =1
X i , ou ln(G) =
! ln( X i ) n
GM = antiln(G).
D1 = V2 ; Desvio-padrogeomtrico = antiln(D1).
X =
! Xi ; n
- 309 -
sx =
s ; n
IC(95%):
para varincia paramtrica desconhecida: X t .05 ( gl ) s x ; para varincia paramtrica conhecida: X 1.96 x ;
IC(99%):
para varincia paramtrica desconhecida: X t.01 ( gl ) s x ; para varincia paramtrica conhecida: X 2.58 x .
p=k ; n
b) De intervalos:
p =
p (1 p ) ; n
a)
De ponto
E= X
b) De intervalos:
!Xj ! Xi ; ; XB = nB nA
A
XB ;
2 2 2 s1 s2 2 = + s ou + ( x1 x2 ) n1 n2 n1 n2
( x1 x2 ) =
2 1
IC(95%): X A X B 1.96 ( x1 x2 ) ou
(X A X B ) t.05(gl ) s( x x )
1 2
- 310 -
22.11.4 ESTIMAO DA DIFERENA ENTRE DUAS PROPORES a) De ponto: p1 = proporo do evento na amostra 1; p2 = proporo do evento na amostra 2; E = (p1 p2); b) De intervalos:
( p 1
p2
) =
IC(95%): ( p1 p2 ) 1.96 ( p1 p2 ) ;
p1q1 + n1
q
2
IC(99%): ( p1 p2 ) 2.58 ( p1 p 2 ) .
22.11.5 DENSIDADE E TAMANHO DA POPULAO A = nmero total de quadros da rea investigada; n = nmero de quadros selecionados de modo randmico; a = tamanho de cada quadro;
m=
=
()
m a
= estimador da densidade;
2.58 IC(99%): M
( ) (M ). V
- 311 -
B AB
(B) (AB) -----------------------------------------------------------------------Funo logartmica de mxima verossimilhana: L = (O) 2 ln r + (A){ln p + ln (p + 2 r)}+ (B){ln q + ln (q + 2r)}+ (AB)(ln p + ln q). Substituindo: x = p/r; y = q/r; 1 + x + y = 1/r; Assim, L = -2N ln(1 + x + y) + {(A) + (AB)}ln x + {(B) + (AB)}ln y + (A) ln (2 + x)+ (B)ln (2 + y). Estimao inicial:
BB+BO AB
q(q+2r) 2pq
2=
) (
)(
);
sendo: r = (r+ D) (1 + D); p = p(1 + D); q = q(1 + D); --------------------------------------------Total = (1 + D) (r+ p+ q+ D) Sistema MN: (m) = 2 (MM) + (MN); (n) = (MN) + 2(NN); Total = 2G, sendo G = tamanho da amostra;
- 312 -
(mn ) / 2G .
22.11.7 FOURIER (densidade) N = nmero total de indivduos ou grupos observados; Xi = distncia perpendicular de cada indivduo ou grupo observado; W = distncia perpendicular mxima; L = distncia total inventariada (em metros); M = nmero de termos para anlise (iterao); k = 1, 2, 3, , M; Z k = cos (k 3.14159 X i ) W ;
S k = ! Z k ; Ak = [2 ( N W )] S k ; U = ! Ak ; H = (1/W) + U + A1;
k =1 M +1
D = N H (2 L ) = densidade ;
V = [1 ( N 1)] (1 W ) ' A2 + (2 W ) A 2 $ ; 1" % & #
k =2
DA = ( N H ) (2 L ) ; DB = N N 2 + V H 2 ; DD = DA 2 DB : desvio padro;
2 ; D 1000000 = densidade 3 1 indivduos ou grupos por km 0 . 2 /
) (
= p
- 313 -
2.58 IC (99%): N p.
22.11.9 TAMANHO DA POPULAO (amostragem simples, mtodo inverso) t = nmero de animais capturados, marcados e devolvidos ao meio ambiente (1a captura); s = nmero de animais marcados que devem ser capturados (2a captura); n = nmero de animais capturados entre marcados e no-marcados (2a captura);
= p
22.11.10 TAMANHO DE POPULAO FECHADA (amostragem mltipla) Mtodo de Schumacher e Eschmeyer = tamanho da populao (estimao); N s = nmero de amostras; ni = tamanho de cada amostra; mi = nmero de animais marcados em cada amostra; Mi = nmero de animais marcados na populao exatamente antes da i-sima amostra ser tomada;
s 2 ! ni M i = i =2 N s ! mi M i i =2
3 s 0 1 ! mi M i . 2 1 . s m / ~2 = ! i 2 i =2 (s 2) s n i 2 i =2 ! ni M i i =2 2
- 314 -
IC =
1/ 2 s 3 ~2 s 0 2 ! ni M i . ! mi M i t s 2 ( / 2)1 1 . i =2 2 i=2 /
s 2 ! ni M i i=2
IC =
t M o / ( o n 2 ( / 2) o )
w = ! w1 k ;
i =i
2 sw =
1 3 k 2 0 1 ! wi kw 2 . k 1 2 i =1 /
T.RND z / 2 /
i =1
Total
ai + bi ci + di ni
- 315 -
E=! V=!
k
(ai + bi )(ai + ci ) ;
(ai
+ bi )(ci + d i )(a i + ci )(bi + d i ) 0. 5 ) ni2 ni
i =1
i =1
2 = X MH
(OE
V
(n i
2
1)
gl = 1.
2! log( p i ) ;
i =1
22.12.4 QUI-QUADRADO (aderncia) para k amostras gla = k 1, para o qui-quadrado de cada amostra; glt = gla , para o qui-quadrado total; glho = k 1, para o qui-quadrado de homogeneidade; glhe = glt glho , para o qui-quadrado de heterogeneidade. 22.12.5 QUI-QUADRADO (independncia): para k tabelas 2 x 2
No-doente
Total
n11 n21 n1
n12 n22 n2
n1 n2 n
s i = 1 / n11 + 1 / n12 + 1 / n 21 + 1 / n 22 ;
k 3 k 0 1 ( ) n i n1 (i )n1 (i ) / n (i ) . ! ! 11 1 . i =1 2 i =1 / ; = 3 0 k n (i )n (i )n (i )n (i ) 2 1 2 . ! 1 1 2 1 i =12 n (i ) (n (i ) 1) . / 2
2 XA
- 316 -
2 =! XH
2 ; gl = 1; gl = k 1. A H A
bw =
i =1 n
! xy
;
2
i =1 n
!x
SS 2 = ! y 2
(! xy )2 ,
SS 3 / gl 3 . SS1 / gl1
zi =
1 [ln (1 + ri ) ln (1 ri )] ; 2
X2
- 317 -
= p
! xi ! ni
i =1 i =1 k
2 = 1 p ; =! ; q
(xi
i =1
) ni p ; gl = k 1 ; (1 p ) ni p
2
Desvio Padro =
D=
! (i n + 1 / 2) x(i)
i =1
! (x
i =1
x)
;
2
22.13.2 DAGOSTINO-PEARSON K2 = Z 2 + Z 2 g1 g2 gl = 2
22.13.3 KOLMOGOROV-SMIRNOV k = nmero de postos; N = tamanho da amostra; = mdia da populao; = desvio padro paramtrico; Fo(X) = distribuio terica acumulada sob H0; Sn(X) = distribuio amostral acumulada; D = mximo |Fo(X) Sn(X)| = desvio mximo;
D 1.36 N
, para = 0.05;
1.63 N
, para = 0.01.
22.13.4 LILLIEFORS k = nmero de postos; N = tamanho da amostra; Mdia e desvio padro amostrais; Fo(X) = distribuio terica acumulada sob H0; Sn(X) = distribuio amostral acumulada;
- 318 -
W =
b2 C 2S 2
=!!
r k
(Oij Eij )2 ;
Eij
i =1 j =1
2Yates = ! !
r k
i =1 j =1
gl = (r 1)(k 1);
22.14.2 RESDUOS L x C
Valor crtico : 1.96, para alfa = 0.05 Valor crtico : 2.576, para alfa = 0.01
- 319 -
Exemplo: Tabela 3 x 4 = 3R x 4C
C = n21; D = n22.
2a. partio 3R:2C A = n11 + n21; B = n12 + n22; C = n31; D = n32. 3a. partio 2R:3C A = n11 + n12; B = n13; C = n21 + n22; D = n23. 4a. partio 3R:3C A = n11 + n12 + n21 + n22; C = n31 + n32;
5a. partio 2R:4C A = n11 + n12 + n13; B = n14; C = n21 + n22 + n23; D = n24. 6a. partio 3R:4C A = n11 + n12 + n13 + n21 + n22 C = n31 + n32 + n33; gl (para cada partio) = 1.
- 320 -
p = x / n = proporo geral de
sucessos; Si = escore da varivel do grupo i;
xi = sucessos no grupo i; i = xi/ni = proporo de sucessos no p grupo i; n = nmero total de unidades; q = 1 p = proporo geral de
insucessos;
Y Y Y
b=
2 2 ! X (! X ) / n a = Y bX ; a ! Y + b ! XY (! Y )2 / n ; R2 = 2 2 ! Y (! Y ) / n
! ( XY ) (! X )(! Y ) / n ;
- 321 -
Yi = Yi ; a = a. Yi = ln(Yi); a = ln(a).
X = X/n; Y = Y/n; Exponencial: X = X/n; Gm(Y) = antiln [ln(Y)/n]; Logartmica: Gm(X) = antiln [ln(X)/n]; Y = Y/n;
Linear:
X= bY =
! Xi ! Yi ; Y= ; n n ! XY (! X )(! Y ) / n ;
t=
r n 2 ; gl = n 2. 1 r2
Os parmetros , 1, 2, , k so estimadas pelos coeficientes a, b1, b2, , bk, pelo mtodo dos mnimos quadrados. Matrizes:
- 322 -
' b0 $ ' Y1 $ % b " %Y " 1 "; 2" ; % b =% Y = " p 1 % " n 1 % " % % " " %b p 1 # &Yn # & ! xm $ ! x1 x m " " ! x2 xm " ; " " 2 ! xm " #
a = Y b1 X 1 b2 X 2 b p 1 X p 1 ; y i = a + ! b j xij ;
j =1
H1: bi 0;
n i =1
)2 ; SQtotal = ! ( yi y )2 ; SQerro = ! ( yi y
; QM erro =
SQerro ; gl erro
QM regresso QM erro
F(gl) = k, n k 1.
p=
1 ; ( + x 1 1 + ... + k x k ) 1+ e
logit (pA) = + 1x1 + ... + j-1 xj-1 + j(1) + j+1 xj+1 + ... + kxk logit (pB) = + 1x1 + ... + j-1 xj-1 + j(0) + j+1 xj+1 + ... + kxk
- 323 -
j = ln %
OR = e j ;
j
SE ( j )
( 1 R ) / (N 2 )
2 1
2 R1
(1 R )/(N 3) ;
2 2
2 R2 /2
- 324 -
22.16 TAMANHO DAS AMOSTRAS 22.16.1 TESTE t : UMA AMOSTRA a) Teste unilateral:
n=
2 (z1 + z1 )2
( 0 1 )
b) Teste bilateral:
n=
2 (z1 / 2 + z1 )2
( 0 1 )
n=
2 sd z1 + z1
(D)2
)2 ;
b) Teste bilateral:
n=
2 sd z1 / 2 + z1
(D)2
)2 .
n=
b) Teste bilateral:
n=
(z1 / 2 + 2 z1 n=
p Aq A
4( p A 0.5)2 p D
)2 = nmero de pares;
3 p1q1 0 . po qo 1 1 z1 + z1 p q . o o / ; 2 n= ( p1 po )2
b) Teste bilateral:
3 p1q1 po qo 1 z1 / 2 + z1 1 po qo 2 n= ( p1 po )2
0 . . /
' 3 10 n1 = % pq 11 + . z1 + 2 k/ % &
b) Teste bilateral:
( p2 p1 )2 ;
2
' $ p q 3 10 n1 = % pq 11 + . z1 / 2 + p1q1 + 2 2 z1 " ( p 2 p1 )2 . k 2 k/ % " & # n2 = n1k; k = 0.5, 1, 2, etc. = vezes que a segunda amostra deve ser em relao primeira.
- 326 -
1+ r 0 ; zr = 0.5 ln3 1 . 21 r /
' z1 / 2 + z1 $ n=% " + 4. zr & #
22.17 TRANSFORMAO DE DADOS 22.17.1 BOX-COX Y = (Y - 1)/ (para 0); Y = lnY (para = 0); = 1 ! transformao linear; = ! transformao em raiz quadrada; = 0 ! transformao logartmica; = -1 ! transformao recproca; um valor maximizado por procedimento iterativo pela equao:
2
Y=
! sen ai ; n
X =
! cos ai n
r = X 2 +Y2
cos a =
X ; r
sen a =
Y r
s 2 = 2(1 r )
- 327 -
s=
R = nr
2 2n 2 R 2 0nX ,1
)
a d
d = ar cos =
4n X ,1 R
Teste de Rayleigh:
R2 = nr;
R2 ; z= n
p-valor = Tabelado em funo de n
V = R cos(a o )
u=
2 n
F=K
(N 2)(R1 + R2 R ) , onde R = n
N R1 R2
+ n2
- 328 -
3 k 0 k )1 ! R j R . 1 . j =1 2 / F = K 3 0 k 1 (k 1 )1 N ! R j . . j =1 2 /
(N
Teste para 2 Amostras Pareadas (paramtrico): Xj = cos a2j cos a1j; Yj = sen a2j sen a1j
! xy = ! X j Y j
! X j Yl k
F=
) (
) ( )
raa =
n 1 n n 1 n 2 2 ! ! sen ai a j ! ! sen bi b j i =1 j = i +1 i =1 j = i +1
- 329 -
- 330 -
CAPTULO 23
ESCOLHA DO TESTE ESTATSTICO SUGESTES
23.1 INTRODUO A escolha do teste adequado aos dados obtidos em uma investigao um passo que deve ser decidido no planejamento de uma pesquisa. A experincia acumulada em trabalhos anteriores, a indicao do orientador, quando o caso, e o conhecimento pleno da Estatstica propiciam elementos capazes de se efetuar a escolha do teste mais ajustado ao estudo em questo. As sugestes oferecidas pelo BioEstat no esgotam todas as possibilidades na escolha de um teste estatstico, destinando-se, sobretudo, aos iniciantes em investigaes cientficas, mas deve ser precedida do planejamento da pesquisa, com formulao da hiptese a ser testada, da cuidadosa definio do universo de onde a(s) amostra(s) ser(o) coletada(s), do estabelecimento do nvel de significncia do teste (erro ), do levantamento ou do experimento a ser efetuado, ou seja, de todas as etapas que possibilitem, ao final, comprovar ou refutar a hiptese formulada, prevendo-se, nessa fase, o teste estatstico que atenda ao objetivo do trabalho proposto. Os fluxogramas apresentados em seguimento so auto-explicativos, obedecendo os seguintes passos: a) Nmero de amostras: Uma amostra; Duas amostras independentes; Duas amostras relacionadas; k amostras independentes; k amostras relacionadas. b) Nmero de variveis: Uma varivel; Duas variveis; k variveis. c) Tipo de dados: Dados categricos; Dados ordenativos; Dados numricos. Os dados categricos e ordenativos so aqueles mensurados em escala nominal e ordinal, respectivamente, e esto geralmente relacionados a testes de distribuio livre, abrangendo os chamados testes no-paramtricos ou estatsticas firmes, de largo emprego nas reas de biologia e de medicina. Os dados numricos, mensurados em escala intervalar ou de razes, dizem respeito a modelos de distribuio bem definidos, como os referentes distribuio normal.
- 331 -
- 332 -
- 333 -
- 334 -
- 335 -
- 336 -
- 337 -
- 338 -
GLOSSRIO
AAR: Aumento Absoluto do Risco (p1-p2). ARR: Aumento do Risco Relativo (1-RR). Ajustamento de curvas: teste de regresso destinado a verificar o modelo de dependncia entre duas variveis: linear, exponencial, logartmica ou geomtrica. Amostra: parte da populao. Amostra aleatria, casual, randmica: amostra escolhida sem a interferncia do pesquisador, obtida por sorteio, pelos nmeros aleatrios ou por procedimento computadorizado (pseudo-randmico), constituindo, do ponto de vista matemtico, amostra probabilstica. Amostra estratificada: amostra retirada de camadas da populao denominadas estratos no-superpostos, caracterizando-se, de um lado, pela maior homogeneidade da varivel investigada dentre cada estrato e, de outro, pela maior heterogeneidade entre as camadas, como, por exemplo, nvel socioeconmico de populao urbana: baixo, mdio e elevado. De cada camada retiram-se amostras aleatrias de tamanho proporcional a cada estrato. Amostra por conglomerados: amostra probabilstica cujas unidades simples so obtidas de modo randmico de unidades coletivas, pressupondo-se que estas ltimas apresentem homogeneidade entre si. Colmias, cardumes, blocos residenciais, so exemplos de unidades coletivas de onde so retiradas amostras randmicas. Amostra sistemtica: amostra probabilstica cuja primeira unidade obtida ao acaso e as demais, a partir da primeira, escolhidas a cada k intervalo sistemtico, definido pela razo entre o tamanho da populao e o tamanho da amostra. Amostras no-probabilsticas: amostras escolhidas por critrios pessoais, seja por convenincia, por julgamento ou por quotas. Amostras independentes: dois ou mais subconjuntos randmicos da populao retirados de modo independente e de tamanhos iguais ou desiguais. Amostras pareadas: subconjuntos randmicos da populao em que a varivel estudada mensurada antes e depois de um certo procedimento. Exemplo: medio do pulso radial antes e aps esforo fsico controlado. As amostras so necessariamente do mesmo tamanho. Amostragem: procedimento de estudo de uma parte do universo. Sinnimo: Sondagem. Amplitude total: diferena entre o maior e o menor escores de uma amostra ou universo. Anlise de conglomerados (Cluster analysis): mtodo eficiente para a classificao biolgica de vrios organismos em grupos relativamente semelhantes e, uma vez agrupados, as caractersticas de cada grupo podem ser analisadas para se verificar se pertencem ou no mesma espcie. A demonstrao grfica dos conglomerados efetuada, sobretudo, atravs de dendograma. Anlise de sobrevivncia: anlise estatstica do tempo de ocorrncia de determinado evento, o qual, na rea mdica, pode ser o bito, a recidiva de uma doena, a resposta teraputica a uma droga, etc. As instituies securitrias utilizam esse modelo de anlise. O BioEstat apresenta os seguintes programas de anlise de sobrevivncia: Atuarial, e Cox (Risco Proporcional), Cox-Mantel, Gehan (Wilcoxon generalizado), Kaplan-Meier e Log-Rank test. Anlise de resduos: auxiliar na interpretao das caselas em tabelas de contingncia l x c.
- 339 -
GLOSSRIO
Anlise discriminante: separao de dois ou mais grupos de indivduos em funo das medidas de suas variveis por eles apresentadas. Anlise multivariada: compreende testes estatsticos nos quais so consideradas de maneira simultnea n variveis de k amostras, destacando-se nesta verso do BioEstat os programas: Componente Principal, Distncia Multivariada (Euclidiana, Penrose e Mahalanobis), teste de Hotelling, teste de Bartlett, Regresso Linear Mltipla e Regresso Logstica Mltipla. ANOVA: teste estatstico cujo modelo de distribuio de probabilidades o da varincia para k amostras ou tratamentos independentes. As amostras podem ser do mesmo tamanho ou desiguais, no caso de k tratamentos (um critrio), e devem ser iguais quando for o caso de k tratamentos e r blocos (dois critrios). Este teste tambm conhecido como teste F, em homenagem a R. A. Fisher, e destina-se a comparar diferenas entre mdias atravs das varincias, cujos escores amostrais devem ser mensurados a nvel intervalar ou de razes. Bioestatstica ou Biometria: estatstica aplicada s cincias biolgicas e da sade. Bonferroni: procedimento de comparao entre mdias de vrios tratamentos, no sentido de verificar a significncia estatstica das diferenas entre essas medidas de tendncia central, determinando-se, a priori, o nvel alfa de deciso. A comparao efetuada aps a anlise da varincia e somente se o valor de F for significativo. Bootstrap: procedimento que consiste em retirar de uma pequena amostra numerosas amostras, com reposio, cada uma com probabilidade 1/n de ser obtida, sendo tambm conhecido como tcnica de reamostragem ou de simulao. Caixa de texto: espao destinado entrada de uma determinada informao, requerida para o teste. Clicar: ato de pressionar um dos botes do mouse (em geral o da esquerda). Coeficiente de assimetria: medida de forma de distribuio dos escores de variveis aleatrias contnuas, podendo ser simtrica, assimtrica positiva (curva cuja cauda est desviada para a direita) e assimtrica negativa (curva cuja cauda est desviada para a esquerda). Coeficiente de curtose: medida de forma de distribuio de variveis aleatrias contnuas, podendo ser mesocrtica (em forma de sino), leptocrtica (afilada) ou platicrtica (achatada). Coeficiente de determinao (R2): o quadrado do coeficiente de correlao (r), representando a quantidade da variao de uma varivel dependente explicada pela varivel preditiva. Coeficiente de regresso: uma constante que determina o grau de inclinao da reta de regresso, simbolizado pela letra b. Na regresso mltipla h tantos coeficientes de regresso quanto o nmero de variveis independentes testadas. Coeficiente de variao: razo entre o desvio padro e a mdia aritmtica, vezes 100 (%). Coeficiente Phi ( r ): coeficiente de correlao entre duas variveis qualitativas e dicotmicas, dispostas em tabela de contingncia 2 x 2. Concordncia de Kendall (W): teste de associao entre k variveis dispostas em vrios conjuntos de postos e mensuradas a nvel ordinal. Contingncia C: teste de associao entre conjuntos de variveis mensuradas a nvel nominal, dispostas em tabelas de contingncia l (linhas) x c (colunas), isto , com quaisquer nmeros de categorias. Coorte: grupos bem definidos de uma populao, possuindo alguma caracterstica em comum e cujos indivduos permanecem no conjunto durante determinado tempo, registrando-se e avaliando-se as ocorrncias havidas entre os elementos no perodo considerado.
- 340 -
GLOSSRIO
Correlao Cannica: anlise multivariada que permite investigar o relacionamento entre duas sries de variveis: um grupo de variveis X e outro do grupo Y. Correo de Williams: correo do teste G para obter melhor aproximao com o teste do Qui-Quadrado. Correo de Yates: correo de continuidade do teste do Qui-Quadrado, onde se subtrai 0.5 do numerador de cada termo, desde que o grau de liberdade seja igual unidade (1). Correlao de Kendall: teste de associao entre duas variveis mensuradas a nvel ordinal (postos), calculando-se a correlao pelo coeficiente de Kendall . Correlao de Spearman: teste de associao entre duas variveis mensuradas a nvel ordinal (postos), calculando-se a correlao pelo coeficiente de Spearman rs. Correlao intraclasse: a Correlao intraclasse um aplicativo para testar replicabilidade amostral para dados contnuos, no sendo tratadas as variveis como X e Y e sim como Replicao 1 e Replicao 2. , portanto, medida de replicabilidade amostral. Correlao linear (Pearson): teste de associao linear entre duas variveis mensuradas a nvel intervalar ou de razes, medindo-se o grau e a direo pelo Coeficiente de correlao linear r. Correlao Parcial: teste de associao de duas variveis quantitativas X e Y as quais so testadas juntamente com uma outra varivel Z , a fim de se verificar se a correlao existente entre as primeiras alterada pela presena da terceira varivel introduzida. Correlao: teste de associao entre variveis, medindo-se a magnitude e o sentido ou somente o grau dessa correlao, conforme o teste empregado. No h qualquer dependncia funcional de uma varivel em relao outra. Curva ROC (Receiver Operanting Characteristic Curve): um mtodo estatstico e grfico para determinar o melhor ponto de corte (cutoff point) de um teste diagnstico. Dados: escores obtidos de observaes ou de experimentos, podendo ser de fontes primrias ou secundrias e de amostras ou de populaes. DAgostino: teste empregado para testar a normalidade dos dados amostrais. DAgostino-Pearson: teste destinado a verificar a normalidade dos dados amostrais. Desvio padro: raiz quadrada da varincia. Diagrama pontual (dotplot): diagrama que descreve graficamente duas ou mais amostras (at sete), permitindo a visualizao pontual dos escores - em sentido vertical - e as respectivas comparaes. Diagrama IC: diagrama indicada quando em uma amostra h relao entre duas variveis, sendo uma categrica (nominal ou ordinal) e outra numrica (discreta ou contnua). O diagrama descreve a estimao da mdia e o respectivo Intervalo de Confiana (95% ou 99%) da varivel de cada categoria. Distribuio binomial: modelo de distribuio de probabilidades de variveis aleatrias discretas, consistindo de n provas idnticas e independentes, cada uma apresentando apenas dois resultados: sucesso (p) e insucesso (q = 1 - p). Distribuio de Poisson: modelo de distribuio de probabilidades de variveis aleatrias discretas, cujos eventos so raros e referentes ao tempo e ao espao. A mdia igual varincia. Distribuio exponencial: modelo de distribuio de probabilidades de variveis aleatrias contnuas, referente ao intervalo de tempo decorrido entre eventos raros e discretos. Distribuio hipergeomtrica: modelo de distribuio de probabilidades de variveis aleatrias discretas, com as mesmas caractersticas da distribuio binomial. O tamanho da amostra, contudo, relativamente grande em relao ao tamanho da populao, alterando-se em grau acentuado a probabilidade dos elementos do universo pela retirada de cada unidade sem reposio.
- 341 -
GLOSSRIO
Distribuio normal: modelo de distribuio de probabilidades de variveis aleatrias contnuas de largo emprego em estatstica, caracterizando-se por ser simtrica, em forma de sino, assinttica, cuja rea sob a curva igual unidade. Erro amostral: vis observado nas amostras aleatrias, decorrente da natural variabilidade dos elementos constituintes das populaes, assinalando-se o fato de que nem todas as unidades do universo participam da amostra. O erro amostral reduzido pelo aumento do tamanho amostral e medido pelo erro padro. Erro padro: o desvio padro de uma populao de mdias amostrais, o qual corresponde ao quociente do desvio padro do universo de onde as amostras foram retiradas pela raiz quadrada do tamanho amostral. Quando se desconhece o desvio padro paramtrico, utiliza-se no clculo o desvio padro da amostra. Erro tipo I (alfa): rejeio da hiptese de nulidade quando ela verdadeira. Erro tipo II (beta): aceitao da hiptese de nulidade quando ela falsa. Escala de razes: caracteriza-se por apresentar unidade constante e comum de mensurao, atribuindo-se um nmero real a cada escore, havendo uma razo conhecida entre dois intervalos quaisquer, um quociente conhecido entre dois valores quaisquer e um verdadeiro ponto zero como origem. Exemplo: peso em gramas. Escala intervalar: semelhante escala de razes, havendo apenas uma razo conhecida entre dois intervalos quaisquer, sendo a unidade de medio e o ponto zero arbitrrios. Exemplo: temperatura em graus centgrados. Escala nominal: escala na qual as diversas categorias ou modalidades de uma varivel so contadas. a mais simples das escalas, havendo relao de equivalncia entre e dentre as categorias. Exemplo: estado civil solteiro, casado, divorciado e vivo. Escala ordinal ou por postos: escala na qual as modalidades de uma varivel so ordenadas em graus ou magnitudes convencionadas, havendo uma relao matemtica 'maior do que' ou 'menor do que' dos elementos entre as diversas categorias e de equivalncia das unidades dentre cada modalidade. Exemplo: conceitos escolares Excelente, Bom, Regular e Insuficiente. Escores padronizados: transformao dos escores brutos em escores z, onde a mdia igual a zero e o desvio padro igual unidade (1), simbolizados por N (0,1). Especificidade: percentagem de indivduos sem o evento (sem a afeco investigada, por exemplo), cujo teste tuberculnico, por exemplo negativo (). Estatstica descritiva: parte da estatstica cujo objetivo a coleta, a organizao, a classificao dos dados amostrais ou das populaes, as apresentaes tabular e grfica e o clculo de determinadas medidas: mdia, mediana, varincia, desvio padro, coeficiente de variao, de assimetria, de curtose e outras. Estatsticas (no plural): valores numricos das amostras: mdia, mediana, varincia, coeficiente de assimetria, etc, constituindo nas amostras probabilsticas estimativas no enviesadas dos parmetros, conforme demonstrado pelo Teorema do Limite Central. Estimao de parmetros: parte da inferncia estatstica, cujo procedimento indutivo consiste em generalizar os valores numricos amostrais para o universo investigado. Estudo longitudinal: aquele no qual se coletam informaes sobre os indivduos selecionados ao longo de um intervalo de tempo especificado. Estudo prospectivo: estudo longitudinal no qual os indivduos so observados a partir de um dado momento, prosseguindo-se ao longo do tempo previamente fixado.
- 342 -
GLOSSRIO
Estudo retrospectivo: estudo longitudinal no qual as informaes de interesse esto contidas em registros anteriores, em arquivos de dados como, por exemplo, em pronturios hospitalares. Estudo transversal: dados coletados de um grupo de indivduos em um momento definido, avaliando-se sobretudo a prevalncia de uma determinada afeco. Experimento: estudo analtico no qual h interveno do pesquisador nos indivduos submetidos pesquisa, com controle efetivo dos fatores causais e dos respectivos efeitos. Fentipo: caracterstica de um indivduo resultante do produto dos genes e expressada de diversas maneiras. As pessoas do sistema sangneo ABO, por exemplo, so classificadas em fentipos dos grupos A, B, AB ou O. Gentipo: conjunto de todos os genes que determinado indivduo possui. No caso, por exemplo, do sistema sangneo ABO, as pessoas do grupo A possuem o gentipo AA ou AO; do grupo B, gentipo BB ou BO; do grupo AB, gentipo AB; e do grupo O, gentipo OO. Goodness of fit: teste estatstico de modelo de distribuio de probabilidades, no qual as propores observadas se ajustam s propores esperadas, deduzidas matematicamente ou estabelecidas de acordo com alguma teoria. tambm denominado de teste de aderncia. Grfico de rea: compara as reas abrangidas pelos escores de duas ou mais amostras. Grfico box-plot (mediana e quartis): mostra a mediana, o primeiro e o terceiro quartis e, ainda, o maior e o menor escores da amostra. Grfico box-plot (mdia e desvio): mostra a mdia, o desvio ou erro padro, o maior e o menor escores da amosra. Grfico caule-e-folha (stem and leaf): organiza os escores em ordem crescente e separa cada valor em dois componentes: o caule, constitudo por todos os valores de cada varivel, exceto o ltimo direita, o qual representa a folha. Grfico de colunas: compara os escoes de cada categoria em retngulos verticais ou horizontais, com a mesma largura e cuja altura proporcional s grandezas que representam. Podem ser classificadas em a) simples; b) justapostas e c) superpostas. Grfico de disperso: utilizado para duas variveis X e Y retiradas da mesma unidade, como ocorre nas anlises de correlao e regresso. Grfico de linha (curva): utilizado, sobretudo, nas sries temporais, considerando-se a disposio dos dados nos eixos das abscissas (X) e das ordenadas (Y). Grfico de mximo e mnimo: grfico e linhas verticais permitindo comparar a amplitude e os valores mximo e mnimo da cada amostra. Grfico polar: representa perodos cclicos meses, semanas, horas, graus, etc -, com representao circular, indicado nas sries temporais. Grfico de setor: representa parcelas, em um crculo, de variveis categricas, comparando cada valor com o todo, dividindo-se a circunferncia em setores, cada um representando a respectiva categoria. recomendvel que o nmero de setores no deve ultrapassar sete (7) variveis. Graus de liberdade (gl): so parmetros indexadores estatsticos correspondentes ao nmero de observaes independentes, como se observam nas distribuies t de Student, F da ANOVA, Qui-Quadrado e r da correlao linear de Pearson. Grid geral: uma espcie de planilha eletrnica do BioEstat onde os dados, da maior parte dos testes estatsticos, devem ser introduzidos. Sinnimo: Matriz de Dados. Grid especfico: similar ao grid geral, utilizado apenas para determinados testes estatsticos.
- 343 -
GLOSSRIO
Hiptese de nulidade (H0): a hiptese que se testa considerando-se no haver diferenas entre os grupos especficos objetos do estudo, representada, por exemplo: 1 = 2. Hiptese alternativa (H1): a hiptese que contraria a de nulidade, no sentido de afirmar que h diferena entre os grupos especficos objetos da pesquisa, como, por exemplo: 1 2. Heterogeneidade das amostras: um modelo probabilstico que indica se as amostras investigadas no so oriundas da mesma populao, sendo utilizado nos testes G, do Qui-Quadrado, da correlao linear e da regresso linear. Heterocedasticidade: vide Heterogeneidade das varincias. Heterogeneidade das varincias: um modelo probabilstico que revela se as varincias dos subconjuntos testados so desiguais, no sendo oriundas da mesma populao, e empregado no F teste da ANOVA, no t teste de Student para duas amostras independentes e na regresso linear. Sinnimo: heterocedasticidade. Histograma: representao grfica para dados contnuos sob a forma de retngulos justapostos. A base de cada retngulo representa o intervalo de cada classe e a altura, a respectiva freqncia. Homogeneidade das amostras: um modelo probabilstico que indica se as amostras investigadas so oriundas da mesma populao, sendo utilizado nos testes G, do Qui-Quadrado, da correlao linear e da regresso linear. Homocedasticidade: vide Homogeneidade das varincias. Homogeneidade das varincias: um modelo probabilstico que revela se as varincias dos subconjuntos testados so iguais, oriundas, portanto, da mesma populao, sendo empregado no F teste da ANOVA, no t teste de Student para duas amostras independentes e na regresso linear. Sinnimo: homocedasticidade. Incidncia: estudo epidemiolgico de ocorrncia de casos novos de determinada doena, constatados ao longo de um perodo de tempo prefixado como, por exemplo, seis (6) meses, um ano, e assim por diante. Os estudos relativos incidncia so denominados de longitudinais. ndices de diversidade (Shannon e outros): destinam-se a determinar a variabilidade de dados mensurados em escala nominal, ou seja, a distribuio de observaes entre categorias. Inferncia estatstica: mtodo indutivo de generalizao dos valores numricos amostrais para a populao de onde os dados foram retirados. As generalizaes estatsticas, diferentes das leis universais, admitem excees, mas proporcionam conhecimentos de relevncia em termos cientficos. Intercepto: uma constante relativa ao valor de Y nas equaes de regresso quando o escore de X igual a zero, sendo simbolizada pela letra a. Representa, portanto, o valor da varivel dependente quando o valor da varivel preditiva igual a zero. Intervalos de confiana: rea abrangida por n erros padres em torno da estimativa pontual, para mais e/ou para menos, e definidos em termos probabilsticos pela Regra Emprica e pelo Teorema do Limite Central. Os intervalos de confiana mais usados so de 95% e 99%, correspondentes, no caso do modelo da distribuio normal, a X 1.96 x e X 2.58 x , respectivamente. Iteraes (Runns Test): destina-se a verificar se a amostra em questo foi obtida de maneira aleatria. A tcnica deste teste baseada na ordem ou seqncia com que os escores originais forem coletados. Kolmogorov-Smirnov: teste estatstico no-paramtrico, de aderncia ou de independncia, para uma ou duas amostras, respectivamente. O teste de aderncia utilizado tambm para testar a normalidade dos escores amostrais.
- 344 -
GLOSSRIO
Levantamentos ou surveys: estudos caracterizados pela coleta de dados, descrevendo-se os escores amostrais e calculando-se estatsticas que estimam os parmetros da populao investigada. Nos levantamentos pode-se, ainda, estudar a relao de causa e efeito de variveis, mas sem o controle efetivo dos elementos causais. Lilliefors: teste de aderncia empregado para testar a normalidade amostral. Matriz de Dados: uma espcie de planilha eletrnica do BioEstat onde os dados, da maior parte dos testes estatsticos, devem ser introduzidos. Sinnimo: Grid Geral. Mdia aritmtica: medida de tendncia central de largo emprego em estatstica, representada pela razo do somatrio dos valores pelo nmero de escores. Mdia geomtrica: medida de tendncia central representada pela raiz n do produto dos escores e indicada, sobretudo, quando os dados esto dispostos em progresso geomtrica. Mdia harmnica: medida de tendncia central para grandezas inversamente proporcionais como, por exemplo, tempo e velocidade. Mediana: medida de tendncia central que separa os escores em dois grupos: 50% inferiores e 50% superiores mediana. Menu: lista de opes do BioEstat que ativada com um clique do mouse. encontrado na parte superior da tela. Meta-Anlise: conjunto de procedimentos destinados a examinar, de modo simultneo, vrios estudos, diversas pesquisas, sobre um mesmo tpico. Largamente utilizado na esfera das cincias mdicas. Moda: o valor mais freqente de um conjunto de dados. Modelo: forma simblica de um princpio fsico expressado por uma equao ou por uma frmula. Newman-Keuls: procedimento de comparao entre mdias de vrios tratamentos, no sentido de verificar a significncia estatstica das diferenas entre essas medidas de tendncia central. A comparao efetuada aps a anlise da varincia e somente se o valor de F for significativo. Nvel de significncia: valor probabilstico do limite de rejeio da hiptese de nulidade, do erro alfa (Tipo I). Em geral adota-se o valor alfa de 0.05 ou 0.01, admitindo-se, ao rejeitar a hiptese de nulidade, a probabilidade de ocorrncia de 1 erro em 20 (5%) ou 1 em 100 (1%), respectivamente. NNH: Nmero Necessrio para causar (Harm) 1 (um) evento desfavorvel num determinado perodo de tempo (t). NNT: Nmero Necessrio para Tratar e prevenir 1 (um) evento desfavorvel num determinado perodo de tempo (t). Observao censurada: observao na anlise de sobrevivncia que no cumpriu o seguimento estabelecido, desconhecendo-se o motivo (abandono, etc). Odds ratio: teste estatstico simbolizado por OR para determinar a vantagem ou desvantagem de um evento em relao ao outro, no estudo de casos nos quais o nmero de controles fixado previamente pelo investigador. p-valor: a probabilidade obtida em um teste de hiptese inferncia estatstica variando de 0 a 1. Quando o p-valor igual ou menor que o nvel alfa previamente estabelecido, rejeita-se a hiptese de nulidade. Parmetros: valores numricos das populaes representando constantes de cada varivel do universo investigado.
- 345 -
GLOSSRIO
Pirmide populacional: diagrama de populaes sob a forma piramidal, podendo representar grupos etrios, propores sexuais, locais de residncias, estados civis e outras variveis. Poder do teste: capacidade de um teste estatstico de rejeitar a hiptese de nulidade quando de fato ela falsa. Ponto de corte: determinao do melhor Ponto de Corte (Cutoff point) para um teste diagnstico, ou seja, aquele que mais se aproxime do chamado Padro Ouro. Populao ou Universo: conjunto de todos os indivduos, itens, eventos, membros ou unidades, circunscritos em uma rea e em determinado tempo. O tamanho da populao simbolizado pela letra N. Populao aberta: o universo que altera seu tamanho durante o perodo da pesquisa, em decorrncia de nascimentos, bitos e fenmenos migratrios. Populao fechada: o universo que no altera seu tamanho durante o perodo de investigao. Preciso amostral: a proximidade entre os valores das estatsticas obtidas de vrias amostras do mesmo tamanho e da mesma populao. Prevalncia: estudo epidemiolgico de ocorrncia de casos de determinada doena, constatados em um determinado momento. Os estudos relativos prevalncia so denominados de transversais. Probabilidade: uma escala de mensurao usada para descrever a chance de ocorrncia de um valor especfico (evento) de uma varivel aleatria. Regra de Bayes: modelo de distribuio de probabilidade condicional onde se calcula a probabilidade a posteriori do evento (A) dada a ocorrncia do (B) (A!B) , em funo do conhecimento a priori da probabilidade de ocorrncia do evento B, desde que o evento A tenha ocorrido Pr (B!A). Para dois eventos o BioEstat apresenta o chamado crivo ou screening test, enquanto que para trs ou mais, o programa dispe do modelo da regra de Bayes. Regresso linear simples: teste estatstico que determina o modelo estimador dos valores de Y a partir dos escores de X. Regresso linear mltipla: teste estatstico que determina o modelo estimador dos escores da varivel Y a partir dos valores de duas ou mais variveis preditivas: X1, X2, , Xn. Regresso logstica simples: teste estatstico de regresso no qual a varivel dependente Y sempre binria, assumindo valores de 1 (sucessos) e 0 (insucessos). Por outro lado, a varivel independente X , em geral, binria, mas pode assumir valores contnuos. Este teste tem larga aplicao nas cincias mdicas. Regresso logstica mltipla: semelhante regresso logstica simples, mas o nmero de variveis independentes, em geral binrias, mltiplo dois (2) ou mais. A varivel dependente sempre binria. Resumo amostral: testes paramtricos (t e z) para uma ou duas amostras, quando se dispe apenas de informaes sobre tamanho, mdias e varincias amostrais. Risco relativo: teste estatstico simbolizado por RR, representando a razo entre o coeficiente de incidncia de determinado evento em pessoas expostas (a uma doena, por exemplo) e o coeficiente de incidncia do mesmo evento em indivduos no expostos. RAR: Reduo Absoluta do Risco representado por p1-p2. RRR: Reduo do Risco Relativo representado por 1-RR. Sensibilidade de um teste: percentagem de indivduos com o evento (determinada afeco, por exemplo) cujo teste tuberculnico, por exemplo positivo (+).
- 346 -
GLOSSRIO
Srie categrica ou especificativa: uma srie estatstica na qual o elemento varivel o fenmeno estudado, mantendo-se fixos o tempo e o local de observao. Srie cronolgica, temporal, evolutiva ou histrica: uma srie estatstica na qual o tempo varia, mantendo-se fixos o local e o fenmeno estudado. Srie geogrfica: uma srie estatstica na qual o local (fator geogrfico) varivel, mantendo-se fixos o tempo e o fenmeno observado. Shapiro-Wilk: teste empregado para verificar a normalidade dos dados amostrais. Sondagem: procedimento de estudo de uma parte da populao voltado, sobretudo, para pesquisas de opinio e de mercado. Sinnimo: amostragem. Seleo dos Regressores (stepewise regression): constitui na seleo das variveis independentes na regresso linear mltipla, no sentido de remover aquelas cujo p-valor superior ao nvel alfa previamente estabelecido. Dois mtodos so utilizados: a) Mtodo Progressivo (Forward Selection) e b) Modelo Regressivo (Backward Selection). Tabelas de freqncia: so representaes tabulares nas quais os escores se apresentam em correspondncia com suas repeties, com freqncias dispostas em valores absolutos e/ou em percentuais, podendo haver agrupamento de dados em classes previamente definidas. Tabelas de contingncia: tabelas nas quais se dispem as freqncias observadas de duas ou mais amostras, cada uma com duas ou mais categorias, em tabelas de l linhas e c colunas (2 x 2, 3 x 2, 2 x 3, 3 x 3, etc). Teste de aderncia: aquele em que se observa o ajustamento ou concordncia dos escores observados aos valores tericos esperados ou deduzidos do ponto de vista matemtico. denominado de goodness of fit na literatura inglesa. Os testes G e do Qui-Quadrado, para uma amostra, so exemplos de testes de aderncia. Teste bilateral: teste estatstico no qual a hiptese alternativa no especifica a direo da diferena a ser detectada, com esta representao: 1 0, podendo 1 ser maior ou menor que 0. Teste binomial (duas propores): teste estatstico baseado na distribuio binomial ou na aproximao curva normal, onde se comparam as propores de duas amostras. Teste binomial (uma proporo): teste estatstico baseado na distribuio binomial ou na aproximao curva normal, onde se compara a proporo de uma amostra com a do parmetro. Teste da Mediana: teste estatstico no-paramtrico de distribuio livre, para duas amostras independentes, no sentido de constatar se provieram de uma populao com a mesma mediana. Os dados devem ser mensurados, pelo menos, em escala ordinal. Teste de Cochran: teste estatstico de modelo livre de distribuio de probabilidades, onde os dados esto contidos em n linhas e k colunas. Todos os escores nominais ou ordinais dicotomizados so definidos somente com dois valores: 1 (sim = sucesso) e 0 (no = insucesso). Teste de Coeficientes de Variao: teste estatstico da diferena entre dois coeficientes de variao, para verificar se os mesmos provieram da mesma populao. Teste de Friedman: teste estatstico de modelo livre de distribuio de probabilidades abrangendo trs (3) ou mais amostras relacionadas, para comparao das respectivas mdias, cujos escores so mensurados em escala nominal ou ordinal (postos). As amostras devem ser do mesmo tamanho. Teste de Kruskal-Wallis: teste estatstico de modelo livre de distribuio de probabilidades, para anlise de mdias de k amostras independentes, do mesmo tamanho ou desiguais, cujos dados devem ser mensurados, no mnimo, a nvel ordinal.
- 347 -
GLOSSRIO
Teste de Mann-Whitney: teste estatstico no-paramtrico de distribuio livre, para duas amostras independentes do mesmo tamanho ou desiguais e dados mensurados, no mnimo, a nvel ordinal. tambm conhecido como Wilcoxon rank-sum test. Teste de Mantel: comparao da distncia entre duas matrizes, como, por exemplo, a composio gentica entre populaes e respectivas distncias geogrficas ou temporais, obtendo-se valores de r, variando de 1 a +1, denotando ou no associao matricial. Teste de McNemar: teste estatstico para dados dispostos em tabela de contingncia 2 x 2, a fim de comparar propores de dois grupos pareados, onde so observados os pares concordantes e os discordantes em relao a dois tratamentos A e B , avaliando-se, em termos probabilsticos, somente os pares discordantes em relao a esses mesmos tratamentos: (+ ) e ( +). Teste de Parker: teste de estimao do tamanho de populao atravs de amostragem mltipla em universos abertos. Teste de Poisson: teste para uma amostra, cujos eventos so raros e ocorridos em determinado perodo, comparando-se, pelo modelo de distribuio de Poisson, os dados amostrais com os da populao. Teste de Schumacher e Eschmeyer: teste de estimao do tamanho da populao atravs de amostragem mltipla em universos fechados. Teste de Wilcoxon: teste no-paramtrico de distribuio livre, para duas amostras pareadas, cujos dados devem ser mensurados, pelo menos, a nvel ordinal. tambm conhecido como Wilcoxon signed-rank test. Teste do Qui-Quadrado (amostras independentes): teste estatstico para n amostras independentes, cujas propores observadas nas diversas modalidades esto dispostas em tabelas de contingncia l x c, sendo os valores esperados deduzidos matematicamente, e onde se procura determinar se as propores observadas nas diferentes categorias so independentes ou esto associadas. O Qui-Quadrado apresenta uma famlia de distribuio de variveis com (l 1) x (c 1) graus de liberdade. Teste dos Sinais: teste estatstico no-paramtrico para duas amostras pareadas, onde se leva em considerao apenas o sinal das diferenas entre cada par de escores (+ ou ), independentemente, portanto, da magnitude das diferenas. Teste Exato de Fisher: teste estatstico, para duas amostras independentes cujas propores esto dispostas em tabela de contingncia 2 x 2, devendo ser escolhido quando os valores observados so pequenos, inclusive com propores cujos escores so iguais a zero (0). Teste G (amostras independentes): teste estatstico para n amostras cujas propores das diversas modalidades esto dispostas em tabelas de contingncia l x c, sendo os valores esperados deduzidos matematicamente, procurando-se determinar se as propores observadas nas diferentes categorias so independentes ou esto associadas. Os graus de liberdade neste teste so calculados como segue: (l 1) x (c 1). Teste Kappa: teste estatstico no-paramtrico destinado a comparar as propores da mesma varivel mensurada a nvel nominal em duas ocasies distintas. Testa-se a reprodutibilidade dos resultados, no sentido de haver ou no concordncia nas propores observadas nos diferentes perodos. Os dados so dispostos em tabela de contingncia 2 x 2. Teste no-paramtrico: aquele em que no h pressuposto sobre modelo de distribuio nem quanto aos parmetros, no se aplicando ao mesmo o Teorema do Limite Central. Teste paramtrico: aquele com pressuposto de um modelo de distribuio normal, binomial, etc , cujos parmetros assumem um desses modelos, aplicando-se-lhe o Teorema do Limite Central.
- 348 -
GLOSSRIO
Teste unilateral: teste estatstico no qual a hiptese alternativa especifica a direo da diferena a ser detectada, assim representado: 1 < 0 ou 1 > 0. Testes t (Student): testes paramtricos para uma amostra, duas amostras pareadas ou duas amostras independentes, baseados no modelo de distribuio de Student e geralmente efetuados quando se desconhece as varincias paramtricas. O modelo de Student constitui uma famlia de distribuio e est relacionado com os graus de liberdade. Testes Z: testes paramtricos para uma amostra ou duas amostras independentes, baseados no modelo de distribuio normal e geralmente efetuados quando as varincias das populaes so conhecidas. Nos estudos estatsticos, a distribuio normal constitui um dos modelos mais importantes em termos probabilsticos. Transformao de dados: mudana de escala dos dados de uma varivel, podendo ser efetuada pelos logaritmos, pela raiz quadrada, pela ordenao dos escores (rank), pelo quadrado dos valores, etc. Unidade: indivduo, elemento, item, membro ou unidade estatstica onde se estuda uma ou mais variveis. A unidade estatstica pode ser simples: pessoa, objeto, animal, planta, protozorio, etc, ou coletiva: cardume, blocos residenciais, turmas escolares, colmias, colnias bacterianas e outras. Universo: o mesmo que populao. Valor preditivo de um teste negativo: probabilidade de que um indivduo com teste negativo () seja uma pessoa sem o evento objeto da investigao (determinada doena, por exemplo). Valor preditivo de um teste positivo: probabilidade de que um indivduo com teste positivo (+) apresente o evento objeto da investigao (determinada doena, por exemplo). Valor extremo: escore muito afastado da maioria dos valores amostrais, decorrente da incluso no universo investigado de elemento estranho, de erro de observao, de falha instrumental, de equvoco de registro ou de introduo do dado na planilha de clculos. Pode, entretanto, ser um valor verdadeiro, devendo-se examin-lo cuidadosamente antes de sua excluso da anlise dos dados. Na literatura inglesa denomina-se outlier. Varincia: soma dos quadrados dos desvios em relao mdia, dividida pelo nmero de observaes da amostra menos um (n 1). Variveis independentes: so variveis consideradas preditivas de uma outra varivel denominada dependente. Varivel: determinada caracterstica dos indivduos ou elementos objetos da investigao, como so exemplos o sexo dos animais, o estado civil, a etnia, o peso de recm-nascidos, etc. Varivel dependente: a varivel decorrente de uma ou mais variveis, estas denominadas independentes ou preditivas. Vis ou Bias: diferena entre o valor de uma estatstica e a do parmetro. Vis ou Bias ocasionais: so aqueles decorrentes de erros de cobertura superposio, incluso ou excluso de unidades , da escolha no-aleatria das amostras, de erros de observao, de defeitos instrumentais e outros.
- 349 -
GLOSSRIO
- 350 -
REFERNCIAS BIBLIOGRFICAS
Abuabara, M.A.P. & Petrere Jr., M. (1997). Estimativas da Abundncia de Populaes Animais. EDUEM Editora da Universidade Estadual de Maring, Paran. Allen, R.G.D. (1979). Estatstica para Economistas. Zahar Editores, Rio de Janeiro. Ayres, M. & Ayres Jr., M. (1987). Aplicaes Estatsticas em BASIC. McGraw-Hill do Brasil, So Paulo. Ayres, M., Ayres Jr., M., Ayres, D.L., Santos, A.S. (1998). BioEstat. Verso 1.0, Sociedade Civil Mamirau, MCT CNPq, Belm, Par, Brasil. Beiguelman, B. (1979). Gentica Mdica, vol. 3. Edart-So Paulo Livraria Editora, Ed. da Universidade de So Paulo. Beiguelman, B. (1994). Curso Prtico de Bioestatstica. 3. ed., Revista Brasileira de Gentica. Beiguelman, B. (1994). Dinmica dos Genes nas Famlias e nas Populaes. Sociedade Brasileira de Gentica, Ribeiro Preto, So Paulo. Berkeley, E.C. (1965). Sorte ou Azar. Editora Universidade de Braslia, Braslia. Berqu, E.S., Souza, J.M.P. & Gotlieb, S.L.D. (1980). Bioestatstica. Editora Pedaggica e Universitria, So Paulo. Blank, S., Seiter, C. & Bruce, P. (2001). Resampling Stats in Excel. Resampling Stats, Inc., Arlington, Virginia. Brown, F.L., Amos, J.R. & Mink, O.G. (1975). Statistical Concepts. 2rd. ed., Harper & Row, Publishers, New York. Burleson, D.R. (1980). Elementary Statistics. Winthrop Publishers, Inc., Cambridge, Massachusetts. Bussad, W.O. (1988). Anlise de Varincia e Regresso. 2. ed., Editora Atual, So Paulo. Butcher, H.J. (1966). Sampling in Educational Research. Manchester University Press, Manchester. Caldeira, A.M.S. & Ferreira, M.L.B. (1974). Estatstica Instruo Programada, vols. 1 e 2. Conquista, Rio de Janeiro. Callegari-Jacques, S. (2003). Bioestatstica: princpios e aplicaes. Artmed Editora S.A., Porto Alegre, Brasil. Calot, G. (1979). Cours de Statistique Descriptive. Deuxime dition, Dunod, Paris. Camel, F. (1991). Estadstica Mdica y Planificacin de la Salud, I y II. Consejo de Publicaciones de la Universidad de Los Andes, Mrida, Venezuela. Campbell, R.C. (1994). Statistics for Biologists. 3rd. ed., Cambridge University Press, Cambridge. Canavos, G.C. (1988). Probabilidad y Estadstica. McGraww-Hill, Mxico. Castello, L. (2004). A method to Count Pirarucu Arapaima gigas: Fishers, Assessment, and Management. North American Journal of Fisheries Management, 24:379-389. Castle, W.M. (1977). Statistics in Small Doses. 2rd. ed., Churchill Livingstone, London. Caswell, H. (2001). Matrix Population Models. 2rd. ed., Sinauer Associates, Inc. Publishers, Sunderland, Massachusetts. Centeno, A.J. (1982). Curso de Estatstica Aplicada Biologia. Editora da Universidade Federal de Gois, Goinia. Chacn, E. (1972). Curso de Estatstica. Livro Ibero-Americano, Rio de Janeiro. Chatfield, C. & Collins, A.J. (1986). Introduction to Multivariate Analysis. Chapman and Hall, London.
- 351 -
REFERNCIAS BIBLIOGRFICAS
Chernick, M.R. & Friis, R.H. (2003). Introductory Biostatisitcs for the Health Science. Wiley Intercience, New Jersey. Cochran, W.G. (1977). Sampling Techniques. 3rd. ed., John Wiley & Sons, Inc., New York. Cohen, J. (1977). Statistical Power Analysis for the Behavioral Sciences. 2rd. ed., Lawrence Erlbaum Associates, Publishers, New Jersey. Collett, D (1996). Modelling Survival Data in Medical Research. Chapman & Hall, London. Cooke, D., Craven, A.H. & Clarke, G.M. (1984). Basic Statistical Computing. Edward Arnold (Publishers), London. Costa, J.J.S. (1981). Elementos de Estatstica. Editora Campus, Rio de Janeiro. Costa, S.F. (1988). Introduo Ilustrada Estatstica. Editora Harbra, So Paulo. Cox, D.R. (1972). Regression Models and Life-Tabels. J. Roy. Statist. Soc. , 34: 187-220. Crespo, A.A. (1997). Estatstica Fcil. 15. ed., Editora Saraiva, So Paulo. Cunha, O.S. & Ramos, F.A.O. (1976). Iniciao Estatstica: Volumes I e II. Tipografia do Carvalhido, P. Cunha, S.E. (1978). Estatstica Descritiva na Psicologia e na Educao. Forense-Universitria, Rio de Janeiro. Daniel, W.W. (1999). Biostatistics: A Foundation for Analysis in the Health Sciences. 7th. ed., John Wiley & Sons, New York. Dawson-Saunders, B. & Trapp, R.G. (1994). Basic & Clinical Bioestatstics. 2rd. ed., Appleton & Lange, Norwalk, Connecticut. DeGroot, M.H. (1988). Probabilidad y Estadstica. 2. ed., Addison-Wesley Iberoamericana, Wilmington, Delaware. Di Dio, R.A.T. (1979). Estatstica, Instruo Programada. Editora Pedaggica e Universitria, So Paulo. Dress, F. (2004). Probabilits et Statistique de A Z. Dunod, Paris. Edwards, A.L. (1984). An Introduction to Linear Regression and Correlation. 2nd. ed., W. H. Freeman and Company, New York. Efron, B. (1979). Bootstrap Methods: Another Look at de Jacknife. The Annals of Statistics 7 (1): 1-26. Efron, B. & Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC, London. Elston, R.C. & Johnson, W.D. (1994). Essentials of Biostatistics. 2nd. ed., F. A. Davis Company, Philadelphia. Essex-Sorlie, D. (1995). Medical Bioestatstics & Epidemiology. Appleton & Lange, Norwalk, Connecticut. Fisher, L.D. & Van Belle, G. (1993). Biostatistics. John Wyley & Sons, Inc., New York. Fisher R.A. (1946a). The fitting of gene frequencies to data on Rhesus reactions. Ann. Eug. 13:150-155. Fisher R.A. (1946b). Note on the calculation of the frequencies of Rh allelomorphs. Ann. Eug. 13:223224. Fisher, R.A. (1993). Statistical Methods Experimental Design and Scientific Inference. Oxford University Press, Oxford. Fisher, R.A. & Yates, F. (1954). Tablas Estadisticas. Aguilar Ediciones, Madrid. Fleiss, J.L. (1986). The design and analysis of clinical experiments. Wiley, Nerw York. Fogiel, M. (1996). The Statistics Problem Solver. Research and Education Asscociation, New Jersey. Freund, R.J. & Wilson, W.J. (1997). Statistical Methods. Revised Edition, Academic Press, New York. Galambos, J. (1984). Introductory Probability Theory. Marcel Dekker, Inc., New York. Galton, F. (1886). Rate of Regression in Hereditary Stature. Journal of the Anthropological Institute, Vol. 15, p. 248.
- 352 -
REFERNCIAS BIBLIOGRFICAS
Gatts, R.R. (1978). Elementos de Probabilidade e Inferncia. Editora Atlas, So Paulo. Gemmell, I., Heller, R.F., mcElduff P., Butler, G., Edwards, R., Roland, M. & Dumington, P. (2005). The population impact of stricter aherence to recommendations for pharmacological and lifestyle intervations over one year in pactients with coronary heart disease. Journal of Epidemiology and Community Hearth; 59: 1041-1046. Gimenes, M. (2003). Interaction between visiting bees (Hymenoptera, Apoidea) and flowers of Ludwigia elegans (Camb.) hara (Onagraceae) during the year in two different areas in So Paulo, Brazil. Braz. J. Biol., So Carlos, v. 63, n. 4, 2003. Glantz, S.A. (1997). Primer of Biostatistics. 4th. ed., McGraw-Hill, NewYork. Gnedenko, B.V. & Khintchine, A.I. (1974). Introduo Teoria das Probabilidades e Estatstica. Editorial Estdios Cor, Lisboa. Gonick, L. & Smith, W. (1993). The Cartoon Guide To Statistics. HarperPerennial, HarperCollins Publishers, New York. Greenberg, R.S., Daniels, S.R., Flanders, W.D., Eley, J.W. & Boring, J.R. (1996). Medical Epidemiology. 2nd. ed., Appleton & Lange, Norwalk, Connecticut. Groeneveld, R.A. (1979). An Introduction to Probability and Statistics Using Basic. Marcel Dekker, Inc., New York. Groves, R.M. (1989). Survey Errors and Survey Costs. John Wiley & Sons, New York. Guedes, M.L.S. & Guedes, J.S. (1988). Bioestatstica para Profissionais de Sade. Ao Livro Tcnico, Rio de Janeiro. Guimares, R.C. & Cabral, J.A.S. (1997). Estatstica. McGraw-Hill de Portugal, Porto, Gullon, A. (1971). Introduccion a la Estadstica Aplicada. Editorial Alhambra, Madrid. Hayslett Jr., H.T. (1968). Statistics Made Simple. Doubleday, New York. Hedges, L.V. & Olkin, I. (1985). Statistical Methods for Meta-Analysis. Academic Press, New York. Heller, R.F., Dobson, A.J., Attia, J. & Page, J.H. (2002). Impact numbers: mesures of risk factor impact on the whole population from case control and cohort studies. J. Epidemiol Community Health 2002; 56: 606-10. Heller, R.F., McElduff, P. & Edwards, R. (2002). Impact of upward social mobility on pupulation mortality: analysis with routine data. BMG; 325: 134. Heller, R.F., Edards, R. & McElduff, P. (2003). Implementing guidelines in primary care: can population impact measures help? Bmc Public Haalth; 2: part 7. Heller, R.F., Buchan, L., Edwards R., Lyratzopoulos, G., McElduff P. and St Leger S. (2004). Communicanting risks at the population level: application of population impact numbers. British Medical Journal: 327: 1162-5. Heller, R.F. (2005). Evidence for Population Health. Oxford University Press, Manchester, UK. Herzon, F.D. & Hooper, M. (1976). Introduction to Statistics for the Social Sciences. Thomas Y. Crowell Company, New York. Hine, J. & Wetherill, G.B. (1975). A Programmed Text in Statistics: Book One, Summarizing Data. Chapman and Hall, London. Hinkle, D.E., Wiersma, W. & Jurs, S.G. (1994). Applied Statistics for the Behavioral Sciences. 3rd. ed., Houghton Mifflin Company, Boston. Hoel, P.G. (1979). Estatstica Elementar. Editora Atlas, So Paulo. Hosmer, D.W. & Lemeshow, S. (1989). Applied Logistic Regression. John Wiley & Sons, New York. Hosmer, D.W. & Lemeshow, S. (1998). Applied Survival Analysis, John Wiley & Sons, New York. Howell, D.C. (1993). Fundamental Statistics for the Behavioral Sciences. 2nd. ed., PWS-KENT Publishing Company, Boston.
- 353 -
REFERNCIAS BIBLIOGRFICAS
Huck, S.W. & Sandler, H.M. (1984). Statistical Illusions: Solutions. Harper & Row, Publishers, New York. Huff, D. (1993). How to Lie with Statistics. W. W. Norton & Company, Inc., New York. Ingelfinger, J.A., Mosteller, F., Thibodeau, L.A. & Ware, J.H. (1994). Biostatistics in Clinical Medicine. 3rd. ed., McGraw-Hill, New York. Jabardo, W.R.S. (1985). Gentica. Editora McGraw-Hill do Brasil, So Paulo. Jammalamadaka, S. R.& Gupta, A. (2001). Topics in Circular Statistic. Word Scientific, London. Johnson, D. E. (1998). Mtodos Multivariados Aplicados al Anlisis de Datos. International Thomson Editores, Mxico. Johnson, R.A. & Wichern, D.W. (1998). Applied Multivariate Statistical Analysis. 4th. ed., Prentice Hall, Inc., New Jersey. Kaar, A.F. (1986). Point Processes and Their Statistical Inference. Marcel Dekker, Inc., New York Kachigan, S.K. (1991). Multivariate Statistical Analysis A Conceptual Introduction. 2nd Ed.. Radius Press. New York. Kalbfleisch, J.G. (1985). Probability and Statistical Inference, vols. 1, 2. 2rd. ed., Springer-Verlag, New York. Kaplan, D.T. (1999). Resampling Stats in MATLAB. Resamplibg Stats. Inc., Arlington, Virginia. Katz, D.L. (2001). Epidemiologia, Bioestatstica e Medicina Preventiva. Livraria e Editora Revinter Ltda., Rio de Janeiro. Kellner, S.R.O., Cavas, C.S.T. & Nick, E. (1979). Exerccios de Estatstica. Editora Renes, Rio de Janeiro. Kirkwood, B.R. (1995). Essencials of Medical Statistics. Blackwell Science, Oxford. Lang, T.A. & Secic, M. (1997). How to Report Statistics in Medicine. American College of Physicians, Philadelphia. Lange, K. (1997). Mathematical and Statistical Methods for Genetic Analysis. Springer-Verlag, New York. Lapponi, J.C. (1997). Estatstica usando Excel 5 e 7. Lapponi Treinamento e Editora, So Paulo. Laurenti, R., Mello Jorge, M.H.P., Lebro, M.L. & Gotlied S.L.D. (1987). Estatsticas de Sade. 2. ed., Editora Pedaggica e Universitria, So Paulo. Lee, E.T. (1992). Statistical Methods for Survival Data Analysis. 2nd. ed., John Wiley & Sons, Inc., New York. Levin, J. (1978). Estatstica Aplicada a Cincias Humanas. Editora Harper & Row do Brasil, So Paulo. Levy, P.S. & Lemeshow, S. (1991). Sampling of Populations. John Wiley & Sons, Inc., New York. Lindley, D.V. & Scott, W.F. (1984). New Cambridge Elementary Statistical Tables. Cambridge University Press, Cambridge. Maletta, C.H.M. (2000). Bioestatstica Sade Pblica. 3a edio, Editora Independente, Belo Horizonte, Minas Gerais. Manly, B.F.J. (2000). Multivariate Statistical Methods- A Primer, Third Ed., Chapman and Hall, London. Martinelli, J.M. (2005). Estrutura Populacional dos Camares Penaeidae no Esturio do Rio Caet, litoral Norte do Brasil, Tese de Doutorado, Belm, Par, Brasil. Martins, G.A. & Donaire, D. (1979). Princpios de Estatstica. Editora Atlas, So Paulo. Massad, E., Menezes, R.X., Silveira, P.S.P. & Ortega, N.R.S. (2004). Mtodos Quantitativos em Medicina. Editora Manole, So Paulo, Brasil. Mattar, F.N. (1994). Pesquisa de Marketing, 1 e 2. Editora Atlas, So Paulo.
- 354 -
REFERNCIAS BIBLIOGRFICAS
Matthews, D.E. & Farewell, V.T. (1996). Using and Understanding Medical Statistics. 3rd. ed., Karger, Basel. Maxwell, A.E. (1977). Multivariate Analysis in Behavioural Research. Chapman and Hall, London. McCuen, R.H. (1993). Microcomputer Applications in Statistical Hidrology. Prentice Hall, New Jersey. Mendenhall, W. & Beaver, R.J. (1991). Introduction to Probability and Statistics. 8th. ed., PWS-KENT Publishing Company, Boston. Michelson, S. & Schofield, T. (1996). The Biostatistics Cookbook. Kluwer Academic Publishers, Boston. Miller, S. (1977). Planejamento Experimental e Estatstica. Zahar Editores, Rio de Janeiro. Minium, E.W., King, B.M. & Bear, G. (1993). Statistical Reasoning in Psychology and Education. Third ed., John Wiley & Sons, Inc., New York. Morettin, P.A. & Bussab, W.O. (2004). Estatstica Bsica, 5a. Ed., Editora Saraiva, SoPaulo. Mosteller, F. & Rourke, R.E.K. (1993). Estatsticas Firmes. Edies Salamandra, Lisboa. Murteira, B.J.F. (1990). Probabilidades e Estatstica, vols. I e II. 2. ed., McGraw-Hill de Portugal, Lisboa. Neave, H.R. (1985). Elementary Statistics Tables. George Allen & Unwin, London. Neter, J., Kutner, M.H., Nachtsheim, C.J. & Wasserman, W. (1996). Applied Linear Regression Models. 3rd. ed., IRWIN, Chicago. Neter, J., Kutner, M.H., Nachtsheim, C.J. & Wasserman, W. (1996). Applied Linear Statistical Models. 4th. ed., IRWIN, Chicago. Nick, E. & Kellner, S.R.O. (1971). Fundamentos de Estatstica para as Cincias do Comportamento. Editora Renes, Rio de Janeiro. Oliveira, T.F.R. (1976). Estatstica na Escola. Ao Livro Tcnico, Rio de Janeiro. Ott, R.L. & Mendenhall, W. (1995). Understanding Statistics. 6th. ed., Duxbury Press, Belmont, California. Pagano, R.R. (1994). Understanding Statistics in the Behavioral Sciences. 4th. ed., West Publishing Company, New York. Peters, W.S. & Summers, G.W. (1978). Anlise Estatstica e Processo Decisrio. 2. ed., Editora da Fundao Getlio Vargas, Rio de Janeiro. Queiroz, H.L. (2000). Natural history and conservation of pirarucu, Arapaima gigas, at the Amazonian Varzea: Red giants in muddy waters. Thesis submitted for the degree of Doctor of Philosophy, University of St. Andrew. Rameau, C. (1971). As Estatsticas: um Instrumento de Gesto, 10 e 20. Livraria Clssica Editora, Lisboa. Rees, D.G. (1990). Essential Statistics. 2rd. ed., Chapman and Hall, London. Reichmann, W.J. (1975). Uso e Abuso das Estatsticas. Editora Artenova, Rio de Janeiro. Reis, E. (1997). Estatstica Multivariada Aplicada. Edies Slabo, Ltda., Lisboa. Reis, M.D. (1978). Elementos Bsicos de Estatstica. 2. ed., Editora Estrutura, So Paulo. Reszczynski, O. (1969). Sumatorias. Centro Interamericano de Enseanza de Estadstica, Santiago. Rivera, D.P.S. (1989). Estadstica Modelos y Mtodos, 1. Fundamentos. Alianza Editorial, Madrid. Rocha, M.V. (1975). Curso de Estatstica. 3. ed., Fundao Instituto Brasileiro de Geografia e Estatstica (IBGE), Rio de Janeiro. Rosner, B. (2006). Fundamentals of Biostatistics. 6th. ed., Duxbury Press, Boston. Rothenberg, R.I. (1991). Probability and Statistics. Harcout Brace Jovanovich, Publishers, New York. Rowntree, D. (1981). Statistics Without Tears - A Primer for Non-mathematicians. Penguin Books, New York.
- 355 -
REFERNCIAS BIBLIOGRFICAS
Sahai, H. & Martnez, W. (1996). Tablas y Frmulas Estadsticas para las Ciencias Biolgicas, Sociales y Fsicas. Grupo Editorial Iberoamrica, de C.V., Mxico. Salaru, N.N. (1989). Blood groups in large sample from city of So Paulo (Brazil): allele and haplotype frequencies for MNSs, Kell-Cellano, Rh and ABO systems. Rev. Brasil. Genet. 12, 2, 625-643. Shapiro, S.S. & Wilk, M.B. (1965). An Analysis of variance test for normality (complete samples). Biometrika, 52: 591- 411. Shapiro, S.S., Wilk, M.B. & Chen, H.J. (1968). A comparative study of various tests for normality. J. Amer. Statist. Assoc. 63: 1343 1372. Scheaffer, R.L., Mendenhall, W. & Ott, L. (1990). Elementary Survey Sampling. 4th. ed., PWS-KENT Publishing Company, Boston. Shiavi, R. (1991). Introduction to Applied Statistical Signal Analysis. Aksen Associates Incorporated Publishers, Boston. Shiffler, R. E. & Adams, A. J. (1999). Succeding Statistics. Duxbury Press, New York. Siegel, S. & Castellan Jr., N.J. (1988). Nonparametric Statistics for the Behavioral Sciences. 2nd. ed., Mc Graw-Hill, Inc., New York. Sincich, T. (1993). Statistics by Example. 5th. ed., Prentice Hall, New Jersey. Snedecor, G.W. & Cochran, W.G. (1978). Statistical Methods. 6th. ed., The Iowa State University Press, Ames, Iowa. Soares, J.F. & Siqueira, A.L. (2002). Introduo Estatstica Mdica. Departamento de Estatstica UFMG, Belo Horizonte, Brasil. Sokal, R.R. & Rohlf, F.J. (1969). Biometry. W. H. Freeman and Company, San Francisco. Sokal, R.R. & Rohlf, F.J. (1995). Biometry. 3rd. ed., W. H. Freeman and Company, New York. Sounis, E. (1985). Bioestatstica. 3. ed., Livraia Atheneu, Rio de Janeiro. Spiegel, M.R. (1984). Estatstica. 2. ed., McGraw-Hill do Brasil, So Paulo. Stansfield, W.D. (1985). Gentica. 2. ed., McGraw-Hill do Brasil, So Paulo. Steel, R.G.D., Torrie, J.H. & Dickey, D.A. (1997). Principles and Procedures of Statistics A Biometrical Approach. 3rd. ed., McGraw-Hill, New York. Stevens, W.L. (1938). Estimation of blood-groups gene frequencies. Ann. Eug. 8:362-217. Stevens, W.L. (1950). Statistical analysis of the A-B-O blood groups. Hum. Biol. 22:191-217. Sutton, A. J., Abrams, K. R., Jones, D. R., Sheldin, T. A. & Song. F. (2000). Methods for MetaAnalysis in Medical Research. John Wiley & Sons, Ltd., New York. Tanis, E.A. (1987). Statistics II Estimation and Tests of Hypotheses. Harcout Brace Jovanovich, Publishers, New York. Tippett, L.H.C. (1968). Estatstica. 2. ed., Coleo SABBER, Publicaes Europa-Amrica, Lisboa. Toledo, G.L. & Ovalle, I.I. (1995). Estatstica Bsica. 2. ed., Editora Atlas, So Paulo. Triola, M.F. (1999). Introduo Estatstica. 7. ed., LTC Livros Tcnicos e Cientficos Editora, Rio de Janeiro. Van Belle. G. (2002). Statistical Rules of Thumb. Wiley Interscience, New York. Vicente, P., Reis, E. & Ferro, F. (1996). Sondagens. Edies Slabo, Lisboa. Vieira, S. (1981). Introduo Bioestatstica. Editora Campus, Rio de Janeiro. Weaver, J. H. (2001). Conquering Statistics Numbers Without The Crunch. Perseus Publishing, Cambridge, Massachusetts. Wetherill, G.B. (1967). Elementary Statistical Methods. Methuen & Co. Ltd., London. White, J., Yeats, A. & Skipworth, G. (1979). Tables for Statisticians. 3rd. ed., Stanley Thornes (Publishers) Ltd., Cheltenham.
- 356 -
REFERNCIAS BIBLIOGRFICAS
Wonnacott, R.J. & Wonnacott, T.H. (1985). Introductory Statistics. 4th. ed., John Wiley & Sons, New York. Zar, J.H. (1999). Biostatistical Analysis. 4th. ed., Prentice Hall, New Jersey.
- 357 -
NDICE
A
Abrindo arquivos, 5 Acurcia, 102, 107 Aderncia, G, teste, 119 Kolmogorov-Smirnov, 120 Lilliefors, 121 Qui-Quadrado, 121,122 Ajustamento de curvas, 219 Amostras, tamanho, 245 Amostragem, tipos de, 9 Aleatrias do grid, 13 Aleatrias simples, 10 Estratificadas, 11 Por conglomerados, 11 Sistemticas, 10 Anlise multivariada, 17 Componente principal, 23 Conglomerados, 17 Correlao cannica, 25 Discriminante, 20 Distncia Euclidiana, 30 Distncia de Penrose e Mahalanobis, 31 Teste de Hotelling, 33 Teste de Bartlett, 33 Teste de Mantel, 34 Anlise de resduos, 212, 221 Anlise de sobrevivncia, 39 atuarial, 40 Cox-Mantel, 41 Cox: Modelo de Risco Proporcional, 42 Gehan, 51 Kaplan-Meier, 46 Log-Rank test, 47 Mantel-Haenszel, 52 ANOVA, 59 dois critrios, 64
duas amostras pareadas, 150 fatorial a x b, 65 fatorial a x b x c, 67 Friedman, 68 Kruskal-Wallis, 70 Q de Cochran, 72 um critrio, 59 rea, grfico de, 260 Aumento do Tamanho Amostral, 14
B
Bartlett, teste de, 33 Bayes, regra de, 106 Binomial, distribuio, 95 Binomial, teste, 116, 131 Bootstrap (Tira de bota), 75 Box-plot, 262, 262
C
Casas decimais, expresso de, 1 Caule e folha, diagrama, 263 Circular, estatsticas, 235 Cochran, teste Q de, 72 Coeficientes de variao, teste de, 144 Colunas, grfico de, 265 Configurando o BioEstat, 7 Componente principal, 23 Conglomerados, amostras por, 11 Conglomerados, anlise, 17 Correlao, 85 cannica, 25 circular, 244 concordncia de Kendall, 91 contingncia C, 90 de Kendall, 92 intraclasse, 151
- 359 -
NDICE
linear de Pearson, 85 linear < 0 ou > 0, 89 matriz de, 86 parcial, 88 Phi, 93 Spearman, 94 Curva, grfico de, 275 Curva ROC, 103 Cox-Mantel, 41 Cox: Modelo de Risco Proporcional, 42 Crivo (screening test), 102 teste de Kolmogorov-Smirnov, 134 teste de Mann-Whitney, 135 teste da Mediana, 137 teste de Poisson, 145 teste do Qui-Quadrado, 138 teste t de Student, 126, 128 teste Z, 129, 130 Duas amostras relacionadas, 147 ANOVA, 150 teste de McNemar, 152 teste de Wilcoxon, 157 teste dos Sinais, 154 teste Kappa, 156 teste t de Student, 147, 149
D
DAgostino, teste, 203 DAgostino-Pearson, teste, 204 Densidade e tamanho da populao, 170 Diagrama de disperso, grfico, 267 Diagrama IC, 268 Diagrama Pontual, 271 Discriminante, anlise, 20 Distncia multivariada, 17 Euclidiana, 30 Penrose e Mahalanobis, 31 Distribuio de probabilidades, 95 binomial, 95 crivo (Screening test), 102 curva ROC, 103 exponencial, 98 F, 107 hipergeomtrica, 96 normal, 99 Poisson, 97 Qui-Quadrado, 108 Regra de Bayes, 106 Sensibilidade/Especificidade, 107 t Student, 109 Z, 109 Duas amostras independentes, 125 coeficiente de variao, 144 Odds Ratio (OR), 139 Risco Relativo, (RR), 140 taxa de Incidncia, 143 teste binomial, 131 teste exato de Fisher, 132 teste G, 133
E
Entrando com os dados, 3 Escolha do teste estatstico, sugestes, 331 Escolhendo o teste, 6 Especificidade, 102, 107 Estatstica circular, 235 Correlao, 244 Descritiva, 236 Uma amostra, Rayleigh,, 238 Teste V, 239 Duas amostras independentes, 240 Duas amostras relacionadas, 243 Trs amostras independentes, 242 Estatstica descritiva, 159 Tendncia central, disperso e forma, 160 ndice de Shannon-Wiener, 162 ndice de Simpson, 163 Estimao de parmetros, 165 da diferena entre duas mdias, 167 da diferena entre duas propores, 169 da mdia, 165 da proporo, 167 densidade e tamanho da populao, 170 fentipos e gentipos, 172 Fourier (densidade), 173 Hardy-Weinberg, 171 Impacto populacional (PIN-ER-t), 174 Matriz de Crescimento (Leslie), 175 tamanho da populao, 176, 177, 177, 179
- 360 -
NDICE
Estratificadas, amostras, 11 Euclidiana, distncia, 30 Executando o teste, 6 Exponencial, distribuio, 98 diagama IC, 268 diagrama pontual, 271 disperso, 267 histograma, 272 manipulao, 283 mximo e mnimo, 276 pirmide populacional, 277 polar, 281 resultados, 287 setor, 282 tabelas de freqncia, 285
F
F, distribuio, 107 Fatorial, anova, 65. 69 Fentipos e gentipos, 172 Frmulas estatsticas, 289 anlise multivariada, 289 anlise de sobrevivncia, 292 anlise de varincia, 294 correlao, 296 distribuio circular, 328 distribuio de probabilidades, 297 duas amostras independentes, 301 duas amostras relacionadas, 305 estatstica descritiva, 308 estimao de parmetros, 310 meta-anlise, 315 normalidade, 318 Qui-Quadrado, 319 regresso, 321 tamanho das amostras, 325 transformao de dados, 327 uma amostra, 300 Fisher, teste exato, 132 Fourier (densidade), 173 Freqncia, tabelas de, 285 Friedman, teste de, 68
H
Hipergeomtrica, distribuio, 96 Histograma, grfico, 272 Hotelling, teste de, 33
I
Imprimindo, 6 Incidncia, taxa de, 143 Independncia, 125 duas amostras, 126, 129 Qui-Quadrado, 138 ndice, 357 ndice de Shannon-Wiener, 162 ndice de Simpson, 163 Instalando o BioEstat, 1 Iteraes, (runs test), 117
K
Kaplan-Meier, 46 Kappa, teste, 156 Kendall, 91 coeficiente de concordncia, 91 coeficiente de correlao, 92 Kolmogorov-Smirnov, teste de aderncia, 120, 205 independncia, 134 uma amostra, 120 Kruskal-Wallis, teste de, 70
G
G, teste, 119, 133 Gehan, 51 Glossrio, 339 Grficos e tabela, 259 rea, 260 avanados, 287 box-plot (mediana), 261 box-plot (media), 262 caule e folha, 263 coluna, 265 curva, 275
- 361 -
NDICE
L
Leslie (Matriz de crescimento), 175 Lilliefors, teste de, 121, 205 Likelihood ratio, 102, 107 Linear, correlao, 85, 89 Linear mltipla, regresso, 217 Linear simples, regresso, 215 Logstica mltipla, regresso, 226 Logstica simples, regresso, 224 Log-Rank test, 47
D'Agostino, teste de, 203 D'Agostino-Pearson, teste de, 204 Kolmogorov-Smirnov, teste de, 205 Lilliefors, teste de, 205 Shapiro-Wilk, teste de,206 Valores extremos, 207, 209
O
Obtendo ajuda, 7 Odds-ratio, 139
M
Mahalanobis, distncia de, 31 Manipulao, Grficos, 283 Mann-Whitney, teste de, 135 Mantel, teste de, 34 Mantel-Haenszel, 52, 187 Mximo e mnimo, grfico, 276 McNemar, teste de, 152 Mdia, estimao da, 165 Mediana, teste da, 137 Meta-Anlise, 181 DerSimonian-Laird, 182 Dados Contnuos, 185 Grficos, 259 Mantel-Haenszel, 177 Qui-Quadrado, 191, 192 p-valor, 190 Regresso, 194 Risco Relativo, 195 Teste G, 197 Vrias Correlaes, 198 Vrias Propores, 200 Kolmogorov-Smirnov, teste de, 120, 134 Multivariada, anlise, 17 Mltipla, regresso linear, 217 Mltipla, regresso logstica, 226
P
P-valor (Meta-Anlise), 190 Parcial, correlao, 88 Pearson, correlao de, 85 Penrose, distncia de, 31 PIN-ER-t, 174 Pirmide Populacional, 53, 277 Ponto de Corte, 105 Populao, tamanho, 176 amostragem simples direta, 176 amostragem simples inversa, 177 amostragem mltipla pop. aberta, 179 amostragem mltipla pop. fechada, 177 densidade e tamanho, 170 Poisson, distribuio de, 97 Poisson, teste, 145 Polgono de freqncia, 285 Polinomial, regresso, 228 Prevalncia, 102, 107 Probabilidades, distribuio, 95 Proporo, estimao da, 167, 169 uma amostra, 116 duas amostras, 131 vrias propores, 200
N
NNT e NNH, 134, 140 Normal, distribuio, 99 Normalidade, 203
Q
Q, de Cochran, 72 Qui-Quadrado, 211 amostras independentes, 211 anlise de resduos, 212
- 362 -
NDICE
distribuio do, 108 homogeneidade, aderncia, 211 homogeneidade, independncia, 211 Mantel-Haensze, 52, 187 partio, 211 tendncia, 213 uma amostra, 121, 122 vrias propores, 200
T
t de Student, distribuio, 109 Tabela de freqncia, 285 Tamanho da populao, 176 amostragem simples direta, 176 amostragem simples inversa, 177 amostragem mltipla pop. Aberta, 179 amostragem mltipla pop. fechada, 177 Tamanho das amostras, 245 anlise de varincia, 246 correlao linear, 246 McNemar, 247 proporo duas amostras, 248 uma amostra, 249 Qui-Quadrado, 250 Regresso linear, 250 Teste t, amostras pareadas, 253 duas amostras independentes, 252 uma amostra, 251 Taxa de incidncia, 143 Teste binomial, duas propores, 131 uma proporo, 116 Teste da Mediana, 137 Teste de Bartlett, 33 Teste de Cox-Mantel, 41 Teste DAgostino, 203 Teste DAgostino-Pearson, 204 Teste de Gehan, 51 Teste de Friedman, 68 Teste de Hotelling, 33 Teste de Kappa, 156 Teste de Kaplan-Meier, 46 Teste de Kolmogorov-Smirnov, duas amostras independentes, 134 uma amostra, 120, 205 Teste de Kruskal-Wallis, 70 Teste de Lilliefors, 121, 205 Teste de Mantel-Haenszel, 52, 187 Teste de Mann-Whitney, 135 Teste de McNemar, 152 Teste de Parker, 179 Teste de Poisson, 123, 145
R
Rayleigh (circular, uma amostra), 238 Reamostragem: bootstrap, 15 Referncias bibliogrficas, 358 Regra de Bayes, 106 Regresso, 215 ajustamento de curvas, 219 anlise de resduos, 221 comparao de duas regresses, 233 homogeneidade, 194 linear mltipla, 217 linear simples, 215 logstica mltipla, 226 logstica simples, 224 polinomial, 228 seleo de regressores, 230 stepwise, 230 tamanho da amostra, 250 Requerimentos de sistema, 1 Risco relativo, 140, 195 Runs test (Iteraes), 117
S
Salvando os dados, 4 Sensibilidade, 102, 107 Setor, grfico de, 282 Sensibilidade/Especificidade, 107 Shapiro-Wilk, teste, 206 Sinais, teste dos, 154 Spearman, correlao de, 94 Sugestes, escolha do teste estatstico, 331
- 363 -
NDICE
Teste de Shapiro-Wilk, Teste de Schumacher e Eschmeyer, 177 Teste de Wilcoxon, 157 Teste do Qui-Quadrado, amostras independentes, 138 homogeneidade, 191 partio, 211 tendncia, 213 uma amostra, 121, 122 vrias propores, 200 Teste dos sinais, 154 Teste exato de Fisher, 132 Teste G, amostras independentes, 133 uma amostra, 119 homogeneidade, 197 Teste Kappa, 156 Teste Q de Cochran, 72 Teste t, duas amostras independentes, 126, 128 duas amostras relacionadas, 147, 149 uma amostra, 111, 113 Teste V (circular, uma amostra), 239 Teste Z, duas amostras independentes, 129. 130 uma amostra, 114, 115 Tira de bota (Bootstrap), 75 Transformao de dados, 255 binomial, teste, 116 Iteraes, (runs test), 117 teste G, 119 teste de Kolmogorov-Smirnov, 120 teste de Lilliefors, 121 teste do Qui-Quadrado, 121, 122 teste de Poisson, 123 teste t de Student, 111, 113 teste Z, 114, 115
V
Valores extremos, 207, 209 Valores preditivos, 102, 107 Vrias propores, 200 Variao, coeficiente de, 144 Varincia, anlise de, 59
W
Wilcoxon, teste de, 157 Wilcoxon-Mann-Withney, 135
Z
Z, distribuio, 109 Z, teste para duas amostras independentes, 129 Z, para uma amostra, 114
U
Uma amostra, 111
- 364 -