0 Bewertungen0% fanden dieses Dokument nützlich (0 Abstimmungen)
535 Ansichten17 Seiten
1) O documento descreve o desenvolvimento histórico da estatística, desde suas origens na probabilidade até aplicações atuais em epidemiologia.
2) Inicialmente, a estatística focava em descrever características populacionais, mas passou a ser usada para análise de erros experimentais com Laplace e Gauss.
3) No século XX, a probabilidade passou a ser usada para modelar fenômenos naturais e sociais, levando ao desenvolvimento de técnicas estatísticas modernas e aplicações em diferentes campos
1) O documento descreve o desenvolvimento histórico da estatística, desde suas origens na probabilidade até aplicações atuais em epidemiologia.
2) Inicialmente, a estatística focava em descrever características populacionais, mas passou a ser usada para análise de erros experimentais com Laplace e Gauss.
3) No século XX, a probabilidade passou a ser usada para modelar fenômenos naturais e sociais, levando ao desenvolvimento de técnicas estatísticas modernas e aplicações em diferentes campos
1) O documento descreve o desenvolvimento histórico da estatística, desde suas origens na probabilidade até aplicações atuais em epidemiologia.
2) Inicialmente, a estatística focava em descrever características populacionais, mas passou a ser usada para análise de erros experimentais com Laplace e Gauss.
3) No século XX, a probabilidade passou a ser usada para modelar fenômenos naturais e sociais, levando ao desenvolvimento de técnicas estatísticas modernas e aplicações em diferentes campos
pela Epidemiologia The Paths of Statistics and its Incursions through Epidemiology Celia L. Szwarcwald1 Euclides A. de Castilho1
SZWARCWALD, C. L & CASTILHO, E. A. de The Paths of Statistics and its Incursions
through Epidemiology. Cad. Saúde Públ., Rio de Janeiro, 8 (1): 05-21, jan/mar, 1992. In this paper the development of Statistics is contemplated from its probabilistic fundamentals until the current studies of time and space "dependence". Some applications of the quantitative method in the epidemiologic approach are evaluated. An attempt is made to establish some limits to the current statistical techniques through the discussion of theoretical assumptions and their adequacy to analyse empirical data. The development (or generalization) of new procedures that could possibly help to overcome methodological difficulties that are still found in various analysis of causal inference in Epidemiology is emphasized. Keywords: Statistics; Applied Statistics; History of Statistics; Biostatistics; Statistics/Epidemiology Relationships
O DESENVOLVIMENTO DA ESTATÍSTICA pela inteligência, era incapaz de apreender
todas as causas de ocorrência dos eventos e A História da Probabilidade suas possíveis interações simultâneas (Neuts, 1973). O homem traz consigo a idéia de "chance" Os primeiros problemas de probabilidade desde os mais remotos tempos. Evidências aparecem no período da Renascença e relacio- estão nos jogos de aposta, referenciados em nam-se apenas aos jogos de azar. As soluções toda a história da humanidade, e nos "instru- da "geometria do dado" são apresentadas por mentos da sorte", encontrados em sítios arqueo- matemáticos franceses no século XVII, desta- lógicos de grande antiguidade. Imagina-se que cando-se particularmente Blaise Pascal e Pierre a noção intuitiva de probabilidade estaria Fermat (Davis, 1955; Kendall, 1956). Utilizan- presente no curso dos jogos, influenciando o do elementos de análise combinatória no cálcu- apostador nas suas estratégias e decisões lo de probabilidades, Jakob Bernouilli dá (Davis, 1955). No entanto, até meados do continuidade a esses estudos. Entre suas contri- século XVI, a grande maioria dos pensadores buições, sobressaem-se a distribuição que leva negava a existência da "chance" nos fenômenos seu nome e a "lei fraca dos grandes números", naturais. Mesmo diante do seu reconhecimento, mais conhecida como "tentativas independentes era excluída como objeto do discurso racional. de Bernouilli" (Neuts, 1973). Aristóteles identificava "chance" como "a classe de tudo que é indefinido, inescrutável ao O desenvolvimento do pensamento probabi- intelecto humano". Na mesma linha de pensa- lístico moderno está, sem dúvida, estreitamente mento, séculos mais tarde, o mistério da relacionado à ascensão do método empírico nas "chance" ainda era explicado como uma defi- pesquisas científicas. Revolucionando o pensa- ciência de nosso conhecimento, que, limitado mento de sua época, Francis Bacon, ao final do século XVn, enfatiza o papel da experiência no processo de geração do conhecimento e 1 Fundação Oswaldo Cruz. Avenida Brasil, 4365, Rio de propõe a indução como método de investigação Janeiro, RJ, 21045, Brasil. (Demo, 1989). A necessidade de expressar o grau de incerteza na ocorrência dos experimen- à teoria dos processos estocásticos, cuja ampli- tos e de explicar o fato de duas experiências tude e variedade de aplicações parecem ser iguais poderem ter resultados diferentes leva ao inesgotáveis (Narayan Bhat, 1972). reconhecimento da racionalidade probabilística em eventos da natureza. A pesquisa em proba- O Objeto da Estatística Através do Tempo bilidade no século XVIII culmina com o notá- vel trabalho de Pierre-Simon de Laplace, A palavra "estatística" é derivada de status, "Theorie Analitique de Probabilités". À luz da em latim, e significa, na sua origem, o "estudo concepção do cientificismo, rapidamente am- do estado". Inicialmente, no século XVI, pensa- plia-se o domínio de abrangência do cálculo da pelos ingleses como uma ciência política, probabilístico. Este torna-se indispensável para destinava-se a descrever características de um lidar com dados relativos a temas de interesse país, tais como população, área, riquezas e social e econômico, como administração das recursos naturais (Laurenti et al., 1985; Yule & finanças públicas, saúde coletiva, conduta de Kendall, 1950). Deste papel histórico, origina- eleições e seguro de vida. Surgem as primeiras se a sua função de caracterização numérica de idéias do positivismo e Condorcet propõe uma uma série de informações populacionais. Com "ciência natural da sociedade", isto é, uma esta abordagem, o termo é utilizado no plural, "matemática social" baseada no cálculo das como as "estatísticas de saúde", as "estatísticas probabilidades (Lowy, 1991). de mortalidade", as "estatísticas do registro De Laplace até o início do século XX, pouco civil", entre outras (Berquó et al., 1984; Yule se acrescenta à teoria das probabilidades. Os & Kendall, 1950). raros avanços estão principalmente relacionados Os estudos desenvolvidos por Pierre-Simon ao desenvolvimento de técnicas estatísticas e à de Laplace e Carl Friedrich Gauss, no início do análise de erros experimentais (Neuts, 1973). século XIX, transformam a concepção da Esta- Durante a primeira metade do século XX, a tística. Com a visão de uma teoria dos erros, preocupação dominante da pesquisa matemática passa a ser amplamente aplicada a dados é com o tratamento abstrato e a axiomatização experimentais (Yule & Kendall, 1950). Siste- de vários de seus ramos. Após a descoberta de matiza-se a análise dos desvios em relação à Komolgorov, em 1903, de que a probabilidade média em medidas repetidas de uma quantida- poderia ser considerada uma "medida" (em de. São elaborados conceitos da teoria da termos matemáticos), os vagos fundamentos estimação, como o método de mínimos quadra- teóricos são reformulados sob um outro refe- dos por Gauss, e o primeiro intervalo de con- rencial, a "teoria das medidas", bem mais fiança , em 1812, em um trabalho de Laplace poderoso conceitualmente (Ash, 1972). (Lehmann, 1959) [Apesar de sua dedução Destacam-se como contribuições da moderna correta, o autor considerava o parâmetro como concepção a "lei forte dos grandes números" e uma variável ao atribuir-lhe a probabilidade de a demonstração do "teorema do limite central", recair no intervalo. A interpretação apropriada por J. W. Lindeberg, em 1922 (Feller, 1968). data de um século mais tarde, devida a E. B. No que diz respeito ao campo aplicativo, Wilson, em 1927, e H. Hotelling, em 1931 pouco a pouco os modelos determinísticos são (Lehmann, 1959). Desafortunadamente, até os substituídos pelos probabilísticos e tornam-se dias presentes, com muita freqüência, o concei- habituais no estudo de diferentes fenômenos. to é erradamente aplicado]. Introduzida inicialmente na teoria da dinâmica Na segunda metade do século XIX, a teoria dos gases, a teoria das probabilidades desempe- estatística passa a ser enunciada a partir de nha, hoje, papel importante na física quântica generalizações das propriedades observadas em e invade os domínios da teoria atômica (Neuts, amostras grandes. São pesquisadas famílias de 1973). funções matemáticas que se aproximem das Em anos mais recentes, a pesquisa na área de distribuições de freqüências empíricas (Steel & probabilidades tem se concentrado no estudo da Torrie, 1981). Na Alemanha, prioriza-se o "dependência". A generalização dos processos estudo pelo coletivo, originando-se os princí- de Poisson e das cadeias de Markov dá origem pios da Estatística Descritiva, ramo da Estatísti- ca que tem a função de organizar os dados, construção dos mecanismos de chance, ou dos resumindo-os numa série de medidas, gráficos modelos estocásticos dos fenômenos. Esta idéia e tabelas para enfatizar as características essen- é explicitamente expressa por Émile Borel: "O ciais do conjunto (Rankin, 1966). Nomes de problema básico da estatística matemática é destaque desta época são os de Francis Galton inventar um sistema de simples mecanismos de e Karl Pearson. O primeiro, por meio de expe- chance, tais que as probabilidades determinadas rimentos em Genética, estuda a distribuição por este sistema concordem com as freqüências normal bivariada, propõe o coeficiente de relativas observadas dos vários detalhes do correlação como medida de associação e desco- fenômeno estudado" (Rankin, 1966). No decor- bre algumas características das distribuições rer do século XX, o campo indicado pela condicionais, como a regressão linear e a definição de Borel cresce em importância, homoscedasticidade (Anderson, 1958). Por sua concomitante à produção de considerável vez, Karl Pearson desenvolve a teoria e a apli- literatura em processos estocásticos, constituin- cação de diferentes tipos de correlação à pes- do-se, atualmente, em um dos capítulos da quisa biológica. Seus estudos concentram-se na teoria das probabilidades (Feller, 1968). procura de distribuições teóricas, publicando, em 1900, a famosa estatística qui-quadrado Inferência Estatística: um Produto para o teste de adequação dos dados às distri- do Século XX buições de probabilidades. É fundador da revista Biometrika e de uma escola de Estatísti- Enquanto a concepção estatística dos siste- ca, vindo estimular a produção de novos conhe- mas de mecanismos de chance caía em proces- cimentos na área (Walker, 1958). so de desuso, esforço crescente era atribuído aos problemas de estimação e à dedução das Um aluno de Karl Pearson, de nome William distribuições de probabilidades, sobressaindo-se S. Gosset, dedica-se ao estudo de pequenas notavelmente a obra de Ronald A. Fisher amostras e das distribuições do desvio-padrão, (Hotelling, 1951). São devidas a ele várias da razão entre a média e o desvio padrão e do contribuições de uso atual e amplamente divul- coeficiente de correlação amostral. Seus resul- gadas, entre elas o método da estimação por tados são divulgados na Biometrika, em 1908, máximo-verossimilhança e a distribuição da sob o pseudônimo de Student, porque, por razão entre variâncias, denominada posterior- razões contratuais de trabalho, suas publicações mente por G. W. Snedecor distribuição "F", em não podiam ser individualizadas (Steel & sua homenagem (Remington & Schork, 1970). Torrie, 1981). Fundamentando-se no princípio da aleatori- Por outro lado, problemas conceituais apre- zação à experimentação agrícola, Fisher desen- sentados pelo matemático alemão Wilhelm volve as bases dos "desenhos de experimentos". Lexis colocam em questionamento, na mesma Problemas de classificação em Botânica o época, o interesse apenas pelo coletivo. Ao levam à proposição da função discriminate, estudar anualmente a razão de sexo no nasci- em 1936. No livro clássico de C. Radhakrishna mento, através de estatísticas vitais, Lexis Rao, há mais de vinte citações referentes à sua mostra, por meio de resultados empíricos, a autoria de procedimentos de estimação e análi- consistência da suposição de que a determi- se (Rao, 1973). nação do sexo é governada por um simples Simultaneamente aos progressos na teoria da mecanismo de chance, como o procedimento estimação, o pensamento estatístico da primeira "cara-coroa". Isto renova o esforço à procura metade do século XI tem seu interesse voltado de mecanismos de chance atuando nos indiví- à solução dos problemas de testes de hipóteses. duos para produzir as observadas características Referências vagas à "significância" datam dos coletivas (Rankin, 1966). Nos anos 20, George séculos XVIII e XIX. Em 1900, Karl Pearson Polyá constrói um sistema de mecanismos de utiliza o conhecido teste qui-quadrado. Porém, chance que pode gerar quase todas as distri- somente em 1928 são introduzidos os conceitos buições propostas por Karl Pearson. O objeto de erro de primeira e segunda espécies, por da Estatística move-se do estudo do coletivo à Jerzy Neyman e Egon S. Pearson. Primeiros a reconhecer que a decisão de um teste deve Em procedimento tipicamente indutivo, envolver considerações não só sobre a hipótese, chegando-se a conclusões sobre uma população mas também sobre as alternativas, estes dois a partir do estudo de uma amostra, a técnica de autores tiveram marcante influência nos rumos amostragem torna-se essencial. Surge o proble- da Estatística contemporânea (Lehmann, 1959). ma de selecionar uma amostra, o mais repre- Em meados dos anos 30, não fugindo ao sentativa da população total, diante das limi- tratamento axiomático da Matemática a todos tações de custos e das possibilidades de perda os seus ramos, é dada à Estatística nova formu- de precisão na estimativa dos parâmetros. lação teórica. J. Neyman e E. S. Pearson apre- As técnicas de amostragem estão indis- sentam a teoria da inferência estatística, em pensavelmente vinculadas ao nome de W. 1936, apta a considerar os testes de hipóteses G. Cochran, que as sistematizou em 1953 com a precisão e o rigor impostos pela Mate- (Cochran, 1953). Embora de freqüente emprego mática moderna (Lehmann, 1959). De alta em investigações populacionais, nem sempre o repercussão acadêmica, a teoria matemática de tratamento analítico dos dados é adequado ao Neyman-Pearson vem a referendar o campo de tipo de procedimento utilizado para a seleção pesquisa teórica, a Estatística Matemática, das unidades experimentais, resultando em tratada como uma disciplina matemática na sérios vieses de interpretação. Com esta pers- qual a probabilidade é a ferramenta básica pectiva, um seguro objeto de estudo da Estatís- (Hoel, 1980). Os testes de hipóteses são apre- tica aplicada nos próximos anos será o desen- ciados, à luz da teoria dos jogos, pioneiramen- volvimento de métodos de estimação e inferên- te por Abraham Wald, em 1940. Reconhecendo cia compatíveis com as diferentes técnicas de as vantagens do ponto de vista conceitual, amostragem. Vale insistir que esta questão não estende a abordagem da teoria dos jogos, vem recebendo a devida consideração e são originalmente proposta para aplicações em inúmeros os exemplos de inferências incorretas, Economia, ao domínio estatístico. Assim gene- conseqüentes ao corriqueiro tratamento de que ralizada, passa a ser denominada teoria da sempre está-se diante de amostras aleatórias decisão (Fergunson, 1967). Utilizando a lingua- simples. gem de jogos, o espaço dos parâmetros popula- cionais a serem testados é o conjunto dos A Estatística Recente possíveis resultados de um jogo, enquanto as decisões estatísticas são as alternativas ou A partir dos anos 40, a pesquisa estatística se estratégias do jogador. Busca-se a "melhor" volta para solucionar problemas envolvendo opção através do conhecimento adquirido com variados aspectos da inferência, cada um tendo informações pesquisadas por meio da experi- a sua aplicação a situações específicas. Os mentação. A qualificação de "melhor" tem o testes de hipóteses para médias, variâncias e sentido de minimizar a probabilidade de erro proporções, a teoria dos testes uniformemente (a perda) conseqüente à decisão tomada mais poderosos, o processo de inclusão (ex- (Fergunson, 1967). Outro grande legado de A. clusão) de variáveis nos modelos de regressão Wald é a chamada análise seqüencial, muito são algumas das formas de inferência de uso utilizada em problemas que envolvem controle consagrado (Rao, 1973). de qualidade (Wolfowitz, 1952). Nesta mesma linha, encontram-se os "méto- dos não paramétricos", mais apropriadamente A Importância da Amostragem denominados "livres de distribuição". Cons- tituem-se em testes de hipóteses cuja aplicação A influência da inferência estatística extrava- independe dos pressupostos teóricos da estatís- sa o plano teórico. A união da velha estatística tica paramétrica, inclusive no que diz respeito à nova teoria probabilística amplia sobremanei- à distribuição da variável aleatória em estudo. ra a sua aplicação à análise de dados empíri- Apesar de apresentarem as vantagens de supo- cos. Agora é possível responder a questiona- sições teóricas mais flexíveis, os testes não mentos relativos a parâmetros populacionais k paraméticos podem, por vezes, ser pouco através de um pequeno subconjunto, a amostra. sensíveis, deixando passar desapercebidas características quantitativas importantes das caso, a redução procede-se no número de informações (Rao, 1973; Remington & Schork, objetos e não nas dimensões do espaço (Green, 1970). 1978). Estimulada pelos seus campos de aplicação, De maneira bem resumida, o temário da ao lado das facilidades de processamento análise multivariada pode ser assim subdividi- introduzidas pela informática, a Estatística tem do: de mensuração da dependência entre variá- enfatizado, ultimamente, o desenvolvimento veis; de analogia à inferência univariada; de dos procedimentos multivariados. Classicamen- redução das dimensões do espaço; de classifi- te baseados na distribuição multinomial, expan- cação e agrupamento das unidades experimen- diram-se anos mais tarde também à função tais (Anderson, 1958). Tais métodos se pro- multinomial (Anderson, 1958; Bishop, Finberg põem a analisar observações coletadas num & Holland, 1975). O conceito matemático de corte de tempo. A interpretação corresponde, "combinação linear" é introduzido para descre- assim, à imagem das observações num dado ver as relações entre uma variável resposta e momento, sem apreender sua evolução tempo- um conjunto de variáveis independentes ou ral. explicativas. Entre os modelos mais conhecidos Sob a consideração de que a explicação de estão os de regressão múltipla, análise de certos fenômenos envolve o estudo do seu variância e covariância e a função discriminan- acompanhamento temporal, uma das vertentes te. No caso de multiplicidade de respostas, as da pesquisa estatística atual objetiva a propo- principais técnicas são as de correlação canôni- sição de modelos que incluam a possibilidade ca, de discriminação de vários grupos e de de análise da "dependência no tempo". Neste análises de variância e covariância multivaria- sentido, desenvolvem-se os modelos de séries das (Green, 1978; Searl, 1971). temporais, com o reconhecimento explícito da Nos anos 70/80, são propostos os modelos importância da seqüência das observações no log-lineares para a análise de dados categóri- tempo. No caso de uma estrutura probabilística, cos, onde os logaritmos das probabilidades dos isto é, as flutuações irregulares apresentarem estados multinomiais são expressos como propriedades estatísticas de variabilidade, as combinação linear de efeitos principais e de séries constituem-se em processos estocásticos. interação entre os fatores (Bishop, Finberg & As informações sucessivas são dependentes das Holland, 1975; Haberman, 1978). Capaz de anteriores, fazendo-se necessária a introdução lidar com os dois tipos de variáveis indepen- de novos conceitos, como o de auto-correlação dentes, contínuas e discretas, a regressão logís- para medir a dependência de observações tica representa o logito da probabilidade condi- da mesma variável em tempos diferentes cional do sucesso de uma resposta binaria (Anderson, 1971). Embora haja o reconhe- como uma função linear (Cox, 1970). Embora cimento geral de sua importância, as séries de formas diferentes, todos estes modelos temporais ainda possuem domínio restrito de enfocam aspectos de explicação para uma aplicação. Sua utilização tem sido limitada à variável considerada como dependente de interpretação de séries econômicas, com propó- outras. Já os procedimentos multivariados de sitos predominantemente preditivos. análise fatorial, componentes principais, análise Os estudos da dependência no tempo inspi- de correspondências e análise de conglomera- ram os adeptos da Geografia Quantitativa às dos têm abordagem diferente. A ênfase é dada análises da dependência no espaço. A produção à análise de interdependência no conjunto total de métodos é acelerada graças à constatação de variáveis (Green, 1978). Os três primeiros que as técnicas estatísticas convencionais, são denominados redutores do espaço multi- baseadas na independência das unidades experi- variado, pois têm o objetivo de representar as mentais, mostram-se impróprias ao tratamento informações originais por meio de um número dos dados geográficos que exibem tipicamente menor de variáveis que o considerado inicial- ordenação sistemática no espaço (Hammond & mente. A análise de conglomerados também é McCullagh, 1978; Johnston, 1978). Dada a um procedimento simplificador, porém, neste similaridade dos problemas de dependência nos domínios do tempo e do espaço, muitos dos tese nula, enquanto pelo segundo existem boas métodos de inferência temporal têm sido razões de se acreditar na igualdade (Lindley, adaptados para análise das distribuições espa- 1957). Indaga-se, então, o porquê do uso ciais. Entretanto, enquanto a medida de consagrado do nível de significância em papel auto-correlação no tempo é um problema unidi- decisório. A resposta é dada também por mensional, a interdependência entre obser- Lindley, que demonstra que para a suposição vações espaciais pode ser multidimensional, da probabilidade a priori igual a 50%, o para- resultando em questões bem mais complexas e doxo só vem a ocorrer para amostras relativa- ainda não de todo resolvidas (Hammond & mente grandes (Lindley, 1957). O problema McCullagh, 1978). Mais recentemente, a articu- trazido à compreensão dos usuários da área de lação do interesse econométrico na dependência saúde é muito bem examinado por Browner e temporal e do geográfico na dependência Newman (Browner & Newman, 1987). A espacial origina a elaboração de séries espaço- analogia é feita a um teste de diagnóstico cujos temporais que incluem parâmetros que variam resultados podem ser positivos ou negativos. A em ambos os domínios (Cliff & Hagget, 1979; veracidade das hipóteses nula e alternativa Raubertas, 1988; Tango, 1984). correspondem à ausência e à presença da doença,respectivamente. A probabilidade de O Paradoxo Estatístico rejeição da hipótese nula quando ela é verda- deira (o nível de significância) é relacionada à Embora de uso amplamente estabelecido, a falso-positividade, enquanto o poder do teste, à teoria preconizada por J. Neyman e E. S. sensibilidade. Como nos testes de diagnóstico, Pearson é até hoje geradora de controvérsias. os autores apontam as vantagens da análise Muitos estatísticos de renome, desde a elabo- bayesiana na interpretação dos resultados, ração conceitual dos testes de hipóteses, ques- baseados nos seguintes fatos: os valores do tionam a validade do estabelecimento de um nível de significância descritivo ("p") podem nível de significância como forma de decisão ser maiores do que 5%, mas produzirem valo- (Rao, 1973). Os debatedores argumentam que res preditivos sugestivos de que a hipótese nula a decisão estatística é tomada sem levar em é falsa; os valores de "p" podem ser menores consideração a probabilidade a priori da hipó- do que 5%, mas não se mostrarem aptos a tese nula (Fisher, 1956; Jeffreys, 1948; Savage, estabelecer a veracidade da hipótese alternativa. 1954). Desde a avaliação crítica da teoria de A contradição entre o procedimento de Neyman-Pearson, propostas alternativas têm inferência e a existência de uma distribuição a sido elaboradas para o tratamento dos testes de priori da hipótese nula fica evidente no traba- hipóteses, constituindo-se nas denominadas lho de Lindley, denominado pelo próprio autor escolas de inferência estatística (Oakes, 1990). como o "paradoxo estatístico" (Lindley, 1957). Entre as principais está a fisheriana, cuja Por meio do teste habitual para a média de argumentação é baseada na probabilidade uma distribuição normal, considerando uma fiducial e que também tem sido sujeita a diver- amostra aleatória de tamanho "n", Lindley sas objeções (Rao, 1973). O desenvolvimento demonstra que um determinado valor de "n" da escola bayesiana, em época mais recente, pode ser sempre encontrado tal que: expõe novamente ao debate os fundamentos da a) O valor da média é significativamente inferência estatística (Phillips, 1973). diferente ao proposto na hipótese nula ao nível de a %; As Ilusões da Estatística b) A probabilidade a posteriori de que a hipó- tese nula é verdadeira é (100 - a )%. As estatísticas há muito ultrapassaram o Este é o paradoxo. Sendo a pequeno, por domínio da ciência. Utilizadas por toda parte, exemplo 5%, a interpretação do primeiro são muitas vezes enganosas, dependendo do resultado é decidir que a média é significativa- propósito com que estão sendo abordadas. mente diferente do valor especificado na hipó- Apresentadas pela mídia na intenção de impres- sionar o espectador, são calculadas freqüente- Medicine. O estudo teve o objetivo de determi- mente de maneira inadequada. É o caso, por nar os métodos estatísticos utilizados e se exemplo, da taxa de acidentes de trânsito fatais estavam sendo apropriada e corretamente dada por unidade de tempo e não pelo número aplicados. Em uma análise de mais de mil de habitantes da população. artigos publicados na revista, mostrou-se o uso Muitas vezes, com propósitos de mascarar insuficiente das técnicas multivariadas e da certos aspectos das informações, as medidas de modelagem estatística; que o poder dos testes tendência central são escolhidas intencional- de hipóteses foi apresentado em somente 2% mente. São os casos clássicos do emprego da dos trabalhos analisados; e a necessidade de mediana, quando não se deseja levar em consi- maior divulgação das técnicas estatísticas para deração os valores extremos das observações, a seleção mais adequada do método de análise e da média geométrica, para produzir um (Bailar & Mosteller, 1986). indicador de menor magnitude que o aritmeti- No que concerne à utilização da Estatística camente calculado. Um fato que ficou conheci- para demonstração de uma hipótese por meio do no Brasil, no governo Figueiredo, em 1983, da experimentação, é preciso ressaltar que a foi a decisão de que o índice nacional de estatística não "prova" nada. Através de seus preços ao consumidor (INPC) passaria a ser procedimentos descritivos, estimadores e infe- estimado como média geométrica dos seus renciais, ela apenas auxilia o pesquisador a componentes, produzindo, desta forma, um tomar uma decisão. Um dos grandes mitos da número (ilusoriamente) mais baixo do que Estatística é o nível de significância descritivo aqueles anteriormente usados. do teste, o valor de "p". A ele atribui-se tanto Artifícios de representação também podem o papel de demonstrador matemático-empírico ser realizados através de procedimentos gráfi- como o de destruidor de teorias, sem que sejam cos. Para enfatizar uma tendência crescente em observados o tamanho da amostra, o poder do um sistema cartesiano, basta comprimir a teste ou a probabilidade a posteriori da hipóte- escala horizontal e ampliar a vertical que a se nula ser verdadeira (Greenland, 1988). visão de aclive será muito mais acentuada Desde que as estatíticas de decisão são função (Remington & Schork, 1970). A este respeito, crescente do número de observações, quanto Huff apresenta diversas situações que condu- maior o tamanho da amostra, maior a probabi- zem a enganos de interpretação (Huff, 1954). lidade de rejeição da hipótese. Sendo assim, as Contudo, a estimativa de estatísticas de formulações das hipóteses nula e alternativa é maneira incorreta nem sempre é intencional, que devem governar o delineamento da investi- ocorrendo, em algumas ocasiões, por falhas nas gação, o tamanho da amostra e o procedimento informações em que são baseadas. Diante do de coleta das informações. Esses, por sua vez, desconhecimento da existência de subenume- conduzem à escolha do método adequado de ração do número de nascidos vivos nos censos análise. decenais, por exemplo, a taxa de natalidade do Todavia, ainda que toda a análise quantitativa Brasil seria subestimada se calculada a partir tenha sido procedida corretamente, os resulta- dos dados censitários publicados pela FIBGE. dos devem ser sujeitos à contemplação cautelo- Vieses de interpretação na investigação sa. Embora significativos estatisticamente, científica são também raramente propositais. podem não seguir nenhuma lógica de expli- Decorrem, geralmente, pelo desenho inapro- cação. A Estatística não é a "benção final" das priado do experimento, inadequação do método evidências encontradas na pesquisa. Pelo con- de análise ou pela superficialidade na expli- trário, o maior poder da metodologia estatística cação dos resultados. Vários periódicos médi- reside em tirar dos dados o seu máximo poten- cos apresentam artigos de revisão sobre traba- cial de informação. Acredita-se que os procedi- lhos publicados que contêm aplicação de mentos descritivos do comportamento de cada técnicas estatísticas a estudos clínicos. Uma variável e a compreensão da estrutura de ampla pesquisa, por exemplo, foi organizada interdependência, constituindo-se no que se pelos editores do New England Journal of chama "o entrar nos dados", em permanente referência à natureza do objeto em estudo, são classificá-las com uniformidade internacional os passos mais importantes na análise interpre- (OMS, 1978). tativa dos resultados de um experimento. Desde Farr até os dias de hoje, vários indica- dores e procedimentos de análise foram desen- volvidos com o objetivo de traçar o perfil A ESTATÍSTICA NA EPIDEMIOLOGIA nosológico de uma população. Atualmente, esta tarefa é de competência da Estatística Demó- As Estatísticas Demógrafo-Sanitárias grafo-Sanitária, mais conhecida como Estatísti- ca Vital, embora esta última denominação não O sistema atual de registro civil é resultante esteja de acordo com a definição das Nações de um processo evolutivo que se inicia com a Unidas, que lhe atribui somente o tratamento transcrição de dados de batizados, enterros e dos eventos vitais (Laurenti et al., 1985). De casamentos pelo clero nos registros paroquiais certa forma, constitui-se na estatística descritiva (Laurenti et al., 1985). Em princípios do século da saúde, tendo a função de construir medidas XVI, em função da epidemia da peste, os numéricas que caracterizem séries de dados registros de mortes semanais tornam-se obriga- vitais (nascimentos, óbitos e perdas fetais) e de tórios em Londres. Aos poucos, óbitos por informações relativas a doenças e a serviços outras causas também são incluídos e o sistema (Laurenti et al., 1985). A construção dos indi- é estendido a todas as paróquias da Inglaterra cadores de saúde a partir de dados secundários (Pollard et al., 1974). Transformados em séries está relacionada à qualidade dos sistemas de mais regulares no século seguinte, fundamen- informações. Muitas vezes incompletos e tam os estudos de John Graunt, primeiro a descontínuos, não permitem um adequado perceber a importância da análise quantitativa tratamento estatístico dos dados. dos eventos vitais. Na publicação Observations Os vínculos com a Demografia permanecem upon the bills of mortality, em 1662, Graunt estreitos. Em primeiro plano, manifestam-se introduz o princípio da razão de regularidade pelo interesse mútuo nos aspectos dinâmicos estatística, observa uma razão de sexo ao das sociedades (fecundidade, mortalidade e nascimento constante, reconhece padrões sazo- migração) e naqueles relativos à composição nais e diferenças urbano-rurais no comporta- das populações segundo sexo, idade, situação mento das taxas brutas de mortalidade e tem o de domicílio, entre outros. Em segundo, pela mérito de construir a primeira tábua de vida. necessidade de desenvolvimento de técnicas William Petty converte seu trabalho nas bases demográficas, quer seja para estimativas de da "aritmética política", que pouco a pouco denominadores das taxas de morbi-mortalidade, passa a ser conhecida como Demografia quer seja para mensuração indireta de indicado- (Laurenti et al, 1985; Pollard et al., 1974). res em populações com sistemas de registro Somente a partir do século XIX, quando a incompletos. responsabilidade do registro dos eventos vitais No que diz respeito à abordagem conceitual, transfere-se da Igreja para o Estado e estabele- o interesse atual tem sido na proposição de ce-se, de forma legal, a sua obrigatoriedade em indicadores mais sensíveis à percepção da vários países, são impulsionados os estudos saúde de uma população. Partindo do princípio demográficos. Surgem também as primeiras de que a ausência de doença não implica análises de morbidade na Inglaterra e nos necessariamente na presença de saúde, alguns Estados Unidos, introduzindo-se a abordagem pesquisadores dedicam-se a tentativas de defi- de doenças pelo método quantitativo (Barreto, nições de saúde no sentido positivo (Goldberg, 1990). Em 1839, William Farr, na função de 1990). compilador do sistema oficial de registros na No tocante à metodologia de avaliação das Inglaterra, estabelece a coleta sistemática de estatísticas demógrafo-sanitárias de uma popu- informações sobre morbidade e mortalidade lação, a sua evolução num certo período de (Laurenti et al., 1985). Primeiro estatístico tempo encontra instrumental nos procedimentos médico, Farr faz uso do registro civil para o de séries temporais, que permitem a determi- estudo de doenças e propõe uma forma de nação dos componentes de tendência, periodici- dade e sazonalidade. Já a análise das distri- infecciosas. Surgem os modelos matemáticos buições espaciais tem tido aproximações recen- contemplando o agente causal e os fatores tes com os modelos utilizados pela Geografia ambientais relacionados à sua transmissão Quantitativa e vem demonstrando interessantes (Barreto, 1990). resultados (Breslow & Enstrom, 1974; Cook & Procurando novos caminhos para ampliar sua Pocock, 1983). capacidade explicativa na determinação das enfermidades, a Epidemiologia encontra na A Epidemiologia e o Método inferência estatística o instrumental adequado Indutivo Estatístico para o teste de suas hipóteses. A teoria da decisão enquadra-se perfeitamente no espírito O termo Bioestatística aparece primeiramente positivista do raciocínio epidemiológico da em 1923, em substituição à expressão "estatísti- época, apresentando meios de "provar" empiri- cas vitais" (Berquó et al., 1984). Tem hoje camente relações causais conjecturadas teorica- significado mais abrangente e é considerada mente (Almeida Filho, 1989). como a disciplina que trata da aplicação dos Nos anos 60, os avanços na informática procedimentos estatísticos, descritivos e infe- permitem o processamento de grandes massas renciais aos problemas biológicos (Remington de dados, estimulando a realização de inves- & Schork, 1970). Sua aplicação às ciências tigações populacionais. Divulga-se o emprego médicas é particularmente impulsionada por das técnicas multivariadas, que embora tives- influência da publicação de Bradford Hill, sem sido deduzidas na década de 30, só agora Principles of Medical Statistics, em 1937 podem ser usadas na prática. Surgem softwares (Berquó et al., 1984). ditos próprios para o tratamento de informações No que se refere à análise de dados epide- quantitativas das ciências sociais. Intensifica-se miológicos, a história da utilização do método a aplicação dos modelos lineares à interpre- indutivo quantitativo é estreitamente relaciona- tação das associações epidemiológicas. Fortale- da à questão da causalidade e à forma com que cem-se os laços interdisciplinares, ocorre a esta é tratada ao longo do tempo. Embora seja chamada "matematização da Epidemiologia" atualmente uma das grandes fomentadoras da (Almeida Filho, 1989). Bioestatística, a Epidemiologia só vem a adotá- A incapacidade interpretativa dos modelos la como metodologia analítica em meados do determinísticos causais na explicação das presente século, a partir da consagração da doenças crônicas, em predomínio nos países teoria de multicausalidade (Barreto, 1990). industrializados, conduz os epidemiologistas à A abordagem de associações entre fatores elaboração de novas propostas conceituais e ambientais e doença aparece desde o século metodológicas. À luz do conceito de risco, ao XIX. Vários pesquisadores, naquela época, invés do determinismo do efeito, passa a ser além da caracterização quantitativa da situação avaliada a probabilidade de ocorrência da de saúde de populações selecionadas, analisa- doença. São formulados desenhos de estudos vam comunidades quanto às suas condições de alternativos que solicitam procedimentos esta- saneamento, moradia, ocupação e nutrição tísticos específicos (Breslow & Day, 1980; (Susser, 1985). Breslow & Day, 1987). Para cada delineamento Mas as investigações em populações tiveram experimental, são criadas técnicas de estimação seu desenvolvimento enfraquecido nas primei- e análise, a regressão linear é trocada pela ras décadas do século XX. A "teoria do germe" logit-linear, a produção de programas para que se impôs sobre a "teoria miasmática" microcomputadores é acelerada. adotou o critério laboratorial como o único Nos países centrais, proliferam estudos válido para a verificação das hipóteses de dispendiosos, com amostras enormes para unicausalidade (Barreto, 1990; Susser, 1985). A possibilitar o controle de inúmeras variáveis quantificação adquire novamente papel impor- intervenientes. Em ocasiões não raras, entretan- tante a partir dos progressos obtidos na con- to, a estimativa do risco não se diferencia cepção da multicausalidade para doenças expressivamente da unidade, ao ponto de se acreditar convictaniente na decisão inferencial probabilístico, tem o propósito de enfatizar o de rejeição da hipótese nula. Ao não se conse- aspecto aleatório da ocorrência dos fenômenos, guir realizar a distinção entre os significados em constraste com as antigas formulações estatístico e epidemiológico da associação, a determinísticas. Estas, contudo, são legítimas conduta adotada é a de repetição do experimen- no caso de populações grandes, quando pode-se to para, somente à evidência de respostas assumir que as flutuações estatísticas são semelhantes, estabelecê-la como verdadeira suficientemente pequenas para serem ignoradas, (Knekt et al., 1988; UK National Case-Control além de considerar-se útil a sua abordagem, Study Group, 1989). Muito esforço é consumi- anterior à probabilística, pela sua capacidade do para a produção relativamente pobre de explicativa à dinâmica do processo (Bartlett, conhecimentos. 1960). No decorrer das últimas décadas, os paradig- De maneira formal, um modelo estocástico é mas da pesquisa epidemiológica têm sido aquele que especifica a distribuição de probabi- expostos a intensos debates. O estabelecimento lidades de uma variável (vetor) aleatória (o) da causalidade através dos modelos tradicionais sobre uma classe de situações de interesse em vem sendo colocado em questionamento, cada ponto do tempo. A sucessão de estados ou principalmente no que diz respeito à compre- de mudanças, concebida como contínua no ensão dos problemas de saúde cujos determi- tempo, constitui-se no processo estocástico nantes estão no interior das organizações (losifescu & Tautu, 1973). Dito estacionário sociais (Sabroza, 1990). Esta situação, ampla- quando a sua estrutura probabilística é constan- mente discutida por diversos autores da Améri- te no tempo, o seu estudo teórico constitui-se ca Latina (Sérgio Arouca, Jaime Breilh e Asa num dos temas abordados pelos procedimentos Cristina Laurell, entre outros), enfatiza o inade- de séries temporais, quando estas são geradas quado tratamento de atributos coletivos como por um modelo subdividido em uma tendência sendo passíveis de uma expressão individual determinística e uma parte aleatória com a (Almeida Filho, 1989; Costa, 1990; Nunes, propriedade de invariância (Anderson, 1971). 1985). É curioso que este reducionismo na Em contraposição está o processo evolucioná- prática se faz, na verdade, de modo mais rio, cuja primeira formulação matemática foi acentuado, pois a quase totalidade dos estudos realizada por Francis Galton, no final do século que se dizem capazes de lidar com a causalida- XIX, interessado particularmente na probabili- de o fazem com base em procedimentos estatís- dade de extinção das famílias de nobre posição ticos que assumem relações lineares (ou logit- na Inglaterra. Em 1924, G, Udny Yule deduz o -lineares) entre as variáveis. "modelo puro de nascimentos-mortes" numa população (losifescu & Tautu, 1973). Os Processos Estocásticos Desde então, os processos estocásticos têm sido utilizados para representar a evolução de Já em princípios do século XX, a Epidemio- vários fenômenos biológicos, como o cresci- logia buscava na Matemática a solução de seus mento de populações, migração, competição modelos teóricos de multicausalidade de doen- entre espécies, flutuações na composição gené- ças infecciosas. Ignoradas as variações randô- tica de populações (como mutação e seleção), micas e baseando-se na consideração que o além dos sistemas fisiológicos de múltiplos processo saúde-doença era governado apenas compartimentos e dos processos epidêmicos por leis dinâmicas, surgem os modelos mate- (losifescu & Tautu, 1973). máticos determinísticos para representação das Estes últimos têm sido de interesse perma- epidemias (Bailey, 1964). nente para a explicação dos mecanismos de Anos mais tarde, com a identificação de que transmissão de certas doenças (Bailey, 1964; os eventos mórbidos são sujeitos à chance, Bartlett, 1960; Iosifescu & Tautu, 1973). O paralelamente ao avanço na teoria das probabi- grau de complexidade dos modelos depende do lidades, a modelagem é aperfeiçoada e passam número de categorias que compõem a popu- a ser utilizados os processos estocásticos. O lação epidêmica, porém pelo menos dois com- uso do adjetivo "estocástico", sinônimo de ponentes são sempre necessários, os infectados e os suscetíveis, cujas relações determinam a Se há independência, a covariância é nula dinâmica do processo. A intratabilidade mate- (Hoel et al., 1971). As primeiras medidas do mática dos modelos mais sofisticados vem grau de dependência entre duas variáveis sendo superada por procedimentos de simu- aleatórias foram propostas através do coeficien- lação. te de correlação, descrito como a covariância Atenção tem se dirigido recentemente à padronizada pelo produto dos desvios-padrão modelagem de dinâmica de doenças como a de cada uma. Pela desigualdade de Schwarz, AIDS (Castillo-Chavez, 1989) e aos processos demonstra-se que seu valor absoluto é limitado que objetivam descrever a propagação espacial pela unidade. A magnitude da associação é, das epidemias (Cliff & Hagget, 1979). então, medida dentro de um intervalo de extre- mo inferior zero (nenhuma associação) até o As Medidas de Associação Estatística ponto máximo de um (Hoel et al., 1971). Em 1944, H. E. Daniels dá uma interpretação A Epidemiologia tem na causalidade,como já geométrica da independência, representando-a dito, uma de suas questões fundamentais. O pela ortogonalidade de dois vetores no espaço problema que permanentemente se coloca é o euclidiano. Neste contexto, a medida de corre- da mensuração das relações causais. Afora a lação corresponde ao cosseno do ângulo forma- questão da possibilidade de se quantificar os do pelos vetores aleatórios em consideração. A determinantes sociais do processo saúde-doen- associação máxima, quando o cosseno é igual ça, mesmo no âmbito da chamada epidemiolo- a um, é referida à colinearidade, em oposição gia clássica, o seu modo de trabalho com as à perpendicularidade, situação de cosseno zero ditas relações causais merece algumas reflexões e ausência de correlação. Daniels demonstra, a partir do corpo teórico da Estatística. Desde ainda, que as medidas de associação tradicio- o conceito de probabilidade condicional, pas- nais, como os coeficientes de correlação de sando pelo coeficiente de correlação e pelo qui- Pearson, Spearman e de Kendall, além do -quadrado de Pearson até a dependência no coeficiente de contingência média, podem ser tempo e no espaço dos dias de hoje, a preocu- expressos por meio de cossenos de ângulos pação com a "dependência" entre dois atributos entre vetores de coordenadas convenientemente tem despertado interesse constante. escolhidas (Daniels, 1944). Em termos teóricos, duas variáveis são Leo A. Goodman é outro autor contemporâ- independentes se e somente se a distribuição de neo que contribui expressivamente ao problema probabilidades condicional da primeira, dada a de medir associações em variáveis categóricas segunda, é igual à distribuição marginal da ordinais. Objetivando captar o efeito da orde- primeira (Hoel et al., 1971). Esta noção de nação dos níveis de cada um dos fatores, "dependência" pode ser visualizada através da propõe medidas baseadas na "redução propor- análise de uma tabela de contingência, quando cional dos erros" na predição da resposta. Os as variáveis são consideradas associadas se as erros são respectivos a duas situações, a de distribuições multinomiais forem significativa- ausência de informações sobre a variável mente diferentes para dois níveis da resposta; preditora, relativamente a uma segunda, diante pode ser traduzida pelo risco relativo ou pelo do conhecimento prévio do valor da variável odds ratio iguais a1 na situação de indepen- independente (Goodman, 1979). dência; ou, ainda, na construção da teoria de Na procura de critérios de escolha de medi- regressão múltipla no caso de multinormalida- das de associação adequadas às análises quanti- de, onde a média da distribuição condicional é tativas das pesquisas sociológicas, Herbert L. um modelo linear das variáveis preditoras e a Costner, em 1965, propõe adotar aquelas que reta é constante quando há independência. pudessem ser estabelecidas por meio da re- Um conceito mais intuitivo de mensuração de dução proporcional no erro de predição "dependência" é o de covariância. Tem o (Costner, 1965). É possível demonstrar que a sentido de examinar o comportamento conjunto definição geométrica de Daniels, atribuída à em comparação à multiplicação dos isolados. correlação (como o cosseno do ângulo formado pelos vetores aleatórios), tem uma interpretação similhança correspondentes à inclusão de de "redução proporcional no erro". variáveis nos modelos logísticos são os crité- Assim, as atuais propostas de estatísticas para rios estabelecidos pelos epidemiologistas para medir associações entre variáveis têm sido o julgamento de suas hipóteses. Percorrendo baseadas na definição de Daniels. Sendo o todos os significados das medidas de asso- cosseno de um ângulo em um espaço vetorial ciação estatística ao longo do tempo, sua expresso como razão de um produto interno interpretação como redução proporcional no dos vetores (covariância) pelo produto das erro de predição e suas generalizações, indaga- normas (desvios-padrão), as formulações gene- se o porquê desta utilização tão restrita em ralizadas têm evoluído em duas direções: vista do leque de possibilidades existentes. convenientes escolhas de funções de coordena- das vetoriais no espaço euclidiano e definição Os Modelos de Regressão de um produto interno adequado em um espaço de Hilbert (Ash, 1972), possibilitando a ex- O objetivo de uma análise estatística utilizan- tensão para espaços infinito-dimensionais. Esta do a técnica de construção de modelos é, em última aproximação foi considerada por T. W. geral, o de encontrar a melhor adequação (no Anderson no estudo de predição de processos sentido de minimizar o erro de predição) estocásticos estacionários no tempo (Anderson, através do menor número possível de variáveis 1971). É fato por demais conhecido que a (Draper & Smith, 1966). Este propósito, no significância da correlação estatística é insufi- entanto, está longe de satisfazer os objetivos da ciente para indicar dependência no sentido Epidemiologia na procura dos determinantes ou epidemiológico. Vários autores têm se preocu- dos fatores de risco de um problema de saúde. pado inclusive em estabelecer critérios, de tal Em primeiro lugar, o princípio da parcimônia, modo que na ocorrência da associação estatísti- se é conveniente ao intuito preditivo na dimi- ca, seja possível determinar se ela é, de fato, nuição dos custos e esforços em obter infor- causal (Hill, 1965). Entretanto, os epidemiolo- mações, é, pelo contrário, insatisfatório para gistas, perante os problemas de causalidade, uma interpretação plausível das relações entre têm mostrado atitudes díspares. Não só a as variáveis. A economia de variáveis consiste, significância estatística tem sido apresentada na verdade, em minimizar o caminho explicati- freqüentemente como evidência de uma relação vo de um evento ao outro (Li, 1975). causal, como também à inexistência de corre- Uma segunda colocação que se impõe refere- lação estatística, a hipótese epidemiológica é se ao fato de que, nos procedimentos de re- descartada de imediato. Em divergência a estas gressão, as variáveis explicativas são tratadas condutas, é preciso ressaltar que para determi- com equanimidade, resultando mini modelo em nadas distribuições de probabilidades, as variá- que a resposta é determinada pela adição de veis aleatórias podem ser não correlacionadas, efeitos, sem a interpretação do fenômeno. As mas dependentes (Hoel et al., 1971). Salienta- decisões de inclusão (exclusão) de fatores são se, ainda, que é usual considerar as variáveis puramente estatísticas e, como recomendado contínuas como normalmente distribuídas, em procedimentos com comparações múltiplas, acarretando em mensurar a associação entre baseadas na diminuição do nível de significân- elas por meio de modelos lineares. Desta cia. Ao final de todas as etapas, nada se sabe maneira, se a regressão for quadrática, prova- sobre o poder de cada teste de hipótese causal, velmente será encontrada uma correlação de muito menos pondera-se sobre suas probabili- baixa magnitude. dades a priori. Além disso, em diversas oca- Na prática, o que vem ocorrendo é o empre- siões, um coeficiente de correlação múltipla go automático dos modelos multivariados baixo é considerado como aceitável, ou seja, lineares (ou logit-lineares), sem análise prévia grande parte da variabilidade da resposta é ou qualquer representação gráfica das relações atribuída ao acaso. de dependência no conjunto de informações. O método conhecido como a "análise de Os testes para correlações parciais das variáveis trajetórias" é uma forma de regressão estrutura- contínuas ou as estastísticas de máximo-veros- da onde um diagrama especifica a natureza da estrutura proposta. É de acordo com este dia- tem distribuição Bernouilli (ausência ou presen- grama que a análise subseqüente é realizada ça da doença) e a sua esperança condicional, (Li, 1975). No caso do desconhecimento prévio igual à probabilidade do sucesso, é descrita do delineamento do circuito causal, vários como uma função logística das variáveis predi- esquemas podem ser propostos, considerando toras. Sob a suposição de independência das os possíveis papéis das variáveis como "de unidades experimentais, os erros do modelo confundimento", "intermediárias" ou " modifi- seguem uma distribuição binomial (Hosmer & cadoras de efeito" (Breslow & Day, 1980; Lemeshow, 1989). Morgenstern, 1989). Criado por Sewell Wright, Desta forma, este processo de "modelagem" em 1921, para análise de diagramas genealógi- dos dados é tipicamente um procedimento de cos, teve seu emprego divulgado por O. D. análise de mecanismos individuais independen- Duncan nas ciências sociais (Li, 1975). Sob o tes que, somando-se, produzem o efeito coleti- nome de "teoria dos grafos", tem vasto campo vo. Assinala-se, portanto, novamente o despro- de aplicação na Pesquisa Operacional, com o pósito de incluir nos modelos variáveis mensu- objetivo de otimização dos fluxos de organi- radas em grupos (onde as observações podem zação, como as redes de comunicação e trans- ser dependentes), fugindo ao pressuposto de porte (Berge & Ghouila-Houri, 1962). Apesar independência dos erros da regressão. Ressalve- de se constituir num procedimento bem mais se, também, que a definição de "grupo de apropriado para a construção de uma estrutura risco" ("grupo populacional em que se encontra causal compatível com os dados observados, um risco relativo de uma dada condição maior tem pouca repercussão ainda entre os epide- do que 1,0") (Almeida Filho, 1989) não tem miologistas. qualquer suporte na teoria dos modelos estatís- ticos. Probabilisticamente, "grupo de risco" é a A Interpretação Estatística de Risco união de indivíduos, supostamente independen- tes, que apresentam um determinado atributo, O conceito de risco, fundamental à Epide- chamado "fator de risco" pelos epidemiologis- miologia moderna, é definido como "a probabi- tas. lidade de um indivíduo de uma população vir a desenvolver a doença durante um dado Medidas em Grupos de Observações: período de tempo" (Morgenstern, 1989). A a Falácia Ecológica e o Problema partir desta concepção probabilística, novas da Unidade de Análise medidas de associação são adotadas, como o "risco relativo" e a "razão dos produtos cruza- Em análise de correlações entre variáveis dos" (odds ratio). O grau de dependência é relativas a grupos de indivíduos, ao invés dos avaliado pelo afastamento destas medidas da próprios indivíduos, falsos juízos podem ocor- unidade (Fleiss, 1973). A resposta determinísti- rer se as inferências "entre grupos" (ecológicas) ca é transformada numa probabilística, o risco são supostamente válidas para "dentro dos (ou uma função do risco) passa a ser utilizado grupos" (Piantadosi et al., 1988). O problema como variável dependente dos modelos de de interpretação na análise das associações regressão, a causa torna-se o "fator de risco". ecológicas foi apontado pioneiramente por W. Em virtude de sua fácil interpretação, o S. Robinson, que lhe deu o nome de "falácia modelo logístico tem sido um método de ecológica" (Robinson, 1950). Desde então, esta análise amplamente difundido na pesquisa questão tem sido abordada por diversos autores. epidemilógica. No caso de uma só covariável, Alguns apontam para situações onde sérios o coeficiente angular da reta corresponde à erros seriam introduzidos em inferências sobre razão dos produtos cruzados. Extensão feita ao indivíduos por meio de estudos ecológicos caso politômico, os parâmetros da regressão (Morgenstern, 1982). Outros delineiam circuns- representam os odds ratio em relação a uma tâncias onde tais inferências estariam justifica- categoria de referência (Hosmer & Lemeshow, das (Richardson et al., 1987). 1989). Estatisticamente, a variável dependente A relação matemática entre as correlações ecológica e individual, embora proposta tam- pectivas, como a análise em desenhos hierar- bém por Robinson, foi demonstrada apenas quizados, onde possa ser considerado o nível recentemente (Piantadosi et al., 1988). Consiste de atuação de cada variável em estudo. O em descrever o coeficiente de regressão entre processo amostral, determinado pela hierarqui- dois fatores como soma ponderada dos coefi- zação dos fatores, seria realizado, então, em cientes angulares "dentro" e "entre" grupos. quantos estágios se fizessem necessários. Em Assim, comprova-se que na ausência de dados cada etapa, as unidades experimentais seriam individuais não é possível a estimativa da supostamente dependentes, expressando-se a "verdadeira" associação (a "total") e que apenas matriz de variâncias-covariâncias do vetor de na igualdade dos parâmetros "dentro" e "entre" observações como uma matriz não diagonal, a correlação é expressa pela chamada corre- cujos elementos que não pertencessem à diago- lação ecológica. nal principal (as covariâncias) fossem funções Porém, este não é o único problema de uma da correlação intra-classe. O progresso da análise ecológica. A questão da modificação do resolução estatística estará em formular a agrupamento de observações é outro ponto para partição da correlação total na estrutura especi- reflexão. Foi identificada por G. U. Yule e M. ficada. G. Kendall, em 1950, que assinalaram: "nós Já para os estudos ecológicos, onde a in- não podemos perder de vista que nossos resul- tenção da análise resida apenas nas inferências tados dependem da unidade de análise" (Yule para as unidades amostradas e não para os & Kendall, 1950). Em teoria, existe uma infini- indivíduos, é freqüente o interesse pelas repre- dade de maneiras na qual uma área pode ser sentações espaciais (mapas) das patologias. O dividida, apesar dos dados serem apresentados coeficiente de correlação, como utilizado para um particular conjunto de subdivisões. tradicionalmente "ponto a ponto", não capita os Estas podem ser recombinadas de tal forma a efeitos de aglomeração ou de propagação dos constituir regiões numa nova escala. Para cada fenômenos. Releva-se, deste modo, a generali- uma das alternativas, os coeficientes de corre- zação dos processos estocásticos no domínio do lação tomam valores diferentes, acarretando em tempo para o domínio do espaço, elaborando distintas possibilidades de interpretação. Este é métodos de estimação de medidas de asso- o denominado "problema da modificação da ciação entre distribuições espaciais (Clifford et unidade de área", abordado recentemente por S. al., 1989). Openshaw e P. J. Taylor em estudos de distri- No mesmo contexto, uma outra possibilidade buições espaciais (Openshaw & Taylor, 1979). é a construção de coeficientes de correlação em espaços de Hubert, conforme já referido, Modelos em Perspectiva mediante a definição adequada de um produto interno. Neste caso, a extensão da teoria de Diante dos problemas metodológicos encon- regressão entre modelos temporais para mode- trados para testar muitas das hipóteses de los espaciais seria realizada por meio da esco- multicausalidade de interesse epidemiológico lha de um eixo direcional unidimensional, atual, resta recorrer ao desenvolvimento de como, por exemplo, a distância dos pontos do modelos estatísticos mais apropriados. Apesar espaço a um determinado ponto considerado das limitações da Estatística como instrumental como origem. analítico dos diversos campos de indagação da Diante do propósito contínuo de elaboração Epidemiologia, entende-se que o esforço deverá de modelos que traduzam o real à linguagem ser dirigido à procura de modelos que permi- matemática, acredita-se que uma outra possível tam avaliar os agravos de saúde na sua maior vertente de pesquisa estatística será a procura complexidade, seja nos mecanismos unitários de modelos que contemplem a compreensão do que produzem as características coletivas, seja processo evolutivo a que estão sujeitas as nos processos coletivos que influenciam o distribuições dos fenômenos. fenômeno que vem a ocorrer no indivíduo. Por outro lado, a abrangência do comporta- Desta forma, vislumbram-se algumas pers- mento temporal dos mecanismos explicativos aliados à chance gera modelos cada vez mais REFERÊNCIAS BIBLIOGRÁFICAS complexos. Entende-se,portanto, que um dos rumos a ser seguido é a procura de instrumen- ALMEIDA FILHO, N., 1989. Epidemiologia sem tal, no interior da própria Matemática, que Números (Introdução Crítica à Ciência venha a simplificar a resolução de tais proble- Epidemiológica). Rio de Janeiro: Editora Cam- pus. mas. ANDERSON, T. W., 1958. An Introduction to Multivariate Statistical Analysis. New York: John Wiley & Sons. AGRADECIMENTOS , 1971. The Statistical Analysis of Time Series. New York: John Wiley & Sons. A autora CLS agradece à OPAS, especifica- ASH, R. B., 1972. Real Analysis and Probability. mente ao Dr. Moises Goldbaum, por ter conce- New york: Academic Press. dido a oportunidade de sua participação no BAILAR, J. C. & MOSTELLER, F. (Ed.), 1986. curso Advanced Statistical Methods in Cancer Medical Uses of Statistics. Waltham, Massa- Epidemiology-IARC, 1989, que forneceu subsí- chussets: NEJM Books. dios para a elaboração de parte deste trabalho, BAILEY, N. T. J., 1964. The Elements of Stochastic Processes with Applications to the Natural sobretudo nos itens referentes aos modelos Sciences. New York: John Wiley & Sons. estatísticos utilizados atualmente pela Epide- BARRETO, M. L., 1990. A Epidemiologia, sua miologia. história e crises: notas para pensar o futuro. In: Epidemiologia Teoria e Objeto (D. C. Costa, org.), pp. 19-38, São Paulo: Hucitec-Abrasco. RESUMO BARTLETT, M. S., 1960. Stochastic Population Models in Ecology and Epidemiology. London: SZWARCWALD, C. L. & CASTILHO, E. Methuen. A. de Os Caminhos da Estatística e suas BERGE, C. & GHOUILA-HOURI, A., 1962. Pro- Incursões pela Epidemiologia. Cad. Saúde grammes, Jeux et Réseaux de Transport. Paris: Públ., Rio de Janeiro, 8 (1): 05-21, jan/abr, Dunod. BERQUÓ, E. S.; SOUZA, J. M. P. & GOTLIEB, S. 1992. L. D., 1984. Bioestatística. São Paulo: E.P.M.. Neste trabalho, contempla-se o BISHOP, Y.; FINBERG, S. & HOLLAND, P., desenvolvimento da Estatística, desde suas 1975. Discrete Multivariate Analysis. Cam- origens probabilísticas até os atuais modelos bridge: MIT Press. de "dependência" no tempo e no espaço. BRESLOW, N. E. & DAY, N. E., 1980. Statistical Avalia-se a evolução do método quantitativo Methods in Cancer Research v.1 - The Analysis na abordagem epidemiológica, como também of Case-Control Studies. IARC scientific procura-se estabelecer limites das técnicas publication no 32, Lyon, International Agency for estatísticas habituais, discutindo-se suas Research on Cancer. , 1987, Statistical Methods in Cancer suposições teóricas e sua adequação ao Research v.2 - The Design and Analysis of tratamento analítico das informações. Cohort Studies. IARC scientific publication no Enfatizam-se a importância do 82, Lyon, International Agency for Research on desenvolvimento e/ou generalização de Cancer. procedimentos que possam ajudar a superar BRESLOW, N. E. & ENSTROM, J. E., 1974. as dificuldades metodológicas ainda Geographic correlations between cancer mor- encontradas em diversos estudos de inferência tality rate and alcohol-tobacco consumption in causal em Epidemiologia. the United States. Journal of the National Palavras-Chave: Estatística; Estatística Cancer Institute, 53: 631-639. BROWNER, W. S. & NEWMAN, T. B., 1987. Are Aplicada; História da Estatística; all significant "p" values created equal? The Bioestatística; Relações analogy between diagnostic tests and clinical Estatística/Epidemiologia research. Journal of the American Medical Asso- ciation, 257: 2459-2463. CASTILLO-CHAVEZ, C. (Ed.), 1989. Mathematical GREEN, P. E., 1978. Analysing Multivariate Data. and Statistical Approaches to AIDS Epidemio- Hinsdale, Illinois: The Dryden Press. logy. Berlin: Springer-Verlag. GREENLAND, S., 1988. On sample-size and power CLIFF, A .D. & HAGGET, P., 1979. Geographical calculations for studies using confidence inter- aspects of epidemic diffusion in closed commu- vals. American Journal of Epidemiology, 128: nities. In: Statistical Applications in the Spatial 231-237. Sciences (N. Wrigley, ed.), pp. 5-44, London: HABERMAN, S. J., 1978. Analysis of Qualitative Pion Limited. Data. New York Academic Press. CLIFFORD, P.; RICHARDSON, S. & HEMON, D., HAMMOND, R. & MC CULLAGH, P. S., 1978. 1989. Assessing the significance of the correla- Quantitative Techniques in Geography: an tion between two spatial processes. Biometrics, Introduction. Oxford: Clarendon Press. 45: 123-134. HILL, A. B., 1965. Principles of Medical Statistics. COCHRAN, W. G., 1953. Sampling Techniques. New York: Oxford University Press. New York: John Wiley & Sons. HOEL, P. G.; PORT, S. C. & STONE, C. J., 1971. COSTA, D. C. (Org.), 1990. Epidemiologia Teoria Introduction to Probability Theory. Boston: e Objeto. São Paulo: Hucitec/Abrasco. Houghton Mifflin Company. COOK, D. G. & POCOCK, S. J., 1983. Multiple HOEL, P. G., 1980. Estatística Matemática. Rio de regression in geographic mortality studies with Janeiro: Editora Guanabara Dois. allowance for spatially correlated errors. HOSMER, D. W. & LEMESHOW, S., 1989. Applied Biometrics, 39: 361-371. Logistic Regression. New York: John Wiley & COSTNER, H. L., 1965. Criteria for measures of Sons. association. American Sociological Review, 30: HOTELLING, H., 1951. The impact of R. A. Fisher 341-353. on statistics. Journal of the American Statistics COX, D. R., 1970. Analysis of Binary Data. London: Association, 46: 35-46. Methuen. HUFF, D., 1954. How to Lie with Statistics. New DANIELS, H. E., 1944. The relation between meas- York W. W. Norton. ures of correlation in the universe of sample IOSIFESCU, M. & TAUTU, P., 1973. Stochastic permutations. Biometrika, 33: 129-135. Processes and Applications in Biology and Medi- DAVIS, F. N., 1955. Dicing and Gaming (a note on the history of probability). Biometrika, 42: cine. New York: Springer-Verlag. 1-15. JEFFREYS, H, 1948. Theory of Probability. 2nd ed., DEMO, P., 1989. Metodologia Científica em Ciên- Oxford: Clarendon Press. cias Sociais. São Paulo: Editora Atlas. JOHNSTON, R. J., 1978. Multivariate Statistical DRAPER, N. R. & SMITH, H., 1966. Applied Analysis in Geography. London: Longman. Regression Analysis. New York: John Wiley & KENDALL, M. G., 1956. Studies in the history of Sons. probability and statistics: II. Biometrika, 43: FELLER, W., 1968. An Introduction to Probability 1-14. Theory and Its Applications. 3rd edition, New KNEKT, P.; REUNANEN, A.; AROMAA, A.; York: John Wiley & Sons. HELIOVAARA, M. & HAKAMA, M., 1988. FERGUNSON, T. S., 1967. Mathematical Statistics Serum cholesterol and risk of cancer in a cohort (a decision theory approach). New York: Aca- of 39,000 men and women. Journal of Clinical demic Press. Epidemiology, 41: 519-530. FISHER, R. A., 1956. Statistical Method and Scien- LAURENTI, R.; JORGE, M. H. P. M.; LEBRÃO, tific Inference. Edinburgh: Oliver and Boyd. M. L. & GOTLIEB, S. L. D., 1985. Estatísticas FLEISS, J. L., 1973. Statistical Methods for Rates & de Saúde. São Paulo: Editora Pedagógica e Uni- Proportions. New York: John Wiley & Sons. versitária Ltda. GOLDBERG, M., 1990. Este obscuro objeto da LEHMANN, E. L., 1959. Testing Statistical Hypoth- Epidemiologia. In: Epidemiologia Teoria e eses. New York: John Wiley & Sons. Objeto (D. C. Costa, org.), pp. 87-136, São LI, C. C., 1975. Path Analysis-a Primer. Pacific Paulo: Hucitec Grove, California: The Boxwood Press. Abrasco LINDLEY, D. V., 1957. A statistical paradox. GOODMAN, L. A., 1979. Simple models for the Biometrika, 44: 187-192. analysis of association in cross-classification LOWY, M., 1991. Ideologias e Ciência Social - having ordered categories. Journal of the Ameri- Elementos para uma Análise Marxista. São can Statistics Association, 74: 537-552. Paulo: Cortez Editora. MORGENSTERN, H., 1982. Uses of ecologic SABROZA, P. C., 1990. Prefácio. In: Epidemiologia analysis in epidemiologic research. American Teoria e Objeto ( D. C. Costa, org.), pp. 7-10, Journal of Public Health, 72: 1336-1344. São Paulo: Hucitec/Abrasco. MORGENSTERN, H., 1989. Epidemiologic Meth- SAVAGE, L. J., 1954. The Foundations of Statistics. ods, class notes (Mimeo.). London: Routledge and Kegan Paul. NARAYAN BHAT, U., 1972. Elements of Applied SEARL, S. R., 1971. Linear Models. New York: Stochastic Processes. New York: John Wiley & John Wiley & Sons. Sons. STEEL, R. G. D. & TORRIE, J. H., 1981. Principles NEUTS, M. F., 1973. Probability. Boston: Allyn and and Procedures of Statistics (a biometrical Bacon Inc.. approach). Singapore: Me Graw-Hill. NUNES, E. D. (Org.), 1985. As Ciências Sociais em SUSSER, M., 1985. Epidemiology in the United Saúde na América Latina: tendências e perspec- States after World War II: the evolution of tech- tivas. Brasília: OPAS. nique. Epidemilogic Reviews, 7: 147-177. OAKES, M., 1990. Statistical Inference. Chestnut TANGO, T., 1984. The detection of disease clus- Hill, MA: Epidemiology Resources Inc. tering in time. Biometrics, 40: 15-26. OPENSHAW, S. & TAYLOR, P. J., 1979. A million UK NATIONAL CASE-CONTROL STUDY or so correlation coefficients: three experiments GROUP, 1989. Oral contraceptive use and breast on the modifiable areal unit problem. In: cancer risk in young women. The Lancet, May Statistical Applications in the Spatial Sciences 6: 973-982. (N. Wrigley, ed.), pp. 128-144, London: Pion WALKER, H. M., 1958. The contributions of Karl Limited. Pearson. Journal of the American Statistics Asso- ORGANIZAÇÃO MUNDIAL DA SAÚDE, 1978. ciation, 53: 11-27. Classificação Internacional de Doenças, Lesões WOLFOWITZ, J., 1952. Abraham Wald, 1902-1950. e Causas de Óbitos: 9a revisão. Vol. 1. São Annals of Mathematical Statistics, 23: 1-13. Paulo, Centro da OMS para classificação de YULE, G. U. & KENDALL, M. G., 1950. An doenças em Português. Introduction to the Theory of Statistics. London: PIANTADOSI, S.; BYAR, D. P. & GREEN, S. B., Charles Griffin. 1988. The ecological fallacy. American Journal of Epidemiology, 127: 893-900. PHILLIPS, L. D., 1973. Bayesian Statistics for Social Scientists. London: Nelson. POLLARD, A. H. ; YUSUF, F, & POLLARD, G. N., 1974. Demographic Techniques. Sydney: Pergamon Press. RANKIN, B., 1966. The history of probability and the changing concept of the individual. Journal of the History of Ideas, 27: 483-504. RAO, C. R., 1973. Linear Statistical Inference and Its Applications. New York: John Wiley & Sons. RAUBERTAS, R. F., 1988. Spatial and temporal analysis of disease occurrence for detection of clustering. Biometrics, 44: 1121-1129. REMINGTON, R. D. & SCHORK, M. A., 1970. Statistics with Applications to the Biological and Health Sciences. Englewoods Cliffs, New Jersey: Prentice-Hall. RICHARDSON, S.; STUCKER, I. & HEMON, D., 1987. Comparison of relative risks obtained in ecological and individual studies: some methodo- logical considerations. International Journal of Epidemiology, 16: 111-120. ROBINSON, W. S., 1950. Ecological correlations and the behavior of individuals. American Socio- logical Review, 15: 351-357.