Sie sind auf Seite 1von 62

Bioestatstica

2010/2011


Ana Cristina Ribeiro Gomes
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
1

CAPTULO 1 Estatstica Indutiva
Estatstica
A estatstica desenvolve mtodos de obteno, anlise e interpretao de dados
experimentais ou observacionais.
A distino entre dados experimentais e dados observacionais decorre da natureza do
estudo realizado para os obter: um estudo experimental ou um estudo observacional,
respectivamente. A estatstica no trata erros sistemticas.

Raciocnio Indutivo em Estatstica
Uma das caractersticas fundamentais da estatstica, e que a distingue da matemtica,
decorre da utilizao do raciocnio indutivo, isto , concluir do particular para o geral, o que
significa que a concluso que retirada de um estudo de natureza estatstica, pela aplicao
de um raciocnio indutivo, no garantidamente correcta. Exemplos:
1. Todos os alunos que esto na sala entraram na faculdade antes das 8 horas.
Concluso: todos os alunos da faculdade entraram antes das 8 horas.
2. Todas as vacas observadas so pretas.
Concluso: Todas as vacas so pretas.
Esta situao exemplifica a natureza da induo: induzir o universal a partir do
particular, logo a concluso no obtida como verdadeira, a menos que se
observem todas as vacas.

Elevada Incerteza
A estatstica particularmente til em situaes de elevada incerteza porque
desenvolve mtodos que auxiliam a tomada de decises na presena dessas mesmas
incertezas, quantificando ao mesmo tempo o grau de confiana que se pode atribuir
concluso que esteve na origem da deciso tomada.
A estatstica no substitui nem dispensa uma avaliao muito cuidadosa e ponderada
do problema por quem a est a utilizar: na forma de obteno dos dados, na interpretao dos
resultados e na utilizao subsequente das concluses do estudo estatstico. E essa avaliao e
ponderao tm de ser necessariamente contextualizada.
Supondo que, em condies normais, 2% dos indivduos de uma populao animal
apresentam uma determinada infeco, se a proporo de indivduos infectados exceder os
3% pode-se estar na presena do incio de uma epidemia, devem ser impostas medidas
apropriadas de conteno.
Constatao experimental verificou-se que em 50 indivduos, escolhidos
aleatoriamente (ao acaso), 2 deles (4%) estavam infectados.

Poder-se- estar perante o incio de uma epidemia? Devem impor-se medidas
de conteno? H mais de 3% de animais infectados na populao animal?
Est muito longe de um sim categrico, uma vez que quando se retira uma
amostra de 50 animais de uma populao animal com 2 % de infectados, em
cerca de 26% das vezes, o nmero de infectados na amostra maior ou igual a
2 (amostra com 4% ou mais de infectados.
Populao
animal
numerosa
Amostragem
Amostra de
50 animais
Constatao
exeperimental : nestes
50 animais, 2 deles esto
infectados
4 % de infectados
?
H mais de 3% de
infectados na
populao?
Sim (categrico)
No (categrico)
A posio desta
linha ir depender
do nmero de
animais infectados
na amostra, mas
nunca ir tingir
nem o sim nem o
no categricos
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
2

Incertezas
A incerteza pode ter origens muito diversas, por exemplo: informao insuficiente;
erros no sistemticos, na obteno de dados; variabilidade intra-individual (no prprio
indivduo); variabilidade inter-individual (de indivduo para indivduo); variabilidade intrnseca
prpria situao em estudo; informao incompleta, em situaes complexas com mltiplos
factores intervenientes (no se observa tudo).
Pode-se diminuir a incerteza aumentando o nmero de dados, melhorando as tcnicas
de medida, ou estabelecendo protocolos rigorosos (criar situaes restritas) para a obteno
dos dados.
A incerteza que decorre da complexidade da situao, poder reduzir-se melhorando a
forma de obteno dos dados (por exemplo, efectuar, se possvel, um estudo experimental em
vez de um estudo observacional).

Estudos Experimentais
Os estudos experimentais so diferentes dos estudos observacionais.
Estudos experimentais o cientista distribui as unidades experimentais nos grupos.
Estudos observacionais o indivduo decide se est em algum grupo e se participa.

Desenvolvimento da doena
Sim No
Vacina Salk 33 200712
Placebo 115 201114
Caractersticas de um estudo experimental:
Um grupo de tratamento e um grupo de controlo, com atribuio aleatria das
crianas a um destes dois grupos (randomized controlled experiment).
Administrao de um placebo no grupo de controlo.
Ensaio duplamente-cego (double-blind) apenas uma entidade superior e
no relacionada com o estudo, sabe dele, para alm de quem faz o estudo.
Estas condies destinam-se a garantir que o grupo de controlo e o grupo de
tratamento tenham caractersticas semelhantes, ou seja, assegura que o grupo de tratamento
semelhante ao grupo de controlo. No entanto, nunca possvel garantir que o grupo de
controlo seja idntico ao grupo de tratamento.
Assim sendo, as diferenas que porventura sejam observadas podem ser atribudas,
com alguma segurana, administrao da vacina.
Contudo, fazendo uma atribuio aleatria das unidades experimentais aos grupos de
controlo e de tratamento pode garantir-se que:
So eliminados os factores subjectivos que poderiam conduzir a esses grupos
terem caractersticas sistematicamente diferentes entre si, isto , garante-se a
imparcialidade na atribuio das unidades experimentais aos grupos de
controlo e de tratamento.
Seja muito pouco provvel que o grupo de controlo e o grupo de tratamento
venham a ter caractersticas muito diferentes entre si, tendo tendo, em mdia,
caractersticas semelhantes.
Podem desenvolver-se mtodos que permitem quantificar o efeito das
diferenas (inevitveis) entre o grupo de controlo e o grupo de tratamento.

Estudo Experimental Duplamente-Cego (Double Blind)
Aps consentimento, as crianas foram aleatoriamente atribudas a tratamentos com
amoxixilina ou com uma suspenso de placebo (mesma cor e sabor). As suspenses foram
fornecidas aos doutores participantes, numa moda duplamente-cega com computorizao
aleatria de 2 blocos (doutores, pais e investigadores, permanecem cegos em relao ao
estudo).
Exemplo Ensaio clnico da vacina Salk

A vacina eficaz ?

Tabela de contingncia 2 2
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
3

Apesar de terem sido eliminados os factores subjectivos, que poderiam conduzir a que
os grupos de controlo e de tratamento tivessem caractersticas sistematicamente diferentes
entre si, os autores tiveram o cuidado de verificar se os grupos que foram obtidos eram
mesmo semelhantes (considerar os factores subjectivos para verificar uma maior semelhana
entre as unidades experimentais), no que diz respeito a factores que pudessem influenciar os
resultados do ensaio.
Experincia Cega (Blind Experiment): o mtodo cego uma parte do mtodo
cientfico, usado para evitar que os resultados investigados sofram influncias do efeito
placebo ou da obliquidade do observado. Para colocar um indivduo envolvido na investigao
cega, evita-se que ela conhea alguma informao sobre o processo.
Isto previne todas as pessoas envolvidas na experincia de saberem quais os indivduos
experimentais que receberam o tratamento.
Deve-se considerar como cego: os indivduos (se aplicvel), pessoas que administram
os tratamentos, pessoas que tratam os resultados e os financiadores.

Blocking
Para alm da atribuio aleatria das unidades experimentais ao grupo de controlo e
ao grupo de tratamento (tal como foi feito no ensaio da vacina Salk e no exemplo da
amoxilina), a organizao das unidades experimentais em grupos homogneos uma prtica
corrente no planeamento de um estudo experimental.
Blocking organizao das unidades experimentais em grupos to homogneos
quanto possvel, no que diz respeito a factores (acessrios) que se suspeitam ser importantes.
Emparelhamento (paired design) caso particular de blocking. A comparao feita
em pares de unidades experimentais com caractersticas semelhantes entre si.
Bloquear: arranjo das unidades experimentais em grupos (blocos) que so similares
uns com os outros, na teoria estatstica, das experincias designadas.
Por exemplo, uma experincia designada para testar uma nova droga em pacientes.
Existem dois nveis de tratamento, droga e placebo administrado a pacientes masculinos e
femininos, num julgamento duplamente-cego. O sexo dos pacientes um factor bloqueante
que conta para a variabilidade do tratamento. Isto reduz a origem da variabilidade e conduz a
uma maior preciso.

Blocking e Aleatorizao
Block assegura comparaes justas com respeito pelos factores, conhecidos como
importantes.
Randomiza tentar obter comparaes com respeito pelos factores desconhecidos.
Estudo de Hawthorn exemplo de um estudo experimental que uma tentativa para
testar mudanas no trabalho ambiental na planta Hawthorne. Os investigadores ficaram
interessados no aumento de iluminao que leva a um aumento da produtividade da linha de
trabalhadores.
Os investigadores mediram a produtividade na planta e depois mudaram a iluminao
na rea para verem se as mudanas de iluminao afectariam a produtividade.
Devido a erros no procedimento experimental, especificamente a falta de grupo de
controlo, os investigadores, enquanto impedidos de fazer o planeado, foram capazes de
fornecer ao mundo com o efeito de Hawthorne: o efeito experimental e o efeito social.
O efeito de Hawthorne uma forma de reactividade na qual os indivduos melhoram
um aspecto do seu comportamento, que seja medido experimentalmente, simplesmente em
resposta ao facto de estarem a ser estudados e no em resposta a qualquer manipulao
experimental.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
4

Estudos Experimentais Caractersticas
Utilizao do mtodo da comparao. Para ser averiguado o efeito de um tratamento
(como a vacina Salk), numa resposta (como possuir polio), comparam-se as respostas do grupo
de tratamento com o grupo controlo. Normalmente, difcil de julgar o efeito de uma
propriedade do tratamento sem a comparar com algo.
Se o grupo experimental semelhante ao grupo controlo, alm do tratamento, ento
uma diferena nas respostas dos 2 grupos pode ser devida a efeitos do tratamento.
No entanto, se o grupo de tratamento diferente do grupo de controlo, no que diz
respeito a outros factores, os seus efeitos so confundidos com os efeitos do tratamento.
Para se certificar que o grupo de tratamento semelhante ao grupo de controlo os
investigadores sujeitam os indivduos a tratamentos ou controlos, aleatoriamente. Isto feito
em experincias aleatrias controladas.
Sempre que possvel, ao grupo controlo administrado placebo, que neutro mas que
se assemelha ao tratamento.
Numa experincia duplamente-cega,os indivduos no conhecem se esto no grupo
tratamento ou no grupo controlo, nem sabem avaliar as respostas.

Estudos Observacionais
Numa experincia controlada, os investigadores decidem quem estar no grupo de
tratamento e quem estar no grupo de controlo.
No entanto, por oposio, num estudo observacional so os indivduos que se
distribuem a si prprios nos diferentes grupos: ou seja, os investigadores apenas observam o
que ocorre. Desta forma, impossvel retirar uma concluso universal.
Os estudos do efeito do tabagismo so, necessariamente, observacionais: ningum
fuma por 10 anos apenas devido a prpria satisfao.
No entanto, a ideia de tratamento-controlo continua a ser usado. Os investigadores
comparam os fumadores (o grupo tratamento ou exposto) com os no fumadores (o grupo
controlo), para determinar os efeitos do tabagismo.

Varivel de Confundimento (Exemplo)
Varivel de confundimento variveis que intervm no estudo, podendo passar
despercebida e levar a consideraes erradas.
Constatao pessoas com educao maior tendem a possuir menor probabilidade de
desemprego.
Pergunta A educao protege contra o desemprego?
Discusso talvez, mas os dados foram observacionais. Nesta ligao a idade foi uma
varivel confundvel. As pessoas mais jovens possuem maior educao, porque o nvel
educacional foi subindo ao longo do tempo. Para alm disso, na escolha de contratao, os
patres parecem preferir as pessoas novas que procuram o trabalho. Assim, controlando a
idade, o efeito educacional no desemprego torna-se muito menor.

Estratificao
Nos estudos observacionais tambm se deve procurar que o grupo de controlo e o
grupo de tratamento tenham caractersticas semelhantes, no que diz respeito a factores de
que se suspeita terem uma influncia nos resultados.
Estratificao processo de constituio dos grupos com caractersticas semelhantes
entre si, em estudos observacionais.
Bloquear palavra usada para descrever um sujeito de experincia.
Estratificao usado para descrever um estudo observacional.
Ambos referem-se ideia de apenas fazer comparaes que sejam relativamente a
grupos similares de unidades experimentais.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
5

Estudos Observacionais
Num estudo observacional, os investigadores no atribuem os indivduos ao grupo de
tratamento e de controlo. Alguns dos indivduos possuem a condio cujos efeitos esto a ser
estudados, constituindo o grupo de tratamento. Os outros formam o grupo controlo.
Por exemplo, num estudo do tabagismo, os fumadores so o grupo de tratamento e os
no fumadores o grupo controlo.
Estudos observacionais podem estabelecer associao. Mas que no ,
necessariamente, a causa.
Num estudo observacional os efeitos do tratamento podem ser confundidos com os
factores dos efeitos que levaram os indivduos ao tratamento ou controlo, em primeiro lugar.
Estudos observacionais podem ser um pouco confusos devido s relaes causa-efeito.
Num estudo observacional, um factor confundvel pode, por vezes, ser controlado,
pela comparao com pequenos grupos os quais so relativamente homogneos, com respeito
ao factor.
Apesar das limitaes deste tipo de estudos, em muitas situaes no h alternativa:
s podem ser efectuados estudos observacionais. E o avano do conhecimento no pode
prescindir deles.
Embora se possam ter todos os cuidados na anlise (e na divulgao) dos resultados,
de um estudo observacional, se o problema em estudo de facto importante, h que esperar
opinies no concordantes (ou mesmo discordantes).

Causalidade ou Associao
No entanto, associao no o mesmo de causalidade.
Causalidade relaes temporais, no se pode dizer que uma varivel causa a outra.
Associao relao fsica e temporal, entre 2 variveis (relaes causa-efeito).
Amamentao e Mortalidade Infantil:

X Y X Y
Etipia 97 135 74 44 Filipinas
Bangladesh 86 118 50 46 Mxico
China 55 31 37 61 Brazil
Haiti 84 108 73 64 Iro
Indonsia 80 116 52 69 Arbia
Sudo 87 68 40 9 Austrlia
Bolvia 90 106 24 10 USA
so os que possuem os piores acessos a gua limpa. Logo, pobreza e falta de saneamento so
as causas reais para a elevada taxa de mortalidade infantil.
Pode-se considerar as seguintes variveis:
Y mortalidade infantil;
X percentagem de famlias que amamentam at aos 6 meses;
W percentagens de famlias com acesso a gua potvel.
A varivel W uma varivel de confundimento: quando no se considera esta varivel
e se estuda a relao entre as outras duas variveis (Xe Y) pode-se levar a uma concluso
completamente errada. uma situao particularmente grave, uma vez que os estudos
quantitativos (mesmo que mal conduzidos) transportam uma urea de credibilidade. O que
obriga, a quem os fizer, a ter um sentido de responsabilidade acrescido.
X amamentao Y taxa de mortalidade

Existe um forte padro linear de aumento da
taxa de mortalidade com o aumento dos nveis de
amamentao. Poder-se- concluir que a
amamentao perigoso.
Os pases com maiores nveis de amamentao
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
6

Variveis de Confundimento (Confounding Variables)
Variveis de confundimento so variveis relacionadas com a varivel dependente
e/ou uma ou mais variveis independentes, e que no so includas no modelo de anlise dos
dados.
A nica forma de controlar potenciais variveis de confundimento atravs de:
Uma reflexo aprofundada sobre a situao concreta, procurando identificar
as potenciais variveis de confundimento;
Planeamento cuidadoso do estudo a realizar e a avaliao da eventual
influncia dessas variveis em todas as fases desse estudo.
O exemplo da amamentao-mortalidade infantil mostra que arriscado efectuar um
estudo de carcter estatstico sem compreender minimamente a situao. O que justifica uma
das recomendaes a ter sempre presente no desenvolvimento de um trabalho (srio) que
envolva o tratamento estatstico de dados.

Causalidade e Correlao
Esta diferena importante em muitas coisas, incluindo estudos das pessoas.
Correlao relao matemtica entre coisas que so medidas. dado atravs de um
valor entre 0 e 1. A correlao de 0 significa que as 2 coisas no esto relacionadas, ou seja,
dado o primeiro valor no existe forma de prever o segundo. A correlao de 1 significa que as
2 coisas esto completamente relacionadas, ou seja, a primeira coisa prev sempre a segunda.
A relao simtrica.
Causalidade relao entre 2 coisas, mas que no matemtico, fsico ou filosfico.
Por vezes causa outras coisas se existe uma cascata de eventos entre a primeira e a segunda
coisa, cada qual causa a prxima coisa em cadeia que acontece. Envolve tempo, ou seja, a
primeira coisa acontece e depois, mais tarde, acontece a segunda como resultado. Diz-se que a
primeira coisa a causa e a segunda o efeito. Esta relao assimtrica, ao contrrio da
correlao.

Constatao Experimental e sua Interpretao
Num trabalho de ndole tcnica ou cientfica, ou mesmo numa notcia, deve ser muito
claro para o leitor qual a constatao experimental e qual a interpretao que o autor lhe
atribui.
A primeira uma informao objectiva que pode ser muito til para o leitor. A
segunda poder ter uma componente subjectiva, com que o leitor poder concordar ou
discordar.
Este princpio de separao clara do objectivo e do subjectivo conduz a regras muito
estritas no que diz respeito forma como devem ser apresentados os trabalhos de ndole
cientfica ou tcnica, nomeadamente a separao entre a seco de resultados e a seco de
discusso.





Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
7

CAPTULO 1 Probabilidade como Instrumento de Apoio Deciso
Exemplo Introdutrio
Hiptese: o indivduo 1 admite que os dois dados que o indivduo 2 tem, no so
viciados (a hiptese de trabalho). mais fcil trabalhar com o serem viciados.
Observao: o indivduo 2 lana os dois dados oito vezes seguidas e obtm oito vezes
um duplo 6. Se os dados no so viciados, a probabilidade de em oito lanamentos seguidos
sarem sempre duplos 6 muito, muito pequena.
Concluso o indivduo 1 conclui que (muito possivelmente) os dados do indivduo 2
so viciados.
Em qualquer concluso estatstica h consequncias. Quando a hiptese vaga, no
uma boa hiptese.
Este exemplo ilustra a aplicao de um raciocnio indutivo. obvio que a concluso
que retirada faz todo o sentido, muito embora possa estar errada: os dados do indivduo 2
podem no estar viciados, pode ter sido uma questo de sorte para o indivduo 2 (e de azar
para o indivduo 1).
Mas se for razovel manter a dvida no caso de oito duplos 6, seria igualmente
razovel mant-la se em vinte lanamentos sassem vinte duplos 6? Apesar de continuar a no
ser possvel ter a certeza que os dados esto viciados, a convico do indivduo 1 de que esto
viciados, seria agora bem maior. Essa maior convico resulta de uma aplicao (intuitiva) do
conceito de probabilidade.

Instrumento de Apoio Deciso
H uma ligao muito forte entre a estatstica indutiva e as teorias das probabilidades.
Em estatstica indutiva a probabilidade utilizada para quantificar o grau de confiana que se
pode atribuir concluso que se extrai de um estudo estatstico, e assim sendo, a
probabilidade utilizada como instrumento de apoio deciso.
A utilizao de probabilidade como instrumento de deciso pode ocorrer de muitas
formas, em particular atravs da aplicao da regra dos acontecimentos raros, isto ,
acontecimentos com probabilidade de ocorrncia muito pequena.

Regra dos Acontecimentos Raros
Se uma hiptese de trabalho leva a prever que um determinado acontecimento seja
raro, isto , que tem uma probabilidade de ocorrer prxima de zero, e se for verificado que o
acontecimento ocorreu, ento muito possivelmente, a hiptese de trabalho no est correcta.
De uma forma explcita ou implcita, o conceito de probabilidade e a regra dos
acontecimentos raros so utilizados como instrumentos de apoio deciso, perante situaes
com que so confrontados mesmo quando no h a formulao prvia de uma hiptese de
trabalho e uma experincia planeada ou um estudo observacional para a testar.
Nos exemplos desta regra, a concluso que tirada no decorre do resultado de um
clculo de uma probabilidade, decorre da avaliao que feita do resultado obtido para essa
probabilidade.
Da utilizar-se a designao de instrumento de apoio deciso. Os exemplos no
cobrem, contudo, todas as situaes possveis.

Exemplo 1
Constatao: num estudo de avaliao de um mtodo para aumentar a probabilidade
de nascimento de um beb do sexo feminino verificou-se que em 1000 casais (que usaram
esse mtodo) 540 tivera uma rapariga.
Pergunta: ser razovel concluir que o mtodo aumenta a probabilidade de nascer
uma rapariga?
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
8

Hiptese de trabalho:

.
Resultados experimentais:

.
possvel concluir que se a hiptese de trabalho for verdadeira, a probabilidade de
obter um valor to elevado para a frequncia de nascimento de raparigas seria muito pequena
(= 0,006).
Assim sendo, face aos resultados obtidos, razovel admitir que Hiptese de trabalho:
, isto , que o mtodo aumenta a probabilidade de nascer uma rapariga.
A concluso retirada deste estudo pode no ser verdadeira, podendo acontecer que os
resultados obtidos em estudos posteriores (por exemplo com uma maior dimenso da
amostra) levem a concluir que o mtodo no eficaz.

Exemplo 2
Pouco depois de ter partido de Miami, o Eastern Airlines Flight 855 a luz que avisa
baixa presso do leo disparou de um dos motores. medida que o avio aterrava em Miami,
as luzes de aviso para os outros 2 motores acenderam tambm.
Um dos motores falha, seguido pela falha do ltimo motor. O avio desceu sem
energia dos 13000 ft para os 4000 ft altura na qual a equipa conseguiu fazer restart de um
dos motores e as 172 pessoas a bordo aterraram salvas.
A operao independente dos 3 motores assegura que a probabilidade de os 3
motores falharem no mesmo voo seja extremamente pequena.
Mas o certo que falharam os 3 motores. Coincidncia? Poderia ter sido, mas essa no
a atitude correcta (cientfica) para analisar a ocorrncia.
A operao independente dos 3 motores no uma premissa matemtica, nem to
pouco um facto indiscutvel. um objectivo que se pretende satisfazer pela concepo do
sistema de propulso e pelas condies operacionais do avio: apenas uma hiptese de
trabalho.
Sendo assim, pela aplicao da regra dos acontecimentos raros, a concluso a retirar
que, muito possivelmente, a independncia dos 3 motores no estaria assegurada nesse voo.
De facto a comisso de inqurito ao incidente apurou que: a razo para que os 3
motores tenham perdido o seu leo foi a mudana de um detector de um chip magntico, na
noite anterior. A FAA encontrou que o mesmo mecanismo que substituiu o leo dos 3 motores
falhou na substituio do leo e substituio dos anis. O uso de um nico mecanismo fez com
que os 3 motores se tornassem dependentes. Esta situao fez com que, no futuro, os motores
tivessem de ser servidos por mecanismos diferentes.
A concluso retirada de no independncia foi posteriormente corroborada pela
comisso de inqurito, que encontrou a causa correcta para essa no independncia.

Estatstica
A estatstica desenvolve mtodos que auxiliam na tomada de decises, quantificando
ao mesmo tempo o grau de confiana que se pode atribuir concluso que esteve na origem
da deciso tomada.
Num estudo de natureza estatstica, poder no haver uma concluso que seja
universalmente considerada como sendo a correcta.
A concluso ir sempre depender de uma avaliao contextualizada dos resultados
obtidos e das consequncias de uma deciso errada. E qualquer avaliao deste tipo ser
sempre subjectiva (pois ocorre da interpretao de monmeros).
Quanto responsabilidade da deciso, essa clara: a responsabilidade de quem tira
a concluso e toma a deciso subsequente, existindo apenas a escolha entre a angstia da
deciso ou a angstia da indeciso.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
9

CAPTULO 2 Populao e Amostragem
Populao
Em traos gerais, o objectivo de um estudo de natureza estatstica conseguir obter
informao global, isto , informao no individual, sobre as caractersticas / atributos dos
elementos de um conjunto, a que se chama populao, a partir da observao individual dos
elementos de um subconjunto da populao (uma amostra).

Populao (definio alternativa) conjunto dos resultados que se poderiam obter por
observao ou por medio de uma ou mais variveis. Essas variveis so as que foram
escolhidas para caracterizar o conjunto das unidades estatsticas que so objecto de estudo.
Com esta definio, os elementos que constituem a populao j no so entidades
fsicas, mas so valores obtidos por medio das caractersticas dessas entidades fsicas.
Se determinado estudo incidir sobre duas variveis, ento a populao fsica pode ser
encarada como o conjunto de pares.

Populao em Estudo e Populao Alvo
De um ponto de vista prtico, muito importante compreender a diferena entre a
populao alvo e a populao em estudo.
Populao alvo conjunto completo de indivduos, objectos ou unidades das quais se
quer informao. Toda a populao, no geral.
Populao em estudo conjunto completo de unidades que podem, possivelmente,
ser includos no estudo. Idealmente, o mesmo que populao alvo, mas muito diferente.
uma como uma amostra da populao, ou seja, a que trabalhada e a partir da qual se tiram
concluses, que vo ser aplicadas na populao em geral.
A populao em estudo ser sempre menor que a populao alvo. A amostra
retirada da populao em estudo, ou seja, diferente mas representativa.
Quando a populao alvo e a populao em estudo so diferentes, os resultados
obtidos atravs de um estudo estatstico no so fiveis, podendo mesmo estar
completamente errados.
O inqurito efectuado s intenes de voto nas eleies presidenciais um exemplo
dos problemas de quando a populao alvo e a populao em estudo tm caractersticas
diferentes. Neste caso, a populao-alvo o conjunto dos eleitores e a populao em estudo
o conjunto dos eleitores com telefone.

Populao e Seus Elementos
A omisso ou confuso nas unidades de medida pode ter graves consequncias, logo a
unidade de medida deve ser sempre indicada.
Quando em estatstica se fala em populao com distribuio normal, ou do valor
mdia da populao, no se est a fazer uma referncia distribuio normal dos elementos
(unidades estatsticas) que constituem a populao (no sentido fsico), nem to pouco ao seu
valor mdio.
Est a fazer-se uma referncia distribuio das caractersticas numricas desses
elementos e ao seu valor mdio. Isto , a populao est a ser encarada / definida como o
conjunto das caractersticas numricas dos elementos que constituem a populao.
No que diz respeito ao nmero de elementos, uma populao pode ser:
Finita se tem um nmero finito de elementos, N.
No finita / infinita se tem um nmero no finito de elementos.
Amostra
Populao
Populao conjunto de elementos (indivduos,
animais, objectos, empresas, ocorrncias, etc) cujos atributos /
caractersticas se pretende conhecer. Os elementos da
populao so designados por unidades estatsticas.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
10

Amostra
Na grande maioria das situaes a populao tem um grande nmero de elementos,
no sendo possvel observar todos eles. Em particular, por impossibilidade tcnica, por
insuficincia de recursos ou quando a observao ou a medida implica a destruio da unidade
experimental. De uma informao local tem-se como objectivo retirar uma informao global,
logo necessrio estudar uma amostra da populao.
Amostra parte / subconjunto da populao, que objecto de estudo detalhado.
O objectivo de um estudo estatstico a caracterizao da populao atravs do
estudo detalhado de uma amostra retirada dessa populao.
Sendo assim, a amostra dever ser representativa da populao.
Observaes sobre a representatividade da amostra:
A representatividade da amostra no pode ser assegurada, nem to pouco se
pode garantir que venha a ser verificada. Alis, pode-se garantir que por mais
cuidados que se tenham, praticamente certo que a amostra no
representativa da populao de onde ela foi retirada.
Com esta interpretao, a representatividade ou a no representatividade caracteriza
a qualidade do mtodo que utilizado na obteno da amostra. No caracteriza a qualidade
de uma amostra em particular, obtida por aplicao desse mtodo.

Exemplos da Representatividade da Amostra
Considerando uma populao no sentido fsico, constituda por indivduos. Pretende-se
obter informao sobre as percentagens de indivduos do sexo feminino e do sexo masculino
nessa populao, a partir da observao de uma amostra.

Populao 77 33 999 4
Amostragem sem reposio de 2
elementos (n = 2)
Amostra 1 77 33
Amostra 2 77 999
Amostra 3 77 4
Amostra 4 33 999
Amostra 5 33 4
Amostra 6 999 4


Representatividade da Amostra
No sendo possvel garantir a representatividade de uma amostra em particular, pode-
se garantir a representatividade global das amostras obtidas, desde que seja excluda qualquer
componente subjectiva na escolha dos elementos que constituem a amostra.
Por outro lado, se na escolha dos elementos que constituem a amostra intervm
aspectos subjectivos, ento no fica garantida essa representatividade global, podendo
ocorrer desvios sistemticos.

Amostragem
A obteno de uma amostra dever ser feita com especial cuidado e de uma forma
no subjectiva, recorrendo s tcnicas de amostragem.
Na perspectiva prtica, importante ter presente que a escolha da forma como se faz
a amostragem de uma populao tambm envolve bom senso, intuio e um conhecimento
profundo da situao.
Um erro frequente resulta de, inadvertidamente, a populao alvo ser muito diferente
da populao em estudo.
A mdia dos 4 valores numricos que constituem a
populao 278,25. Algumas das amostras tm uma mdia
superior a 278,25, as outras tm uma mdia inferior. Logo
nenhuma das amostras representativa da populao.
Contudo, a mdia calculada com os valores das seis
mdias das amostras igual a 278,25. Isto , se o mtodo de
amostragem assegurar que as seis amostras so igualmente
possveis, fica assegurada a representatividade global (em
mdia) das amostras que podem ser obtidas por aplicao
desse mtodo de amostragem.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
11

Tcnicas de Amostragem
Quando a populao finita pode utilizar-se uma amostragem com reposio ou uma
amostragem sem reposio.
importante ter presente que estes dois tipos de amostragem s pode ser utilizadas
quando as unidades estatsticas que constituem a populao so catalogveis.
A distino entre com reposio e sem reposio no faz sentido, quando a populao
no finita.
Se N >> n, isto , se a dimenso da populao muito maior que a dimenso da
amostra, do ponto de vista prtico no h grandes diferenas entre a amostragem com
reposio e a amostragem sem reposio.
Isto , quando que N >> n, uma amostra obtida por amostragem se reposio pode ser
tratada como se fosse uma amostra obtida por tiragem com reposio do ponto de vista
prtico o erro cometido e menosprezvel.
Quando se sabe ou se suspeita que a populao constituda por extractos
heterogneos entre si, e possvel fazer amostragens isoladas aos diferentes extractos, podem
obter-se melhores resultados usando a amostragem estratificada.
Mas essencial assegurar que as propores dos extractos na amostra so iguais, ou
muito aproximadamente iguais, s propores dos extractos na populao.

Amostragem Aleatria Sem Reposio (de uma Populao Finita)
Populao finita constituda por N elementos.
Na amostragem aleatria sem reposio de n (com n < N) elementos da populao,
todas as

amostras no ordenadas, ou todas as

amostras ordenadas, que se


podem obter, so igualmente provveis.
Neste tipo de amostragem:
No podem surgir elementos repetidos na amostra;
As amostras podem ser ordenadas (

amostras possveis) ou no
ordenadas (

amostras possveis).
De um ponto de vista prtico, a amostragem sem reposio feita retirando uma a
uma as n unidades estatsticas que foram escolhidas por sorteio, ou mtodo equivalente. Essas
unidades podem ser agrupadas, destruindo a informao relativa sua ordem de sada, o que
conduz s

amostras possveis. Poder tambm manter-se informao sobre a ordem de


sada, o que conduz s

amostras possveis.
Amostras no ordenadas:








Amostragem Aleatria Com Reposio (de uma Populao Finita)
Populao finita constituda por N elementos.
Na amostragem aleatria com reposio de n (n < N) elementos da populao, todas
as

amostras ordenadas que se podem obter so igualmente provveis.


Neste tipo de amostragem:
Podem surgir elementos repetidos na amostra.
De um ponto de vista prtico, a amostragem com reposio feita retirando e
repondo, n vezes sucessivas, uma das N unidades estatsticas escolhidas por
sorteio, ou mtodo equivalente.
Amostragem sem reposio
de 2 elementos (n = 2)
Amostra 1 77 33
Amostra 2 77 999
Amostra 3 77 4
Amostra 4 33 999
Amostra 5 33 4
Amostra 6 999 4
Amostragem sem reposio de 3
elementos (n = 3)
Amostra 1 77 33 999
Amostra 2 77 999 4
Amostra 3 77 4 4
Amostra 4 33 999 4
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
12

muito importante ter presente que quando se perde a informao sobre a ordem de
sada, as diferentes amostras que se podem obter por amostragem com reposio j no so
igualmente provveis.

Amostragem com reposio de 2 elementos (n = 2)


Amostra 1 77 77 Amostra 9 999 77
Amostra 2 77 33 Amostra 10 999 33
Amostra 3 77 999 Amostra 11 999 999
Amostra 4 77 4 Amostra 12 999 4
Amostra 5 33 77 Amostra 13 4 77
Amostra 6 33 33 Amostra 14 4 33
Amostra 7 33 999 Amostra 15 4 999
Amostra 8 33 4 Amostra 16 4 4

Outras Tcnicas de Amostragem
A amostragem aleatria com reposio, a amostragem aleatria sem reposio e a
amostragem aleatria estratificada (com ou sem reposio) so tcnicas de amostragem
genericamente designadas por probabilsticas.
H contudo outros mtodos de amostragem, ditos no probabilsticos, que por vezes
so utilizados por razes de convenincia, de simplicidade ou porque os mtodos
probabilsticos no so utilizveis.
Na escolha do mtodo de amostragem necessrio ter sempre presente que:
Quando o mtodo de amostragem probabilstico, possvel quantificar a
qualidade dos resultados obtidos, uma vez que eles so suportados por
fundamentos matemticos slidos.
Quando o mtodo de amostragem no probabilstico, no possvel
quantificar a qualidade dos resultados obtidos, que depende, sobretudo, de
quem seleccionou a amostra.

Amostragem No Probabilstica
Amostragem no probabilstica como os elementos so escolhidos arbitrariamente
impossvel estimar a variabilidade da amostragem ou identificar possibilidades.
Quando se fala estritamente, numa situao hipottica, no se est perante um
problema de estatstica.

No-Respostas (Missing Data)
De uma maneira geral, quando se fala em no respostas, pensa-se em inquritos e em
situaes de no resposta ao inqurito (recusa do potencial entrevistado em responder ou
simplesmente o no envio ou o no preenchimento de inqurito).
As no respostas podem ocorrer em situaes bem distintas, dai a designao mais
genrica de dados em falta (missing data).
Quando no h um modelo para as no-respostas e/ou a percentagem de no
respostas elevada, as concluses retiradas do estudo da amostra devem ser consideradas
como sendo apenas indicaes teis, uma vez que elas podero no ter qualquer significado
estatstico.
No possvel indicar um valor bem definido para a percentagem de no respostas
que seja considerado aceitvel por todos, uma vez que esse valor depende do grau de
exigncia de quem realiza o estudo, que muito varivel.

Realizar Amostragens
A amostragem pode ser feita com: bilhetes de lotaria, tabelas de nmeros aleatrios
(dgitos entre 0 e 9 so sorteados), amostragem em computador (a partir de um gerador de
nmeros pseudo-aleatrios, pois no so sorteados, existe uma frmula).
As 16 amostras que se podem obter so igualmente
provveis. Nesta contagem a ordem de sada
considerada, isto (77,33) diferente de (33,37). Se a
ordem de sada deixar de ser considerada, tem-se
apenas 10 amostras possveis distintas. Mas essas 10
amostras j no so igualmente provveis.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
13

Nmeros Pseudo-Aleatrios
Nmeros pseudo-aleatrios nmeros gerados em computador utilizando uma
relao de recorrncia, isto , o nmero seguinte obtido custa do nmero anterior.
O primeiro nmero obtido por transformao da leitura do relgio interno do
computador, da o no haver dois incios iguais.
A relao de recorrncia que utilizada assegura que os nmeros que so gerados tm
caractersticas que os tornam praticamente indistinguveis de nmeros obtidos por um sorteio.
Da a designao de nmeros pseudo-aleatrios, isto , nada tendo de aleatrio, estes
nmeros gerados por computador comportam-se como se fossem aleatrios.
Algoritmo de Lehmer (gerao de nmeros pseudo-aleatrios) utiliza uma relao
recursiva do tipo

, em que a, c e m
so inteiros convenientemente escolhidos (2 < a < m e 0 < c < m).
Escolhendo convenientemente os valores para a, c e m possvel obter uma sequncia
peridica (com um perodo muito grande) de valores numricos que manifestam uma grande
irregularidade.
Isto , os nmeros gerados pela relao de recorrncia apresentam caractersticas
muito semelhantes a sequncias de nmeros verdadeiramente aleatrios.
Pseudo aleatrios nmeros gerados pela relao de recorrncia. Nada tm de
aleatrio, mas comportam-se como se o fossem.
A partir destes nmeros inteiros podem obter-se outros, tambm pseudo-aleatrios,
que tomam valores no intervalo ]0 , 1[.

Tcnicas de Amostragem Consideraes Finais
A amostragem com reposio e sem reposio so modelos que podero ser / no ser,
aplicveis em situaes particulares.
Problemas especficos exigem muitas vezes abordagens especficas. A bibliografia de
ndole geral sobre amostragem muito extensa.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
14

CAPTULO 2 Variveis Estatsticas
Classificao das Variveis Estatsticas / Atributos
A amostra no tem de ser representativa, o importante que o mtodo conduza a
amostras representativas.
Variveis quantitativas (medies ou contagens):
Variveis quantitativas contnuas;
Variveis quantitativas discretas.
Variveis qualitativas (indicam o grupo):
Categricas
Ordinais
Existem 2 tipos de terminologias:





Casas Decimais, Algarismos Significativos e Dgitos Variveis
Na estatstica a populao que interessa, e no o indivduo.
Exemplo: 23,9 este nmero tem:
3 algarismos significativos;
1 casa decimal;
2 dgitos variveis dcimas e unidades.
Os dados devem possuir 2 dgitos variveis, onde um dgito varivel definido como
um que varia na gama de dados sob considerao. Na grande maioria das situaes no se
justifica mais do que isso.

Variabilidade Estatstica por Efeito da Amostragem
Variabilidade estatstica por efeito da amostragem variabilidade, de amostra para
amostra, das descries grficas e quantitativas das amostras.
Amostragem aleatria: retirar amostras, aleatoriamente, de uma populao.
Considerando uma populao constituda por 200 elementos 20 dos quais so do sexo
feminino (10%). Foram retiradas 3 amostras de 20 elementos (com reposio), tendo-se
obtido: amostra 1 (19 e 1 ), amostra 2 (20 e 0 ), amostra 3 (18 e 2 ).
Manifestao da variabilidade estatstica por efeito da amostragem neste
exemplo concreto, essa variabilidade traduz-se na variao, de amostra para
amostra, da proporo de elementos do sexo feminino.

Qualidade dos Dados
Os resultados de um trabalho de ndole cientfica ou tcnica esto muito dependentes
da qualidade dos dados.
Por mais sofisticada que seja a anlise efectuada, h um princpio geral que nunca
deve ser esquecido: quando entra lixo, sai lixo.
Tipos de Variveis
Quantitativas (medidas e quantificaes)
Continua (alguns valores repetidos) Discreta (muitos valores repetidos)
Qualitativas (define grupos)
Categrico (sem ideia de ordem) Ordinal (feito na ordem natural)
Tipos de Variveis
Quantitativas (medidas e quantificaes)
Continua (alguns valores repetidos)
Discreta (muitos valores repetidos)
Categrica define grupos)
No Ordinal(sem ideia de ordem) Ordinal (feito na ordem natural)
Utilizado
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
15

CAPTULO 3 Anlise Exploratria dos Dados
Anlise Exploratria dos Dados
Todos os estudos que envolvem a estatstica comeam pela anlise exploratria dos
dados. De que trata a anlise exploratria dos dados:
Objecto de estudo amostra que foi obtida;
Desenvolvem-se mtodos (quantitativos e grficos) para a caracterizao
dessa amostra.

Caracterizao da Amostra (Variveis Estatsticas Quantitativas Contnuas)
Descries grficas:
Diagrama de pontos;
Diagrama de caule e folhas;
Histograma;
Density plots;
Diagrama de caixa e bigodes.
Descries quantitativas:
Intervalo de variao, mdia, varincia, desvio padro;
Mediana e outros quantis, MAD.

Diagrama de Pontos (Strip Chart)
O primeiro passo, para a sua construo, ordenar os valores da amostra. Possui
vantagem na procura de determinadas amostras. A presena de um valor muito estranho pode
ser um erro ou um motivo de investigao.
Com este tipo de diagrama no se tem nenhuma ideia de como os dados esto
distribudos ao nvel da distribuio da populao.

Esta representao grfica til na fase inicial de qualquer trabalho, quando o nmero
de observaes no muito elevado. Permite a deteco rpida de erros e de outras situaes
estranhas, que devero ser investigadas exaustivamente.
Pontos coincidentes so mais fceis de distinguir quando esto empilhados:
Sobrepostos (Overplot) os pontos coincidentes aparecem sobrepostos;


Pilha (Stack) os pontos coincidentes aparecem empilhados. Qualquer
sobreposio parcial dos pontos no significa coincidncia (como no modo
anterior) mas representam valores muito prximos, que no so iguais.


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
16

Diagrama de Caule e Folhas (Stem and Leaf Plot)
Diagrama de caule e folha valores numricos representados de uma forma mais
compacta.
11 Valores observados ordenados: 210, 210, 212, 214, 218, 220, 222, 223, 223, 225,
227. Representam-se:
21 | 00248
22 | 023357
Ou por fragmentao cada caule dividido em grupos com a mesma quantidade de
intervalo de nmeros. Na fragmentao o primeiro grupo tem de englobar os dgitos de 0 a 4,
e o segundo grupo engloba os dgitos de 5 a 9:
21 | 0024
21 | 8
22 | 0233
22 | 57
A formao dos grupos de caules depende da situao, mas todos os grupos do caule
tm de ter a mesma quantidade de dgitos nas folhas.
Quando uma amostra demasiado concentrada, se for prefervel sua leitura, fazem-
se grupos de caule com menos de 5 dgitos nas folhas, ou seja, formam-se 5 grupos de caules,
cada um com 2 grupos de dgitos de folha.
A folha, por definio, s possui 1 dgito, logo devem-se modificar e ajustar os valores
que se quer representar consoante essa premissa.
Quando existe um grupo de caule, no meio do diagrama, que no tenha dgitos nas
suas folhas, obrigatria a sua representao. No entanto, se o grupo estiver na extremidade,
pode ser representado, mas como no tem efeito, no necessrio.
necessrio indicar o tipo de arredondamento utilizado, pois em certos casos pode ser
apresentado um arredondamento para o nmero inteiro inferior, e no o superior segundo a
regra de arredondamento normal, o que pode ser algum tipo de compensao, mas mesmo
assim convm indicar.
muito importante a indicao das unidades com que se construiu o diagrama para
que se consiga formular uma anlise correcta. Assim, para no serem confundidos os nmeros,
tem de se indicar as unidades da amostra, indicando assim onde est o ponto decimal.
Numa amostragem, o caule deve ter um mximo de 2 dgitos variveis, segundo a
regra dos dgitos variveis.
Consideraes:
O nmero 212 pode ser representado por 21 | 2;
De forma anloga 21,2 pode ser representado por 21 | 2;
Para os distinguir, tem de se indicar as unidades.
21 | 2 21 | 2
Unidades: 20 | 0 = 200 unidades: 20 | 0 = 20,0
7|14
7|
8|014444
8|55666677888
9|00001122233444
9|67788
10|22
Unidades: 10|0 = 100 cm
Por vezes, tem de se arredondar os nmeros para o caule no variar tanto.
Este tipo de diagrama assemelha-se a um histograma rodado 90 , com mais detalhe
numrico e menor qualidade grfica.
Caule
Folha
Nmero de dgitos = 3
2 dgitos nos caules
1 dgito nas folhas
Nmeros de caules = 7

O diagrama de caule e folhas organiza os dados de uma forma
compacta, com pouca perda de informao, dando ainda
informao visual sobre a distribuio dos valores da amostra.
Folhas variam imenso Caule variam muito menos
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
17

Caractersticas gerais:
A folha descrita por um dgito. O caule descrito por um a dois dgitos (mais
uma vez, a regra dos 2 dgitos variveis);
O nmero de caules no deve ser maior que 10 / 15, excepto quando a
dimenso da amostra muito elevada;
O nmero de caules pode ser aumentado por fragmentao, onde cada um
dos fragmentos deve ter o mesmo nmero possvel de folhas. Isto , um caule
s pode ser dividido em dois ou em cinco;
A diferena entre caules sucessivos em geral: (0,5 ou 1 ou 2) * (potncia de
10).

Histograma

densidades a rea total sempre igual a 1. O que facilita as comparaes que possam vir a ser
feitas entre histogramas obtidos com amostras de dimenso diferente.
Quanto maior a amplitude de um histograma, mais indivduos tem a amostra, e maior
so as suas frequncias relativas.
Quando a amplitude das classes pequena significa que h um excesso de detalhes,
no entanto quando a amplitude muito grandes, significar que h ausncia de detalhes.
A forma e o detalhe do histograma dependem muito da escolha do nmero de classes.
Critrio de Sturges (apenas indicativo)

, arredondado para o
nmero inteiro superior. A forma e o detalhe do histograma, dependem muito da escolha do
nmero de classes. Este critrio permite escolher o nmero de classes adequado,
determinando a amplitude das classes.
Para n = 40 o critrio de Sturges indica nc = 7.
.
O valor indicativo da amplitude da classe

.
Muitas vezes o nmero de classes escolhido diferente do valor indicado pelo critrio
de Sturges, em particular, quando n muito elevado, pois este critrio muito conservador.
Classes de amplitude diferente:
Quando as classes no tm todas a mesma amplitude, nunca se devem usar
frequncias (nem relativas, nem absolutas) no eixo dos yy (desta forma, s se
pode utilizar a escala de densidades).

Histograma Descontinuidades
Um histograma apresenta descontinuidades, nos pontos escolhidos para extremos das
classes. Essas descontinuidades so artefactos, isto , no apresentam, em geral,
caractersticas intrnsecas das observaes, so apenas uma consequncia da escolha
(arbitrria) dos extremos das classes.
A amplitude do histograma depende muito da
dimenso da amostra e da amplitude das
classes.

Para eliminar este efeito deve-se utilizar no
eixo dos yy a frequncia relativa ou a
densidade,



Quando o histograma est na escala de


Dimenso
da
amostra
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
18



Histograma Limitaes
Descontinuidades introduzidas nos extremos das classes.
Encobrimento de uma simetria que possa ocorrer nos dados.
Aparecimento de uma assimetria que no ocorre nos dados.
Os dados podem apresentar simetria, mas o histograma ser assimtrico e o tipo de
assimetria depender das classes serem abertas, ou fechadas, direita.
No entanto, os dados podem apresentar simetria e, contudo, o histograma ser
assimtrico, quer as classes sejam abertas ou fechadas direita.

Histograma e Polgono das Frequncias Limitaes
Vantagens:
Clculo muito simples;
Aparentemente de compreenso fcil;
Utilizao generalizada.
Inconvenientes:
Introduo de descontinuidades / artefactos na descrio dos dados;
Limitaes na descrio de distribuies de dados simtricos (a escolha das
classes pode, por si s, introduzir uma assimetria no histograma);
Baixa resoluo;
Descrio analtica um pouco complicada.

Diagrama de Pontos da Durao


Curva de Densidades (Density Plot)
Curva de densidades curva / funo, mais macia do que o polgono das frequncias,
que descreve a forma da distribuio dos dados observados. Possui um menor detalhe, mas
no permite 2 interpretaes ( a mais fiel).

Atenuao das descontinuidades:
Aumentar n e diminuir h diminuindo as
descontinuidades:
o Aumentar n mais observaes;
o Diminuir h perda de informao.
Usar o polgono de frequncias;
Usar a curva de densidades (density plot).
Polgono das frequncias pode ser utilizado
qualquer que seja a escala dos yy: frequncias absolutas,
frequncias relativas ou densidades.

Pode-se realizar uma
segmentao de dados,
quando h muitos dados
para analisar.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
19

H uma diferena entre o polgono das frequncias e a curva das densidades:
O polgono das frequncias descreve um histograma, na medida em que o
polgono obtido a partir de um histograma;
A curva das densidades no descreve um histograma, descreve a distribuio
dos dados, uma vez que a curva obtida directamente a partir deles.

Variabilidade Estatstica por Efeito da Amostragem
A variabilidade estatstica por efeito da amostragem manifesta-se qualquer que seja a
descrio, grfica ou quantitativa, utilizada para caracterizar a amostra. Em particular no
histograma. Podendo conduzir a concluses precipitadas.
Se um histograma uma fotografia imperfeita da distribuio dos dados na amostra,
ainda o mais no que diz respeito distribuio dos dados na populao de onde a amostra
foi retirada.
Quando existem 8 amostras diferentes da mesma populao, com os mesmos
factos, mas com reportagens diferentes, as concluses provavelmente sero
diferentes.
A variabilidade estatstica na forma do histograma manifesta-se igualmente na forma
da curva de densidades. Apenas se mantm imutvel o seu carcter macio.
A nica forma de diminuir o efeito da variabilidade estatstica atravs do aumento do
tamanho / dimenso da amostra, isto , com mais trabalho.
Mas na escolha da dimenso da amostra pesam outros factores, que na grande
maioria das vezes so os determinantes, nomeadamente, exequibilidade e custo.

Histograma Back to Back


Diagrama de Barras (Bar Plot / Bar Graph)
Diagrama de barras no h amplitudes de classes nem densidades, logo so
diferentes dos histogramas.
Na descrio grfica de um conjunto de valores observados de uma varivel
quantitativa discreta, podem usar-se frequncias absolutas ou relativas.

Quando a varivel discreta, a representao a mesa, mas no faz sentido colocar
em densidades.
A distribuio de uma varivel categrica feita com um diagrama de barras.
A representao grfica adequada tem de possuir os valores ordenados (alto, mdio e
baixo, e no alto, baixo e mdio) e no pode saltar valores da gama (1, 2, 3, 4, 5, e no 1, 2, 3,
5).
Quando a varivel discreta, a representao a mesma, mas no faz sentido colocar
em densidades.

Este tipo de representao grfica facilita a
comparao entre dois histogramas.


Neste tipo de diagrama
nunca se podem usar densidades.
Por vezes, uma
representao deste tipo, tambm,
designada por histograma.

Forma tpica de
quando se faz
manualmente.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
20

Medidas Quantitativas (Variveis Quantitativas)
A descrio da amostra feita por medidas quantitativas.
Amostra conjunto de n valores observados da varivel X:

.
Medidas de localizao da amostra:
Mdia (mean):

;
Mediana (median).
Medidas de disperso da amostra:
Desvio padro (standard deviation):

- mede a distncia dos valores


mdia;
Intervalo de variao (range):
o Varincia:

.
o Coeficiente de Variao / Co-varincia:

.
Amplitude interquartil (interquartil interval);
MAD (Median Absolute Deviation).
Quando a disperso maior, a varincia e o desvio padro tambm so maiores. O
desvio padro e a varincia so sempre valores positivos. O desvio padro no linear.

Varincia
Mdia da varincia e do desvio padro transformao linear de uma varivel:




Este resultado importante, sendo utilizado muitas vezes no estabelecimento de
resultados gerais. Apesar disso, no um mtodo recomendado para o clculo da varincia.
O desvio padro da amostra deve ser representado por s (valor calculado a partir da
amostra, variando de amostra para amostra) e nunca por (desvio padro da populao, isto
, raiz quadrada da varincia da populao)
Intervalo de varincia (range) amostra ordenada

o valor mnimo de x na amostra;


o valor mximo de x na amostra;


O intervalo de variao (range) define-se por:

.
s (desvio padro da amostra) e (desvio padro de toda a populao.

Mdia e Varincia da Populao
Quando a populao finita, com N elementos,

, a mdia e a
varincia da populao so definidas por:
Mdia (ou valor mdio) da populao:

;
Varincia da populao:


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
21

Estatsticas de Ordem
Quando a varivel quantitativa (ou categrica ordinal) os n valores que constituem a
amostra

podem ser ordenados, obtendo-se

em que

.
O valor

(x da posio K : 1, 2 , 3 n ) a estatstica de ordem k da amostra:


Amostra ordenada = {1,1,2,3,6},

(valor que a amostra toma, no valor


correspondente ordenado, neste caso, significa que na terceira posio est o
algarismo 2.).

Intervalo de Variao
Amostra

, sendo a amostra ordenada

o valor mnimo de x na amostra;


o valor mximo de x na amostra;


O intervalo de variao define-se por:

.

Mediana da Amostra
Mediana da amostra valor que divide a amostra em duas partes iguais, isto , o
nmero de elementos da amostra menores que M igual ao nmero de elementos da amostra
maiores que M (e esse nmero cerca de n/2). Ou seja, 50% dos valores esto sua esquerda,
e os outros 50% dos valores esto sua direita.
A mediana da amostra (M ou Q
2
) pode calcular-se a partir das n observaes
ordenadas



Mdia e Mediana da Amostra
A mdia e a mediana so medidas de localizao dos valores da amostra.
Se a distribuio dos dados na amostra razoavelmente simtrica, a mdia e a
mediana diferem pouco entre si.

A presena na amostra de valores discordantes com a maioria, afecta muito mais o
valor da mdia do que o valor da mediana neste caso diz-se que a mediana mais resistente
do que a mdia.

De um ponto de vista terico torna-se mais simples utilizar a mdia.
Se a distribuio dos dados unimodal e enviesada direita / esquerda, pode
afirmar-se que, em geral, a mdia est situada direita / esquerda da mediana.

A mediana muito mais resistente que a mdia. Pois a mdia muito mais susceptvel
a valores estranhos na amostra. Dependendo do objectivo do estudo, pode ser mais til a
utilizao da mdia ou da varincia.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
22

Interpolao linear:


MAD Median Absolute Distance
A resistncia da mediana pode ser aproveitada para se obter uma medida de disperso
da amostra resistente eventual presena de valores discordantes.
MAD medida de disperso da amostra que apresenta uma maior resistncia do que o
desvio padro da amostra (s) eventual presena de um pequeno nmero de valores na
amostra discordantes da maioria.


Clculo da MAD:
Clculo da mediana (M=)
Clculo dos desvios em mdulos dos valores da amostra em relao mediana
(desvios=...)
Ordenao dos desvios;
Clculo da mediana dos desvios (MAD).

Quantis (Quantiles)
Generalizando o conceito da mediana da amostra, considera-se o valor V que divide os
dados da amostra em duas partes, cerca de 100% dos valores da amostra esquerda de V, e
cerca de 100 (1-)% dos valores da amostra direita de V.
Este nmero V o quantil de ordem da amostra e designa-se por q

. Deste ponto de
vista, a mediana o quantil q
0.50
. Pode-se falar de quantil de qualquer ordem entre 0 e 1.
O clculo do quantil q

envolve 3 etapas:
Ordenao dos dados;
Atribuio de um quantil

a cada uma das estatsticas de ordem


Interpolao linear sobre


No existindo um mtodo universalmente aceite para a atribuio do quantil

,
indicam-se apenas 2 mtodos correntemente utilizados em vrios programas de estatstica.

Dois mtodos frequentemente utilizados no clculo dos quantis de uma amostra de n
elementos: n = dimenso da amostra; k = 1, 2, , n .
Mtodo (a):


Mtodo (b):


Clculo dos quantis:
Para uma mesma amostra, os valores calculados dos quantis dependem do
mtodo que utilizado. E o mtodo utilizado por defeito nos programas de
estatstica no necessariamente o mesmo;
Quando a dimenso da amostra muito pequena os valores obtidos podem ser
bastantes diferentes. Para amostras de dimenso elevada esses valores so prximos entre si,
sendo razoavelmente indiferente o mtodo de clculo que utilizado.

Quartis (Quartiles)
Quartis (quartiles) casos particulares dos quantis. So os mais usados:
Amplitude interquantil AIQ (IQR):

.
Existem 3 quartis:
1 quartil :

.
2 quartil (mediana) :

.
3 quartil :

.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
23

Com excepo da mediana, no h um mtodo nico e universalmente aceite, para o
clculo dos quantis (nem dos quartis) de uma amostra.
Devem distinguir-se duas situaes:
Clculo manual dos quartis apenas, em pequenas amostras e com fins
didticos;
Clculo em computador existe uma grande diversidade de mtodos.

O primeiro quartil (Q
1
) a mediana de todos os valores situados numa posio
esquerda da posio mediana M.
O terceiro quartil (Q
3
) a mediana de todos os valores situados numa posio direita
da posio da mediana M.
Q
1
e Q
3
dividem as metades (da mediana) a meio. Este mtodo s se utiliza para
quartis e nunca para os quantis.
Este mtodo no pode ser generalizado para outros quantis.
Clculo dos quartis (mtodo de Freund e Perles) qualquer que seja a amostra, a soma
das ordens de Q
1
e de Q
3
(ordens eventualmente no inteiras) igual a (n + 1).

Amostra ordenada {1,1,2,3,3,3,4,5,5,6} n=42+2 (n+1)=11
M = Q2 = 3
Q1 = 2 e Q3 = 5
Ordem (Q1) + Ordem (Q3) = 3 + 8 = 11
utiliza-se quando existem diferente quantidade de valores
para a esquerda e para a direita.

Moda da Amostra (Mode)
Moda da amostra:
Para variveis discretas e variveis categricas valor mais frequente na
amostra, isto , o que apresenta um maior nmero de ocorrncias.
Para variveis discretas valor da varivel associada a um mximo no
diagrama de barras.
prefervel definir a moda como um mximo local e no como um mximo global, isto
, com esta definio, a distribuio dos dados na amostra pode ser unimodal, bimodal, etc.
Assim, s se utiliza a moda para variveis contnuas e discretas.
O valor da moda pode depender bastante da escolha das classes.

Dependendo da escolha das classes existem modas diferentes, logo no dependem
dos dados. A definio dada para moda (valor mais frequente na amostra) no aplicvel a
variveis contnuas (no caso de variveis discretas pode existir mais do que uma moda, e esta
pode no ser um mximo absoluto).
1 1 2 3 3 3 4 5 5 6
Q
1
Q
3 M
Duas classes modais: 1,5 2,0 minutos e 4,0 4,5
minutos.
Existem 2 modas pois existem 2 picos no diagrama.

M
0
2,0 minutos
M
1
4,4 minutos
Ligar os extremos da
barra maior com os
extremos das barras
menores que est antes e
depois
Alonga-se o cruzamento
das 2 rectas at ao eixo
dos xx e tem-se o valor da
moda
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
24

Quando a varivel contnua (supem-se que no h 2 valores que se repetem-se,
assim todos os valores so nicos no havendo uma moda), a moda obtida a partir do
histograma ou (preferencialmente) a partir da curva de densidades, podendo no ser nica.


Medidas Descritivas Relaes Aproximadas
Sob certas condies podem estabelecer-se relaes aproximadas entre as medidas
descritivas.
Distribuies de dados unimodais e razoavelmente simtricas relativamente a um
valor central e sem valores discordantes:
70% dos valores da amostra esto contidos no intervalo: ;
Cerca de 95 % das observaes no intervalo: ;


Distribuies de dados unimodais e razoavelmente simtricas relativamente a um
valor central e sem valores discordantes:
.

Interpretao de Histogramas
A interpretao de um histograma, ou se uma curva de densidades, no apenas um
problema de estatstica. A interpretao tem de ser contextualizada.
Um histograma multimodal pode ser um indcio de uma estratificao, ou numa
linguagem corrente, um indcio de uma mistura de populaes.
Quando o nmero de classes excessivo (bastante maior que o nmero indicado pelo
critrio de Sturges) podem surgir modas no histograma que no traduzem caractersticas
presentes na populao.
Uma amplitude de classes pequena leva a mais modas ilusrias, ou seja, o nmero de
modas depende do nmero de classes.

Medidas Quantitativas (Variveis Qualitativas)
As medidas quantitativas so categricas, logo nunca se pode fazer uma interpretao,
apenas se podem fazer comparaes.
Todas as medidas quantitativas cujo clculo envolve operaes aritmticas (tais como
a mdia, o desvio padro, o coeficiente de variao) no se podem aplicar quando a varivel
qualitativa (mesmo que seja codificada numericamente e seja ordinal).
As medidas quantitativas calculadas a partir da ordenao dos dados no podem
aplicar-se quando a varivel qualitativa no ordinal.
Quando a varivel qualitativa ordinal podem usar-se medidas quantitativas nas
estatsticas de ordem mas com limitaes.
A moda pode utilizar-se sem restries.
Distribuio bimodal as duas modas correspondem a
mximos locais da curva de densidades.

M
0
2,0 minutos
M
1
4,3 minutos
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
25

Diagrama de Caixa-e-Bigodes (Box Plots)
Diagrama de caixa-e-bigodes representaes grficas mais frequentemente
utilizadas. Este diagrama agrega:
Informao visual sobre a distribuio dos dados na amostra (pouco detalhada
e robusta);
Informao quantitativa (tambm robusta) sobre a localizao e a disperso
dos valores na amostra (a mediana e o IQR, respectivamente);
Informao visual sobre observaes discordantes, alertando para a sua
existncia.


Para isso, depois de serem calculadas as barreiras, o mximo e o mnimo dos bigodes,
sero os ltimos valores que se encontram dentro das barreiras.
Barreira interna superior (upper fence) :

;
Barreira interna inferior (lower fence) :

;
Barreira externa superior :

;
Barreira externa inferior :

.

No fcil avaliar o grau de simetria da distribuio dos dados na amostra atravs de
um boxplot. Isto :
Se o boxplot assimtrico a distribuio dos dados na amostra assimtrica;
Mas se o boxplot simtrico no se pode concluir com segurana que a
distribuio dos dados o seja.
Representao grfica dos 5 nmeros
de Tukey: mnimo, 1 quartil, 2 quartil
(mediana), 3 quartil e o mximo.
Representao adequada desde que
(Q
3
-Q
1
) no seja muito menor que
(Max-Min).
Este tipo de representao facilita a
comparao de vrias amostras, no que diz
respeito localizao, disperso e assimetria.
O diagrama de caixa-e-bigodes pode
ser modificado, quando os bigodes no
terminam necessariamente no mximo e no
mnimo.
Outliers :
Moderados outliers que se situam
entre as barreiras internas e externas
superiores ou inferiores;
Severos outliers que se encontram
para alm das barreiras externas.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
26

Outliers
Outlier designao aplicada a qualquer elemento da amostra que no se parece
encaixar no conjunto dos valores que a constituem.
Um outlier pode ocorrer por diversas razes:
Erros (instrumentais, de registo, de transcrio, codificao deficientes, etc);
Inerente prpria natureza da situao (a forma da distribuio pode dar um
indcio disso, ou seja, partida parece um outlier.);
Heterogeneidade na populao em estudo.
A presena de um outlier poder ser um indcio de algo verdadeiramente importante.
no lado onde a distribuio aparece enviesada, que aparecem os outliers.
Quando a banda mais larga para cima, haver uma distribuio mais alargada, logo
natural que, neste caso, existirem outliers nesse sentido.
Quando, aps anlise cuidada, foi considerado que o outlier representa um erro, deve-
se corrigir esse erro se possvel. Se no for possvel, elimina-se a observao dessa varivel.
Reavaliar a adequao dos procedimentos experimentais.
Quando, aps anlise cuidada, foi considerado que o outlier no representa um erro:
No eliminar o outlier;
Utilizar mtodos de anlise resistentes, por exemplo usar a mediana em vez
da mdia como medida de localizao, ou usar o MAD em vez do desvio
padro, para medida de disperso;
Repetir o estudo com os outliers e sem os outliers. Se as concluses forem
idnticas, os outliers no tero tido muita influncia. Se as concluses so
diferentes, reportar a situao em detalhe. No aceitvel aceitar sem
reservas nem cautelas uma concluso que depende do facto dos outliers
terem sido ou no includos na anlise;
Investigar cuidadosamente os outlier.
A deteco de outliers uma questo muito importante em estatstica e existem
diversos mtodos de deteco (para alm do boxplot) cuja aplicao depende de alguns
pressupostos (nem sempre satisfeitos) e da dimenso da amostra.

Medidas de Localizao e de Disperso
Na comparao devem considerar-se vrias questes, em particular a aplicabilidade, a
facilidade de interpretao, a simplicidade de tratamento e a resistncia face eventual
presena de valores discordantes da maioria:
Interpretao e comparao sumria entre a mdia e a mediana da amostra;
Interpretao e comparao sumria entre o desvio padro, o intervalo entre
quartis (IQR), o MAD e o intervalo de variao.

Pares de Variveis Estatsticas
Na grande maioria das situaes, numa mesma unidade estatstica so medidas /
observadas mais do que uma varivel.
Nestas situaes, o estudo da amostra pode ser feito considerando cada varivel
isoladamente, usando os mtodos referidos anteriormente.
Mas o estudo e a caracterizao dos valores obtidos para cada varivel, isoladamente,
no permitem descrever o relacionamento que possa existir entre essas variveis, e que
constitui muitas vezes a razo de ser do trabalho experimental.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
27

Diagramas de Disperso (Scatterplot) Variveis Quantitativas
Diagramas deste tipo do informao visual sobre o grau de relacionamento entre as
duas variveis. Mas devem ser complementados com uma medida quantitativa desse grau de
relacionamento.


Coeficiente de Correlao (de Pearson)
O grau de relacionamento linear entre um par de variveis X e Y (quantitativas) numa
amostra, quantificado pelo coeficiente de correlao (de Pearson) da amostra dos pares


Propriedades de r:
O coeficiente de correlao r um nmero adimensional que toma valores no
intervalo [-1 , 1];
Se |r| = 1 as duas variveis esto linearmente relacionadas, e vice-versa;
O valor de r no alterado por uma transformao linear das variveis.
Medida do grau de relacionamento linear entre duas variveis:

Quando |r| muito prximo de 1 pode-se concluir que as variveis apresentam um
grau de relacionamento linear forte.
Quando |r| muito prximo de 0, nada se pode concluir sobre o relacionamento das
variveis sem inspeccionar o diagrama de disperso: o valor de r, por si s, no permite tirar
qualquer concluso.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
28

CAPTULO 4 Teoria Elementar da Probabilidade
Introduo
A estatstica desenvolve mtodos de obteno, anlise e interpretao de dados
experimentais ou observacionais.
Uma das suas caractersticas fundamentais decorre da utilizao do raciocnio indutivo,
o concluir do particular para o geral, que significa tirar uma concluso sobre as caractersticas
dos elementos de uma populao, a partir da observao individual das caractersticas dos
elementos de uma amostra, retirada dessa populao, mas o que no significa que essa
concluso seja garantidamente correcta.
Na estatstica indutiva so desenvolvidos mtodos que, com base em alguma
segurana, permitem caracterizar a populao com base nos resultados obtidos numa
amostra. Para alm disso, a estatstica indutiva quantifica o grau de certeza que se pode
atribuir a essa generalizao. Esse grau de incerteza medido por uma probabilidade.

Introduo ao Conceito de Probabilidade
As frequncias (relativas) de ocorrncia calculadas a partir da tabela de contingncia
dependem do nmero de indivduos envolvidos no estudo, e de factores imprevisveis que
conduziram ao que aconteceu e que poderia no ter acontecido a cada um dos indivduos.
A confiana que se atribui informao transmitida pelas frequncias de ocorrncia
aumenta quando o nmero de indivduos envolvidos no estudo aumenta.

Experincia Aleatria
Experincia aleatria experincia que se pode repetir um grande nmero de vezes
em condies semelhantes.
Neste tipo de experincias, conhecem-se os resultados que podem ocorrem quando se
realiza a experincia mas no se podem prever os resultados individuais. Mesmo que se faam
todos os esforos para manter as mesmas condies em que se realiza a experincia.
Quando a experincia realizada um grande nmero de vezes em condies
semelhantes, o conjunto dos resultados obtidos apresenta regularidade estatstica.

Regularidade Estatstica
Perante uma experincia concreta podem considerar-se diversos acontecimentos, que
podem ocorrer ou no ocorrer.
Assim, com base nos resultados obtidos em repeties sucessivas da experincia,
podem calcular-se as frequncias relativas de ocorrncia desses acontecimentos.
Regularidade estatstica quando numa experincias, as frequncias relativas de
ocorrncia de acontecimentos, calculadas com os resultados obtidos em n realizaes
independentes (provas) dessa experincia, parecem aproximar-se de valores bem definidos
quando o nmero de provas aumenta.
O facto de esses valores serem bem definidos, no quer dizer que eles sejam, ou
venham a ser, conhecidos. Esta regularidade estatstica traduz, assim, uma constatao
experimental.
Designado por A um acontecimento qualquer associada a uma experincia E e por

a frequncia de ocorrncia de A e ao fim de n provas de E, isto , n repeties da


experincia E, a regularidade estatstica significa que quando n aumenta

em
que significa parece aproximar-se de e P(A) a probabilidade de A.

Atribuio Frequentista de uma Probabilidade
A experincia E repetida n vezes (n provas independentes) e com os resultados
obtidos calcula-se a frequncia de ocorrncia de A nessas n provas.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
29

Muito embora no seja possvel obter P(A), pode-se contudo obter uma estimativa do
seu valor

.
Deste ponto de vista, a probabilidade de um acontecimento, P(A), um nmero entre
zero e um, que pode ser obtido experimentalmente.
Afirmar que quando n aumenta

no deve ser encarado como uma


definio de probabilidade, mas sim como um mtodo experimental para obter uma
estimativa de probabilidade P(A), logo a atribuio frequentistas da Probabilidade.
til quando no possvel calcular uma probabilidade restando apenas a sua
estimao experimental.

Probabilidade







Simulao da Experincia de Kerrich

Assim, tem-se como uma constatao experimental o facto de as frequncias de
ocorrncia parecem aproximar-se de valores bem definidos quando o nmero de unidades
analisadas aumenta.

Estimao Experimental de uma Probabilidade
A estimao experimental da probabilidade de um acontecimento, atravs da
frequncia de ocorrncia desse acontecimento, conduz naturalmente a algumas perguntas:
Quantas provas so necessrias realizar para se estimar experimentalmente a
probabilidade de um acontecimento.
Como se mede a qualidade da estimativa obtida para a probabilidade de um
acontecimento.
Como se pode concluir que a probabilidade de um acontecimento tem (ou no
tem) um determinado valor. Ou se a probabilidade de um acontecimento , ou
no, maior do que determinado valor.

Atribuio Frequentista de Probabilidade e Variabilidade Estatstica
A variabilidade estatstica pressupe que a estimativa da probabilidade no um
nmero bem definido.
Probabilidade valor bem definido porventura desconhecido.
Estimativa dessa probabilidade obtida atravs de uma frequncia de ocorrncia, isto
, um valor aproximado, entre muitos outros que se poderia obter. Depende do nmero de
provas realizadas.
Regra de carcter indicativo para apresentar os resultados deve-se indicar sempre o
valor obtido como quociente de dois inteiros, apresentando-o tambm com 2 a 3 casas
decimais.

0,5 (incerteza mxima)
1 (praticamente certo que A vai ocorrer)
0 (praticamente certo que A no vai ocorrer)
A probabilidade um nmero entre 0 e 1, que pode ser obtida
experimentalmente e que serve de instrumento de apoio deciso.
Numa experincia em que no se pode prever o resultado que vai ocorrer,
a probabilidade de um determinado acontecimento A mede o nosso grau
de incerteza no que diz respeito ocorrncia, ou no ocorrncia, desse
acontecimento.
2 Sries de 1000 lanamentos de uma
moeda.

A frequncia de sada de cara parece
aproximar-se de um valor bem definido
quando o nmero de lanamentos aumenta.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
30

Frequncias de Ocorrncia
As n repeties / provas de uma experincia aleatria E devem se independentes entre
si, isto , os resultados obtidos quando j se realizou a experincia E algumas vezes no vo
influenciar (#) os resultados que ainda se vo obter quando a experincia E vai ser realizada
mais vezes. Sejam A e B 2 acontecimentos associados experincia E.

Propriedades das Frequncias de Ocorrncia
Seja E uma experincia aleatria e n o nmero de provas / repeties independentes
de E realizadas:
Qualquer que seja o acontecimento A associado a E,

;
A frequncia de ocorrncia de um acontecimento S, que garantidamente
ocorre sempre quando a experincia E realizada igual a 1,

;
Se 2 acontecimentos a e B associados a e so exclusivos entre si
(acontecimento certo), isto , quando E realizada ou ocorre A e no ocorre
B, ou ocorre B e no ocorre A ou nenhum deles ocorre, ento

.
So as 3 propriedades fundamentais das frequncias de ocorrncia que vo conduzir
definio axiomtica de probabilidade.

Espao de Resultados
A descrio de uma experincia aleatria E s fica completa com a indicao muito
claro do que se vai observar / medir, e dos valores que, em princpio, podem resultar dessa
observao ou medio.
Espao de resultados conjunto dos resultados que se podem obter quando se realiza
a experincia aleatria.
S espao de resultados associado a uma experincia aleatria (S pode ser um
conjunto com um nmero finito ou no finito de elementos).
O espao de resultados (S) associado a uma experincia aleatria pode no ser nico.
Em situaes deste tipo (no unicidade de S) essencial saber fazer uma boa escolha para S.
A escolha de S depende muito do problema em questo mas existe uma regra que tem
em conta a regra do detalhe mximo.

Acontecimentos
Acontecimentos so os subconjuntos de S:
Acontecimentos elementares subconjuntos de S com um nico elemento.
Acontecimento certo seja E uma experincia aleatria, S o espao de resultados
associado e A um acontecimento qualquer, isto , um subconjunto de S, feita a experincia:
Se o resultado obtido um elemento de A, diz-se que o acontecimento A
ocorrer, ou que A se realizou;
Se o resultado obtido no um elemento de A, diz-se que o acontecimento A
no ocorreu, ou que A no se realizou.
Assim, como S ocorre sempre, S o acontecimento certo.

Espao de Resultados e Acontecimentos
Diagramas de Venn:


Os acontecimentos A e B podem ter
elementos comuns.


Os acontecimentos A e B
no tm elementos
comuns. A e B so
exclusivos entre si.


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
31






Operaes sobre Acontecimentos
Propriedades da unio e da interseco (leis de Morgan):
Associatividade:
o
o
Comutatividade:
o
o
Distribuitividade:
o
o
Leis de Morgan:
o


De uma maneira geral, o ou () deve ser interpretado no sentido inclusivo.
Assim, a unio de acontecimentos traduz o ou inclusivo e a interseco de
acontecimentos traduz o e.
O acontecimento complementar traduz o no. Dois acontecimentos so exclusivos
entre si se a sua interseco vazia, isto , a interseco um acontecimento impossvel.
Acontecimento impossvel - acontecimento sem elementos, .

Partio do Espao de Resultados

Os acontecimentos E
1
, E
2
, E
3
, , E
n
constituem uma partio do espao de resultados
S, se a interseco de dois quaisquer deles vazia e a unio de todos o espao de resultados.
Isto , tudo se passa como se o espao de resultados S fosse partido em n pedaos E
1
,
E
2
, E
3
, , E
n
.
A partio no mais do que a decomposio de uma situao complexa, noutras,
mais simples, que so mais facilmente analisadas separadamente.

Definio Axiomtica de Probabilidade
Definio axiomtica de probabilidade no se concentra na questo da atribuio de
um valor para a probabilidade. Esta definio concentra-se nas propriedades fundamentais das
probabilidades e nas suas consequncias.
A e B so exclusivos (no tm elementos comuns).
Se um deles ocorre o outro no pode ocorrer.

B um sub-acontecimento de A (todo o elemento de B um elemento
de A). A realizao de B implica a realizao de A.



Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
32

Axiomas a probabilidade um nmero que atribudo aos acontecimentos
associados a um espao de resultados, S. A atribuio desses nmeros tm de satisfazer:



Resultados teis:





Se E
1
, E
2
, E
3
, , E
n
so mutuamente exclusivos, isto , exclusivos 2 a 2


Se E
1
, E
2
, E
3
, , E
n
constituem uma partio de S



Definio Clssica de Probabilidade
um caso particular da definio axiomtica. Se o espao de resultados S constitudo
por um nmero finito (N) de acontecimentos elementares, todos eles com igual probabilidade:


#S nmero de elementos de S, isto , nmero de casos possveis que podem ocorrer
quando a experincia aleatria realizada.
#A nmero de elementos de A, isto , nmero de casos favorveis ocorrncia de A,
de entre os N casos possveis que podem ocorrer quando a experincia aleatria realizada.
Definio clssica de probabilidade probabilidade de um acontecimento A, P(A),
calculada pelo quociente entre o nmero de casos favorveis a A e o nmero total de casos
possveis, se os casos possveis forem igualmente possveis.

Aplicao da Definio
O clculo de P(A) pela aplicao da definio clssica um problema que envolve
problemas de contagem. A aplicabilidade da definio clssica exige que o nmero de casos
possveis seja finito e que todos os casos possveis sejam igualmente provveis.

Frequncias de Ocorrncia Condicionadas
Seja E uma experincia aleatria e

a frequncia de ocorrncia de A calculada


ao fim de n provas independentes da experincia E, considerando apenas neste clculo as
provas em que B ocorreu.

- frequncia de A condicionada por B / de A sabendo que B se realizou / de A


na hiptese de B se realizar / de A na hiptese de B se ter realizado / de A dado B.

- significa que j saiu B e traduz quanto existe de A.



Propriedades das Frequncias de Ocorrncia Condicionadas
Qualquer que seja a experincia E, qualquer que seja A e qualquer que seja B, verifica-
se sempre a relao:


Reparar que:


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
33

Frequncias de Ocorrncia Condicionadas e Regularidade Estatsticas
Regularidade estatstica quando o nmero de provas realizadas aumenta, a
frequncia de ocorrncia de A condicionada por B, parece aproximar-se de um nmero bem
definido, isto , quando n aumenta

.
Uma frequncia estatstica comea a estabilizar a partir de cerca de 2/3 das provas.
Consequncias:


Uma vez que

ento



Probabilidade Condicionada
Dado 2 acontecimentos A e B, a probabilidade de A condicionada por B / probabilidade
de A dado B definida

; se . S se utiliza se h e B forem
equiprovveis.
Seja E uma experincia aleatria e S o espao de resultados associado. As
probabilidades atribudas aos acontecimentos de S dizem-se probabilidades no condicionadas
/ probabilidades totais.
Escolha-se um acontecimento B, com , e atribua-se aos acontecimentos de S,
genericamente representados por A, um nmero calculado por:

, onde B
fixo e A varia.
Estes nmeros assim obtidos so as probabilidades condicionadas por B.
As probabilidades condicionadas por B obtidas, so probabilidades, uma vez que
satisfazem os axiomas:



Sendo assim, todos os resultados vlidos para probabilidades, tambm so vlidos
para probabilidades condicionadas:
Se ento


Se ento - tem de
ser sempre condicionada pela mesma amostra.
Na passagem de um resultado vlido para probabilidades totais para o correspondente
com probabilidades condicionais, o acontecimento que condiciona tem de ser sempre o
mesmo.
Atravs destes pressupostos, a probabilidade de A condicionada por B, P(A|B), a
probabilidade de A ocorrer, quando se imagina a ocorrncia da situao B, assim a
probabilidade de A se realizar na hiptese de B se realizar (probabilidade a priori).
Pode-se utilizar

para calcular .

Regra da Multiplicao

Regra da multiplicao:


Numa experincia complexa, em que h um encadeamento temporal no seu
desenrolar, a sequncia dos acontecimentos A
i
(I = 1,2,3) deve preservar esse encadeamento.
Ou seja, quando as amostras esto encadeadas no tempo, interessa ser calculado pela
ordem em que aconteceram.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
34

Teorema da Probabilidade Total

essencial saber fazer uma escolha adequada dessa partio.

Frmula de Bayes
Se E
1
, E
2
, , E
n
constituem uma partio de S e

, ento



Priori e Posteriori
Conhecimento priori antes da experincia : P(A|B) probabilidade de A na hiptese
B se realizar.
Conhecimento posteriori depois da experincia : P(A|B) probabilidade de A
sabendo-se que B se realizou.

Frmula de Bayes e Probabilidades Posteriori


Conhecimento priori :
Probabilidades priori


A experincia realizada e verifica-se que B ocorreu.
Conhecimento posteriori :
Probabilidades posteriori



Independncia
O acontecimento A diz-se independente de B, se o conhecimento de que B ocorreu (ou
a hiptese de B ocorrer) no alterar a probabilidade de a ocorrer, isto , o acontecimento A
diz-se independente do acontecimento B se (e s se)

Pode-se concluir tambm que se A independente de B, B independente de A: se
ento
Esta definio coloca os dois acontecimentos em posio desigual: um condiciona, o
outro condicionado.
Dois acontecimentos A e B dizem-se independentes se e s se

Esta definio engloba a anterior, pois se A e B so independentes e tm
probabilidades > 0 , ento e .
imediato verificar que se dois acontecimentos A e B so independentes, ento:
A e

so independentes;

so independentes;

e B so independentes.
Se E
1
, E
2
, , E
n
constituem uma
partio de S e

,
ento

, uma vez que


.
A partio do espao de resultados
no mais do que a decomposio de um
problema complexo (clculo de P(B)) noutros
problemas mais simples, que so tratados
separadamente.
Os acontecimentos E
i
tem de
constituir uma partio, mas no chega, pois

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
35

Ignorando situaes particulares de interesse reduzido (um dos acontecimentos
vazio, ou tem probabilidade nula), 2 acontecimentos independentes entre si no podem ser
exclusivos, nem 2 acontecimentos exclusivos entre si podem ser independentes.
Isto uma vez que se A e B so exclusivos, e algum afirma que B ocorreu, pode-se
concluir de imediato que A no pode ocorrer, logo P(A|B) = 0 (que diferente de
independncia ), portanto, A e B no so independentes entre si.
Os acontecimentos A, B e C dizem-se mutuamente independentes, se e s se:
A probabilidade de interseco de 2 desses acontecimentos, qualquer que seja
a escolha efectuada desses 2, sempre igual ao produto das probabilidades
dos acontecimentos que foram escolhidos (por exemplo:
);
A probabilidade da interseco dos 3 acontecimentos igual ao produto das
suas probabilidades.
A satisfao de uma das condies no garante a outra, assim:
.
Os n acontecimentos A
1
, A
2
, , A
n
dizem-se mutuamente independentes, se e s se, a
probabilidade da interseco de todos os n acontecimentos qualquer que seja a escolha
efectuada, sempre igual ao produto das probabilidades dos acontecimentos que foram
escolhidos.
Trs ou mais acontecimentos podem ser independentes 2 a 2, sem serem mutuamente
independentes.
Se 3 ou mais acontecimentos forem mutuamente independentes, ento so
independentes 2 a 2, 3 a 3,
Se A independente de B e B independente de C nada se pode concluir sobre a
independncia de A e C (podem ou no ser independentes).

Independncia Condicional
2 acontecimentos a e B dizem-se condicionalmente independentes em relao a C, se

2 acontecimentos A e B podem no se independentes, mas serem condicionalmente
independentes em relao a um terceiro acontecimento C.

Experincias Independentes
As experincias aleatrias E
1
, E
2
, , E
n
dizem-se mutuamente independentes, se
quaisquer que seja o acontecimento A (i=1 ; n) associado experincia E
i
(i=1 ; n),
respectivamente, os acontecimentos A
1
, A
2
, , A
n
so mutuamente independentes.

Sensibilidade e Especificidade de um Teste
A qualidade de um teste pode ser medida pela sensibilidade (sensitivity) e pela
especificidade (specificity).
Sensibilidade probabilidade de ocorrer resultado positivo, quando o teste vai ser
aplicado a um indivduo em que a situao D ocorre.

Especificidade probabilidade de ocorrer resultado negativo, quando o teste vai ser
aplicado a um indivduo em que a situao D no ocorre.


De notar que, qualquer que seja a situao, fcil garantir um teste muito sensvel ou
um teste muito especfico.
A dificuldade reside em garantir, simultaneamente, uma grande sensibilidade e uma
grande especificidade. E de uma maneira geral, um aumento da sensibilidade acompanhado
de uma diminuio de especificidade.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
36

Assim, numa situao hipottica de n indivduos. A sensibilidade e especificidade
sendo probabilidades condicionadas, podem ser estimadas por frequncias relativas
condicionadas.
Resultado do teste Presente (D) Ausente (

) Total
Positivo (T) a b a + b
Negativo (

) c d c + d
Total a + c b + d n

Falsos Positivos e os Falsos Negativos
Falso positivo teste que incorrectamente indica a presena de uma condio quando
o indivduo na realidade no possui a condio. A situao no ocorre e o teste d positivo.


Falso negativo teste que incorrectamente indica que o indivduo no possui a
condio quando o indivduo na realidade possui a condio. Situao ocorre e o teste d
negativo.


A probabilidade de ocorrncia de um falso positivo e a probabilidade de ocorrncia de
um falso negativo dependem no s da sensibilidade e da especificidade do teste, mas
tambm da prevalncia da situao D.



Estimao da Prevalncia
A prevalncia mede a incidncia da situao D na populao sobre a qual o teste vai
ser aplicado, .
A estimao da prevalncia de uma maneira geral s pode ser estimada a partir de um
quadro como o iniciado, se os n indivduos tiverem sido escolhidos aleatoriamente.

Valores Preditivos de um Teste
Valores preditivos medem o grau de certeza no que diz respeito situao de um
indivduo, perante o resultado do teste que lhe foi aplicado. So probabilidades posteriori.
Valor preditivo positivo probabilidade de um indivduo ser um verdadeiro positivo
dado que o teste possui um resultado positivo (indicando que a condio est presente).

Valor preditivo negativo probabilidade do indivduo ser um verdadeiro negativo dado
que o teste possui um resultado negativo (indicando que a condio no est presente).


Num caso geral, os dois valores preditivos, o positivo e o negativo, podem calcular-se
pela aplicao directa da frmula de Bayes:




Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
37


factor externo, a prevalncia da situao na populao sobre a qual o teste vai ser aplicado.
Intuitivo se a prevalncia de D muito baixa, isto , a ocorrncia de D um
acontecimento raro, o facto de um teste indicar positivo no ser, por si s, motivo de grande
alarme. O mais certo tratar-se de um falso positivo, isto , numa situao de baixa
prevalncia, o valor preditivo do teste ser pequeno.

Consequncias de Falsos Positivos / Negativos
Uma vez que nenhum teste 100 % fivel, isto , sens < 1 e esp < 1, a menos que a
prevalncia seja igual a zero, iro ocorrer sempre erros quando um indivduo classificado de
acordo com o resultado indicado pelo teste que lhe aplicado.
O nmero de indivduos mal classificados ir depender do nmero total de indivduos
(N) a quem o teste aplicado. Esse erro de classificao poder ser mais ou menos grave,
dependendo da situao concreta.

Teste de Diagnstico




O facto do primeiro teste dar positivo faz com que o valor preditivo positivo no seja
muito elevado, pelo que deve ser feito outro teste que dever ter um valor preditivo positivo
elevado, sendo muito especfico.

Testes de Despistagem (Screening)

As frmulas indicadas para os valores preditivos s
podem ser aplicadas se os indivduos, cujos
resultados esto sumariados no quadro, tiverem
sido escolhidos aleatoriamente.
Ou no o tendo sido, puderem ser considerados
representativos da populao sobre a qual o teste
ir ser aplicado, no que diz respeito incidncia da
situao D.
Os valores preditivos de um teste dependem da
qualidade, medida pela sensibilidade e pela
especificidade do teste, tambm dependem de um
Num contexto de diagnstico pode dizer-se que a situao
ter uma prevalncia relativamente elevada.
O valor preditivo negativo do teste 1 (o mais sensvel)
maior que o obtido com o teste 2.
Diagnstico: o teste 1 dando negativo d uma maior
garantia de que a situao D no ocorre de facto.
certo que o teste 1 d mais falsos positivos que o teste 2.

Num contexto de diagnstico, o primeiro teste a
ser aplicado deve ser muito sensvel, de forma a garantir o
valor preditivo negativo seja elevado.
Assim, se o resultado deste teste for negativo h
uma certeza elevada que a situao D no ocorre, e no
so feitos mais testes.

Quando aplicado num contexto de despistagem
pode dizer-se que a situao ter uma prevalncia muito
pequena.
Valor preditivo de ambos os testes muito baixo,
isto , em ambos os casos a maioria de positivos sero
falsos positivos.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
38

CAPTULO 5 Variveis Aleatrias Discretas
Variveis Estatsticas e Variveis Aleatrias
EXEMPLO: Amostragem de ninhos de aves de uma determinada espcie e contagem
do nmero de ovos num ninho (varivel estatstica discreta).
de admitir que a variabilidade estatstica, por efeito da amostragem, diminua quando
o nmero de ninhos inspeccionados aumenta. Ou seja, quando n aumenta, a frequncia de
ocorrncias dos valores da varivel aproxima-se de valores bem definidos (probabilidade).
A varivel X = Nmero de ovos num ninho apresenta regularidade estatstica. Assim
sendo, as frequncias de ocorrncia calculadas com n = 1000 ninhos (1000 observaes), so
boas estimativas dos valores da probabilidade dos acontecimentos (X=1), (X=2), (X=3) e (X=4).
Varivel aleatria varivel estatstica que manifesta regularidade estatstica. Isto , as
frequncias de ocorrncia de acontecimentos associados varivel estatstica aproximam-se
de valores bem definidos quando o nmero de observaes dessa varivel aumenta.
Variveis estatsticas podem ser quantitativas (discretas ou contnuas) ou categricas
(ordinais ou no ordinais). Quando essas variveis apresentam regularidade estatstica so
designadas por:
Variveis aleatrias quantitativas (discretas ou contnuas);
Variveis aleatrias categricas (ordinais ou no ordinais).

Varivel Aleatria
A varivel aleatria X = O nmero de ovos num ninho um caso particular de uma
varivel aleatria discreta.
Funo de probabilidade funo que indica, para cada valor possvel da varivel
discreta X, a probabilidade correspondente. Neste caso, P(X=0), P(X=1), P(X=2),
Dependendo das circunstncias, a funo de probabilidade de uma varivel discreta
pode ser deduzida analiticamente ou estimada experimentalmente, a partir das frequncias de
ocorrncia observadas.

Varivel Aleatria Discreta
Varivel discreta uma varivel aleatria X diz-se discreta se os valores que ela pode
tomar (com probabilidade maior que zero) so em nmero finito ou infinito numervel. Ou
seja, uma varivel que toma valores isolados.
Seja D o conjunto dos valores (ordenados) que a varivel X pode tomar com
probabilidade diferente de zero : .
A funo de probabilidade da varivel X , por definio:





Se a varivel estatstica discreta surge como resultado da observao de uma varivel
aleatria discreta, ento o diagrama de barras (expresso em frequncias relativas) de uma
amostra de valores da varivel aleatria, no mais que uma estimativa da funo de
probabilidade dessa varivel aleatria discreta.
Ou seja, o diagrama de barras uma fotografia imperfeita de uma realidade muitas
vezes inatingvel (a funo de probabilidade da varivel), sendo uma consequncia da
variabilidade estatstica, inerente amostragem.
A sua qualidade aumenta com a dimenso da amostra. Uma varivel aleatria discreta
pode apresentar valores negativos e valores no inteiros.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
39

Propriedades da Funo de Probabilidade
Seja X uma varivel aleatria discreta, que toma valores em D = {x1, x2, x3, } e f(x) a
funo de probabilidade de X, .
Propriedades de f(x):
;

sabendo que a varivel tem um certo espao amostral e que


pode tomar qualquer valor desse conjunto, certo que a soma das funes
das probabilidades dessa varivel igual a 1.

Funo de Distribuio de uma Varivel Aleatria Discreta
A funo de distribuio de uma varivel aleatria discreta X, por definio:
.
Esta pode ser calculada a partir da funo de probabilidade de X,

.
Facilita o clculo de probabilidades associadas a intervalos, uma vez que
.




Comportamento da Mdia e da Varincia de uma Amostra

Num dado conjunto de valores possveis para X : .
Sendo assim, a mdia dos n valores observados de X na amostra pode escrever-se na
forma,

.
n nmero de parcelas.

nmero de vezes que aparece o valor

.
A regularidade estatstica significa que, quando n aumenta, as frequncias de
ocorrncia aproximam-se das correspondentes probabilidades, isto ,

.
Assim, quando n aumenta

.
Logo,

.
Ou seja, quando n aumenta, f
n
aproxima-se de x
i
.
De forma semelhante, pode verificar-se que quando n aumenta,

.
Assim, invocando a regularidade estatstica conclui-se que a mdia e a varincia da
amostra, de uma varivel aleatria discreta, se devem aproximar de valores bem definidos,
quando a sua dimenso aumenta. Esses valores bem definidos, designados por valor mdio de
X e varincia de X, so representados por E(X) e Var(X) (respectivamente) e podem obter-se
directamente da funo de probabilidade de X.
Amostra conjunto de n valores
observados da varivel X :

.
Mdia da amostra :

.
Varincia da amostra :

.
Quando n aumenta, a mdia e a varincia da
amostra parecem aproximar-se de valores bem
definidos, ou seja, quando a dimenso da
amostra aumenta.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
40

O valor mdio e varincia de X no variam de amostra para amostra, uma vez que so
valores diferentes da mdia e varincia da amostra. Contudo, constitui uma aproximao a
esses mesmos valores.
A raiz quadrada da varincia de X, , o desvio padro da varivel X.
O valor mdio e a varincia de uma varivel aleatria discreta X so os valores para os
quais se aproximam a mdia e a varincia de uma amostra de valores de X, respectivamente,
quando a dimenso da amostra aumenta.
A mdia, a varincia e o desvio padro de uma amostra de valores de uma varivel
aleatria discreta X so estimativas do valor mdio, da varincia e do desvio padro dessa
varivel, respectivamente. A qualidade das estimativas aumenta com a dimenso da amostra.
Valor mdio de uma varivel aleatria discreta nmero que caracteriza a localizao
dos valores que essa varivel pode tomar.
Mdia da amostra de uma varivel aleatria nmero que caracteriza a localizao
dos valores obtidos por amostragem dessa varivel.
Desvio padro de uma varivel aleatria discreta nmero que caracteriza a disperso
dos valores que essa varivel pode tomar.
Desvio padro da amostra de uma varivel medida de disperso dos valores obtidos
por amostragem dessa varivel.

Valor Mdio
n grupos : k pessoas em cada grupo.


Amostra de dimenso n da varivel aleatria X.
X = nmero de testes necessrios para testar um grupo de k pessoas.


Concluso se o nmero de grupos elevado o nmero de testes por pessoa ser
prximo de E(X)/k.
Seja p a probabilidade do testes realizado sobre uma pessoa dar positivo.Suponha-se a
independncia entre os resultados dos testes realizados em diferentes pessoas.
Seja X a varivel aleatria, nmero de testes necessrios para testas k pessoas.
X pode apresentar apenas 2 valores, X = 1 ou X = k + 1, sendo:


O valor mdio de X , ento,

.
Seja A
i
o acontecimento, o indivduo nmero i de um grupo de k pessoas no estar
infectado.
P probabilidade de um indivduo qualquer estar infectado:


Aplicando a regra da multiplicao:


Como os acontecimentos A
i
so mutuamente independentes:

estar infectado

no estar infectado.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
41

Assim, o valor mdio de X pode obter-se facilmente a partir de E(X)/k:



Modelos Probabilsticos
Os modelos probabilsticos de variveis discretas no so mais do que casos
particulares de variveis discretas que se revelaram particularmente teis na descrio de
muitas situaes concretas. Em particular:
Bernoulli;
Binomial;
Poisson.

Distribuio de Bernoulli (com Parmetro p)

A varincia de X mxima (0,25) para p = 0,5, o que corresponde ao mximo da
incerteza sobre X.
Seja E, uma experincia aleatria qualquer e A um acontecimento associado a E, com
probabilidade P(A) = p. As ocorrncias de A designam-se por sucessos.
A varivel aleatria discreta x, nmero de ocorrncia de A numa nica
realizao / prova da experincia E, tem uma distribuio de Bernoulli com
parmetro p = P(A), isto , .

Distribuio Binomial
Funo de probabilidade de X:

.
Valor esperado e varincia:


A funo de probabilidade f(x):
simtrica se p=0,5 (ponto de simetria n/2);
Tem uma assimetria cada vez mais pronunciada quando p se afasta de 0,5;
enviesada direita para p<0,5 e esquerda para p>0,5.
A forma da distribuio binomial:


Funo de probabilidade X:

Valor esperado:

Varincia:


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
42

Seja E uma experincia aleatria qualquer e A um acontecimento associado a E, com
probabilidade .
A varivel aleatria X, nmero total de ocorrncias de A em n realizaes / provas
independentes da experincia E, tem uma distribuio binomial com parmetros p = P(A) e n
(o nmero de provas independentes a efectuar), .
A funo de probabilidade da varivel aleatria X, nmero total de ocorrncias de A
em n realizaes independentes da experincia E, pode obter-se facilmente comeando por
exprimir o acontecimento (X=x) como unio de acontecimentos exclusivos, correspondendo
cada um deles especificao das provas em que podem ocorrer os x sucessos.
Seja S
i
o acontecimento ocorrer A na prova i.


TABELA:


Distribuio Binomial em Tiragens com Reposio
Considere-se um conjunto de objectos, divididos em 2 grupos:
Objectos do tipo I, na proporo p100%;
Objectos do tipo II, na proporo (1-p)100%.
Supondo que so escolhidos aleatoriamente n destes objectos, em sucessivas tiragens
com reposio:
A varivel aleatria X, nmero de objectos do tipo I numa tiragem com
reposio de n objectos, tem uma distribuio binomial .

Distribuio Binomial Propriedades
Se ento Y = (n-X) tambm uma varivel aleatria discreta com
distribuio binomial .
Este resultado explica a razo de no existir (em geral) tabelas para a distribuio
binomial com p > 0,5.
Seja X
1
, X
2
, , X
n
so variveis aleatrias independentes, todas elas com distribuio
de Bernoulli, a sua soma:

uma varivel aleatria com distribuio


binomial
Se X
1
e X
2
so variveis aleatrias independentes com distribuio binomial

, a sua soma uma varivel aleatria com


distribuio binomial

com

.

Variveis Independentes
Duas variveis aleatrias X e Y dizem-se independentes se, quaisquer que sejam os
acontecimentos A e B que se considerem, e sendo o acontecimento A associado varivel X e
o acontecimento B associado varivel Y, A e B so acontecimentos independentes.









Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
43

Combinao Linear de uma Varivel Aleatria
Se X uma varivel aleatria discreta, Y = aX + b tambm uma varivel aleatria
discreta.
O valor mdio de Y = aX + b pode ser calculado por
;
A varincia de Y = aX + b pode ser calculada por:

.

Valor Mdio e Varincia de

Tipo Discreto
Se X
1
e X
2
so variveis aleatrias discretas,

tambm uma
varivel aleatria discreta.
O valor mdio pode ser calculado por:

.
Se X
1
e X
2
so variveis aleatrias independentes, a varincia de Y pode
calcular-se por:

.

Varivel Binomial e Varivel de Bernoulli
A varivel de Bernoulli tem funo de probabilidade

.
O valor mdio e a varincia da varivel de Bernoulli so muito fceis de calcular,
obtendo-se e

.
Uma varivel binomial pode ser encarada como soma de n variveis
independentes de Bernoulli X
i
, isto , X=X
1
+X
2
++X
n
.
Por aplicao de um resultado geral sobre a combinao linear de variveis conclui-se
que tem valor mdio e varincia e

, respectivamente.

Distribuio Binomial Negativa
Funo de probabilidade de X:

.
Valor esperado:

.
Varincia:

.
Funo de probabilidade:
Assimtrica, enviesada direita.
A assimtrica diminui quando r aumenta.
A forma da distribuio binomial negativa:

Seja E uma experincia aleatria qualquer e A um acontecimento associado a E, com
probabilidade P(A) = p (p > 0).
A varivel aleatria X, nmero de provas independentes de E a realizar at se obter r
ocorrncias de A (r sucessos) tem uma distribuio binomial negativa com parmetros
p = P(A) e r (o nmero de ocorrncias a obter), .
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
44

Elevado Nmero de Variveis Aleatrias
Uma varivel B (n ; p) pode ser encarada como soma de n variveis independentes
com distribuio B (1 ; p).
Uma varivel BN (r ; p) pode ser encarada como soma de r variveis independentes
com distribuio BN (1 ; p).
Em ambas as situaes est presente a soma de variveis aleatrias independentes. Se
o nmero de parcelas nessa soma elevado (n no caso da binomial e r no caso da binomial
negativa), a forma dessas distribuies tornam-se cada vez mais semelhantes entre si.
a manifestao do teorema do limite central.
B (n ; p) e BN (r ; p), para valores elevados de n e de r:


Distribuio de Poisson
Funo de probabilidade de X:


Valor esperado: .
Varincia:

.
A funo de probabilidade:
assimtrica e enviesada direita;
Quando aumenta o enviesamento diminui;
Para valores elevados de a distribuio aproximadamente simtrica.
A forma da distribuio de Poisson:


Distribuio Binomial para Valores Grande de n e Valores Pequenos de p
Quando n um valor elevado e p um valor pequeno (da ordem de grandeza n > 50 e
p < 0,1), a distribuio binomial B (n ; p) pode ser aproximada por uma distribuio de Poisson,
P(), com = np.
Este resultado justifica que a distribuio de Poisson seja referida como sendo a lei
dos acontecimentos raros.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
45

CAPTULO 6 Variveis Aleatrias Contnuas
Variveis Estatsticas e Variveis Aleatrias
Varivel aleatria contnua varivel estatstica contnua que manifesta regularidade
estatstica. Isto , as frequncias de ocorrncia de acontecimentos associados varivel
estatstica contnua aproximam-se de valores bem definidos quando o nmero de observaes
dessa varivel aumenta.
A varivel X = comprimento do coiote fmea em cm um caso particular de uma
varivel aleatria contnua. Assim sendo, as frequncias de ocorrncia calculadas a n = 1000
coiotes sero boas estimativas dos valores da probabilidade dos acontecimentos
, e .
Nas variveis aleatrias contnuas, as frequncias de ocorrncia de valores isolados,
f
n
(X = x), aproximam-se sempre de zero quando o nmero de observaes da varivel (n)
aumenta.
A regularidade estatstica deve manifestar-se no comportamento do histograma de
uma varivel aleatria contnua quando o nmero de observaes efectuadas dessa varivel /
dimenso da amostra aumenta.


Funo de Densidade Probabilidade e o Histograma
Funo de densidade probabilidade de uma varivel aleatria contnua funo para a
qual se aproxima o histograma (expresso em densidades) de uma amostra de valores dessa
varivel, quando a dimenso da amostra (n) aumenta e a amplitude das classes (h) diminui.
Assim, o histograma de uma amostra de uma varivel aleatria contnua uma
estimativa da funo de densidade de probabilidade dessa varivel, ou seja, uma
fotografia imperfeita da funo de densidade de probabilidade dessa varivel.
A sua qualidade aumenta com o aumento da dimenso da amostra, desde que quando
a dimenso da amostra aumente se diminua, simultaneamente, a amplitude das classes.

Funo de Densidade Probabilidade e a Curva de Densidades
O histograma tem o inconveniente de introduzir descontinuidades nos extremos das
classes, descontinuidades essas que no correspondem a caractersticas presentes na amostra.
Assim, a utilizao da curva de densidades da amostra tem a vantagem de dar origem
a uma representao grfica que descreve directamente os dados.
Isto , utilizar a curva de densidades possuir uma melhor qualidade da funo da
varivel que observada.

Funo de Densidade de Probabilidade Propriedades
Um histograma sempre no negativo e, como est expresso em densidades, tem
uma rea total igual a 1.
Funo de densidade de probabilidade funo para a qual se aproxima o histograma
(expresso em densidades) dessa varivel, quando a dimenso da amostra aumenta e a
amplitude das classes diminui.
A comparao de
histogramas de amostras com
dimenso diferente e com um
nmero de classes diferente, s
pode ser feita se o histograma
estiver expresso numa escala de
densidades.

Sendo assim, a funo de densidade ter de satisfazer
obrigatoriamente 2 condies:
;

.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
46

Regularidade Estatstica
Regularidade estatstica quando o nmero de repeties de uma experincia
aumenta, a frequncia de ocorrncia de um acontecimento associado experincia aproxima-
se de um valor bem definido (a probabilidade de ocorrncia desse acontecimento).
Assim, a frequncia de ocorrncia de um acontecimento, associado a uma varivel
aleatria X aproxima-se de um valor bem definido quando a dimenso da amostra dessa
varivel aleatria aumenta. Sendo esse valor a probabilidade de ocorrncia desse
acontecimento.

numericamente igual rea do histograma no intervalo [2,4].


Quando n aumenta

aproxima-se de e o histograma aproxima-se


da funo de densidade.


Funo de Densidade de Probabilidade Clculo de Probabilidades

E uma vez que , conclui-se que a funo de distribuio e a funo
de densidade de uma varivel contnua esto relacionados por

.
Assim, conclui-se que a probabilidade de uma varivel aleatria contnua tomar um
valor isolado (qualquer que ele seja) sempre zero, isto .
Logo, a probabilidade da varivel contnua tomar valores num intervalo a mesma
quer o intervalo seja aberto ou seja fechado. Isto , se
a < b,

.

Funo de Distribuio e Funo de Densidades

Principais concluses:
As propriedades da funo de densidade de probabilidade f(x) no negativa e
com integral total = 1;
A relao entre a funo de densidade f(x) e a funo de distribuio F(x);
A probabilidade da varivel tomar valores num intervalo dada pelo integral
(rea) da funo f(x) nesse intervalo;
A probabilidade da varivel tomar valores num intervalo dada pela diferena
dos valores da funo de distribuio nos extremos desse intervalo.
Funo de distribuio, F(x), de uma varivel aleatria X :
.
Se a varivel aleatria X contnua e tem funo de
densidade de probabilidade de f(x), ento:


Sendo assim, a probabilidade
igual ao integral da
funo f(x) no intervalo [2,4], isto ,

.
A probabilidade de uma varivel aleatria
contnua X tomar valores num intervalo ]a,b]
pode obter-se a partir da funo de
densidade de X,

.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
47

Varivel uniforme no intervalo ]a,b[:


Valor Mdio e Varincia
O valor mdio e a varincia de uma varivel aleatria contnua X so os valores para os
quais se aproximam a mdia e a varincia de uma amostra de valores de X, respectivamente,
quando a dimenso da amostra de X aumenta. Ou seja, so estimativas do valor mdio e da
varincia dessa varivel, respectivamente.
A qualidade das estimativas aumenta com a dimenso da amostra.
O valor mdio e a varincia de uma varivel aleatria contnua X tem interpretaes
idnticas s indicadas para uma varivel discreta: so os valores para os quais se aproximam a
mdia e a varincia de uma amostra X, quando a dimenso da amostra aumenta.
Quando a varivel contnua, o valor mdio e a varincia podem ser calculados por:


Valor mdio de uma varivel aleatria nmero que caracteriza a localizao dos
valores que essa varivel pode tomar.
Mdia da amostra de uma varivel aleatria nmero que caracteriza a localizao
dos valores obtidos por amostragem dessa varivel.
Desvio padro de uma varivel aleatria nmero que caracteriza a disperso dos
valores que essa varivel pode tomar.
Desvio padro da amostra de uma varivel medida de disperso dos valores obtidos
por amostragem dessa varivel.

Combinao Linear de uma Varivel Aleatria Contnua
Se X uma varivel contnua, Y = aX + b tambm uma varivel aleatria contnua.
O valor mdio pode ser calculado por ;
A varincia pode ser calculada por

.
Se X
1
, X
2
, , X
n
so variveis aleatrias, ento

tambm uma
varivel aleatria:
O valor mdio de Y pode ser calculado por

;
Se X
1
, X
2
, , X
n
so variveis independentes, a varincia de Y pode ser
calculada por

.

Valor Mdio e Varincia de

Tipo Contnuo
Se X
1
e X
2
so variveis aleatrias contnuas,

tambm uma
varivel contnua.
O valor mdio pode ser calculado por:

;
Se X
1
e X
2
so variveis aleatrias independentes, a varincia de Y pode ser
calculado por:

.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
48

Variveis Aleatrias Contnuas Resumo
X varivel aleatria contnua.
Funo de probabilidade de X :


Funo de densidade de X :


Distribuio Normal , N ( ;
2
)
A varivel aleatria X, com distribuio normal, uma varivel contnua com funo de
densidade de probabilidade

.
Valor mdio: ;
Varincia:

;
A funo de densidade de probabilidade simtrica ( sua mdia), com ponto
de simetria x = .
A localizao da funo de densidade caracterizada por e a disperso por . Quanto
maior for maior a disperso:

Relaes aproximadas I distribuies de dados unimodais e razoavelmente simtricas
relativamente a um valor central e sem valores discordantes:
Cerca de 70% dos valores da amostra esto no intervalo ;
Cerca de 95% das observaes no intervalo ;
.
Relaes aproximadas II distribuies de dados unimodais e razoavelmente
simtricas relativamente a um valor central e sem valores discordantes,

.

Distribuio Normal Estandardizada, N(0 ; 1)
A distribuio normal com e

, N (0 ; 1), diz-se distribuio normal


estandardizada / distribuio normal reduzida, sendo a varivel tradicionalmente referida por
Z e a sua funo de densidade de probabilidade por (z).


A distribuio normal N (0 ; 1) a nica distribuio normal tabelada, uma vez que o
clculo de probabilidades associadas a uma varivel normal N ( ;
2
) pode sempre reduzir-se
ao clculo de probabilidades de uma varivel N (0 ; 1), uma vez que, se

, ento

.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
49

Distribuio Normal Propriedades


Distribuio Normal , N ( ,
2
)
As situaes de aplicabilidade da distribuio normal so muito frequentes. Para alm
disso, a distribuio normal constitui ainda uma boa aproximao de outras distribuies, quer
discretas quer contnuas. A explicao destes factos pode ser encontradas no teorema do
limite central.

Quantil de uma Varivel Aleatria Contnua


Quantil de uma Varivel N (,
2
)
H uma relao entre os quantis de uma varivel N ( ,
2
) e os quantis de uma varivel
N (0 , 1).
Se

e ento os quantis p de X e de Z,


satisfazem a relao linear

.

Diagramas Quantil-Quantil
O quantil

de uma varivel X pode ser estimado a partir de um conjunto de


valores observados (amostra) de X, calculando o quantil p da amostra.
Se a amostra de dimenso elevada, o quantil p da amostra da varivel X (

),
ser um valor prximo de

.
Sendo assim, se X tiver distribuio normal,

em que
.
Diagrama quantil-quantil representao grfica dos pontos (

) para
diversos valores de p.
Quantil terico (

) calculado a partir da distribuio N (0 ; 1).


Quantil da amostra (

) calculado a partir de uma amostra de X.


Nos diagramas quantil-quantil, o quantil terico habitualmente representado no eixo
dos xx e o quantil da amostra no eixo dos yy.
Concluso:
Se

os pontos (

) distribuem-se na vizinhana de
uma linha recta;
Se ocorrerem desvios significativos da distribuio de X relativamente a uma
distribuio normal, esta relao linear (aproximada) no se verifica.
Se X uma varivel com
distribuio normal, Y = aX + b tambm
tem distribuio normal. Sendo assim,
conclui-se que:
Se

ento

em que

.
Se

ento

.
O quantil p de uma varivel contnua X com funo
de distribuio F(x), que uma funo contnua e
estritamente crescente, o valor Q(p) que satisfaz
a condio .
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
50


Os diagramas quantil-quantil so muito teis na anlise exploratria dos dados e na
validao de modelos matemticos utilizados na descrio e na anlise dos dados. So
tambm frequentemente utilizados na comparao da distribuio de uma amostra de uma
varivel com a distribuio de uma amostra de outra varivel.
O efeito da variabilidade estatstica, devido amostragem, manifesta-se sobretudo nas
extremidades:



Teorema do Limite Central
Sejam X
1
, X
2
, , X
n
variveis aleatrias independentes com valor mdio e varincia

2
. A varivel

uma combinao linear das variveis independentes X


i
.
Usando o resultado geral sobre a combinao linear de variveis aleatrias
independentes, conclui-se que Z
n
tem valor mdio E (Z
n
) = 0 e varincia Var (Z
n
) = 1.
Teorema do limite central se X
1
, X
2
, , X
n
so variveis aleatrias independentes
com valor mdio e varincia
2
, quando a funo de distribuio da varivel

tende para a funo de distribuio de uma varivel N (0 ; 1). Isto , para um n


elevado,

.
Este teorema pode ser apresentado de outras formas : se X
1
, X
2
, , X
n
so variveis
aleatrias independentes com valor mdio e varincia
2
, para um n elevado,

.
Nas 3 situaes indicadas, quando a funo de distribuio da varivel tende
para a funo de distribuio de uma varivel normal. Para valores de n elevados p resultado
aproximado. A varivel

designada por mdia das variveis X


1
, X
2
, , X
n
.
O diagrama quantil-quantil (normal)
permite uma avaliao visual do grau de
proximidade da distribuio de uma varivel X a
uma distribuio normal, a partir de uma
amostra de valores observados da varivel X.
Para alm do diagrama quantil-quantil
(normal) podem obter-se diagramas quantil-
quantil para outras distribuies tericas.

As cinturas de confiana, a 95%, so obtidas
tendo em considerao a dimenso da
amostra. Se a varivel tem distribuio
normal, a maioria dos pontos devem estar
situados dentro das cinturas de confiana.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
51

Mdia de 10 variveis uniformes ]0,1[ - uma varivel uniforme no intervalo ]0,1[ uma
varivel aleatria contnua com funo de densidade:


Mdia de variveis exponenciais =1 uma varivel exponencial uma varivel
aleatria contnua com funo de densidade:


.
Apesar da distribuio exponencial ser muito enviesada, a mdia de 100 variveis
exponenciais com =1 j tem uma distribuio que bem aproximada por uma distribuio
normal.
As condies de aplicabilidade do teorema do limite central para valores finitos de n
dependem muito da distribuio das variveis aleatrias X
1
, X
2
, , X
n
.
Se a distribuio das variveis simtrica, ou pouco assimtrica, obtm-se resultados
satisfatrios para n no muito elevado. Mas se a distribuio muito assimtrica, o valor de n
ter de ser muito maior.
No clculo de probabilidades do tipo

, quando x difere muito do


valor mdio , ou no clculo de um quantil p de

quando p muito prximo de zero ou de


um, a aproximao pela distribuio normal pode no ser boa.

Teorema de Moivre-Laplace
Uma vez que a soma de n variveis independentes de Bernoulli, com valor p e
varincia p (1 p) uma varivel binomial, , por aplicao do teorema do limite
central, conclui-se que a funo de distribuio da varivel

em que , tende
para a funo de distribuio de uma varivel N (0 ; 1) , quando .
Para o teorema de Moivre-Laplace justifica o uso das aproximaes

quando .

Aproximao Binomial-Normal e Correco de Continuidade
aplicabilidade da aproximao binomial-normal (2 ou 5 dependendo do
grau de exigncia) :
e ;
e .
Correco de continuidade:

.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
52

CAPTULO 7 Amostragem e Distribuies por Amostragem
Breve Reviso
Populao:
Conjunto de elementos cujos atributos so objectos de estudo.
Conjunto das observaes ou medidas que se podem obter de uma ou mais
variveis.
Amostra uma parte (subconjunto) da Populao sobre a qual so feitas as
observaes.
Estatstica descritiva estudo da amostra.
Estatstica indutiva pretende caracterizar as propriedades / caractersticas da
Populao atravs de uma amostra.
Tcnicas de amostragem para excluir aspectos subjectivos na escolha da amostra e
de forma a criar condies objectivas que tornem possvel a caracterizao da populao a
partir do estudo de uma.
Varivel aleatria varivel estatstica que manifesta regularidade estatstica.

Amostragem e Distribuies por Amostragem
Conceitos fundamentais:
Populao (em estatstica indutiva);
Distribuio da populao;
Amostragem aleatria / casual;
Amostra aleatria;
Estatsticas;
Distribuies por amostragem / distribuies amostrais.

Amostragem Aleatria
A populao, em estatstica descritiva, pode ser definida, no sentido:
Fsico conjunto das unidades experimentais que so objecto do estudo.
Abstracto conjunto das observaes / medidas que se podem obter de uma
ou mais variveis.
Na grande maioria das situaes a populao tem um grande nmero de elementos,
no sendo possvel observar / medir todos eles. A amostra uma parte (um subconjunto) da
populao.
Quando a populao constituda por N elementos distintos (finita), a amostragem
aleatria com reposio (simples) garante que, no decurso do processo de escolha aleatria
dos n elementos da amostra, as caractersticas da populao, de onde se retiram esses n
elementos, se mantm inaltervel.
Distribuio uniforme discretavarivel discreta que pode tomar valores X
1
, X
2
, , X
n
,
todos eles com a mesma probabilidade de ocorrncia:
Funo de probabilidade de X :


Valor esperado:




Varincia:



Amostragem Aleatria Modelo
Populao X a varivel aleatria que representa a caracterstica observada/medida.

Amostra aleatria n observaes independentes de X.
(X
1
, X
2
, , X
n
) n variveis mutuamente independentes, todas elas coma mesma
distribuio de X.
Amostra (x
1
, x
2
, , x
n
).
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
53

A partir de uma amostra aleatria (conjunto de n observaes independentes da
varivel X que caracteriza a populao) de uma varivel X que descreve a populao, pretende-
se obter informao sobre os parmetros da distribuio de X.
Quando a populao finita, a condio de independncia assegurada por uma
amostragem aleatria com reposio. A independncia aproximadamente assegurada por
uma amostragem aleatria sem reposio, quando n << N, isto , quando a dimenso da
amostra muito menor que a dimenso da populao.
Quando a populao no finita, ou quando no possvel efectuar uma amostragem
com / sem reposio, a independncia ter de ser assegurada por um planeamento muito
cuidadoso do mtodo de escolha da amostra.
A impossibilidade de efectuar uma amostragem aleatria de uma populao muito
frequente, nomeadamente nas situaes em que a populao no catalogvel.

Amostragem Aleatria Resumo
Fora do mbito restrito da estatstica descritiva, a populao , por definio, a
varivel aleatria X que objecto de estudo.
A distribuio de X referida como sendo a distribuio da populao.
Populao normal varivel X, objecto do estudo, que tem uma distribuio
normal.
Sendo feitas n observaes independentes da varivel X necessrio considerar n
variveis aleatrias independentes, X
1
, X
2
, , X
n
, associadas a cada uma dessas n
observaes.
Amostragem casual / aleatria - quando as n variveis X
1
, X
2
, , X
n
, so mutuamente
independentes e todas com a mesma distribuio de X.
Uma amostragem casual obtm-se quando a populao finita e a seleco das
unidades experimentais feita por amostragem aleatria com reposio.
Nas situaes em que no faz sentido falar em amostragem com reposio, a garantia
de que a mesma conduz a que as n observaes de X sejam independentes, advm da forma
como se planeiam e se fazem as observaes.
Amostra aleatria conjunto das n variveis aleatrias (X
1
, X
2
, , X
n
), todas elas
igualmente distribudas e mutuamente independentes.
Amostra (estatstica descritiva) conjunto dos valores (x
1
, x
2
, , x
n
) que se obtm
quando as n medies / observaes de X so efectivamente realizadas.
Assim, a amostra uma realizao da amostra aleatria.

Estatstica
A amostra aleatria (X
1
, X
2
, , X
n
), juntamente com algum conhecimento priori
sobre a populao, constitui a nica informao de que se ir dispor para obter informao
sobre a distribuio da populao.
Para tal, com a amostra aleatria e o conhecimento priori se ele existir, podem
construir-se outras variveis, porventura teis na caracterizao da distribuio de X.
Estatstica funo da amostra aleatria, T(X
1
, X
2
, , X
n
), que no pode envolver
qualquer parmetro no conhecido.

Distribuio por Amostragem de uma Estatstica
Uma estatstica T (X
1
, X
2
, , X
n
), uma varivel aleatria, e, como tal, tem uma
distribuio de probabilidade, que depende da distribuio da populao X e da funo T.
Distribuio por amostragem de T (X
1
, X
2
, , X
n
) / Distribuio amostral de T
(X
1
, X
2
, , X
n
) quando se refere a distribuio de uma estatstica T (X
1
, X
2
, , X
n
).
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
54

Mdia da Amostra Aleatria
Distribuio da mdia da amostra (aleatria).
Distribuio da proporo na amostra (aleatria) caso particular da mdia da
amostra.
Populao X, com e

.
Amostra aleatria (X
1
, X
2
, , X
n
) :


Amostragem de uma populao normal este resultado decorre da aditividade da
distribuio normal:


o Se

ento


Populao no normal e amostras de dimenso elevada este resultado decorre da
aplicao do teorema do limite central:


Amostragem de uma populao de Bernoulli a mdia da amostra de uma populao
de Bernoulli designada por proporo na amostra:
Populao


Amostra aleatria (X
1
, X
2
, , X
n
).


Proporo de sucessos na amostra :


Amostragem de uma populao de Bernoulli (amostra de dimenso elevada) este
resultado decorre do teorema do limite central:
Como

ento


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
55

CAPTULO 8 Estimao de Parmetros
Estimao de Parmetros
Em muitas situaes, num estudo de natureza estatstica pretende-se caracterizar as
propriedades de uma populao (populao alvo).
A varivel aleatria populao, designada por X, a varivel aleatria que descreve o
resultado da observao que vai ser feita de um dos elementos, a escolher aleatoriamente,
dessa populao alvo.
O resultado da observao no um valor bem definido, pois o resultado uma
varivel aleatria.
O problema da estimao da mdia e da varincia dos valores numricos que
constituem uma populao-alvo, pode ser encarado como um problema de estimao de valor
mdio e da varincia de uma varivel aleatria X (populao) que caracteriza o resultado de
uma observao a efectuar sobre um elemento, escolhido aleatoriamente, da populao alvo.

Estimao de Parmetros
A estimao dos parmetros que caracterizam uma populao-alvo, pode ser encarado
como um problema de estimao dos parmetros de uma varivel aleatria X (populao) que
caracteriza o resultado de uma observao a efectuar sobre um elemento escolhido
aleatoriamente dessa populao.
A partir de uma amostra aleatria de X (n observaes independentes de X) pretende-
se obter informao sobre os parmetros da distribuio de X. obtendo-se, desta forma, a
informao desejada sobre a populao alvo.
A amostra aleatria (X
1
, X
2
, , X
n
), em que X
i
(i = 1,,n) so variveis aleatrias
mutuamente independentes e todas com a mesma distribuio de X, constitui a nica
informao de que se dispe para obter informao sobre os parmetros da distribuio da
varivel X.
Assim sendo, conclui-se que a forma de resolver este problema, s poder ser atravs
da utilizao de uma funo convenientemente escolhida, da amostra aleatria. Isto , a
estimao dos parmetros de X feita recorrendo a uma estatstica T (X
1
, X
2
, , X
n
), escolhida
de forma conveniente, tendo em vista o fim a que se destina.

Estimador
Estimador estatstica, T (X
1
, X
2
, , X
n
), utilizada (e concebida) com o objectivo de
estimar um parmetro da distribuio da populao X.
A estimativa desse parmetro o valor que o estimador apresenta face aos valores
obtidos por amostragem, (x
1
, x
2
, , x
n
), isto , estimativa do parmetro
=

.

Preciso (Precision) e Exactido (Accuracy)
Preciso relaciona-se com a repetio das leituras do aparelho e traduz a
aproximao entre os diversos resultados de medies sucessivas efectuadas nas mesmas
condies de operao (incerteza do resultado em percentagem).
Exactido aproximao entre o resultado da medio e o valor verdadeiro ou valor
esperado, da grandeza medida (erro do resultado em percentagem).
Maior preciso e Menor Exactido: Menor preciso e Maior Exactido:

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
56

Propriedades dos Estimadores Centricidade (Exactido)
Um estimador T (X
1
, X
2
, , X
n
) de um parmetro diz-se cntrico (centrado, no
enviesado) se, qualquer que seja o valor de

.
Um estimador T (X
1
, X
2
, , X
n
) de um parmetro diz-se assimptoticamente
cntrico se, qualquer que seja o valor de

.
O erro de enviesamento / erro de centricidade define-se por .

Propriedades dos Estimadores Eficincia, Varincia (Preciso) e Erro Mdio Quadrtico
Se T
1
(X
1
, X
2
, , X
n
) e T
2
(X
1
, X
2
, , X
n
) so dois estimadores cntricos de parmetro
diz-se que T
1
mais eficiente do que T
2
se, qualquer que seja o valor de

.
Mais eficiente implica uma menor varincia.
A qualidade global de um estimador R de um parmetro , levando em considerao
quer a centricidade, quer a varincia, pode ser descrita pelo erro quadrtico mdio do
estimador T,

.

Propriedades dos Estimadores Consistncia
Um estimador T (X
1
, X
2
, , X
n
) diz-se consistente (em mdia quadrtica) se o seu erro
quadrtico mdio se aproximar de zero quando a dimenso da amostra (n) aumenta.
De uma maneira geral, e sempre que possvel, procura-se utilizar estimadores
consistentes para estimar os parmetros de uma populao.
Um estimador cntrico consistente (em mdia quadrtica) se a sua varincia
se aproximar de zero quando a dimenso da amostra (n) aumenta.
Quando a dimenso da amostra aumenta:


Propriedades da Mdia da Amostra Enquanto Estimador do Valor Mdio da Populao
Populao X, com e

.
Amostra aleatria (X
1
, X
2
, , X
n
) :


A mdia da amostra um estimador cntrico e consistente do valor mdio da
populao (j que

).
Casos particulares importantes estimao de (numa populao normal) e
estimao de p (numa populao de Bernoulli).

Propriedades da Varincia da Amostra Enquanto Estimador da Varincia da Populao
Populao X, com e

.
Amostra aleatria (X
1
, X
2
, , X
n
) :


possvel mostrar que

.
A varincia da amostra um estimador cntrico da varincia da populao.
este resultado que justifica a diviso por (n 1) e no por n, na definio da varincia
da amostra.
Quando se repete a estimao usando
amostras aleatrias diferentes obtm-se
diferentes estimativas.
Quando a dimenso da amostra aumenta o
aglomerado dos pontos assim obtidos contrai-
se e posiciona-se cada vez mais perto do valor
do parmetro a estimar.

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
57

Populao

.
Amostra aleatria (X
1
, X
2
, , X
n
) :


A varincia da amostra um estimador cntrico e consistente da varincia de uma
populao com distribuio normal.

Standard Deviation (SD) e Standard Error (SE)
Standard deviation (desvio padro) desvio padro da varivel aleatria X que
caracteriza a populao.
Standard error (erro padro) descreve a variabilidade de X, isto , a variabilidade da
populao.
Uma vez que a varincia de X estimada pela varincia de uma amostra de X, o desvio
padro pode ser estimado pelo desvio padro da amostra.
O erro padro de um estimador a raiz quadrada do erro mdio quadrtico desse
mesmo estimador. Este descreve a qualidade do estimador, que pode ser transposta para a
qualidade da estimativa.
Se o estimador cntrico, o erro padro reduz-se ao desvio padro do estimador.
Neste caso, o erro padro descreve a variabilidade do estimador por efeito da amostragem.
O erro padro diminui quando a dimenso da amostra aumenta, uma vez que a
qualidade do estimador aumenta e o seu erro mdio quadrtico diminui quando a dimenso
da amostra aumenta, enquanto o desvio padro nada tem a ver com a dimenso da amostra.

Apresentao de Resultados
Dgitos variveis como regra geral, os dados devem ser obtidos e apresentados com 2
dgitos variveis.
Algarismos significativos como regra geral, a estimativa do erro padro deve ser
apresentada com 2 algarismos / dgitos significativos.
A mdia e o desvio padro da amostra e, consequentemente, as estimativas do valor
mdio e do desvio padro da populao devem ser apresentados com o mesmo nmero de
casas decimais do erro padro.

Desvio e Erro Padro em Representaes Grficas


Estimao por Intervalo de Confiana
Na estimao pontual de um parmetro , o resultado apresentado na forma de um
valor bem definido (a estimativa desse parmetro).
Na estimao por intervalo de confiana de um parmetro , o resultado
apresentado na forma de um intervalo,

. O grau de confiana de que o valor do


parmetro est contido no intervalo

aumenta com a amplitude

do
intervalo.
Informao diminui quando a amplitude aumenta.
A confiana (ou certeza) aumenta quando a amplitude aumenta.
muito frequente a
incluso de informao sobre o
valor do desvio e do erro padro
em representaes grficas
(error bar).

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
58

Intervalo de confiana para (populao normal com conhecido) considerando o
caso de uma populao

com conhecido.

Nvel de confiana do intervalo (1 ) probabilidade do intervalo aleatrio


conter o valor de parmetro .
O nvel de confiana quantifica a qualidade da regra utilizada para obter o intervalo, ou
seja, nada refere de concreto sobre um intervalo numrico obtido aps amostragem. Esse
intervalo pode conter, ou no, o valor do parmetro.

Nvel de Confiana
Em (1 ) . 100% das amostragens (em mdia) obtm-se um intervalo que contm o
valor (desconhecido) de .

Se a mdia da amostra for utilizada para estimar , a varivel aleatria Erro absoluto
de estimao definido por

. Ento, com de certeza, o erro


de estimao no excede

.

Amplitude do Intervalo de Confiana e o Planeamento da Amostragem
A amplitude do intervalo de confiana

.
Concluses de mbito bastante geral a amplitude:
Diminui quando n aumenta;
Aumenta quando a variabilidade da populao aumenta;
Aumenta quando o nvel de confiana aumenta:
o



Estimao de Parmetros por Intervalos de Confiana
Seja X uma varivel aleatria, contnua ou discreta, cuja distribuio tem um
parmetro no conhecido .
Um intervalo de confiana para o parmetro , com nvel de confiana de (1 )%,
um intervalo aleatrio, definido por duas estatsticas, T
1
(X
1
, X
2
, , X
n
) e T
2
(X
1
, X
2
, , X
n
),
sendo T
1
< T
2
, tal que

.
designado por nvel / grau de confiana do intervalo.


Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
59

Em cerca de das situaes obtm-se um intervalo que contm o
parmetro desconhecido no seu interior.
Estimao por intervalo de confiana do valor mdio de uma populao normal,
supondo conhecida a varincia da populao:
Estimao por intervalo de confiana do valor mdio de uma populao
normal;
Estimao por intervalo de confiana do valor mdio de uma populao
quando a amostra tem uma dimenso elevada;
Estimao por intervalo de confiana do parmetro p de uma populao de
Bernoulli (estimao de uma proporo).

Distribuio do Qui-Quadrado
A distribuio do

uma distribuio contnua que s pode tomar valores no


negativos. Esta distribuio tem um parmetro v > 0, designado pelo nmero de graus de
liberdade. O valor mdio e a varincia podem obter-se a partir de .
A funo densidade de probabilidade da distribuio qui-quadrado enviesada
direita, tornando-se cada vez mais simtrica quando v aumenta.
Distribuio do qui-quadrado para valores de v crescentes:


Distribuio do Qui-Quadrado Propriedades
Aditividade se

e as variveis aleatrias X e Y so
independentes, ento

.
Para valores elevados de V se

.
A aproximao da distribuio qui-quadrado

, pela distribuio normal


N (v , 2v) boa para .

Distribuio do Qui-Quadrado e Distribuio N (0 ; 1)
Se ento

.
Sendo a distribuio do qui-quadrado aditiva, imediato concluir que a soma dos
quadrados de k variveis aleatrias independentes com distribuio N (0 ; 1) tem uma
distribuio do qui-quadrado com k graus de liberdade.
Este resultado explica a boa aproximao do qui-quadrado pela normal se o nmero
de graus de liberdade for elevado (teorema do limite central).

Distribuio t-student
Seja e W uma varivel independente de Z com distribuio do qui-
quadrado com n graus de liberdade, a varivel

tem distribuio t-student com n graus


de liberdade,

.
A distribuio t-student simtrica em relao origem. Tem valor mdio de zero e
varincia

. Para valores de n elevados, a distribuio de student t


n
pode ser aproximada
por uma N (0 ; 1).
Distribuio t-student para valores crescentes de n:

Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
60

Resultados Fundamentais para uma Populao X Normal
Se

ento

so variveis aleatrias
independentes.
Se

ento

.
Se

ento

.

Intervalo de Confiana para Populao Normal com No Conhecido
Populao

com no conhecido.



Intervalo de Confiana para Planeamento da Experincia (Determinao de n)
Caso de s conhecido:


A amplitude do intervalo constante. Uma vez escolhido o nvel de confiana
e a amplitude pretendida para o intervalo, pode calcular-se a dimenso da
amostra a utilizar.
Caso de s no conhecido:


A amplitude do intervalo aleatria. Isto , no se pode assegurar que se
obtm um intervalo com a amplitude pretendida. O requisito sobre a
amplitude do intervalo pode garantir-se apenas de uma forma aproximada.
Mas, para isso necessrio efectuar um trabalho preliminar para se obter uma
estimativa do desvio padro da populao.

Intervalo de Confiana para Populao No Normal com No Conhecido
Na grande maioria das situaes, a populao no tem distribuio normal. Nestas
situaes, se a dimenso da amostra relativamente elevada, pode aplicar-se o mtodo
descrito de determinao de intervalos de confiana para o valor mdio de uma populao
normal com no conhecido.
A dimenso mnima da amostra, que garante que a aproximao satisfatria,
depende muito do tipo (discreto ou contnuo) e da assimetria da distribuio da populao.
Se a distribuio da populao contnua e pouco enviesada, uma dimenso mnima
da amostra de 30 elementos muitas vezes suficiente.
Com a aproximao da distribuio da mdia da amostra pela distribuio normal
piora nas abas da distribuio no recomendvel utilizar um nvel de confiana muito
elevado.
Na estimao de , pontual ou por intervalo de confiana, essencial garantir que as
observaes que constituem a amostra so observaes independentes de uma populao
alvo. Se tal no acontecer, observaes no independentes, ou indefinio no que diz respeito
populao alvo, a estimao de , pontual ou por intervalo de confiana, pode perder todo o
sentido.
Bioestatstica (2010-2011) Ana Cristina Ribeiro Gomes
61

Intervalo de Confiana do Parmetro p de uma Populao de Bernoulli (ou Proporo)
Para amostras de dimenso elevada:

Cobertura e Grau de Confiana (Nominal) do Intervalo de Wald

a populao, isto , nada se conhea sobre o valor de p. Para isso o valor de n deve satisfazer a
condio,

. Nota:

.
Mtodo de Wald (aspectos negativos) a dimenso da amostra tem de ser elevada, e
mesmo assim, o mtodo no pode ser utilizado quando p prximo de zero ou de um. O grau
de confiana efectivo pode ser muito menor que o grau de confiana nominal (1-).
Concluso o uso do mtodo de Wald no recomendado, apesar de continuar a ser
o mais frequentemente referido em livros de texto de carcter introdutrio.

Mtodo de Agresti and Coull
Mtodo de Agresti and Coull qualidade e simplicidade. Para um nvel de confiana de
95% : juntar amostra obtida 4 pseudo-observaes, dois sucessos e dois insucessos; com a
amostra obtida, aplicar o mtodo de Wald.

Cobertura e Grau de Confiana (Nominal)

Sondagens
Sondagens aplicao frequente da estimao de uma proporo por um intervalo de
confiana. utilizado o mtodo de Wald, o que se justifica uma vez que a dimenso da
amostra muito elevada (largas centenas de respostas).
Na ficha tcnica de uma sondagem usa-se a designao erro da amostra para referir
metade da amplitude do intervalo de confiana, isto ,

.
Uma vez que

.
O que explica que na ficha tcnica de uma sondagem se utilize a designao de erro
mximo da amostra para

.
No se trata contudo de um erro no sentido habitual (muito menos de um erro
mximo). O erro mximo da amostra o valor mximo para o erro padro.
Grau de confiana (nominal) valor pretendido
Cobertura valor obtido
Mtodo de Wald (aspectos positivos) trata-se
de um mtodo muito simples que possibilita um clculo
da dimenso da amostra, de forma a garantir que a
amplitude do intervalo de confiana no excede um valor
previamente fixado, mesmo que nada se conhea sobre

Das könnte Ihnen auch gefallen