You are on page 1of 48

Curso de Anlise Estatstica

UNIFESP 2007

Prof. Dr. Clvis de Arajo Peres


clovis36@terra.com.br

FILOSOFIA DO CURSO
um curso de estatstica que no exige conhecimento prvio e os
conceitos so introduzidos atravs de exemplificao prtica, dando
nfase na intuio e no na argumentao matemtica.
O curso dividido em duas partes:
Na primeira parte sero discutidos conceitos fundamentais de
estatstica descritiva e inferencial, que permitem ao aluno entender
a essncia do pensamento estatstico.
Na segunda parte iremos realizar a anlise estatstica completa de
projetos de pesquisa desde o planejamento at a concluso. Os
projetos so escolhidos de forma a contemplar o ensino de
diferentes tcnicas de anlise estatstica.
importante que o aluno participe de todas as etapas de discusses
com perguntas relacionadas com a sua rea de atuao.
O material didtico distribudo apenas um guia do roteiro do curso.

Programa do Curso
Parte 1: Definies e conceitos bsicos.
- Definio de Estatstica;
II - Interao entre a Estatstica e o Mtodo Cientfico;
III - Tipos de variveis geradoras de dados;
IV - Planejamento de pesquisa Observacional e Experimental :
diferentes formas de obteno de dados;
V - Descrio de um conjunto de dados obtidos por Levantamentos
Populacionais, Amostrais ou Experimentos Controlados atravs de:
medidas-resumo, tabelas e grficos apropriados para cada
situao;
VI - Conceitos essenciais para se entender a Anlise Estatstica
Inferencial: erro amostral, intervalo de confiana para uma amostra
e determinao de tamanho de amostra.
VII - Noes sobre Teste de Hipteses para comparao de dois
grupos, variveis Numricas e Categricas.
VIII - Noes sobre Intervalo de Confiana para comparao de dois
grupos, variveis Numricas e Categricas.
I

Programa do Curso
Parte 2: Anlise Estatstica de Projetos de Pesquisa com o uso
do computador.
I - Estudo da relao entre variveis categricas: ChiQuadrado, Teste exato de Fisher.
II - Estudo da relao entre uma varivel resposta numrica e
variveis explicativas categricas: Anlise de Varincia.
III - Estudo da relao entre variveis numricas: Anlise de
Regresso.
Referncias:
- Practial Statistics For Medical Research, Douglas G.
Alltman. Chapman& Hall/CRC
- Introduo Estatstica Mdica, Jos Francisco Soares e
Arminda Lucia Siqueira. Departamento de Estatstica UFMG

I Definio de Estatstica
um campo de estudos que produz metodologia para:
Decidir qual o melhor Plano para a realizao de uma Pesquisa
cientfica ou observacional (analtica ou descritiva);
Organizar e Sumarizar dados obtidos por classificao, contagem ou
mensurao, ou transformaes destes, e
Fazer inferncias sobre populaes de unidades (indivduos, objetos,
animais) quando apenas uma parte (amostra) estudada
(classificada, contada ou medida).
Sub-reas da Estatstica:
(1) Planejamento de experimentos e tcnicas de amostragem;
(2) Estatstica Descritiva;
(3) Estatstica Inferencial.CAP

II- Interao entre estatstica e pesquisa cientfica


Observaes
Dados
Planejamento da
pesquisa

Anlise Estatstica
Descritiva

Anlise Inferencial
Objetivos da
pesquisa

Concluses

Formulao de novos
objetivos

III Tipos de variveis geradoras de dados


Categricas

Numricas

Nominal

Ordinal

(classificao)

(classificao)

sexo, raa,
regio, grupo
sangneo

presso
sangnea
(baixa,
normal,
alta)

Discreta

Contnua

(contagem)

(mensurao)

Nmero de
acidentes,
nmero de
filhos

Peso,
altura,
presso
sangnea

III - Tipos de variveis geradoras de dados

Idade
34
58
31
49
39
33
35

Sexo
masc
masc
fem
masc
fem
masc
fem

Hemoglobina
14,2
14,4
15,1
10,9
14,4
14,1
14,0

Tipo de urticria
fsica
fsica
idioptica
idioptica
fsica
fsica
idioptica

Durao
curta
longa
mdia
mdia
longa
curta
longa

IV - Planejamento da Pesquisa
Tipos de Pesquisa

IV.A. Observacional: coletamos informaes sobre

variveis categricas e numricas de interesse, em indivduos


de um ou mais grupos, mas no realizamos intervenes.
Quanto forma de obteno dos dados, pode ser
prospectivo, retrospectivo ou transversal.
Exemplos: Levantamento Populacional, Levantamento
Amostral e Estudo Epidemiolgico.

IV.B. Experimental: coletamos as informaes como no

caso anterior, mas os resultados so influenciados pelo


pesquisador com intervenes. Em geral necessrio grupo
controle. A forma de obteno dos dados , em geral,
prospectiva, longitudinal.
Exemplos: Ensaios Clnicos, experimentos nas reas de
agronomia, industria e laboratrios.

IV.A Pesquisas Observacionais


IV.A.1 Levantamentos populacionais
Contnuos quando os eventos vo sendo registrados medida que
ocorrem .
Ex : registros de bitos, nascimentos, casamentos
Peridicos so aqueles que acontecem ciclicamente.
Ex: censos populacionais que ocorrem a cada 10 anos.
Ocasionais so aqueles realizados sem preocupao de continuidade
ou periodicidade pr estabelecidas.
Obs: A anlise estatstica recomendada: Descritiva ou Exploratria de
dados.

IV.A Pesquisas Observacionais


IV.A.2 Levantamentos Amostrais
- Etapas:

Definio do objetivo;
Descrio da populao (populao objetivo e amostrada);
Unidade amostral e unidade de informao;
Forma de obteno da informao (instrumentos de coleta);
Escolha do Plano Amostral apropriado:
Amostra casual simples
Amostra estratificada
Amostra em mltiplos estgios

IV.A Pesquisas Observacionais


IV.A.2 Levantamentos Amostrais Exemplos

-- Condies
Condies de
de vida
vida das
das famlias
famlias da
da RMSP;
RMSP;
-- Pesquisa
Pesquisa de
de Emprego
Emprego ee Desemprego
Desemprego da
da RMSP;
RMSP;
-- Grau
Grau de
de satisfao
satisfao dos
dos usurios
usurios da
da SABESP;
SABESP;
-- Estimao
Estimao da
da prevalncia
prevalncia de
de cefalia
cefalia no
no municpio
municpio de
de Marlia
Marlia
-- Grau
Grau de
de satisfao
satisfao de
de usurios
usurios da
da rede
rede hospitalar
hospitalar do
do
municpio
municpio de
de Guarulhos;
Guarulhos;
-- Perfil
Perfil scio-econmico
scio-econmico dos
dos favelados
favelados ee encortiados
encortiados do
do
municpio
municpio de
de So
So Paulo;
Paulo;
-- Estudo
Estudo do
do rendimento
rendimento escolar
escolar na
na rede
rede Estadual
Estadual de
de Ensino
Ensino na
na
RMSP.
RMSP.

IV.A Pesquisas Observacionais


IV.A.3 Estudos Epidemiolgicos
So, em geral, necessrios quando informaes preliminarmente
coletadas indicam que um estudo epidemiolgico mais detalhado
deve ser conduzido para estudar a associao entre uma varivel
resposta dicotmica (doena, bito) e variveis explicativas
categricas e numricas
COORTES
Em estudos de coorte prospectivo todos os indivduos includos so
no doentes e divididos em 2 grupos, expostos e no expostos. O
coorte seguido por um perodo de tempo e taxas de incidncia da
doena so comparadas entre expostos e no expostos. Este
estudo tambm pode ser conduzido retrospectivamente
selecionando dois grupos de indivduos expostos e no expostos
comparando-se taxas de incidncia da doena em um perodo de
tempo passado.

IV.A Pesquisas Observacionais


IV.A.3 Estudos Epidemiolgicos
CASO-CONTROLE
Em estudos de caso-controle um grupo de doentes (casos) e um
grupo de no doentes (controles) so selecionados. A proporo
de indivduos que foram expostos por um perodo de tempo
calculada nos grupos e comparadas.
TRANSVERSAL
Em estudos transversais ou de prevalncia, exposio a fatores
de risco e de ocorrncia da doena so avaliados
simultaneamente num ponto no tempo em um grupo de
indivduos. Taxas de prevalncia da doena so comparadas
entre expostos e no expostos.

IV.B Pesquisa Experimental

- Etapas:
Objetivo;
Descrio das situaes experimentais que sero
comparadas (Tratamentos);
Descrio da populao experimental;
Escolha da unidade experimental;
Escolha do Plano Experimental:
Completamente casualizado (amostras no pareadas)
Blocos casualizados (amostras pareadas)
Experimentos Cross-over

IV.B Pesquisa Experimental


Exemplo # 1 - Teste do efeito do Metoprolol em pacientes de 65
a 74 anos que tiveram Infarto Agudo do Miocrdio.

Comentrios:
1. Os pacientes foram aleatorizados a cada um dos grupos e aps o
seguimento de 3 meses foi registrado o estado vital;
2. O estudo um Ensaio Clnico completamente aleatorizado,
prospectivo, com amostras independentes isto , no pareada
3. o estudo da relao entre duas variveis categricas dicotmicas,
uma resposta e a outra explicativa.

IV.B Pesquisa Experimental


Exemplo # 2 Comparao de 3 grupos de gestantes - normais (N),
tolerncia diminuda (TD) e diabticas (D) em relao a hemoglobina
glicosilada (HbA).
Comentrios:
1. um plano experimental
completamente casualizado
com um critrio de
classificao. Trs amostras
independentes de 10
gestantes, uma para cada
classe, amostras no
pareadas.
2. Estudo da relao entre uma
varivel numrica resposta,
(HbA) e uma explicativa
categrica, classe de
gestantes.

IV.B Pesquisa Experimental


Exemplo # 3: Estudo sobre perda
de peso(kg) em obesos para 2
diferentes terapias e 4
diferentes dietas.
Comentrios:
1. um plano experimental
completamente casualizado
com dois critrios de
classificao. So 8 amostras
independentes de 5
indivduos, no pareadas,
uma para cada combinao
(dieta, terapia).
2. Estudo da relao entre duas
variveis categricas
explicativas, dieta e terapia, e
uma numrica, resposta.

IV.B Pesquisa Experimental


Exemplo # 4 : Comparao de duas drogas para normalizar a
presso sangunea em hipertensos

Comentrios:
1) OPlanoExperimentalutilizadofoiCross-Over.Cada indivduo
submetido s 2 drogas em perodos diferentes. 30 indivduos
recebem a droga A e os outros 30 recebem a droga B no primeiro
perodo. Em um segundo perodo, aps a eliminao do efeito
residual, os dois grupos recebem as drogas em ordem contrria.
2) So amostras pareadas onde cada indivduo controle dele
mesmo.

V Anlise exploratria de dados


A Anlise Descritiva ou Exploratria de dados consiste em obter:
- Medidas que resumem informaes de um conjunto de dados quanto a
posio central e variabilidade.
- Grficos e tabelas que mostram a distribuio dos dados.
Estes conceitos sero apresentados de acordo com o seguinte esquema:
a) Varivel numrica
1) Medidas de Variabilidade e de Posio: Amplitude, Desvio padro,
Mdia, Mediana e Quartil;
2) Representao grfica: Histograma e Box-plot;
3) Propriedades da distribuio normal.
b) Varivel categrica
1)
2)

medidas de variabilidade e de posio obtidas das frequencias.


representao grfica: grfico de barras e pizza.

V Anlise exploratria de dados

Varivel numrica:
1) Medida de variabilidade Amplitude
Exemplo 1: Duas amostras de 20 indivduos
Amostra 1:
Estatura mnima: 140 cm

Amostra 2:
Estatura mnima: 150 cm

Estatura mxima: 180 cm

Estatura mxima: 170 cm

Questo 1: Em qual das duas amostras os indivduos variam mais em


relao estatura?
Resposta:
Questo 2: Quanto a variabilidade individual de uma amostra maior do
que a outra?
Resposta:
CONCEITOS:

V Anlise exploratria de dados

Varivel numrica:
1) medidas de variabilidade e de posio Media e Desvio padro
Exemplo 2: Duas amostras de 6 indivduos
(os valores abaixo representam a estatura, em cm)

Amostra 1: 150, 151, 153, 155, 158, 160


Amostra 2: 150, 155, 155, 155, 155, 160
Questo 1: Em qual das duas amostras os indivduos variam mais
em relao estatura?
Resposta:
Questo 2: Quanto a variabilidade de uma amostra maior que a
da outra?
Resposta:
CONCEITOS:

V Anlise exploratria de dados

Varivel numrica :
2) Representao grfica para amostras grandes - Histograma
a) Histograma (distribuio de freqncia emprica)

V Anlise exploratria de dados

Varivel numrica :
b)Representao grfica para amostras pequenas - BoxPlot :
(forma de agrupar dados atravs dos percentis)

Exemplo : Estudo sobre Diabetes Gestacional - Comparao de 3 grupos de


gestantes, normais, tolerncia diminudas e diabticas em relao a hemoglobina
glicosilada (HbA).
Box-Plot do nvel de Hemoglobina
glicosilada, segundo grupo de gestantes.
11
10

HbA

9
8
7
6
5

Diabtica

Normal

Tol_Diminuda

V Anlise exploratria de dados

Varivel numrica:
3) Noes sobre a Distribuio Normal

Propriedades da Distribuio Normal


68% dos valores individuais esto entre - e +
90% dos valores individuais esto entre - 1,64 e + 1,64
95% dos valores individuais esto entre - 1,96 e + 1,96
99,7% dos valores individuais esto entre - 3 e + 3
Mdia = Mediana = Moda
Coeficiente de Assimetria = 0 [-1; 1] ou [-2;2]
Coeficiente de Curtose = 0 [-1; 1] ou [-2;2]

V Anlise exploratria de dados

Varivel numrica :

4) Curva normal ajustada distribuio de freqncia emprica

V Anlise exploratria de dados

Varivel categrica :
1) medidas de variabilidade e de posio

Exemplo: Duas amostras de 20 indivduos classificados em relao ao sexo.


.

Questo 1: Em qual das duas amostras os indivduos variam mais


em relao ao sexo?
Resposta:
Questo 2: Quanto a variabilidade de uma amostra maior que a da
outra?
Resposta:
CONCEITOS:

V Anlise exploratria de dados

Varivel categrica:
2) Representao grfica: grfico de barras e pizza

Distribuio de Chefes de
Famlias segundo gnero
100

Percentual

80
60
40
20
0

masculino
Fonte : PED-Dez/1999

feminino

VI - Conceitos essenciais para se entender a


anlise estatstica inferencial: erro amostral e
intervalo de confiana.
Essncia da Estatstica Inferencial

Considere uma populao de indivduos representada por uma


varivel numrica (Albumina Srica).

VI - Conceitos essenciais para se entender a


anlise estatstica inferencial: erro amostral e
intervalo de confiana.
Questo de interesse

Queremos estimar por meio de uma amostra de


tamanho n a mdia populacional .

VI - Conceitos essenciais para se entender a


anlise estatstica inferencial: erro amostral e
intervalo de confiana.
Consideraes sobre a soluo
a) Tipo de Amostra: Amostra probabilstica;
b) Para qualquer tamanho de amostra n a mdia da
amostra sempre diferente da mdia da populao;
c) A distncia entre a mdia da amostra e a mdia da
populao chamada de Erro Amostral (EA).

Consideraes sobre a soluo

d) Para uma determinada populao com uma determinada varincia,


quanto maior for o tamanho da amostra menor ser o EA

EA

inversamen te proporcionais

e) Para um determinado tamanho de amostra quanto mais espalhada


for a populao em torno da mdia (varincia), maior ser o EA

EA DP diretamenteproporcionais
Concluso: Portanto podemos escrever que o erro amostral (EA)
proporcional ao quociente

Ou

Formulas para se calcular Erro amostral, tamanho da


amostra e construir intervalo de confiana para
mdias e propores

VII Comparao de dois grupos:


(Testes de Hipteses)
> - Roteiro

para testes de hipteses

a) Formulao das hipteses estatsticas:


Hiptese Nula (Ho)
Hiptese Alternativa (Ha)
b) Determinao de uma medida de afastamento da hiptese
c) Obteno de um Sistema de Referncia
d) Calculo do valor p [ Nvel de Significncia observado, p-value ],
que representa a probabilidade de errar quando o pesquisador rejeita H o)
CAP

VII Comparao de dois grupos:


(Testes de Hipteses)
EXEMPLO 1: Varivel Numrica, Amostras no pareadas

Comparao de motoristas que se declaram hiper-tensos e


normais em relao ao ndice de Massa Corprea (IMC)
Presso alta

Sim

No

Total

278

522

800

Mdia

28,02

26,46

26,72

Varincia

17,64

37,33

88,73

Desvio-padro

4,20

6,11

9,42

Erro-padro

0,25

0,27

0,23

VII Comparao de dois grupos:


(Testes de Hipteses)
Representamos o IMC mdio por:
1 , IMC mdio dos hipertensos
2, IMC mdio dos normais
Soluo:
a) Formulao das Hipteses:

H0 :
1

versus

H :
a

b) Medida de afastamento da hiptese nula


t

x x
1

dp

global

n n
1

n 1. dp n 1. dp
n n 2
2

onde

dp

global

2
2

dp

global

278 1.17,64 522 1.37,33


278 522 2

5,52

28,02 26,46
1
1
5,52.

278 522

3,81

Sistema de Referncia: Distribuio t-Student


com (nsim+nno2) graus de liberdade;

c) Nvel de Significncia Descritivo: p=0,0001;

Concluso: O IMC mdio dos indivduos com


presso alta estatisticamente maior do que o
IMC mdio dos indivduos com presso normal
(p=0,0001).

VII Comparao de dois grupos:


(Testes de Hipteses)
EXEMPLO 2: Varivel Categrica, Amostras no pareadas

Estudo sobre presena de sintomas da doena entre


vacinados e no vacinados
Sintomas da doena

Vacinado

No vacinado

Total

Sim

5 (3,3%)

45 (12,9%)

50 (10,0%)

No

145 (96,7%)

305 (81,7%)

450 (90,0%)

Total

150 (100,0%) 350 (100,0%) 500 (100,0%)

VII Comparao de dois grupos:


(Testes de Hipteses)
Soluo:
a) Formulao das Hipteses:

H : P Sim entre Vacinado P Sim entre No vacinado


0

H : P Sim entre Vacinado P Sim entre No vacinado


a

b) Medida de afastamento da hiptese nula

O E
E

10,58

VII Comparao de dois grupos:


(Testes de Hipteses)
c) Sistema de Referncia: Distribuio de Qui-quadrado com 1
grau de liberdade;

d) Nvel de Significncia Descritivo: p=0,0011;

e) Concluso: A proporo de indivduos com sintoma da


doena, entre os vacinados, estatisticamente menor que
entre os no vacinados (p=0,0011).

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel numrica)
Roteiro para Intervalo de Confiana
Varivel Numrica:
a) Clculo da diferena observada (d) entre as duas mdias;
b) Clculo do erro padro (EP) da diferena entre as
mdias;

n 1. dp n 1. dp
n n 2

EP x1 x2

n n

1
2

c) Clculo do erro amostral da diferena das mdias


EA(x1 x2) = c(EP), onde c corresponde ao coeficiente
de confiana;

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel numrica)
Roteiro para Intervalo de Confiana (cont.)
Varivel Numrica:
d) Clculo do intervalo de confiana (IC)

IC : d EA; d EA
e) Interpretao do intervalo de confiana.

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel numrica)
EXEMPLO 1: Varivel Numrica, Amostras no pareadas
Comparao de motoristas que se declaram hiper-tensos e
normais em relao ao ndice de Massa Corprea (IMC)

d 28,02 26,46 1,56


EP x1 x2 0,41

EA 1,96.0,41 0,80

IC : 1,56 0,80 ; 1,56 0,80 0,76 ; 2,36

Interpretao:
Com 95% de Confiana, a diferena mdia de IMC entre hipertensos e normais foi de 1,56 kg/(cm)2, podendo atingir um valor
mnimo de 0,76 kg/(m)2 e um valor mximo de 2,36 kg/(m)2

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel categrica)
Roteiro para Intervalo de Confiana
Varivel Categrica:
a) Clculo da diferena observada (p1-p2) entre as duas
propores;
b) Clculo do erro padro (EP) da diferena entre as
propores:

EP p p
1

p .(1p ) p .(1p )
n
n
1

c) Clculo do erro amostral da diferena das propores


EA(p1 p2) = c(EP), onde c o coeficiente de confiana;

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel categrica)
Roteiro para Intervalo de Confiana (cont.)
Varivel Categrica:
d) Clculo do intervalo de confiana (IC)

IC

p p EA; p p EA
1

e) Interpretao do intervalo de confiana.

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel categrica)
EXEMPLO 2: Varivel Categrica, Amostras no pareadas
Estudo sobre presena de sintomas da doena entre
vacinados e no vacinados

no vacinado

vacinado

p p 0,129 0,033 0,096


1

0,129.(1 - 0,129) 0,033.(1 - 0,033)


EP p1 p2

0,023
350
150

EA 1,96.0,023 0,045

VIII Comparao de dois grupos


(Intervalo de Confiana-varivel categrica)
IC 0,096 0,045 ; 0,096 0,045
IC 0,051; 0,141

Interpretao:
Com 95% de Confiana, a diferena da proporo de
Indivduos com sintoma, entre os no vacinados e os
vacinados, foi de 0,096 (9,6%), podendo atingir um valor
mnimo de 0,051(5,1%) e um valor mximo de 0,141(14,1%).