Beruflich Dokumente
Kultur Dokumente
APOSTILA
DE
ESTATSTICA DESCRITIVA
Belm - 2011
2
1.1 - Estatstica
a cincia que se preocupa com coleta, anlise, interpretao e apresentao dos dados,
permitindo-nos a obteno de concluses vlidas a partir destes dados, bem como a tomada de
decises razoveis baseadas nessas concluses. A Estatstica dividi-se didaticamente em duas
partes:
1.7 - Varivel
o conjunto de resultados possveis de um fenmeno (resposta), ou ainda so as
propriedades dos elementos da populao que se pretende conhecer.
Exemplo 1.7.1.1 - Numa pesquisa de inteno de voto, a resposta (varivel) sim ou no.
Exemplo 1.7.1.2 - Avaliao dos alunos, a resposta (varivel) : Insuficiente, Regular, Bom
e Excelente.
1.8 Parmetro: So valores singulares que existem na populao e que servem para caracteriz-
la. Para definirmos um parmetro devemos examinar toda a populao.
Exemplo 1.8.1: Os alunos do 2 ano da FACEV tm em mdia 1,70 metros de estatura.
x i
Exemplo 1.9.1: mdia = i =1
, i = 1,2,L, n.
n
Definio do
Problema
PLANEJAMENTO
COLETA DE DADOS
ANALISE E
DIVULGAAO DOS
RESULTADOS
7
2 - PLANEJAMENTO: Como levantar informaes ? Que dados devero ser obtidos? Qual
levantamento a ser utilizado? Censitrio? Por amostragem? E o cronograma de atividades? Os
custos envolvidos? etc.
Dados primrios: quando so publicados pela prpria pessoa ou organizao que os tenha
recolhido. Ex: tabelas do censo demogrfico do IBGE.
Dados secundrios: quando so publicados pro outra organizao. Ex: quando determinado jornal
publica estatsticas referentes ao censo demogrfico extradas do IBGE.
OBS: mais seguro trabalhar com fontes primrias. O uso da fonte secundria traz o grande risco
de erros de transcrio.
Coleta Direta: quando obtida diretamente da fonte. Ex: Empresa que realiza uma pesquisa para
saber a preferncia dos consumidores pela sua marca.
A coleta direta pode ser: contnua (registros de nascimento, bitos, casamentos, etc.),
peridica (recenseamento demogrfico, censo industrial) e ocasional (registro de casos de dengue).
Coleta Indireta: feita por dedues a partir dos elementos conseguidos pela coleta direta, por
analogia, por avaliao, indcios ou proporcionalidade.
4 - APURAO DOS DADOS: Resumo dos dados atravs de sua contagem e agrupamento. a
condensao e tabulao de dados.
Torna-se necessrio, aps a tabulao dos resultados e da representao grfica, encontrar valores
que possam representar a distribuio como um todo. So as chamadas medidas de tendncia
central ou medidas de posio.
1 Caso - Quando se estiver trabalhando com dados brutos (dados que no foram tabulados em
distribuies de freqncia). Neste caso utiliza-se a Equao (3.1).
n
xi
x1 + x 2 + L+ x n i =1
X= n
= n
, (3.1)
onde x1, ...,xn so os valores da varivel de interesse e n a quantidade desses valores.
X = (2 + 3 + 5 + 7 + 6) / 5 = 4,6
2 Caso - Quando se estiver trabalhando com dados Tabulados (dados que foram tabulados em
distribuio de freqncia). Neste caso utiliza-se a Equao (3.2).
n
( f x ) i i
X= i =1
n
, (3.2)
f i =1
i
(xi X ) = 0 [ f i (xi X )] = 0
n n
ou
i =1 i =1
A soma dos quadrados dos desvios de um conjunto de nmeros xj, em relao a qualquer nmero
a, um mnimo quando a = mdia e somente neste caso.
[ f i ( xi a ) ]= mnimo.
n n
(xi a ) = mnimo se a = X .
2 2
ou
i =1 i =1
Se n1 nmeros tm mdia x1 , n2 nmeros tm mdia x2 , . . ., nk nmeros tm mdia xk , a mdia
k
X= k
n j =1
j
Multiplicando-se (ou dividindo-se) cada elemento de conjunto de nmeros por um valor constante
e arbitrrio, a mdia fica multiplicada (ou dividida) por essa constante. Sejam X = {x1 , x 2 ,K, x n } e
seja c uma constante escolhida arbitrariamente.
Faamos Y = cX ou Y = Xc , tem-se:
Y = cx ou Y = x
c
Obs: a mdia tem a desvantagem de ser sensvel a valores aberrantes ou outliers.
a) Mdia geomtrica simples - dados n valores x1, x2 , ..., xn , a mdia geomtrica desses valores
ser:
Mg = n C xi
a) Mdia harmnica simples - dado o conjunto de n valores x1 , x2, ..., xn , a mdia harmnica do
conjunto ser:
n
Mh =
( )
n
1
xi
i =1
f i
Mh = i =1
( )
n
fi
xi
i =1
Obs: (Murteira e Black, 1983), A mdia harmnica menor ou igual mdia geomtrica para
valores da varivel diferentes de zero, que por sua vez menor ou igual a mdia aritmtica.
(Mh Mg X . )
x 2
i
n
fx . 2
Para dados Simples R.M .Q = i =1 e para dados Tabelados i i
n R.M .Q = i =1
n
f
i =1
i
OBS: quando se tem valores extravagantes, pode-se utilizar as chamadas mdias aparadas, pois
esta atribui menor ponderao a esses valores. Uma mdia aparada a 100 % , simbolicamente
T ( ) , obtida eliminando 100 % das menores e maiores observaes e calculando a mdia
simples das restantes. Por exemplo: Dado 20 observaes, x1 , x 2 , L , x 20 , tem-se a mdia aparada
a 10% igual a,
x + x 4 + L + x18
T (0,10) = 3
16
a mdia aparada a 25% ,
x + x 7 + L + x15
T (0,25) = 6 .
10
O problema da escolha do melhor no cabe neste momento (disciplina). Porm, pode-
se dizer que a quantidade ideal para aparar est diretamente relacionada com o peso das caudas da
distribuio da populao de onde veio a amostra:
12
3.5. MODA (Mo): aquilo que est em evidencia, o valor que mais aparece num conjunto de informaes ou
o de maior freqncia em uma tabela. A moda pode no ser nica ou ate mesmo pode no existir.
3.5.1 - MODA DE VALORES BRUTOS: basta observar o valor que mais aparece no conjunto.
Exemplo: 3 ; 3 ; 6 ; 8 ; 10 ; 10; 10; 11; 11; 12 Mo = 10.
3.5.2 - MODA DE VALORES TABELADOS: na literatura existem pelo menos trs mtodos de se calcular
a moda de dados tabelados, porm neste curso utilizam-se somente dois mtodos (Moda Bruta e Moda de
Czuber).
1 passo: identificar a classe modal (em uma distribuio de freqncia chama-se classe modal classe que
possui maior freqncia simples).
Moda Bruta: como o ponto mdio representativo de qualquer classe de freqncias, chama-se moda
bruta ao ponto mdio da classe modal.
li + l s
M O ( bruta ) = X de> fi =
2
Moda de Czuber: mtodo conhecido como mtodo eficiente, e consiste na aplicao da formula:
f Mo f ant
Mo = li + h,
2 f Mo ( f ant + f post )
onde:
li = Limite inferior da classe modal;
fpost = Freqncia simples posterior classe modal;
fant = Freqncia simples anterior classe modal;
h = Intervalo de classe;
fMO = Freqncia modal.
Tabela 3.2: Notas dos alunos da disciplina Estatstica a) A mdia aritmtica da distribuio;
no Instituto Datavox, ano de 2007
b) A mdia harmnica da distribuio;
fi
NOTAS c) Calcule a mdia geomtrica da distribuio;
1 |-- 3 5 d) A moda da distribuio pelo processo de Czuber;
3 |-- 5 7
5 |-- 7 8 e) A moda bruta da distribuio.
20
Fonte: dados hipotticos
13
a) MEDIANA (Me): o valor central em um rol, ou seja, a mediana de um conjunto de valores ordenados, ou
ainda a mediana divide a distribuio ao meio.
Exemplo: Em um grupo de 6 alunos cujas as alturas medidas em centmetros fossem as seguintes: 183 cm,
170 cm, 165 cm, 180 cm, 185 e 160 cm, qual a altura mediana deste grupo de pessoas?
Observao 1: a mediana muito utilizada em pesquisas onde no interessam valores extremos, por terem
pouca significao para o conjunto em geral.
Observao 2: quando no se tem os dados originais, valida a seguinte relao emprica
3 Me M o
x= 2
b) Quartis (Qi): so os valores que dividem um conjunto de dados em quatro partes iguais, representados por
Q1, Q2 e Q3 denominam-se primeiro, segundo e terceiro quartis, respectivamente, sendo o valor de Q2 igual
mediana. Assim, temos;
0% -----------------
25% ----------------- 50% ----------------- 75% ----------------- 100%
Q1 Q2 Q3
A formula para determinao dos quartis para dados agrupados semelhante usada para o clculo da
mediana.
14
Determinao de Qi:
n
i f i
1 passo: calcula-se a posio p =
i =1 ;
4
2 passo: identifica-se a classe Qi pela coluna das Freqncias Acumuladas;
i f i
n
Interpretao:
Q1: o valor que ocupa a posio tal que um quarto dos dados (25%) tomam valores menores ou iguais ao
valor do primeiro quartil;
Q2 = Me: Coincide com o valor da mediana, ou seja 50% dos dados tomam valores menores ou iguais aos da
mediana. Entre o primeiro quartil (Q1) e a mediana (Me) ficam 25% dos dados;
Q3: o valor que ocupa a posio tal que um quarto dos dados (25%) tomam valores maiores ou iguais ao
valor do terceiro quartil. Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25% dos dados.
c) Decis (Di): so as medidas separatrizes que dividem a srie em 10 partes iguais, e so representadas por D1,
D2, ...,D9. O quinto decil corresponde mediana.
0% -- 10% -- 20% -- 30% -- 40% -- 50% -- 60% -- 70% -- 80% -- 90% -- 100%
D1 D2 D3 D4 D5 D6 D7 D8 D9
Determinao de Di:
n
i f i
1 passo: calcula-se a posio p = i =1 , onde i = 1,2,3,4,5,6,7,8 e 9.
10
2 passo: identifica-se a classe Di pela Freqncia acumulada.
i f i
n
d) Percentis (Pi): so as medidas separatrizes que dividem a srie em 100 partes iguais, e so representadas
por P1, P2, ...,P99.
--- 1% --- 2% -- 3% --- -- -- 50% --- --- --- 97% --- 98% -- 99% -- 100%
0%
P1 P2 P3 P50 P97 P98 P99
Determinao de Pi:
n
i fi
1 passo: calcula-se a posio p = 100i =1
, onde i = 1,2,3,...,97,98 e 99.
2 passo: identifica-se a classe de Pi pela Freqncia acumulada.
i f i
n
Percentil 75%
50% dos
dados esto Mediana
dentro da
caixa
Percentil 25%
4.2 - DESVIO MDIO: a mdia dos valores absolutos dos desvios dos dados a partir de um valor de
tendncia central.
n
( xi x ) . f i
n
DM = i = 1 , onde : fi = n
n
fi i =1
i =1
4.3 - VARINCIA OU VARINCIA ABSOLUTA: Quando se trabalha com certo rigor de anlise
estatstica se faz grande uso do que chamada a varincia de uma distribuio, a qual a mdia quadrtica
das somas dos desvios em relao mdia aritmtica.
PROPRIEDADES DA VARINCIA:
a) A varincia absoluta de uma constante igual a zero;
b) Somando-se ou diminuindo-se a todos os valores da srie um valor constante K 0, a nova varincia ser
igual a anterior, isto , no se altera.
c) Multiplicando-se ou dividindo-se todos os valores de uma srie por um valor constante, K 0, a nova
varincia calculada ser igual varincia absoluta original multiplicada ou dividida pelo quadrado da
constante utilizada.
Resumindo: para o clculo do desvio padro, deve-se primeiramente determinar o valor da varincia e, em
seguida, extrair a raiz quadrada desse resultado.
Exemplo2: calcule o desvio padro amostral da distribuio dada pela tabela 4.1.
19
4.5- COEFICIENTE DE VARIAO: s vezes pode-se querer comparar o grau de disperso de dois
conjuntos de dados com unidades de medidas diferentes. Neste caso, deve-se usar o coeficiente de variao
(CV), que uma medida de disperso relativa, uma vez que ela no est afetada pelas unidades da medida da
varivel.
CV =
S 100
X
Observao 1: Ser considerada a srie mais homognea, aquela que apresentar menor valor do coeficiente
de variabilidade.
Observao 2: uma medida estatstica que serve para avaliar a homogeneidade de sries estatsticas, que o
grau de concentrao dos valores observados em torno da sua mdia aritmtica.
5 MOMENTOS:
n
Ex: calcular os momentos naturais de 1, 2, 3 e 4 ordens da distribuio de freqncias abaixo:
( xi x o )
n
r
n
Ex: considerando a origem x o = 4 , calcular o momento de segunda ordem do conjunto
x = (2, 3, 5, 7, 8), em relao a origem xo.
f i ( xi x o )
n
r
n
Obs: fazendo-se xo = 0, o momento em relao origem igual ao momento natural.
Para se calcular o momento centrado na mdia, usa-se as mesmas frmulas do centrado numa origem
qualquer, fazendo x o = x . Com isto, tem-se:
( xi x )
n
r
f i ( xi x )
n
r
n
Obs: O 2 momento centrado na mdia (r = 2), corresponde varincia da distribuio.
Relao entre os momentos: So validas as seguintes relaes entre os momentos centrados na mdia,
mr , e os referidos a uma origem arbitrria xo m r .
m2 = xo m2 xo m12
m3 = xo m3 3 xo m1 x0 m2 + 2 x0 m1
3
m = m 4 m m +6 m 2 m 3 m 4
4 xo 4 xo 1 x0 3 x0 1 x0 2 x0 1
21
6 ASSIMETRIA E CURTOSE
6.1 - ASSIMETRIA
a) Simtrica
X = Mo = Md
b) Assimetria Positiva
Mo < Md < X
c) Assimetria Negativa
X < Md < Mo
MEDIDAS DE CALCULO:
Coeficiente do momento de assimetria: Este coeficiente pode ser definido usando o terceiro momento
m3 m
centrado na mdia e o desvio padro: a3 = 3
= 3
S m23
obs: para curvas perfeitamente simtricas, como a normal, a3 nulo.
X M0
Primeiro coeficiente de assimetria de Pearson: A=
S
22
3(X M e )
Segundo coeficiente de assimetria de Pearson: A=
S
Quando A = 0 Simtrica, se A > 0 Assimetria Positiva e se A < 0 Assimetria Negativa.
6.2 - CURTOSE
Curva Mesocrtica
Curva Platicrtica
Curva Leptocrtica
23
MEDIDAS DE CALCULO:
Coeficiente do momento de Curtose: definido pela diviso do momento de grau 4 centrado na mdia
pela varincia ao quadrado. Ou seja:
m4 m4
b2 = = .
S 4 m22
Para a distribuio normal, b2 = 3 . Por essa razo, a curtose definida freqentemente por
(b2 3) , que positivo para uma distribuio leptocrtica, negativa para uma platicrtica e nulo para uma
normal.
Dq (Q3 Q1 )
Coeficiente percentlico de Curtose: k= =
(D9 D1 ) 2(D9 D1 )
onde : K = coeficiente percentlico de curtose
Dq = Desvio quartlico =
(Q3 Q1 )
2
D9 = 9 decil, D1 = 1 decil, Q1 = 1 quartil e Q3 = 3 quartil.
Ex: calcular o Coeficiente momento de curtose e o percentlico de curtose para a tabela abaixo e classifique
essa distribuio por ambos os coeficientes:
Freqentemente procura-se verificar se existe relao entre duas ou mais variveis. O peso
pode estar relacionado com a idade das pessoas; o consumo das famlias pode estar relacionado com
sua renda, bem como a demanda de um determinado produto e seu preo. A verificao da
existncia e do grau de relao entre variveis o objeto de estudo da correlao. Se um sistema de
coordenadas retangulares mostra a localizao dos pontos (x, y) e se todos os pontos desse diagrama
parecem cair nas proximidades de uma reta, a correlao denominada linear. Fazendo X a varivel
independente, se Y tende a aumentar quando X cresce, a correlao denominada positiva. Se Y
tende a diminuir quando X aumenta, a correlao denominao negativa.
n n
Na prtica, constata-se freqentemente a existncia de uma relao entre duas (ou mais)
variveis e se deseja expressar tal relao sob forma matemtica, estabelecendo-se uma equao
entre as variveis. Supondo a varivel X independente e a varivel Y aleatria, se diz, que
Y = f (x).
Dados n pares de valores de duas variveis, Xi, Yi (i = 1, 2, ...,n), admite-se que Y funo
linear de X, ou seja Y = f (x), pode-se estabelecer uma regresso linear simples , cujo modelo
estatstico
Yi = 0 + 1 X i + i (2)
onde:
Yi o i-simo valor da varivel resposta; 0 e 1 so os parmetros (coeficientes de regresso);
Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo).
i o termo do erro aleatrio com distribuio normal e E(i)=0 e (i)= ;
2 2
Importante: A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a
observao Y1. Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.
i =1
n
Q
0 = 2 (Yi 0 1 X i )
i =1
n
Q
1 = 2 X i (Yi 0 1 X i )
i =1
(Y
i =1
i 0 1 X i ) = 0
n
X (Y
i =1
i i 0 1 X i ) = 0
n n
Y n
i =1
i 0 1 X i = 0
i =1
n n n
X iYi 0 X i 1 X i2 = 0
i =1 i =1 i =1
De onde, se obtm o sistema de equaes normais, dado por:
n n
Y
i =1
i = n0 + 1 X i
i =1
n n n
X iYi = 0 X i + 1 X i2
i =1 i =1 i =1
XY n
X Y
1 =
( X i X )(Yi Y )
=
( X i X )2 ( X)
X
2
2
n
0 = n1 ( )
Yi 1 X i = Y 1 X
X = nx = mdia de X e Y = n = mdia de Y.
y
Onde: n = nmero de observaes;
Exerccio:
Pede-se:
a) Construir um diagrama de disperso;
9. Ajustamento de Curvas
a) Curva Polinomial: Uma linha de tendncia polinomial pode ajustar uma curva quando os
dados tm diversas variaes. Por exemplo, de grau 2, neste caso se possui apenas um
mximo ou um mnimo relativo, pois se trata de uma parbola:
y = a + bx + cx 2 ,
b) Curva Exponencial: muito til para os casos em que a varivel dependente varia com uma
taxa percentual constante. E sua equao dada por:
y = a ebx
Um exemplo grfico apresentado a seguir
30
c) Curva de Gompertz: uma curva sigmoidal, ela descreve um crescimento cuja taxa relativa
decresce exponencialmente como funo do tempo.
y = a ebe
ct
=
31
e) Logistica: uma curva tambm sigmoidal, porm descreve um crescimento cuja a taxa
relativa decresce linearmente como funo do tempo.
e + x
y=
1 + e + x
TAREFA EXTRA: Pesquise e apresente para cada uma das curvas dadas anteriormente, um
exemplo resolvido.
32
So medidas estatsticas usadas para comparar grupos de variveis relacionadas entre si e para obter
um quadro simples e resumido das mudanas significativas ocorridas ao longo do tempo ou em
diferentes lugares.
Tratam-se dos nmeros ndices mais simples, relacionando o preo ou a quantidade ou ainda o valor
de um produto numa poca atual (a) com uma poca base (b). Assim, para um produto:
Pb = Preo da poca Base
Assim, Tem-se
Pa
Pb , a =
Relativo de Preo
Pb
qa
qb, a =
Relativo de Quantidade
qb
Va
Vb , a =
Relativo de Valor
Vb
onde,
Va = Pa qa e Vb = Pb qb .
Exemplo - Em 2002, uma empresa vendeu 500 unidades de um produto ao preo unitrio de R$
40,00. Em 2003, vendeu 700 unidades do mesmo produto ao preo unitrio de R$80,00. Determine
os relativos de preo, quantidade e de valor para o produto, tomando como base 2002.
33
Quando se pretende avaliar a variao de preos, entre duas pocas, por exemplo, de dez artigos,
atravs de um nmero-resumo (ndice), o clculo dos relativos visto anteriormente representa
apenas o primeiro passo para a soluo do problema. Sem levar em considerao a importncia
relativa de cada item, existem vrias proposies no que diz respeito aos mtodos de clculo: Mdia
Aritmtica, Geomtrica e Harmnica Simples, ndice Agregativo Simples e Mediana.
Basta calcular o valor dos relativos de todos os itens considerandos e, em seguida, aplicar a frmula
da mdia aritmtica.
Seu clculo uma mdia aritmtica ponderada, em que as variveis so os nmeros relativos e os
fatores de ponderao as quantidades originais do perodo dado (atual).
(Pi (ba ) q ai )
IAPba =
q ai
34
QL
b, a
b) Nmeros ndices de Laspeyres de Quantidade
O ndice de quantidade, pelo mtodo de Laspeyres, obtido permutando-se p e q da expresso de
preos.
qia Pib
QLb, a =
qib Pib ,
onde
QLb, a = ndice de Quantidade de Laspeyres
qia = Quantidade da poca Atual
qib = Quantidade da poca Base
Pib = Preos da poca Base
35
Neste ndice, a base de ponderao a poca atual, da a denominao mtodo da poca atual.
PPb, a
a) Nmero ndice de Paasche de Preos
Pia qia
PPb, a =
Pib qia
onde :
QPb, a
b) Nmeros ndices de Paasche de Quantidade
Pia qia
QPb, a =
Pia qib
onde
QPb, a = ndice de Quantidade de Paasche
Pia = Preo da poca Atual
qia = Quantidade da poca Atual
qib = Quantidade da poca Base
Exemplo - Dada a tabela abaixo, calcule os ndices de preo e quantidade de Laspeyres e Paasche.
1998 1999
PRODUTOS Preo Qtde. Preo Qtde.
A 3 2 1 4
B 4 6 5 2
C 7 4 3 2
36
A mudana de base feita dividindo-se os nmeros ndices de uma srie original pelo
ndice correspondente nova poca-base.
Obs.: a mudana de base no valida para os ndices complexos, visto estes apresentarem
pesos variveis, exigindo a mudana no perodo de referncia mudana nos pesos.
Ex: Na tabela abaixo, encontra-se a produo anual de tratores no perodo de 1976 a 1982. Reduzir
os dados a quantidades relativas, utilizando como base o ano de 1979.