Sie sind auf Seite 1von 105

Estatstica

Anlise Exploratria de dados



Profa. Marinalva Cardoso Maciel
Unidade 1: Conceitos Fundamentais
1. INTRODUO
A palavra estatstica provm do latim status
(estado) e comumente associada a censos,
pesquisas de opinio pblica, aos vrios ndices
governamentais, aos grficos e medidas
publicadas diariamente na imprensa.
A estatstica fundamental na anlise de dados
provenientes de quaisquer processos onde exista
incerteza.


2. O que a estatstica
Planejar experimentos (estudos cientficos);
Classificar dados (organizar, resumir, interpretar)
Analisar dados (extrair concluses).
(Triola, 1998).
A estatstica na pesquisa cientfica:
Auxilia na organizao de dados para a apresentao
de relatrios e sntese de resultados: clculo de
coeficientes, ndices e taxas;
Anlise de dados para fins especficos: comparao
de resultados,...
Diviso da Estatstica
a) Estatstica Descritiva: a parte da Estatstica
que tem por objeto a descrio de dados
observados.
b) Estatstica Indutiva (Inferncia Estatstica):
a parte da Estatstica que tem por objetivo obter
e generalizar concluses para a populao a
partir de uma amostra, com base na teoria da
probabilidade.

3. Populao e Amostra
Universo: o conjunto de indivduos, objetos,
imveis, etc.
Ex: Alunos, professores, escolas
Populao: o conjunto constitudo de elementos,
de um mesmo universo, que apresentam pelo
menos uma caracterstica em comum.
Ex. Alunos de escola pblica, professores de matemtica
Amostra: um subconjunto finito representativo
de uma populao selecionado adequadamente para
estudo.
Ex: N alunos de escola fundamental selecionados aleatoriamente.

4. Varivel
o conjunto de resultados possveis de um
fenmeno coletivo que estamos interessados em
estudar.
As variveis podem ser divididas em dois tipos:
qualitativas e quantitativas.
Varivel qualitativa: quando o resultado da
observao apresentado na forma de qualidade ou
atributo. Ex: sexo, estado civil, grau de escolaridade, conceito, etc.
Varivel quantitativa: quando o resultado da
observao expresso em nmeros. Ex: n de escolas, n
de alunos, salrio, nota, etc.

Variveis qualitativas e quantitativas

Qualitativa




Quantitativa
Discreta: quando assume valores
inteiros, inclusive zero e que
resultem, freqentemente de uma
contagem. Ex. N de alunos
Contnua: Qualquer valor numrico
dentro de um intervalo de variao.
Ex: peso, salrio

Nominal : assume resultados em
categorias ou atributos sem ordenao.
Ex: Gnero.



Ordinal: assume resultados em
categorias que podem ser naturalmente
ordenados. Ex: Escolaridade
5. Arredondamento de nmeros
O arredondamento de dados estatsticos feito
da seguinte forma:
1) Se o 1 algarismo a ser abandonado for menor
que 5 o ltimo a permanecer fica inalterado.
Ex: Arredondamento para centsimos:
a) 47,3227 ~ 47,32 b) 0,29364 ~ 0,29
c) 53,77474 ~ 53,77 d) 30,00132 ~ 30,00

5. Arredondamento de nmeros
O ltimo algarismo a permanecer ser
acrescido de uma unidade se o 1 algarismo
a abandonar for maior que 5.
Ex: Arredondamento para dcimos:
a) 1,4632 ~ 1,5 b) 23,09425 ~ 23,1
c) 38,97777 ~ 39,0 d) 74,28583 ~ 74,3

5. Arredondamento de nmeros
Quando o 5 for o 1 algarismo a ser
abandonado teremos duas solues:
Quando o ltimo algarismo a permanecer for mpar,
ser acrescido de uma unidade.
Quando o ltimo algarismo a permanecer for par, este
no ser alterado.
Obs: pode ser feito arredondamento prvio
Ex: Arredondamento para milsimos:
a) 13,474503~ 13,474 b) 29,87350 ~ 29,874
c) 5,55555 ~ 5,556 d) 0,138500 ~ 0,138
e) 20,797504 ~ 20,798 f) 99,99950 ~ 100,000

Ajustamento
Quando temos parcelas de percentagem que
sofreram arredondamento, normalmente o
resultado no ser 100%. Neste caso necessrio
fazer o ajustamento, adicionando-se ou subtraindo-
se, conforme o caso, parcela maior.
Ex:Arredondar para dcimos as parcelas abaixo ajustando-as
se for o caso.

40,457% ~ 40,5
19,199% ~ 19,2
13,535% ~ 13,5
26,643% ~ 26,6
99,8
40,7
19,2
13,5
26,6
100%
Unidade 2: Fases do Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Formulao correta do
problema.
Saber exatamente o
que se pretende
estudar.
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Determinar o procedimento
necessrio para resolver o
problema.
Que dados devero ser
obtidos?
Como se deve obt-los?
Cronograma de atividades?
Os custos envolvidos?

Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
2 tipos de levantamento
Censitrio: abrange
toda a populao (Censo
ou Recenseamento).
Amostragem: estuda-se
uma parte da populao
(amostra).
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Obteno, reunio e
registro dos dados
Fontes Primrias:
dados coletados direta-
mente pelo pesquisador.
Fontes Secundrias:
atravs de relatrios,
arquivos, livros, etc.
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Tratamento prvio dos
dados coletados,
resumindo-os atravs de
sua contagem e
agrupamento.
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Apresentao Tabular:
apresentao numrica
em tabelas.
Apresentao grfica:
apresentao geomtrica
que permite uma
visualizao rpida do
fenmeno estudado.
Fases de um Trabalho Estatstico
Definio do problema
Planejamento
Coleta dos dados
Apurao dos dados
Apresentao dos dados
Anlise e interpretao
Consiste em tirar
concluses que auxiliam
o entendimento do
problema em estudo e
fazer generalizaes
(inferncias) e previses.
Banco de dados
Dados Primrios
Devem ser organizados para tratamento estatstico em
uma base de dados.
Se os dados esto em questionrios, eles devem ser
transferidos para uma planilha eletrnica (Ex. Excel)
para posterior organizao de tabelas, grficos,
medidas-resumo (estatsticas) e anlises mais
aprofundadas.
Cada pergunta do questionrio dar origem a pelo
menos uma varivel no banco de dados
Antes da digitao deve ser verificada a necessidade
da codificao das categorias de alguma varivel.
Banco de dados
Dados Secundrios
Normalmente j vm organizados em um banco de
dados.
Deve-se fazer uma seleo das variveis que se
deseja trabalhar;
verificar se necessrio realizar ajustes (p.ex.
alterao da unidade de mensurao);
verificar a codificao de categorias e de valores
missing e verificar a consistncia dos dados
atravs da realizao de estatsticas bsicas.
Dados

Unidade 4: Tabelas Estatsticas
TABELA: um quadro que resume um conjunto de
dados dispostos segundo linhas e colunas de
maneira sistemtica.
De acordo com a Resoluo 886/66 do IBGE, nas casas
ou clulas da tabela devemos colocar :
um trao horizontal ( - ) quando o valor zero;
trs pontos ( ... ) quando no temos os dados;
zero ( 0 ) quando o valor muito pequeno para ser
expresso pela unidade utilizada;
um ponto de interrogao ( ? ) quando temos dvida
quanto exatido de determinado valor.
Obs: O lado direito e esquerdo de uma tabela
oficial deve ser aberto..
Regras para Tabelas
a) em artigos ou publicaes que contenham muitas
tabelas, estas sero numeradas em ordem crescente,
conforme o aparecimento;
b) tabelas so fechadas no alto e embaixo por linhas
horizontais, mas no esquerda e direita por linhas
verticais. Traos verticais para separar colunas no
corpo da tabela podem ser empregados;
c) uma vez definido um determinado nmero de casas
decimais, esse nmero ser mantido para toda a
Tabela;
d) totais e subtotais sero destacados.


Tabela 1.1
Populao brasileira presente, com 15 anos e mais,
segundo a alfabetizao, de acordo com o censo
demogrfico de 1950.
Alfabetizao N
o
de Pessoas Percentual
Sabem ler
e escrever
No sabem
ler e escrever
Sem declarao
14.916.776
60.012
15.272.632
49,3 %
50,5 %
0,2 %
Total 30.249.420
100 %
Fonte Fonte: IBGE (1977)

Nota: excludos 31.960 pessoas recenseadas
nos estados de So Paulo e Paran, cujas declaraes
no foram apuradas por extravio do material coletado
Nota:
informaes
de natureza
geral
Numerao
Ttulo:
descrio do
tipo de dado
que a tabela
contm
Cabealho
Corpo da tabela:
formado pelos
dados,
distribuidos em
linhas e colunas
Sries Estatsticas
Tabela que apresenta a distribuio de um
conjunto de dados estatsticos em funo
da poca, do local ou da espcie.
Sries temporais, histricas ou cronolgicas.
Vendas da Companhia X
1997 - 2002
Ano Vendas (R$)
1997
1998
1999
2000
2001
2002
2.180,00
3.750,00
4.980,00
6.200,00
10.620,00
12.430,00
Sries Estatsticas em funo da poca
(constantes o local e a espcie)
Fonte: Depto de Vendas
Sries geogrficas, espaciais, territoriais,
ou de localizao.
Exportaes de Produtos do Setor Eletro-
Eletrnico por Blocos - 2005
Bloco U$$ milhes
Estados Unidos
Aladi
Unio Europia
Sudoeste da sia
Resto do Mundo
2.047
3.608
1.071
293
747
Fonte: ABINEE
Aladi : Associao Latino-Americana de Integrao

Sries Estatsticas em funo do local
(constantes o tempo e a espcie)
Sries especficas ou categricas.
Produo Mdia de cada Operrio por Setor
Brasil - 2002
Setor Industrial Quantidade Produzida (ton)
Ao
Papel
Acar
Chocolate
438
180
90.000
43.000
Fonte: Revista Veja
Sries Estatsticas em funo da espcie
(constantes o tempo e o local)
Produo Brasileira de Ao Bruto
1991 - 1993
1991 1992 1993
Oxignio
Forno Eltrico
EOF
17.934
4.234
409
Tambm chamadas de tabelas de dupla entrada.
So apropriadas apresentao de duas ou mais sries de maneira
conjugada, havendo duas ordens de classificao: uma horizontal e
outra vertical.
O exemplo abaixo de uma srie especfica-temporal.
Fonte: Instituto Brasileiro de Siderurgia
Quantidade (1.000 ton)
18.849
4.637
448
19.698
5.065
444
Processo
Sries Estatsticas Mistas ou Conjugadas
Distribuio de Frequncia
um tipo de tabela que condensa uma coleo
de dados conforme as freqncias (repeties
de seus valores).
Dados primitivos ou dados brutos: uma
tabela ou relao de elementos que no foram
numericamente organizados.
Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54,
52, 58, 57, 58, 60, 51
ROL: a tabela obtida aps a ordenao dos
dados (crescente ou decrescente).
Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52,
54, 57, 58, 58, 60, 60



Distribuio de Frequncia
Distribuio de freqncia SEM I NTERVALOS DE
CLASSE: a simples condensao dos dados conforme
as repeties de seus valores.
Dados Freqncia
41 3
42 2
43 1
44 1
45 1
46 2
50 2
51 1
52 1
54 1
57 1
58 2
60 2
Total 20
Distribuio de freqncia COM I NTERVALOS DE
CLASSE: Quando o tamanho da amostra elevado,
mais racional efetuar o agrupamento dos valores em
vrios intervalos de classe.

Classes Freqncias
41 |------- 45 7
45 |------- 49 3
49 |------- 53 4
53 |------- 57 1
57 |------- 61 5
Total 20
Construo de Distribuies de
Frequncias por Intervalos:

1 - Passo: montar o Rol (organizar os dados em
ordem crescente ou decrescente).
2- Passo: calcular a Amplitude Total da distribuio
de frequncia (AT), que a diferena existente entre
o maior (X
mximo
) e o menor valor (X
mnimo
)
observado.
3 - Passo: Determinar o Nmero de Classes da
Distribuio de Freqncia (K)
4 - Passo: calcular o intervalo de Classe ou
Amplitude do Intervalo de Classe (h),

K
T
h
A
=
Construo de Distribuies de
Frequncias por Intervalos:
5 - Passo: Construo das Classes
1 Classe Limite Inferior = menor valor do Rol
Limite Superior = Limite Inferior da 1 Classe + h
2
a
Classe Limite Inferior = Limite Superior da 1
Classe
Limite Superior = Limite Inferior da 2 Classe + h
...
6 - Passo: obteno da Frequncia Simples ou
Frequncia Absoluta da Classe (f
i
), que o nmero de
observaes contadas dentro da classe.

Tipos de Frequncia
Frequncia Absoluta Acumulada de Classe (F
i
):
a acumulao sucessiva, a partir da primeira classe
at uma classe qualquer, das freqncias simples ou
absoluta das classes.
K K
f ... f f F
...
f f F
f F
+ + + =
+ =
=
2 1
2 1 2
1 1
Tipos de Frequncia
Frequncia Relativa de Classe (fr
i
): a relao
existente entre a freqncia absoluta ou simples de
classe e o nmero de observaes da varivel.

=
=
K
i
i
i
i
f
f
fr
1
Tipos de Frequncia
Frequncia Relativa Acumulada (Fr
i
): a
acumulao sucessiva, a partir da primeira
classe at uma classe qualquer das
freqncias relativas das classes.

k k
fr ... fr fr Fr
...
fr fr Fr
fr Fr
+ + + =
+ =
=
2 1
2 1 2
1 1
Ponto Mdio de Classe:
a mdia aritmtica calculada entre o limite
inferior (l
i
) e o superior (l
s
) da classe. o
valor em estatstica que representa os
valores da varivel dentro da classe. .
2
) (
s i
i
l l
X
+
=
Unidade 5: Representao Grfica
Rpida visualizao de fenmenos e tendncias
Grficos de Informao x Grficos de Anlise
Exemplo:
PRODUO MDIA MENSAL DE CARVO
BETUMINOSO NO PAS - 1965 A 1972 (t)
Quantidade
1965
1966
1967
1968
1969
1970
45
50
70
130
180
230
Dados Fictcios
(mil toneladas)
Anos
Grfico em Colunas (barras verticais)
PRODUO MDIA MENSAL DE CARVO
BETUMINOSO NO PAS - 1965 A 1972 (t)
Representao Grfica
250
200
150
100
1965
50
0
1966 1967 1968 1969 1970
Grfico em Barras Horizontais
Apresentao Grfica
PRODUO MDIA MENSAL DE CARVO
BETUMINOSO NO PAS - 1965 A 1972 (t)
250 200 150 100
1965
50 0
1966
1967
1968
1969
1970
Grfico em Linhas
Representao Grfica
PRODUO MDIA MENSAL DE CARVO
BETUMINOSO NO PAS - 1965 A 1972 (t)
250
200
150
100
1965
50
0
1966 1967 1968 1969 1970






50
45
70
130
180
230
Vendas de Equipamentos
2003 - 2006
2003 2004 2005 2006
Norte
Sul
Sudeste
20,4
30,6
43,9
Dados Fictcios
Quantidade (mil ton)
27,4
38,6
46,9
90,0
34,6
45,0
Regio
Representao Grfica
20,4
31,6
43,9
Grfico em Colunas Compostas
0
10
20
30
40
50
60
70
80
90
2003 2004 2005 2006
Norte
Sul
Sudeste
Vendas de Equipamentos
2003 - 2006 (mil ton.)
Grfico em Colunas Compostas
Representao Grfica
0 20 40 60 80 100
2003
2004
2005
2006
Sudeste
Sul
Norte
Vendas de Equipamentos
2003 - 2006 (mil ton.)
Grfico em Barras Compostas
Apresentao Grfica
Grfico em Colunas Sobrepostas
(superpostas)
Produo de Televisores - Empresa Y
1965 - 1972
Apresentao Grfica
2500
2000
1500
1000
1970
500
0
1971 1972 1973
3000
3500
Mais de 20
polegadas
Portteis
Grfico de Porcentagens Complementares
Produo de Televisores - Empresa Y
1965 - 1972
Apresentao Grfica
100
80
60
40
1970
20
0
1971 1972 1973
Mais de 20
polegadas
Portteis
%
Grfico em Setores
Apresentao Grfica
Registros de Problemas com as
Colheitadeiras
Ocorrncias
Ruptura de correia
Quebra do Eixo
Vazamento de leo
Oxidao
Outros
45
28
15
8
3
Dados Fictcios
Defeito
Figura 1: Registros de Problemas com as Colheitadeiras
46%
28%
15%
8%
3%
Ruptura de Correia
Quebra do Eixo
Vazamento de leo
Oxidao
Outros
Grfico em Setores
Apresentao Grfica
46%
28%
15%
8%
3%
Ruptura de correia
Quebra do Eixo
Vazamento de leo
Oxidao
Outros
Figura 1: Registros de Problemas com as Colheitadeiras
Ruptura de correia
Quebra do Eixo
Vazamento de leo
Oxidao
Outros
Pictograma: a apresentao de uma srie estatstica por meio
de smbolos representativos do fenmeno.
O pictograma constitui um dos processos grficos que melhor fala
ao pblico, pela sua forma ao mesmo tempo atraente e sugestiva.
Representao Grfica


3707
4877
4810
4194
4581
0
1000
2000
3000
4000
5000
6000
2005 2006 2007 2008 2009
Anos
Fonte: Sistema de Indicadores Operacionais Porturios SIOP, 2009.

Figura 4.5 Evoluo da freqncia de Embarcaes nos Portos Organizados do Par, nos anos
de 2005 a 2009.
Cartograma: a representao por intermdio de uma carta
geogrfica. Este grfico empregado quando o objetivo o
de figurar os dados estatsticos diretamente relacionados
com reas geogrficas ou polticas.
Representao Grfica
Produo de petrleo, segundo regies geogrficas (milhes b/d) - 2003

UNI DADE 5. Medidas de Tendncia Central
So medidas representativas das caractersticas
avaliadas pelos seus valores centrais, em torno
dos quais tendem a concentrar-se os dados.
Tais medidas possibilitam comparaes de sries
de dados pelo confronto de seus valores.
As medidas de tendncia central mais utilizadas
so: mdia aritmtica, mediana e moda.
Outras medidas menos usadas so as mdias:
geomtrica, harmnica, quadrtica, cbica e
biquadrtica.

MDIA ARITMTICA =
A mdia aritmtica obtida pela soma de
todos os valores de uma varivel X dividida
pelo nmero total de observaes (n):


Exemplo
Sabendo-se que o atendimento dirio em uma
empresa de arquitetura, durante uma semana, foi
de 10, 14, 13, 15, 16, 18 e 12 pessoas, temos,
para atendimento mdio dirio na semana de:

= (10+14+13+15+16+18+12) / 7
= 14 pessoas

Mdia Aritmtica para dados agrupados em
uma distribuio de freqncia
Sem intervalos de classe:
N de meninos freqncia = fi
0 2
1 6
2 10
3 12
4 4
total 34
f
i
. x
i

0
6
20
36
16
78
Mdia Aritmtica para dados agrupados
em uma distribuio de freqncia
Com intervalos de classe:






2440/40 = 61 cm
Estaturas (cm) freqncia = f
i

50 |------------ 54 4
54 |------------ 58 9
58 |------------ 62 11
62 |------------ 66 8
66 |------------ 70 5
70 |------------ 74 3
Total 40
ponto mdio = x
i

52
56
60
64
68
72
.. f
i
. . x
i

208
504
660
512
340
216
2.440
MEDIANA - Md
o valor que ocupa a posio central da srie de
dados (rol);
o valor que divide a srie em duas partes com
nmeros iguais de elementos;
A mediana prefervel mdia quando se est
interessado em conhecer exatamente o centro da
distribuio dos dados, ou ainda, quando os
valores extremos podem afetar sensivelmente a
mdia.
Mediana em dados no-agrupados
Se a srie de dados tiver nmero mpar de
termos: O valor mediano ser o termo que
ocupa a posio central do rol: (n + 1)/2
Ex: { 1, 3, 0, 0, 2, 4, 1, 2, 5 }
1 - ordenar a srie { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
2 - calcular a posio: n = 9 logo (n + 1)/2
dado por (9+1) / 2 = 5, ou seja, o 5 elemento
da srie ordenada ser a mediana
A mediana ser o 5 elemento, ento Md = 2


Mediana em dados no-agrupados
Se a srie dada tiver nmero par de termos: O valor
mediano ser a mdia aritmtica dos valores centrais do rol, ou
seja, os termos que ocupam a posio n/2 e n/2+1
Ex: Calcule a mediana da srie { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }
1 - ordenar a srie { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 }
2 - calcular a posio: n = 10 logo a mediana ser a mdia
aritmtica do termo que ocupa a posio n/2 = 10/2 =5, ou seja,
o 5 termo e do termo que ocupa a posio n/2+1 = 10/2+1 = 6,
ou seja o 6 termo.
No rol:
5 termo = 2 e 6 termo = 3
A mediana ser a mdia aritmtica do 5 e 6 termos da
srie, ou seja = (2+3) / 2 ou seja, Md = 2,5.

A mediana em dados agrupados
Sem intervalos de classe:





Se o somatrio das frequncias for mpar:
Teremos: = (35 +1)/2 = 18 termo

Localizando na coluna da varivel (x
i
), Md = 3.

Varivel x
i
Freqncia f
i

0 2
1 6
2 9
3 13
4 5
total 35
Fa
2
8
17
30
35
A mediana em dados agrupados
Sem intervalos de classe:





Se o somatrio das frequncias for par:
Teremos: 8/2 = 4 termo e 8/2+1 = 5 termo
Localizando na coluna da varivel (x
i
), o 4 termo = 1 e
o 5 termo = 2. Logo Md = (1+2)/2 = 1,5.

Varivel x
i
Freqncia f
i

0 2
1 2
2 1
3 2
4 1
total 35
Fa
2
4
5
7
8
A mediana em dados agrupados
Com intervalos de classe:
1) Determinamos as freqncias acumuladas;
2) Calculamos Ef
i
/ 2 para localizar a classe mediana;
3) Marcamos a classe correspondente freqncia acumulada
imediatamente superior . Tal classe ser a classe mediana;
4) Calculamos a Mediana pela seguinte frmula:
Md =
onde:
l
i
= o limite inferior da classe mediana.
Fa
ant
= a freqncia acumulada da classe anterior classe
mediana.
f
i
= a freqncia simples da classe mediana.
h
i
= a amplitude do intervalo da classe mediana.

;
A mediana em dados agrupados
Ex:




1 Localizar a classe mediana: Ef
i
/ 2 = 40 / 2 = 20 logo a classe
mediana ser : 58 |---------- 62
2 Identificar os elementos da frmula na classe mediana:
l
i
= 58 Fa
ant
= 13 h
i
= 4 f
i
= 11
3 Substituindo esses valores na frmula, obtemos:
Md = 58 + [ (20 - 13) x 4] / 11 = 58 + 28/11 = 60,54

classes freqncia = fi Freqncia acumulada
50 |------------ 54 4 4
54 |------------ 58 9 13
58 |------------ 62 11 24
62 |------------ 66 8 32
66 |------------ 70 5 37
70 |------------ 74 3 40
total 40
Moda - Mo
o valor que ocorre com maior freqncia ou o valor que
mais se repete.
uma srie de dados pode ser classificada em amodal (no
possui moda), unimodal (possui apenas uma moda), bimodal
(possui duas modas) ou multimodal (possui mais de duas
modas).
A moda facilmente reconhecida: basta, de acordo com
definio, procurar o valor que mais se repete.
Ex: Na srie { 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda igual
a 10. A srie unimodal
{ 3 , 5 , 8 , 10 , 12 } no apresenta moda. A srie amodal.
{ 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas
modas: 4 e 7. A srie bimodal.
A Moda quando os dados esto agrupados
Sem intervalos de classe: basta localizar o valor da
varivel de maior freqncia.
Ex: Qual a temperatura mais comum medida no ms
abaixo:






Resp: 2 C a temperatura modal, pois a de maior
freqncia.



Temperaturas Freqncia
0 C 3
1 C 9
2 C 12
3 C 6
Com intervalos de classe:
A classe que apresenta a maior freqncia denominada classe
modal.
O mtodo mais simples para o clculo da moda consiste em
tomar o ponto mdio da classe modal.
Damos a esse valor a denominao de moda bruta.
Ex: Calcule a estatura modal conforme a tabela abaixo.





A classe modal 58|-------- 62, pois a de maior freqncia.
Logo, Mo = (58+62) / 2 = 60 cm

Classes (em cm) Freqncia
54 |------------ 58 9
58 |------------ 62 11
62 |------------ 66 8
66 |------------ 70 5
Mtodo mais elaborado - frmula de CZUBER:
A moda pode ser calculada pela seguinte frmula:
Mo = l* + (d1/(d1+d2)) x h*
Onde:
l* = limite inferior da classe modal L* = limite superior da
classe modal
d1 = freqncia da classe modal - freqncia da classe anterior
da classe modal
d2 = freqncia da classe modal - freqncia da classe posterior
da classe modal
h* = amplitude da classe modal
Mo = 58 + ((11-9) / ((11-9) + (11 8)) x 4
Mo = 59,6

MEDIDAS SEPARATRIZES
Separam a srie de dados em partes iguais.
QUARTIS - Q
dividem a srie em quatro partes iguais.
Em dados no agrupados: clculo da mediana para os 3 quartis.
Ex 1: Calcule os quartis da srie: { 5, 2, 6, 9, 10, 13, 15 }
Rol: { 2, 5, 6, 9, 10, 13, 15 }
O valor que divide a srie acima em duas partes iguais igual a 9,
logo a Md = 9 que ser = Q
2
= 9
Temos agora {2, 5, 6} e {10, 13, 15} como sendo os dois grupos
de valores iguais proporcionados pela mediana ( quartil 2 ).
Para o clculo do quartil 1 e 3 basta calcular as medianas das
partes iguais provenientes da verdadeira Mediana da srie (quartil
2).
Q
1
= 5 e Q
3
= 13

Quartis para dados agrupados em classes
Calcular: k . Ef
i
/ 4 , sendo k = 1, 2, 3 (ordem do quartil)
Localizar a classe que contm o quartil na Freqncia
acumulada.
Utilizar a frmula do quartil:
Q
1
= l
i
+ [(E f
i
/ 4 - Fa
ant
) x h
i
] / f
i

Q
2
= l
i
+ [(2. E f
i
/ 4 - Fa
ant
) x h
i
] / f
i

Q
3
= l
i
+ [(3. E f
i
/ 4 - Fa
ant
) x h
i
] / f
i

onde:
l
i
= o limite inferior da classe mediana.
Fa
ant
= a freqncia acumulada da classe anterior classe
mediana.
f
i
= a freqncia simples da classe mediana.
h
i
= a amplitude do intervalo da classe mediana.

Quartis para dados agrupados em classes
Ex:




Para Q
2
a posio 2Ef
i
/ 4 = 40 / 2 =20, logo a classe de Q
2
a 3
Q
2
= Md = 58 + [ (20 - 13) x 4] / 11 = 58 + 28/11 = 60,54
Para Q
1
a posio Ef
i
/ 4 = 40 / 4 =10, logo a classe de Q
1
a 2
Q
1
= 54 + [ (10 - 4) x 4] / 9 = 54 + 2,66 = 56,66
Para Q
3
a posio 3.Ef
i
/ 4 = 3.40 / 4 =30, logo a classe de Q
3
a 4
Q
3
= 62 + [ (30 -24) x 4] / 8 = 62 + 3 = 65

Classes freqncia = f
i
Fa
50 |------------ 54 4 4
54 |------------ 58 9 13
58 |------------ 62 11 24
62 |------------ 66 8 32
66 |------------ 70 5 37
70 |------------ 74 3 40
total 40
DECIS - D
Dividem a srie de dados em 10 partes iguais
Indicamos os decis : D
1
, D
2
, ... , D
9
.
D
5
= Q
2
= Md
Deste modo precisamos de 9 decis para dividirmos uma srie
A posio do k-simo decil dada por: k . Ef
i
/ 10 , sendo k = 1,
2, 3
A frmula para o clculo semelhante do quartil mudando
apenas a posio.
Ex: Calcular o 3 decil da tabela anterior com classes:
k= 3 onde 3 . Ef
i
/ 10 =3 x 40 / 10 = 12.
Este resultado corresponde a 2 classe.
Logo
D
3
= 54 + [ (12 - 4) x 4] / 9 = 54 + 3,55 = 57,55

blog.educacional.com.br/tiojoaomarc
os
PERCENTIL ou CENTIL
Denominamos percentis ou centis como sendo os noventa e
nove valores que separam uma srie em 100 partes iguais.
Indicamos: P
1
, P
2
, ... , P
99
.
evidente que P
50
= Md ; P
25
= Q
1
e P
75
= Q
3
.
A posio do k-simo decil dada por: k . Ef
i
/ 100 , sendo k =
1, 2, ..., 99.
Ex: Vamos calcular o 45 Centil da tabela anterior com
classes.
Para P
45
temos : 45. Ef
i
/ 100 = 45 . 40/100 = 18
Que est compreendido na 3 classe.
Logo,
P
45
= 58 + [ (18 - 13) x 4] / 11 = 58 + 20/11 = 59,82



blog.educacional.com.br/tiojoaomarc
os
UNI DADE 6. MEDI DAS DE DI SPERSO

MEDIDAS DE DISPERSO ABSOLUTA
AMPLITUDE TOTAL: a diferena entre o maior e o menor
valor observado em uma srie de dados.
AT = X mximo - X mnimo.
Ex: Na srie: 40, 45, 48, 62 e 70 temos AT = 70 - 40 = 30
Quando os dados esto agrupados sem intervalos de classe temos:
AT = 4 0 = 4




Com intervalos de classe a AMPLITUDE TOTAL a diferena
entre o limite superior da ltima classe e o limite inferior da
primeira classe.







x
i
f
i

0 2
1 6
3 5
4 3
DESVIO PADRO - s

a medida de disperso mais empregada, pois leva em
considerao a totalidade dos valores da varivel em
estudo;
um indicador de variabilidade bastante estvel;
Para dados populacionais, determinado por:
ou

Para dados amostrais, determinado por:
ou

Exemplo
Calcular o desvio padro da populao representada por -
4 , -3 , -2 , 3 , 5.
= - 0,2






n = 5
=



- 4 - 3,8 14,44
- 3 - 2,8 7,84
- 2 - 1,8 3,24
3 3,2 10,24
5 5,2 27,04
E = 62,8
=
Ex: Calcule o desvio padro amostral da tabela:






63/30 = 2,1
X
i
f
i

0 2
1 6
2 12
3 7
4 3
Total 30
X
i
. f
i

0
6
24
21
12
63
-2,1
-1,1
-0,1
0,9
1,9
4,41
1,21
0,01
0,81
3,61
E =
8,82
7,26
0,12
5,67
10,83
32,70
VARINCIA - s
2

o desvio padro elevado ao quadrado.
A varincia uma medida que tem pouca
utilidade como estatstica descritiva, porm
extremamente importante na inferncia estatstica
e em combinaes de amostras.
Ex. No exerccio anterior,
s
2
= 1,06
2
= 1,12


MEDIDA DE DISPERSO RELATIVA

Coeficiente de Variao
uma medida adimensional, til para comparar
variabilidades de diferentes amostras, onde as mdias
so muito desiguais ou as unidades de medidas so
diferentes.
O coeficiente de variao (CV) o desvio padro
expresso em porcentagem da mdia, isto , a magnitude
relativa do desvio padro quando comparado com a
mdia da distribuio das medidas.
O coeficiente dado por:

Exemplo
Tomemos os resultados das estaturas e dos pesos de um
mesmo grupo de indivduos:



Qual das medidas (Estatura ou Peso) possui maior homogeneidade ?
Teremos que calcular o CV da Estatura e o CV do Peso. O resultado
menor ser o de maior homogeneidade ( menor disperso ou
variabilidade).
CV estatura = ( 5 / 175 ) x 100 = 2,85 %
CV peso = ( 2 / 68 ) x 100 = 2,94 %.
Logo, nesse grupo de indivduos, as estaturas apresentam menor
grau de disperso que os pesos.

Medidas M D I A DESVIO PADRO
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
Box Plot ou Desenho esquemtico
um tipo de representao grfica, em que se
realam algumas caractersticas da amostra,
fornecendo uma idia da posio central,
disperso, assimetria e dados discrepantes
(outliers).
So utilizadas as medidas: Mnimo, Q1,
Mediana, Q2, Mximo.
til na comparao de conjuntos de dados
Box Plot ou Desenho esquemtico
UNI DADE 7. CORRELAO LI NEAR
SI MPLES
Para estudar o relacionamento de duas variveis.
Ex:
O salrio est relacionado com o tempo de experincia do
indivduo?
Quanto maior for a produo, maior ser o custo total?
Quanto maior for a idade de um imvel, menor ser seu
preo de venda?
Na anlise de correlao linear simples podemos
determinar a fora do relacionamento entre duas
variveis atravs do clculo do Coeficiente de Correlao
de Pearson.


O Coeficiente de Correlao de Pearson
Notao: r ou r(X,Y)
uma medida da relao entre duas variveis.
Expressa tanto o sentido quanto fora da
correlao entre as variveis.
Ou seja, se as variveis X e Y crescem ou decrescem
no mesmo sentido e o quo forte esse relacionamento
linear.
O valor de r, pode ser calculado por:


Caractersticas de r
Observe-se que -1,0 s r s 1,0. Se o valor de r for
prximo de zero, diz-se que no existe relacionamento
linear entre as variveis.
Se for prximo de -1 existe um forte relacionamento
linear negativo, ou seja, quando uma varivel cresce a
outra decresce.
Se for prximo de 1 existe um forte relacionamento
linear positivo, ou seja, as variveis tm uma relao
linear direta.

Anlise de Regresso Linear Simples
Ajustamento de curvas
Constitui uma tentativa de estabelecer uma equao
matemtica linear (linha reta) que descreva o
relacionamento entre duas variveis.
As retas de regresso linear so funes resultantes do
ajuste de uma funo linear entre duas variveis Y e X.
Para obter a reta de regresso necessrio calcular o
coeficiente angular (coeficiente de regresso) e o
intercepto da reta com a ordenada Y, ou seja, o ponto
onde a reta ajustada corta o eixo de Y.
Y chamado comumente de varivel resposta.
Representao da reta de regresso
ajustada
Y = a + bX
Utilizao da anlise de regresso
Estimar valores de uma varivel, com base em valores
conhecidos da outra. Em situaes em que as duas
variveis medem aproximadamente a mesma coisa,
mas uma delas relativamente dispendiosa, ou difcil
de lidar, enquanto que a outra no.
Explicar valores de uma varivel em termos da outra,
ou seja, confirmar uma relao de causa e efeito entre
duas variveis.
Predizer valores futuros de uma varivel. Ex. aplicar
testes para avaliar o sucesso de um ingressante na
escola ou no emprego.

Estimao da reta de regresso
Para estimar a reta de regresso, necessrio conhecer os
valores de a e b de forma que a reta passe to prxima
quando possvel dos pontos assinalados no diagrama de
disperso. Isto , deseja-se minimizar a discrepncia total
entre os pontos marcados e a reta que ser determinada.
A estimao de a e b feita pela tcnica de mnimos
quadrados, atravs das frmulas:
( )

=
2
2
i i
i i i i
x x n
y x y x n
b
X b Y a =
Interpretao dos estimadores a e b:

O coeficiente linear estimado a interpretado
como o valor da varivel respostaY quando X = 0 e
nem sempre essa interpretao faz sentido no
contexto da anlise.
Em alguns casos, esse termo, tambm chamado
constante ou intercepto pode ser excludo da
regresso, passando a reta estimada pela origem.
O coeficiente angular estimado b interpretado
como sendo o incremento que a varivel resposta Y
vai receber em decorrncia do acrscimo de uma
unidade na varivel explicativa X.
blog.educacional.com.br/tiojoaomarc
os
Exemplo:
Quantidade (X)
em unidades
Custos (Y)
em R$
10 100
11 112
12 119
13 130
14 139
15 142
90
100
110
120
130
140
150
9 11 13 15 17
Diagrama de disperso
Levantamento por amostragem
Populao e Amostra
Censo: Estudo atravs do exame
de todos os elementos da
populao.

Amostragem: Estudo por meio do
exame de uma amostra.
Por que fazer amostragem ao invs de
censo?
Economia
Menor tempo
Maior qualidade nos dados levantados
Populao infinita.
Mais fcil, com resultados
satisfatrios.
Quando fazer censo?
Populao pequena (tamanho da amostra
grande em relao ao da populao).
Quando se exige o resultado exato.
Quando j se dispe dos dados da
populao.
Amostragem:
A amostra deve ser representativa!
Amostragem
Amostragem probabilstica (aleatria) a
probabilidade de um elemento da populao ser
escolhido conhecida. A seleo dos elementos
da amostra feita sob alguma forma de sorteio.
Amostragem no probabilstica (no
aleatria) - No se conhece a probabilidade de
um elemento da populao ser escolhido para
participar da amostra. subjetiva ou por
julgamento.
Clculo do tamanho amostral
O tamanho mnimo de uma amostra dado por:


Onde
0
o erro amostral tolervel e n
0
uma
primeira aproximao do tamanho da amostra.
Quando se conhece o tamanho da populao N,
pode-se corrigir o tamanho da amostra inicial:







Exemplo
N = 200 famlias

0
= erro amostral tolervel = 4% (
0
= 0,04)
n
0
= 1/(0,04)
2
= 625 famlias
n (tamanho da amostra corrigido) =
n = 200x625/200+625 = 125000/825 = 152 famlias
E se a populao fosse de 200.000 famlias?
n = (200.000)x625/(200.000 +625) = 623 famlias
Observe=se que se N muito grande, no necessrio
considerar o tamanho exato N da populao. Nesse caso,
o clculo da primeira aproximao j suficiente para o
tamanho da amostra.
Tamanho da amostra ...
Observe que: N = 200 famlias,
0
= 4%
n = 152 famlias 76% da populao
Observe que: N = 200.000 famlias,
0
= 4%
n = 623 famlias 0,3% da populao
Logo, errneo pensar que o tamanho da
amostra deve ser
tomado como um
percentual do tamanho
da populao para ser
representativa
Principais tcnicas de amostragem
Amostragem Aleatria Simples: consiste na retirada
aleatria de elementos da populao (sorteio).
Amostragem Aleatria Estratificada: aquela em que a
rea de estudo dividida em subreas com base em uma
ou vrias caractersticas relevantes para o trabalho que
tornam estas subreas mais homogneas internamente.
Amostragem Aleatria Sistemtica: Para selecionar uma
amostra de n unidades, retiramos uma unidade, dentre
as primeiras k unidades e, da por diante, de cada
unidade de ordem k subsequente.
blog.educacional.com.br/tiojoaomarc
os
Exemplos
Suponha que em uma regio existam 6.000 alunos
de 1
o
grau, 3.000 do 2
o
grau e 1.000 do 3
o
grau. Para
selecionar uma amostra de 250 alunos:

Das könnte Ihnen auch gefallen