Beruflich Dokumente
Kultur Dokumente
Recolha de dados;
Organização de dados;
Classificação de dados;
Apresentação de dados.
Interpretação de dados.
2 Notas Históricas
Censo mais antigo, 2002 a.C., solicitado pelo
imperador chinês Yao;
Na Babilónia, Nabucodonosor, mandou registar
em placas de argila todos os seus bens;
No Egipto, devido as cheias provocadas pelo rio
Nilo era necessário efectuar registos de
propriedades e bens;
Na Grécia antiga efectuavam-se inquéritos com
o fim de lançar impostos;
3 Notas Históricas
O império Romano foi o primeiro Estado a reunir
dados organizados sobre a população e os bens do
império;
A Bíblia testemunha um recenseamento como causa da
viagem de Maria e José a Belém;
Em Portugal, no reinado de D. Afonso III (1260-1279)
realizou-se um dos primeiros inquéritos estatísticos
O ultimo levantamento estatístico (XIV Recenseamento
Geral da População) o Censos 2001 esteve a cargo do
Instituto Nacional de Estatística.
4 Estatísticas ≠ Estatística
Estatísticas: factor ou dados numéricos
Estatística:
Um objecto de estudo;
Uma ciência;
Produção de dados
População Amostra
Características Estatística
Descritiva
Populacionais
Estatística
Indutiva Características Estudo
amostrais amostra
7 Estatística Descritiva / Indutiva
Estatística Descritiva: Estudo descritivo dos
dados de uma amostra ( ou de uma população) em que
se resume a informação contida no conjunto de dados,
evidenciando as suas características principais.
Identificação Recolha de
do Problema dados
Critica dos
dados
Análise e Apresentação
Interpretação dos dados
9 Identificação do problema
Identificação Identificação do problema ou situação
do Problema
Objectivo da análise a efectuar;
Recolha de
dados Definição da população correspondente e
da amostra (caso necessário);
Critica dos
dados
10 População ou Universo
Definição:
Conjunto de elementos (seres, objectos,
acontecimentos, etc.) com uma ou mais
características em comum, acerca da qual
pretendemos efectuar um estudo.
Exemplos:
Finita Temperaturas dos recém nascidos registadas
durante o dia de hoje na UCERN
População
Infinita Conjunto de pressões atmosféricas que se
verificam num determinado instante à
superfície terrestre.
11 Amostra
Definição:
Subconjunto finito da população, em que as
características a estudar são, com a maior
aproximação possível, iguais às da população de
origem.
12 Vantagens da amostra
População com dimensão infinita;
Exemplo: população constituída pelas pressões
atmosféricas
Custo excessivo do processo de recolha e
tratamento de dados;
Exemplo: Características geológicas do subsolo no
fundo do mar.
Tempo excessivo;
Exemplo: preferência televisiva dos portugueses
13 Vantagens da amostra (cont.)
Inacessibilidade a alguns elementos da
população;
Exemplo: por razões de ordem legal não é possível
caracterizar o saldo médio da conta à ordem de
todos os médicos portugueses.
Recolha de informação através de métodos
destrutivos;
Exemplo: Verificação das características mecânicas
de um lote de perfis de aço, recorrendo a testes
destrutivos
14 Recenseamento/Sondagem
Recenseamento ou censo – estudo estatístico
realizado sobre toda a população. Tem-se o
propósito de adquirir dados sobre todos os
elementos da população e fazer juízos
quantitativos acerca das suas características.
Dados Secundários
16 Dados primários/secundários
Dados Primários
Disponíveis em registos ou ficheiros;
Resultantes de inquéritos feitos directamente à
população;
Disponíveis em estatísticas publicadas pelo
INE.
Dados Secundários
Calculados a partir dos dados primários
17 Fontes dos dados
Internas
Exemplo: serviços de contabilidade, produção,
marketing, etc. de uma organização
Externas
Exemplo: informação proveniente de
organismos públicos, tais como o Governo, o
INE ou revistas da especialidade
18 Periodicidade
Continua - quando realizada permanentemente
Exemplo: custos de produção
Periódica - quando realizadas segundo um dado
intervalo de tempo
Exemplo: Censos
Ocasional - quando realizadas esporadicamente
Exemplo: realização de um trabalho académico
19 Processos de recolha
Experimentais – exerce-se um controlo directo
sobre os factores que potencialmente afectam a
característica ou o conjunto de características em
análise.
Exemplo: efeito de um poluente sobre a água do rio
considerando a fábrica a laborar e parada.
Apresentação
Suprimir valores estranhos ou eliminar
dos dados
erros capazes de conduzir a conclusões
Análise e enviesadas.
Interpretação
21 Apresentação dos dados
Identificação
do Problema
Principal objectivo da Estatística
Descritiva (classificar e apresentar)
Recolha de
dados
Critica dos
Classificação
dados
Agrupar em classes
Apresentação
dos dados
Apresentação
Análise e
Interpretação
Tabelas, gráficos
22 Análise e Interpretação
Identificação
do Problema Apresentação de dados ajustada
Recolha de
dados
Interpretação facilitada
Critica dos
dados
Apresentação
Conclusões enviesadas:
dos dados
Propositadas
Análise e Não propositadas
Interpretação
23 Apresentação dos dados
Quadros;
Gráficos;
Distribuição de frequências.
Quadros
Cabeçalho – informação sobre os dados, em que
consistem e a que se referem (local, época, etc.)
Corpo – representado por colunas e sub colunas
dentro das quais se apresentam os dados
Rodapé – deve incluir a fonte dos dados e outra
informação pertinente.
Sectores;
Pictogramas.
25 Gráfico de Linhas
Mais utilizado;
Fácil interpretação e execução
100
90
80
70
60
Mulheres
50
Homens
40
30
20
10
0
1° Trim. 2° Trim. 3° Trim. 4° Trim.
26 Gráfico de Linhas
Temperatura Operativa Instantânea
To
26,1
26,0
26,0
25,9
25,9
25,8
25,8
25,7
25,7
0 20 40 60 80 100 120 140
Tempo [s]
Média
28 Gráfico Circular
Representação gráfica dos resultados num
circulo, por meio de sectores
Facha etária dos funcionários
14%
29%
30_35 anos
35_40 anos
40_45 anos
57%
Maio Abril
30 Pictogramas
Utilizam figuras sugestivas, relacionadas com o
problema em estudo;
Algarve
Madeira
lisboa e V.T
Norte
Centro
33 Resposta ex. nº1- Médicos
2% 1% 1%
2%
norte
31% centro
lisboa e V.T
alentejo
algarve
açores
madeira
46%
17%
36%
19%
35 Resposta exercício nº1
Norte
15000
Madeira 10000 Centro
médicos
5000 enfermeiros
0
Açores lisboa e V.T
Algarve Alentejo
36 Definições
Atributo ou caracter – Exemplos:
Característica comum a Atributo: estado civil
todos os elementos que Modalidades: casado,
constituem o nosso solteiro, divorciado, viúvo
conjunto
Modalidade – diferentes Atributo: Peso
situações apresentadas Modalidades: 50 kg ,
pelo atributo 60 kg ,70 kg ,…
Apresentação de dados
37 Distribuição de frequências
Variável estatística - atributo ou característica que se
pretende estudar
Variáveis qualitativa – exprimem uma qualidade, não
podem ser mensuráveis
Exemplo: estado civil, cor dos olhos, sexo, etc.
Variáveis quantitativas–características mensuráveis
Discretas – assumem um número finito ou
infinito numerável de valores (ex.: idade, nº de
irmãos, etc.)
Continuas – assumem um número infinito não
numerável de valores (ex.: tempo gasto para
chegar ao local de trabalho)
N – população
n – amostra
fi – Frequência Absoluta
fri – Frequência Absoluta relativa
Fi – Frequência Acumulada
Fri – Frequência Acumulada relativa
40 Número de classes
O número de classes devera estar compreendido entre 4 e 14;
Nenhuma classe deverá ter frequência nula;
As classes deverão ter sempre que possível amplitudes iguais;
Os pontos médios da classe deverão ser sempre que possível
números de cálculo fácil;
Classes abertas deverão ser evitadas;
Os limites das classes são definidos de modo que cada valor da
variável é incluído num e num só intervalo.
Seja k o número de classes: n<5 então K=5
n≥5 então √n=K
Seja ai a amplitude da classe: R Lmax − Lmin
ai = =
K K
Representação gráfica de
41 variáveis continuas
Histogramas
fi Fi
Frequências absolutas Fri(%)Frequências relativas Frequências acumuladas
xi xi x i
Classes
Classes Classes
35 28 31 25 32 43 20 21 23 24 24 25 25 27 27 27 28 28 29
38 20 35 33 41 41 31 32 32 33 34 35 35 36 38 38
24 42 27 34 36 38
41 41 42 43 43
27 54 28 23 24 29
50 54
50 32 21 43 27 25
43 Diagrama Caule e Folhas (cont.)
Tronco Folhas
2 0 1 3 4 4 5 5 7 7 7 8 8 9
3 1 2 2 3 4 5 5 6 8 8
4 1 1 2 3 3
5 0 4
Vantagens - esta tabela permite:
Melhor percepção do aspecto global dos dados sem perda de
informação, como acontece nas classes;
Imaginar facilmente o gráfico da distribuição;
Ver até que ponto a distribuição é simétrica;
Ver se existem concentrações ou lacunas de dados.
44 Polígono de Frequências
Linha poligonal que une o ponto médio do topo
superior de cada rectângulo.
18
16
14
12
[200;250[
Nº alunos
10
[250;300[
8
[300;350[
6
[350;400[
4
2
0
Peso em gramas
45 Função Cumulativa
Linha poligonal que une os vértices superiores direitos
dos rectângulos que formam o histograma de frequências
acumuladas
40
35
30
[200;250[
Nº alunos
25
[250;300[
20
[300;350[
15
[350;400[
10
5
0
Peso em gramas
46 Medidas de Localização
Medidas de tendência central
Moda e classe modal;
Média;
Mediana.
Onde:
f i +1 li – limite inferior da classe modal
Mo = l i + × amp fi+1 – frequência da classe seguinte à classe modal
f i +1 + f i −1
fi-1 – frequência da classe anterior à classe modal
amp – amplitude da classe modal
49 Média ( x)
Dados não classificados (não agrupados em
tabelas de frequências) k
∑x
i =1
i
x=
N
Dados classificados (agrupados em tabelas de
frequências) k
∑x f
i =1
i i
x=
N
50 Exemplo
Com base no estudo Regiões Médicos Enfermeiros
que já referimos, Norte 9622 11618
calcule o número Centro 5251 7086
médio de enfermeiros e Lisboa e
13953 14087
médicos existentes nas V.T
Alentejo 732 1578
várias regiões.
Algarve 777 1069
Resposta: Açores 370 981
Médicos: x = 4446,14 Madeira 418 1328
Enfermeiros: x = 5392,43
51 Média (variáveis continuas)
Nota: no caso de Tempo (xi) Centro classe fi
52 Mediana (Me)
Definição - valor que ocupa o lugar central da
distribuição, quando os dados estão ordenados por
ordem crescente ou decrescente.
Considerações:
É uma medida de posição, não faz intervir todos os valores
É um parâmetro forte, não influenciado por alterações dos
extremos
53 Mediana (dados não agrupados
por classes)
n é impar
K= (n+1)/2 Me=xk
n é par
K= n/2 Me=(xk+x k+1)/2
Exemplos: Calcule a mediana dos seguintes
conjuntos
10, 10, 12, 7, 7, 8, 5, 4
10, 10, 12, 7, 8, 5, 4
56 Quantis
Quartis – são os valores da variável que dividem a
distribuição de frequências em quatro partes iguais.
Representa-se por Qi
Decis - são os valores da variável que dividem a
distribuição de frequências em dez partes iguais.
Representa-se por Di
Percentis - são os valores da variável que dividem a
distribuição de frequências em cem partes iguais.
Representa-se por Pi
57 Quartis
Q2 – 2º quartil, coincide com a mediana
n é impar n é par
Posição do Q1 Posição do Q1
n +1 n+2
p1 = p1 =
4 4
Posição do Q3 Posição do Q3
3(n + 1) 3(n + 2)
p3 = p3 =
4 4
58 Quartis
Graficamente:
100
90
80
70
[200;250[
60
[250;300[
50
40 [300;350[
30 [350;400[
20
10
0
Q1 Me=Q2 Q3
Peso em gramas
59 Quartis
Analiticamente EQi − Fi (i − 1)
Qi = li + × amp
f (i )
Onde:
li – limite inferior da classe escolhida
Fi-1 – frequência acumulada da classe anterior à classe escolhida
fi – frequência absoluta da classe escolhida
amp – amplitude da classe escolhida i×n
EQi =
4
60 Decis/Percentis
Decis
EDi − Fi (i − 1) i×n
Di = li + × amp EDi =
f (i ) 10
Percentis
EPi − Fi (i − 1) i×n
Pi = li + × amp EPi =
f (i ) 100
61 Exemplo
Tempo
(xi)
Centro
classe
fi Fi 1º Quartil
[0;15[ 7,5 9 9
1× 104
[15;30[ 22,5 35 44 EQ1 = = 26
4
[30;45[ 37,5 20 64
[45;60[ 52,5 20 84
26 − 9
[60;75[ 67,5 7 91 Q1 = 15 + ×15 = 22,28
[75;90[ 82,5 4 95
35
[90;105[ 97,5 5 100
[105;120[ 112,5
EQ =
i
i×n
1 101 Significa que 25% dos
tempos de dialise são
4
[120;135[ 127,5 1 102
[135;150[ 142,5 2 104 inferiores a 22,28 meses
Total 104
62 Medidas de Dispersão
Medidas de distância
Amplitude total;
Intervalo inter-quartis
Desvio quartilico
Medidas comparativas
Desvio médio
Variância;
Desvio Padrão
Medidas de dispersão relativas
Coeficiente de variação
63 Amplitude total
Medida de dispersão mais fácil de calcular;
Consiste na diferença entre o valor máximo e o
valor mínimo da variável;
R = Xmax-X min
Exemplo:
Considere a variável que assume os seguintes valores:
X={3, 5, 9, 15, 16, 12, 8, 4}
Calcule a amplitude total.
R=16-3=13
64 Amplitude total
Desvantagem: tem apenas em conta os dois
valores extremos que a variável assume, logo não
é sensível aos valores intermédios.
Tempo fi
(xi)
Exemplo: Considere a tabela ao
[30;45[ 20
lado. Calcule a amplitude total. [45;60[ 20
[60;75[ 7
R=120-30=90 [75;90[ 4
[90;105[ 5
[105;120[ 1
65 Intervalo inter-quartis
Consiste na diferença entre o 3º Quartil e o
1ºQuartil;
Corresponde a um intervalo que engloba 50 % das
observações.
IQ=Q3-Q1
Desvantagem: esta medida não é influenciada por
metade dos valores observados, que neste caso são
os valores extremos.
66 Desvio Quartilíco
Medida de dispersão semelhante à anterior;
Consiste na semi-diferença entre o 3ºQuartil e o
1ºQuartil;
Corresponde a um intervalo que engloba 50 % das
observações.
DQ=(Q3-Q1)/2
Desvantagem: esta medida não é influenciada por
metade dos valores observados, que neste caso são
os valores extremos.
67 Exemplo de Aplicação
Num determinado local foi efectuado um Idades (xi) fi Fi
estudo para caracterizar as idades dos
residentes [5;10[ 5 5
a)Calcule o desvio quartilíco [10;15[ 10 15
b)Calcule o intervalo inter-
inter-quartis [15;20[ 20 35
[20;25[ 10 45
1× 50 3×50
EQ1 = = 12,5 EQ3 = = 37,5 [25;30[ 5 50
4 4
Total 50
12,5 − 5 Q3 − Q1 21,25 − 13,75
Q1 = 10 + × 5 = 13,75 DQ = = = 3,75
10 2 2
Desvio Médio
68
Desvio Absoluto Médio
Soma dos valores absolutos da diferença entre os
valores observados e a sua média, divididos pelo
número total de observações; k
∑ (x − x )
2
i
2 i =1
σ =
n
Nota importante: quando se trata de uma
amostra de pequena dimensão é mais correcto
utilizar a variância corrigida. n
∑ (x − x )
2
i
2 i =1
σ =
n −1
5
71 Variância (dados classificados)
Formula a utilizar: n
∑ f ×(x − x )
2
i i
σ2 = i =1
n
Xi xi fi (xi − x ) (xi − x )2 f i × ( xi − x )
Exemplo:
2
fi
5 2 10
Calcule a variância 7 1 7
8 5 40
9 2 18
10 4 40
12 3 36
15 3 45
total 20 196
dos dados;
i =1
σ=
n
Se σ=0, então não existe
variabilidade.
73 Coeficiente de variação (CV)
Até agora estudamos medidas de dispersão
absoluta;
O coeficiente de variação é uma medida de
dispersão relativa;
Mede o grau de concentração em torno das
distribuições de frequências
É a relação percentual entre o desvio padrão e a
média.
σ
CV = ×100
x
76 Medidas de Assimetria
1º Método: comparação das 3 medidas
de tendência central:
Distribuição simétrica
x = Mo = Me
Distribuição assimétrica positiva
x ≥ Me ≥ Mo
Distribuição assimétrica negativa
x ≤ Me ≤ Mo
77 Medidas de Assimetria
Considerações sobre o 1º Método:
É vantajoso porque não exige o conhecimento
dos valores iniciais da distribuição de
frequências em estudo
A assimetria resulta em geral de valores
extremamente grandes ou extremamente
pequenos;
Quanto mais pronunciada for a assimetria da
distribuição maior será a distancia entre a oda
e a mediana.
78 Medidas de Assimetria
2º Método: grau de assimetria
3 × ( x − Me )
G=
σ
Distribuição simétrica, se G=0
G1 =
( x − Mo ) G2 =
Q3 + Q1 − 2 × Me
σ Q3 − Q1
Método mais preciso;
O 2º coeficiente de Pearson é utilizado
quando não se conhece a média nem o
desvio padrão.
80 Medidas de Assimetria
Exemplo: Estude o grau de
assimetria da seguinte distribuição Idades (xi) fi
de frequências utilizando o
coeficiente de assimetria e o [50;60[ 15
coeficiente de Pearson.
Resolução
[60;70[ 20
Média=75 [70;80[ 30
Classe mediana = [70;80]
[80;90[ 20
Mediana=75
Classe modal = [70;80] [90;100[ 15
Moda=75
Total 100
Desvio padrão = √160
G=0
81 Distribuições bidimensionais
Objectivo: estudar a relação entre duas ou mais
variáveis
Idade de uma mulher / tensão arterial
Taxa de desemprego / Produto Nacional Bruto de um país
Diagrama de dispersão
Representação das variáveis x e y num referencial
cartesiano;
Permite visualizar a existência de uma relação entre as
variáveis, e identificar qual a condição mais
apropriada para descrever esta relação;
82 Correlação
Correlação Correlação
Negativa Positiva
Não há Correlação
Correlação Não linear
83 Coeficiente de Correlação (r)
r = -1 r = 0,91
r=0 r=0
85 Centro de Gravidade
Definição:
Ponto de coordenadas (x, y ) correspondentes ás médias
aritméticas das variáveis x e y.
86 Distribuição Normal
Algumas distribuições
podem ser descritas
como simétricas em
torno da média e com
a forma de sino.
Uma boa aproximação
para muitas dessas
distribuições é dada
pela distribuição
normal Distribuição do peso de 462 recém nascidos.
87 Distribuição Normal
x = Mo = Me
Histograma da variável BIRTHW (peso do recém nascido) com a curva normal