Sie sind auf Seite 1von 46

CAPÍTULO 4

DESCRIÇÃO E EXPLORAÇÃO DOS DADOS


2ª parte
 4.3 Medidas de posição
 4.4 Medidas de dispersão
 4.5 Separatrizes

09/11/2015 Prof. franke 2


 Vimos que a informação contida num conjunto de dados pode ser resumida na
forma de tabelas e gráficos.
 Frequentemente, entretanto, necessitamos de um “índice” que expresse certa
propriedade dos dados.
 ESTATÍSTICAS:
 As “Estatísticas” são índices numéricos que representam propriedades específicas das
variáveis.
 A primeira propriedade de uma variável em que normalmente estamos
interessados refere-se a “posições” específicas na distribuição desta variável.

Qual o significado dos valores


de x1 e x2 na distribuição?

x1 x2

09/11/2015 Prof. franke 3


 Existem três medidas básicas que refletem a posição da estatística numa
distribuição de frequências:
 Média (aritmética, ponderada, geométrica, harmônica)
 Moda
 Mediana
 4.3.1 - Média Aritmética
 É a medida de posição mais utilizada.
 Indica uma “posição central” nos dados.
 É a soma de todos os casos dividida por seu número total.

onde: = média aritmética para amostra e  para população


= representa cada uma das observações disponíveis na amostra
n = número de amostras.

Obs.: a média é afetada por valores extremos.


09/11/2015 Prof. franke 4
 A média aritmética nem sempre está no “CENTRO”
 Exemplo: Considere as notas finais, relativas aos alunos de três turmas.
Turma Notas dos alunos Média da turma
A 4; 5; 5; 6; 6; 7; 7; 8 ?
B 1; 2; 4; 6; 6; 9; 10; 10 ?
C 0; 6; 7; 7; 7; 7,5; 7,5 ?

Figura 1 – Representação das distribuições das notas


de três turmas e posições das médias aritméticas.
Adaptado de BARBETTA et al., 2010.

09/11/2015 Prof. franke 5


 4.3.2 - Média aritmética ponderada:
 A forma de calcular de uma média ponderada é multiplicar cada valor pelo seu
respectivo peso, somar todas as parcelas e dividir o resultado dessa soma pelo total
dos pesos atribuídos.

 Exemplo: Cálculo de média pondera de um aluno que obteve as seguintes notas


Nota (xi) Peso (pi) Produto (xi .pi)
4 1 4
7 2 14
6 3 18
Total =6 = 36

09/11/2015 Prof. franke 6


 Experimente fazer:
 São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,
respectivamente. Calcule as médias ponderadas.

Aluno 1ª prova 2ª prova 3ª prova Média


ponderada
Ana 7 6 5
Cláudia 1 2 9
Marcos 5 5 5
Pedro 10 10 0
Sérgio 5 7 3

 Quem terá a maior e quem terá a menor média ponderada?

09/11/2015 Prof. franke 7


 Experimente fazer:
 São dadas as notas de cinco alunos, em três provas que tinham pesos 2, 3 e 5,
respectivamente. Calcule as médias ponderadas.

Aluno 1ª prova 2ª prova 3ª prova Média


ponderada
Ana 7 6 5 5,70
Cláudia 1 2 9 5,30
Marcos 5 5 5 5,00
Pedro 10 10 0 5,00
Sérgio 5 7 3 4,60

 Quem terá a maior e quem terá a menor média ponderada? Ana!

09/11/2015 Prof. franke 8


 4.3.3 - Media Harmônica
 Retrata a harmonia entre os dados

4 4
 Exercício exemplo: 2, 3, 5, 10 𝑥ℎ = 1 1 1 1 = = 3,529
(2+3+5+10) 1,1333
 4.3.4 - Media geométrica
 É obtida pela raiz n do produto dos n valores disponíveis

 É utilizada em administração e economia, para determinar taxas de


crescimento em certo período
 Exercício: 2, 3, 5, 10.

09/11/2015 Prof. franke 9


 Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas
de distribuição de frequências. Exemplo das árvores
Ponto médio Frequência Parciais
Diâmetro
da classe absoluta da
(cm)
xi (fi) média
20 |– 30 25 2
30 |– 40 35 9
40 |– 50 45 11
50 |– 60 55 15
60|– 70 65 17
70 |– 80 75 16
80 |– 90 85 7
90 |– 100 95 3
Total - 80

09/11/2015 Prof. franke 10


 Exemplo: Cálculo da média de dados apresentados (agrupados) em tabelas
de distribuição de frequências. Exemplo das árvores
Ponto médio Frequência Parciais
Diâmetro
da classe absoluta da
(cm)
xi (fi) média
20 |– 30 25 2 50,0
30 |– 40 35 9 315,0
40 |– 50 45 11 495,0
50 |– 60 55 15 825,0
60|– 70 65 17 1.105,0
70 |– 80 75 16 1.200,0
80 |– 90 85 7 595,0
90 |– 100 95 3 285,0
Total - 80 4.870,0

 𝑥 = 60,5125

09/11/2015 Prof. franke 11


 4.5.5 - Mediana
 É o valor que ocupa a posição central de um conjunto de dados ordenados.
 Se o número de observações for impar, a mediana será o valor central da
distribuição; se o número for par, a mediana será a média dos dois valores
centrais.
 Tem a vantagem de não ser afetada pelos valores extremos.
 Por ser insensível à presença de valores aberrantes, a mediana é
considerada um estimador robusto.
 Exercício: 7,0; 8,5; 5,0; 8,0; 5,5; 10,0
 Ordenando: 5,0; 5,5; 7,0; 8,0; 8,5; 10,0

 A mediana é uma separatriz porque separa o conjunto de dados em dois:


 O que antecede a mediana;
 O que sucede a mediana.

09/11/2015 Prof. franke 12


 4.3.6 – Moda
 É o valor que ocorre com mais frequência em uma amostra
 A = {2, 4, 7, 12, 23, 8, 11, 4, 12, 22, 7, 12, 9, 10}

Comparação entre média, mediana e moda:


 Quando se comparam medidas de posição (tendência central) devemos lembrar:
 A média aritmética é o centro de gravidade do conjunto de dados;
 A mediana é o valor que ocupa a posição central de um conjuntos de dados ordenados;
 A moda é o valor mais frequente.

09/11/2015 Prof. franke 13


 As medidas de dispersão referem-se a maior ou menor variabilidade de um
conjunto de dados em torno da média.

 Permite identificar até que ponto os resultados se concentram ao redor da


centro de um conjunto de observações.

 Existem várias medidas para avaliar a dispersão de um conjunto de dados:


 1. Amplitude
 2. Variância
 3. Desvio Padrão
 4. Coeficiente de Variação
 5. Assimetria
 6. Curtose
 7. Erro padrão da média

09/11/2015 Prof. franke 14


 4.4.1 – Amplitude
 É a diferença entre o maior e menor valor presente nos dados amostrais
 O seu conhecimento é importante quando se faz a representação gráfica dos dados,
pois esta só deve conter valores entre o máximo e mínimo observado.

 4.4.2 – Variância
 Mede a dispersão dos dados em torno da média.
 A dispersão dos dados em torno da média é medida pelos desvios em relação à
média.
 Desvios em relação à media é a diferença entre cada valor observado e a média
do conjunto.
 Ou seja, variância é a soma dos quadrados dos desvios de cada ponto em torno
da média aritmética.
= variância da população
= variância da amostra

09/11/2015 Prof. franke 15


 Exemplo: Calcule a variância 09/11/2015do pH em cinco amostras de água.

Amostras pH Amostras pH Desvios Amostras pH Desvios Desvios


1 1,6
2 1,7 1 1,6 -0,02 1 1,6 -0,02 0,0004

3 1,7 2 1,7 0,08 2 1,7 0,08 0,0064

4 1,5 3 1,7 0,08 3 1,7 0,08 0,0064

5 1,6 4 1,5 -0,12 4 1,5 -0,12 0,0144

Soma 8,1 5 1,6 -0,02 5 1,6 -0,02 0,0004

= 1,62 Soma 8,1 0,00 Soma 8,1 0,00 0,028

09/11/2015 Prof. franke 16


09/11/2015 Prof. franke 17
 4.4.3. Desvio Padrão
 É a raiz quadrada, com sinal positivo, da variância

 4.4.3.1 – Desvio padrão da Amostra

S = desvio padrão

 4.4.3.2 – Desvio padrão da população

 = desvio padrão

09/11/2015 Prof. franke 18


 4.4.4 Coeficiente de Variação ou coeficiente de variabilidade (CV)
 O Coeficiente de variação (CV) é o desvio padrão expresso como percentagem
da média.
 É utilizado para comparar grandezas de unidades iguais ou diferentes, quando
os grupos são essencialmente diferentes.

Onde:
CV =coeficiente de variação
S = variância da amostra
= media da amostra

 Interpretação para o CV:


 CV até 15% - variação pequena
 CV entre 15 e 30% - variação média
 CV superior a 30% - variação grande

09/11/2015 Prof. franke 19


 Exemplo de medidas descritivas:

 Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas
Tur Notas dos alunos Nº de Média Mediana Moda Variância Desvio CV
ma alunos padrão (%)
A 4; 5; 5; 6; 6; 7; 7; 8
B 1; 2; 4; 6; 6; 9; 10; 10
C 0; 6; 7; 7; 7; 7,5; 7,5

Tabela 2 – Medidas descritivas das notas finais dos alunos de três turmas
Tur Notas dos alunos Nº de Média Mediana Moda Variância Desvio CV
ma alunos padrão (%)
A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8
B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5
C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8
09/11/2015 Prof. franke 20
 Exemplo de medidas descritivas:

 Tabela 2 – medidas descritivas das notas finais dos alunos de três turmas
Tur Notas dos alunos Nº de Média Mediana Moda Variância Desvio CV
ma alunos padrão (%)
A 4; 5; 5; 6; 6; 7; 7; 8 8 6,0 6,0 1,71 1,31 21,8
B 1; 2; 4; 6; 6; 9; 10; 10 8 6,0 6,0 6,0 12,29 3,51 58,5
C 0; 6; 7; 7; 7; 7,5; 7,5 7 6,0 7,0 7,0 7,25 2,69 44,8

Figura 1 – Representação das distribuições das notas de três turmas e


posições das médias aritméticas. Adaptado de BARBETTA et al., 2010.

09/11/2015 Prof. franke 21


 4.4.5. Assimetria
 Indica o grau de desvio de uma curva no sentido horizontal, podendo esse desvio ser
positivo, com excesso de valores altos, ou negativo, com predomínio de valores baixos em
relação a uma curva da distribuição normal.

09/11/2015 Prof. franke 22


 4.4.6. Curtose
 É o grau de achatamento de uma curva em relação a uma curva representativa da
distribuição normal

09/11/2015 Prof. franke 23


 4.4.7. Erro padrão da média
 Dá uma ideia da precisão da estimativa da média

 A estimativa para a média se torna mais precisa (intervalo menor) com o aumento da
quantidade de observações (n).

09/11/2015 Prof. franke 24


 4.4.1 Extremos
 Quando se tem interesse em conhecer outros aspectos relativos ao
conjunto de valores, além de um valor central ou valor típico, podemos
recorrer a medidas como: mediana, extremos e quartil.
 Chamamos de extremo inferior ao menor valor do conjunto de valores e
extremo superior ao maior valor.
Obs.:
Mesmo para variáveis que supostamente tenham distribuição razoavelmente
simétricas, a média e a mediana podem não ser iguais, já que, em geral,
estamos analisando apenas alguns valores dessas variáveis.
Para variáveis com distribuições razoavelmente simétricas, a média é a
medida de posição central mais adequada, porque usa o máximo da
informação contida nos dados.
A média é calculada usando propriamente a magnitude dos valores,
enquanto a mediana utiliza somente a ordenação dos valores.

09/11/2015 Prof. franke 25


09/11/2015 Prof. franke 26
 4.5.2 Quartis
 São medidas que dividem a série de valores da amostra em quatro frequências iguais de
25% cada. São eles:
 Q1 – 1º quartil (quartil inferior) que delimita os 25% menores valores
 Q2 - 2º quartil (mediana) separa os 50% menores dos 50% maiores valores
 Q3 - 3º quartil (quartil superior) que separa os 25% maiores valores

 Com os dados ordenados crescentemente, temos:


 Posição de Qi:

 Posição de md:

 Posição de Qs:

Fonte: BARBETTA et al., 2010

09/11/2015 Prof. franke 27


 Exemplo:
 Dados brutos: 15, 18, 5, 7, 9, 11, 3, 5, 6, 8, 12
 Ordenando: 3, 5, 5, 6, 7, 8, 9, 11, 12, 15, 18
 n = 11
 Posição de Qi: Qi = 5

 Posição de md: md = 8

 Posição de Qs: Qs = 12

09/11/2015 Prof. franke 28


Série original Série ordenada

Total Total
Ano (mm) Ano (mm)
1961 1868 1962 955
1962 955 1981 1259
1963 1673 1971 1286
1964 1389 1978 1374
1974 1381 Qi
1965 1770 Moda = 1673 e 1944 mm 1964 1389
1966 1875
1985 1407
1967 1811
1979 1416
1968 1488
1986 1467
1969 3287
1975 1485
1970 2824
1968 1488
1971 1286
1988 1489
1972 1673
1989 1582
1973 1609
1976 1597
1974 1381
1980 1606
1975 1485 Distância
1973 1609
1976 1597
1977 1823
1963 1673 interquartílica
1972 1673
1978 1374
1965 1770
1979 1416
1967 1811
1980 1606
1977 1823
1981 1259
1961 1868
1982 1944
1966 1875
1983 2292
1982 1944
1984 2044
1990 1944
1985 1407
1987 2005
1986 1467
1984 2044
1987 2005
1983 2292
Qs
1988 1489
1970 2824
1989 1582
1969 3287
1990 1944
09/11/2015 Prof. franke 29
09/11/2015 Prof. franke 30
Série original Série ordenada

Orde Total
Total m Ano (mm)
Ano (mm) 1 1962 955
1961 1868 2 1981 1259
1962 955 3 1971 1286
1963 1673 4 1978 1374
1964 1389 5 1974 1381 Moda = 1673 e 1944 mm
1965 1770 6 1964 1389
1966 1875 7 1985 1407
1967 1811 8 1979 1416
1968 1488 9 1986 1467
1969 3287 10 1975 1485
1970 2824 11 1968 1488
1971 1286 12 1988 1489
1972 1673 13 1989 1582
1973 1609 14 1976 1597
1974 1381 15 1980 1606
1975 1485 16 1973 1609
1976 1597 17 1963 1673
1977 1823 18 1972 1673
1978 1374 19 1965 1770
1979 1416 20 1967 1811
1980 1606 21 1977 1823
1981 1259 22 1961 1868
1982 1944 23 1966 1875
1983 2292 24 1982 1944
1984 2044 25 1990 1944
1985 1407 26 1987 2005
1986 1467 27 1984 2044
1987 2005 28 1983 2292
1988 1489 29 1970 2824
1989 1582 30 1969 3287
09/11/2015 Prof. franke 31
1990 1944
Figura 5 – Posição dos quartis e extremos em distribuições diferentes
quanto à dispersão e assimetria. Fonte: BARBETTA et al., 2010

09/11/2015 Prof. franke 32


 4.5.2 Diagrama de caixas (Box plot)
 Trata-se de um retângulo que representa o desvio interquartílico.
 Este retângulo representa, portanto, a faixa dos 50% dos valores mais típicos da
distribuição
 Ele é dividido no valor correspondente à mediana; assim, indica o quartil inferior, a
mediana e o quartil superior

09/11/2015 Prof. franke 33


09/11/2015 Prof. franke 34
• O coeficiente de Gini é um dos principais índices de desigualdade utilizados.
• O Gini é uma medida de desigualdade desenvolvida pelo estatístico italiano
Corrado Gini e publicada no documento “Variabilità e Mutabilità” em 1912.
• Esse índice é comumente utilizado para calcular a desigualdade de
distribuição de renda, mas pode ser usada também para qualquer
distribuição, como concentração de terra, riqueza entre outras.
• Ele consiste em um número entre 0 e 1, onde:
• Índice 0 (zero) corresponde à completa igualdade de renda (onde todos têm a mesma
renda), e;
• Índice 1 (um) corresponde à completa desigualdade (onde uma pessoa tem toda a renda, e
as demais nada têm).

• A construção do coeficiente de Gini é baseado na “Curva de Lorenz”.

09/11/2015 Prof. franke 35


 4.6.1 Definição da Curva de Lorenz
 É uma curva que mostra como a proporção acumulada da renda (qi ) varia em função
da proporção acumulada da população (i), estando os indivíduos ordenados pelos
valores crescentes da renda.
 Como a diagonal principal divide o quadrado em partes iguais, qualquer ponto nessa
reta é um ponto em que os valores da abscissa e ordenada são iguais.

09/11/2015 Prof. franke 36


• 4.6.2 Coeficiente de Gini
 Para calcular o índice de Gini usa-se frequentemente a equação de Brown

Onde: X = proporção acumulada da população


Y= proporção acumulada da renda

 Para facilitar os cálculos pode-se usar uma forma equivalente, usando


distribuição de frequências

Onde: Qi = proporção de renda e Pi = proporção da população


09/11/2015 Prof. franke 37
• Exemplo: Calcule o índice de Gini para a distribuição dos salários mensais dos
trabalhadores de uma empresa.
Pessoa Salário Pessoa Salário Pessoa Salário Parâmetros da tabela freq
1 3200 16 600 31 600 n =43
2 1800 17 2500 32 300 Máximo=5000
3 1200 18 1500 33 480 Mínimo=100
4 600 19 360 34 480 Amplitude=4900
5 5000 20 1200 35 480 n. classes=7
6 3000 21 1680 36 600 Intervalo classses =700
7 2700 22 2300 37 720
8 1360 23 1094 38 400
9 750 24 1045 39 715
10 600 25 2625 40 960
11 150 26 4070 41 900
12 600 27 3565 42 400
13 700 28 2855 43 600
14 100 29 600
15 600 30 600
Fonte: BARBETTA et al., 2010
09/11/2015 Prof. franke 38
• Procedimento para cálculo do IGini
(1) (2) (3) (4) (5) (6) (7) (8) (9)
Faixas de Ponto Frequência, Frequência P. Médio
salários médio pessoas acumulada X Acumulado P Q P-Q
(R$) (fi) (fa) frequência
[100;800) 450 23 23 10.350 10.350 0,53 0,19 0,34
[800;1500) 1150 8 31 9.200 19.550 0,72 0,36 0,36
[1500;2200) 1850 2 33 3.700 23.250 0,77 0,43 0,34
[2200; 2900) 2550 5 38 12.750 36.000 0,88 0,66 0,22
[2900;3600) 3250 3 41 9.750 47.750 0,95 0,84 0,11
[3600; 4300) 3950 1 42 3.950 49.700 0,98 0,91 0,07
[4300;5000] 4650 1 43 4.650 54.350 1,00 1,00 0,00
Soma 43 54.350  4,83  1,44
(6) = Acumulado da coluna (5)
(7) = proporção do acumulado da população: quociente entre coluna (4) por (n) 43
(8) = proporção do acumulado da renda: quociente da coluna (6) por (54.350)
(9) = Subtração da coluna (7) pela coluna (8)

09/11/2015 Prof. franke 39


25
23

20
Frequência de trabalhadores

15

10
8

5
5
3
2
1 1
0
450 1150 1850 2550 3250 3950 4650
Classes de salários (R$)

Figura 4 – Histograma de frequência do exemplo dos trabalhadores de uma empresa


Fonte: BARBETTA et al., 2010
09/11/2015 Prof. franke 40
 Como faz a curva de Lorenz no Excel
1

0,9

0,8
Porcentagem de salários (Q)

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Porcentagem da população (P)

Figura 5 – Curva de Lorenz para o exemplo dos trabalhadores da empresa.

09/11/2015 Prof. franke 41


Tabela de classificação do Índice de Gini.

09/11/2015 Prof. franke 42


Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008
Fonte: IBGE, 2013.
09/11/2015 Prof. franke 43
desigualdade de renda no Brasil
0,700
0,650
0,634
0,622 0,615 0,612
0,600 0,604
0,593 0,589 0,594 0,588 0,5960,587 0,599
0,602 0,5990,6000,6000,5980,592 0,593 0,587
0,582 0,580 0,581
0,5690,5660,559
0,550 0,552
0,544

0,500
0,450
Índice de gini

0,400
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005 2007
Anos
Figura 6 - Coeficiente de Gini para a renda dos brasileiro, no período de 1977 a 2008
Fonte: IBGE, 2013.
09/11/2015 Prof. franke 44
09/11/2015 Prof. franke 45
09/11/2015 Prof. franke 46

Das könnte Ihnen auch gefallen