Beruflich Dokumente
Kultur Dokumente
Há dois ramos na estatística, a descritiva que trata da organização, resumo e análise dos
dados, e a inferencial que a partir de uma amostra, permite tirar conclusões sobre a
população. Ambas são usadas para a tomada de decisões.
Simulação: Usa-se um modelo matemático (em geral com apoio de computador) para
reproduzir certa condição da realidade. Na maior parte das vezes, este processo se apoia
em dados secundários.
A Estatística Descritiva.
Estes recursos permitem extrair da base de dados às informações que buscamos. Usar
apenas alguns indicadores como média aritmética e desvio padrão seria limitar a
possibilidade de revelar o que está acontecendo com os dados que analisamos.
Os resultados obtidos nos relatórios gerados por programas (software) permitem gerar
relatórios das bases de dados com muita transparência. A boa divulgação do material
estatístico, gerado desta maneira, permite melhorar a qualidade informação e melhor
compreensão dos leitores dos fenômenos analisados.
Os dados gerados pela realidade podem ser resumidos, esta alternativa permite
compreender e analisar grandes conjuntos de informação. Por exemplo, se um
proprietário de um pequeno comércio deseja saber as principais características de
consumo dos aproximadamente 200 freqüentadores diários do seu estabelecimento, os
resumos obtidos pela estatística descritiva oferecem uma ótima alternativa.
1
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Em qualquer um dos casos citados acima o que se busca são padrões que permitam uma
análise ou o entendimento de um fenômeno qualquer.
As Principais Medidas.
1. Proporções:
Exemplos:
a) A empresa X faturou os valores nas seguintes cidades:
Cidade Valor em R$ Part. %
Campinas 320.974,00 17,38%
São Paulo 740.985,00 40,11%
Guarulhos 145.470,00 7,88%
Ribeirão Preto 250.239,00 13,55%
S. José dos
Campos 389.560,00 21,09%
Total 1.847.228,00 100,00%
2
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
As medidas de posição central são calculadas a partir de uma base de dados numéricos e
usadas para descrever, compreender e inferir informações destes dados. Estas medidas
geralmente se localizam em torno do centro desta base dados quando estão ordenados
(isto é, posicionados em ordem crescente ou decrescente).
MÉDIA ARITMÉTICA
É definida como sendo a razão entre a soma dos valores de um grupo de dados
numéricos pela quantia de dados deste conjunto.
Simbologia da média aritmética populacional:
__
Simbologia da média aritmética da amostra: X
Fórmula de cálculo:
X
N sendo, “N” é o nº de observações, ou nº de
valores do conjunto de dados.
O x (sigma de “x”) pode ser definido como o total dos valores dos dados, ou
seja: T = x
Para dados agrupados ou distribuições de frequências, a fórmula de cálculo da
média aritmética fica:
fX
N onde N = f e T = fx
MEDIANA
3
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
MODA
4
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Isto significa que os dados são distribuídos igualmente à esquerda e a direita da média.
5
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
.observações.
(x - ) = 0
Em distribuições de frequências:
f(x - ) = 0
OUTRAS MÉDIAS.
É uma média geométrica muito utilizada nas situações envolvendo taxas e suas
variações, o seu cálculo é feito com multiplicatórios e raízes.
n
1/ n
X
n
i X i n
1
i
i 1
Mgeomértica = ou
6
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
IPCA mensal
Janeiro/13 0,86% Julho/13 0,03%
Fevereiro/13 0,60% Agosto/13 0,24%
Março/13 0,47% Setembro/13 0,35%
Abril/13 0,55% Outubro/13 0,57%
Maio/13 0,37% Novembro/13 0,54%
Junho/13 0,26% Dezembro/13 0,92%
Fonte: IBGE
Para isso, dividimos 0,60/100 = 0,0060, o próximo passo é somar 1, para poder
multiplicar todas as taxas.
Fórmula para a transformação da taxa em fator:
Xi
1
100
Tabela com os fatores de IPCA
Janeiro/13 1,00860 Julho/13 1,00030
Fevereiro/13 1,00600 Agosto/13 1,00240
Março/13 1,00470 Setembro/13 1,00350
Abril/13 1,00550 Outubro/13 1,00570
Maio/13 1,00370 Novembro/13 1,00540
Junho/13 1,00260 Dezembro/13 1,00920
Multiplicatório:
= (1,0086 x 1,006 x 1,0047 x 1,0055 x 1,0037 x 1,0026 x 1,0003 x 1,0024 x 1,0035 x
1,0057 x 1,0054 x 1,0092)1/12 = 1,05911
A partir do fator (1,05911), podemos afirmar que inflação acumulada em 2013 é 5,91%
ao ano.
fator 1 x100
Temos: (1,004797071 – 1) = 0,004797071
7
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Podemos afirmar que a inflação média no Brasil em 2013 ficou em 0,48% (valor
arredondado) ao mês.
Utilizamos a média geométrica para avaliar o desempenho das variáveis que são
expressas na escala da razão. No exemplo acima, a inflação média de 2013 pode servir
de referência compreender o que ocorreu com a inflação neste período, bem como
estimar o seu comportamento nos próximos 12 meses.
A ponderação que fazemos para projetar uma taxa é a seguinte: podemos afirmar que, se
nada for feito para combater a inflação, ela terá uma trajetória igual a de 2013.
Neste caso, basta elevar o fator (1,004797071)12 a 12ª potência, o resultado desta
operação será: 1,059108187 – ou seja, uma taxa de 5,91%. Esta é a cifra da inflação
acumulada de 2013.
O uso da média geométrica para prever a inflação futura é muito rudimentar, há outras
técnicas mais eficientes – como, por exemplo, estudar o comportamento de cada família
de produtos que compõe o índice de inflação. No entanto, em alguns casos, este pode
ser o único recurso que dispomos.
Suponha que um investidor aplicou $ 10.000,00 em um fundo de renda fixa, pelo prazo
de 9 meses, e apurou as taxas de remuneração deste investimento nos últimos 6 meses.
Qual será a projeção de remuneração deste investimento?
Mês 1 Mês 2 Mês 3 Mês 4 Mês 5 Mês 6
Taxas em % 0,71 0,56 - 0,21 0,97 0,82 0,77
8
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Se o objetivo, neste caso, é encontrar a medida de posição central que representa este
conjunto, a moda ou a mediana são mais adequadas, pois permitem discutir como fazer
para aumentar o valor dos alugueis recebidos. Caso a finalidade seja multiplicar a
medida de posição central pelo número de inquilinos e obter o faturamento, a média
aritmética é mais apropriada.
Outro exemplo, quando o sindicato dos trabalhadores vai reivindicar aumento salarial,
ele usará a mediana ou a moda para representar a medida de posição central (supondo
que a categoria recebe salários discrepantes) e usará esta medida como argumento.
A discussão sobre a escolha da “melhor” medida de posição central nos permite refletir
sobre a definição dos objetivos de uma pesquisa, as caraterísticas observadas na base de
dados, e o uso do melhor indicador.
É importante apontar que a escala escolhida para fazer o estudo estatístico determina as
ferramentas que podemos utilizar para produzir os indicadores que servirão para análise
ou a pesquisa.
9
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Isto significa que a escala nominal, por exemplo, não permite obter médias, medianas
ou quaisquer indicadores que utilizem abordagem matemática, pois neste caso, o
tratamento dado aos nomes é limitado. Esta métrica permite apenas fazer uma simples
contagem e a construção de alguns indicadores derivados desta condição.
A escala ordinal, por permitir a construção de hierarquia, opera com uma base
numérica maior, amplia o número de testes, mas não permite, por exemplo, a obtenção
de médias.
O nível ordinal fornece informações sobre a ordenação, mas não indica a magnitude das
diferenças entre os valores, por exemplo, quando classificamos uma doença, podemos
afirmar que um grau pode ser mais nocivo que outro, mas não há maneira numérica de
medir estas diferenças.
10
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Podemos afirmar que a escala Intervalar tem todas as características de uma escala
ordinal, além disso, é possível se conhecer as distâncias entre dois números quaisquer
desta escala pois há sempre uma unidade de medida.
Por exemplo, o tempo (hora, dias, meses, anos); as receitas de vendas (reais ou dólares);
os preços (reais ou dólares).
As medidas de dispersão:
11
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Muitas vezes as medidas de posição central não são suficientes para resumir ou
descrever uma base de dados. Neste caso se torna necessário lançar mão de outros
indicadores, eles permitirão compreender melhor as características do conjunto de
informação.
Podemos afirmar que as médias apresentam apenas uma dimensão das bases de dados
que estamos analisando, tornando-se sempre necessário acrescentar as medidas de
dispersão e os intervalos de classe para revelar plenamente as suas características.
Como podemos observar no quadro acima, as medidas de posição central não são
conclusivas, pois apenas as modas são diferentes, sendo que a diferença neste caso é
insignificante.
Com estes indicadores não é possível afirmar que o comportamento dos alunos da sala 1
e da 2 são diferentes.
Analisando a partir desta perspectiva podemos perceber diferenças entre as duas salas e
afirmar que na sala 1 os alunos são mais constantes no quesito presença.
A amplitude:
Resultados Intervalo
Sala 1 21
12
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Como podemos observar, a Sala 1 apresenta um intervalo maior que a Sala 2 isto
significa que, quanto maior a amplitude, maior será a dispersão da base de dados, ou
seja, o registro das faltas dos alunos da Sala 1 apresentam uma variação maior.
Para que a comparação entre duas bases de dados seja efetiva é importante que tenham
o mesmo número de observações “n”, caso contrário a conclusão será equivocada.
Infelizmente, a amplitude ainda não é um teste conclusivo como medida de variação, os
dados de distribuição de duas (ou mais) amostras, necessitam de indicadores mais
precisos para serem mais bem avaliados.
Se concordarmos com esta ideia, podemos utilizar uma medida de variação baseada nos
desvios. No entanto, os desvios das observações abaixo da média são negativos e os
desvios das observações acima são positivos. Estes desvios serão maiores, em valor
absoluto, quanto mais afastadas as observações estiverem da média e a soma destes
desvios será sempre nula.
Média Faltas Sala 1 Desvio Faltas Sala 2 Desvio
8,11 0 -8,11 2 -6,11
8,11 2 -6,11 3 -5,11
8,11 5 -3,11 5 -3,11
8,11 6 -2,11 8 -0,11
8,11 8 -0,11 8 -0,11
8,11 9 0,89 10 1,89
8,11 9 0,89 11 2,89
8,11 13 4,89 12 3,89
8,11 21 12,89 14 5,89
Soma dos Desvios 0,00 Soma dos Desvios 0,00
Para que o resultado dos desvios seja diferente de zero, é necessário somar os desvios
em módulo, desta maneira teremos o valor absoluto do desvio, que divido por “n”
observações obtemos a média. Esta média é chamada de Desvio Médio Absoluto –
DMA.
n
Xi
i 1
DMA
n
A soma dos desvios da Sala 1 será 39,11, e da Sala 2, 29,11. Ambos ponderados pelas 9
observações temos o seguinte resultado:
13
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Resultados DMA
Sala 1 4,35
Sala 2 3,23
Podemos interpretar este indicador da seguinte maneira. A média dos desvios dos
alunos da Sala 1 em relação à média é 4 (4,35) e para Sala 2 é 3 (3,23). Podemos
afirmar que o DMA é um indicador eficiente de dispersão para estatística descritiva,
mas que não é usado com muita frequência, pois suas propriedades matemáticas não são
tão utilizadas como o desvio padrão.
O desvio padrão permite descobrir que os dados de uma base, têm valores mais
dispersos que da outra, coisa que os indicadores DMA e intervalo também revelam. No
entanto, as propriedades matemáticas do desvio padrão permitem que ele seja utilizado
em uma distribuição teórica de grande utilidade nos estudos estatísticos, que é
conhecida com o nome de “Distribuição Normal”. Trataremos desta distribuição mais
adiante.
O desvio padrão é calculado através do quadrado dos desvios dividido pelo número “n”
de observações, isto é na realidade uma média.
Desvio ao
Média Faltas Sala 1 quadrado
8,11 0 65,79
8,11 2 37,35
8,11 5 9,68
8,11 6 4,46
8,11 8 0,01
8,11 9 0,79
8,11 9 0,79
8,11 13 23,90
8,11 21 166,12
Soma dos Desvios ao quadrado 308,89
14
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
E o desvio padrão:
2
xi x
n
i 1
s
n
xi
N 2
i 1
N
15
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Preço Preço
Produtos
Antes Depois
Tomate 2,00 4,00
Feijão 4,50 9,00
Arroz 6,20 12,40
Alface 3,10 6,20
Cenoura 2,50 5,00
Batata 3,40 6,80
Contudo, se abordado pelo CV, temos que antes de depois da inflação a composição dos
dados apresenta o mesmo grau de dispersão. Entendemos o CV como uma proporção do
desvio padrão em relação à média.
CV 42,17% 42,17%
O quadro acima revela a igualdade na dispersão entre as bases de dados, pois foi
mensurada de maneira relativa.
16
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Este tema trata de distribuição de frequência que abordaremos a seguir, o cálculo dos
indicadores de assimetria e curtose, são apurados, na maioria das vezes, através das
medidas de posição central de dispersão.
Medidas de Assimetria.
As medidas de assimetria e curtose são as que restam para completarmos o quadro das
estatísticas descritivas, que proporcionam, juntamente com as medidas de posição e
dispersão, a descrição e compreensão completas da distribuição de frequências
estudadas.
a) Simétrica
b) Assimétrica Positiva
17
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Assim: ẋ = Me = Mo
Graficamente:
Graficamente:
18
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Graficamente:
No entanto, não basta apenas examinar as medidas de posição central. É necessário usar
alguns indicadores adequados para verificar se uma distribuição é simétrica ou
assimétrica.
Medindo a Assimetria.
Trata-se do método mais rudimentar, o qual não permite estabelecer até que ponto a
curva analisada se desvia da simetria. A comparação é bem simples.
1. Coeficiente de Pearson.
3 ( Média Mediana)
Coeficiente de Pearson
Desvio Padão
Assim: -3 Pearson +3
Assim: 0,15 |Pearson| 1 Assimetria moderada
Assim: 1 |Pearson| => Assimetria forte
19
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
2 (Q3 Q1 2(mediana))
Bowley
Q3 Q1
O coeficiente Quartil de Assimetria (ou Bowley) assume valores entre +2 e –2.
Assim: -2 Bowley +2
3. Terceiro Momento.
__
( X i X )3
3 Momento
o n
s3
A Curtose indica quando a curva de uma distribuição se apresenta mais afilada ou mais
achatada do que uma curva padrão, denominada curva normal. De acordo com o grau da
curtose, podemos ter três tipos de curvas de frequência.
20
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
( xi x)
n
i 1
4 o Momento n
4
s
Esta medida é conhecida também como “quarto Momento”, e podemos interpretar os
resultados da seguinte maneira: quando obtemos um número maior que 3 temos uma
distribuição leptocúrtica, se for menor que 3 é platicúrtica, caso se aproxime de zero
temos uma distribuição mesocúrtica.
d) Coeficiente de Curtose
21
Prof. Renaldo A. Gonsalves Pontifícia Universidade Católica de
Q3 Q1
C
2 ( P90 P10 )
Distribuições de Frequências.
22