Sie sind auf Seite 1von 77

Tentando ser um pouco mais rigoroso, podemos dizer que:

ESTATÍSTICA é a ciência que estuda as técnicas necessárias para coletar,


organizar, apresentar, analisar e interpretar os dados, a fim de extrair informações a
respeito de uma população.

POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que


interessam ao estudo de um fenômeno coletivo segundo alguma característica.

AMOSTRA é qualquer subconjunto não vazio de uma população.

PARÂMETRO é uma característica numérica estabelecida para toda uma


população.

ESTIMADOR é uma característica numérica estabelecida para uma amostra.

Exemplo:
Fenômeno coletivo: eleição para governador do Estado de Goiás.
População: conjunto de todos os eleitores do estado.
Parâmetro: proporção de votos de um certo candidato X.
Amostra: grupo de 1.000 eleitores selecionados em todo o estado.
Estimador: proporção de votos do candidato X, obtida na amostra.

Dentre os modelos estatísticos podemos destacar os seguintes:

CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos


de uma população.

AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer


generalizações sobre a população sem precisar examinar cada um de seus
elementos.

Principais propriedades do Censo:


• Confiabilidade 100%
• Custo elevado
• Lento
• Nem sempre é viável

Principais propriedades da Amostragem:


• Confiabilidade menor que 100%
• Mais barata que o Censo
• Mais rápida que o Censo
• É sempre viável

2
Coleta

POPULAÇÃO AMOSTRA

informações Análise e interpretação dos dados


(conclusões / tomada de decisões) (usando técnicas estatísticas)

1.2 PARTES DA ESTATÍSTICA

Estatística Descritiva – é a parte da Estatística que trabalha com a organização e a


apresentação dos dados.

Estatística Indutiva ou Inferência Estatística – é a parte da Estatística que


trabalha com análise e interpretação dos dados, com o objetivo de obter e
generalizar conclusões para a população a partir de uma amostra.

Inicialmente vamos nos dedicar ao estudo da Estatística Descritiva.


Posteriormente, abordaremos alguns aspectos da Inferência Estatística.

1.3 ATRIBUIÇÕES DA ESTATÍSTICA DESCRITIVA

• Obtenção ou coleta de dados – normalmente feita através de um questionário ou


de observação direta
• Organização dos dados – consiste na ordenação e crítica dos dados
• Apresentação dos dados – através de tabelas e gráficos
• Obtenção de algumas informações como médias, proporções, dispersões,
índices que facilitam a descrição dos fenômenos observados.

Passamos a descrever os conceitos envolvidos em um estudo da Estatística


Descritiva.

DADO ESTATÍSTICO é toda informação devidamente coletada e registrada.


Todo dado se refere a uma variável.

3
VARIÁVEL é uma característica dos elementos de uma população ou de uma
amostra, que pode assumir diferentes valores, sejam numéricos ou não, e que
interessa ao estudo.

1.3.1 CLASSIFICAÇÃO DAS VARIÁVEIS

Ordinal
Qualitativa
Nominal
Variável
Discreta
Quantitativa
Contínua

Variável Qualitativa: tipo de variável que não pode ser medida numericamente.
Exemplos: cor dos cabelos, marca de refrigerantes, cor dos olhos, etc.

As variáveis qualitativas se classificam em dois tipos:


- Variável Qualitativa Ordinal: quando seus elementos têm relação de ordem.
Exemplos: colocação – primeiro lugar, segundo lugar, etc.
conceito – ótimo, bom, regular, péssimo.

- Variável Qualitativa Nominal: quando seus elementos são identificados por um


nome.
Exemplos: cor dos olhos, marcas de carro, etc.

Variável Quantitativa: tipo de variável que pode ser medida numericamente.


Exemplos: peso, altura, número de faltas, número de gols, etc.

Já as variáveis quantitativas têm as seguintes classificações:


- Variável Quantitativa Discreta: tipo de variável que só pode assumir valores
pertencentes a um conjunto enumerável. Normalmente seus valores estão
associados a característica de contagem.
Exemplos: número de carros vendidos, número de filhos, etc.

- Variável Quantitativa Contínua: tipo de variável que pode assumir qualquer


valor num intervalo de valores. Normalmente seus valores estão associados a
característica de medidas.
Exemplos: altura das pessoas, peso dos recém-nascidos, etc.

4
Obs.: a variável idade, apesar de ser representada, geralmente, por números
inteiros, é uma variável contínua, pois está relacionada com o tempo, que é uma
variável contínua.

1.3.2 ORGANIZAÇÃO DE DADOS EM TABELAS

Objetivo: apresentar resumidamente, de maneira clara e precisa, um conjunto de


dados estatísticos.

São elementos das tabelas:

Título – texto conciso, indicador do conteúdo de uma tabela. Localizado no topo


da tabela, responde às perguntas: O quê? Quando? Onde?

Corpo – conjunto de linhas e colunas que contém informações sobre a variável em


estudo. Cada cruzamento de uma linha com uma coluna constitui uma casa ou
célula.

Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas.

Coluna Indicadora – parte da tabela que especifica o tipo de informação que cada
linha contém.

Fonte – identificador do responsável (pessoa física ou jurídica) pelo fornecimento


dos dados. Não se indica a fonte no caso em que a tabela é apresentada pelo
próprio pesquisador, ou pelo próprio grupo de pesquisadores, ou pela própria
instituição que obteve os dados. É inscrita na primeira linha do rodapé (parte
inferior da tabela) e deve ser precedida da palavra Fonte:.
Notas – são informações de natureza geral que servem para esclarecer o conteúdo
das tabelas ou para explicar o método utilizado no levantamento dos dados. As
notas são colocadas logo após a fonte.

Chamadas – são informações de natureza específica que servem para explicar ou


conceituar determinados dados. As chamadas são inscritas no rodapé após a Fonte
e as Notas.

As chamadas devem obedecer às seguintes regras:

a) A chamada deve ser indicada por algarismo arábico, ou por asterisco, entre
parênteses. A chamada deve ser escrita à esquerda da casa, quando feita no
corpo da tabela, e à direita da coluna indicadora, quando feita nessa coluna.
b) Se houver mais de uma chamada na mesma tabela, elas devem ser numeradas
sucessivamente, de cima para baixo e da esquerda para a direita.

5
c) As chamadas são colocadas no rodapé da tabela, em ordem numérica e
separadas por pontos.
d) Quando a tabela ocupa várias páginas, as chamadas devem ser apresentadas na
página em que aparecem.

Exemplo de tabela:

PRODUÇÃO BRASILEIRA DE CAFÉ Título


1991-1995
Coluna ANOS PRODUÇÃO (1.000 t) Cabeçalho
Indicadora 1991 2.535
1992 2.666 Casa ou célula
1993 2.122
1994 3.750
1995 2.007
Rodapé FONTE: IBGE Corpo

1.3.3 NORMAS PARA APRESENTAÇÃO DE TABELAS


a) as tabelas devem ser delimitadas, no alto e em baixo, por traços horizontais;
b) as tabelas não devem ser delimitadas, à direita e à esquerda, por traços verticais;
c) o cabeçalho deve ser delimitado por traços horizontais;
d) podem ser feitos traços verticais no interior da tabela, separando as colunas;
e) as tabelas devem ter significado próprio, isto é, devem ser entendidas mesmo
quando não se lê o texto em que estão apresentadas;
f) as tabelas devem ser numeradas com algarismos arábicos;
g) a tabela deve ser colocada no texto em posição tal que não exija, para a leitura,
rotação da página em sentido horário;
h) quando dois ou mais tipos de informação tiverem sido agrupados em um só
conjunto, esse conjunto entra na tabela sob a denominação “outros”;
i) as tabelas podem apresentar dados obtidos através de perguntas ou de
entrevistas. Nesses casos, se parte das pessoas não respondeu a determinada
pergunta, essa informação deve ser apresentada na tabela sob a especificação
“sem declaração”;
j) nenhuma célula da tabela deve ficar em branco. Toda célula deve apresentar um
número ou um sinal, conforme a convenção:
... dado numérico não disponível
6
- dado numérico igual a zero não resultante de arredondamento.
0 quando o valor é muito pequeno para ser expresso pela unidade
utilizada
x dado omitido, a fim de evitar a individualização da informação

k) as tabelas muito longas precisam ser apresentadas em duas ou mais páginas.


Nesses casos, o cabeçalho deve ser repetido em todas as páginas, mas o título é
escrito apenas na primeira. Nas demais páginas escreve-se, em lugar do título,
“continua” e na última escreve-se “conclusão”. Só deve ser feito o traço
inferior, que delimita a tabela, na última página;
l) as tabelas com muitas linhas e poucas colunas ficam melhor apresentadas
quando as colunas são organizadas em duas ou mais partes, escritas lado a lado.
Essas partes são separadas por dois traços verticais. Nesses casos, o cabeçalho
deve indicar o conteúdo das colunas em todas as partes;
m) as tabelas com muitas colunas precisam ocupar duas páginas que se
confrontam. Para facilitar a leitura, todas as linhas devem receber um número
de ordem. O número de ordem deve ser escrito na primeira coluna da página à
esquerda e na última coluna da página à direita;
n) o total é geralmente apresentado na última linha, entre dois traços horizontais,
embora também possa ser apresentado na primeira linha.

1.4 SÉRIES ESTATÍSTICAS

Uma série estatística é toda tabela que apresenta a distribuição de um conjunto de


dados estatísticos em função do tempo, do local ou do fenômeno.

Tipos Básicos de Séries:


• Temporal, Cronológica ou Histórica
• Geográfica, Territorial ou de Localização
• Categórica ou Específica

Série Temporal: usada para apresentar dados observados em determinado local,


discriminados ao longo do tempo.

7
Exemplo:

Produção Brasileira de Motos


1996-1998
Ano Produção (unidades)
1996 288.073
1997 426.547
1998 476.655
Fonte: Revista ISTO É – no1546

Apresentação do tempo:

• Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus
períodos inicial e final ligados por um hífen (-).
Exemplos:
1991 – 1995 apresenta dados numéricos para os anos de 1991, 1992, 1993,
1994, 1995;
Out 1991 – Mar 1992 apresenta dados numéricos para os meses de outubro,
novembro e dezembro de 1991 e janeiro, fevereiro e março de 1992.

• Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por
seus períodos inicial e final ligados por barra (/).
Ex: 1991/1995 apresenta dados para os anos entre 1991 e 1995, deixando de
apresentar dados numéricos para algum (ns) dos anos desta série.

Série Geográfica: usada para apresentar dados de diferentes regiões geográficas,


em determinado tempo.

Exemplo:

Vacinação contra a Poliomielite


1993
Regiões Quantidade
Norte 211.209
Nordeste 631.040
Sudeste 1.119.708
Sul 418.785
Centro-Oeste 185.823
Fonte: Ministério da Saúde

8
Série Categórica: usada para apresentar dados que se distribuem em diferentes
categorias, em determinado tempo e local.
Exemplo:

Avicultura Brasileira
1992
Espécies Número
(1.000 cabeças)
Galinhas 204.160
Galos, frangos, frangas e pintos 435.465
Codornas 2.488
Fonte: IBGE

Séries Mistas ou Conjugadas (tabela de dupla entrada): quando são feitas


combinações de duas ou mais séries.

Exemplo:

Exportação Brasileira
1985/1995
Importadores 1985 1990 1995
América Latina 13,0 13,4 25,6
EUA e Canadá 28,2 26,3 22,2
Europa 33,9 35,2 20,7
Ásia e Oceania 10,9 17,7 15,4
África e Oriente Médio 14,0 8,8 5,5
Fontes: MIC e SECEX
Nota: Valores em percentagem

1.5 REPRESENTAÇÃO GRÁFICA DAS SÉRIES ESTATÍSTICAS

Os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo,


ajudando a visualizar as tendências e a interpretar os valores representativos deste
fenômeno.

Requisitos Fundamentais na Representação Gráfica:

• O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno
em estudo;
• Todo gráfico deve ter título e escala, para que possa ser interpretado sem que
haja necessidade de esclarecimentos adicionais no texto;
• O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE
escreve o título acima do gráfico;
9
• As variáveis devem ser claramente identificadas;
• A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os
valores iniciais dos dados são muito altos, deve ser feita uma interrupção no
eixo, com indicação clara da posição do zero;
• O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais
leve do que a parte do gráfico que se pretende evidenciar;
• Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o
gráfico é feito dentro de um retângulo.

Principais Tipos de Gráficos: • Diagramas


• Cartogramas
• Pictogramas

Cartogramas: São representações através de mapas (cartas geográficas). Este


gráfico é empregado quando o objetivo é o de relacionar os dados estatísticos
diretamente com áreas geográficas ou políticas.

Pictogramas: É a representação gráfica através de figuras. Por se tratar de uma


apresentação atraente, é um gráfico que desperta muito a atenção do leitor.

Diagramas: São gráficos geométricos construídos, em geral, no sistema


cartesiano.

Principais Diagramas: Gráfico em Linha, Gráfico em Colunas, Gráfico em


Barras, Gráfico em Colunas ou em Barras Múltiplas e Gráfico em Setores.

Gráfico em Linha: Usado para apresentar as séries temporais. Representado num


sistema de coordenadas cartesianas, cada par de valores da série corresponde a um
ponto. Estes pontos são unidos por segmentos de reta.
Exemplo:

Tabela 1
PRODUÇÃO BRASILEIRA DE CAFÉ
1991-1995
ANOS PRODUÇÃO (1.000 t)
1991 2.535
1992 2.666
1993 2.122
1994 3.750
1995 2.007
FONTE: IBGE

10
PRODUÇÃO BRASILEIRA DE CAFÉ
1991-1995

4.000
3.500
PRODUÇÃO (1.000t)

3.000
2.500
2.000
1.500
1.000
500
0
1991 1992 1993 1994 1995
ANOS

Regras para a elaboração de um gráfico em linhas:

• Fixe a largura (l) do gráfico;


• Determine a altura máxima e a altura mínima de acordo com as normas a
seguir:
hmín = 60% da largura e hmáx = 80% da largura
• Determine os limites da escala, dividindo o maior valor a representar pela altura
máxima e pela altura mínima;
• Determine a escala, escolhendo um valor, de preferência inteiro, entre os
valores encontrados para limites;
• Trace um sistema de coordenadas cartesianas;
• Determine, graficamente, todos os pontos da série;
• Ligue esses pontos, dois a dois, por segmentos de reta;
• Identifique, claramente, as variáveis nos dois eixos;
• Acrescente o Título, a Fonte e a Legenda (quando necessária).

Gráfico em Colunas: Usado para representar as séries cronológicas, geográficas e


categóricas. Representado por meio de retângulos de mesma base, dispostos
verticalmente (em colunas).

Exemplo:

11
Tabela 1
PRODUÇÃO BRASILEIRA DE CAFÉ
1991-1995
ANOS PRODUÇÃO (1.000 t)
1991 2.535
1992 2.666
1993 2.122
1994 3.750
1995 2.007
FONTE: IBGE

PRODUÇÃO BRASILEIRA DE CAFÉ


1991-1995

4.000

3.500

3.000
PRODUÇÃO (1.000t)

2.500

2.000

1.500

1.000

500

0
1991 1992 1993 1994 1995
ANOS

Gráfico em Barras: Usado para representar as séries geográficas e categóricas.


Representado por meio de retângulos dispostos horizontalmente (em barras).

Exemplo:

12
Tabela 2
EXPORTAÇÕES BRASILEIRAS
MARÇO – 1995
ESTADOS VALOR (US$ milhões)
São Paulo 1.344
Minas Gerais 542
Rio Grande do Sul 332
Espírito Santo 285
Paraná 250
Santa Catarina 202
FONTE: SECEX

E X P O R T A Ç Õ E S B R A S IL E IR A S
M A R Ç O - 1995

S a n t a C a t a r in a

P a ra n á

E s p í r it o S a n t o

R io G r a n d e d o S u l

M in a s G e r a is

S ã o P a u lo

0 500 1 .0 0 0 1 .5 0 0

V a lo r ( U S $ m ilh õ e s )

OBSERVAÇÕES:

1) O procedimento para a construção de um gráfico em colunas (ou barras) é


análogo ao do gráfico em linhas, observando que no gráfico em barras deve-se
fazer a inversão nos eixos cartesianos (o eixo x corresponde a altura e o eixo y
corresponde a largura).
2) Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência
ao gráfico em barras (séries geográficas e específicas).

Gráfico em Colunas ou em Barras Múltiplas: Usado para representar as séries


conjugadas.

Exemplo:
13
Tabela 3
BALANÇA COMERCIAL DO BRASIL
1989 – 1993
ESPECIFICAÇÕES VALOR (US$ 1.000.000)
1989 1990 1991 1992 1993
Exportação (FOB) 34.383 31.414 31.620 35.793 38.783
Importação 18.263 20.661 21.041 20.554 25.711
FONTE: Ministério da Fazenda

BALANÇA COMERCIAL DO BRASIL


1989-1993
45.000
40.000
Valor (us$ 1.000.000)

35.000
30.000
25.000
20.000
15.000
10.000
5.000
0
1989 1990 1991 1992 1993

Exportação (FOB) Importação

Gráfico em Setores: Construído com base em um círculo, este gráfico é usado


para comparar proporções.

Exemplo:

14
Tabela 4
REBANHO SUINO DO SUDESTE DO BRASIL
1992
ESTADOS QUANTIDADE (mil cabeças)
Minas Gerais 3.363,7
Espírito Santo 430,4
Rio de Janeiro 308,5
São Paulo 2.035,9
Total 6.138,5
FONTE: IBGE

REBANHO SUÍNO DO SUDESTE DO BRASIL 1992

33%

55%

5%
7%

Minas Gerais Espírito Santo Rio de Janeiro São Paulo

Regras para a elaboração de um gráfico em setores:


• Trace uma circunferência. A área do círculo representa o total, isto é, 100%,
devendo ser dividida em tantos setores quantas sejam as partes.
• Lembre-se de que uma circunferência tem 360°. Então, se ao total
correspondem 360°, a cada parte corresponderá um setor cujo ângulo x é dado
PARTE × 360
por: x =
TOTAL
• Marque os valores dos ângulos calculados na circunferência e trace os raios,
separando os setores.
• Para facilitar a distinção, faça um tracejado diferente em cada setor.
• Coloque título e legenda no gráfico.
OBS.: Para clareza dos dados, deve-se usar no máximo sete setores.

15
1.6 DISTRIBUIÇÃO DE FREQUÊNCIAS
Freqüentemente, ao coletar dados, o pesquisador se depara com uma grande
massa de valores numéricos, que se repetem algumas vezes, dificultando sua
análise e interpretação. Surge então a necessidade de organizar esses dados em
uma tabela onde os valores observados se apresentam associados individualmente
ou em classes com os números de suas repetições, isto é, com suas respectivas
freqüências. Esta tabela recebe o nome de Distribuição de Freqüências.

De acordo com a disposição dos dados têm-se dois tipos de distribuição:

1.6.1 Distribuição de Freqüências Simples (dados não agrupados ou não


tabulados em classes de valores)

É uma tabela onde os valores da variável analisada aparecem individualmente


correlacionados com os números de suas repetições (freqüências).

Esse tipo de distribuição é normalmente usado para representar variáveis


discretas.

Exemplo:

Tabela 1

Construtora Aimorés – Número de Acidentes Registrados


Janeiro de 2000
Nº de Acidentes Nº de Dias
0 18
1 5
2 2
3 2
4 3
5 1
Total 31
FONTE: Dados Hipotéticos

1.6.2 Distribuição de Freqüências por Classes (dados agrupados ou


tabulados em classes de valores)

Quando a variável analisada apresenta um grande número de valores torna-se


mais vantajoso o agrupamento destes em classes de freqüência, evitando assim
grande extensão da tabela e facilitando a visualização do fenômeno como um todo.

16
A distribuição de freqüências por classes é uma tabela onde os valores
observados são agrupados em classes, isto é, em intervalos de variações da variável
em questão.
Esse tipo de distribuição é normalmente usado para representar variáveis
contínuas. É utilizada também para representar variáveis discretas em um grande
número de valores observados.

Exemplo:

Tabela 2
Salários dos funcionários da Loja XY
Salários (R$) Nº de funcionários
1000 1200 2
1200 1400 6
1400 1600 10
1600 1800 5
1800 2000 2
Total 25
FONTE: Dados Hipotéticos

A seguir são apresentados alguns conceitos fundamentais para a compreensão


dessas séries.

Dados Brutos

É a apresentação dos dados observados na seqüência em que foram coletados, isto


é, sem nenhuma ordenação numérica.

Exemplo:
O número de peças defeituosas obtidas da produção de uma máquina durante vinte
dias foi:
2–4–2–1–2–3–1–0–5–1–0–1–1–2–0–1–3– 0–1– 2

Rol

É a organização dos dados brutos em ordem crescente ou decrescente.

Exemplo:
O rol do exemplo anterior é:
0–0–0–0–1–1–1–1–1–1–1–2–2–2–2–2–3–3–4–5

17
Amplitude Total (AT)

É a diferença entre o maior valor e o menor valor da seqüência dos dados


observados.

AT = valor máximo – valor mínimo

Exemplo:
A amplitude total do rol apresentado é: AT = 5 – 0 = 5

Freqüência Absoluta Simples (ou simplesmente freqüência)

Denotada por Fi, a freqüência indica o número de ocorrências de cada valor ou o


número de valores pertencentes a uma classe.

Na Tabela 1: F6 = F(5) = 1

Na Tabela 2: F2 = 6

1.6.3 Regras para a elaboração de uma Distribuição de Freqüências


Simples

a) Escreve-se, ordenadamente, os dados observados na coluna indicadora.


b) Obtém-se as freqüências absolutas simples dos dados (Fi). Essas freqüências
constituem o corpo da tabela.

Exemplo:

Sejam os dados abaixo representativos de uma pesquisa sobre o número de irmãos


de 20 alunos da Turma PEST.

Dados Brutos:
1–3–0–5–2–1–1–0–0–1–4–3–1–0–1–2–2–1–3–1

Rol:
0–0–0–0–1–1–1–1–1–1–1–1–2–2–2–3–3–3–4–5

A distribuição de freqüências do rol apresentado é:

18
Tabela 3

Número de Irmãos de 20 alunos da Turma PEST


i Número de Irmãos (xi) Repetições (Fi)
1 0 4
2 1 8
3 2 3
4 3 3
5 4 1
6 5 1
Total Fi = 20

1ª Coluna (i) – número de ordem dos valores distintos da variável número de


irmãos.
2ª Coluna (xi) – valores distintos da variável número de irmãos.
3ª Coluna (Fi) – número de repetições dos valores distintos da variável número de
irmãos.
k

Nota: Fi = n , onde n é igual ao número de dados observados (n = 20)


i =1

Observa-se que neste tipo de tabela não há perda de informação, podendo os dados
originais serem reconstituídos a partir da distribuição elaborada.

1.6.4 Tipos de Freqüências

Para a interpretação dos resultados de uma pesquisa, conforme os tipos de


informações requeridas utilizam-se diversos tipos de freqüências de dados.

A seguir serão apresentados os tipos de freqüências, derivados da distribuição de


freqüências absolutas, bastante úteis na interpretação de dados.

Freqüência Total

É a soma de todas as freqüências absolutas simples em uma tabela.


k

Fi = n
i =1

19
A freqüência total de uma distribuição de freqüências é igual ao número total de
observações (n).

Exemplo:

Na Tabela 3, temos:
6

Fi = F1 + F2 + F3 + F4 + F5 + F6 = 4 + 8 + 3 + 3 +1+1 = 20
i =1

Freqüência Relativa Simples, ou simplesmente, Freqüência Relativa

Simbolizada por fi, a freqüência relativa simples fornece a proporção de cada valor
ou de casos ocorridos em cada classe, em relação ao número total de observações.
Portanto, é um número relativo. Para calcular a freqüência relativa, basta dividir a
freqüência absoluta da ordem em questão pelo número de observações.

Fi
fi =
n

As comparações expressas através de porcentagem são mais usuais. Para obter a


porcentagem de cada valor ou de casos ocorridos em cada classe, multiplica-se o
quociente obtido por 100, ou seja:
F
f i = i × 100
n
k

Nota: f i = 1 ou 100%
i =1

Exemplo:

Na Tabela 3, temos:

F1 4
f1 = = = 0,20 × 100 = 20 %
20 20

F2 8
f2 = = = 0,40 × 100 = 40%
20 20

F3 3
f3 = = = 0,15 × 100 = 15 %
20 20

20
F4 3
f4 = = = 0,15 × 100 = 15 %
20 20

F5 1
f5 = = = 0,05 × 100 = 5 %
20 20

F6 1
f6 = = = 0,05 × 100 = 5 %
20 20

Freqüência Absoluta Acumulada

Denotada por Faci, a freqüência absoluta acumulada fornece a informação de


quantos elementos se situam até determinado valor. A freqüência acumulada do i-
ésimo valor ou i-ésima classe (freqüência acumulada de ordem i) é obtida
somando-se a freqüência desse valor ou classe com as freqüências anteriores, ou
seja, é a soma de todas as freqüências de ordens menores ou igual a da ordem em
questão.

Exemplo:
3

Fac3 = Fi = F1 + F2 + F3
i =1

Fac4 = Fi = F1 + F2 + F3 + F4
i =1

Exemplo:

Na tabela 3, temos:

Fac1 = F1 = 4 Fac4 = F1 + F2 + F3 + F4 = 15 + 3 = 18

Fac2 = F1 + F2 = 4 + 8 = 12 Fac5 = F1 + F2 + F3 + F4 + F5 = 18 + 1 = 19

Fac3 = F1 + F2 + F3 = 12 + 3 = 15 Fac6 = F1 + F2 + F3 + F4 + F5 + F6 = 19 + 1 = 20

Freqüência Acumulada Relativa

Denotada por faci, fornece a proporção de elementos situados até determinado


valor. Consiste na soma da freqüência relativa de cada valor ou classe com as
freqüências relativas dos valores ou classes anteriores, ou seja, é a soma das
freqüências simples relativas de ordens menores ou iguais a da ordem em questão.
.
21
Exemplo:
3

fac3 = fi = f1 + f2 + f3
i =1

Exemplo:
Na tabela 3, temos:

fac1 = f1 = 0,20 = 20%

fac2 = f1 + f2 = 0,20 + 0,40 = 0,60 = 60%

fac3 = f1 + f2 + f3 = 0,60 + 0,15 = 0,75 = 75%

fac4 = f1 + f2 + f3 + f4 = 0,75 + 0,15 = 0,90 = 90%

fac5 = f1 + f2 + f3 + f4 + f5 = 0,90 + 0,05 = 0,95 = 95%

fac6 = f1 + f2 + f3 + f4 + f5 + f6 = 0,95 + 0,05 = 1 = 100%

A freqüência relativa acumulada de ordem i pode ser também calculada através do


quociente:
=
Exemplo:

15
fac3 = = 0,75 = 75 %
20

Com relação à Tabela 3, utilizando todos os tipos de freqüências definidas


anteriormente, podemos construir a seguinte distribuição de freqüências:

Tabela 4
Número de Irmãos de 20 alunos da Turma PEST
i xi Fi fi fi (%) Faci faci faci(%)
1 0 4 0,20 20 4 0,20 20
2 1 8 0,40 40 12 0,40 40
3 2 3 0,15 15 15 0,75 75
4 3 3 0,15 15 15 0,90 90
5 4 1 0,05 5 5 0,95 95
6 5 1 0,05 5 5 1,00 100
Total 20 1,00 100 − − −
FONTE: Dados Fictícios

22
Interpretação:

• f3 = 0,15; 15% dos alunos responderam que têm 2 irmãos.


• F2 = 8; 8 alunos responderam que têm 1 irmão;
• fac3 = 0,75; 75% dos alunos responderam que têm entre 0 e 2 irmãos.
1.6.5 Representação Gráfica de uma Distribuição de Freqüências
Simples

A distribuição de Freqüências Simples é representada graficamente por um Gráfico


em Hastes, um diagrama onde as freqüências são representadas por segmentos de
retas perpendiculares ao eixo das abcissas. Cada segmento é determinado pelos
pontos (xi,Fi) e (xi,0).

Exemplo: Representação gráfica da Tabela 3.

Fi
8

4
3

1
0 1 2 3 4 5 xi (numero de irmãos)

EXERCÍCIOS

1. Considere a seguinte distribuição de freqüências correspondente aos diferentes


preços de um determinado produto pesquisados em 20 lojas.

Preços do Produto A
i Preço (R$) Número de Lojas
1 50 2
2 51 5
3 52 6
4 53 6
5 54 1
Total 20
FONTE: Dados Fictícios

23
a) Quantas lojas apresentam preços de R$ 52,00?
b) Determine as freqüências relativas simples e as freqüências absolutas
acumuladas.
c) Quantas lojas apresentaram um preço de até R$ 52,00 (inclusive)?
d) Qual é a percentagem de lojas com preços de até R$ 53,00 (inclusive)?

2. A distribuição de freqüências a seguir apresenta o número de acidentes por dia,


durante 40 dias, em determinado cruzamento.

Número de Acidentes no Cruzamento X


i Nº de Acidentes por dia Número de Dias
(xi) (Fi)
1 0 30
2 1 5
3 2 3
4 3 1
5 4 1
Total 40
FONTE: Dados Fictícios

a) Determine as freqüências absolutas acumuladas, as freqüências simples


relativas e as freqüências acumuladas relativas.
b) Após ter determinado as freqüências acima, interprete todos os resultados da 3ª
linha da distribuição de freqüências.

3. Em uma amostra de 30 milheiros de telhas recebidas pela Construtora ABC


Ltda, constatou-se os seguintes números de unidades defeituosas por milheiro:

5 – 20 – 10 – 5 – 40 – 30 – 20 – 5 – 10 – 15 – 10 – 30 – 40 – 10 – 50 – 10 –
30 – 15 − 20 – 40 – 10 – 20 – 20 – 50 – 10 – 40 – 30 – 20 – 0 – 30

a) Agrupar estes dados em uma distribuição de freqüências simples.


b) Representá-la através de um gráfico conveniente.
c) Calcular todos os tipos de freqüências conhecidos.
d) Qual a percentagem de milheiros com mais de 30 telhas defeituosas?
e) Quantos milheiros tiveram menos de 10 telhas defeituosas?
f) Qual a proporção de milheiros com menos de 20 telhas defeituosas?

24
4. Dada a distribuição de freqüências:

Indústria de Equipamentos Eletrônicos – IEE


Número de Falhas em Componentes durante o período
de garantia
Janeiro de 2000
i Nº de Falhas Número de Equipamentos
(xi) (Fi)
1 0 148
2 1 52
3 2 34
4 3 26
5 4 13
6 5 7
Total 280
FONTE: Dados Fictícios

a) Determinar as freqüências relativas percentuais, as freqüências acumuladas e as


freqüências relativas acumuladas percentuais.
b) Através das freqüências calculadas, responder qual a porcentagem de:
b.1) equipamentos que não apresentaram falha em seus componentes;
b.2) equipamentos que apresentaram pelo menos uma falha em seus componentes;
b.3) equipamentos trocados, sabendo-se que a indústria se compromete a trocar o
equipamento que apresente 4 ou mais falhas em seus componentes.

5. Considere os seguintes números.

1 3 5 7 9 2 4 6 8 10 15 20 25
0 1 2 3 4 5 6 7 8 9 9 8 7
8 6 5 4 3 2 1 0 10 15 20 25 12
8 11 6 4 2 1 3 5 7 9 11

a) Construa a distribuição de freqüências simples.


b) Representá-la através de um gráfico conveniente.
c) Calcular todos os tipos de freqüências conhecidos.

25
1.7 Intervalo de Classe ou Classe

Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de


valores em que se subdivide a amplitude total do conjunto de valores observados
da variável.

Uma determinada classe pode ser identificada por seus extremos ou pela ordem em
que ela se encontra na tabela (valor do índice i)

O número de classes de uma distribuição de freqüências será denotado por k.

A notação indica intervalo fechado à esquerda. Assim, na Tabela 2, um


funcionário que apresentou salário de R$ 1400,00 pertence à classe
1400 1600, ou terceira classe (i = 3).

Existem diversas maneiras de expressar as classes:


a) a b compreende todos os valores entre a e b, incluindo a e b
b) a b compreende todos os valores entre a e b, excluindo a
c) a b compreende todos os valores entre a e b, excluindo b
d) a b compreende todos os valores entre a e b, excluindo a e b

Em nosso curso usaremos a forma expressa em “c)”.

1.7.1 Limites de Classe

São os valores extremos de cada classe. O menor valor denomina-se limite inferior
da classe i (li) e o maior, limite superior da classe i (Li).

Assim, na quarta classe da Tabela 2 tem-se l4 = 1600 e L4 = 1800.

1.7.2 Amplitude do Intervalo de Classe (h)

A amplitude do intervalo de classe é o comprimento da classe, sendo definida


como a diferença entre o limite superior e o limite inferior da classe.

hi = Li − li

Exemplo:

Na Tabela 2, temos:
h1 = 1200 – 1000 = 200
h2 = 1400 – 1200 = 200
26
Em geral h1 = h2 = h3 = ... = h k = h, e determina-se a amplitude do intervalo
fazendo:
AT
h=
k
64
Exemplo: Dados: AT = 64 e k = 7. Temos: h = = 9,14 ≈ 10
7

Nota: Sugere-se sempre aproximar o valor encontrado para o inteiro superior.

1.7.3 Número de Classes (k)

Não existe uma regra fixa que forneça o número de classes. No entanto, como o
objetivo da distribuição de freqüências é facilitar a compreensão dos dados, é
importante que a distribuição contenha um número adequado de classes. Se este
número for escasso, os dados originais ficarão tão comprimidos que pouca
informação poderá ser extraída da tabela. Se por outro lado forem utilizadas várias
classes, haverá algumas com freqüências nulas ou muito pequenas e o resultado
será uma distribuição irregular e prejudicial à interpretação do fenômeno como um
todo. Na prática esse número não deve ser superior a 20 nem inferior a 5. Se a
quantidade de dados for pequena não se justifica a construção de uma tabela, e se
for grande, mais de 20 classes dificulta a análise.

Em função do total de observações existem vários métodos que orientam a escolha


de um número de classes conveniente. Seguem-se os dois mais utilizados:

a) Regra da Raiz Quadrada

k=5 para n ≤ 25
k = n para n > 25, onde n é o número de observações.

Exemplo:
Para n = 30, o número de classes será 30 = 5,48 ≈ 5.

b) Regra de Sturges
k = 1 + 3,3 log n,

onde: n = número de observações.

Exemplo:

Para n = 30, tem-se: k = 1 + 3,3 log 30 ≈ 6.

27
Para n = 30 os resultados obtidos pelos dois critérios são bastante próximos. O
mesmo não acontece para valores grandes de n onde a regra de Sturges tem o
inconveniente de prever um número relativamente pequeno de classes e o
procedimento da raiz quadrada, um número relativamente grande. Neste caso deve
prevalecer o bom senso do analista.

1.7.4 Ponto Médio da Classe (xi)

Considerando que os valores de uma classe estão distribuídos uniformemente, o


ponto médio ou valor médio de uma classe é o valor que melhor a representa para
efeito de cálculo de certas medidas.

li + L i
O ponto médio de uma classe i é definido por: x i =
2

Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao


limite inferior da classe.

Na Tabela 2, o ponto médio da classe 1200 1400 é:

1200 + 1400 200


x3 = = 1300 , ou x 3 = 1200 + = 1300 .
2 2

1.7.5 Regras para a elaboração de uma Distribuição de Freqüências


por Classes

a) Determinar o rol (opcional).

b) Determinar a amplitude total (AT) dos dados:

AT = valor máximo – valor mínimo

c) Determinar o número conveniente de classes (k), de acordo com um dos


critérios citados anteriormente.

d) Determinar a amplitude de cada classe (h) dividindo a amplitude total pelo


número de classes.
AT
h=
k

Muitas vezes ao efetuar esta divisão, pode-se chegar a um resultado não muito
conveniente sob o aspecto de montagens das classes. Neste caso sugere-se que o
28
valor encontrado seja aproximado para o maior inteiro, caso contrário algum dado
excederia o limite superior da última classe prevista.

e) Determinar os limites das classes, escolhendo-se, preferencialmente, números


inteiros. O limite inferior da primeira classe e o limite superior da última, não
precisam, necessariamente, pertencer ao conjunto.

f) Construir a tabela de freqüências, contando o número de ocorrência de cada


classe.

Exemplo:

Os dados a seguir representam as notas de 50 alunos.

33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97

Vamos agrupar estes elementos em uma distribuição de freqüências por classes

a) Amplitude Total: AT = 97 – 33 = 64

b) Número de Classes: k = 50 ≈ 7 ou k = 1 + 3,3 log 50 = 1 + 3,3 x 1,7 ≈ 7

A T 64
c) Amplitude das Classes (h): h = = = 9,14 ≅ 10 (aproximar para o maior
k 7
inteiro)

d) Limites das Classes


30 40 Ponto inicial = 30 (o ponto inicial deve ser sempre menor ou igual ao
40 50 menor valor observado)
50 60
60 70
70 80
80 90 Ponto final = 100 (o ponto final deve ser sempre maior que o
90 100 maior valor observado)

e) Distribuição de Freqüências por Classes

29
Notas de 50 alunos
Classes Notas Fi fi fi(%) Faci faci faci(%) xi
1 30 |--- 40 4 0,08 8 4 0,08 8 35
2 40 |--- 50 6 0,12 12 10 0,20 20 45
3 50 |--- 60 8 0,16 16 18 0,36 36 55
4 60 |--- 70 13 0,26 26 31 0,62 62 65
5 70 |--- 80 9 0,18 18 40 0,80 80 75
6 80 |--- 90 7 0,14 14 47 0,94 94 85
7 90 |--- 100 3 0,06 6 50 1,00 100 95
Total 50 1,00 100 − − − −
FONTE: Dados Hipotéticos

Interpretação:

F3 = 8 → 8 alunos obtiveram nota igual ou superior a 50 e inferior a 60.


f4 = 26% → 26% dos alunos obtiveram notas entre 60 (inclusive) e 70 (exclusive).
Fac6 = 47 → 47 alunos obtiveram notas inferiores a 90.
fac5 = 80% → 80% dos alunos obtiveram notas inferiores a 80.

1.8 Distribuição de Freqüências com Intervalos de Classes Desiguais


Existem casos em que é mais adequado agrupar os dados em classes com
larguras desiguais, como, por exemplo, as idades dos atletas de acordo com a
categoria a que pertencem.

Exemplo:

Tabela 5

Categoria de Atletas por Idade


Classes Idades Fi
1 2 |--- 13 12
2 13 |--- 15 5
3 15 |--- 18 8
4 18 |--- 30 30
5 30 |--- 40 12
6 40 |--- 60 10
7 60 |--- 90 2
Total 79

30
1.9 Gráficos de uma Distribuição de Freqüências por Classes
1. Histograma

É um tipo de gráfico apropriado para representar dados agrupados em classes.


Consiste de colunas justapostas cujas bases representam as classes e as alturas
correspondem às freqüências das classes.

2. Polígono de Freqüências

Trata-se da representação de uma distribuição de freqüências por classes,


através de um polígono.

O eixo das abcissas constitui a base do polígono. Os vértices são os pontos


(xi,Fi) onde xi é o ponto médio e Fi é a freqüência da classe.

O fechamento da poligonal com a base é feito unindo o primeiro vértice ao


ponto médio de uma classe anterior à primeira, e o último vértice ao ponto médio
de uma classe posterior à última.

Esse gráfico é adequado também para a representação de freqüências relativas e


percentuais.

3. Polígono de Freqüências Acumuladas ou Ogiva de Galton

Utilizado para representar as freqüências acumuladas. Os vértices são os pontos


(Li, Faci). Pode ser usado também para representar as freqüências acumuladas
relativas percentuais. O fechamento é feito unindo o primeiro vértice ao limite
inferior da primeira classe.
Esse gráfico será útil para a determinação das medidas separatrizes que serão
tratadas posteriormente.

Exemplo:
Dada a distribuição de freqüências:
Notas dos alunos da turma PEST
Notas Fi Fac Fi xi
30 |--- 40 4 4 0,08 35
40 |--- 50 6 10 0,12 45
50 |--- 60 8 18 0,16 55
60 |--- 70 13 31 0,26 65
70 |--- 80 9 40 0,18 75
80 |--- 90 7 47 0,14 85
90 |--- 100 3 50 0,06 95
Total 50 − 1,00 −

31
Os gráficos representativos dessa distribuição são:
HISTOGRAMA E POLÍGONO DE FREQUÊNCIAS
Fi

13 Polígono de
freqüência

9
8
7
6

4
3

30 40 50 60 70 80 90 100 classe

POLÍGONO DE FREQUÊNCIAS ACUMULADAS

Fac
50
47

40

31

18

10

30 40 50 60 70 80 90 100 classe

EXERCÍCIOS

1. Os dados a seguir referem-se às notas de 50 alunos:


60 85 33 52 65 77 84 65 74 57
71 35 81 50 35 64 74 47 54 68
80 61 41 91 55 73 59 53 77 45
71 55 78 48 69 85 67 39 60 76
94 98 66 66 73 42 65 94 88 89
32
Pede-se:
a) A amplitude total da amostra.
b) O número de classes.
c) A amplitude das classes.
d) As classes (valor inicial = 30).
e) As freqüências absolutas das classes.
f) As freqüências relativas.
g) Os pontos médios das classes.
h) As freqüências acumuladas das classes.
i) O histograma.
j) O polígono de freqüências.
k) O polígono de freqüências acumuladas.

2. A tabela abaixo apresenta os salários de 90 operários da Empresa Aço S/A

Salários dos Funcionários da Empresa


Aço
Classes Salários Fi
Mínimos
1 1 |--- 3 40
2 3 |--- 5 30
3 5 |--- 7 10
4 7 |--- 9 5
5 9 |--- 11 5
Total 90

a) Determine as freqüências simples relativas, as freqüências absolutas


acumuladas e as freqüências relativas acumuladas.
b) Quantos funcionários ganham menos de 3 salários mínimos?
c) Quantos ganham mais de salários mínimos?
d) Qual a percentagem de operários com salário entre 5 e 7 salários mínimos?
e) Qual a percentagem de operários com salário inferior a 7 salários mínimos?
f) Construa o histograma e o polígono de freqüência.

3. Complete a tabela abaixo:

i Classes xi Fi Faci fi
1 0 |--- 2 1 4 0,04
2 2 |--- 4 8
3 4 |--- 6 5 30 0,18
4 |--- 7 27 0,27
5 8 |--- 10 15 72
6 10 |--- 12 83
7 |--- 13 10 93 0,10
8 14 |--- 16 0,07
− Total −
33
4. A tabela abaixo apresenta uma distribuição de freqüência das áreas de 400
lotes:

i Áreas (m2) Nº de Lotes


1 300 |--- 400 14
2 400 |--- 500 46
3 500 |--- 600 58
4 600 |--- 700 76
5 700 |--- 800 68
6 800 |--- 900 62
7 900 |--- 1000 48
8 1000 |--- 1100 22
9 1100 |--- 1200 6

Com referência a essa tabela determine:


a) A amplitude total.
b) O limite superior da 5ª classe.
c) A freqüência acumulada da 4ª classe.
d) O número de lotes cuja área não atinge 700 m2.
e) O número de lotes cuja área é superior ou igual a 800 m2.
f) A classe do 72º lote.

5. Responda as seguintes questões:


a) O que é freqüência simples absoluta de uma classe?
b) O que é freqüência simples relativa de uma classe?
c) O que é freqüência acumulada absoluta de uma classe?
d) O que é freqüência acumulada relativa de uma classe?
e) O que é limite inferior de uma classe?
f) O que é ponto médio de uma classe?

6. Os pesos de 40 alunos estão relacionados a seguir:

69 57 72 54 93 68 72 58 64 62
65 76 60 49 74 59 66 83 70 45
60 81 71 67 63 64 53 73 81 50
67 68 53 53 65 58 80 60 63 53

a) Agrupar estes dados em classes de valores (Dado log 40 = 1,6).


b) Determine as freqüências relativas, as freqüências acumuladas e as freqüências
relativas acumuladas.
c) Determine os pontos médios das classes.
d) Interprete todos os resultados da 3ª linha da tabela.
e) Construa o histograma, o polígono de freqüências e o polígono de freqüências
acumuladas da distribuição.
34
7. Os dados abaixo referem-se ao consumo mensal de energia elétrica em kwh
da conta nº 001.161157-1 das Centrais Elétricas de Goiás, no período de 1997 a
1999.

142 – 178 – 164 – 190 – 146 – 131 – 119 – 131 – 187 – 158 – 168 – 111 –
96 – 118 – 182 – 116 – 188 – 207 – 229 – 180 – 181 – 175 – 205 – 179 –
184 – 227 – 210 – 210 – 213 – 190 – 240 – 215 – 226 – 188 – 190 – 205 –

a) Sintetizar esses dados através de uma distribuição de freqüências por classes.


b) Calcular todos os tipos de freqüências que você conhece.
c) Com base nas freqüências calculadas, apresentar os seguintes percentuais:
c.1) de meses com consumo inferior a 150 kwh.
c.2) de meses com consumo superior a 200 kwh.
d) Representar a distribuição elaborada através de um histograma e de um
polígono de freqüências.
e) Representar a distribuição de freqüências acumuladas através de uma Ogiva.

8. Dada a amostra:

28 33 27 30 31 30 33 30 33 29
27 33 31 27 31 28 27 29 31 24
31 33 30 32 30 33 27 33 31 33
23 29 30 24 28 34 39 30 18 17
18 15 16 17 17 18 19 19 20 29

a) Agrupar os elementos em classes (inicie pelo 15 e use h = 5).


b) Calcule as freqüências absolutas, as freqüências acumuladas e os pontos médios
das classes.
c) Interprete todos os resultados da 4ª linha da tabela.
d) Construa o histograma, o polígono de freqüências e o polígono de freqüências
acumuladas da distribuição.

9. Abaixo temos a distribuição dos aluguéis de 65 casas.


Aluguel (centenas de $) 1,5 |-- 3,5 3,5 |-- 5,5 5,5 |-- 7,5 7,5 |-- 9,5 9,5 |-- 11,5

Nº de casas 12 18 20 10 5

Com referência a essa tabela determine:


a) A amplitude total.
b) O limite superior da 5ª classe.
c) A freqüência acumulada da 4ª classe.
d) O número de aluguéis cujo valor atinge, no máximo, R$ 550,00.

35
e) O número de aluguéis cujo valor é superior ou igual a R$ 750,00.
f) A classe do 50º aluguel.

10.A distribuição de freqüência abaixo representa o consumo por nota de 54 notas


fiscais emitidas durante um dia em uma loja de departamentos.

Consumo por nota (R$) nº de notas


0 |------ 50 10
50 |------ 100 28
100 |------ 150 12
150 |------ 200 2
200 |------ 250 1
250 |------ 300 1

a) Interprete todos os resultados da 4ª linha da tabela.


b) Construa o histograma e o polígono de freqüências.

36
2. MEDIDAS DE POSIÇÃO

As medidas de posição são valores que representam o conjunto de dados


observados ou então promovem uma partição sobre este conjunto. Entre as
medidas de posição destacam-se as medidas de tendência central e as separatrizes.

2.1 MEDIDAS DE TENDÊNCIA CENTRAL

A maneira mais simples de resumirmos as informações contidas em um


conjunto de dados observados é estabelecer um ponto central em torno do qual os
dados se distribuem. Tais medidas orientam quanto à posição do conjunto no eixo
dos números reais e possibilitam comparações de séries de dados entre si pelo
confronto destes números. São chamadas Medidas de Tendência Central, pois
representam os fenômenos pelos seus valores médios em torno dos quais tendem a
se concentrar os dados.

2.1.1 MÉDIA ARITMÉTICA ( x )

a) Média aritmética para dados não agrupados

Sejam x1, x2, ..., xn, n valores da variável X. A média aritmética simples, denotada
por x , é definida por:
n

xi
x= i =1
,
n

onde n é o número de valores observados da variável X.

Exemplo:
Determinar a média aritmética simples dos valores: 7,0; 3,0; 5,5; 6,5; 8,0.
5

xi
7,0 + 3,0 + 5,5 + 6,5 + 8,0
x= i =1
= = 6,0
5 5

37
b) Média aritmética para dados agrupados

Neste caso, usamos a média aritmética dos valores x1, x2, ..., xk, ponderada pelas
suas respectivas freqüências absolutas F1, F2, F3, ... , Fk. Desta forma, temos:
k

x i Fi
x= i =1
,
n
k

onde n = F1 + F2 + ... + Fk = Fi
i =1

Observação: Quando se tratar de uma distribuição de freqüência por classe, xi


l + Li
corresponde ao ponto médio da classe, ou seja, x i = i .
2

Exemplos:

1. Determinar a média aritmética da distribuição a seguir.

NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA IDX


i xi Fi
1 0 4
2 1 8
3 2 3
4 3 3
5 4 1
6 5 1
TOTAL 20
Fonte: Dados Hipotéticos

Solução:

Para determinar a média acrescentaremos a coluna com o cálculo de xiFi

NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA IDX


i xi Fi XIFI
1 0 4 0
2 1 8 8
3 2 3 6
4 3 3 9
5 4 1 4
6 5 1 5

38
TOTAL 20 32
Fonte: Dados Hipotéticos
k 6

x i Fi x i Fi
32
x= i =1
= i =1
= = 1,6
n 20 20

2. Dada a distribuição:

Renda Familiar de 40 Famílias


i Salários (R$ Fi
1.000)
1 2 |--- 4 5
2 4 |--- 6 10
3 6 |--- 8 14
4 8 |--- 10 8
5 10 |--- 12 3
TOTAL 40
Fonte: Dados Hipotéticos

Determinar a renda média familiar destas 40 famílias.

Solução:
Acrescentamos as colunas com os cálculos de xi e xiFi ,

Renda Familiar de 40 Famílias


i Salários Fi xi x i Fi
(R$ 1.000)
1 2 |--- 4 5 3 15
2 4 |--- 6 10 5 50
3 6 |--- 8 14 7 98
4 8 |--- 10 8 9 72
5 10 |--- 12 3 11 33
TOTAL 40 − 268
Fonte: Dados Hipotéticos

e utilizamos a fórmula:
k 5

x i Fi x i Fi
268
x= i =1
= i =1
= = 6,7
n 40 40

39
Assim, cada família possui, em média, uma renda de R$6.700,00.

Observação: Do ponto de vista teórico, vários tipos de média podem ser


calculados para uma massa de dados. O uso da média aritmética apresenta
vantagens para cálculos posteriores, devendo, entretanto, além de outros casos, ser
empregada em séries que estejam em progressão aritmética ou se os valores
extremos não influírem sensivelmente sobre ela. Outra orientação para seu
emprego é na comparação com as outras medidas de tendência central.

Focalizaremos ainda neste estudo as médias geométricas e as médias harmônicas.

2.1.2 MÉDIA GEOMÉTRICA (Mg)

a) Média geométrica para dados não agrupados

Sejam x1, x2, ..., xn, n valores da variável X. A média geométrica, denotada por
Mg, é definida por:
Mg = n x1 ⋅ x 2 ⋅ x 3 ⋅ ... ⋅ x n

Exemplo:

Calcular a média geométrica dos valores: 3, 6, 12, 24 e 48.

Mg = 5 3 × 6 × 12 × 24 × 48 = 5 248.832 = 12

b) Média geométrica para dados agrupados

Sejam x1, x2, ..., xk, valores da variável X associados às freqüências absolutas F1,
F2, F3, ... , Fk, respectivamente. A média geométrica, denotada por Mg, é definida
por:

Mg = n x1F ⋅ x 2 F ⋅ x 3 F ⋅ ... ⋅ x k F
1 2 3 k

Exemplo:

Calcular a média geométrica da distribuição:

xi 1 2 3 5
Fi 8 6 5 3
40
Mg = 22 18 × 26 × 35 × 53 = 1,9311

Observação: Quando o número de observações for muito grande é aconselhável o


emprego de logaritmo (decimal ou neperiano). Assim,
1
Mg = n x1F × x 2 F × x 3 F × ... × x k F
1 2 3 k
Mg = ( x1F × x F2 × x 3F × ... × x Fk
1 2 3 k
) n

1
F1 . log x1 + F2 . log x 2 + ... + Fk . log x k
log Mg = log ( x1F × x F2 × x 3F × ... × x Fk
1 2 3 k
) n
=
n

Aplicando este resultado no exemplo acima, temos:

8 . log 1 + 6 . log 2 + 5 . log 3 + 3 . log 5


log Mg = =
22
8 . 0 + 6 . 0,3010 + 5 . 0,4771 + 3 . 0,6990
= 0,2858
22
Logo, Mg = antilog 0,2858 = 10 0,2858 = 1,9311

A média geométrica como medida de tendência central é de pouco uso, e seu


emprego é restrito, como no caso dos dados de uma série formarem ou se
aproximarem de uma progressão geométrica, e em números índices. Exemplos de
dados com este comportamento são os preços num período de inflação e a variação
do montante em juros compostos, apresentando-se em progressão geométrica de
razão (1 + r), sendo r a taxa unitária.

Como a média geométrica depende do produto, se um dos fatores for igual a


zero ela também o será. Por outro lado, se tiver fatores negativos ela poderá ser
negativa ou imaginária (número complexo), dependendo para isso, do índice n ser
ímpar ou par.

2.1.3 MÉDIA HARMÔNICA (Mh)

a) Média harmônica para dados não agrupados

Sejam x1, x2, ..., xn, n valores da variável X. A média harmônica, denotada por Mh,
é definida por:

41
n
Mh =
1 1 1 1
+ + + ... +
x1 x 2 x 3 xn

Exemplo: Calcular a média harmônica de 2, 5 e 8.


3
Mh = = 3,64
1 1 1
+ +
2 5 8

b) Média harmônica para dados agrupados

Sejam x1, x2, ..., xk, valores da variável X associados às freqüências absolutas
F1, F2, F3, ... , Fk, respectivamente. A média harmônica de X, denotada por Mh, é
definida por:

n n
Mh = =
F1 F2 F3 F k
Fi
+ + + ... + k
x1 x 2 x 3 xk i =1 xi

A média harmônica é particularmente recomendada para séries de valores que


são inversamente proporcionais, como para o cálculo de velocidade média, tempo
médio de escoamento de estoque, etc.

A média harmônica poderá ser empregada, por exemplo, no caso dos preços
unitários de certas mercadorias que são inversamente proporcionais às quantidades
de lotes, se o preço total de cada lote tiver o mesmo custo. O preço médio unitário
deverá ser igual à média harmônica dos demais preços.

EXERCÍCIOS:

1. Determine a média aritmética das seguintes séries:


a) 3, 4, 1, 3, 6, 5 e 6;
b) 60, 80, 90, 100 e 120;
c) 2,5; 3,6; 4,1; 4,3 e 6,2.

2. A média mínima para aprovação em uma matéria é 5. Se um estudante


obteve as notas 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5 e 4,0 nos trabalhos mensais desta
matéria, pergunta-se: ele foi ou não aprovado?

3. Calcule para cada uma das distribuições a sua respectiva média:


42
a)
xi 3 4 7 8 12
Fi 2 5 8 4 3

b)
Aluguel 1,5 |--- 3,5 3,5 |--- 5,5 5,5 |--- 7,5 7,5 |--- 9,5 9,5 |---
(R$1.000) 11,5
Nº DE IMÓVEIS 12 18 20 10 5

4. Com importâncias iguais foram compradas quantidades diferentes de certa


mercadoria cujos preços unitário foram R$ 20,00, R$ 40,00, R$ 20,50, R$ 21,00
e R$ 21,60. Calcular o preço médio unitário de custo destas mercadorias.
(Sugestão: utilize a média harmônica) .

5. Calcule a média geométrica para as séries:


a) 1, 2, 4, 7, 16;
b) 81, 26, 10, 3, 1.

6. Utilizando a série de dados 2, 8, 7 e 15, comprove as seguintes propriedades


da média aritmética:
a) A soma dos desvios em torno da média é zero, isto é, (x i − x) = 0
b) Somando (ou subtraindo) uma mesma quantidade arbitrária a (de) todos os
valores da série, a média ficará aumentada (ou diminuída) desta mesma
quantidade.
c) Multiplicando ou dividindo cada termo de uma série por uma constante, a
média ficará multiplicada ou dividida pela constante.
d) A soma dos quadrados dos desvios medidos em relação à média é um mínimo,
ou seja, é sempre menor que a soma dos quadrados dos desvios medidos em
relação a qualquer outro valor, isto é, (x i − x) é mínimo.

7. Calcule as médias aritmética, geométrica e harmônica para a série a seguir e


observe pelos cálculos qual a relação entre estas médias.

xi Fi
2 1
3 4
4 3
5 2
TOTAL

43
2.1.4 MEDIANA (Md)

A mediana, denotada por Md, é o valor que divide o rol em duas partes
contendo, cada uma, a mesma quantidade de elementos. Assim, a mediana é o
valor que ocupa a posição central de uma série de dados.

50% 50%
Md

a) Mediana para dados não agrupados

n +1
i) Se n é ímpar – o rol admite apenas um termo central que ocupa a posição .
2

O valor do elemento que ocupa esta posição é a mediana.

Exemplo: Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2.

Rol: 2; 8; 12; 12; 20; 20; 23.


n = 7 (n é ímpar)
7 +1
O rol admite somente um termo central que ocupa a posição , ou seja, a 4ª
2
posição. Portanto Md = x4 = 12.

Interpretação: 50% dos valores da série são menores ou iguais a 12 e 50% dos
valores são maiores ou iguais a 12.

ii) Se n é par – neste caso o rol admite dois termos centrais que ocupam as
n n
posições e + 1 .
2 2

Neste caso a mediana é definida como a média aritmética destes dois termos
centrais.

Exemplo: Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 13.

Rol: 7; 8; 9; 10; 13; 13; 15; 21.


n = 8 (n é par)
8 8
A série admite dois termos centrais que ocupam as posições e + 1 , ou seja, a
2 2
4ª posição e a 5ª posição.
Portanto,
44
x 4 + x 5 10 + 13
Md = = = 11,5 .
2 2

Interpretação: 50% dos valores do rol são menores ou iguais a 11,5 e 50% dos
valores são maiores ou iguais a 11,5.

b) Mediana para dados agrupados sem intervalos de classes

O procedimento para o cálculo da mediana para dados agrupados sem


intervalos de classes é o mesmo utilizado para dados não agrupados, ou seja:
n +1
• Se n for ímpar, a mediana será o termo central, isto é, o termo de ordem .
2
• Se n for par, a mediana será a média aritmética entre os elementos centrais, isto
n n
é, os elementos de ordem e + 1 .
2 2

Exemplo 1:

Determinar a mediana da distribuição abaixo.

i xi Fi Faci
1 2 1 1
2 5 4 5
3 8 10 15
4 10 6 21
5 12 2 23
TOTAL 23 −

n = 23 (n é ímpar)

23 + 1
A distribuição admite apenas um termo central que ocupa a posição , ou
2
seja, a 12ª posição.

Através das freqüências acumuladas podemos observar que: o 1º elemento é o 2; o


2º, o 3º, o 4º e o 5º elementos são iguais a 5; o 6º, o 7º, ... , o 15º elementos são
iguais a 8; e assim sucessivamente.

Portanto o 12º elemento é o 8.


Logo, Md = x12 = 8.

45
Exemplo 2: Determinar a mediana da distribuição

i xi Fi Faci
1 0 3 3
2 1 5 8
3 2 8 16
4 3 10 26
5 5 6 32
TOTAL 32 −

n = 32 (n é par).
32 32
A série admite dois termos centrais que ocupam as posições e + 1 , ou seja,
2 2
o 16º e o 17º elementos.
Observando as freqüências acumuladas, temos:
O 1º, o 2º e o 3º elementos são iguais a 0;
O 4º, o 5º, o 6º, o 7º e o 8º são iguais a 1;
O 9º, o 10º, ... , o 16º são iguais a 2;
O 17º, o 18º, ... , o 26º são iguais a 3;
O 27º, o 28º, ..., o 32º são iguais a 5.

Portanto o 16º termo é igual a 2 e o 17º termo é igual a 3.


x + x17 2 + 3
Logo, Md = 16 = = 2,5
2 2

c) Mediana para dados agrupados com intervalos de classes

n
• Calcula-se , independente de n ser par ou ímpar;
2
• Localiza-se, através das freqüências acumuladas, a classe mediana, ou seja, a
n
classe que contém o termo de ordem ;
2
• Aplica-se a fórmula:
n
− Facant
Md = l Md + 2 ×h,
FMd
onde:
lMd = limite inferior da classe mediana;
Facant = freqüência acumulada da classe anterior à classe mediana;
h = amplitude da classe mediana;
FMd = freqüência absoluta da classe mediana.

46
Exemplo 1

Determinar a mediana da distribuição.

i Altura(cm) Fi Faci
1 150 |--- 154 4 4
2 154 |--- 158 9 13
3 158 |--- 162 11 24 → classe mediana
4 162 |--- 166 8 32
5 166 |--- 170 5 37
6 170 |--- 174 3 40
TOTAL 40 −

n 40
• Calcula-se → = 20
2 2
n
• Localiza-se a classe mediana (a classe que contém o termo de ordem )
2
Classe mediana = 3ª classe
n
− Facant
• Aplica-se a fórmula: Md = l Md + 2 ×h
FMd

lMd = 158
20 − 13
Facant= 13 Md = 158 + × 4 = 160,55
11
h=4
FMd = 11

Interpretação: 50% das pessoas têm altura inferior a 160,55 cm.

Exemplo 2 Consideremos a distribuição de freqüência por classes das notas dos 50


alunos da turma PEST e vamos calcular a sua mediana.

Notas de 50 alunos da turma PEST


Classes Notas Fi Faci
1 30 |--- 40 4 4
2 40 |--- 50 6 10
3 50 |--- 60 8 18
4 60 |--- 70 13 31 → classe mediana
5 70 |--- 80 9 40
6 80 |--- 90 7 47
7 90 |--- 100 3 50
Total 50 ----
Fonte: Dados Hipotéticos

47
n 50
• Calcula-se → = 25
2 2
n
• Localiza-se a classe mediana (a classe que contém o termo de ordem )
2
Classe mediana = 4ª classe
n
− Facant
• Aplica-se a fórmula: Md = l Md + 2 ×h
FMd

lMd = 60
25 − 18
Facant= 18 Md = 60 + × 10 = 65,38
13
h = 10
FMd = 13

Interpretação: 50% das notas foram inferiores a 65,38.

EXERCÍCIOS:

1. Determinar a média e a mediana das séries:


a) 2; 5; 8; 10; 12; 8; 5; 12
b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8

2. Determinar a média e a mediana das distribuições:


a)
xi 2 3 4 5 7
Fi 3 5 8 4 2

b)
xi 73 75 77 79 81
Fi 2 10 12 5 2

c)

Classes 1 |-- 3 3 |-- 5 5 |-- 7 7 |-- 9 9 |-- 11 11 |-- 13


- - - - - -
Fi 3 5 8 6 4 3

d)
Classes 22 |-- 25 25 |-- 28 28 |-- 31 31 |-- 34
- - - -
Fi 3 5 8 6

48
2.1.5 MODA (Mo)
A moda é o valor mais freqüente do conjunto de dados observados.

a) Moda para dados não agrupados

Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m).

Exemplo: Determinar a moda dos conjuntos de dados abaixo:

a) 2; 8; 3; 5; 4; 5; 3; 5; 1
O elemento que mais se repete é o 5. Portanto: Mo = 5 (seqüência unimodal).

b) 6; 10; 5; 6; 10; 2
Neste conjunto de dados o elemento 6 e o elemento 10 se repetem mais vezes
que os demais. Portanto: Mo1 = 6 e Mo2 = 10 (seqüência bimodal).

c) 2; 2; 8; 8; 5; 5; 6; 6
Não há nenhum elemento que se destaque por possuir maior freqüência.
Portanto, a série não possui moda e é dita amodal.

Observação: A moda só é considerada medida de tendência central no caso


unimodal. Nos demais casos é uma medida estatística de análise.

b) Moda para dados agrupados sem intervalos de classes

Neste caso, basta identificar o(s) elemento(s) de maior freqüência.

Exemplo: Determinar a moda das distribuições:


a)

i xi Fi
1 0 2
2 2 5
3 3 8
4 4 3
5 5 1
Total

Mo = 3 (Distribuição Unimodal)

49
b)
i xi Fi
1 1 2
2 2 5
3 3 4
4 4 5
5 5 1
Total

Mo1 = 2 e Mo2 = 4 (Distribuição Bimodal)

c)
i xi Fi
1 4 5
2 5 5
3 8 5
4 10 5
Total

Não há moda (Distribuição Amodal)

c) Moda para dados agrupados com intervalos de classes

Neste caso, há diversos processos para o cálculo da moda.

i) Fórmula de Czuber

• Identifica-se a classe modal (a que possui maior freqüência);


• Aplica-se a fórmula:
∆1
Mo = lMo + ⋅h ,
∆1 + ∆ 2

onde:
lMo = limite inferior da classe modal.
∆1 = diferença entre a freqüência absoluta da classe modal e a freqüência
absoluta da classe anterior à classe modal.
∆2 = diferença entre a freqüência absoluta da classe modal e a freqüência
absoluta da classe posterior à classe modal.
h = amplitude da classe modal.

50
Exemplo 1

Determinar a moda da distribuição:

i classes Fi
1 0 |--- 1 3
2 1 |--- 2 10
3 2 |--- 3 17 → Classe Modal
4 3 |--- 4 8
5 4 |--- 5 5
TOTAL 43

• Identifica-se a classe modal: 3ª classe (maior freqüência = 17)


• Aplica-se a fórmula:
∆1
Mo = lMo + ⋅h ,
∆1 + ∆ 2
onde:
lMo = 2;
∆1 = 17 – 10 = 7;
∆2 = 17 – 8 = 9;
h=3–2=1
7
Logo: Mo = 2 + ⋅ 1 = 2, 44
7+9

Exemplo 2 Considere a distribuição abaixo.

Salários dos Empregados da Empresa PEST


Classes Salários (classes) Fi (nº funcionários)
1 800 |- 1800 70
2 1800 |- 2500 140
3 2500 |- 3000 140
4 3000 |- 5000 60
Total 410
Fonte: Dados Hipotéticos

Como as amplitudes das classes não são iguais, vamos utilizar as densidades das
F
classes i para identificar a classe modal (aquela com a maior densidade)
hi

51
Salários dos Empregados da Empresa PEST
Classes Salários xi Fi Fi/hi
(classes) (pto médio) (nº funcionários) (densidade)
1 800 |- 1800 1300 70 0,07
2 1800 |- 2500 2150 140 0,20
3 2500 |- 3000 2750 140 0.28
4 3000 |- 5000 4000 60 0,03
Total 410
Fonte: Dados Hipotéticos

• Identifica-se a classe modal: 3ª classe (maior densidade = 0,28)


• Aplica-se a fórmula:
∆1
Mo = lMo + ⋅h ,
∆1 + ∆ 2
onde:
lMo = 2500;
∆1 = 0,28 – 0,20 = 0,08;
∆2 = 0,28 – 0,03 = 0,25;
h = 500
0,08
Logo: Mo = 2500 + ⋅ 500 = 2500 + 0, 24 ⋅ 500 = 2621,21
0,08 + 0, 25
Assim, R$ 2621,21 é o salário mais freqüente entre os 410 funcionários dessa
empresa.

ii) Fórmula de Pearson

Mo ≅ 3Md − 2x

Na fórmula de Pearson a moda é aproximadamente igual a diferença entre o


triplo da mediana e o dobro da média. Esta fórmula dá uma boa aproximação
quando a distribuição apresenta razoável simetria em relação à média.

Observação: Para calcular a moda de uma variável, precisamos apenas da


distribuição de freqüência. Para a mediana necessitamos minimamente ordenar os
valores atribuídos à variável. A média só pode ser calculada para variáveis
quantitativas. Assim, para as variáveis nominais somente podemos trabalhar com a
mediana, além da moda.

52
EXERCÍCIOS:

1. Para cada distribuição, determine a média, a mediana e a moda:


a)
xi 72 75 78 80
Fi 8 18 28 38

b)
Classes 7 |--- 10 10 |--- 13 13 |--- 16 16 |--- 19 19 |--- 22
Fi 6 10 15 10 5

3. MEDIDAS SEPARATRIZES

As medidas separatrizes são valores que dividem o conjunto de dados observados


em um determinado número de partes, contendo cada uma a mesma quantidade de
elementos.

São elas:

• Mediana

É considerada também uma medida separatriz.

• Quartis

São valores que dividem o rol em quatro partes iguais, cada uma com 25% dos
elementos. Ao todo tem-se 3 quartis: Q1 (1º quartil), Q2 (2º quartil) e Q3 (3º
quartil).

25% 25% 25% 25%


Q1 Q2=Md Q3

Observe que:
o Abaixo do 1º quartil tem-se 25% dos elementos;
o Abaixo do 2º quartil tem-se 50% dos elementos;
o Abaixo do 3º quartil tem-se 75% dos elementos;

• Decis

São valores que dividem o rol em dez partes iguais, cada uma com 10% dos
elementos. Ao todo tem-se 9 decis: D1 (1º decil), D2 (2º decil), ... , D9 (9º decil).

53
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
D1 D2 D3 D4 D5 D6 D7 D8 D9

Observe que:

• Abaixo do 1º decil tem-se 10% dos elementos;


• Abaixo do 2º decil tem-se 20% dos elementos;
• Abaixo do 3º decil tem-se 30% dos elementos; e assim sucessivamente.

• Centis ou Percentis

Dividem o rol em cem partes iguais, cada uma com 1% dos elementos. Ao todo
tem-se 99 centis: P1 (1º centil), P2 (2º centil), ... , P99 (99º centil).

1% 1% 1% 1% ... 1% ... 1% ... 1%


P1 P2 P3 P4 P50 P51 P80 P81 P99

Observe que:

• Abaixo do 1º centil tem-se 1% dos elementos;


• Abaixo do 2º centil tem-se 2% dos elementos;
• Abaixo do 3º centil tem-se 3% dos elementos;
• Abaixo do 4º centil tem-se 4% dos elementos; e assim sucessivamente.

Cálculo das medidas separatrizes:

a) Separatrizes para dados não agrupados

Devemos ordenar os elementos, identificar a medida que queremos obter


(quartil, decil ou centil), localizar a posição da medida desejada e identificar o
elemento que ocupa esta posição, de acordo com o esquema a seguir:

i⋅n
Quartil i: pos = ,i = 1, 2,3
4

i⋅n
Decil i: pos = ,i = 1, 2,...,9
10

i⋅n
Centil i: pos = ,i = 1,2,...,99
100

54
Observe que:

• Se pos for um número inteiro, então a medida procurada corresponde ao


elemento do rol que ocupa esta posição.
• Se pos não for um número inteiro, então a medida procurada é um elemento
intermediário entre os elementos que ocupam as posições aproximadas por falta
e por excesso do valor pos. Neste caso, a separatriz corresponde à média
aritmética dos valores que ocupam estas posições.

Exemplos:

1. Calcule o primeiro quartil da seqüência: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15.

Rol: 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15.

i ⋅ n 1 ⋅ 12
pos = = =3
4 4

Logo, Q1= x3 = 5.

2. Calcule o P60 da seqüência: 2; 8; 7,5; 6; 10; 12; 2; 9.

Rol: 2; 2; 6; 7,5; 8; 9; 10; 12.

i ⋅ n 60 ⋅ 8
pos = = = 4,8
100 100
Como este valor não é inteiro, o P60 é um valor situado entre o 4º e o 5º elemento
x + x 5 7,5 + 8
da seqüência. Logo, P60 = 4 = = 7,75
2 2

b) Separatrizes para dados agrupados sem intervalos de classes

Neste caso, como os dados já estão ordenados, utilizamos a freqüência acumulada


da série para localizar o elemento que ocupa a posição da separatriz desejada,
conforme citado no item anterior.

Exemplo:

Calcular o quarto decil da distribuição:

55
i xi Fi Faci
1 2 3 3
2 4 5 8
3 5 8 16
4 7 6 22
5 10 2 24
Total 24 −

i ⋅ n 4 ⋅ 24
pos = = = 9,6
10 10

Como este valor não é inteiro, o D4 é um valor situado entre o 9º e o 10º elemento
da distribuição.
x + x10 5 + 5
Logo, D 4 = 9 = =5
2 2

c) Separatrizes para dados agrupados com intervalos de classes

Neste caso, aplica-se a fórmula:

pos − Facant
Sep = l + ×h,
F
onde:

Sep = medida separatriz a ser determinada (Mediana, Quartil, Decil ou Centil);


l = limite inferior da classe separatriz (a classe que contém a separatriz a ser
determinada);
Facant = freqüência acumulada da classe anterior à classe separatriz;
F = freqüência absoluta simples da classe separatriz;
h = amplitude da classe separatriz;
pos = é a posição da separatriz, sendo dada por:
n
Mediana: pos =
2
i⋅n
Quartil i: pos = ,i = 1, 2,3
4
i⋅n
Decil i: pos = ,i = 1, 2,...,9
10
i⋅n
Centil i: pos = ,i = 1,2,...,99
100
56
Exemplo:

Calcular o 1º quartil, o 4º decil e o 70º centil da distribuição.

i Altura (cm) Fi Faci


1 150 |--- 154 4 4
2 154 |--- 158 9 13 → classe que contém o 1º quartil
3 158 |--- 162 11 24 → classe que contém o 4º decil
4 162 |--- 166 8 32 → classe que contém o 70º centil
5 166 |--- 170 5 37
6 170 |--- 174 3 40
TOTAL 40 −

Cálculo do 1º quartil:

n 40
• Calcula-se pos = → = 10
4 4
• Localiza-se a classe que contém o 10º termo (2ª classe)
pos − Facant
• Aplica-se a fórmula: Q1 = lQ + ×h
1
FQ 1

l Q1 = 154
10 − 4
Facant= 4 Q1 = 154 + × 4 = 156,67
9
h=4
FQ1 = 9

Interpretação: 25% das pessoas têm altura inferior a 156,67 cm.

Cálculo do 4º decil:

4⋅n 4 ⋅ 40
• Calcula-se pos = → = 16
10 10
• Localiza-se a classe que contém o 16º termo (3ª classe)
pos − Facant
• Aplica-se a fórmula: D 4 = l D + ×h
4
FD 4

l D = 158
4

16 − 13
Facant= 13 D 4 = 158 + × 4 = 159,09
11
h = 4 e FD 4 = 11
57
Interpretação: 40% das pessoas têm altura inferior a 159,09 cm.

Cálculo do 70º centil:

70 ⋅ n 70 ⋅ 40
• Calcula-se pos = → = 28
100 100
• Localiza-se a classe que contém o 28º termo (4ª classe)
pos − Facant
• Aplica-se a fórmula: C70 = lC + ×h
70
FC 70

lC = 162
70

28 − 24
Facant= 24 C70 = 162 + × 4 = 164
8
h=4
FC = 8
70

Interpretação: 70% das pessoas têm altura inferior a 164 cm.

EXERCÍCIOS:

1. Para a distribuição:

Classes 4 |--- 6 6 |--- 8 8 |--- 10 10 |--- 12


Fi 4 11 15 5

Calcule Q1, D6 e P65. Interprete os resultados obtidos.

2. Para a distribuição abaixo calcule Q3, D2 e P45. Interprete os resultados obtidos.

Classes 20 |--- 30 30 |--- 40 40 |--- 50 50 |--- 60 60 |--- 70


Fi 3 8 18 22 24

3. O departamento de recursos humanos de uma empresa, tendo em vista o


aumento de produtividade de seus vendedores, resolveu , premiar com um
aumento de 5% no salário, a metade e seus vendedores mais eficientes. Para
isto, fez um levantamento de vendas semanais, por vendedor, obtendo a tabela:

58
Vendas (R$) Nº DE VENDEDORES
0 |---- 10.000 1
10.000 |---- 20.000 12
20.000 |---- 30.000 27
30.000 |---- 40.000 31
40.000 |---- 50.000 10
Total

A partir de qual volume de vendas o vendedor será premiado?

4. Se, no problema anterior, o gerente resolver premiar somente os 25% dos


vendedores mais eficientes, a partir de qual volume de vendas o vendedor será
premiado?

5. A distribuição de freqüência abaixo representa o consumo por nota de 54 notas


fiscais emitidas durante um dia em uma loja de departamentos.

Consumo por nota fiscal Nº DE NOTAS


(R$)
0 |---- 50 10
50 |---- 100 28
100 |---- 150 12
150 |---- 200 2
200 |---- 250 1
250 |---- 300 1
Total

O gerente desta loja de departamentos decidiu premiar a nível promocional com


um brinde, 10% dos fregueses que mais consumirem, nos próximos 30 dias. A
partir de qual valor de consumo da nota fiscal os clientes seriam premiados?

59
4. MEDIDAS DE DISPERSÃO, MEDIDAS DE
ASSIMETRIA E MEDIDAS DE CURTOSE

4.1 MEDIDAS DE DISPERSÃO

As medidas de dispersão são medidas estatísticas utilizadas para avaliar o grau


de variabilidade, ou dispersão, dos valores em torno da média. Servem para medir
a representatividade da média. Essa avaliação é necessária, pois quando se trata de
interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados,
como a média aritmética, deve-se ter uma idéia retrospectiva de como se
apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma
medida de posição para caracterizar perfeitamente um conjunto de valores,
devemos, também, medir a variabilidade do conjunto de valores em relação à essa
medida de posição.

Se observarmos as seqüências

X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10


Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13
Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13

concluiremos que todas possuem a mesma média 13. No entanto, são seqüências
completamente distintas do ponto de vista da variabilidade de dados.

Na seqüência Z não há variabilidade de dados. A média 13 representa bem


qualquer valor da série.

Na seqüência Y, a média 13 representa bem a série, mas existem elementos da


série levemente diferenciados da média 13.

Na seqüência X existem muitos elementos bastante diferenciados da média 13.

Concluímos que a média 13 representa otimamente a seqüência Z, representa


bem a seqüência Y, mas não representa bem a seqüência X.

Chamando de dispersão, ou variabilidade, a maior ou menor diversificação dos


valores de uma variável em torno de um valor de tendência central tomado como
ponto de comparação, podemos dizer que o conjunto Z apresenta dispersão ou
variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade
menor que o conjunto X.

60
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior
ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição,
a Estatística recorre às medidas de dispersão.

Estudaremos as principais medidas de dispersão absolutas que são: amplitude


total, desvio médio, variância e desvio-padrão e a principal medida de dispersão
relativa que é o coeficiente de variação.

4.1.1 AMPLITUDE TOTAL (AT)

A amplitude total é a diferença entre o maior valor e o menor valor da seqüência


dos dados observados.
AT = valor máximo – valor mínimo

a) Amplitude total para dados não agrupados

Basta identificar o maior e o menor valor da seqüência e efetuar a diferença entre


esses valores.

Exemplo: Determine a amplitude total da seqüência: 11, 12, 9, 10, 10, 15.

Solução: O maior valor desta seqüência é 15 e o menor valor é 9.


Portanto, AT = 15 – 9 = 6 unidades.

b) Amplitude total para dados agrupados sem intervalos de classes

Como os valores já se encontram ordenados, a amplitude total é a diferença entre o


último e o primeiro elemento da série.

Exemplo: Determine a amplitude total da série:

NÚMERO DE IRMÃOS DE 20 ALUNOS DA TURMA IDX


i Xi Fi
1 0 4
2 1 8
3 2 3
4 3 3
5 4 2
TOTAL 20
Fonte: Dados Hipotéticos

Solução: O maior valor da série é 4 e o menor valor da série é 0.


61
Portanto, AT = 4 – 0 = 4.

c) Amplitude total para dados agrupados com intervalos de classes

Nesta situação, a amplitude total da série é a diferença entre o limite superior da


última classe e o limite inferior da primeira classe.

Exemplo: Dada a distribuição abaixo encontre sua amplitude total:

Renda Familiar de 40 Famílias


i Salários (R$ Fi
1.000)
1 2 |--- 4 5
2 4 |--- 6 10
3 6 |--- 8 14
4 8 |--- 10 8
5 10 |--- 12 3
TOTAL 40
Fonte: Dados Hipotéticos

Solução: Como o limite superior da última classe é L5 = 12 e o limite inferior da


primeira classe é l1 = 2, a amplitude total é: AT = 12 – 2 = 10.

Quando dizemos que a amplitude total dos valores é 10, estamos afirmando
alguma coisa do grau de sua concentração. É evidente que, quanto maior a
amplitude total, maior a dispersão ou variabilidade dos valores da variável.

Apesar da facilidade de obtenção da amplitude total, esta medida apresenta a


inconveniência de depender apenas de dois valores da série. É possível modificar
completamente a dispersão ou a concentração dos elementos em torno da média,
sem alterar a amplitude total da série. É uma medida que tem pouca sensibilidade
estatística.

Observação: Faz-se uso da amplitude total quando se quer determinar a amplitude


da temperatura em um dia ou no ano, no controle de qualidade ou como uma
medida de cálculo rápido. Também a usamos quando a compreensão popular é
mais importante que a exatidão e a estabilidade.

4.1.2 DESVIO MÉDIO (DM)

Desde que se deseja medir a dispersão dos dados em relação à média parece
interessante fazermos a análise dos desvios em torno da média: di = (xi − x ).
62
Mas a soma de todos os desvios é igual a zero, Isto é: di = (x i − x) = 0 .

Utilizando o conceito matemático de distância (módulo de número real),


encontramos uma maneira de trabalhar com os desvios sem que a soma dê zero e,
por isso, o conceito estatístico de desvio corresponde ao conceito matemático de
distância.

a) Desvio Médio para dados não agrupados

Calculamos inicialmente a média da seqüência. Em seguida, identificamos a


distância de cada elemento da seqüência para sua média. Finalmente, calculamos a
média destas distâncias. Dessa forma define-se desvio médio como:
di xi − x
DM = =
n n

Veja que os desvios foram considerados em módulo, evitando-se assim que a soma
fosse nula.

Exemplo: Calcule o desvio médio para a seqüência: 2, 8, 5, 6.

Solução: Determinamos inicialmente a média da série

xi 2+8+5+6
x= = = 5,25 .
n 4

Em seguida, determinamos as distâncias de cada elemento da série para a média da


série

x1 − x = 2 − 5,25 = 3,25
x 2 − x = 8 − 5, 25 = 2,75
x 3 − x = 5 − 5, 25 = 0,25
x 4 − x = 6 − 5, 25 = 0,25

O DM é a média aritmética simples destes valores:

3, 25 + 2,75 + 0, 25 + 0,75 7
DM = = = 1,75 .
4 4

63
Interpretação: Em média, cada elemento da seqüência está afastado do valor 5,25
por 1,75 unidades.

b) Desvio Médio para dados agrupados sem intervalos de classes

No caso da apresentação de uma variável discreta, lembramos que a freqüência


absoluta simples de cada elemento representa o número de vezes que este valor
figura na série. Conseqüentemente, haverá repetições de distâncias iguais de cada
elemento distinto da série para a média da série. Assim, a média indicada para
estas distâncias é uma média aritmética ponderada:
d i ⋅ Fi x i − x ⋅ Fi
DM = =
n n

Exemplo: Determine o desvio médio (DM) para a série:

i xi Fi
1 1 2
2 3 5
3 4 2
4 5 1
TOTAL 10

x i Fi x i − x Fi
Solução: A média da série é: x = e o DM é dado por D M = .
n n

Por isso, incluiremos as colunas xi Fi e x i − x Fi na tabela para efetuar os


cálculos acima.

xi Fi x iF i x i − x ⋅ Fi
1 2 2 4
3 5 15 0
4 2 8 2
5 1 5 2
TOTAL 10 30 8

Logo, a média é
x i Fi 30
x= = =3
n 10
e o desvio médio é
64
x i − x Fi 8
DM = = = 0,8 .
n 10

Interpretação: Em média, cada elemento da série está afastado do valor 3 por 0,8
unidades.

c) Desvio Médio para dados agrupados com intervalos de classes

Nesta situação, por desconhecer os valores individuais dos elementos componentes


da série, substituiremos estes valores xi , pelos pontos médios das classes.

Desta forma, o desvio médio tem por cálculo a fórmula:

x i − x ⋅ Fi
DM = ,
n
onde xi é o ponto médio da classe i.

Exemplo: Determine o desvio médio (DM ) para a série:

i classes Fi
1 2 |--- 4 5
2 4 |--- 6 10
3 6 |--- 8 4
4 8 |--- 10 1
TOTAL 20

Solução: Incluiremos as colunas xi , xi Fi e x i − x Fi na tabela para efetuarmos


os cálculos desejados.

i classes Fi xi x i Fi x i − x Fi
1 2 |--- 4 5 3 15 10,5
2 4 |--- 6 10 5 50 1,0
3 6 |--- 8 4 7 28 7,6
4 8 |--- 10 1 9 9 3,9
TOTAL 20 − 102 23,0

x i Fi 102
A média da série é: x = = = 5,1 .
n 20

65
x i − x Fi 23
O desvio médio é: D M = = = 1,15 .
n 20

Interpretação: Em média, cada elemento da série está afastado de 5,1 por 1,15
unidades.

O desvio médio depende de cada componente da série. Se mudarmos o valor de


um único elemento da série, mudamos também o DM. Portanto, o desvio médio tem
perfeita sensibilidade estatística. A maior dificuldade desta medida é envolver
módulos, cujas propriedades, em geral não são suficientemente conhecidas pelos
alunos que normalmente desenvolvem estes cálculos.

EXERCÍCIOS:

3. Determinar a amplitude total e o desvio médio das séries:


a) 2; 5; 8; 10; 12; 8; 5; 12

b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8

4. Determinar a amplitude total e o desvio médio das distribuições:


a)
xi 2 3 4 5 7
Fi 3 5 8 4 2

b)
xi 73 75 77 79 81
Fi 2 10 12 5 2

c)
Classes 1 |--- 3 3 |--- 5 5 |--- 7 7 |--- 9 9 |--- 11 11 |--- 13
Fi 3 5 8 6 4 3

d)
Classes 22 |--- 25 25 |--- 28 28 |--- 31 31 |--- 34
Fi 3 5 8 6

66
4.1.3 VARIÂNCIA (S2) e DESVIO PADRÃO (S)

Como vimos, a amplitude total é instável, por se deixar influenciar pelos


valores extremos da série, que são, na sua maioria, devidos ao acaso. Também
observamos que a dificuldade em se operar com o desvio médio se deve à presença
do módulo, para que as diferenças xi − x possam ser interpretadas como
distâncias.

A variância e o desvio padrão são medidas que fogem a essas falhas, pois
levam em consideração a totalidade dos valores da variável em estudo, o que faz
delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais
geralmente empregados.

A variância baseia-se nos desvios em torno da média aritmética, porém, para


conseguir que as diferenças xi − x se tornem sempre positivas ou nulas vamos
considerar o quadrado destas diferenças, isto é (xi − x )2. Se substituirmos, nas
fórmulas do desvio médio a expressão x i − x por (xi − x )2, obteremos essa nova
medida de dispersão chamada variância.

O desvio padrão é a raiz quadrada positiva da variância.

Em particular, para estas medidas levaremos em consideração o fato de a


seqüência de dados representar toda uma população ou apenas uma amostra de
uma população. No final desta seção justificaremos esta necessidade.

Quando a seqüência de dados representa uma população a variância será


denotada por σ 2 e o desvio padrão correspondente por σ . Quando a seqüência de
dados representa uma amostra, a variância será denotada por s2 e o desvio padrão
correspondente por s.

a) Variância e desvio padrão para dados não agrupados

• Se a seqüência representa uma população, a variância é calculada pela fórmula:

(x i − x) 2
σ2 = ,
n

e o desvio padrão é σ = σ 2 .

67
• Se a seqüência representa uma amostra, a variância é calculada pela
fórmula:

(x i − x) 2
2
s = ,
n −1

e o desvio padrão é s = s 2 .

Exemplo: Calcule a variância e o desvio padrão da seqüência: 4, 5, 8, 5.


a) no caso em que esta seqüência representa uma população;
b) no caso em que esta seqüência representa uma amostra.

xi 22
Solução: A média da seqüência é: x = = = 5,5
n 4
2
Os quadrados das diferenças (xi − x ) valem:
(x1 − x )2 = (4 – 5,5)2 = 2,25
(x2 − x )2 = (5 – 5,5)2 = 0,25
(x3 − x )2 = (8 – 5,5)2 = 6,25
(x4 − x )2 = (5 – 5,5)2 = 0,25

Somando-se estes valores obtém-se: (x i − x) 2 = 9.


a) No caso em quem a seqüência representa uma população substituímos esses
valores na fórmula da variância populacional e obtemos:

2
(x i − x) 2 9
σ = = = 2,25.
n 4

Como o desvio padrão é a raiz quadrada positiva da variância,


σ = σ 2 = 2, 25 = 1,5 .

b) Se a seqüência 4, 5, 8, 5, representar uma amostra, a única diferença entre a


fórmula de σ 2 e s2 é o denominador. Assim,
2
(x i − x) 2 9
s = = =3
n −1 3
e o desvio padrão é s = 3 = 1,73.

b) Variância e desvio padrão para dados agrupados sem intervalos de classes

68
Como há repetições de elementos na série, definimos a variância como sendo
uma média aritmética ponderada dos quadrados dos desvios dos elementos da série
para a média da série.

• Se a variável discreta é representativa de uma população, então a variância é


dada por:

(x i − x) 2 ⋅ Fi
σ2 = .
n
• Se a variável discreta é representativa de uma amostra, então a variância é dada
por:

2
(x i − x) 2 ⋅ Fi
s =
n −1
Como você pode ter notado, as diferenças entre as fórmulas são: para o caso da
variância populacional σ 2 , utiliza-se a média populacional tendo como
denominador o tamanho da população. Para o cálculo da variância amostral s2,
utiliza-se a média amostral, tendo como denominador o tamanho da amostra menos
um.

Fórmulas práticas para os cálculos das variâncias, obtidas por transformações


nas respectivas fórmulas originais são:

σ2 =
1
⋅ x i 2 Fi −
( x i Fi )
n n

ou
2

s2 =
1
⋅ x i 2 Fi −
( x i Fi )
n −1 n

Exemplo: Calcule a variância e o desvio padrão da série abaixo, representativa de


uma população:

i xi Fi
1 2 3
2 3 5
3 4 8
4 5 4
Total 20
69
Solução: Utilizando a fórmula prática para o cálculo da variância, calculamos xiFi
e xi2 Fi.

i xi Fi xiFi xi2Fi
1 2 3 6 12
2 3 5 15 45
3 4 8 32 128
4 5 4 20 100
Total 20 73 285

Substituindo os valores na fórmula da variância, obtemos:


2

2 1
σ = ⋅ 2
x i Fi −
( x i Fi ) =
1
⋅ 285 −
( 73)
2

=
n n 20 20

1 5329 1
= ⋅ 285 − = ⋅ [ 285 − 266, 45] =
20 20 20
1
= ⋅ [18,55] = 0,9275
20
e o desvio padrão correspondente é σ = 0,9275 = 0,963 .

Observe que se a variável fosse representativa de uma amostra, a variância seria


indicada por s2 e calculada por:
2

s2 =
1
⋅ x i 2 Fi −
( x i Fi ) =
1
[18,55] = 0,9763
n −1 n 19

e o desvio padrão seria calculado por s = 0,9763 = 0,988.

c) Variância e desvio padrão para dados agrupados com intervalos de classes

Novamente, por desconhecer os particulares valores xi da série, substituiremos


nas fórmulas anteriores estes valores pelos pontos médios das classes.

Exemplo: Determinar a variância e o desvio padrão da distribuição:

i Classes Fi
1 0 |--- 4 1
2 4 |--- 8 3
3 8 |--- 12 5
4 12 |--- 16 1
TOTAL 10

70
Solução: Ampliaremos a tabela com o cálculo de xi Fi e de xi2 Fi:

i Classes Fi xi x iF i xi2Fi
1 0 |--- 4 1 2 2 4
2 4 |--- 8 3 6 18 108
3 8 |--- 12 5 10 50 500
4 12 |--- 16 1 14 14 196
TOTAL 10 − 84 808

A variância é:
2

2 1
σ = ⋅ 2
x i Fi −
( x i Fi ) =
1
⋅ 808 −
842
n n 10 10

1 7056 1 1
= ⋅ 808 − = ⋅ [808 − 705,6] = ⋅ [102, 4] = 10,24
10 10 10 10
e o desvio padrão: σ = 10,24 = 3,2 .

No caso da distribuição representar uma amostra, a variância seria:


1 1
s2 = ⋅ [102,4] = [102,4] = 11,38
10 − 1 19
e o desvio padrão correspondente s = 11,38 = 3,373 .

Observe que no cálculo da variância, a unidade de medida da série fica elevada


ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de
medida da série. Em algumas situações, a unidade de medida da variância nem faz
sentido. Portanto, o valor da variância não pode ser comparado diretamente com os
dados da série, ou seja: variância não tem interpretação. Exatamente para suprir
esta deficiência da variância é que se define o desvio padrão.

Para justificar que o denominador da variância amostral deve ser n – 1 e não n,


usaremos o seguinte argumento: O modelo matemático que calcula a variância de
uma amostra não pode ser
(x i − x) 2
2
σ = ,
n
pois, caso isto fosse verdadeiro, este modelo deveria determinar a variância para
qualquer tamanho de amostra, inclusive para uma amostra constituída de um único
elemento x1. Mas para uma amostra constituída de um único elemento x1 o valor
médio da amostra também será x1. Calculando a variância pelo modelo acima,
teremos:
(x i − x i ) 2
2
σ = = 0.
n
71
Seríamos induzidos a afirmar que a dispersão da população de onde provém a
amostra é zero, isto é, a população é constituída em sua totalidade por elementos
idênticos. O que é, em geral, uma afirmação falsa.
Para corrigir o modelo matemático, basta colocar no denominador o valor
n – 1. O modelo é escrito então por
(x i − x) 2
2
s = .
n −1

Observe que agora o modelo é coerente. Mesmo quando a amostra tiver apenas
0
um elemento x1, o cálculo de s2 leva-nos a uma indeterminação do tipo . O que
0
significa que a variância existe, mas não está determinada. Significa também que
as amostras de apenas um elemento não nos fornecem informações sobre a
variância da série.

EXERCÍCIOS:

1. Para cada distribuição, determine a variância e o desvio padrão:


a)
xi 72 75 78 80
Fi 8 18 28 38

b)
Classes 7 |--- 10 10 |--- 13 13 |--- 16 16 |--- 19 19 |--- 22
Fi 6 10 15 10 5

c)
Classes 4 |--- 6 6 |--- 8 8 |--- 10 10 |--- 12
Fi 4 11 15 5

d)
Classes 20 |--- 30 30 |--- 40 40 |--- 50 50 |--- 60 60 |--- 70
Fi 3 8 18 22 24

72
4.1.4 COEFICIENTE DE VARIAÇÃO (CV)

Trata-se de uma medida relativa de dispersão útil para a comparação em termos


relativos do grau de concentração em torno da média de séries distintas.

O desvio padrão por si só não nos diz muita coisa. Assim, se uma série X
apresenta x = 10 e σ( x ) =2 e uma série Y apresenta y = 100 e σ( y) = 5, do ponto de
vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No
entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y
que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X
que é 2 em relação a 10. Além disso, o fato de o desvio padrão ser expresso na
mesma unidade dos dados limita o seu emprego quando desejamos comparar duas
ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando
expressas em unidades diferentes.

Para contornar essas dificuldades e limitações, podemos caracterizar a


dispersão ou variabilidade dos dados em termos relativos a seu valor médio através
do coeficiente de variação:

σ s
CV = ⋅ 100 ou CV = .100
x x
que é expresso em porcentagens.

Diz-se que a distribuição possui pequena variabilidade (dispersão) quando o


coeficiente der até 10%; média dispersão quando estiver acima de 10% até 20%; e
grande dispersão quando superar 20%.

Alguns analistas consideram:


Baixa dispersão: CV ≤ 15%
Média dispersão: 15% < CV < 30%
Alta dispersão: CV ≥ 30%

Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com


desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00 com
desvio padrão de R$1.200,00. Então:
σ 1.500
para os homens CV = ⋅ 100 = ⋅ 100 = 37,5%
x 4.000
σ 1.200
para as mulheres CV = ⋅ 100 = ⋅ 100 = 40%
x 3.000

Logo, podemos concluir que os salários das mulheres apresentam maior


dispersão relativa que os dos homens.

73
EXERCÍCIOS

1. A distribuição abaixo possui desvio padrão igual a 3,02. Determine o valor


do coeficiente de variação.

Classes 0 |--- 4 4 |--- 8 8 |--- 12


Fi 2 3 2

2. Um fabricante de caixas de cartolina fabrica três tipos de caixa. Testa-se a


resistência de cada caixa, tomando-se uma amostra de 100 caixas e determinando-
se a pressão necessária para romper cada caixa. São os seguintes os resultados dos
testes:

Tipos de caixas A B C
Pressão média de ruptura (bária) 150 200 300
Desvio padrão das pressões (bária) 40 50 60

a) que tipo de caixa apresenta a menor variação absoluta na pressão de ruptura?


b) que tipo de caixa apresenta a maior variação relativa na pressão de ruptura?

3. Em um exame final de Matemática, o grau médio de um grupo de 150


alunos foi 7,8 e o desvio padrão 0,80. Em Estatística, entretanto, o grau médio final
foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão?

74
4.2 MEDIDAS DE ASSIMETRIA (AS)

Para conceituar assimetria, obviamente precisamos conceituar simetria.


Diremos que uma distribuição é simétrica quando x = Md = Mo. Se isto de fato
ocorrer, a curva de freqüência tem a seguinte característica gráfica:
eixo de simetria

x = Md = Mo xi
Denomina-se assimetria o grau de afastamento de uma distribuição da
unidade de simetria. Se uma distribuição não for simétrica, será classificada como
assimétrica. Existem duas alternativas para uma distribuição assimétrica.
a)

Mo Md x

b)

x Md Mo

No caso a) a distribuição é classificada de assimétrica positiva.


No caso b) a distribuição é classificada de assimétrica negativa.

75
Existem várias fórmulas para o cálculo do coeficiente de assimetria. Dentre
elas temos o coeficiente de assimetria de Pearson dado por:
x − Mo x − Mo
AS = ou AS =
σ s
Se AS = 0 então a distribuição é simétrica.
Se AS < 0 então a distribuição é assimétrica negativa.
Se AS > 0 então a distribuição é assimétrica positiva.

4.3 MEDIDAS DE CURTOSE (C)

Denominamos curtose o grau de achatamento de uma distribuição em relação a


uma distribuição padrão, denominada curva normal (curva correspondente a uma
distribuição teórica de probabilidade).

Uma distribuição nem chata, nem delgada, ou seja, normal, chama-se


mesocúrtica. Quando a distribuição é delgada (mais aguda em sua parte superior),
ela é chamada de leptocúrtica. E, quando a distribuição apresenta uma curva de
freqüência mais aberta que a normal (ou mais achatada na sua parte superior), ela é
chamada platicúrtica.

mesocúrtica xi

leptocúrtica xi platicúrtica xi

Para medir o grau de curtose utilizaremos o coeficiente percentílico de curtose


dado por:
Q3 − Q1
C= .
2(P90 − P10 )

Relativamente à curva normal, temos:


Se C = 0,263, diz-se que a curva correspondente à distribuição de freqüência
é mesocúrtica.

76
Se C > 0,263, diz-se que a curva correspondente à distribuição de freqüência
é platicúrtica.
Se C < 0,263, diz-se que a curva correspondente à distribuição de freqüência
é leptocúrtica.

Exemplo: Sabendo-se que uma distribuição apresenta as seguintes medidas

Q1 = 24,4 cm, Q3 = 41,2 cm, P10 = 20,2 cm e P90 = 49,5 cm,

temos que

41, 2 − 24, 4 16,8


C= = = 0, 2866 C = 0,287 .
2(49,5 − 20, 2) 58,6

Como 0,287>0,263, concluímos que a distribuição é platicúrtica, em relação à


normal.

EXERCÍCIOS
Calcular os coeficientes de assimetria e os coeficientes de curtose das listas de
exercícios anteriores.

77

Das könnte Ihnen auch gefallen