Sie sind auf Seite 1von 123

UniverCidade 1

Estatística Aplicada - Prof. Célio Cayres


___________________________________________________________________________________

ESTATÍSTICA APLICADA

- Apresentação Geral do Caderno de Estudo

A palavra ESTATÍSTICA provém do latim status, que significa estado. A


primitiva utilização da estatística envolvia compilações de dados e gráficos que
descreviam vários aspectos de um estado ou país. As famílias, os governos e as
empresas se apóiam largamente em dados estatísticos para tomarem decisões.
A simples observação de um conjunto de dados não permite que sejam
tomadas decisões ou, quando muito possibilitarão decisões eivadas de princípios
empíricos.
Vivemos uma era em que a ciência deve prevalecer sobre o empirismo, em
que a lógica deve prevalecer sobre o “achismo”.
A estatística abrange muito mais do que o simples traçado de gráficos e o
cálculo de médias. Neste caderno será visto como tirar conclusões gerais e
significativas que vão além dos dados originais.
Os diversos assuntos serão abordados de forma objetiva, visando a
aplicação direta dos conceitos. Os únicos conhecimentos matemáticos necessários
para a compreensão do texto é a aritmética e elementos de álgebra básica. Quando
houver a necessidade de algum conceito um pouco mais avançado, o mesmo será
abordado de forma sintética e objetiva.
Nos casos em que forem necessários cálculos mais complexos será utilizado
o Microsoft Excel, poderosa ferramenta que reduz muito o tempo necessário para a
determinação de valores. Familiarize-se com esta ferramenta. Havendo
necessidade, utilize o Ajuda.
UniverCidade 2
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

1. Variáveis e Gráficos
1.1 – Estatística

O termo ESTATÍSTICA provém da palavra Estado e foi utilizado


originalmente para denominar levantamentos de dados, cuja finalidade era orientar
o Estado em suas decisões.
Neste sentido foi utilizado em épocas remotas para determinar o valor dos
impostos cobrados dos cidadãos, para determinar a estratégia de uma nova batalha
em guerras que se caracterizavam por uma sucessão de batalhas – era
fundamental aos comandantes saber de quantos homens, armas, cavalos, etc.
dispunham após a última batalha.
Atualmente, a ESTATÍSTICA é definida da seguinte forma:

Estatística é um conjunto de métodos e


processos quantitativos que serve para
estudar e medir os fenômenos coletivos.

A estatística teve acelerado desenvolvimento a partir do século XVII, com os


estudos de BERNOULLI, FERMAT, PASCAL, LAPLACE, GAUSS, GALTON, PEARSON,
FISHER, POISSON e outros que estabeleceram suas características atuais (da
SILVA, et al.; 1996,11).

Uma outra definição para ESTATÍSTICA (VIEIRA; 1999,6):

Estatística é a ciência dos dados. Envolve a


coleta, a classificação, o resumo, a organização,
a análise e a interpretação da informação
numérica.

A Estatística tem importante papel no pensamento crítico, seja no trabalho,


na pesquisa, ou no dia-a-dia. Então o tempo que você usar estudando essa matéria
será um investimento para seu futuro. É verdade que algumas pessoas pensam que
as estatísticas mentem. Ou, como já disse alguém, “ os números dizem qualquer
coisa quando bem torturados”. Mas qualquer ciência produz resultado contrário ao
desejado, quando é mal aplicada. Então as estatísticas “mentem” apenas quando
estão erradas ou, no mínimo, estão sendo mal interpretadas.
UniverCidade 3
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
A Estatística trata dados. Todo dado se refere a uma variável. Então a
Estatística trabalha com variáveis. A Estatística não trata constantes. As variáveis
assumem diferentes valores, nas diferentes unidades.

Exemplo:
A coordenação de um colégio pretende levantar dados sobre os alunos do 3º
ano do ensino médio, candidatos ao vestibular. O que você acha que a coordenação
pode anotar, porque é variável e o que você acha que não deve anotar, porque é
constante?

Solução:
A coordenação pode levantar dados sobre a renda familiar, sobre as
carreiras pretendidas, que são variáveis, mas não deve levantar dados sobre a
alfabetização porque, entre candidatos ao vestibular, a resposta seria uma
constante, já que todos possuem, no mínimo o ensino médio!

Os dados são freqüentemente selecionados de um conjunto maior, cujas


características é preciso estimar.

Exercícios:

1 – Um colégio pretender realizar uma festa de fim de ano. A maior queixa


dos responsáveis é com relação aos preços cobrados nas “barraquinha” pelos
alimentos disponibilizados. Que dados deverão ser coletados visando atender
melhor aos responsáveis?

2 – Há a necessidade de iniciar um ciclo de palestras para tratar de assuntos


como uso de drogas e sexualidade infantil. O profissional contratado para proferir
as palestras deseja preparar um material adequado ao perfil cultural dos
responsáveis. Que levantamento seria necessário para distribuir melhor os
responsáveis por turma e maximizar o resultado das palestras?
UniverCidade 4
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
1.2 – População e amostra

Conforme ficou claro na definição, a Estatística tem por objetivo o estudo


dos fenômenos coletivos e das relações que existem entre eles. Entende-se como
fenômeno coletivo aquele que se refere à população, ou universo, que compreende
um grande número de elementos, sejam pessoas ou coisas.

População é o conjunto de elementos sobre o qual


desejamos obter informação.

População é o conjunto de todos os itens (pessoas,


coisas) que interessam ao estudo de um fenômeno
coletivo segundo alguma característica.

Note que a população é definida em função da informação que interessa ao


pesquisador. Se você quiser informações sobre estudantes com faixa etária entre 7
e 14 anos de um município do interior do estado, esta será a sua população,
mesmo que você só disponha dos alunos de uma única escola pala coletar os
dados.
Precisamos, também da definição de amostra:

Amostra é qualquer subconjunto não vazio de uma população,


ou, é todo subconjunto de elementos retirados da população para
obter a informação desejada.

Uma característica numérica estabelecida para toda uma população é


denominada parâmetro.
Uma característica numérica estabelecida para uma amostra é denominada
estimador.
Utilizando o exemplo citado acima, a população seria a totalidade dos alunos
com idades entre 7 e 14 anos do município pesquisado. Utilizando a população
poder-se-ia concluir como parâmetro que, por exemplo, 60 % dos alunos são do
sexo feminino. Podemos indicar como uma amostra somente os alunos do turno da
manhã da mesma escola. Utilizando somente a amostra, poder-se-ia estimar que,
por exemplo, 57 % dos alunos são do sexo feminino.
UniverCidade 5
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

População – todos os
elementos do conjunto
que interessa.

Parãmetro

Amostra – subconjunto
não vazio de uma
população

Estimador

Quando os dados são obtidos de toda uma população, diz-se que foi feito
um recenseamento. Quando são obtidos dados de apenas parte da população, diz-
se que foi feita uma amostragem. O conjunto de dados obtidos de toda a população
é denominado censo.
Censo é uma avaliação direta de um parâmetro, utilizando-se todos os
componentes da população.
Estimação é uma avaliação indireta de um parâmetro, com base em um
estimador através do cálculo de probabilidades.
As principais propriedades do censo são:
• admite erro processual zero e tem confiabilidade 100 %;
• é caro;
• é lento;
• é quase sempre desatualizado;
• nem sempre é viável.

As principais propriedades da estimação são:


• admite erro processual positivo e tem confiabilidade menor que
100 %;
• é barata;
• é rápida;
• é atualizada;
• é sempre viável.
UniverCidade 6
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

No Brasil, os censos são feitos pela Fundação


Instituto Brasileiro de Geografia e Estatística
(Fundação IBGE), que obtém dados de toda a
população.
O censo demográfico é realizado a cada dez anos e
os seus resultados são corrigidos periodicamente
através da PNAD – Pesquisa Nacional por Amostra
Domiciliar.

Comentário Importante:

Estatisticamente, a precisão de um valor numérico é avaliada através do


binômio: confiança e erro processual.
Se admitirmos que podemos retirar do Censo todo tipo de erro de natureza
humana (erro de cálculo de avaliação, de anotação), restará apenas outro tipo de
erro devido ao procedimento empregado.
Este erro é chamado erro processual. No caso de um Censo, o erro
processual é zero, pois avaliamos um por um, todos os elementos componentes da
População.
Como o erro processual na avaliação é zero, a confiabilidade no parâmetro
obtido é 100 %. A precisão, no Censo é total.
Na estimação, como avaliamos apenas parte e não todos os elementos que
compõem a população, admitimos um erro processual positivo na avaliação do
valor numérico e por conseqüência uma confiabilidade menor que 100 %, sendo,
portanto, menos precisa que o Censo. (da SILVA; 1996,13)

A população pode ser, segundo o seu tamanho, finita ou infinita. É finita a


população que possui um número determinado de elementos; aa população infinita
possui um número infinito de indivíduos. Esta definição existe somente no campo
teórico, uma vez que, na prática, nunca encontraremos populações com infinitos
elementos mas, sim, populações com grande número de componentes e, nestes
casos, tais populações são tratadas como se fossem infinitas.
Quando a população é muito grande, torna-se difícil a observação dos
aspectos a serem estudados de cada um dos elementos, devido ao alto custo, ao
intenso trabalho e ao tempo despendido para levar a cabo uma exaustiva
observação de todos os componentes da população. Nessas circunstâncias, fazemos
a seleção de uma amostra suficientemente representativa da população e, através
da observação dessa amostra, estaremos aptos a analisar os resultados, da mesma
UniverCidade 7
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
forma que se estudássemos toda a população, só que nesse caso sem os
inconvenientes anteriormente descritos.

A definição do tamanho da amostra vai depender do


universo que estiver sendo pesquisado. Em alguns
casos, coma nas pesquisas eleitorais, utiliza-se uma
pequena fração da população e verifica-se resultados
bem positivos. A definição do tamanho da amostra é
objeto de estudo mais aprofundado.

Exercícios:

1 – Uma pesquisa foi realizada entre os alunos de um colégio. Considerando


os indicadores apresentados, identifique se o resultado foi baseado em uma
amostra ou em uma população:
a) todos os alunos foram abordados e indicaram a necessidade de
instalação de ventiladores nas salas de aula;
b) 75 % das meninas responderam os questionários e solicitaram
aulas de balé;
c) para obter informações sobre os inspetores responsáveis pelos
alunos do ensino médio foram consultadas somente as turmas da
manhã, sendo que existem turmas à tarde;
d) todos os alunos responderam que 80 % dos professores são muito
rigorosos nos critérios de avaliação.

2 – Para os casos acima, identifique se as características numéricas obtidas


são parâmetros ou estimativas.

3 – Em que situações será necessária a realização de um censo? Justifique.

1.3 – Estatística Indutiva e Descritiva

O tratamento estatístico de um conjunto de dados pode envolver dois


processos diferentes, isto é, a descrição dos dados e o estabelecimento de
conclusões sobre a população a partir dos dados obtidos por amostragem.
Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar
com grande número de valores numéricos resultantes de um Censo ou de uma
estimação.
Estes valores numéricos são chamados de dados estatísticos.
UniverCidade 8
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
A Estatística ensina métodos racionais para a obtenção de informações a
respeito de um fenômeno coletivo, além de obter conclusões válidas para o
fenômeno e também permitir tomada de decisões, através de dados estatísticos
observados.
A Estatística pode ser dividida em duas áreas:
a) Estatística Descritiva, e
b) Estatística Indutiva.

Estatística Descritiva ou Dedutiva é aquela que tem por


objetivo descrever e analisar determinada população, sem
pretender tirar conclusões de caráter mais genérico.

Estatística Descritiva utiliza métodos numéricos e gráficos


para mostrar os padrões de comportamento dos dados, para
resumir a informação contida nesses dados e apresentar a
informação de forma conveniente.

Necessitamos, também, conceituar Estatística Indutiva:

Estatística Indutiva ou Inferência Estatística é a parte da


Estatística que, baseando-se em resultados obtidos da análise
de uma amostra da população, procura inferir, induzir ou
estimar as leis de comportamento da população da qual a
amostra foi retirada.

Estatística Indutiva é a parte da Estatística que tem por


objetivo obter e generalizar conclusões para a população a
partir de uma amostra, através do cálculo de probabilidade.

Quando é realizado um Censo Demográfico, obtém-se informações sobre a


totalidade da população em um determinado período. Por exemplo, verifica-se qual
é a proporção entre homens e mulheres. Pode-se, através destes dados, verificar-
se qual foi a evolução do crescimento de homens e mulheres em relação a um
período anterior, pela simples comparação entre os dados. Neste caso são
utilizados conceitos de Estatística Descritiva.
Entretanto, se forem coletadas amostras em populações das capitais, por
exemplo, e a partir dos dados obtidos forem verificadas as proporções entre
UniverCidade 9
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
homens e mulheres, poder-se-á, através de Estatística Indutiva, generalizar a
relação entre os sexos para a população como um todo.

A Estatística Descritiva, na sua função de descrição dos dados, tem as


seguintes atribuições:
a) obtenção dos dados estatísticos.
É normalmente feita através de um questionário ou de observação direta
de uma população ou amostra.

b) a organização dos dados.


Consiste na ordenação e crítica quanto à correção dos va
observados, falhas humanas, omissões, abandono de dados duvidosos, etc.

c) a redução dos dados.


O entendimento e compreensão de grande quantidade de dados através
da simples leitura de seus valores individuais é tarefa extremamente árdua e difícil
mesmo para o mais experimentado pesquisador.
A Estatística Descritiva apresenta duas formas básicas para a redução do
número de dados com os quais devemos trabalhar, chamadas variável discreta e
variável contínua, que serão objeto de definições mais adiante.

d) A representação dos dados.


Os dados estatísticos podem ser mais facilmente compreendidos quando
apresentados através de uma representação gráfica, o que permite uma
visualização instantânea de todos os dados
Os gráficos – que serão objeto de estudo mais adiante, quando bem
representativos, tornam-se importantes instrumentos de trabalho.

São, ainda, atributos da Estatística Descritiva, visando facilitar a descrição


dos fenômenos observados: obtenção de médias, proporções, dispersões,
tendências, índices, taxas e coeficientes.

Exercícios:

1 – Quais são as principais atribuições da Estatística Descritiva?


UniverCidade 10
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
2 – Dados amostrais foram coletados e em função deles um pesquisador
concluir fatos para abranger toda a população. Em que ramo da Estatística este
pesquisador está atuando?
UniverCidade 11
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

1.4 – Variáveis Qualitativas. Variáveis


Quantitativas:contínuas e discretas

Quando se realiza um levantamento, de um modo geral, para cada elemento


investigado, tem-se associado um resultado ( ou mias de um resultado)
correspondendo à realização de uma certa variável (ou variáveis). Vamos, para
exemplificar, supor que você deseje efetuar um levantamento sobre alguns
aspectos sócio-econômicos das famílias dos alunos matriculados no colégio em que
trabalha. Para cada família investigada tem-se associado um resultado (ou mais de
um resultado) correspondendo à realização de uma certa variável (ou variáveis).
No exemplo em questão, serão consideradas as seguintes variáveis: estado civil do
responsável, educação do responsável, número de filhos, salário familiar, idade do
responsável e estado de procedência.
Algumas variáveis como sexo, educação, estado civil, etc. apresentam como
possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado, ao
passo que outras como número de filhos, salário, estatura, etc. apresentam como
possíveis realizações números resultantes de uma contagem ou mensuração.

As variáveis que possibilitam como realizações qualidade


ou atributos são denominadas de variáveis qualitativas.

Tabela 1
Informação sobre dados sócio-econômicos das famílias dos alunos do Colégio XXX.

Responsável
Número Salário
Família Estado Educação de Idade Estado de Familiar
Nº Civil Filhos (anos/meses) Procedência (R$)
01 Casado Superior 02 39 a 05 m RJ 1.250,00
02 Solteiro Fundamental 03 40 a 07 m BA 2.152,00
03 Solteiro Fundamental 02 37 a 03 m RJ 1.870,00
04 Casado Médio 03 40 a 10 m SE 1.470,00
05 solteiro superior 04 38 a 02 m MG 1.120,00

Fonte: Dados Hipotéticos


UniverCidade 12
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
No caso acima, as variáveis estado civil, educação, estado de procedência,
são variáveis qualitativas, ao passo que as variáveis número de filhos, idade e
salário familiar são variáveis quantitativas.

As variáveis que apresentam como possíveis realizações


números resultantes de uma contagem ou mensuração
são denominadas variáveis quantitativas.

Dentre as variáveis qualitativas, ainda podemos fazer distinção entre dois


tipos:
a) variável qualitativa nominal – para a qual não existe nenhuma
ordenação nas possíveis realizações, como é o caso do estado de
procedência;
b) variável qualitativa ordinal – para a qual existe uma certa ordem
nos possíveis resultados, como é o caso da educação, pois a
classificação em fundamental, médio ou superior correspondem a
uma ordenação baseada no número de anos de escolaridade.

As variáveis quantitativas também possuem classificação dicotômica:

a) variáveis quantitativas discretas – aquelas cujos possíveis valores


formam um conjunto finito ou enumerável de números e que
resultam, freqüentemente, de uma contagem, como por exemplo o
número de filhos. Como exemplo, temos o número de filhos (0, 1,
2, 3 ...).
b) variáveis quantitativas contínuas – aquelas cujos possíveis valores
formam um intervalo de números reais e que resultam,
normalmente, de uma mensuração, como por exemplo o salário
familiar.

Classificação de uma variável


Nominal
Qualitativa

Ordinal

Variável

Discreta
Quantitativa
Contínua
UniverCidade 13
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Para cada tipo de variável existem técnicas mais apropriadas para resumir
as informações.

1.5 – Arredondamento de Dados

Uma das questões que mais comumente interfere nos resultados de


questões envolvendo números é o arredondamento. Qual será a regra mais
adequada? Maior do que cinco arredonda para mais, menor do que cinco arredonda
para menos?
Vejamos uma regra bem simples:
a) em primeiro lugar precisamos determinar para quantas casas
decimais queremos arredondar o número;
b) vamos utilizar a regra do número par que precede.

Por exemplo:

- o resultado do arredondamento de um número como 72,8 para o inteiro


mais próximo é 73, posto que 72,8 é mais próximo de 73 do que de 72. De forma
semelhante, 72,8146 arredondado para o centésimo mais próximo, ou com duas
decimais, é 72,81, porque 72,8146 é mais próximo de 72,81 do que de 72,82.

- ao arredondarmos 72,465 para o centésimo mais próximo, entretanto,


deparamo-nos com um dilema pois 72,465 dista igualmente de 72,46 e de 72,47.
Utilizemos, então, a regra do número para que precede o cinco. Assim, 72,465 é
arredondado para 72,46; 183,575 é arredondado para 183,58.

A prática do arredondamento é especialmente valiosa para reduzir ao


mínimo os erros acumulados por arredondamento, quando trata-se de grande
número de operações.

1.6 – Notação Científica

Ao escrever números, especialmente aqueles que comportem muitos zeros,


antes ou depois da vírgula, é conveniente empregar a notação científica que utiliza
as potências de 10.
UniverCidade 14
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Exemplos:
Número Notação Científica Número Notação Científica
10 101 0,00021 21 x 10-5
1.000 103 856.000.000 856 x 106
100.000 105 0,0000001 10-8

Note que, por exemplo, multiplicando-se 0 número 846 por 106, tem-se o
mesmo resultado que os deslocar a vírgula, para a direita, 6 (seis) casas. Já
multiplicando-se 21 por 10-5, tem-se o mesmo resultado do que deslocando-se a
vírgula para a esquerda 5 (cinco) casas.

A notação científica facilita a operação em muitos casos.


Por exemplo:
- sem o auxílio de uma máquina de calcular, vamos determinar o resultado
de (4.000.000) x (0,0000000002).
Em primeiro lugar:
4.000.000 = 4 x 106 e 0,0000000002 = 2 x 10-10
Desta forma, passamos a ter:
(4)x(106)x(2)x(10-10)
= (4)x(2)x(106)x(10-10)
= 8 x (106-10)
= 8 x 10-4 = 0,0008

Na operação acima foi efetuada uma multiplicação com


potências de mesma base, ou seja, números em potência
de 10. Na multiplicação de potências de mesma base,
repete-se a base e soma-se os expoentes, respeitando-se
os sinais dos expoentes.
No caso de divisão, repete-se a base e subtrai-se os
expoentes, respeitando-se os sinais dos expoentes.
Talvez seja necessário que você efetue uma revisão nos
conceitos fundamentais de matemática, para tanto
consulte livros de Matemática Básica.

Um exemplo utilizando a divisão:


- Qual será o resultado de 20.000 dividido por 0,005?
UniverCidade 15
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
20.000 = 20 x 103
0,005 = 5 x 10-3
(20)x(103) : (5)x(10-3) = (20):(5)x(103:10-3) = 4 x (10 3-(-3)
) = 4 x 106

1.7 – Gráficos

Um gráfico é uma representação gráfica da relação entre variáveis. Muitos


tipos de gráficos são empregados na estatística, dependendo da natureza dos
dados pertinentes e da finalidade para a qual ele é destinado.
Um gráfico corresponde à representação dos dados sob diferentes formas
gráficas, a fim de permitir uma visão rápida e global do fato estudado. De uma
maneira geral, pode-se dizer que os gráficos devem ser confeccionados de maneira
simples e clara, de tal sorte que o observador entenda claramente aquilo que o
gráfico busca evidenciar, sem necessidade de ficar procurando adivinhar o que ele
representa. É extremamente importante que o gráfico seja construído com
honestidade buscando retratar a realidade.
A maioria dos gráficos são construídos no plano cartesiano, ou seja entre
eixos coordenados – abscissas e ordenadas.
A abscissa é o eixo horizontal e a ordenada o eixo vertical. Ambos são
representativos de escalas de grandeza e o ponto onde se encontram é denominado
origem.
Exemplo:

Ordenada

Abscissa
Origem

Para a construção de um gráfico é necessário que sejam seguidas algumas


regras:
1 – todo gráfico deve ter título e escala;
2 – o título deve ser escrito acima do gráfico;
UniverCidade 16
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
3 – no eixo das abscissas a escala cresce da esquerda para a direita e é
escrita embaixo do eixo;
4 – no eixo das ordenadas a escala cresce de baixo para cima e é escrita à
esquerda do eixo;
5 – nos dois eixos devem estar identificadas as variáveis ali representadas;
6 – as linhas auxiliares (grade) são opcionais, mas ajudam a leitura;
7 – os gráficos podem exibir, em rodapé, a fonte, isto é, a instituição, o
pesquisador, ou o grupo de pesquisadores que forneceu o gráfico ou os dados que
permitiram a construção do gráfico.

Os principais tipos de gráficos são:


a) gráfico de linhas;
b) gráfico de colunas;
c) gráfico de barras e,
d) gráfico de setores.

Outros tipos de gráficos são utilizados. Na estatística é


extremamente utilizado o HISTOGRAMA. Adiante será verificada a
técnica de construção do histograma, após as definições relativas
às distribuições de freqüência.

Para que possamos construir os gráficos enumerados acima, vamos utilizar


um exemplo hipotético.

Exemplo:
Um levantamento feitos na Secretaria de uma escola, com relação ao
número de alunos que não adimpliram o pagamento das mensalidades, no
vencimento, no primeiro semestre do ano 20XX, possibilitou a elaboração da tabela
abaixo:
UniverCidade 17
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Número de alunos que não adimpliram as mensalidades,


no vencimento, no primeiro semestre de 20XX.

Meses Número de alunos


Janeiro 17
Fevereiro 12
Março 09
Abril 19
Maio 13
Junho 16

Fonte: dados hipotéticos.

Com base nos dados apresentados vamos construir cada um dos gráficos
enumerados.

a) Gráfico de Linhas

Para a construção do gráfico de linhas, siga os seguintes passos:

1 – trace o sistema de eixos cartesianos;


2 – apresente a variável (meses) no eixo das abscissas e as freqüências
(número de alunos) no eixo das ordenadas;
3 – marque as interseções de cada par ordenado (mês x número de alunos);
4 – para cada interseção faça um ponto bem visível;
5 – uma os pontos, e
5 – coloque o título na figura.
UniverCidade 18
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Número de alunos que não adimpliram, no


vencimento, as mensalidades do primeiro
semestre de 20XX
Número de Alunos
20
15
10
5
0
Janeiro

Fevereiro

Março

Abril

Maio

Junho
Meses

Observe que o gráfico permite visualizar a evolução dos dados, permitindo


que sejam efetuadas conclusões, tais como:
a) há um decréscimo da inadimplência entre janeiro e março;
b) acentua-se a inadimplência no mês de abril.

Vamos, agora, construir, para o mesmo exemplo, um gráfico de colunas.

b) Gráfico de Colunas

Para construir um gráfico de colunas, siga os seguintes passos:

a) trace o sistema de eixos cartesianos;


b) apresente a variável no eixo das abscissas e as freqüências nos eixos das
ordenadas;
c) para representar a variável, construa colunas com bases de mesma
largura, mas alturas iguais às respectivas freqüências, e
d) coloque o título na figura.
UniverCidade 19
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
semestre de 20XX

20
Número de alunos

15

10

0
Janeiro Fevereiro Março Abril Maio Junho
Meses

Veja que o Gráfico de Colunas permite visualizar, também, os mesmos


elementos descritos no gráfico de linhas.

Pode-se, com o auxílio do Microsoft Excel, construir algumas variações do


gráfico de colunas, como, por exemplo, o gráfico de colunas em três dimensões
(3D). As informações obtidas são as mesmas, somente a aparência muda.

Gráfico de Colunas em 3D

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
semestre de 20XX

20
de alunos

15
Número

10
5
0
S1
Janeiro
Fevereiro
Março
Abril
Maio
Junho

Meses

c) Gráfico de Barras

A construção do Gráfico de barras é muito similar à construção do gráfico de


colunas, o que ocorre é uma inversão dos eixos, ou seja, no gráfico de barras as
UniverCidade 20
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
variáveis são representadas no eixo das ordenadas e as freqüências nos eixos das
abscissas.
Para construir um gráfico de barras, siga os seguintes passos:
1 – trace o sistema de eixos cartesianos;
2 – apresente a variável no eixo das ordenadas e as freqüências no eixo das
abscissas;
3- para representar a variável, construa barras com bases de mesma
largura, mas comprimentos iguais às respectivas freqüências;
4 – coloque o título da figura.

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
semestre de 20XX

Junho
Maio
Abril
Meses
Março
Fevereiro
Janeiro

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
de alunos
Número

d) Gráfico de Setores

O gráfico de setores, também denominado de “gráfico de pizza” , possibilita


visualizar a importância relativa de cada variável no conjunto. Em outras palavras,
permite verificar qual é a participação percentual de cada elemento na formação do
conjunto avaliado.

Para a construção de um gráfico de setores inicialmente é necessário que


seja determinada a participação relativa de cada variável e para tal utiliza-se o
princípio das proporções.

Vejamos a tabela inicial:


UniverCidade 21
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Número de alunos que não adimpliram as mensalidades,
no vencimento, no primeiro semestre de 20XX.
Meses Número de alunos
Janeiro 17
Fevereiro 12
Março 09
Abril 19
Maio 13
Junho 16

Fonte: dados hipotéticos.

Vamos efetuar a soma dos número de alunos que não adimpliram a


mensalidade, em todo o semestre:

Número de alunos que não adimpliram as mensalidades,


no vencimento, no primeiro semestre de 20XX.

Meses Número de alunos


Janeiro 17
Fevereiro 12
Março 09
Abril 19
Maio 13
Junho 16
TOTAL 86

Fonte: dados hipotéticos.

O total, ou seja 86 alunos, corresponde a 100 % dos eventos.


Pode-se determinar através da Regra de Três, a participação de cada mês na
formação total. Desta forma estaremos calculando a freqüência relativa de cada
mês.
Para o mês de Janeiro, teremos:

86 -------- 100 %
17 --------- X%

Sabendo-se que o produto dos meios é igual ao produto dos extremos, têm-
se que:
UniverCidade 22
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

86 x X = 17 x 100 %
logo,
X = (17 x 100%) / 86
X = 19,8 %

O valor encontrado indica que 19,8 % das ocorrências verificados no


semestre foram no mês de janeiro.

Vamos calcular os valores para os outros meses:

Número de alunos que não adimpliram as mensalidades,


no vencimento, no primeiro semestre de 20XX.

Freqüência
Meses Número de alunos Relativa
Janeiro 17 19,8
Fevereiro 12 14,0
Março 09 10,5
Abril 19 22,0
Maio 13 15,1
Junho 16 18,6
TOTAL 86 100,0

Fonte: dados hipotéticos.

Para a construção de um gráfico de setores, deve-se seguir os seguintes


passos:
1 – trace uma circunferência. A área do círculo representará o total, isto é,
100 %;
2 –lembre-se de que uma circunferência tem 360º. Então, se aos 100%
correspondem 360º, a freqüência relativa de cada mês (no exemplo),
corresponderá um setor cujo ângulo será calculado através de :
Yº = (360º x freqüência relativa) / 100
3– marque os valores dos ângulos calculados na circunferência (com o
auxílio de um transferidor) e trace raios separando os setores;

4 – faça um tracejado ou utilize cores diferentes para cada setor, para


facilitar a visualização;
5 – coloque o título na figura.
UniverCidade 23
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Vamos calcular os ângulos de cada um dos setores do exemplo:

Número de alunos que não adimpliram as mensalidades,


no vencimento, no primeiro semestre de 20XX.

Freqüência Ângulo
Meses Número de alunos Relativa
Janeiro 17 19,8 71,28
Fevereiro 12 14,0 50,40
Março 09 10,5 37,80
Abril 19 22,0 79,20
Maio 13 15,1 54,36
Junho 16 18,6 66,96
TOTAL 86 100,0 360,00

Fonte: dados hipotéticos.

Após calculados os ângulos, tem-se que:

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
semestre de 20XX

Janeiro Fevereiro

Março Abril

Maio Junho

Na construção do gráfico de setores, pode-se utilizar alguns artifício, visando


facilitar a visualização dos valores. Pode-se indicar no próprio gráfico o percentual
aproximado de cada setor, ou efetuar-se a “explosão” dos setores.
Veja os exemplos abaixo:
UniverCidade 24
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
semestre de 20XX
Junho Janeiro
19% 20%

Maio Fevereiro
15% 14%

Março
Abril 10%
22%

ou

Número de alunos que não adimpliram as


mensalidades, no vencimento, no primeiro
Junho semestre deJaneiro
20XX
19% 20%

Maio Fevereiro
15% 14%

Março
Abril 10%
22%

A utilização do Microsoft Excel facilitará sobremaneira


a construção dos gráficos. Procure familiarizar-se com
a planilha eletrônica e utilize o tutorial gráficos para a
construção.
UniverCidade 25
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

2 – Distribuições de Freqüência
2.1 – Dados brutos

Quando são realizados levantamentos estatísticos normalmente são obtidos


um número muito grande de dados, o que dificulta a visualização dos resultados.
É necessário que os dados sejam “arrumados”, postos em ordem, para que
se possa tirar as conclusões que levaram a obtenção dos dados.
Quando um conjunto de dados é coletado, os dados estão geralmente em
forma bruta, isto é, as observações numéricas não estão arrumadas em qualquer
ordem ou seqüência específica.

Os dados coletados estão originalmente na forma


bruta, ou seja, são DADOS BRUTOS, que necessitam
ser “lapidados” para que se possa obter conclusões
sobre eles.

Conforme o número de observações cresce, vai-se tornando muito difícil


focalizar os principais aspectos em um conjunto de dados; assim precisamos de
meios para organizar as observações de modo que possamos compreender melhor
que informações os dados estão comunicando.

Dados brutos são aqueles que não foram


numericamente organizados.

Vamos supor, por exemplo, que sejam coletadas as notas de 20 alunos em


um trabalho de História e que se obtenha os seguintes valores:

X: 2; 3; 2; 1; 2; 1; 2; 3; 2; 2; 2; 3; 1; 1; 1; 3; 3; 2; 3; 1.

Não está importando, para a análise, a correlação entre que aluno tirou qual
nota, ou seja, o que está em observação são as notas.
Deve-se, então, para facilitar a observação, ordenar os dados.
Vamos ordena-los em ordem crescente:

X: 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3.
UniverCidade 26
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
2.2 – Rol

Os dados ordenados são denominados de ROL.


A construção de um rol é imprescindível para que se possa efetuar análises e
observações nos dados coletados.

Rol é o arranjo dos dados brutos em ordem de


grandeza crescente ou decrescente.

É a partir do rol que poder-se-á verificar qual será a forma mais eficiente de
representar de forma tabular os dados obtidos.
Quando os valores distintos forem em número reduzido pode-se optar pela
representação através de uma variável discreta. Quando o número de valores
distintos for grande, normalmente a melhor opção será a construção de uma
variável contínua.

2.3 – Distribuição de Freqüência

Representar os dados obtidos em um levantamento através de uma


distribuição de freqüência é o passo inicial para que se possa efetuar as análises
necessárias dos dados.
Representar os dados de forma tabular – através de uma tabela, é dispor os
dados de maneira ordenada.
Vamos necessitar de um conceito:

FREQÜÊNCIA SIMPLES de um elemento é o


número de vezes que este elemento figura no
conjunto de dados.

Observe que no conjunto apresentado, o número de elementos distinto da


série – no caso as notas, é pequeno (1, 2 e 3). Neste caso, torna-se fácil reduzir o
conjunto em uma única tabela.
Como o número de elementos distinto é pequeno, podemos utilizar uma
variável discreta para a representação da série de valores.
Neste caso, vamos dispor o conjunto em duas colunas: na primeira iremos
colocar os valores distintos em ordem crescente e na segunda coluna colocaremos
UniverCidade 27
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
os valores das freqüências simples – número de vezes que cada valores é
verificado.
Os valores distintos, ou seja as variáveis, serão representados pela notação
xi, ou seja – x índice i, onde i representa a ordem do valor, a classe.
As freqüências serão representadas por fi, ou seja – f índice i,
Desta forma, teremos:

Notas dos alunos no trabalho de História

Notas (xi) Freqüência (fi)


1 6
2 8
3 6

Fonte: dados hipotéticos.

Observe que conseguiu-se reduzir um conjunto de 20 elementos que


constituíam a série original, para apenas 6, distribuídos em pares que possibilitam
uma perfeita visualização dos elementos observados.

A opção pela variável discreta só é possível quando


o número de elementos distintos da série for
pequeno.

A construção de uma variável discreta é


bastante simples. Basta observar quais são os
elementos distintos da seqüência, ordena-los, e
coloca-los na primeira coluna da tabela. Em
seguida computar a freqüência simples de cada
elementos distinto e colocá-la na segunda coluna
da tabela.

Ocorre, entretanto, que o número de elementos distinto é muito grande.


Nestes casos, a construção de uma variável discreta não é aconselhável, pois
dificultaria a análise.
Nestes casos, deve-se utilizar a variável contínua.
Vamos, por exemplo, identificar as notas atribuídas para os alunos de uma
turma em uma prova de Língua Portuguesa:
UniverCidade 28
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Y: 7,2 4,9 9,8 6,4 4,8 4,6 6,8


5,9 8,5 8,7 1,2 2,5 4,3 6,7
9,5 5,4 1,3 7,6 5,9 6,7 8,6
9,5 9,3 7,4 8,6 8,1 5,9 1,8
7,8 7,2 8,4 6,8 8,2 6,9 7,4
6,3 4,6 4,9 8,7 9,3 8,8 5,8

Observando os valores nota-se grande número de elementos distintos, o que


significa que neste caso a variável discreta não é aconselhável na redução de
dados.
Nesta situação é conveniente agrupar os dados por faixas de valores,
ficando a série com a seguinte apresentação:

Tabela XXX
Notas dos alunos da Turma XX em Língua Portuguesa

Classe Notas Freqüência (fi)


1 0 __ 2 3
2 2 __ 4 1
3 4 __ 6 11
4 6 __ 8 13
5 8 __10 14

Fonte: Dados hipotéticos

Esta apresentação da série de valores é denominada variável contínua.

Deve-se optar por uma variável contínua na


representação de uma série de valores quando o
número de elementos distintos da série for grande.

A construção de uma variável contínua requer que


sejam abordados alguns conceitos: intervalos e limites
de classe, limites de classes e amplitude do intervalo
de classe. Inicialmente serão abordados estes
conceitos, para depois verificar-se a metodologia para
a construção de uma variável contínua.
UniverCidade 29
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

2.4 – Intervalos e Limites de Classe

Uma variável contínua é disposta através de classes, isto é, os dados são


dispostos em grupos distintos, que, entretanto, apresentam características
semelhantes.
Um bom exemplo para demonstrar a divisão de um conjunto de dados em
classes é a divisão de um grupo de crianças para um torneio esportivo.
Normalmente as crianças são divididas por grupos de idades: até 7 anos; maiores
do que 7 anos até 9 anos; maiores do que 9 anos até 11 anos.
O que foi feito foi a divisão em classes.
Neste caso, ter-se-ia:

Classe 1 Até 7 anos


Classe 2 > 7 anos até 9 anos
Classe 3 > 9 anos até 11 anos

Observa-se que as classes representam grupos de crianças com idades


diferentes, mas que os intervalos de idades são iguais, exceto para a primeira
classe que inclui todas as crianças com idades inferiores a 7 anos.

Existes várias maneiras de apresentar-se o intervalo de classe: iguais ou


diferentes entre si. Porém, sempre que possível, deve-se optar por intervalos
iguais, o que facilitará os cálculos posteriores. Mas mesmo com intervalos iguais, as
distribuições poderão apresentar-se das seguintes formas: (a Classe 2 do exemplo
acima servirá como modelo)

7 __ 9 Compreende todas as idades entre 7 e 9, exclusive os extremos.


7 ___ 9 Compreende todas as idades entre 7 e 9, inclusive os extremos.
7 __ 9 Compreende todas as idades entre 7 e 9, inclusive o 9 e exclusive
o 7.
7 __ 9 Compreende todas as idades entre 7 e 9, inclusive o 7 e
exclusive o 9.

Em um intervalo, quando diz-se inclusive, quer se dizer


que o número pertence ao intervalo considerado, ou seja,
o número está contido no intervalo.
Quando diz-se exclusive, quer se dizer que o número não
pertence ao intervalo, ou seja, o número não está contido
no intervalo.
UniverCidade 30
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Vamos optar pelo último tipo (7 __ 9), e desta forma podemos definir
como intervalo de classe a diferença entre o limite superior e o limite inferior
da classe. Portanto, no exemplo, 9 – 7 = 2 é o intervalo ou amplitude do
intervalo de classe.

Será utilizado L para representar o limite superior de uma classe, e l para


representar o limite inferior de uma classe.

As classes possuem LIMITES. Como limite podemos


interpretar onde inicia e onde termina uma classe. O
LIMITE INFERIOR é onde começa uma classe, é o
ponto de partida; o LIMITE SUPERIOR é onde
termina a classe.

2.5 – Amplitude do Intervalo de Classe

A definição da amplitude do intervalo de classe é de suma importância para


a construção de uma variável contínua.

AMPLITUDE DO INTERVALO DE CLASSE é a diferença


entre o limite superior e o limite inferior da classe.

Para identificar a amplitude do intervalo de classe será utilizado h.

Desta forma, então, tem-se que:

H=L-l
UniverCidade 31
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Na realidade, as classe não precisam necessariamente ter a mesma


amplitude. Porém, sempre que possível devemos trabalhar com
classes de mesma amplitude. Isto facilita sobremaneira os cálculos
posteriores.
Note que foi usado para representar a classe, intervalo real semiaberto
à direita. Isto significa que o intervalo contém o limite inferior, mas
não contém o limite superior. No caso da classe 2, significa dizer que
ela contém os valores reais maiores ou iguais a 7 e os valores menores
que 9.
A adoção dos intervalos semiabertos pode gerar algum empecilho para
a definição e interpretação dos valores da última classe, em especial
para a definição do seu limite superior. A prática favorecerá o melhor
entendimento.

Necessita-se um conceito adicional: o de amplitude total de uma


seqüência.

AMPLITUDE TOTAL DE UMA SEQÜÊNCIA é a diferença


entre o maior e o menor elemento de uma seqüência.
Representando
a amplitude total por At, o maior elemento da seqüência por Xmáx e o menor
elemento da seqüência por Xmin, a amplitude total será denotada por

At = Xmáx - Xmin

É importante verificar que, quando não dispusermos dos


dados, o cálculo da amplitude se fará levando-se em
consideração a diferença entre o limite superior da
última classe e o limite inferior da primeira classe.

2.6 – Ponto Médio de uma Classe

O ponto médio de uma classe (mi), é o ponto intermediário do intervalo de


classe.

É obtido somando-se o limite inferior ao limite superior e dividindo-se por 2.


UniverCidade 32
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Assim, o ponto médio da Classe 2 do exemplo é (7 + 9)/2 = 16/2 = 8.

O ponto médio de uma classe (mi) é a média aritmética


entre o limite inferior (l) e o limite superior da classe
(L).

Para as finalidades das análise posteriores, admitir-se-á


quer todas as observações relativas a um determinado
intervalo de classe coincidem com o seu ponto médio.
Quando é possível analisar os dados bruto ou o rol que
deram origem à distribuição de freqüência, é fácil efetuar-
se a contagem de cada um dos elementos que formam a
distribuição. Entretanto, quando só de dispõe da
distribuição (através de variável contínua), é impossível
determinar-se quantitativamente cada um dos
componentes da distribuição. Desta forma a utilização do
ponto médio é de fundamental importância para a análise
dos dados.
UniverCidade 33
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

2.7 – Regras Gerais para Elaborar uma Distribuição de


Freqüência – variável contínua.

Utilizando tanto os dados brutos, como uma distribuição ordenada – rol, o


pesquisador deseja construir as tabelas e gráficos apropriados que irão possibilitar
as conclusões.

É necessário que se organize os dados, à medida em que o número de


observações aumenta, ou seja, faz-se necessário condensar ainda mais os dados
nas tabelas adequadas.

Assim, precisa-se organizar os dados em grupos de classes, de acordo com


as divisões do intervalo de observações estabelecidas de modo conveniente. Tal
organização dos dados em tabelas é chamada de distribuição de freqüência.

Uma distribuição de freqüência é uma tabela resumida


na qual os dados são organizados em grupos de classe
ou categorias convenientemente estabelecidas e
numericamente ordenadas. (LEVINE; 2000,60)

Quando as observações são agrupadas ou condensadas em tabelas de


distribuição de freqüência , o processo de análise e interpretação de dados torna-se
mais fácil de manejar e mais significativo. Nesta forma resumida, as principais
características dos dados podem ser aproximadas, compensando desse modo o fato
de que, quando os dados estão demasiadamente agrupados, as informações iniciais
pertinentes a observações individuais, que se encontravam anteriormente
disponíveis, são perdidas ao longo do processo de agrupamento ou condensação.

A construção de uma distribuição de freqüência – variável contínua, deve


atentar para os seguintes detalhes:

a) seleção do número apropriado de grupos de classes;

b) a obtenção de um intervalo de classe e amplitude apropriados para cada


grupo de classe, e

c) o estabelecimento de limites para cada grupo de classe a fim de evitar a

sobreposição.
UniverCidade 34
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
O número de classe a ser utilizado depende muito da experiência do
pesquisador e das questões que ele pretende responder com a variável contínua.

Utilizando o exemplo das notas atribuídas aos alunos em uma prova de


Língua Portuguesa, verifica-se que o total de observações é de 42 dados.

Não estaria errado a construção da tabela abaixo:


Tabela XXX
Notas dos alunos da Turma XX em Língua Portuguesa

Classe Notas Freqüência (fi)


1 0 __ 10 42

Fonte: Dados hipotéticos

Entretanto, através de uma tabela tão resumida, não se obtém nenhuma


informação adicional que já não fosse conhecida a partir do exame dos dados
brutos ou da análise do rol. Uma tabela com uma concentração muito grande de
dados não é significativa.

É necessário que o número de classes seja bem definido para análises


realmente conclusivas.

Vamos verificar o critério para a determinação do número de classes de uma


distribuição de freqüência pelo denominado critério da raiz.

- Critério da Raiz

Se a seqüência estatística contém n elementos e se indicarmos por K o


número de classes a ser utilizado, então pelo critério da raiz:

K= n
Como o número K de classes deve ser necessariamente um número inteiro e
como dificilmente o resultado é um número inteiro, deixa-se como opção para o
valor de K o valor inteiro mais próximo do resultado, uma unidade a menos ou a
mais que este valor.

No exemplo (notas de alunos em uma prova de Língua Portuguesa), verifica-


se que n (número de elementos) é igual a 42.

O número de elementos total de uma


distribuição é, conforme será abordado mais
adiante, a freqüência total da distribuição.
UniverCidade 35
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Para a determinação do número de classes deve-se proceder o cálculo:

K = 42
Tem-se que K = 6,4807406984, portanto o valor inteiro mais próximo do
resultado é 6. As opções para K então são: 5, 6 e 7.

Necessita-se verificar qual é a amplitude total da seqüência, e para tanto,


inicialmente, necessita-se verificar qual é o valor mínimo e qual é o valor máximo,
e para tanto é aconselhável que os dados brutos estejam organizados em ordem
crescente (rol).

Dados Brutos
Y: 7,2 4,9 9,8 6,4 4,8 4,6 6,8
5,9 8,5 8,7 1,2 2,5 4,3 6,7
9,5 5,4 1,3 7,6 5,9 6,7 8,6
9,5 9,3 7,4 8,6 8,1 5,9 1,8
7,8 7,2 8,4 6,8 8,2 6,9 7,4
6,3 4,6 4,9 8,7 9,3 8,8 5,8

Dados Organizados em ordem crescente (ROL)

Y: 1,2 4,6 5,9 6,7 7,4 8,4 8,8


1,3 4,8 5,9 6,8 7,4 8,5 9,3
1,8 4,9 5,9 6,8 7,6 8,6 9,3
2,5 4,9 6,3 6,9 7,8 8,6 9,5
4,3 5,4 6,4 7,2 8,1 8,7 9,5
4,6 5,8 6,7 7,2 8,2 8,7 9,8

Desta forma verifica-se que Xmáx = 9,8 e que Xmín = 1,2.

Logo, como At = Xmáx - Xmin,

têm-se At = 9,8 – 1,2

At = 8,6.
UniverCidade 36
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

A amplitude do intervalo de classe que é designada por h, é determinada da


seguinte forma:

At
h=
K
Utilizando o critério do par mais próximo para o arredondamento, verifica-se
que h = 1,4.

O critério adotado para o intervalo de classe é o semi-aberto à direita,


deve-se, então, proceder o ajuste dos valores.

Para que todos os valores sejam alocados na distribuição, passaremos a


considerar que Xmin = 1 e que Xmáx = 10, logo At = 9. Desta forma, considerando
K = 6, h = 1,5.

O número de classes a ser utilizado depende muito


da experiência do pesquisador e das questões que
ele pretende responder com a variável contínua.
Quando foram ampliados os valores mínimos e
máximos, não foram alteradas as características da
distribuição, pois, conforme será verificado, em uma
variável contínua o que vai identificar uma classe
será o seu ponto médio.

Então, a variável contínua terá a seguinte forma:


UniverCidade 37
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Notas dos alunos da turma XX na prova de Língua Portuguesa

Classe Notas Freqüência

1 1 __ 2,5 3

2 2,5 __ 4 1

3 4 __ 5,5 7

4 5,5 __ 7 11

5 7 __ 8,5 9

6 8,5 __ 10 11

Total 42

Fonte: dados hipotéticos.

A representação tabular final apresenta intervalos


e freqüências diferentes da apresentada
inicialmente, pois agora foram utilizadas as
técnicas corretas para sua elaboração.

A variável contínua é conceituada como uma representação tabular em que


coloca-se na primeira coluna os intervalos de classe e na segunda coluna os valores
das freqüências simples correspondentes.

A coluna “classe” tem a finalidade apenas de facilitar a referência às classes,


não fazendo parte da variável contínua.

O quadro final tanto da variável discreta como da variável contínua é


denominado de distribuição de freqüência.
UniverCidade 38
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

2.8 – Freqüência : simples, acumulada e relativa.

A distribuição de freqüência deve ser utilizada como elemento que possibilite


a análise dos dados.

Verifica-se que os dados devidamente distribuídos permite a melhor


visualização de como, no exemplo apresentado, as notas foram distribuídas entre
os alunos. Pode ser constatado que 11 alunos obtiveram notas iguais ou superiores
a 5, 5, porém inferiores à 7.

a) Freqüência Simples (fi).

A freqüência simples é resultante da “contagem” dos dados pertencentes à


cada classe.

A freqüência simples é a que aparece na forma original da distribuição de


freqüência.

b) Freqüência acumulada ( facm)

A freqüência acumulada irá representar o número de elementos até a classe


que está sendo visualizada, ou seja, é a soma da freqüência simples desta classe
com as freqüências simples das classes anteriores.

No exemplo, tem-se que:

Notas dos alunos da turma XX na prova de Língua Portuguesa

Classe Notas Freqüência Freqüência

Acumulada

1 1 __ 2,5 3 3

2 2,5 __ 4 1 4

3 4 __ 5,5 7 11

4 5,5 __ 7 11 22

5 7 __ 8,5 9 31

6 8,5 __ 10 11 42

Total 42

Fonte: dados hipotéticos.


UniverCidade 39
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Os valores representados na coluna FREQUÊNCIA ACUMULADA representam
o número de eventos que estão contidos nas classes de forma cumulativa. Desta
forma, verifica-se que 22 alunos obtiveram notas inferiores a 7, ou seja, a
freqüência cumulada da Classe 3.

A freqüência acumulada da última classe da distribuição deve ser igual à


freqüência total, pois estarão sendo considerados todos os dados da distribuição.

c) Freqüência relativa (frel ou f %)

A freqüência relativa permitirá que sejam verificadas a participação


percentual de cada grupo de notas.

Qual foi o percentual de alunos com notas iguais ou superiores a 5,5, porém
inferiores a 7?

Para que se possa responder a esta pergunta, é necessário que lembremos


que a totalidades dos dados dispostos corresponde à 100 % da distribuição. Logo,
no exemplo, o total de alunos – 42, corresponde à 100 %.

A freqüência relativa de cada classe é a relação percentual da freqüência


simples de cada classe para a formação da freqüência total.

Mais uma vez necessita-se da Regra de Três:

f total .................... 100 %

f i ......................... f %

Então, para a determinação da freqüência relativa de cada classe, basta que


multiplique-se a freqüência simples da classe por 100 e divida-se o resultado pela
freqüência total.

f i x100
f rel =
f total

Desta forma, as freqüências relativas da distribuição ficarão assim dispostas:


UniverCidade 40
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Notas dos alunos da turma XX na prova de Língua Portuguesa

Classe Notas Freqüência Freqüência

relativa

1 1 __ 2,5 3 7,14 %

2 2,5 __ 4 1 2,38 %

3 4 __ 5,5 7 16,67 %

4 5,5 __ 7 11 26,19 %

5 7 __ 8,5 9 21,43 %

6 8,5 __ 10 11 26,19 %

Total 42 100,00 %

Fonte: dados hipotéticos.

Assim é possível verificar-se que, por exemplo, 26,19 % dos alunos


obtiveram notas maiores ou iguais a 5,5 e menores do que 7 (Classe 3).

A soma das freqüências relativas deve ser


igual a 100 %, já quem estarão sendo
consideradas todas as classes da
distribuição de freqüência.

d) Freqüência relativa acumulada (frel acm)

A freqüência relativa acumulada irá representar a participação percentual


dos elementos até a classe que está sendo visualizada, tomando por base a
freqüência acumulada da classe.

Da mesma forma que é feito para a determinação da freqüência relativa,


toma-se por base que o total da distribuição corresponderá à 100 %.

Desta forma, tem-se que:


UniverCidade 41
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

f total .................... 100 %

f acm ......................... f rel acm %

Então, para a determinação da freqüência relativa acumulada de cada


classe, basta que multiplique-se a freqüência simples da classe por 100 e divida-se
o resultado pela freqüência total.

f acm x100
f relacm =
f total
No exemplo, tem-se que:

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência Freqüência

Classe Notas Freqüência Acumulada Relativa

acumulada

1 1 __ 2,5 3 3 7,14 %

2 2,5 __ 4 1 4 9,52 %

3 4 __ 5,5 7 11 26,19 %

4 5,5 __ 7 11 22 52,38 %

5 7 __ 8,5 9 31 73,81 %

6 8,5 __ 10 11 42 100,00 %

Total 42

Fonte: dados hipotéticos.

Observe que a freqüência relativa acumulada da última classe deve ser igual
à 100 %, por estar considerando a distribuição como um todo.

Assim, a distribuição de freqüência, considerando os elementos que foram


determinados até agora, ficará disposta da seguinte forma:
UniverCidade 42
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência Freqüência Freqüência

Classe Notas Freqüência Acumulada relativa Relativa

acumulada

1 1 __ 2,5 3 3 7,14 % 7,14 %

2 2,5 __ 4 1 4 2,38 % 9,52 %

3 4 __ 5,5 7 11 16,67 % 26,19 %

4 5,5 __ 7 11 22 26,19 % 52,38 %

5 7 __ 8,5 9 31 21,43 % 73,81 %

6 8,5 __ 10 11 42 26,19 % 100,00 %

Total 42 100,00 %

Fonte: dados hipotéticos.

É aconselhável ao se dispor os dados sob a


forma de uma distribuição de freqüência, que
sejam determinadas as freqüências acumulada,
relativa e relativa acumulada, pois desta forma
ter-se-á um volume de informações muito úteis
para o pesquisador.
UniverCidade 43
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3 . Medidas de Tendência Central e


Separatrizes

Nos capítulos anteriores foi visto com apresentar dados numéricos tanto em
forma de tabelas quanto na forma de gráficos. Agora, como pode-se fazer essas
informações terem sentido?

A apresentação gráfica dos dados é um componente essencial da Estatística


Descritiva, porém não retrata toda a sua abrangência. A boa análise dos dados não
envolve somente apresentar os dados numéricos e observar o que os dados estão
tentando transmitir, mas também envolve calcular e resumir as funções-chave e
analisar os resultados encontrados. (LEVINE; 2000,118)

Em qualquer análise e/ou interpretação, várias medidas descritivas


representado as propriedades de tendência central, variação e formato podem ser
utilizadas para extrair e resumir as principais características do conjunto de dados.
Se essas medidas descritivas forem calculadas através de uma amostra de dados,
elas serão chamadas de estatísticas; caso sejam calculadas através de toda uma
população de dados, elas serão chamadas de parâmetros. (LEVINE; 2000,119)

As três principais propriedades que descrevem um conjunto de dados


numéricos são:

a) Tendência central

A maioria dos dados apresenta uma diferente tendência de se agrupar ou


concentrar em torno de um ponto central. Assim sendo, para um conjunto de
dados, em particular, geralmente se torna possível selecionar um valor típico ou
média para descrever todo o conjunto. Tal valor típico é uma medida de
localização ou tendência central.

b) Variação

Uma segunda propriedade importante que descreve um conjunto de dados


numéricos é a variação. Variação é a quantidade de dispersão nos dados. Dois
conjuntos de dados podem divergir tanto na medida central como na variação, da
mesma forma que dois conjuntos de dados podem ter as mesmas medidas de
tendência central, porém divergir bastante em termos de variação.
UniverCidade 44
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
c) Formato

O formato da população é obtido através de uma comparação relativa entre


algumas medidas de tendência central.

Para facilitar o entendimento de diversas fórmulas que serão apresentadas,


faz-se necessário que sejam apresentados alguns conceitos, dentre os quais:
índice, notação por índice e notação em somatório.

3.1 – Índices ou notação por índices.

Suponha uma série com os seguintes elementos:

Y = { 2, 3, 4, 6, 7, 9 }

Há, na disposição dos dados, uma correlação entre o elemento e a posição


que ele ocupa da série.

O número 2 ocupa a primeira posição na série; o número 6 ocupa a quarta


posição na série.

Pode-se, então, convencionar que uma série pode ser identificada por
simbologias que representem o elemento e a posição que ele ocupa.

Supondo que o conjunto de dados Y seja representativo das notas de um


aluno.

Então, o conjunto Y é formado por variáveis notas, que podem ser


representadas pela letra X. Cada nota ocupa uma posição no conjunto, e cada
posição passará a ser representada pelo índice i.

Desta forma, o conjunto Y pode ser identificado pela seguinte notação:

Y = { X1, X2, X3, X4, X5, X6 }

Onde X é a variável (nota) e 1, 2, etc, a posição de cada nota no conjunto.

Pode-se dizer que o conjunto Y é formado por um conjunto de variáveis X i


(leia-se X índice i ).

A notação em índice é muito útil pois possibilita a identificação imediata do


elemento que está em foco, sem a necessidade de grandes textos. A constância do
uso possibilitará uma familiarização com a simbologia.
UniverCidade 45
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
3.2 – Notação em somatório.

Muitas vezes é necessário escrever expressões que envolvem somas com


muitos termos, ou cujos termos obedecem uma certa formação, como por exemplo,
os dados numéricos disposto na forma de um rol.

Tomando como exemplo o conjunto de notas dos alunos, em uma prova de


Língua Portuguesa:
Y: 1,2 4,6 5,9 6,7 7,4 8,4 8,8
1,3 4,8 5,9 6,8 7,4 8,5 9,3
1,8 4,9 5,9 6,8 7,6 8,6 9,3
2,5 4,9 6,3 6,9 7,8 8,6 9,5
4,3 5,4 6,4 7,2 8,1 8,7 9,5
4,6 5,8 6,7 7,2 8,2 8,7 9,8

Verifica-se que são 42 notas, dispostas em ordem crescente.

Para identificar a soma, seria necessário a seguinte indicação:

Soma = 1,2 + 1,3 + 1,8 + 2,5 + .... + 9,5 + 9,8

Ora, o que verifica-se é que as variáveis (notas) estão dispostas em ordem:


a primeira nota ´2 1,2, a segunda nota é 1,3, a terceira nota é 1,8, e assim
sucessivamente.

Se for simbolizado por X a variável nota e por i o índice que indica a posição
da variável na série, pode-se passar a indicar a soma da série da seguinte forma:

Soma = x1 + x 2 + x3 + ... + x 42
ou seja, estariam sendo indicadas as variáveis e seu posicionamento na
série.

Supondo uma série onde não se saiba o número de variáveis, convenciona-


se que o último elemento da série será o enésimo termo, ou seja, o termo de
ordem n.

Desta forma, a soma de uma série onde não se conheça o número de termo
poderá ser indicada da seguinte forma:
UniverCidade 46
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Soma = x1 + x2 + x3 + ... + xn
Matematicamente a expressão indicada acima pode ser reduzida, utilizando-

se a notação em somatório e para tanto será utilizada a letra grega sigma - Σ que

corresponde, no nosso alfabeto à letra S (de soma).

Desta forma, a expressão acima poderá ser indicada da seguinte forma:

n
x1 + x2 + x3 + ... + xn = ∑ xi
i =1

É necessário que se identifique cada parte da notação em somatório:

X é o “nome” dos
n é o último termos a serem
elemento a ser n somados
somado
∑xi =1
i
i é uma
Σ é a simbologia observação
que indica soma. individual da
série, ou seja, a
posição do
termo na série

i=1 indica o
primeiro elemento
da série que será
somado

A forma correta de lê-se a expressão acima é:

“Somatório de xi para i variando de 1 a n” ou soma de xi, para i variando de


1 a n”.

Se houvesse o interesse de indicar somente a soma dos 15 primeiros


elementos da série, a notação em somatório seria:

15

∑x
i =1
i
UniverCidade 47
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
IMPORTANTE:
Para que uma soma possa ser
representada pela notação em somatório
é fundamental que i assuma todos os
valores inteiros consecutivos entre dois
valores dados (o termo inicial e o termo
final da soma).
UniverCidade 48
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.3 – Médias e medidas de tendência central.

Para resumir a quantidade de informação contida em um conjunto de dados,


os estatísticos definem medidas que descrevem, através de um só elemento,
características dos dados.

Algumas medidas descrevem a tendência central, isto é, a tendência que os


dados têm de se agrupar em torno de certos valores.

No dia-a-dia utiliza-se com freqüência o sentido de medidas de tendência


central. Por exemplo, pode-se, ao identificar-se um grupo de idosos, referir-se ao
grupo como tendo “ em torno de 65 anos”. O que se quer dizer com isso? Por certo
que as idades dos membros que formam o grupo estão próximas de 65 anos, para
mais ou para menos.

Tecnicamente as medidas de tendência central possuem metodologia própria


para sua determinação.

As principais medidas de tendência central são:

a) média aritmética (simples ou ponderada);

b) a mediana;

c) a moda.

Será verificado também o cálculo da média geométrica e da média


harmônica.

Inicialmente serão determinadas as formas para a determinação das


medidas de tendência central levando em consideração um conjunto de dados
dispostos sob a forma de uma variável discreta. Posteriormente será verificada a
metodologia para a determinação das medidas quando for utilizado um conjunto de
dados dispostos sob a forma de variável contínua.

3.4 – Média Aritmética.

A média aritmética, também comumente denominada somente de média, é


a mais comum das medidas de tendência central.

A facilidade de sua obtenção popularizou o seu uso.


UniverCidade 49
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
A média aritmética pode ser calculada através de duas metodologias:

a) a média aritmética simples ;

b) a média aritmética ponderada.

A média aritmética simples é calculada somando-se todos os termos de uma


série e dividindo-se o resultado pelo número total de itens envolvidos.

Supondo que um conjunto de dados, representativo das idades dos alunos


da Turma 201, em anos, esteja disposto na seguinte forma:

A = { 8, 8, 7, 9, 9, 10, 8, 9, 7, 8, 9, 10, 10, 10, 9, 9, 8, 8, 8, 9, 8 }

Para o cálculo da média aritmética, procede-se a soma das idades e divide-


se pelo número de observações (número de alunos da Turma, no exemplo). Desta
forma:

8 + 8 + 7 + 9 + 9 + 10 + 8 + 9 + 7 + 8 + 9 + 10 + 10 + 10 + 9 + 9 + 8 + 8 + 8 + 9 + 8
Média =
21

Logo, a média das idades será de 8,6 anos.

Identificando o que foi feito através de uma fórmula, tem-se que:

∑x
n =1
i
Média =
n
(média é igual a soma dos n termos de uma série, do primeiro até o último,
dividido pelo número total de termos).

Apresentado os dados sob a forma de variável discreta, têm-se que:

Idades, em anos, dos alunos da Turma 201.

Idades Número de Alunos

7 2

8 8

9 7

10 4
UniverCidade 50
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Fonte: dados hipotéticos.

Verifica-se que a variável (x) é a idade dos alunos, e que cada variável
possui uma freqüência (fi).

A freqüência total (n) é a soma do número de alunos.

Pode-se calcular a média aritmética diretamente na tabela.

Inicialmente, em uma nova linha, efetua-se a soma do número de alunos,


para que se obtenha a freqüência total (n)

Em seguida, em uma nova coluna, coloca-se o resultado da multiplicação de


cada idade pela freqüência respectiva. Desta forma, a nova tabela ficará assim
disposta:

Idades, em anos, dos alunos da Turma 201.

Idades (xi) Número de Alunos (fi) Idade x Número de


alunos (xifi)

7 2 14

8 8 64

9 7 63

10 4 40

TOTAL 21 181

O resultado será a divisão dos dois totais:

Média = (181) / 21 , logo Média = 8,6 anos.

A média aritmética de dados disposto em uma distribuição discreta é


indicada através da seguinte fórmula:

∑x
i =1
i fi
Média =
n
UniverCidade 51
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
(leia-se: média é igual à soma das variáveis i, multiplicadas pelas
respectivas freqüências i, da primeira até a última, dividido pelo número de
elementos).

Alguns autores indicam a fórmula para o cálculo da média aritmética da


seguinte forma:

∑x f
i =1
i i
Média = n

∑f
i =i
i

(leia-se: média é igual à soma das variáveis i, multiplicadas pelas


respectivas freqüências i, da primeira até a última, dividido pela soma das
freqüências, da primeira até a última).

3.5 - A média aritmética Ponderada.

Algumas vezes, em especial nos colégios, é comum que sejam atribuídos


“pesos” às notas de determinadas provas. A atribuição de pesos visa fazer com que
determinados valores tenham mais influência no resultado final do que outros.

Considere-se o seguinte exemplo:

As provas bimestrais de um colégio são ponderadas com pesos 1, 2, 3 e 4,


respectivamente para o primeiro bimestre, segundo bimestre, terceiro bimestre e
quarto bimestre.

Um aluno, em Geografia, obteve as seguintes notas:

Notas em Geografia

Bimestre Nota

1º 6,0

2º 7,2

3º 5,5

4º 7,8
UniverCidade 52
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Fonte: dados hipotéticos.

Como é calculada a média, para a disciplina, do aluno?

Procede-se a multiplicação da nota de cada bimestre pelo peso respectivo,


soma-se os resultados das multiplicações e divide-se pela soma dos pesos.

Notas em Geografia

Bimestre Nota Pesos Nota x Peso

1º 6,0 1 6,0

2º 7,2 2 14,4

3º 5,5 3 16,5

4º 7,8 4 31,2

TOTAL 10 68,1

Fonte: dados hipotéticos.

A média aritmética ponderada, então, será igual a:

Média = 68,1 / 10 , logo Média = 6,81.

A notação (indicação através de uma fórmula) da média aritmética


ponderada é feita da seguinte forma:

∑x p
i =1
i i
Média = n

∑p
i =1
i

(leia-se: média é igual à soma do produtos dos i elementos multiplicados


pelos respectivos pesos i, do primeiro até o último, dividido pela soma dos pesos,
do primeiro até o último).
UniverCidade 53
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
3.6 – Cálculo da Média Aritmética para dados grupados

Até então foi verificada a metodologia para o cálculo da média aritmética


(simples ou ponderada) considerando-se os dados isolados, ou aqueles que estão
dispostos em um variável discreta.

Entretanto muitas vezes o pesquisador necessita efetuar o cálculo de médias


e somente disporá dos dados dispostos em variável contínua.

Como proceder?

É necessário que para cada classe seja identificado um elemento que a


represente. Este elemento é denominado de ponto médio da classe (mi).

O ponto médio de uma classe (mi) é a média


aritmética entre o limite inferior (li) e o limite
superior (Li) da classe.

Então, o ponto médio de uma classe é:

li + Li
mi =
2
(leia-se: o ponto médio da classe i é igual à média aritmética da soma do
limite inferior da classe i e o limite superior da classe i).

Para exemplificar será utilizada a variável contínua construída – as notas dos


alunos em uma prova de Língua Portuguesa.

Notas dos alunos da turma XX na prova de Língua Portuguesa

Classe Notas Freqüência Ponto médio

1 1 __ 2,5 3 1,75

2 2,5 __ 4 1 3,25

3 4 __ 5,5 7 4,75

4 5,5 __ 7 11 6,25
UniverCidade 54
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

5 7 __ 8,5 9 7,75

6 8,5 __ 10 11 9,25

Total 42

Fonte: dados hipotéticos.

A “distância” entre os pontos médios de


classes consecutivas é igual à amplitude do
intervalo de classe.

Ponto Médio da Classe 3 = 4,75

Ponto Médio da Classe 4 = 6,25

Distância = (Ponto Médio da Classe 4 – Ponto Médio da Classe 3)

Distância = m4 – m3

Distância = 6,25 – 4,75 , logo Distância = 1,5

A amplitude das classe também é igual a 1,5.

Para o cálculo da média aritmética de dados agrupados, os pontos médios


das classe serão ponderados pelas freqüências simples das respectivas classes.

Desta forma, apresentado a média aritmética para dados agrupados através


de uma fórmula, tem-se:

_ ∑fm
i =1
i i
X = n

∑f
i =1
i
UniverCidade 55
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
(leia-se: média aritmética é igual ao somatório dos produtos das freqüências
das classes i pelos pontos médios das classes i, dividido pelo somatório das
freqüências das classes i).

A utilização da simbologia X barra (x com uma


barra horizontal sobreposta) é comumente
utilizada para identificar a média aritmética.

Desta forma, para o cálculo da média aritmética das notas, proceder-se-á a


multiplicação do ponto médio de cada classe pela freqüência da respectiva classe.
Em seguida, será efetuada a soma dos produtos obtidos e este resultado dividido
pela soma das freqüências (freqüência total).

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência Ponto fi mi
médio
Classe Notas (fi)
(mi)

1 1 __ 2,5 3 1,75 4,75

2 2,5 __ 4 1 3,25 3,25

3 4 __ 5,5 7 4,75 33,25

4 5,5 __ 7 11 6,25 68,75

5 7 __ 8,5 9 7,75 69,75

6 8,5 __ 10 11 9,25 101,75

Total 42 281,50

Fonte: dados hipotéticos.

A média aritmética das notas, então, será:

_
281,50
X = = 6,7
42
UniverCidade 56
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Se você efetuar a soma do rol das notas, chegará a


um total de 279. Dividindo-se o valor por 42
(freqüência total), ou seja, calculando-se a média
aritmética simples, obter-se-á 6,64. A diferença, ou
seja 0,06, é inexpressiva, não importando para a
análise dos valores.

Quando os dados são agrupados na disposição de


uma variável contínua, passa-se a trabalhar com os
dados sem conhecimento de seus valores individuais.
Note no exemplo utilizado, que o máximo que se
pode afirmar com respeito ao menor valor desta
série é que ele é um valor maior ou igual a 1,0 e
menor do que 10. Mas não é possível, sem a
visualização do rol, conhecer-se os valores
individualizados.
Este fato é que leva a substituição das classes pelos
seus pontos médios para o cálculo da média da série.
UniverCidade 57
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.7 – A Mediana ( md)

A mediana é um valor real que separa o rol em duas partes, deixando em


cada parte o mesmo número de elementos. A mediana é um valor que ocupa a
posição central de uma série.

Para o cálculo da mediana devem ser consideradas algumas condições:

a) se os dados estiverem dispostos sob a forma bruta:

Neste caso, os dados deverão ser ordenados, gerando um rol.

Se o número de dados for impar, o rol admitirá apenas um termo central.


Para o cálculo do termo central, deve-se, inicialmente, determinar qual é a sua
posição.

Para tanto, deve-se adicionar uma unidade ao número de termos e dividir-se


o resultado por dois.

Posição = (n + 1) /2

O valor que ocupar a posição definida será a mediana.

Veja o exemplo:

Qual será a mediana das idades de um grupo de alunos?

Sejam as idades:

Y = { 8, 9, 10, 11, 7, 6, 12 }

Inicialmente os dados devem ser ordenados, gerando um rol:

Y = { 6, 7, 8, 9, 10, 11, 12 }

Verifica-se que o número de elementos é impar ( n = 7 ).

A posição do termo central é:

Posição = ( n + 1 ) / 2

Posição = ( 7 + 1 ) / 2

Posição = 4
UniverCidade 58
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
A mediana (md), então, será aquele termo que ocupar a 4ª posição no rol,
ou seja, md = 9 anos.

O valor 9 deixa à sua esquerda e à sua direita o mesmo número de


elementos, sendo, portanto, o elemento central da série.

Y = { 6, 7, 8, 9, 10, 11, 12 }
Termos à Termos à
esquerda da direita da
mediana mediana

Mediana

Se o número de termo for par, convenciona-se que a mediana é a média


aritmética dos valores que ocupam as posições centrais.

Acrescentando-se uma idade ao rol utilizando anteriormente:

Y = { 6, 7, 8, 9, 10, 11, 12, 13 }

Passa-se a ter um rol com 8 elementos ( n = 8).

Neste caso, procede-se da seguinte forma:

Calcula-se a posição central (n/2), o que no exemplo será igual a 4.

Verifica-se qual é a posição seguinte, ou seja (n/2)+1 = 4 + 1 = 5.

O termo que ocupa a posição central (mediana) é definido com sendo aquele
que for igual à média aritmética dos elementos que ocuparem as posições
anteriormente definidas.

Veja no exemplo:

Termo que ocupa a 4ª posição = 9

Termo que ocupa a 5ª posição = 10

Mediana (md) = ( 9 + 10 ) /2
UniverCidade 59
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Mediana (md) = 9,5.

Ora, não há na série apresentada idade igual à 9,5.

Como interpretar o resultado.

Deve-se lembrar que a mediana é o termo que divide a série em duas partes
iguais. Desta forma, a interpretação será de que 50 % (metade) dos valores do rol
são valores menores ou iguais a 9,5 e 50 % (metade) dos valores do rol são
valores maiores ou iguais a 9,5.

Y = { 6, 7, 8, 9, 10, 11, 12, 13 }


Termos à esquerda da Termos à direita da
mediana são menores mediana são maiores ou
ou iguais à 9,5 iguais a 9,5

Mediana = 9,5

b) Cálculo da mediana para dados apresentados sob a forma de variável


contínua.

Conforme já foi explicado anteriormente, muitas vezes ao pesquisador


somente são disponibilizados os dados sob a forma de uma variável contínua, o que
impossibilita a adoção da metodologia verificada para o cálculo da mediana para os
dados dispostos sob a forma de rol (variável discreta), pois mesmo que seja
identificada a posição da mediana na série, o valor do elemento da série que ocupa
esta posição não é identificável.
Como proceder para o cálculo da mediana neste caso?
Será utilizado, como exemplo, a distribuição que indica as notas dos alunos
em uma prova de Língua Portuguesa.
UniverCidade 60
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência Ponto médio

Classe Notas (fi) (mi)

1 1 __ 2,5 3 1,75

2 2,5 __ 4 1 3,25

3 4 __ 5,5 7 4,75

4 5,5 __ 7 11 6,25

5 7 __ 8,5 9 7,75

6 8,5 __ 10 11 9,25

Total ( Σ ) 42

Fonte: dados hipotéticos.

O número de elementos da série é 42, ou seja, n = Σ fi = 42.


A mediana, por definição, separa o número de elementos da série em dois
grupos, cada um deles contendo 50 % dos elementos.
Portanto, a posição da mediana na série é (n/2) ou (Σ fi /2 ). No caso
apresentado (42 / 2) = 21.
Sabe-se, então, que a posição da mediana é a 21ª posição da série.
É necessário que sejam evidenciadas as freqüências acumuladas das classes
para a interpretação da posição.
UniverCidade 61
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência Freqüência Ponto


acumulada médio
Classe Notas (fi)
(mi)

1 1 __ 2,5 3 3 1,75

2 2,5 __ 4 1 4 3,25

3 4 __ 5,5 7 11 4,75

4 5,5 __ 7 11 22 6,25

5 7 __ 8,5 9 31 7,75

6 8,5 __ 10 11 42 9,25

Total ( Σ ) 42

Utilizando, por exemplo, a freqüência acumulada da 3ª Classe, a


interpretação que se deve ter é a seguinte:
- estão contidos na terceira classe os elementos da 5ª posição, até o
elemento da 11ª posição (inclusive).
Usando a disposição tabular para indicar a explicação acima:

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência

Classe Notas (fi)

1 1 __ 2,5 3 Do 1º até o 3º

2 2,5 __ 4 1 Do 4º até o 4º

3 4 __ 5,5 7 Do 5º até o 11º

4 5,5 __ 7 11 Do 12º até 0 22º

5 7 __ 8,5 9 Do 23º até o 31º

6 8,5 __ 10 11 Do 32º até o 42º

Total ( Σ ) 42
UniverCidade 62
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Desta forma, considerando que a posição da mediana é a 21ª, pode-se,


inicialmente afirmar que a mediana está contida na 4ª Classe ( que contém os
elementos que ocupam deste a 12ª até a 22ª posições).
A quarta classe, por conter a mediana, é denominada como classe mediana.
O intervalo de classe (1,5) possui, então 11 termos (freqüência da classe
mediana).
Para o cálculo da mediana será utilizada a seguinte fórmula:

n
− Fant
md = l md +2 xh
f md

Onde:

md = mediana
lmd = limite inferior da classe mediana
n = número de elementos da série
Fant = freqüência acumulada da classe anterior à classe mediana
fmd = freqüência simples da classe mediana
h = amplitude do intervalo de classe.

Na distribuição, verifica-se:
lmd = 5,5
n = 42
Fant = 11 (freqüência acumulada da 3ª classe)
fmd = 11
h = 1,5

Então:

42
− 11
md = 5,5 + 2 x1,5
11
UniverCidade 63
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Resolvendo a expressão:
a) inicialmente efetua-se a divisão que aparece no numerador:

21 − 11
md = 5,5 + x1,5
11
b) efetua-se a adição do numerador:

10
md = 5,5 + x1,5
11
c) efetua-se a divisão:

md = 5,5 + 0,91x1,5

d) efetua-se a multiplicação

md = 5,5 + 1,37

e) efetua-se a adição.

md = 6,87

A mediana, ou seja, o elemento que dividirá a distribuição em duas partes


iguais é a nota 6,87.
Verificando o rol que deu origem à variável contínua, é possível observar
que não há uma nota 6,87.
O termo em destaque no rol é o termo que ocupa a posição mediana, ou
seja, o 21º termo da série, e é igual a 6,8.

Y: 1,2 4,6 5,9 6,7 7,4 8,4 8,8


1,3 4,8 5,9 6,8 7,4 8,5 9,3
1,8 4,9 5,9 6,8 7,6 8,6 9,3
2,5 4,9 6,3 6,9 7,8 8,6 9,5
4,3 5,4 6,4 7,2 8,1 8,7 9,5
4,6 5,8 6,7 7,2 8,2 8,7 9,8

O que ocorreu?
De um modo geral, todas as medidas calculadas para uma variável contínua
serão valores aproximados para estas medidas, uma vez que ao agrupar-se os
UniverCidade 64
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
dados segundo uma variável contínua, há perda de informações quanto a
identidade dos dados.

Entretanto verifica-se que, para o conceito de divisão da distribuição, o valor


calculado procede, pois 50 % (metade) das notas são inferiores à 6,87 e 50 % das
notas são superiores à 6,87.

Observe que o valor da média aritmética é


diferente do valor da mediana !!!!
UniverCidade 65
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.8 – Moda (mo)

A interpretação da moda é bastante simples se utilizarmos o dia-a-dia.


Dentre os adolescentes, de maneira geral, estar na moda significa estar em
evidência, utilizando as roupas, sapatos e cores que a maioria está usando.
Estatisticamente, moda tem um significado semelhante.

MODA é o valor de maior freqüência em um


conjunto de dados, isto é, é o valor mais
comum.

O cálculo da moda, da mesma forma que o cálculo da mediana, dependerá


da forma com a qual os dados forem apresentados.

- Cálculo da Moda para dados em ROL

Se os dados estiverem em forma de ROL, a identificação da moda é feita


verificando-se o elemento de maior freqüência (se os dados estiverem sob a forma
bruta, deve proceder a determinação do ROL).
Por exemplo:
Considere um conjunto de notas:
Y = { 2, 8, 7, 7, 9, 5, 7, 4, 2, 5, 6 }
Dispondo em ROL, tem-se:
Y = { 2, 2, 4, 5, 5, 6, 7, 7, 7, 8, 9 }
O elemento de maior freqüência é a nota 7. Portanto a moda (mo) = 7.
As séries, quando às moda, podem ser classificadas das seguintes formas:
a) unimodais – possuem apenas uma moda, ou seja, somente um
elemento se destaca na série;
b) bimodais – possuem duas modas. Dois elementos destacam-se
na série, possuem as mesmas freqüências, que são as maiores;
c) polimodais – possuem mais de duas modas. Podem ser trimodais
(três modas), tetramodais (quatro modas), etc.
d) a m o d a i s – todos os elementos da série possuem a mesma
freqüência. Não há um elemento que se destaque pela maior
freqüência.
UniverCidade 66
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Se os dados de um rol forem dispostos sob a forma de uma variável
discreta, a identificação do rol é ainda mais simples.
Utilizando o mesmo conjunto acima, sob a forma de uma variável discreta.
Y = { 2, 2, 4, 5, 5, 6, 7, 7, 7, 8, 9 }

Xi Fi
2 2
4 1
5 2
6 1
7 3
8 1
9 1

Observa-se que na apresentação da variável discreta, as freqüências já


estão computadas na segunda coluna. Basta identificar o elemento de maior
freqüência.
A maior freqüência observada na segunda coluna é 3 e corresponde ao
elemento 7. Portanto a série é unimodal com mo = 7.

- Cálculo da moda para dados em variável contínua

A determinação da moda em uma variável contínua pode ser efetuada


através de algumas metodologias.
Considerando a natureza do curso, será abordado somente o cálculo da
MODA DE KING.
Segundo KING, a determinação da moda de uma variável contínua pode ser
calculada através da freqüência simples da classe anterior e da freqüência simples
da classe posterior à classe modal, do limite inferior da classe modal e da amplitude
do intervalo de classe.

f post
mo = l mo + xh
f ant + f post

Onde:
UniverCidade 67
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
mo = moda
lmo = limite inferior da classe modal
fpost = freqüência simples da classe posterior à classe modal
fant = freqüência simples da classe anterior à classe modal
h = amplitude do intervalo de classe

Notas dos alunos da turma XX na prova de Língua Portuguesa

Freqüência

Classe Notas (fi)

1 1 __ 2,5 3

2 2,5 __ 4 1

3 4 __ 5,5 7

4 5,5 __ 7 11

5 7 __ 8,5 9

6 8,5 __ 10 11

Total ( Σ ) 42

Fonte: dados hipotéticos.

No exemplo verifica-se uma distribuição bimodal, onde as Classes 4 e 6


apresentam as maiores classes (com valores iguais), onde n = 11.

Considerando o processo de KING, será necessário o cálculo das duas


modas.
- Cálculo da 1ª moda (Classe 4)

lmo = 5,5
fpost = 9 (freqüência da Classe 5)
fant = 7 (freqüência da Classe 3 )
h = 1,5.

Logo, aplicando-se a Fórmula da King:


UniverCidade 68
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

9
mo = 5,5 + x1,5
7+9

9
mo = 5,5 + x1,5
16

mo = 5,5 + 0,56 x1,5

mo = 5,5 + 0,84

mo = 6,34

A primeira moda é igual a 6,34.

- Cálculo da 2ª moda (Classe 6)

lmo = 8,5
fpost = 0 (freqüência da Classe 7)
fant = 9 (freqüência da Classe 5 )
h = 1,5.

No exemplo, a moda encontra-se na última


classe da distribuição. Desta forma, para que se
possa proceder o cálculo é necessário que seja
interpretada a existência de uma classe posterior
(7ª Classe), com freqüência igual a zero.

Logo, aplicando-se a Fórmula da King:

0
mo = 8,5 + x1,5
0+9
0
mo = 8,5 + x1,5
16
UniverCidade 69
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Verifica-se a existência de uma fração com numerador igual a zero. Zero


dividido por qualquer número é igual a zero. Zero multiplicado por qualquer número
é igual a zero.
Logo:

mo = 8,5

Desta forma, a distribuição, que é bimodal, apresenta como modas 6,34 e


8,5.

Observe que os valores encontrados pertencem


efetivamente às classe modais determinadas, ou seja 6,34
pertence à 4ª Classe, ao intervalo 5,5 __ 7 e 8,5 pertence
à 6ª Classe, ao intervalo 8,5 __ 10.

Geralmente não é necessário calcular as três medidas de tendência central.


Normalmente precisa-se de apenas uma das medidas para caracterizar o
centro da série.
Então, surge a questão: Qual medida deve ser utilizada?
A medida ideal em cada caso é aquela que melhor representa a maioria dos
dados da série.
Quando todos os dados de uma série são iguais ( o que dificilmente ocorrerá
na prática), a média, a mediana e a moda coincidirão com este valor e, portanto,
qualquer uma das medidas representará bem a série.
Na maioria das vezes, tem-se valores diferenciados para a série e
conseqüentemente a medida irá representar bem apenas os dados da série que se
situam próximos a este valor. Os dados muito afastados em relação ao valor da
medida não serão bem representados por ela.
Desta forma, se uma série apresenta forte concentração de dados em sua
área central, a média, a mediana e a moda ficam também situadas em sua área
central, representando bem a série. Como a mais conhecida é a média, opta-se por
esta medida de tendência central.
Se uma série apresenta forte concentração de dados em seu início, a
mediana e a moda estarão posicionadas mais no início da série, representando
bem esta concentração. A média que é fortemente afetadas por alguns valores
UniverCidade 70
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
posicionados no final da série se deslocará para a direita desta concentração, não a
representando bem.
Como a mais conhecida entre a mediana e a moda é a mediana, esta será a
medida mais indicada deste caso.
A mesma situação ocorre se a série apresenta forte concentração de dados
em seu final.
Logo, deve-se optar pela mediana quando houver forte concentração de
dados no início ou no final da série.
A moda deve ser a opção como medida de tendência central apenas em
séries que apresentam um elemento típico, isto é, um valor cuja freqüência é muito
superior à freqüência dos outros elementos da série.

Além das medidas de tendência central (média aritmética, mediana e


moda), também existem algumas medidas úteis de localização “não-central”, que
são empregadas particularmente ao se resumirem ou descreverem as propriedades
de grandes conjuntos de dados numéricos. São elas: o quartil, o decil e o percentil.
Estas medidas são denominadas MEDIDAS SEPARATRIZES.
UniverCidade 71
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.9 – O QUARTIL (Qn)

A mediana é o valor que divide a disposição ordenada pela metade ( 50%


das observações são menores que a mediana e 50% das observações são maiores).
Os quartis são medidas descritivas que dividem os dados ordenados em
quatro partes.
É possível a determinação de três quartis:

a) o primeiro quartil, Q1, é o valor que faz com que 25 % das


observações seja menores do quem o valor calculado e 75 % das
observações sejam maiores;
b) o segundo quartil, Q2, é a própria mediana (Med), pois 50 % das
observações são menores do que o valor calculado e 50 % das
observações são maiores;
c) o terceiro quartil, Q3, é o valor que faz com que 75 % das
observações seja menores do quem o valor calculado e 25 % das
observações sejam maiores;

-Cálculo do QUARTIL de uma variável discreta

Para calcular os quartis de uma distribuição de freqüência em variável


discreta são utilizadas as fórmulas de ponto de posicionamento, conforme
indicado abaixo:

n +1
Q1 =
2

2(n + 1) n + 1
Q2 = =
4 2

3(n + 1)
Q3 =
4
UniverCidade 72
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Não há sentido o cálculo do Q4, ou seja do


quarto quartil, pois o valor, por definição
indicaria que 100% dos valores seriam
menores do que o valor calculado, ou seja, o
valor calculado seria, na realidade o valor
imediatamente superior ao maior valor da série
representada.

Há algumas regras que devem ser seguidas para a obtenção dos quartis
pelas fórmulas de ponto de posicionamento:

1 – se o ponto de posicionamento resultante for um número inteiro, a


observação numérica em questão, correspondente àquele ponto de posicionamento,
é escolhida como o quartil;
2 – se o ponto de posicionamento resultante estiver na metade entre dois
números inteiros, a média de seus respectivos valores é considerada como o
quartil;
3 – se o ponto de posicionamento resultante não se tratar de um número
inteiro, nem do valor correspondente a metade do caminho entre dois números
inteiros, uma regra simples utilizada para estimar o quartil em questão e fazer o
arredondamento até o ponto de posicionamento do número inteiro mais próximo e
selecionar o valor numérico da observação correspondente como o quartil.

Como exemplo será utilizada a distribuição:

Notas Número de alunos


5 3
6 5
7 8
9 5
10 2

Σ 23

Vamos calcular:
UniverCidade 73
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

n + 1 23 + 1 24
Q1 = = = =6
4 4 4
Isto equivale dizer que Q1 pode ser determinado como sendo a sexta
observação ordenada, ou seja a terceira nota 6 (seis) divide a distribuição em duas
partes, onde à esquerda têm-se 25 % da distribuição e à direita 75 % da
distribuição.

2(n + 1) 2(23 + 1) 2(24) 48


Q2 = = = = = 12
4 4 4 4
Agora verifica-se que a décima segunda observação ordenada, ou seja a
quarta nota 7 (sete) divide a distribuição em duas partes iguais, com 50 % para
cada lado.

Verifique que o valor de Q2 é igual à mediana.

O ponto de posicionamento indica que a décima oitava observação, ou seja a


segunda nota 9 (nove) divide a distribuição em duas partes, sendo 75 % `a
esquerda e 25 % à direita.

3(n + 1) 3(23 + 1) 3(24) 72


Q3 = = = = = 18
4 4 4 4

Através da utilização do conceito de freqüência acumulada, pode-se


visualizar bem o posicionamento dos quartis:

Notas Número de alunos Freqüência Observações


Acumulada
5 3 3 Da 1ª até a 3ª
6 5 8 Da 4ª até a 8ª
7 8 16 Da 9ª até a 16ª
9 5 21 Da 17ª até a 21ª
10 2 23 Da 22ª até a 23ª

Σ 23
UniverCidade 74
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

-Cálculo do QUARTIL de uma variável contínua

Para a determinação dos quartis em uma distribuição em variável contínua


utiliza-se inicialmente o mesmo procedimento efetuado para a variável discreta,
porém deve-se estar atento aos seguintes detalhes:
a) quando do cálculo para a variável discreta o valor encontrado
determinava a posição do elemento na distribuição, sendo
possível através da utilização do conceito de freqüência
acumulada determinar-se o valor da observação que ocupava tal
posição;

O cálculo do quartil em uma variável discreta


indica a posição da observação na série, sendo a
determinação da observação feita
posteriormente, com a análise da distribuição.

b) quando utiliza-se uma variável contínua, o valor calculado


indicará a observação que ocupa a posição determinada pelo
quartil.

A determinação do quartil em uma variável contínua é possível com a


utilização da seguinte fórmula:

in
− f acmant
Qi = li + 4 xh
fclasse

Onde:

Qi = quartil i, ou seja o quartil que se deseja determinar ( os valores de i


podem ser 1, 2 ou 3)
li = limite inferior da classe que contém o quartil
in = o número do quartil que se deseja determinar multiplicado pela
freqüência total da distribuição
UniverCidade 75
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
f acmant = freqüência acumulada da classe anterior à classe que contém o
quartil desejado
f classe = freqüência da classe que contém o quartil
h = amplitude do intervalo de classe

Lembre-se de que se a classe que estiver sendo


observada for a primeira, a freqüência anterior será
zero.

Seja a seguinte hipótese:

A direção de uma escola deseja estabelecer um atendimento diferenciado,


para os alunos da turma XX e tomará como base as notas em Língua Portuguesa.
Serão implementadas as seguintes ações:
a) para o conjunto que representar as 25 % menores notas serão
oferecidas aulas de reforço;
b) para o conjunto que representar as 25 % maiores notas serão
oferecidas aulas de redação.

Foi apresentada a distribuição abaixo com as notas dos alunos da turma XX


em Língua Portuguesa.

Como efetuar a separação da turma?

Este caso pode ser resolvido por intermédio do conceito de quartil.

A resposta da primeira condição – os alunos que obtiveram as 25% menores


notas – representa o intervalo compreendido entre a menor nota indicada na
distribuição e a nota imediatamente inferior ao valor do Q1.
UniverCidade 76
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Notas dos alunos da turma XX na prova de Língua Portuguesa

Classe Notas Freqüência

1 1 __ 2,5 3

2 2,5 __ 4 1

3 4 __ 5,5 7

4 5,5 __ 7 10

5 7 __ 8,5 8

6 8,5 __ 10 11

Total 40

Fonte: dados hipotéticos.

Inicialmente deve-se obter as freqüências acumuladas das classes:

Classe Notas Freqüência Freqüência

Acumulada

1 1 __ 2,5 3 3

2 2,5 __ 4 1 4

3 4 __ 5,5 7 11

4 5,5 __ 7 10 21

5 7 __ 8,5 8 29

6 8,5 __ 10 11 40

Total 40
UniverCidade 77
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Em seguida determina-se o ponto de posicionamento do quartil desejado (no
caso, o Q1 ).

in 1x 40
Q1 = = = 10
4 4

A observação que ocupa a posição 10 na distribuição está contida na Classe


3. Desta forma, pode obter as seguinte informações:
li = 4
in = 1 x 40 = 40
f acmant =4
f classe =7
h = 1,5

Substituindo-se os valores na fórmula:

40
−4
Q1 = 4 + 4 x1,5
7

10 − 4
Q1 = 4 + x1,5
7

6
Q1 = 4 + x1,5
7

Q1 = 4 + 0,85714 x1,5
Q1 = 4 + 1,28571
Q1 = 5,28571
Q1 ≅ 5,3

O valor foi arredondado para uma casa decimal.


A simbologia utilizada (≅) significa aproximadamente.

O valor encontrado indica que 25 % dos alunos obtiveram notas inferiores à


5,3. Desta forma, serão oferecidas aulas de reforço para os alunos com notas
inferiores à 5,3 em Língua Portuguesa.
UniverCidade 78
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Observe que o valor encontrado – 5,3 – está contido


na Classe 3, conforme foi indicado pela observação
do ponto de posicionamento.

A resposta pode ser indicada, também, através da seguinte notação:

1 ≤ Q1 < 5,3

Ou seja, terão aulas de reforço os alunos com notas iguais ou maiores do


que 1 (um) e com notas menores do que 5,3.

E quais serão os alunos que terão aulas de redação?

Utilizando o conceito de Quartil pode-se concluir que o conjunto que se


deseja determinar representam as notas posteriores ao Q3.
Deve-se, inicialmente, determinar o ponto de posicionamento:

3 x 40 120
Q3 = = = 30
4 4

A observação que ocupa a posição 30 na distribuição está contida na Classe


6. Desta forma, pode obter as seguinte informações:
li = 8,5
in = 3 x 40 = 120
f acmant = 29
f classe = 11
h = 1,5

Substituindo-se os valores na fórmula:


UniverCidade 79
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
3 x 40
− 29
Q3 = 8,5 + 4 x1,5
11

120
− 29
Q3 = 8,5 + 4 x1,5
11

30 − 29
Q3 = 8,5 + x1,5
11

1
Q3 = 8,5 + x1,5
11
Q3 = 8,5 + 0,09091x1,5
Q3 = 8,5 + 0,13637
Q3 = 8,63637
Q3 ≅ 8,6

Desta forma pode-se concluir que serão contemplados com aulas de redação
os alunos com notas superiores a 8,6 ( as 25 % maiores notas da turma).

Quando é calculado o Q3 determina-se a observação


que coloca 75 % das observações à sua esquerda e
25 % das observações à sua direita.
UniverCidade 80
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.10 – O DECIL (Dn)

A mediana é o valor que divide a disposição ordenada pela metade ( 50%


das observações são menores que a mediana e 50% das observações são maiores).
Os quartis são medidas descritivas que dividem os dados ordenados em
quatro partes.
Em diversas situações tem-se a necessidade de determinar valores que
correspondem à, por exemplo, 40 % das observações.
Nestes casos, deve-se utilizar o conceito de DECIL, que possibilita a divisão
dos dados ordenados em 10 (dez) partes iguais.
É possível a determinação de nove decis:

a) o primeiro decil, D1, é o valor que faz com que 10 % das observações
seja menores do quem o valor calculado e 90 % das observações sejam
maiores;
b) o segundo decil, D2, é o valor que faz com que 20 % das observações
seja menores do quem o valor calculado e 80 % das observações sejam
maiores;
c) o terceiro decil, D 3, é o valor que faz com que 30 % das observações
seja menores do quem o valor calculado e 70 % das observações sejam
maiores, e assim sucessivamente até o
d) o nono decil, D9, é o valor que faz com que 90 % das observações seja
menores do quem o valor calculado e 10 % das observações sejam
maiores.

Não há sentido em falar-se em D10 (decil dez), pois


seria o equivalente a determinar o valor que
posiciona à sua esquerda 100 % das observações.
Este valor, por certo será o último elemento da
distribuição.

O D5 (decil cinco) terá o mesmo valor da mediana


(Méd) e o mesmo valor de Q2.

-Cálculo do DECIL de uma variável discreta

Para calcular os decis de uma distribuição de freqüência em variável discreta


são utilizadas as fórmulas de ponto de posicionamento. De maneira genérica,
pode-se determinar que:

i (n + 1)
Di =
10
UniverCidade 81
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Onde:
i = decil que se deseja determinar
n = freqüência total

Pode-se então, utilizar, para a determinação da posição dos decis 3, 6 e 8,


por exemplo, as seguintes fórmula de ponto de posicionamento:

3( n + 1)
D3 =
10
6( n + 1)
D6 =
10
8( n + 1)
D8 =
10

As regras que devem ser seguidas para a obtenção dos decis pelas fórmulas
de ponto de posicionamento são as mesmas as que foram apresentadas para a
obtenção dos quartis.

Vamos para um exemplo:

As idades (em anos) dos alunos de uma escola foram apuradas e


possibilitaram a elaboração da seguinte distribuição discreta:

Idades Número de Alunos


7 14
8 17
9 23
10 15
11 18
12 16

Determinar o conjunto de idades que representam 40 % do número de


alunos.
Verifica-se que a questão pode ser resolvida utilizando-se o conceito de
decis, pois 40 % dos alunos pode ser indicado através do D4, ou seja, a observação
UniverCidade 82
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
que coloca 40 % das observações à sua esquerda e 60 % das observações à sua
direita.
Inicialmente deve-se determinar a freqüência total e as freqüências
acumuladas:

Classe Idades Número de Freqüência Observações


Alunos Acumulada
1 7 14 14 Da 1ª até a 14ª
2 8 17 31 Da 15ª até a 31ª
3 9 23 54 Da 32ª até a 54ª
4 10 15 69 Da 55ª até a 69ª
5 11 18 87 Da 70ª até a 87ª
6 12 16 103 Da 88ª até a 103ª

Σ 103

4(n + 1)
D4 =
10
4(103 + 1)
D4 =
10
4 x104 416
D4 = =
10 10
D4 = 41,6

A posição ocupada é a 41,6, ou seja, está compreendida entre a 41ª e a 42ª


observação. Verifica-se que neste caso que a observação encontra-se na Classe 3.
Apura-se que o décimo aluno com idade de 9 anos ocupa a posição 41 e que o
décimo primeiro ocupa a posição 42. Desta forma, seria viável afirmar-se que 40 %
dos alunos estão compreendidos entre 7 e 9 anos. (não seriam incluídos todos os
alunos com 9 anos, somente os dez primeiros observados).

-Cálculo do DECIL de uma variável contínua

Para a determinação dos decis em uma distribuição em variável contínua


utiliza-se inicialmente o mesmo procedimento efetuado para a variável discreta,
porém deve-se estar atento aos seguintes detalhes:
UniverCidade 83
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
c) quando do cálculo para a variável discreta o valor encontrado
determinava a posição do elemento na distribuição, sendo
possível através da utilização do conceito de freqüência
acumulada determinar-se o valor da observação que ocupava tal
posição;

O cálculo do decil em uma variável discreta indica


a posição da observação na série, sendo a
determinação da observação feita
posteriormente, com a análise da distribuição.

d) quando utiliza-se uma variável contínua, o valor calculado


indicará a observação que ocupa a posição determinada pelo
decil.

A determinação do decil em uma variável contínua é possível com a


utilização da seguinte fórmula:

in
− f acmant
Di = li + 10 xh
fclasse
Onde:

Di = decil i, ou seja o decil que se deseja determinar ( os valores de i podem


ser 1, 2, 3, ..., até 9)
li = limite inferior da classe que contém o decil
in = o número do decil que se deseja determinar multiplicado pela
freqüência total da distribuição
f acmant = freqüência acumulada da classe anterior à classe que contém o
decil desejado
f classe = freqüência da classe que contém o decil
h = amplitude do intervalo de classe

Lembre-se de que se a classe que estiver sendo


observada for a primeira, a freqüência anterior será
zero.

Seja a seguinte hipótese:


UniverCidade 84
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

O Colégio Sabetudo deseja oferecer bolsa de estudos parcial de 30 % para


parte de seus alunos, como forma de incentivo. Vai adotar como critério a renda
familiar bruta da família do aluno. A intenção é favorecer os alunos que tiverem 20
% das menores rendas. Um levantamento possibilitou a construção da distribuição
de freqüências abaixo. Qual será a renda familiar máxima para a obtenção da bolsa
de estudos?

Classe Renda Familiar Número


(em R$) de Alunos
1 600,00 __ 750,00 8
2 750,00 __ 900,00 6
3 900,00 __ 1.050,00 17
4 1.050,00 __ 1.200,00 19
5 1.200,00 __ 1.350,00 48
6 1.350,00 __ 1.500,00 32
7 1.500,00 __ 1.650,00 11

Pelo o que pode ser verificado, 20 % das menores rendas corresponde aos
valores que estiverem à esquerda do D2.
Para que se possa determinar o valor que ocupa tal posição, inicialmente
deve-se indicar as freqüência total e freqüências acumuladas da distribuição:

Classe Renda Familiar Número de Freqüência


(em R$) Alunos Acumulada
1 600,00 __ 750,00 8 8
2 750,00 __ 900,00 6 14
3 900,00 __ 1.050,00 17 31
4 1.050,00 __ 1.200,00 19 50
5 1.200,00 __ 1.350,00 48 98
6 1.350,00 __ 1.500,00 32 130
7 1.500,00 __ 1.650,00 11 141

Σ 141

Em seguida determina-se o ponto de posicionamento do decil desejado (no


caso, o D2 ).
UniverCidade 85
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
in 2 x141
D2 = = = 28,2
10 10

A observação que ocupa a posição 28,2 na distribuição está contida na


Classe 3. Desta forma, pode obter as seguinte informações:
li = 900,00
in = 2 x 141 = 282
f acmant = 14
f classe = 17
h = 150,00

Substituindo-se os valores na fórmula:

282
− 14
D2 = 900,00 + 10 x150,00
17
28,2 − 14
D2 = 900,00 + x150,00
17
14,2
D2 = 900,00 + x150,00
17
D2 = 900,00 + 0,83529 x150,00
D2 = 900,00 + 125,29
D2 = 1.025,29

Desta forma pode-se concluir que poderão ser contemplados com a bolsa de
estudos os alunos cuja renda familiar for inferior à R$ 1.025,29 ( ou seja ou valores
que estiverem à esquerda do D2 ).

Observe que o valor encontrado está contido na


Classe 3.
UniverCidade 86
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3.10 – O PERCENTIL (Pi) ou CENTIL (Ci)

A mediana é o valor que divide a disposição ordenada pela metade ( 50%


das observações são menores que a mediana e 50% das observações são maiores).
Os quartis são medidas descritivas que dividem os dados ordenados em
quatro partes.
Os decis são medidas descritivas que dividem os dados em dez partes.
Em várias ocasiões faz-se necessário determinar valores com maiores
precisões, como por exemplo qual seria a nota mínima para um aluno pertencer ao
Quadro de Honra, sabendo-se que somente 8 % das maiores notas serão
contempladas?
Observa-se que neste caso serão excluídas do Quadro de Honra 92 % das
notas.
Nestes casos, deve-se utilizar o conceito de PERCENTIL, que possibilita a
divisão dos dados ordenados em 100 (cem) partes iguais.
É possível a determinação de noventa e nove percentis:

e) o primeiro percentil, P1, é o valor que faz com que 1 % das observações
seja menores do quem o valor calculado e 99 % das observações sejam
maiores;
f) o segundo percentil, P2, é o valor que faz com que 2 % das observações
seja menores do quem o valor calculado e 98 % das observações sejam
maiores;
g) o terceiro percentil, P3, é o valor que faz com que 3 % das observações
seja menores do quem o valor calculado e 97 % das observações sejam
maiores, e assim sucessivamente até o
h) o nonagésimo nono percentil, P99, é o valor que faz com que 99 % das
observações seja menores do quem o valor calculado e 1 % das
observações sejam maiores.

Não há sentido em falar-se em P100 (percentil cem),


pois seria o equivalente a determinar o valor que
posiciona à sua esquerda 100 % das observações.
Este valor, por certo será o último elemento da
distribuição.

O P50 (decil cinqüenta) terá o mesmo valor da


mediana (Méd), o mesmo valor de Q2 e o mesmo
valor de D5.
UniverCidade 87
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
-Cálculo do PERCENTIL de uma variável discreta

Para calcular os percentis de uma distribuição de freqüência em variável


discreta são utilizadas as fórmulas de ponto de posicionamento. De maneira
genérica, pode-se determinar que:

i (n + 1)
Pi =
100
Onde:
i = decil que se deseja determinar
n = freqüência total

Pode-se então utilizar, para a determinação da posição dos percentis 14, 39


e 77, por exemplo, as seguintes fórmula de ponto de posicionamento:

14( n + 1)
P14 =
100
39( n + 1)
P39 =
100
77( n + 1)
P77 =
100

As regras que devem ser seguidas para a obtenção dos percentis pelas
fórmulas de ponto de posicionamento são as mesmas as que foram apresentadas
para a obtenção dos quartis e dos decis.

Vamos para um exemplo:

As idades (em anos) dos alunos de uma escola foram apuradas e


possibilitaram a elaboração da seguinte distribuição discreta:
UniverCidade 88
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Idades dos Alunos da Escola ABC


Idades Número de Alunos
11 25
12 19
13 38
14 41
15 16
16 8

Determinar o conjunto de idades que representam 22 % do número de


alunos com as menores idades.
Verifica-se que a questão pode ser resolvida utilizando-se o conceito de
percentis, pois 22 % dos alunos com as menores idades pode ser indicado através
do P22, ou seja, a observação que coloca 22 % das observações à sua esquerda e
78 % das observações à sua direita.
Inicialmente deve-se determinar a freqüência total e as freqüências
acumuladas:

Classe Idades Número de Freqüência Observações


Alunos Acumulada
1 11 25 25 Da 1ª até a 25ª
2 12 19 44 Da 26ª até a 44ª
3 13 38 82 Da 45ª até a 82ª
4 14 41 123 Da 83ª até a 123ª
5 15 16 139 Da 124ª até a 139ª
6 16 8 147 Da 140ª até a 147ª

Σ 147

Calculando o ponto de posicionamento:


UniverCidade 89
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

22(n + 1)
P22 =
100
22(147 + 1)
P22 =
100
22 x148 3.256
P22 = =
100 100
P22 = 32,56

A posição ocupada é a 32,56, ou seja, está compreendida entre a 32ª e a


33ª observação. Verifica-se que neste caso que a observação encontra-se na Classe
2. Apura-se que o trigésimo segundo aluno tem idade de 12 anos e que o
trigésimo terceiro também possui 12 anos. Desta forma, seria viável afirmar-se que
17 % dos alunos estão compreendidos entre 11 e 12 anos. (não seriam incluídos
todos os alunos com 12 anos, somente os sete primeiros observados).

-Cálculo do PERCENTIL de uma variável contínua

Para a determinação dos percentis em uma distribuição em variável contínua


utiliza-se inicialmente o mesmo procedimento efetuado para a variável discreta,
porém deve-se estar atento aos seguintes detalhes:
a) quando do cálculo para a variável discreta o valor encontrado
determinava a posição do elemento na distribuição, sendo
possível através da utilização do conceito de freqüência
acumulada determinar-se o valor da observação que ocupava
tal posição;

O cálculo do percentil em uma variável discreta


indica a posição da observação na série, sendo a
determinação da observação feita
posteriormente, com a análise da distribuição.

b) quando utiliza-se uma variável contínua, o valor calculado


indicará a observação que ocupa a posição determinada pelo
percentil.

A determinação do percentil em uma variável contínua é possível com a


utilização da seguinte fórmula:
UniverCidade 90
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

in
− f acmant
Pi = li + 100 xh
fclasse
Onde:

Pi = percentil i, ou seja o percentil que se deseja determinar ( os valores de i


podem ser 1, 2, 3, ..., até 99)
li = limite inferior da classe que contém o percentil
in = o número do percentil que se deseja determinar multiplicado pela
freqüência total da distribuição
f acmant = freqüência acumulada da classe anterior à classe que contém o
percentil desejado
f classe = freqüência da classe que contém o percentil
h = amplitude do intervalo de classe

Lembre-se de que se a classe que estiver sendo


observada for a primeira, a freqüência anterior será
zero.

Seja a seguinte hipótese:

O Colégio Bom Futuro deseja incentivar 15 % de seus alunos – os de


maiores idades, a efetuarem matrícula no turno da noite, oferecendo uma bolsa de
30 %. Um levantamento das idades de todos os alunos possibilitou a elaboração da
distribuição de freqüências abaixo. Qual será a idade mínima para o aluno ser
incentivado a efetuar matrícula no turno da noite?

Classe Idades Número


(anos) de Alunos
1 6 __ 8 37
2 8 __ 10 45
3 10 __ 12 46
4 12 __ 14 32
5 14 __ 16 29
6 16 __ 18 23
UniverCidade 91
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Pelo o que pode ser verificado, 15 % das maiores idades corresponde aos
valores que estiverem à direita do P85.
Para que se possa determinar o valor que ocupa tal posição, inicialmente
deve-se indicar as freqüência total e freqüências acumuladas da distribuição:

Classe Idades Número de Freqüência


(anos) Alunos Acumulada
1 6 __ 8 37 37
2 8 __ 10 45 82
3 10 __ 12 46 128
4 12 __ 14 32 160
5 14 __ 16 29 189
6 16 __ 18 23 212

Σ 212

Em seguida determina-se o ponto de posicionamento do percentil desejado


(no caso, o P85 ).

in 85 x 212
P85 = = = 180,2
100 100

A observação que ocupa a posição 180,2 na distribuição está contida na


Classe 5. Desta forma, pode obter as seguinte informações:
li = 14
in = 85 x 212 = 18.020
f acmant = 160
f classe = 189
h=2

Substituindo-se os valores na fórmula:


UniverCidade 92
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

18020
− 160
P85 = 14 + 100 x2
189
180,2 − 160
P85 = 14 + x2
189
20,2
P85 = 14 + x2
189
P85 = 14 + 0,10688 x 2
P85 = 14 + 0,21376
P85 = 14,21376

Desta forma pode-se concluir que a idade mínima para que o aluno seja
incentivado am matricular-se no turno da noite é de 14,21376 anos.

Observe que o valor encontrado está contido na


Classe 5.

O valor pode ser melhor determinado utilizando-se


a Regra de Três:

1 ano ..................... 12 meses


0,21376 anos ............... x

onde x = 2,56 meses.

Ou seja, os alunos com idades iguais ou superiores


a 14 anos e 2 meses se enquadram na situação
desejada.
UniverCidade 93
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

4 - Medidas de dispersão – amplitude total, desvio médio e desvio padrão

A utilização de uma medida representativa de posição central (média,


mediana ou moda) para a representação de um conjunto de dados esconde toda a
informação sobre a variabilidade do conjunto de valores.
Seja o exemplo:
Três grupos de alunos (A, B e C), com cinco alunos cada, realizou um teste,
individual, sendo verificadas as seguintes notas:
Grupo A: 3, 4, 5, 6 e 7
Grupo B: 1, 3, 5, 7 e 9
Grupo C: 5, 5, 5, 5 e 5.
Se for utilizado o conceito de média aritmética, verifica-se que todos os
grupos possuem a mesma média, ou seja, 5 (cinco).
A simples informação da média não possibilita analisar o comportamento das
variáveis que formam os conjuntos.
É necessário, então, a adoção de um critério que possibilite, por exemplo,
comparar conjuntos diferentes de valores.

As medidas de tendência central são tanto


mais apropriadas para descrever um conjunto de
dados:
a) quanto maior for o número de dados do
conjunto;
b) quanto menor for a dispersão.

4.1 – A amplitude total

Considerando o exemplo acima, a simples informação da média não


possibilitaria uma interpretação do resultado. Sendo informada a média, sua
interpretação poderá ser melhor analisada se forem informados:
a) o número de alunos de cada grupo;
b) a nota mínima e a nota máxima de cada grupo.

A primeira informação já é sabida, ou seja, cada grupo é composto por cinco


alunos. Então a segunda informação possibilitará uma melhor análise do resultado.

Quanto menor for a distância entre a menor nota e a maior nota, maior será
a confiança na média.
UniverCidade 94
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Amplitude total (At) de um conjunto de dados


é a diferença entre o maior valor e o menor
valor observado.

Utilizando os valores do exemplo, tem-se que:

a) a amplitude total (At) do conjunto A é de 7-3 = 4;


b) a amplitude total (At) do conjunto B é de 9-1 = 8, e
c) a amplitude total (At) do conjunto C é igual a zero, pois todas as notas
são iguais.

A confiança na média dos grupos para resumir a informação contida nas


notas de todos os alunos que formam o grupo será maior quanto menor for a
distância entre a maior e a menor nota.
Verifica-se que a amplitude do grupo C é igual a zero, desta forma a média
aritmética resume melhor o conjunto de notas.
A amplitude é muito utilizada pois é fácil de entender e de ser calculada.
Entretanto, a amplitude não mede bem a variabilidade dos grandes conjuntos de
dados.
A amplitude não mede bem dispersão por uma simples razão: para o seu
cálculo usam-se apenas os valores extremos. É importante que todos os dados
sejam usados no cálculo da medida de dispersão.

O exemplo indica a amplitude de um conjunto de observações e nada mais é


do que a diferença entre o limite superior (Li) do conjunto e o limite inferior (li).
Desta forma, pode-se indicar a amplitude total através da seguinte notação:

At = Li − li
- Amplitude Total em uma variável contínua

Quando a observação estiver disposta através de uma distribuição de


freqüência em variável contínua, a amplitude total será a diferença entre o ponto
médio (mi) da última classe e o ponto médio da primeira classe.

Ex:
UniverCidade 95
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Classe Idades Nº de Alunos Ponto médio


1 8 __ 12 15 10
2 12 __ 16 18 14
3 16 __ 20 36 18
4 20 __ 24 45 22
5 24 __ 28 10 26

Neste caso considerando as características já descritas das distribuições de


freqüência, a amplitude total será obtida através da diferença entre o ponto médio
da última classe e o ponto médio da primeira classe, ou seja,

At = ( ponto _ médio _ da _ última _ classe) − ( ponto _ médio _ da _ primeira _ classe)

Desta forma, para a distribuição de freqüências acima, a amplitude total


será:
At = 26 – 10
At = 16

4.2 – O desvio médio (DM)

Um forma de utilizar todos os dados é determinar a distância entre os dados


observados e a média aritmética. A distância será representada pela diferença
entre o dados observado e a média aritmética do conjunto.
Este é o conceito de desvio em relação à média:

Desvio em relação à média é a diferença entre o


valor observado e a média do conjunto.

Entretanto é necessário lembrar que a média aritmética é um ponto


eqüidistante entre os dados.
Desta forma, a soma das distâncias entre os dados observados e a média
aritmética será igual a zero.
Utilizando um dos grupos do exemplo:

Grupo B: 1, 3, 5, 7 e 9
UniverCidade 96
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Sabe-se que a média aritmética (média) é igual a 5 (cinco).
Pode-se indicar o Grupo B como sendo formado pelos seguintes elementos:
Grupo B : x1, x2, x3, x4, x5

Desta forma, pela definição, pode determinar o desvio em relação à média:

Desvio = ( x1 − média) + ( x 2 − média) + ( x3 − média) + ( x 4 − média) + ( x5 − média)

Substituindo os valores, tem-se:

Desvio = (1-5)+(3-5)+(5-5)+(7-5)+(9-5)
Desvio = (-4)+(-2)+(0)+(2)+(4)
Desvio =0

Verifique que o desvio dos outros grupo também é


igual a zero.

Se os desvio forem iguais a zero, de nada adianta para a análise.


Para que se tenha uma estatística que realmente meça a variação, pode-se
tomar a soma dos valores absolutos das distâncias.

Valor absoluto ou módulo é o número sem sinal.


Quando se deseja indicar o valor absoluto ou
módulo, de uma operação, utiliza-se duas barras
paralelas:  5-9 = 4 ( o número sem sinal)

Desta forma, pode-se aprimorar o conceito de desvio em relação à média.

Desvio em relação à média é o valor absoluto


da diferença entre o valor observado e a média
do conjunto.

Simbolizando:

Desvio = ( x1 − média) + ( x 2 − média) + ( x3 − média) + ( x 4 − média) + ( x5 − média)

Logo, o cálculo do desvio em relação à media do Grupo B, passaria a ser:

Desvio =  (1-5)+(3-5)+(5-5)+(7-5)+(9-5) 
Desvio =  (-4)+(-2)+(0)+(2)+(4) 
Desvio = 12
UniverCidade 97
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Para aprimorar o resultado, deve-se determinar a média do desvio,
passando-se a ter o conceito do desvio médio:

Desvio médio é a média entre a soma do valor


absoluto da diferença entre cada valor
observado e a média do conjunto, e o número
de observações.

Simbolizando:

( x1 − média) + ( x 2 − média) + ( x3 − média) + ( x 4 − média) + ( x5 − média)


DesvioMédio =
n

Utilizando a notação em somatório:

∑x
i =1
i − média
DM =
n
Desta forma, o desvio médio do grupo B seria:

(1 − 5) + (3 − 5) + (5 − 5) + (7 − 5) + (9 − 5)
DM =
5
12
DM = ∴ DM = 2,4
5

Calcule o desvio médio dos outros grupos do


exemplo.
Qual foi o grupo com o menor desvio médio, o
grupo A ou o grupo B?
O menor desvio médio indica que os dados estão
mais concentrados em torno da média.

-Desvio Médio em uma variável Contínua

Para a determinação do desvio médio de uma distribuição de freqüências


representada por uma variável contínua, as distâncias de cada observação deve ser
ponderada pela freqüência de cada observação.
UniverCidade 98
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Foi verificado anteriormente que o número de termos de uma observação
representada por intermédio de uma variável contínua é, na verdade, a soma das
freqüências das classes.
Desta forma, o desvio médio para uma variável contínua pode ser indicada
da seguinte forma:

∑f i =1
i xi − média
DM = n

∑f
i =1
i

Ou, considerando que Σ fi é igual ao número de termos da distribuição (n),


que

∑f i =1
i xi − média
DM =
n

Se o exemplo:

Classe Idades Nº de Alunos Ponto médio


1 8 __ 12 15 10
2 12 __ 16 18 14
3 16 __ 20 36 18
4 20 __ 24 45 22
5 24 __ 28 10 26

O objetivo é determinação o desvio médio (grau de dispersão) entre as


observações (idades) e a média aritmética das idades.

Deve-se, inicialmente calcular a média aritmética.

Sabe-se que a média aritmética é indicada por:

Média =
∑fm i i

∑f i

Então:
UniverCidade 99
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Classe Idades Nº de Alunos Ponto médio fimi
(fi) (mi)
1 8 __ 12 15 10 150
2 12 __ 16 18 14 252
3 16 __ 20 36 18 648
4 20 __ 24 45 22 990
5 24 __ 28 10 26 260

Σ 90 2.300

Logo, a média aritmética é:

Média =
∑fm i i

∑f i

2.300
Média =
90
Média = 25,6anos

Precisa-se, então, determinar o módulos das distâncias entre cada


observação (idades) e a média aritmética da distribuição:

Classe Idades Nº de Alunos Ponto médio fimi fi (mi - média)


(fi) (mi)
1 8 __ 12 15 10 150 234
2 12 __ 16 18 14 252 208,8
3 16 __ 20 36 18 648 273,6
4 20 __ 24 45 22 990 162
5 24 __ 28 10 26 260 4

Σ 90 2.300 882,4

Logo, do desvio médio será igual a:

∑f
i =1
i xi − média
DM = n

∑f
i =1
i

882,4
DM = ∴ DM = 9,8anos
90
UniverCidade 100
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

É necessário que sejam feitas algumas observações sobre o desvio médio:


a) o desvio médio resulta em um resultado mais vantajoso (para
análise da dispersão) do que a amplitude ou do que ao desvio,
principalmente pelo fato de, em seu cálculo, levar em consideração
todos os valores da distribuição;
b) apesar do desvio médio expressar aceitavelmente a dispersão de
uma amostra, não é tão freqüentemente empregado, pois o desvio
médio despreza o fato de alguns desvio serem negativos e outros
positivos, pois essa medida os trata como se fossem todos
positivos.

Há uma outra medida de dispersão mais adequada, que é a mais conhecida


e a mais usada academicamente, que é o desvio padrão.
UniverCidade 101
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

4.3 – O desvio padrão

Há duas formas para eliminar sinais negativos: uma é a utilização dos


valores absolutos (ou módulos), outra é elevar-se o número ao quadrado.

Todo número elevado ao quadrado é positivo ou, no


mínimo, igual a zero (já que zero ao quadrado é
igual a zero).

Tratando-se de desvios (distâncias entre a observação e a média


aritmética) pode-se elevar-se ao quadrado o resultado da diferença.
Porém, surge um problema:
- todas as observações possuem unidades de medida, como por exemplo
anos, pesos em quilogramas, alturas em metros, etc.
A diferença entre a observação e a média (que mantém a unidade da
observação), possui uma unidade de medida.
Ao elevar-se ao quadrado um número que possui uma unidade, eleva-se ao
quadrado também a unidade de medida.
Desta forma, supondo que o desvio entre uma observação e a média
aritmética da amostra seja igual a - 2,3 anos (com valor negativo), o quadrado
deste valor será igual à 5,29 anos2 , o que não faz nenhum sentido.
Considerando o exemplo:

Grupo B: 1, 3, 5, 7 e 9
Sabe-se que a média aritmética (média) é igual a 5 (cinco).

Pode-se, para o cálculo do desvio, para eliminar os valores negativos,


elevar-se as distância (diferenças entre cada observação e a média aritmética) ao
quadrado.
Desta forma ter-se-á:

Desvio = (1 − 5) 2 + (3 − 5) 2 + (5 − 5) 2 + (7 − 5) 2 + (9 − 5) 2
Desvio = (−4) 2 + (−2) 2 + (0) 2 + (2) 2 + (4) 2
Desvio = 16 + 4 + 0 + 4 + 16
Desvio = 40

O valor encontrado deve ser interpretado com uma unidade que será o grau
ao quadrado. Não faz sentido.
UniverCidade 102
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Foi visto anteriormente que deve-se dividir o resultado pelo número de
observações, para o cálculo do desvio médio. Entretanto, considerando uma série
de conceitos que não são objeto deste estudo, o resultado será dividido pelo
número de observações menos um (n-1).

Se o denominador for n em vez de n-1, a média


das diferenças ao quadrado em torno da média
aritmética seria obtida. No entanto, n-1 é utilizado
devido a certas propriedades matemáticas
desejáveis pela estatística que mostram que à
medida que cresce o tamanho da amostra, a
diferença na divisão pó n ou n-1 vai se tornando
cada vez menor.

Desta forma, tem-se que:

40
Desvio =
5 −1
Desvio = 10

O valor encontrado é, na realidade a variância.

Variância da amostra é aproximadamente a


média das diferenças ao quadrado entre cada
uma das observações de um conjunto de
dados e a média aritmética do conjunto.

Variância é simbolizada por δ2. ( δ - letra


grega delta, em minúsculo)

A variância é indicada pela seguinte expressão:

2 ∑ (x i − média) 2
δ =
n −1
A variância mede a dispersão média em torno da média aritmética, isto é,
como as observações maiores flutuam acima dela e as observações menores se
distribuem abaixo dela.

Desta forma, o valor anteriormente calcula é a variância, logo


δ2 = 10
UniverCidade 103
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
No entanto seus cálculo resultam em unidades ao quadrado.
Para corrigir esta distorção, extrai-se a raiz quadrada da variância e passa-
se a ter a mais utilizada medida de dispersão – o desvio padrão.
O desvio padrão é assim definido:

Desvio padrão é a raiz quadrada da soma das


diferenças ao quadrado em torno da média
aritmética dividida pelo tamanho da amostra
menos 1.

O desvio padrão é simbolizado por δ

O desvio padrão é indicado pela seguinte expressão:

δ = ∑ ( x − média)
i

n −1

O desvio padrão da amostra pode ser calculado:

δ = 10
δ = 3,2

Quanto menor for o desvio padrão, mais significativa será a utilização da


média para interpretar o conjunto.
Quanto menor for o desvio padrão menor será a variabilidade das
observações em torno da média aritmética.

- Cálculo da variância e do desvio padrão para dados dispostos em


variável contínua

O cálculo do desvio padrão para dados grupados segue procedimento


análogo ao utilizado para o cálculo do desvio médio.

Seja o exemplo:
UniverCidade 104
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Classe Idades Nº de Alunos Ponto médio


1 8 __ 12 15 10
2 12 __ 16 18 14
3 16 __ 20 36 18
4 20 __ 24 45 22
5 24 __ 28 10 26

Determinar a variância e o desvio padrão das idades em relação à média


aritmética.

Conforme foi verificado anteriormente, a média aritmética é de 25,6 anos.

Desta forma, utilizando a fórmula para a variância para dados grupados

δ 2
=
∑ f (m − média )
i i

n −1
E sabendo-se que o desvio padrão nada mais é do que a raiz quadrada da
variância, logo

δ = δ2
Verifica-se:

Classe Idades Nº de Ponto


(mi-média)2
Alunos médio mi-média fi(mi-média)2
1 8 __ 12 15 10 -15,6 243,4 3654,0
2 12 __ 16 18 14 -11,6 134,6 2422,8
3 16 __ 20 36 18 -7,6 57,8 2080,8
4 20 __ 24 45 22 -3,6 13,0 585,0
5 24 __ 28 10 26 0,4 0,2 2,0
Σ 124 8744,6
UniverCidade 105
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Então, substituindo-se os valores nas fórmulas, tem-se:


a) a variância

8744,6
δ2 =
124 − 1
2
δ = 71,1

b) o desvio padrão

δ = 71,1
δ = 8,4anos
UniverCidade 106
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

5. Correlação e Regressão

Nos capítulos anteriores foram mostrados dados que identificam a


característica de um determinado experimento, como por exemplo as notas dos
alunos em uma turma.
Entretanto muitas vezes busca-se determinar a relação de causa x efeito
entre duas variáveis, como por exemplo o número de anos de estudo e a renda
média dos indivíduos, ou a relação entre o peso e a altura dos indivíduos.

5.1 – Diagrama de Dispersão

A maneira mais simples de se estudar a relação entre duas variáveis é


fazendo um gráfico denominado diagrama de dispersão.

O diagrama de dispersão é um gráfico que


permite visualizar a relação entre duas
variáveis.

Para a construção de um diagrama de dispersão deve-se


seguir os seguintes passos:

a. colete pares de dados (X e Y) das variáveis que pretende estudar;


b. trace um sistema de eixos cartesianos e represente uma variável
em cada eixo;
c. estabeleça as escalas de maneira a dar ao diagrama o aspecto de
um quadrado;
d. faça um ponto para representar cada par de valores x e y.

Seja o exemplo:
- Foi efetuada uma pesquisa onde foram verificadas as alturas e os pesos
de um grupo de alunos, o que possibilitou a construção da seguinte
tabela:

Altura (X) 1,65 1,70 1,58 1,64 1,63 1,64 1,61


Peso (Y) 58 67 45 73 56 49 54

O diagrama de dispersão terá este formato:


UniverCidade 107
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

80

70

60

50
Pesos

40

30

20

10

0
155 160 165 170 175
Alturas

Feito o diagrama, observe a direção e a dispersão dos pontos.


No exemplo verifica-se que sendo constatado um aumento da altura, há um
aumento do peso.
Para a construção do diagrama de dispersão você poderá utilizar o
Assistente Gráfico do Microsoft Excel.
Siga os seguintes passos:
1 – abra o Microsoft Excel;
2 – digite os dados coletados, aos pares, em forma de coluna;
UniverCidade 108
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

3 – Marque o bloco com os valores ( clique com o mouse sobre o primeiro


valor, arraste para a direita e para baixo, até sombrear todos os valores );

4 – Ative o Assistente Gráfico (procure na Barra de Ferramentas) e selecione


DISPERSÃO;
UniverCidade 109
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

5 – Clique com o botão esquerdo do mouse sobre Avançar>, duas vezes, e sua
tela terá este formato
UniverCidade 110
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
6 – Posicione o cursor sobre a área Título, clique com o botão esquerdo do mouse
e preencha o título do gráfico. Repita a operação em Eixo de Valores X
(corresponde às alturas) e em Eixo de Valores Y (corresponde aos pesos);
7 – Clique com o botão esquerdo do mouse sobre Linhas de Grade e desmarque
as opções que estiverem ativadas. Repita a operação em Legenda. Em seguida
clique com o botão esquerdo do mouse sobre Avançar >;

8 – Clique em Concluir.
UniverCidade 111
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

9 – Seu gráfico de dispersão está concluído.


10 - Não se esqueça de salvar o arquivo.

5.2 – Correlação Linear

Vários são os formatos que podem ser observados em um diagrama de


dispersão e cada um deles deverá ter uma interpretação particular:

a) Correlação Positiva Fraca – indica que os itens analisados


possuem algum grau de dependência entre si, ou seja, sendo
constatada uma variação positiva de X (aumento do valor de X),
verifica-se alguma variação no mesmo sentido de Y, porém de
forma irregular;
UniverCidade 112
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

16

14

12

10

0
0 50 100 150 200 250

b) Correlação Positiva Forte – indica que os itens analisados possuem


forte grau de dependência, ou seja, sendo constatada uma
variação positiva em X, verifica-se uma variação bem acentuada
de Y, no mesmo sentido, porém não totalmente proporcional;

14

12

10

0
0 50 100 150 200 250

c) Correlação Positiva Perfeita – neste caso as variações de X


implicam em uma variação de Y, nas mesmas proporções. O
gráfico tem a aparência de uma linha reta ascendente;
UniverCidade 113
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

9,6
9,4
9,2
9
8,8
8,6
8,4
8,2
8
7,8
0 50 100 150 200 250

d) Correlação Negativa Fraca - indica que os itens analisados


possuem algum grau de dependência entre si, porém de maneira
inversa, ou seja, sendo constatada uma variação positiva de X
(aumento do valor de X), verifica-se alguma variação no sentido
contrário de Y (redução do valor de Y), porém de forma irregular;

20
18
16
14
12
10
8
6
4
2
0
0 50 100 150 200 250

e) Correlação Negativa Forte - indica que os itens analisados


possuem forte grau de dependência, de maneira inversa ou seja,
sendo constatada uma variação positiva em X, verifica-se uma
UniverCidade 114
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
variação bem acentuada de Y, no sentido contrário, porém não
totalmente proporcional;

18
16
14
12
10
8
6
4
2
0
0 50 100 150 200 250

f) Correlação Negativa Perfeita - neste caso as variações de X


implicam em uma variação de Y, no sentido inverso. O gráfico tem
a aparência de uma linha reta descendente;

60

50

40

30

20

10

0
0 50 100 150 200 250

g) Correlação Nula – não existe nenhuma relação entre as variáveis.


UniverCidade 115
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

140

120

100

80

60

40

20

0
0 20 40 60 80 100

Existem casos em que a relação entre as variáveis é considerada não linear,


ou seja, não se aproxima de uma linha reta, como por exemplo:

180
160
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120

Muitas vezes, mesmo que não se disponha dos dados, é possível que sejam
interpretadas as correlações entre duas variáveis.
Identifique o tipo de correlação entre as seguintes variáveis:

a) preço de um produto e a quantidade consumida do produto;


b) número de horas de estudo e médias do aluno;
c) horas de treinamento e produtividade.

As soluções são:
a) forte correlação negativa;
b) correlação positiva fraca;
c) correlação positiva fraca.
UniverCidade 116
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

A denominação forte e fraca poderá ser muito afetada em razão de questões


pessoais e pode ser afetada pela construção inadequada do diagrama de dispersão.
A estatística possibilita a análise através da determinação de um coeficiente que
indique como as variáveis X e Y estão se correlacionando.

5.3 – Coeficiente de Correlação ( r )

O coeficiente de correlação é uma medida do grau de associação linear entre


duas variáveis.
Seu valor varia entre –1 e 1.

Esquematizando:

-1 0 1

Quanto mais próximo de –1, mais negativa será a correlação entre as


variáveis. Para os valores compreendidos entre 0 e –0,5, diz-se que há fraca
correlação negativa. Para os valores menores do que –0,5, inclusive, diz-se que há
forte correlação negativa.
Quanto mais próximo de 1, mais positiva será a correlação entre as
variáveis. Para os valores compreendidos entre 0 e 0,5, diz-se que há fraca
correlação positiva. Para os valores maiores do que 0,5, inclusive, diz-se que há
forte correlação positiva.
Se o valor de r for igual a zero, diz-se que não há correlação entre as
variáveis.
UniverCidade 117
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
Se o valor for igual a –1, diz que há correlação negativa perfeita entre as
variáveis.
Se o valor for igual a 1, diz-se que há correlação positiva perfeita entre as
variáveis.

O cálculo da correlação implica na utilização de uma fórmula, denominada


de coeficiente de correlação momento-produto de Pearson, um tanto complexa para
o nosso nível de estudos, conforme pode ser verificado:

n∑ xy − (∑ x)(∑ y )
r=
{n(∑ x 2 ) − (∑ x) 2 }x{n(∑ y 2 ) − (∑ y ) 2

Onde n representa o número de pares de dados.

Entretanto pode-se recorrer ao Microsoft Excel para o cálculo do Coeficiente


de Correlação.

Seja o exemplo:

Foi efetuado um levantamento sobre a renda das famílias dos alunos de uma
escola e o número de filhos de cada família, o que possibilitou a construção da
tabela abaixo:

Famílias Renda (R$) Nº de Filhos


A 1.500,00 5
B 1.800,00 4
C 1.200,00 3
D 3.800,00 1
E 4.300,00 2
F 1.700,00 3
G 2.000,00 2
H 3.400,00 2
I 1.800,00 4
J 3.400,00 1

Qual será a correlação entre a renda familiar e o número de filhos destas


famílias?
UniverCidade 118
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Pode-se inicialmente visualizar, através da construção do diagrama de


dispersão se há correlação positiva ou negativa.

0
0,00 1.000,00 2.000,00 3.000,00 4.000,00 5.000,00

Visualiza-se uma correlação negativa, ou seja, é possível verificar que o


número de filhos diminui à medida em que aumenta a renda.
Mas qual será o coeficiente de correlação?
- Utilizando o Microsoft Excel

1 – Digite os dados da tabela


UniverCidade 119
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________
2 – Selecione, com o mouse, na Barra de Ferramentas fx . Na caixa de

diálogo selecione do lado esquerdo Estatística e do lado direito CORREL;

3 – Clique OK;
UniverCidade 120
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

4 – Na caixa de diálogo, clique com o botão esquerdo do mouse, no ícone


colorido da linha Matriz 1;

4 – Selecione os valores da coluna Renda, clicando com o mouse (botão


esquerdo) sobre o primeiro valor e arrastando até o último valor. Clique outra vez
sobre o ícone colorido que aparece na tela (após a linha em branco);
UniverCidade 121
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

4 – Na caixa de diálogo, clique com o botão esquerdo do mouse, no ícone


colorido da linha Matriz 2. Selecione os valores da coluna Filhos, clicando com o
mouse (botão esquerdo) sobre o primeiro valor e arrastando até o último valor.
Clique outra vez sobre o ícone colorido que aparece na tela (após a linha em
branco).

5 – Clique OK.
UniverCidade 122
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

O valor –0,749981433 indica forte correlação negativa entre as variáveis.


Desta forma pode-se afirmar que a renda familiar influencia negativamente o
número de filhos das famílias, ou seja, quanto maior for a renda das famílias,
menor será o número de filhos, para a amostra analisada.

Uma outra forma de ser efetuada a análise do coeficiente de correlação é


multiplicar o resultado por 100, onde o resultado será identificado por intermédio
de porcentagem.

No exemplo, -0,75 (já arredondando o valor), multiplicado por 100 é igual a


- 75. Logo, - 75 %.
Interpreta-se da seguinte maneira:
- a renda das famílias influencia de maneira inversa o número de filhos das
famílias em 75 %.
UniverCidade 123
Estatística Aplicada - Prof. Célio Cayres
___________________________________________________________________________________

Referências:

DA SILVA, Ermes Medeiros, et al. Estatística 1 – 2. ed. São Paulo : Atlas,


1996.
MARTINS, Gilberto de Andrade;DONAIRE, Denis. Princípios de estatística.
São Paulo : Atlas, 1979.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatística:teoria e
aplicações usando Microsoft Excel em português. Rio de Janeiro : LTC, 2000.
SPIEGEL, Murray Ralph. Estatística. 2. ed. São Paulo : McGraw-Hill do Brasil,
1985.
TOLEDO,Geraldo Luciano;OVALLE,Ivo Izidoro.Estatística Básica. 2. ed. São
Paulo : Atlas, 1985.
BUSSAB, Wilton de º;MORETTIN, Pedro A. Estatística Básica. 5. ed. São
Paulo : Saraiva, 2005.
TRIOLA, Mario F. Introdução à Estatística. 7. ed. Rio de Janeiro : LTC, 2004.
PEREIRA, Wilson;TANAKA,Oswaldo K. Elementos de Estatística. São Paulo :
McGraw-Hill do Brasil, 1984.

Das könnte Ihnen auch gefallen