Sie sind auf Seite 1von 42

Universidade Federal do Piauí

Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI


Profa. Gisele

ESTATÍSTICA
III - ESTATÍSICA DESCRITIVA OU ANÁLISE EXPLORATÓRIA DOS DADOS

1. INTRODUÇÃO
A estatística descritiva é a parte da estatística que lida com a organização, resumo (ou
descrição) e apresentação de um conjunto de dados, podendo-se utilizar em tais análises dados
provenientes de uma população finita ou de uma amostra aleatória. Em outras palavras,
Dado um conjunto de elementos, podemos em relação a certo fenômeno estudar todos os
seus elementos, classificando-os, fornecendo números indicativos que sumarizem certas
características dos dados. São números sumarizados, que fornecem descrições de todo o conjunto
sem a apresentação total dos elementos, ou mesmo medidas e relações do conjunto, não
perceptíveis, com a pura apresentação do rol de dados. Daí a associação do termo estatística
descritiva com o termo análise exploratória dos dados, ou seja, devido à caracterização e
apresentação dos dados de forma resumida e elucidativa, visando, dentre outros objetivos, à
detecção de padrões de interesse nos dados e a sua representação.
A forma de tratar as variáveis na estatística descritiva depende da natureza (ou tipo) dessa
variável: qualitativa (nominal ou ordinal) ou quantitativa (nominal ou ordinal).
Quando se pretende empreender um estudo estatístico completo, existem diversas fases do
trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas
ou operações são chamadas fases do trabalho ou método estatístico. Essas fases incluem os aspectos
da estatística descritiva, em que serão abordados os seguintes:
* Coleta ou levantamento dos dados;
* Organização dos dados;
* Representação e apresentação dos dados

2. COLETA OU LEVANTAMENTO DOS DADOS


Refere-se à obtenção, reunião e registro sistemático de dados, com objetivo determinado.

1
A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema,
objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos.
A forma como os dados serão coletados, e os procedimentos para organizá-los depende da
natureza da variável, ou seja, se qualitativa nominal ou ordinal, ou se quantitativa discreta ou
contínua.

3. ORGANIZAÇÃO DOS DADOS


Antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento
prévio, a fim de torná-los mais expressivos e organizados.
Os dados que chegam ao estatístico são, em geral, coletados de uma forma sem ordenação e
sem nenhum tipo de arranjo sistemático, sendo, nesse caso, chamados de DADOS BRUTOS. Isso
ocorre, muitas vezes, devido ao processo natural de trabalho da coleta dos dados, como por
exemplo, dados que devem ser coletados num curto período de tempo, fazendo com que não haja
tempo para coletá-los já de forma organizada.
Para facilitar a apresentação e representação dos dados, ou ainda, analisá-los em aplicativos
computacionais é necessária a organização dos mesmos em uma seqüência crescente ou decrescente
ou agrupá-los quanto às suas categorias ou atributos (classes). Os dados nessa forma são chamados
de DADOS ELABORADOS.

Exemplo 1. Variável qualitativa nominal (FERREIRA, 2005):

Tabela 1. Dados brutos obtidos de uma amostra de 14 plantas da geração F2 do cruzamento de uma
planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e
rugosas (VR).

AL AL VL AL AR VL VR AL VL AL AL AR AR AL

Tabela 2. Dados elaborados obtidos de uma amostra de 14 plantas da geração F2 do cruzamento de


uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e
rugosas (VR).

AL AL AL AL AL AL AL AR AR AR VL VL VL VR

2
Exemplo 2. Variável quantitativa contínua:

Tabela 3. Dados brutos referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa
Gertrudis.
175,34 217,23
129,98 211,07
109,94 196,43
177,75 180,12

Tabela 4. Dados elaborados referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa
Gertrudis.
109,94 180,12
129,98 196,43
175,34 211,07
177,75 217,23

Nota-se que nas Tabelas 1 e 3 os dados estão numa forma sem nenhum arranjo sistemático.
Na Tabela 2 os dados estão organizados em categorias de acordo com a cor da semente, enquanto
na Tabela 4 os dados estão organizados em ordem crescente de peso de abate. Portanto, o tipo de
arranjo sistemático a ser utilizado depende do tipo de variável em estudo.

4. APRESENTAÇÃO DOS DADOS


Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados
sob forma adequada, tornando mais fácil o exame daquilo que está sendo objeto de tratamento
estatístico e subseqüente obtenção de medidas típicas.
Diferentes representações podem ser utilizadas para apresentar um conjunto de dados, quais
sejam:
 Tabular (tabelas) e Gráfica (gráficos)
 Por meio de medidas de posição ou tendência central
 Por meio de medidas de dispersão e variabilidade
 Por meio de estatísticas descritivas da distribuição

Mais uma vez, vale lembrar que a forma de apresentar os dados depende do tipo de variável.

3
4. 1. Tabular e Gráfica
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem
assumir para que se tenha uma visão global dessa ou dessas variáveis. Isso é possível apresentando
esses valores em tabelas e gráficos, que irão fornecer informações rápidas e seguras a respeito das
variáveis em estudo, permitindo determinações mais coerentes.

4. 1. 1. TABELA
Consiste em dispor os dados em linhas e colunas distribuídos de modo ordenado, segundo
algumas regras. As tabelas têm a vantagem de conseguir expor, sistematicamente em um só local,
os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo
que se pretende analisar.
As características de uma tabela são:

A tabela é um quadro que resume um conjunto de observações tratadas estatisticamente (série


estatística).
Uma série estatística define-se como toda e qualquer coleção de dados estatísticos referidos
a uma mesma ordem de classificação. No sentido mais amplo, série é uma sucessão de números
referidos a qualquer variável. Se os números expressarem dados estatísticos, a série será chamada
de série estatística. Em sentido mais estreito, pode-se dizer que uma série estatística é uma sucessão
de dados estatísticos, ao passo que sucessão de dados estatísticos configurará uma seriação. Em
outros termos, a série é usada normalmente para designar um conjunto de dados dispostos de acordo
com caráter variável, residindo a qualidade serial na disposição temporal ou espacial dos
indivíduos.
A série estatística pode representar a distribuição de um conjunto de dados estatísticos em
função da época, do local ou da espécie (fenômeno). Conforme varie um desses elementos, a série
estatística classifica-se em TEMPORAL, GEOGRÁFICA, ESPECÍFICA e MISTA.

 Série temporal, histórica ou cronológica: é a série cujos dados variam com o tempo.
Exemplo:
4
Tabela 5. Peso de abate de suínos criados no setor de suinocultura do Departamento de Zootecnia
da UFPI, no período de 2003 - 2006. (dados hipotéticos).
Ano Peso (kg)
2003 27,60
2004 29,50
2005 30,00
2006 30,00

 Série geográfica, territorial ou de localidade: é a série cujos dados estão em correspondência


com a região geográfica, ou seja, o elemento variável é o fator geográfico (região).
Exemplo:
Tabela 6. Peso de abate de suínos (n = 30) criados no setor de suinocultura do Departamento de
Zootecnia da UFPI, UFV, UFLA e UFES. (dados hipotéticos)
Setor de suinocultura Peso (kg)
UFPI 30,80
UFV 33,30
UFLA 30,00
UFES 30,60

 Série específica ou categórica: os dados estão em correspondência com a espécie do fato ou


fator especificativo que é descrito (fenômeno).
Exemplo:

Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos
(n = 30) criados no setor de suinocultura, do Departamento de Zootecnia, da
Universidade Federal de Lavras. (RUAS et al. Pesquisa Agropecuária Brasileira, v. 7, n.
3, p. 227-230, 2001)
Variável Total
Peso de abate (kg) 30,70
Peso de carcaça (kg) 20,50
Peso de órgãos (kg) 8,10
Peso de corpo vazio (kg) 28,60
2
Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés,
cauda e sangue. 4Equivalente aos pesos: da carcaça, órgãos viscerais, cabeça, pés,
cauda e sangue.

 Série mista: as combinações entre séries estatísticas constituem novas séries que são
denominadas séries compostas ou mistas e são apresentadas em tabelas de dupla entrada.
Exemplo:

5
Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos
(n = 30) criados no setor de suinocultura setor de suinocultura, do Departamento de
Zootecnia, da UFPI, UFLA, UFV e UFES. (dados hipotéticos)
Variável UFPI UFLA UFV UFES
Peso de abate (kg) 33,30 30,70 30,00 30,60
Peso de carcaça (kg)1 19,00 20,50 20,20 21,09
Peso de órgãos (kg)2 7,98 8,10 8,00 9,44
Peso de corpo vazio (kg)3 26,98 28,60 28,20 30,53
2
Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés, cauda e sangue. 4Equivalente
aos pesos: da carcaça, órgãos viscerais, cabeça, pés, cauda e sangue.

Este é um caso de tabela apresentando série mista, ou seja, específica e de localidade.

4. 1. 2. DISTRIBUIÇÃO DE FREQUÊNCIAS
Freqüentemente, o estudo de um determinado fenômeno requer a coleta de uma grande
massa de dados numéricos, difícil de ser tratada se esses dados não forem organizados e
condensados em uma tabela. Acontece normalmente que, ao coletar os dados referentes ao
fenômeno objeto de estudo, o analista se defronta com valores que se repetem algumas vezes. Por
isso é necessário apresentar os dados em tabelas de distribuição de freqüências. Utilizando
distribuições de freqüências grandes conjuntos de dados podem ser resumidos, compreensão sobre a
natureza dos dados pode ser obtida e gráficos importantes podem ser construídos com base nas
distribuições.
Define-se a freqüência de um dado valor de uma variável (qualitativa ou quantitativa) como o
número de vezes que esse valor foi observado.
A apresentação dos dados em uma tabela de distribuição de freqüências constitui um tipo de
série estatística, chamada heterógrada, em que existe uma subdivisão ou gradação dos dados.
Quando não é feita essa subdivisão ou gradação a série estatística é chamada de homógrada.
Uma tabela de freqüências pode ser de dois tipos: PONTUAL (ou discreta) e INTERVALAR.
Qual tipo utilizar vai depender do tipo de variável em estudo. Se a variável for qualitativa (nominal
ou ordinal) ou ainda quantitativa discreta, pode-se obter uma tabela de distribuição pontual sem
muitos problemas, em que se faz correspondência dos valores da variável com sua respectiva
freqüência.
Se a variável em estudo for quantitativa contínua, não é possível efetuar o mesmo tipo de
tratamento dispensado aos dados qualitativos e quantitativos discretos. Para resolver o problema de
apresentar a distribuição de dados quantitativos contínuos de forma resumida e manter o máximo da
informação contida nela, faz-se uso da distribuição de freqüências intervalar. Neste caso,
inicialmente agrupam-se os valores da variável em intervalos de classes e faz-se a correspondência
dessas classes com suas respectivas freqüências.
6
Vale ressaltar que se a variável for quantitativa discreta e o número de valores observados for
muito grande recomenda-se agrupar os dados em classes intervalares, evitando-se, com isso, grande
extensão da tabela e a não interpretação dos valores de fenômeno.

Distribuição de freqüências pontual


Ex 1: Variável quantitativa discreta
Supondo que desejamos apresentar os dados hipotéticos de vinte valores da variável “número
de animais contaminados por determinada doença”, obtidos a partir de 20 propriedades, quais
sejam:
2 4 2 1 2
3 1 0 5 1
0 1 1 2 0
1 3 0 1 2

O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem crescente ou


decrescente, e proceder à contagem do número de ocorrência (freqüência) de cada dado.

0 0 0 0 1
1 1 1 1 1
1 2 2 2 2
2 3 3 4 5

Em seguida, apresentam-se os dados e suas respectivas freqüências absolutas através da


Tabela de Freqüências Pontual, a qual é constituída por uma coluna referente aos dados e outra
referente às freqüências associadas a cada valor observado (Fi) (Tabela 8).
Tabela 8. Número de animais contaminados para um grupo de 20
propriedades.
Animal contaminado Freqüência (Fi)
0 4
1 7
2 5
3 2
4 1
5 1
Total de observações (n) 20
Fonte: Fictícia

Além da freqüência absoluta (Fi), existem freqüências que são discutidos numa tabela de
distribuição de freqüências:
7
• Freqüência relativa (Fri), a qual é dada pela razão entre a freqüência do i-ésimo valor
observado, Fi, e o total de dados observados, n = ∑ Fi .

• Freqüência relativa expressa em porcentagem (Fpi%), resultado da multiplicação da


freqüência relativa Fri por 100.
• Freqüência acumulada, Fci, que é a informação de quantas observações apresentam
valores menores ou iguais a certo valor fixado.
• Freqüência acumulada expressa em porcentagem (Fci%).

Tabela 9. Tabela de freqüência da variável animal contaminado, para um


grupo de 20 propriedades.

Animal Fi Fri Fpi (%) Fci Fci (%)


0 4 0,20 20 4 20
1 7 0,35 35 11 55
2 5 0,25 25 16 80
3 2 0,10 10 18 90
4 1 0,05 5 19 95
5 1 0,05 5 20 100
Total (n) 20 1,00 100 - -
Fonte: Fictícia

A representação gráfica de uma tabela de distribuição de freqüências pontual pode ser por
meio dos vários tipos de gráficos, os quais serão discutidos no item 4.1.3.

Distribuição de freqüências intervalar


Ex 2: Variável quantitativa contínua
Como no caso discreto iniciaremos com um exemplo. O peso de 10 coelhos híbridos
NORFOLK, em kg, abatidos aos 90 dias:
2,61; 2,56; 2,47; 2,62; 2,59
2,56; 2,62; 2,70; 2,49; 2,62
Nota-se que os dados estão desorganizados (brutos), então o primeiro passo é organizá-los,
nesse caso, ordenando-os em ordem crescente (dados elaborados).
2,47; 2,49; 2,56; 2,56; 2,59
2,61; 2,62; 2,62; 2,62; 2,70

8
Em seguida, deve-se determinar o número de classes, o comprimento de cada classe
(amplitude de classe) e o limite inferior da primeira classe.
a) Determinação do número de classes:
Este é o principal fator que deve ser observado quando se faz uso da tabela de distribuição
intervalar para representar os dados. O numero de classes deve ser ideal, pois se esse número for
escasso, os dados originais ficarão tão condensados que pouca informação se poderá extrair da
tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula ou
muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do
fenômeno como um todo. |
Diferentes critérios podem se utilizados para definir o número de classes numa distribuição de
freqüências intervalar:
- Critério empírico em função do tamanho amostral (n),
- Critério proposto por Scott (1979),
- Fórmula de Sturges.

O critério empírico baseia-se numa função do tamanho amostral, em que:


Se, n < 100 → número de classes igual a n (inteiro mais próximo)
n > 100 → número de classes igual a 5log10 (inteiro mais próximo)

O critério proposto por Scott (1979) é para dados provenientes de uma amostragem de uma
distribuição de probabilidade denominada distribuição normal de probabilidade (a qual será vista
em outra parte da matéria). Embora esse critério tenha sido proposto e desenvolvido para essa
condição, ele tem bom desempenho em situações de distribuições não-simétricas ou distribuições
que tenham um maior ou menor grau de achatamento que a normal. O critério de Scott é dado pela
expressão:

A.3 n
k =1+
3,49σˆ
Em que:
k = número de classes; A = amplitude total; n = tamanho da amostra e σˆ = desvio padrão amostral.
OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.

A fórmula de Sturges é dada por:


k ≅ 1+ 3,3 log n

OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.

9
Considerando-se os dados Ex 2, e utilizando o critério empírico em função do tamanho
amostral para determinar o numero de classes, tem-se que:
n = 10, logo k = n → k = 10 ~
=3

b) Determinação da amplitude de classe


Depois de determinado o número de classes, o passo seguinte é determinar o comprimento de
cada classe. Esse comprimento é denominado de amplitude de classe e é representado por c. Aqui,
será tratado apenas o caso de amplitudes de classes iguais, ou seja, o valor de c é constante para
todas as classes.
A
c=
k −1
A razão para que o denominador seja k – 1 ao invés de k é explicada por uma correção que é
feita no limite inferior da primeira classe. Esse limite é considerado um valor menor que X1. Essa
escolha é justificada pela suposição de que a amostra de tamanho n tem grande chance de não
conter o valor mínimo da população. Em outras palavras, à medida que o tamanho da amostra
aumenta tem-se uma maior chance de obter elementos menores que o valor mínimo encontrado para
amostra de um tamanho menor.

Considerando-se os dados Ex 2, tem-se que:


A Amplitude X (máx) - X (min) 2,70 − 2,47 0,23
c= = = = = = 0,115kg
k − 1 número de classes − 1 3 -1 2 2

c) Determinação do limite inferior da primeira classe (LI1a)


É definido por:
c
LI 1a = X 1 −
2
O limite superior da primeira classe é então obtido somando-se, ao limite inferior dessa classe, a
amplitude de classe. O limite inferior da segunda classe é igualado ao limite superior da primeira
classe. O limite superior dessa classe é obtido somando-se a amplitude de classe ao limite inferior.
O processo é repetido para formar as demais classes, devendo parar quando a última classe k for
formada. Os intervalos de cada classe são assim montados e, algumas simbologias são utilizadas nas
distribuições por freqüências intervalares. Como por exemplo:

10
Para o Ex 2, o limite inferior da primeira classe é:
c 0,115
LI 1a = X 1 − = 2,47 − = 2,413
2 2

O ponto médio da classe i ( X i ) é calculado pela média dos limites de classe. Para
determinados cálculos estatísticos, todos os pontos de uma classe podem ser representados pelo
ponto médio da classe.
LS + LI
Xi =
2
Portanto, para o Ex 2, a tabela de distribuição de freqüências intervalar é:

Tabela 10. Distribuição de freqüência para o peso dos 10 coelhos abatidos aos 90 dias.

Freqüênci Freqüência Freqüência Freqüência Freqüência Ponto


Classes a absoluta relativa relativa acumulada acumulada médio
(Fi ) (Fri) (Fpi%) (Fci) (Fci%) X
i
2,413├ 2,528 2 0,20 20 2 20 2,471
2,528 ├ 2,643 7 0,70 70 9 90 2,586
2,643 ├ 2,758 1 0,10 10 10 100 2,791
∑ 10 1,00 100 - - -
Fonte: Fictícia

Nota-se que, como na distribuição de freqüências pontual, é bastante útil apresentar as


freqüências relativa (Fri), relativa em termos de porcentagem (Fpi%), acumulada (Fci) e acumulada
percentual (freqüência acumulada percentual – Fci%).
A representação gráfica de uma tabela de distribuição de freqüências intervalar é feita por
meio do histograma e do polígono de freqüências, os quais serão discutidos logo adiante.

4. 1. 3. GRÁFICO
É um complemento importante da apresentação tabular. A vantagem de um gráfico sobre a
tabela está em possibilitar uma rápida impressão visual da distribuição dos valores ou das
freqüências observadas. Os gráficos propiciam uma idéia inicial mais satisfatória da concentração e

11
dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de
grandezas visualmente interpretáveis.

Requisitos fundamentais em um gráfico:


 Simplicidade: possibilitar a análise rápida do fenômeno observado. Deve conter apenas o
essencial.
 Clareza: possibilitar a leitura e interpretações correta dos valores do fenômeno.
 Veracidade: deve expressar a verdade sobre o fenômeno observado.

Tipos de gráficos quanto à forma:


Quanto à forma há diferentes tipos de gráficos: diagramas (gráficos geométricos dispostos em
duas dimensões), cartogramas (a representação e sobre uma carta geográfica, muito usados na
Geografia, História e Demografia), estereogramas (representam volumes e são apresentados em três
dimensões) e pictogramas (a representação gráfica consta de figuras representativas do fenômeno).
Aqui, apenas discutiremos os diagramas que são os mais usados na representação de séries
estatísticas.

Classificação dos gráficos quanto ao objetivo:


 Gráficos de informação
O objetivo é proporcionar uma visualização rápida e clara da intensidade das categorias ou
dos valores relativos ao fenômeno. São gráficos tipicamente expositivos, devendo ser o mais
completo possível, dispensando comentários explicativos.

 Gráficos de análise
Estes gráficos fornecem informações importantes na fase de análise dos dados, sendo também
informativos. Esses gráficos, geralmente, vêm acompanhados de uma tabela e um texto onde se
destaca os pontos principais revelados pelo gráfico ou pela tabela.

Alguns tipos de gráficos:


 Gráfico de colunas
É a representação de uma série estatística através de retângulos, dispostos em colunas (na
vertical). Este tipo de gráfico representa praticamente qualquer série estatística. As bases das
colunas são iguais e as alturas são proporcionais aos respectivos dados.

12
Ex:

Figura 1. Presença de Sarcocystis spp. em diferentes músculos de bovinos (305), da região sul do
Rio Grande do Sul; análises realizadas pela técnica de exame a fresco. . (RUAS, J. L. et
al. Pesquisa Agropecuária Brasileira, v. 7, n. 3, p. 227-230, 2001)

 Gráfico de colunas múltiplo


É um tipo de gráfico útil para estabelecer comparações entre as grandezas de cada categoria
dos fenômenos estudados. A modalidade de apresentação das colunas é chamada de Gráfico de
Colunas Remontadas.
Ex:

Figura 2. Presença de Sarcocystis spp. em diferentes músculos e bovinos (n = 57), clinicamente


sadios, abatidos na região sul do Rio grande do Sul; análises realizadas pelas técnicas de
exame a fresco e histopatológico. (RUAS, J. L. et al. Pesquisa Agropecuária Brasileira,
v. 7, n. 3, p. 227-230, 2001)

 Gráfico de barras
As alturas dos retângulos são iguais e arbitrárias e os comprimentos são proporcionais aos
respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espaço de forma que
as inscrições identifiquem as diferentes barras. O espaço entre as barras pode ser a metade (½) ou
dois terços (2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma

13
decrescente para facilitar a comparação dos valores. A categoria “outros” (quando existir) é
representada na barra inferior, mesmo que o seu comprimento exceda o de alguma outra.

Ex:

Figura 3. Distribuição de freqüências da resistência à ferrugem de híbridos de milho para a região


preferencial I, 1987/1988. (r = resistente, mr = muito resistente, ms = muito suscetível e
s = suscetível). (OGLIARI, P. J. & ANDRADE, D. F. Estatística básica para as ciências
agronômicas e biológicas - com noções de experimentação. Florianópolis – SC, 2005,
357p.)

 Gráfico de barras múltiplo


Geralmente útil quando as diretrizes das categorias a serem escritas são extensas.
Ex:

Figura 4. Distribuição de freqüências do tipo de grão e resistência à de híbridos de milho para a


região preferencial I, 1987/1988. (OGLIARI, P. J. & ANDRADE, D. F. Estatística
básica para as ciências agronômicas e biológicas - com noções de experimentação.
Florianópolis – SC, 2005, 357p.)

14
 Gráfico de linhas
São adequados para dados ordenados ao longo do tempo (séries temporais), principalmente
quando a série cobrir um grande número de períodos.

Ex:

Figura 5. Curva de eliminação de oocistos de Cryptosporidium baileyi oriundos de codornas


japonesas (Cotumix japonica) experimentalmente infectadas. (CARDOZO, S, V. et al.
Revista Brasileira de Parasitologia, v. 14 n. 3, p. 119-124, 2005)

Os gráficos de linha servem também para comparar distribuições.


Ex:

Figura 6. Comportamento da variável acidez em ácido lático (%) nos diversos tratamentos (P, PC,
PB e PA) durante a maturação de salame tipo italiano, UFSC, 1992. (OGLIARI, P. J. &
ANDRADE, D. F. Estatística básica para as ciências agronômicas e biológicas - com
noções de experimentação. Florianópolis – SC, 2005, 357p.)

 Gráfico de setores

15
É a representação gráfica de uma série estatística em um círculo de raio qualquer, por meio
de setores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende
comparar cada valor da série com o total. O total da série corresponde a 360° (total de graus de um
arco de circunferência). Os gráficos em setores representam valores absolutos ou porcentagens
complementares. As séries geográficas, específicas e as categorias em nível nominal são mais
representadas em gráficos de setores, desde que não apresentem muitas parcelas.
Ex:

Figura 7. Distribuição das proporções (%) da resistência à ferrugem, para o tipo de grão dentado,
para a região preferencial I, 1987/1988. (OGLIARI, P. J. & ANDRADE, D. F.
Estatística básica para as ciências agronômicas e biológicas - com noções de
experimentação. Florianópolis – SC, 2005, 357p.)

 Histograma e polígono de freqüências


O histograma e o polígono de freqüências são importantes para a determinação da forma de
distribuição dos dados quantitativos contínuos.
O histograma é um gráfico de colunas cujas bases são proporcionais aos intervalos de classe, e
a altura a uma medida denominada de densidade (f), que é dada por fi = Fi/c. No caso, como estão
sendo abordadas apenas amplitudes de classes iguais (c é constante para todas as classes), o valor de
c pode ser ignorado na construção do histograma. Ou seja, a largura da base de cada célula deve ser
proporcional à amplitude do intervalo da classe que ela representa e a área de cada célula deve ser
proporcional à freqüência da mesma classe. Como as classes têm igual amplitude, então as alturas
dos retângulos serão proporcionais às freqüências das classes que eles representam.
Esta ferramenta tem como objetivos:
- identificar o padrão de distribuição da característica medida, tal como, verificar se os dados
adquiridos num processo estão distribuídos mais a direita ou mais a esquerda de um ponto de
especificação;

16
- informar rápida e concisamente a variabilidade da distribuição de uma freqüência variável;
- permitir melhor visualização dos dados.
Cabe ressaltar que, para utilizar o histograma deve-se dispor de grande quantidade de dados,
pelo menos um número total de observações maior que 30.
O contorno externo de um histograma, isto é, a linha mais forte da figura seguinte, chama-se
Poligonal Característica do conjunto de dados obtidos num processo, fornecendo idéia da variação
do processo analisado. A área sob a poligonal característica corresponde à freqüência total, uma vez
que se compõe de retângulos cujas áreas equivalem às freqüências de cada classe.

O polígono de freqüências é uma linha poligonal que liga os pontos médios das classes
ordenadas correspondentes às suas freqüências (ou densidades se c não é constante).

Nota-se que o polígono de freqüência é fechado, tomando-se uma classe anterior à primeira
e uma classe posterior à última, já que ambas possuem freqüência zero.
A seguir encontram-se as instruções para a construção do histograma e do polígono de
freqüências:
1) Construir uma tabela de distribuição de freqüências. Para a construção do histograma,
bastam as informações do número das classes, intervalos de classe e freqüências absolutas.
2) Calcular os pontos médios referentes a cada classe, os quais devem constar na tabela de
distribuição de freqüências.
3) Traçar um gráfico com dois eixos: um horizontal e um vertical. Colocar no eixo horizontal
(eixo X) as bases dos retângulos que correspondem aos intervalos de classe. A descrição das

17
classes deve ser colocada neste eixo, e corresponder ao valor do ponto central de cada classe
(no centro da base de cada retângulo) ou dos próprios limites dos intervalos (em cada lado
do retângulo).
4) Estabelecer a medida de freqüência que será utilizada no histograma. Como se sabe, as áreas
dos retângulos têm que ser proporcionais às freqüências das classes, ou coincidir com suas
freqüências relativas, logo:
* Se todos os intervalos de freqüência tiverem a mesma amplitude, as alturas dos retângulos são
proporcionais às freqüências das classes, e podem ser consideradas as próprias freqüências
simples ou absolutas, como sendo os valores das alturas, sem nenhuma perda de informação.
* Se os intervalos de classes não tiverem a mesma amplitude, deverão se considerar as
densidades de freqüências como sendo os valores das alturas dos retângulos. Estas densidades
podem ser obtidas tomando-se as freqüências absolutas de cada classe e dividindo-a pela
respectiva amplitude de classe.
5) Colocar no eixo da vertical (eixo Y) a escala correspondente às freqüências ou densidades
de freqüências, abrangendo a menor e a maior freqüência ou densidade de freqüências
obtidas. Construir os retângulos, traçando linhas perpendiculares às classes (bases), eixo X,
até atingir as respectivas freqüências ou densidades de freqüências, eixo Y.
6) Determinar a curva Polígono de Freqüência, marcando e ligando os pontos médios
correspondentes a cada intervalo de classe.
7) Colocar o título no gráfico, contendo as informações necessárias, tais como, o estudo sob
avaliação e a unidade medida.
8) Verificar a estrutura dos dados quanto à condição de simetria.

Para o caso do Ex 2 (pág. 9), a representação do histograma e do polígono de freqüência


num mesmo gráfico fica assim definido:

18
Figura 8 – Histograma e polígono de freqüências do peso dos 10 coelhos (em gramas) abatidos aos
90 dias.

4. 2. Medidas de posição ou tendência central


Pela concentração de dados de um conjunto de mensurações nas proximidades de alguns
valores, verifica-se que esses valores podem ser usados para representar todos os dados. Em outras
palavras, é possível que esses valores sejam representativos do conjunto de mensurações. Esses
valores são denominados de medidas de posição ou medidas de tendência central. A escolha de um
tipo de medida de posição depende principalmente da natureza da distribuição das mensurações, do
tipo de dado e das propriedades dos valores escolhidos. O termo medida de posição é usado para
indicar, ao longo da escala de medidas, onde a amostra ou a população está localizada.
Dentre os vários tipos de medida de posição tem-se a média, mediana e a moda, mas outros
tipos também podem ser utilizados. Esses parâmetros são úteis por descreverem propriedades da
população.
As medidas de posição têm como objetivos:
• Representar o ponto central de um conjunto de dados;
• Dividir o conjunto de dados em partes iguais;
• Estabelecer em torno de que valores representativos os dados se distribuem.
As medidas de posição podem representar medidas de tendência central ou simplesmente
dividir os dados em partes iguais (separatrizes). Quando os valores das medidas de posição tendem
a se localizar em um ponto central, dentro de um conjunto de dados ordenados segundo suas
grandezas, elas também são denominadas de medidas de tendência central. É o caso da média,
mediana e moda. Quando as medidas de posição tendem simplesmente a dividir o conjunto de
dados em partes iguais, elas são denominadas de separatrizes (mediana, quantis, decis e centis).
Neste tópico serão abordados aspectos apenas inerentes à média, mediana e moda.

4.2.1. Média
Existem vários tipos de médias, cada uma delas apresentando vantagens e desvantagens.

 Média aritmética
É a medida de posição mais comum, intensa e extensivamente utilizada. Quando se tratar de
dados isolados, a média aritmética é a soma das observações (X1, X2, ..., Xn) dividida pelo número
delas (n = número de observações na amostra), ou seja:
n

∑X i
X 1 + X 2 + X 3 + ... + X n
X= i =1
=
n n
19
Este é o mais eficiente, não viesado e consistente estimador da média populacional µ.

Ex: Determinar a média aritmética simples do seguinte conjunto de valores: 7, 9, 10, 14, 15 e 17.
n

∑X i
7 + 9 + 10 + 14 + 15 + 17
X= i =1
= = 12
n 6

Para dados agrupados em uma tabela de distribuição de freqüências pontual, a média


aritmética será a soma do produto dos valores pela freqüência absoluta com que esses ocorrem,
dividida pela soma das freqüências absolutas da distribuição, ou seja:
n

∑X F i i
7 + 9 + 10 + 14 + 15 + 17
X= i =1
= = 12
n
6
∑F
i =1
i

OBS: Utiliza-se este mesmo estimador para dados com pesos diferentes, bastando apenas que
troque as freqüências pelos pesos.
Ex: Num aprova para Auditor fiscal, temos que a prova P.1 (conhecimentos gerais) tem peso 1 e as
provas P.2 (conhecimentos específicos) e P.3 (conhecimentos especializados por área) têm peso 3,
cada. Considerando que um candidato tenha acertado: 55% da prova P.1; 75% da prova P.2 e 80%
da prova P.3, calcular a média aritmética.
Pela média aritmética simples teríamos: (50 + 75 + 80)/3 = 70% de acertos em média.
Usando a média aritmética ponderada, tem-se:
(50.1) + (75.2) + (80.2)
X= = 73%
1+ 2 + 2
Nota-se que, no exemplo, a média aritmética ponderada foi maior que a média aritmética
simples, porque houve um maior percentual de acertos nas matérias de maior peso. Caso contrário,
a média aritmética ponderada seria menor que a média aritmética simples. Conclui-se, então, que a
média aritmética ponderada é diretamente influenciada pelos pesos.

Para dados agrupados em uma tabela de distribuição de freqüências intervalar, a média


aritmética é dada por:
k

∑F X i i
X= i =1
k

∑F i =1
i

20
Em que, X i é o ponto médio do intervalo de classe e k = número de classes.
OBS: Sempre que estiverem disponíveis todos os dados, é preferível calcular a média
aritmética simples à média aritmética para dados agrupados em intervalos de classe, pois
geralmente a segunda perde em precisão por fazer uso apenas dos pontos médios das classes. Em
muitos casos, essa perda de precisão é mínima, podendo então utilizar o estimador da média para
dados agrupados em classes intervalares. Essa diferença entre esses estimadores é chamada de
Hipótese Tabular Básica.

As propriedades da média aritmética são:


a) A média de uma constante é a própria constante.
b) A soma, subtração, multiplicação ou divisão de uma mesma quantidade K a cada valor
observado do conjunto n de dados, resultará numa nova média somada, subtraída,
multiplicada ou dividida por essa quantidade K.
n
c) A soma dos desvios a partir da média X é nula: ∑(X
i =1
i − X ) = 0 , onde Xi é cada valor do

conjunto de n dados.
d) A soma dos quadrados dos desvios de um conjunto de dados em relação a qualquer número
K, é um mínimo quando K = X . Isto significa que a soma de quadrados (SQ) dos desvios
tomados em relação a um valor qualquer sempre excederá a SQ dos desvios tomados em
relação à média aritmética. Esta propriedade fornece um critério para obtenção de medidas
mais representativas de um conjunto de dados chamado de critério de mínimos quadrados.

As vantagens da média aritmética são facilidade de interpretação e cálculo, e apresenta


potencial de uso para propósito de inferências. A principal desvantagem é que deve ser usada
somente em distribuições simétricas ou ligeiramente assimétricas, visto que é influenciada por
valores discrepantes e mais que discrepantes de uma distribuição (“outliers”). A média tenderá a ser
grande se existirem alguns poucos valores que são maiores que a maioria das mensurações
realizadas, ou a ser pequena, se existirem na amostra alguns poucos valores menores que a maioria
das mensurações.

 Média geométrica
A aplicação da média geométrica deve ser feita quando os valores do conjunto de dados se
comportam segundo uma progressão geométrica (P. G.) ou dela se aproxima. É apropriada para
calcular médias de razões, de taxas de variações, de índices econômicos e de taxa de crescimento.

21
Para dados isolados a média geométrica é dada pela seguinte expressão:
n
X g = n X 1 X 2 .....X n = n ∏X
i =1
i Xi > 0, ∀ i=1, 2, ..., n

Para dados agrupados em tabelas de distribuição de freqüências pontual, tem-se que:


n

∑ Fi
n

∑ Fi n
X g = i =1 ∏X = Xi > 0, ∀ i=1, 2, ..., n
Fi
i
i =1
X 1F1 . X 2F2 .....X nFn
i =1

Para dados agrupados em tabelas de distribuição de freqüências intervalar, tem-se que:


 k 
 ∑ Fi ln X i 
X g = exp i=1  Xi > 0, ∀ i=1, 2, ..., k
 n 
 
 

 Média harmônica
É usada para dados inversamente proporcionais, em casos em que se deseja obter a medida de
posição que possui a maior estabilidade ou quando houver necessidade de um tratamento algébrico
ulterior. É aplicada para obter médias de razões.
A média harmônica de um conjunto n de valores observados X1, X2, ..., Xn é o resultado da
divisão da quantidade n de elementos do conjunto pelo somatório dos inversos dos valores
observados, ou seja:
n
Xh = Xi > 0, ∀ i=1, 2, ..., n
1
n


i =1 X i

Para dados agrupados em tabela de freqüências pontual, tem-se que:


n

∑F i
F1 + F2 + ... + Fn
Xh = i =1
n
= Xi > 0, ∀ i=1, 2, ..., n
Fi F1 F2 F

i =1 X i
+
X1 X 2
+ ... + n
Xn

Para dados agrupados em tabela de freqüências intervalar, tem-se que:


K

∑F i
F1 + F2 + ... + Fn
Xh = i =1
K
= Xi > 0, ∀ i=1, 2, ..., k
Fi F1 F2 F

i =1 X i
+
X1 X 2
+ ... + n
Xn

22
Relação entre as médias aritmética, geométrica e harmônica → a média geométrica de um
conjunto de números positivos X1, X2, ..., Xn é maior ou igual à média harmônica e menor
ou igual à média aritmética, ou seja: Xh ≤ Xg ≤ X .

4.2.2. Mediana
É uma medida típica de tendência central, sendo definida em um conjunto de dados ordenados
como o valor central, ou seja, o valor para o qual há tantas mensurações que o superem quanto são
superados por ele. A mediana é utilizada quando se deseja obter um ponto que divide a distribuição
em partes iguais ou quando há valores extremos que afetam de uma maneira acentuada a média.

A mediana amostral (md) é o melhor estimador da mediana populacional (µd). Nas


distribuições simétricas, a mediana também é um estimador não viesado e consistente de µ, embora
não seja tão eficiente como X . Por outro lado, se a distribuição é assimétrica, a mediana é um
pobre estimador de µ. Dessa forma, a mediana não deve ser usada como substituta de µ.
Para a estimação da mediana, é necessário inicialmente ordenar os dados (dados elaborados),
cuja ordem pode ser crescente ou decrescente. A definição do estimador da mediana populacional é
dada por:

X n +1 Se n for ÍMPAR
( )
2
md = X +X
n n+ 2
( ) ( )
2 2 Se n for PAR
2

Ex: No caso do peso dos coelhos (n =10) (Ex 2. pág. 9) a posição central esta entre o 5º e o 6º
elemento. Portanto, a mediana é a média aritmética destas duas posições.
md= (2,59+2,61)/2 = 2,60 kg

Para dados agrupados em uma tabela de distribuição de freqüências intervalar, a mediana


pode ser calculada de acordo com a seguinte expressão:

23
n 
 2 − Fci 
md = Limd +  × hmd
 Fmd 
 

Em que,
Fmd: freqüência absoluta da classe mediana;
hmd: amplitude da classe mediana;
Fci: freqüência acumulada das classes anteriores à classe mediana;
Limd: é o limite inferior a classe.
A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de
freqüência.
Considerando-se os dados ta Tabela 4 (página 12), tem-se:

Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.


Classes (kg) Fi Fci

2,413 ├ 2,528 2 2

2,528 ├ 2,643 7 9

2,643 ├ 2,758 1 10

∑ 10

Posição da mediana = n/2 = 10/2 = 5 (contida na 2° classe)


Fci = 2
Limd = 2,528
Fmd = 7
hmd = 0,115
md = 2,528 +[(5-2)/7] × 0,115= 2,577 kg

A mediana é um estimador menos informativo que a média, pois só considera os ranques


(postos ou posições) das observações e não os valores, como faz a média. No entanto, a mediana
pode, em algumas ocasiões, ser mais vantajosa que a média pelo fato de não ser afetada pelos
extremos. Assim, se as distribuições são simétricas, a mediana pode ser uma melhor medida de
tendência central.

24
Uma vantagem da mediana é que ela pode ser calculada para dados qualitativos ordinais. A
mediana ainda pode ser estimada em amostras em que alguns valores ainda não foram registrados.
Se, por exemplo, um investigador tem dados de tempos de vida de uma amostra de n = 18. Porém,
entre as dezoito árvores, existem duas delas cujos registros não forma feitos, por ainda estarem
vivas, os tempos de vida das mangueiras restantes são os dois maiores valores da amostra, pois ao
se iniciar a pesquisa tomou-se o cuidado de realizar o plantio na mesma data das dezoito árvores.
Dessa forma, não é preciso ter os dados das últimas unidades para calcular a mediana, que é obtida
pela média do 9o e 10o valor ordenado, o que não é possível para a média.
A mediana possui as seguintes propriedades e características:
a) A soma dos módulos dos desvios em relação a qualquer número K, é um mínimo quando
k = md.
n
D = ∑ ( X i − K ) , em que Xi é cada valor do conjunto de n dados.
i =1

b) A soma, subtração, multiplicação ou divisão de uma mesma quantidade a cada valor


observado do conjunto n de dados, resultará numa nova mediana somada, subtraída,
multiplicada ou dividida por essa quantidade.
c) A mediana não é influenciada por valores extremos.

4.2.3. Moda
A moda é o valor que mais aparece ou de maior freqüência simples (absoluta ou relativa)
numa distribuição de freqüências. Em outras palavras é aquele valor da variável em que há a mais
densa concentração de valores na sua proximidade. A moda amostral (mo) é o melhor estimador da
moda populacional µo.
Para dados qualitativos nominais ou ordinais e para dados quantitativos discretos a moda é
definida como sendo o valor de maior freqüência na amostra, enquanto que para dados quantitativos
contínuos a moda é o valor de maior densidade (ou freqüência, quando as classes tiverem a mesma
amplitude). Portanto, para estes dados, a moda é aquele valor da distribuição cuja freqüência é
máxima, ou ainda, o ponto de máximo do polígono de freqüências.
A moda pode não existir; existindo, pode não ser a única. Uma distribuição pode ser
AMODAL (não há moda, todos os valores observados aparecem o mesmo número de vezes),
UNIMODAL (há uma só moda), BIMODAL (há duas modas) ou MULTIMODAL (há mais de duas
modas).

25
Ex: Tabela de distribuição de freqüências pontual.
Notas de um aluno da disciplina de Biostatística da turma de Medicina Veterinária, 2007/I.

Moda = 6,5, Distribuição Unimodal

A moda para dados quantitativos contínuos, agrupados em tabela de distribuição de freqüência


intervalar, é definida através da seguinte expressão:
∆1
mo = Limo + × hmo
∆1 + ∆2
Em que,
Limo= limite inferior da classe modal;
∆1 = diferença entre a freqüência da classe modal e a classe anterior;
∆2 = diferença entre a freqüência da classe modal e a classe posterior;
hmo = amplitude da classe modal.
OBS: A classe modal é a classe com maior freqüência.

26
Ex: Tabela de distribuição de freqüências intervalar.
Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.
Classes (kg) Fi

2,413 ├ 2,528 2

2,528 ├ 2,643 7 Classe modal

2,643 ├ 2,758 1

∑ 10

7−2
mo = 2 ,528 + × 0 ,115 = 2 ,580kg
(7 − 2 ) + 7 − 1

A moda é normalmente é utilizada quando se deseja obter uma medida rápida e aproximada de
posição ou quando a medida de posição dever ser o valor mais típico da distribuição.
A moda apresenta como propriedade e característica o fato que somando-se, subtraindo-se,
multiplicando-se ou dividindo-se uma mesma quantidade a cada valor observado do conjunto n de
dados, a moda se alterará de tal forma ficando adicionada, subtraída, multiplicada ou dividida por
essa quantidade.

Nota 1 – Posição relativa da média, mediana e moda numa distribuição:


Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria
torna-as diferentes e essa diferença é tanto maior quanto maior for a assimetria. Assim,
em uma distribuição temos:
X = md <= mo → curva simétrica

X < md < mo → curva assimétrica negativa

mo < md < X → curva assimétrica positiva

27
Nota 2 – Utilização da média, moda e mediana para diferentes tipos de variáveis:
A média só pode ser calculada para variáveis quantitativas. Para as variáveis
qualitativas nominais somente podemos trabalhar com a moda. Para as variáveis qualitativas
ordinais, além da moda, podemos trabalhar com a mediana.

4. 3. Medidas de dispersão e variabilidade


As diferenças entre os elementos de um conjunto de mensurações podem ser observadas para
a maioria desses conjuntos. Essas diferenças individuais em uma amostra ou população definem o
que os estatísticos chamam de variabilidade ou dispersão do conjunto de mensurações. É
conveniente enfatizar que a variabilidade entre os elementos é vista pela perspectiva da dispersão
em torno do centro de distribuição. As medidas dessa variabilidade são denominadas de medidas de
dispersão. Se aplicadas em uma população, são chamadas de parâmetros de dispersão da população
e, se aplicadas em amostras, são chamadas de estimadores de dispersão.
As medidas de posição são importantes para caracterizar um conjunto de mensurações, mas
não são suficientes para caracterizar completamente a distribuição dos dados. Outras medidas são
necessárias para isso, enquadrando-se aí as medidas de dispersão, que se aplicam na caracterização
de uma distribuição de mensurações.
Mas, como medir essa dispersão?
Uma vez anotados os dados referentes a uma determinada característica, calcula-se a média
desses dados, e a seguir, os desvios de cada dado em relação a essa estimativa. Esses desvios são, a
seguir colocados num gráfico para melhor visualização da dispersão espacial. Temos, assim, uma
idéia do grau de dispersão dos dados: quanto maior a dispersão, maior é a variação do acaso, ou
seja, maior é a presença dos fatores não controlados da variação.

28
Para exemplificar este fato, tem-se a seguir três amostras.

A = {8, 8, 9, 10, 11, 12, 12} X A = 10

B = {5, 6, 8, 10, 12, 14, 15} X B = 10

C = {1, 2, 5, 10, 15, 18, 19} X C = 10


Nota-se, que com base na média, não é possível caracterizar e diferenciar as distribuições dos
dados nas três amostras, uma vez que em todas as amostras a estimativa da média foi igual, porém,
com estas médias é possível obter os desvios em cada amostra.
Se chamarmos de yi os valores ou dados observados, de µ a média verdadeira dos dados e de
ei os desvios em relação à medi, podemos admitir o seguinte modelo matemático para representar
os dados: yi = m + ei. Uma vez que são dados amostrais, a estimativa da média é indicada por X ou
µ̂ e os desvios por êi. Assim, o os desvios em relação à média para a amostra A são -2, -2, -1, 0, 1,
2, 2, para a amostra B são -5, -4, -2, 0, 2, 4, 5 e para a amostra C são -9, -8, -5, 0, 5, 8, 9.
A forma de quantificar essa variabilidade é por meio das medidas de dispersão.

 Amplitude total de variação


É a diferença entre a menor e a maior observação de um conjunto de dados.

A = X n − X1

É uma medida simples e fácil de ser calculada, mas é uma pobre medida de dispersão, por não
considerar todas as mensurações, levando em conta apenas os valores extremos (máximo e
mínimo). Além disso, como é improvável que a amostra contenha os valores máximo e mínimo da
população, a amplitude geralmente subestima a amplitude populacional, sendo um estimador
viesado e ineficiente.
Ex: Litros de leite/vaca/dia (Y)
Y = 10,5; 10,2; 11,5; 11,9; 12,7; 12,6; 12,9
A = 12,9 – 10,2 = 2,7

Para dados em distribuição de freqüências o estimador da amplitude é dado por:

A = X n − X1

 Desvio médio
Uma vez que a amplitude é considerada ineficiente por não levar em conta todos os valores
amostrais, é possível expressar a variabilidade de um conjunto de dados em termos de desvios da
média.

29
n n
Em virtude do ∑(X
i =1
i − X ) = 0 , usamos para calcular o desvio médio ∑ (X
i =1
i − X) .

Portanto, para dados isolados:

E para dados apresentados em tabela de distribuição de freqüências:

Apesar de seu aspecto atrativo, essa medida, em razão dos valores absolutos, conduz a sérias
dificuldades teóricas em problemas de inferência estatística, por isso é raramente usada.

 Variância
A variância é outra forma de contornar o problema de a soma dos desvios em relação à média
aritmética ser sempre igual a zero. Neste caso, a alternativa é usar a soma de quadrado dos desvios.
Por ser considerada como um valor médio dos desvios ao quadrado, é conhecida também como
QUADRADO MÉDIO.
A variância amostral de um conjunto de dados é, por definição, a média dos quadrados das
diferenças dos valores em relação à sua média, isto é,
n n n

∑ (X i − X )2 ∑ X i − (∑ X i ) 2 / n
2

SQ X
σˆ 2 = i =1
= i =1 i =1
=
n −1 n −1 n −1
Em que, SQx = Soma de quadrados de desvios de X.

Se os dados estiverem dispostos em uma tabela de freqüências, poderemos obter σˆ 2 por:


k k

∑ ( X i − X ) 2 Fi k
(∑ Fi X i ) 2 / n
σˆ 2 = i =1
= ∑ Fi X i2 − i =1
n −1 i =1 n −1
Em que, n-1 é denominado graus de liberdade, e k = número de classes.

OBS: No caso da variância populacional, o denominador é N, e não simplesmente N – 1. Usa-


se n – 1, no estimador da variância populacional, como fator de correção de modo a torná-lo não
viesado.

30
A unidade da variância é igual ao quadrado da unidade dos dados originais. Por isso, não tem
significado físico, todavia, é extremamente útil como medida de variabilidade, sendo igual a zero
quando todas as mensurações são iguais entre si e crescendo à medida que se aumentam as
diferenças (dispersão) entre os elementos do conjunto mensurado.
As propriedades da variância são:
a) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não se
alterará.
b) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância
ficará multiplicada ou dividida pelo quadrado dessa constante.

 Desvio padrão
Os desvio padrão é obtido pela extração da raiz quadrada da variância, tendo como vantagem
o fato de ser expresso na mesma unidade do conjunto de dados. Facilitando assim a leitura e análise
da dispersão.

σˆ = σˆ 2

No exemplo dos coelhos (página 9) temos:


2
n Xi Xi
1 2,47 6,1009
2 2,49 6,2001
3 2,56 6,5536
4 2,56 6,5536
5 2,59 6,7081
6 2,61 6,8121
7 2,62 6,8644
8 2,62 6,8644
9 2,62 6,8644
10 2,70 7,2900
Σ 25,842 66,8116

1  (25,842) 
2
σˆ 2 = 66,8116 −  = 0,003412kg
2

10 − 1  10 

σˆ = 0,003412 = 0,058481kg

Para os dados agrupados em distribuição de freqüência temos:

Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.

31
Classes (kg) Fi Xi X2 Fi × X i Fi × X i2
i

2,413 ├ 2,528 2 2,471 6,1058 4,942 12,2116

2,528 ├ 2,643 7 2,586 6,7864 18,102 46,8118

2,643 ├ 2,758 1 2,701 7,2974 2,701 7,2974

∑ 10 - - 25,745 66,3188

1  ( 25,745) 
2
σˆ 2 = 66,3188 −  = 0,004261kg
2

10 − 1  10 

σˆ = 0,003412 = 0,065279 kg

A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a


variabilidade de amostras de médias diferentes e unidades de medidas ou grandezas diferentes, não
podem ser comparadas diretamente pela variância ou desvio padrão obtidas. Para temos uma melhor
visão deste fato os três conjuntos a seguir são ilustrados:

A = {1, 2, 3}; B={101, 102, 103}; C={1001, 1002, 1003}


σˆ A = 1, σˆ B = 1 e σˆ C =1

As propriedades do desvio padrão são:


a) Somando ou subtraindo uma constante k aos dados o desvio padrão não se altera.
b) Multiplicando-se todos os dados por uma constante k o desvio padrão ficará multiplicado
por essa constante.

OBS: Quando o desvio padrão é pequeno, próximo de zero, existirá grande concentração dos dados
em torno da média. Por outro lado, se o desvio padrão for grande os valores não se concentrarão
com tal intensidade em torno da média.

 Coeficiente de variação
O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas
são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados.
Conjuntos de dados com diferentes unidades de medida não podem ter suas dispersões comparadas
pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem
medidas de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas

32
medidas de dispersão apresentadas. Fica evidente que um estimador que não seja dependente desses
fatores se faz necessário. Essa avaliação da variabilidade é conhecida por medida da variabilidade
relativa da amostra ou população, sendo usado para este fim o coeficiente de variação (CV).
O estimador do coeficiente de variação populacional é dado por:
σˆ
CV = × 100
X

No exemplo: A = {1, 2, 3}; B={101, 102, 103}; C={1001, 1002, 1003}, tem-se:
1
CVA = × 100 = 50%
2
1
CVB = × 100 = 1%
102
1
CVC = × 100 = 0,1%
1002
Portanto o conjunto A apresenta maior variabilidade em relação aos demais.

OBS: O coeficiente de variação é a expressão do desvio padrão como porcentagem da media


do conjunto de dados. Tem a vantagem de ser uma medida adimensional, ou seja, não possui
unidade de medida.

 Erro padrão da média


Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são
retiradas de uma população e que em cada amostra seja estimada a média. Se for computado o
desvio padrão da população formada por todas as estimativas de médias obtidas, o valor encontrado
é conhecido como erro padrão da média.

amostras (n)

n
n
Amostra 1 → X1
n
n n
Amostra 2 → X2
n …
Amostra m → Xm

σX
O erro padrão da média ( σ X ) é dado pela razão entre o desvio padrão populacional e a raiz
do tamanho amostral.

33
σ
σX =
n
O estimador desse parâmetro é aprestado abaixo. As razões do estimador são: não se
conhece, em geral, o desvio padrão populacional; na maioria das situações reais não é possível
retirar todas as amostras de uma população e, em geral, apenas uma amostra é extraída da
população.
σˆ
σˆ X =
n
O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média
da população. Quanto menor for seu valor, mais provável será a chance de obter a média da amostra
nas proximidades da média da população, e quanto maior o seu valor, menos provável se torna esse
evento.

4. 4. Estatísticas descritivas de distribuição


A forma de distribuição dos dados é extremamente importante na estatística. Os estatísticos
constroem modelos para dados, e esses servirão de base para a inferência. A construção desses
modelos envolve componentes de natureza aleatória. Esses componentes dos modelos estatísticos se
comportam e são descritos por meio de modelos denominados probabilísticos. Esses, por sua vez,
possuem diferentes formas, tornando essencial para os estatísticos e investigadores determinarem a
forma da distribuição dos dados amostrais, para realizarem escolhas acertadas do modelo
probabilístico ou daquele modelo que mais e aproxima da realidade.
As medidas de posição e distribuição oferecem importantes informações de locação e de
variabilidade da distribuição de referência, mas existem outros procedimentos que fornecem
informações da distribuição dos dados amostrais, tais como os coeficientes de assimetria e curtose.

 Medida ou coeficiente de assimetria


O coeficiente de assimetria mede a simetria ou assimetria de uma distribuição, ou seja, a
distribuição dos valores em torno do seu centro.
Uma distribuição de valores somente poderá ser representada por uma curva (gráfico). Essa
curva, conforme a distribuição pode apresentar várias formas. Se considerarmos o valor da moda da
distribuição como ponto de referência, vemos que esse ponto sempre corresponde ao valor da
ordenada máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada,
logo a curva será analisada quanto à sua simetria:

34
* Distribuição simétrica: X = mo = md

* Distribuição assimétrica: mo < md < X ou X < md < mo

Podemos medir a assimetria de uma distribuição de diferentes formas: cálculo da assimetria


pelo método dos momentos centrado na média e

a) Cálculo da assimetria pelo MÉTODO DOS MOMENTOS centrado na média


Antes de iniciar a explicação sobre como obter o coeficiente de assimetria vamos discutir em
que consiste o método dos momentos centrado na média.

Método dos momentos centrado na média


Os momentos populacionais centrados na média (µr) são definidos pela seguinte expressão:
N

∑(X i − X )r
mr = i =1

N
O coeficiente r da expressão é a ordem do momento. Assim, para r = 1 tem-se o momento de
primeira ordem, o qual sempre será igual a zero; para r = 2 o momento de ordem 2, que é a
variância da população; para r = 3 o momento de assimetria de ordem 3; para r = 4 o momento
de curtose de ordem 4; e assim por diante. Ë importante salientar que essa definição refere-se à
população finita.
Os estimadores amostrais para o momento centrado de ordem r (mr) são apresentados na
seguinte expressão:

35
n

∑(X i − X )r
mr = i =1

Assim, o coeficiente de assimetria populacional ( β1 ) é uma forma padronizada do

estimador do momento de assimetria (r = 3). Seu estimador b1 é dado pela razão do momento
amostral de ordem 3 pelo momento amostral de ordem 2, ou seja:
( m3 ) 2 m3
b1 = 3
= 3
(m2 ) (m2 ) 2

Que corresponde à:
n

∑(X
i =1
i − X )3

b1 = n
3
 n
2 
2

∑(X i − X ) 
 i =1 
 n 
 

- Se β 1 > 0 ⇒ a distribuição será Assimétrica Positiva;

- Se β 1 = 0 ⇒ a distribuição será Simétrica;

- Se β 1 < 0 ⇒ a distribuição será Assimétrica Negativa.

b) Cálculo da assimetria em relação à mediana e à moda


Empiricamente, Pearson inferiu que para distribuições unimodais moderadamente
assimétricas, a distância entre a média e a moda é cerca de três vezes a distância entre a média e a
mediana. Essa identidade, expressa em números de desvios-padrão (para produzir coeficientes
puros ou absolutos), define os coeficientes de assimetria de Pearson (As) em relação à moda e à
mediana:
X − Mo 3( X − M d )
As = e As =
σˆ σˆ

- Se As > 0 ⇒ a distribuição será Assimétrica Positiva;


- Se As = 0 ⇒ a distribuição será Simétrica;

36
- Se As < 0 ⇒ a distribuição será Assimétrica Negativa.

OBS.: Quando não se dispõe da Moda e nem Mediana, pode-se calcular o coeficiente de
n n
Xi − X 2
assimetria pela seguinte expressão: As = ∑
(n − 1)(n − 2) i =1
(
σˆ
)

Nota: a distribuição simétrica ou em forma de sino está relacionada com a forma mais
notável do modelo probabilístico. Esse modelo é denominado de distribuição de
probabilidade normal. Os métodos estatísticos que são baseados nesse tipo de modelo
probabilístico apresentam facilidade de serem manuseados e implementados em situações reais.

 Medida ou coeficiente de curtose


O grau de achatamento de uma distribuição é chamado de curtose.
A medida de curtose ou achatamento nos mostra até que ponto a curva representativa e uma
distribuição é mais aguda ou mais achatada que uma curva de distribuição normal, de altura média,
utilizada como referência.
- Curva Mesocúrtica (Distribuição Normal): É considerada a curva padrão.
- Curva Leptocúrtica: É uma curva que apresenta o topo relativamente alto, ou seja, os
valores se acham mais agrupados em torno da moda. Ou ainda, apresenta uma concentração de
valores (mensurações) próxima ao valor central maior que a da distribuição normal.
- Curva Platicúrtica: É uma curva mais baixa que a normal. Apresenta o topo achatado,
significando que várias classes apresentam freqüências quase iguais.

A expressão do coeficiente de curtose (b2) também é determinada pelo MÉTODO DOS


MOMENTOS centrado na média da seguinte forma:
m4
b2 =
(m 2 ) 2

Que corresponde à:

37
n

∑(X
i =1
i − X )4

b2 = n
2
 n
2 
∑(X i − X ) 
 i =1 
 n 
 

- Se b2 > 3 ⇒ a distribuição será Leptocúrtica;


- Se b2 = 3 ⇒ a distribuição será Mesocúrtica;
- Se b2 < 3 ⇒ a distribuiçãos será Platicúrtica.

OBS.: De outra forma o coeficiente de curtose (C) pode ser definido por:
 n(n + 1) n
X − X 4 3(n − 1) 2
C= ∑ ( i
σˆ
) −
 (n − 1)(n − 2)(n − 3) i=1  (n − 2)(n − 3)

- Se C > 0,263 ou ∼ 3 ⇒ a distribuição será Leptocúrtica;


- Se C = 0,263 ou ∼ 3 ⇒ a distribuição será Mesocúrtica;
- Se C< 0,263 ou ∼ 3 ⇒ a distribuiçãos será Platicúrtica.

7. LITERATURA CONSULTADA
ARA, A. B.; MUSETTI, A. V.; SHNEIDERMAN, B. Introdução à estatística. São Paulo: Egard
Blucher: Instituto Mauá de Tecnologia, 2003.152p.
CARVALHO, S. Estatística básica. Rio de Janeiro: Campus/Elsevier, 2006. 464p.
FERREIRA, D. F. Estatística básica. Lavras: UFLA, 2005. 664p.
REGAZZI, A. Curso de iniciação à estatística (Apostila). Universidade Federal de Viçosa,
Viçosa – MG, 1997. 136p.
TRIOLA, M. F. Introdução à estatística. Rio de Janeiro: LTC, 2005. 656p.

Este conteúdo é resultado de pesquisas em vários livros e apostilas de estatística básica e aplicada,, portanto, ainda
deve ser revisado. Qualquer erro de digitação (ou outro qualquer), sugestões, críticas, etc., por favor, me comuniquem.
Obrigada.
Profa. Gisele

38
UNIVERSIDADE FEDERAL DO PIAUÍ
Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI
Lista de exercícios: Estatística descritiva ou Análise exploratória de dados

1. Cinqüenta amostras de arroz foram selecionadas e mediu-se a quantidade de selênio em cada uma
delas. Os resultados estão colocados abaixo.

Quantidades de selênio medidas em 50 amostras de arroz, em µg/g.


0,08 0,07 0,07 0,06 0,09 0,07 0,07 0,07 0,08 0,06
0,08 0,08 0,07 0,08 0,07 0,07 0,06 0,09 0,07 0,08
0,07 0,07 0,06 0,08 0,07 0,10 0,07 0,07 0,07 0,08
0,08 0,04 0,08 0,07 0,09 0,09 0,08 0,07 0,09 0,07
0,07 0,07 0,10 0,08 0,07 0,08 0,07 0,06 0,08 0,09

a) Como é classificada a variável QUANTIDADE DE SELÊNIO EM ARROZ, quanto ao tipo de


variável? Justifique.
b) Sabendo-se que os resultados foram apresentados na forma de dados brutos, apresente-os na
forma de dados elaborados.
c) Obter uma tabela de distribuição de freqüências pontual da quantidade de selênio em arroz.
Inclua as freqüências absolutas (Fi), freqüências relativas (Fri), freqüências percentuais (Fpi%),
freqüências acumuladas (Fci)e freqüências acumuladas percentuais (Fci%).
d) Construir um gráfico de colunas para os dados de freqüências percentuais.
e) Calcular a média aritmética simples e a média aritmética para dados agrupados e comparar os
resultados.
f) Calcular a média harmônica simples e para dados agrupados e comparar os resultados.
g) Calcular a mediana simples e para dados agrupados e comparar os resultados.
h) Calcular a moda simples, classificando-a.
i) Calcular a amplitude total de variação, o desvio médio, a variância, o desvio padrão, o coeficiente
de variação e o erro padrão da média de selênio em arroz.

2. Complete os dados que faltam na seguinte distribuição.


Classes Fi Fri Fci
1 4 0,08
2 4
3 0,16 16
4 7 0,14
5 5 28
6 38
7 7 0,14 45
8

3. Em um experimento, um pesquisador calculou a altura média dos animais que sofriam de uma
doença específica. O valor obtido foi igual a 156 cm e o desvio-padrão foi de 5 cm. Investigações
posteriores, entretanto, revelaram que todas as medidas feitas estavam 2 cm maiores que os valores
verdadeiros. Nessa situação, é correto afirmar que os valores corretos para a média e o desvio-
padrão são 1,58 m e 0,05 m, respectivamente? Justifique.

4. Em um experimento o número de carrapatos, observados em cada um dos animais de um grupo,


foram os seguintes: 19, 7, 4, 9, 7, 17, 13, 10, 17, 15, 11, 15, 15, 20, 19. Após terem sido calculadas
a média aritmética, a mediana e a moda, um erro foi descoberto: um dos animais com 15 carrapatos
tinha, na realidade, 17. É correto afirmar que nessa situação apenas a média aritmética se altera após
a correção dos dados? Justifique.

39
Calcular também a amplitude, desvio médio, variância, desvio padrão, coeficiente de variação e
erro padrão da média do número de carrapatos após a correção.

5. A tabela abaixo ilustra a classificação por peso, em gramas, de uma amostra com 35 peixes.
Considerando essas informações, é correto é afirmar que:
a) Deve-se associar à quarta classe da tabela o valor de 0,015 kg? Justifique.
b) A média aritmética dos valores agrupados é igual a 15,50 g? Justifique.
c) Obtenha o histograma e o polígono de freqüência.

Classe (g) Freqüência


0 –| 5 8
5 –| 10 2
10 –| 15 6
15 –| 20 8
20 –| 25 5
25 –| 30 5
30 –| 35 0
35 –| 40 1

6. Os dados a seguir, referem-se à altura, em metros, de Pinnus elliottii var. elliottii, com 10 anos
de idade, no espaçamento de 2,0 x 2,5m (Barbin, 2003).

8,46 7,50 8,84 10,85 8,97


7,28 9,00 8,77 9,08 11,73
13,60 9,06 9,21 10,09 10,23
10,38 11,00 8,03 10,83 6,45
10,27 8,00 5,20 10,94 7,76
12,37 10,17 9,58 6,68 12,39
9,89 9,60 5,90 9,13 8,01
9,92 9,15 12,06 11,63 8,22
11,65 6,30 10,08 8,73 7,02
10,72 10,97 7,53 10,46 8,89

a) Calcular a média aritmética, a mediana, a variância, o desvio padrão, o erro padrão da média
e o coeficiente de variação.
b) Calcular os desvios em torno da média e coloca-los em um gráfico.
c) Eliminar os dados 5,20 e 5,90 e repetir os cálculos dos itens a e b.
d) Discutir os resultados obtidos nos itens b e c.

7. Considere a produção média (toneladas) por hectare de uma espécie vegetal após a utilização de
adubos fosfatados e nitrogenados. Cinco doses de fósforo (i = 1, 2, 3, 4 e 5) e quatro doses de
nitrogênio (j = 1, 2, 3 e 4) foram aplicadas.

Teor de nitrogênio (j)


Teor de fósforo (i)
1 2 3 4
1 4,6 5,0 5,5 5,8
2 5,0 5,5 6,1 5,5
3 5,2 5,8 6,4 5,5
4 6,0 6,2 6,8 6,0
5 5,0 5,8 6,0 5,8

40
a) Como são classificadas as variáveis DOSES DE N e DOSES DE P, quanto ao tipo de
variável?
b) A tabela acima apresenta os dados brutos ou elaborados? Justifique.
c) Qual (is) tipo (s) de série estatística a tabela acima apresenta?
d) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a
utilização de CADA dose de fósforo.
e) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a
utilização de CADA dose de nitrogênio.
f) Calcule a média aritmética geral do experimento.
g) Calcule a mediana da produtividade após a utilização de CADA dose de fósforo.
h) Calcule a mediana da produtividade após a utilização de CADA dose de nitrogênio.
i) Calcule a mediana geral do experimento.
j) Calcule a moda da produtividade após a utilização de CADA dose de fósforo.
k) Calcule a moda da produtividade após a utilização de CADA dose de nitrogênio.
l) Calcule a moda geral do experimento.
m) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de
fósforo.
n) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de
nitrogênio.
o) Obtenha o erro padrão da média da produtividade após a utilização de CADA dose de
fósforo e de CADA dose de nitrogênio. Descreva como você diferencia o que mede o desvio
padrão e o que mede o erro padrão da média.
p) Supondo que, em investigações posteriores, o pesquisador constatou que copiou um número
errado, que na verdade X23 = 7,0. Após a correção, quais as novas estimativas de média
aritmética, mediana e moda após a utilização da dose 2 de P? E após a utilização da dose 3
de N?
q) Considerando o que foi exposto na letra p, após a correção, quais as novas estimativas de
amplitude total, desvio médio, variância e desvio padrão após a utilização da dose 2 de P? E
após a dose 3 de N? Houve similaridade nos resultados dessas estimativas antes da
correção?
r) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada
dose de fósforo. Par qual dose houve maior cuidado do pesquisador quanto à precisão
experimental, ou seja, maior uniformidade? Justifique.
s) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada
dose de nitrogênio. Par qual dose houve maior cuidado do pesquisador quanto à precisão
experimental, ou seja, maior uniformidade? Justifique.

8. Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na
tabela abaixo:

Peso (g) Xi Fi
960  980 970 60
980  1000 990 160
1000  1020 1010 280
1020  1040 1030 260
1040  1060 1050 160
1060  1080 1070 80

a) Qual a média da distribuição?


b) Qual a variância da distribuição?

41
c) Construa o histograma e o polígono de freqüências. Determinar a natureza da distribuição
quanto à simetria.
d) Obter a mediana e a moda. Compare a estimativa da moda com a classificação da moda
visualizada no histograma e polígono de freqüências obtido anteriormente. Há coerência
entre os resultados?
e) Obter a amplitude total, a variância, o desvio padrão, o desvio médio, o coeficiente de
variação e o erro padrão da média para a mensuração.
f) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões
abaixo da média para receberem ração reforçada, e também separar os animais como peso
superior a um desvio e meio padrão acima da média para usá-los como reprodutores. Qual a
percentagem de animas que serão separados em cada caso?

9. Considere as duas amostras dadas abaixo:


Amostra A: 10, 9, 8, 7, 6, 10 e 6.
Amostra B: 10, 6, 10, 6, 8, 10, 8 e 6.

a) Calcule a amplitude para ambas as amostras. Você concluiria que ambas as amostras exibem
a mesma variabilidade?
b) Calcule o desvio-padrão de ambas as amostras. Essas quantidades indicam que ambas as
amostras têm a mesma variabilidade?
c) Escreva um curto texto contrastando a amplitude da amostra com o desvio-padrão da
amostra, como medida de variabilidade.

42

Das könnte Ihnen auch gefallen