Beruflich Dokumente
Kultur Dokumente
ESTATÍSTICA
III - ESTATÍSICA DESCRITIVA OU ANÁLISE EXPLORATÓRIA DOS DADOS
1. INTRODUÇÃO
A estatística descritiva é a parte da estatística que lida com a organização, resumo (ou
descrição) e apresentação de um conjunto de dados, podendo-se utilizar em tais análises dados
provenientes de uma população finita ou de uma amostra aleatória. Em outras palavras,
Dado um conjunto de elementos, podemos em relação a certo fenômeno estudar todos os
seus elementos, classificando-os, fornecendo números indicativos que sumarizem certas
características dos dados. São números sumarizados, que fornecem descrições de todo o conjunto
sem a apresentação total dos elementos, ou mesmo medidas e relações do conjunto, não
perceptíveis, com a pura apresentação do rol de dados. Daí a associação do termo estatística
descritiva com o termo análise exploratória dos dados, ou seja, devido à caracterização e
apresentação dos dados de forma resumida e elucidativa, visando, dentre outros objetivos, à
detecção de padrões de interesse nos dados e a sua representação.
A forma de tratar as variáveis na estatística descritiva depende da natureza (ou tipo) dessa
variável: qualitativa (nominal ou ordinal) ou quantitativa (nominal ou ordinal).
Quando se pretende empreender um estudo estatístico completo, existem diversas fases do
trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Essas etapas
ou operações são chamadas fases do trabalho ou método estatístico. Essas fases incluem os aspectos
da estatística descritiva, em que serão abordados os seguintes:
* Coleta ou levantamento dos dados;
* Organização dos dados;
* Representação e apresentação dos dados
1
A escolha da fonte de obtenção dos dados está diretamente relacionada ao tipo do problema,
objetivos do trabalho, escala de atuação e disponibilidade de tempo e recursos.
A forma como os dados serão coletados, e os procedimentos para organizá-los depende da
natureza da variável, ou seja, se qualitativa nominal ou ordinal, ou se quantitativa discreta ou
contínua.
Tabela 1. Dados brutos obtidos de uma amostra de 14 plantas da geração F2 do cruzamento de uma
planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e
rugosas (VR).
AL AL VL AL AR VL VR AL VL AL AL AR AR AL
AL AL AL AL AL AL AL AR AR AR VL VL VL VR
2
Exemplo 2. Variável quantitativa contínua:
Tabela 3. Dados brutos referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa
Gertrudis.
175,34 217,23
129,98 211,07
109,94 196,43
177,75 180,12
Tabela 4. Dados elaborados referentes ao peso de abate aos 33 meses de oito novilhos da raça Santa
Gertrudis.
109,94 180,12
129,98 196,43
175,34 211,07
177,75 217,23
Nota-se que nas Tabelas 1 e 3 os dados estão numa forma sem nenhum arranjo sistemático.
Na Tabela 2 os dados estão organizados em categorias de acordo com a cor da semente, enquanto
na Tabela 4 os dados estão organizados em ordem crescente de peso de abate. Portanto, o tipo de
arranjo sistemático a ser utilizado depende do tipo de variável em estudo.
Mais uma vez, vale lembrar que a forma de apresentar os dados depende do tipo de variável.
3
4. 1. Tabular e Gráfica
Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem
assumir para que se tenha uma visão global dessa ou dessas variáveis. Isso é possível apresentando
esses valores em tabelas e gráficos, que irão fornecer informações rápidas e seguras a respeito das
variáveis em estudo, permitindo determinações mais coerentes.
4. 1. 1. TABELA
Consiste em dispor os dados em linhas e colunas distribuídos de modo ordenado, segundo
algumas regras. As tabelas têm a vantagem de conseguir expor, sistematicamente em um só local,
os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo
que se pretende analisar.
As características de uma tabela são:
Série temporal, histórica ou cronológica: é a série cujos dados variam com o tempo.
Exemplo:
4
Tabela 5. Peso de abate de suínos criados no setor de suinocultura do Departamento de Zootecnia
da UFPI, no período de 2003 - 2006. (dados hipotéticos).
Ano Peso (kg)
2003 27,60
2004 29,50
2005 30,00
2006 30,00
Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos
(n = 30) criados no setor de suinocultura, do Departamento de Zootecnia, da
Universidade Federal de Lavras. (RUAS et al. Pesquisa Agropecuária Brasileira, v. 7, n.
3, p. 227-230, 2001)
Variável Total
Peso de abate (kg) 30,70
Peso de carcaça (kg) 20,50
Peso de órgãos (kg) 8,10
Peso de corpo vazio (kg) 28,60
2
Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés,
cauda e sangue. 4Equivalente aos pesos: da carcaça, órgãos viscerais, cabeça, pés,
cauda e sangue.
Série mista: as combinações entre séries estatísticas constituem novas séries que são
denominadas séries compostas ou mistas e são apresentadas em tabelas de dupla entrada.
Exemplo:
5
Tabela 7. Peso de abate e peso das frações corporais, carcaça, órgãos e corpo vazio de suínos
(n = 30) criados no setor de suinocultura setor de suinocultura, do Departamento de
Zootecnia, da UFPI, UFLA, UFV e UFES. (dados hipotéticos)
Variável UFPI UFLA UFV UFES
Peso de abate (kg) 33,30 30,70 30,00 30,60
Peso de carcaça (kg)1 19,00 20,50 20,20 21,09
Peso de órgãos (kg)2 7,98 8,10 8,00 9,44
Peso de corpo vazio (kg)3 26,98 28,60 28,20 30,53
2
Peso da carcaça sem cabeça, pés e cauda. 3Peso dos órgãos viscerais, cabeça, pés, cauda e sangue. 4Equivalente
aos pesos: da carcaça, órgãos viscerais, cabeça, pés, cauda e sangue.
4. 1. 2. DISTRIBUIÇÃO DE FREQUÊNCIAS
Freqüentemente, o estudo de um determinado fenômeno requer a coleta de uma grande
massa de dados numéricos, difícil de ser tratada se esses dados não forem organizados e
condensados em uma tabela. Acontece normalmente que, ao coletar os dados referentes ao
fenômeno objeto de estudo, o analista se defronta com valores que se repetem algumas vezes. Por
isso é necessário apresentar os dados em tabelas de distribuição de freqüências. Utilizando
distribuições de freqüências grandes conjuntos de dados podem ser resumidos, compreensão sobre a
natureza dos dados pode ser obtida e gráficos importantes podem ser construídos com base nas
distribuições.
Define-se a freqüência de um dado valor de uma variável (qualitativa ou quantitativa) como o
número de vezes que esse valor foi observado.
A apresentação dos dados em uma tabela de distribuição de freqüências constitui um tipo de
série estatística, chamada heterógrada, em que existe uma subdivisão ou gradação dos dados.
Quando não é feita essa subdivisão ou gradação a série estatística é chamada de homógrada.
Uma tabela de freqüências pode ser de dois tipos: PONTUAL (ou discreta) e INTERVALAR.
Qual tipo utilizar vai depender do tipo de variável em estudo. Se a variável for qualitativa (nominal
ou ordinal) ou ainda quantitativa discreta, pode-se obter uma tabela de distribuição pontual sem
muitos problemas, em que se faz correspondência dos valores da variável com sua respectiva
freqüência.
Se a variável em estudo for quantitativa contínua, não é possível efetuar o mesmo tipo de
tratamento dispensado aos dados qualitativos e quantitativos discretos. Para resolver o problema de
apresentar a distribuição de dados quantitativos contínuos de forma resumida e manter o máximo da
informação contida nela, faz-se uso da distribuição de freqüências intervalar. Neste caso,
inicialmente agrupam-se os valores da variável em intervalos de classes e faz-se a correspondência
dessas classes com suas respectivas freqüências.
6
Vale ressaltar que se a variável for quantitativa discreta e o número de valores observados for
muito grande recomenda-se agrupar os dados em classes intervalares, evitando-se, com isso, grande
extensão da tabela e a não interpretação dos valores de fenômeno.
0 0 0 0 1
1 1 1 1 1
1 2 2 2 2
2 3 3 4 5
Além da freqüência absoluta (Fi), existem freqüências que são discutidos numa tabela de
distribuição de freqüências:
7
• Freqüência relativa (Fri), a qual é dada pela razão entre a freqüência do i-ésimo valor
observado, Fi, e o total de dados observados, n = ∑ Fi .
A representação gráfica de uma tabela de distribuição de freqüências pontual pode ser por
meio dos vários tipos de gráficos, os quais serão discutidos no item 4.1.3.
8
Em seguida, deve-se determinar o número de classes, o comprimento de cada classe
(amplitude de classe) e o limite inferior da primeira classe.
a) Determinação do número de classes:
Este é o principal fator que deve ser observado quando se faz uso da tabela de distribuição
intervalar para representar os dados. O numero de classes deve ser ideal, pois se esse número for
escasso, os dados originais ficarão tão condensados que pouca informação se poderá extrair da
tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüência nula ou
muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do
fenômeno como um todo. |
Diferentes critérios podem se utilizados para definir o número de classes numa distribuição de
freqüências intervalar:
- Critério empírico em função do tamanho amostral (n),
- Critério proposto por Scott (1979),
- Fórmula de Sturges.
O critério proposto por Scott (1979) é para dados provenientes de uma amostragem de uma
distribuição de probabilidade denominada distribuição normal de probabilidade (a qual será vista
em outra parte da matéria). Embora esse critério tenha sido proposto e desenvolvido para essa
condição, ele tem bom desempenho em situações de distribuições não-simétricas ou distribuições
que tenham um maior ou menor grau de achatamento que a normal. O critério de Scott é dado pela
expressão:
A.3 n
k =1+
3,49σˆ
Em que:
k = número de classes; A = amplitude total; n = tamanho da amostra e σˆ = desvio padrão amostral.
OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.
OBS.: O valor de k deve ser o valor inteiro mais próximo ao valor encontrado.
9
Considerando-se os dados Ex 2, e utilizando o critério empírico em função do tamanho
amostral para determinar o numero de classes, tem-se que:
n = 10, logo k = n → k = 10 ~
=3
10
Para o Ex 2, o limite inferior da primeira classe é:
c 0,115
LI 1a = X 1 − = 2,47 − = 2,413
2 2
O ponto médio da classe i ( X i ) é calculado pela média dos limites de classe. Para
determinados cálculos estatísticos, todos os pontos de uma classe podem ser representados pelo
ponto médio da classe.
LS + LI
Xi =
2
Portanto, para o Ex 2, a tabela de distribuição de freqüências intervalar é:
Tabela 10. Distribuição de freqüência para o peso dos 10 coelhos abatidos aos 90 dias.
4. 1. 3. GRÁFICO
É um complemento importante da apresentação tabular. A vantagem de um gráfico sobre a
tabela está em possibilitar uma rápida impressão visual da distribuição dos valores ou das
freqüências observadas. Os gráficos propiciam uma idéia inicial mais satisfatória da concentração e
11
dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de
grandezas visualmente interpretáveis.
Gráficos de análise
Estes gráficos fornecem informações importantes na fase de análise dos dados, sendo também
informativos. Esses gráficos, geralmente, vêm acompanhados de uma tabela e um texto onde se
destaca os pontos principais revelados pelo gráfico ou pela tabela.
12
Ex:
Figura 1. Presença de Sarcocystis spp. em diferentes músculos de bovinos (305), da região sul do
Rio Grande do Sul; análises realizadas pela técnica de exame a fresco. . (RUAS, J. L. et
al. Pesquisa Agropecuária Brasileira, v. 7, n. 3, p. 227-230, 2001)
Gráfico de barras
As alturas dos retângulos são iguais e arbitrárias e os comprimentos são proporcionais aos
respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espaço de forma que
as inscrições identifiquem as diferentes barras. O espaço entre as barras pode ser a metade (½) ou
dois terços (2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma
13
decrescente para facilitar a comparação dos valores. A categoria “outros” (quando existir) é
representada na barra inferior, mesmo que o seu comprimento exceda o de alguma outra.
Ex:
14
Gráfico de linhas
São adequados para dados ordenados ao longo do tempo (séries temporais), principalmente
quando a série cobrir um grande número de períodos.
Ex:
Figura 6. Comportamento da variável acidez em ácido lático (%) nos diversos tratamentos (P, PC,
PB e PA) durante a maturação de salame tipo italiano, UFSC, 1992. (OGLIARI, P. J. &
ANDRADE, D. F. Estatística básica para as ciências agronômicas e biológicas - com
noções de experimentação. Florianópolis – SC, 2005, 357p.)
Gráfico de setores
15
É a representação gráfica de uma série estatística em um círculo de raio qualquer, por meio
de setores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende
comparar cada valor da série com o total. O total da série corresponde a 360° (total de graus de um
arco de circunferência). Os gráficos em setores representam valores absolutos ou porcentagens
complementares. As séries geográficas, específicas e as categorias em nível nominal são mais
representadas em gráficos de setores, desde que não apresentem muitas parcelas.
Ex:
Figura 7. Distribuição das proporções (%) da resistência à ferrugem, para o tipo de grão dentado,
para a região preferencial I, 1987/1988. (OGLIARI, P. J. & ANDRADE, D. F.
Estatística básica para as ciências agronômicas e biológicas - com noções de
experimentação. Florianópolis – SC, 2005, 357p.)
16
- informar rápida e concisamente a variabilidade da distribuição de uma freqüência variável;
- permitir melhor visualização dos dados.
Cabe ressaltar que, para utilizar o histograma deve-se dispor de grande quantidade de dados,
pelo menos um número total de observações maior que 30.
O contorno externo de um histograma, isto é, a linha mais forte da figura seguinte, chama-se
Poligonal Característica do conjunto de dados obtidos num processo, fornecendo idéia da variação
do processo analisado. A área sob a poligonal característica corresponde à freqüência total, uma vez
que se compõe de retângulos cujas áreas equivalem às freqüências de cada classe.
O polígono de freqüências é uma linha poligonal que liga os pontos médios das classes
ordenadas correspondentes às suas freqüências (ou densidades se c não é constante).
Nota-se que o polígono de freqüência é fechado, tomando-se uma classe anterior à primeira
e uma classe posterior à última, já que ambas possuem freqüência zero.
A seguir encontram-se as instruções para a construção do histograma e do polígono de
freqüências:
1) Construir uma tabela de distribuição de freqüências. Para a construção do histograma,
bastam as informações do número das classes, intervalos de classe e freqüências absolutas.
2) Calcular os pontos médios referentes a cada classe, os quais devem constar na tabela de
distribuição de freqüências.
3) Traçar um gráfico com dois eixos: um horizontal e um vertical. Colocar no eixo horizontal
(eixo X) as bases dos retângulos que correspondem aos intervalos de classe. A descrição das
17
classes deve ser colocada neste eixo, e corresponder ao valor do ponto central de cada classe
(no centro da base de cada retângulo) ou dos próprios limites dos intervalos (em cada lado
do retângulo).
4) Estabelecer a medida de freqüência que será utilizada no histograma. Como se sabe, as áreas
dos retângulos têm que ser proporcionais às freqüências das classes, ou coincidir com suas
freqüências relativas, logo:
* Se todos os intervalos de freqüência tiverem a mesma amplitude, as alturas dos retângulos são
proporcionais às freqüências das classes, e podem ser consideradas as próprias freqüências
simples ou absolutas, como sendo os valores das alturas, sem nenhuma perda de informação.
* Se os intervalos de classes não tiverem a mesma amplitude, deverão se considerar as
densidades de freqüências como sendo os valores das alturas dos retângulos. Estas densidades
podem ser obtidas tomando-se as freqüências absolutas de cada classe e dividindo-a pela
respectiva amplitude de classe.
5) Colocar no eixo da vertical (eixo Y) a escala correspondente às freqüências ou densidades
de freqüências, abrangendo a menor e a maior freqüência ou densidade de freqüências
obtidas. Construir os retângulos, traçando linhas perpendiculares às classes (bases), eixo X,
até atingir as respectivas freqüências ou densidades de freqüências, eixo Y.
6) Determinar a curva Polígono de Freqüência, marcando e ligando os pontos médios
correspondentes a cada intervalo de classe.
7) Colocar o título no gráfico, contendo as informações necessárias, tais como, o estudo sob
avaliação e a unidade medida.
8) Verificar a estrutura dos dados quanto à condição de simetria.
18
Figura 8 – Histograma e polígono de freqüências do peso dos 10 coelhos (em gramas) abatidos aos
90 dias.
4.2.1. Média
Existem vários tipos de médias, cada uma delas apresentando vantagens e desvantagens.
Média aritmética
É a medida de posição mais comum, intensa e extensivamente utilizada. Quando se tratar de
dados isolados, a média aritmética é a soma das observações (X1, X2, ..., Xn) dividida pelo número
delas (n = número de observações na amostra), ou seja:
n
∑X i
X 1 + X 2 + X 3 + ... + X n
X= i =1
=
n n
19
Este é o mais eficiente, não viesado e consistente estimador da média populacional µ.
Ex: Determinar a média aritmética simples do seguinte conjunto de valores: 7, 9, 10, 14, 15 e 17.
n
∑X i
7 + 9 + 10 + 14 + 15 + 17
X= i =1
= = 12
n 6
∑X F i i
7 + 9 + 10 + 14 + 15 + 17
X= i =1
= = 12
n
6
∑F
i =1
i
OBS: Utiliza-se este mesmo estimador para dados com pesos diferentes, bastando apenas que
troque as freqüências pelos pesos.
Ex: Num aprova para Auditor fiscal, temos que a prova P.1 (conhecimentos gerais) tem peso 1 e as
provas P.2 (conhecimentos específicos) e P.3 (conhecimentos especializados por área) têm peso 3,
cada. Considerando que um candidato tenha acertado: 55% da prova P.1; 75% da prova P.2 e 80%
da prova P.3, calcular a média aritmética.
Pela média aritmética simples teríamos: (50 + 75 + 80)/3 = 70% de acertos em média.
Usando a média aritmética ponderada, tem-se:
(50.1) + (75.2) + (80.2)
X= = 73%
1+ 2 + 2
Nota-se que, no exemplo, a média aritmética ponderada foi maior que a média aritmética
simples, porque houve um maior percentual de acertos nas matérias de maior peso. Caso contrário,
a média aritmética ponderada seria menor que a média aritmética simples. Conclui-se, então, que a
média aritmética ponderada é diretamente influenciada pelos pesos.
∑F X i i
X= i =1
k
∑F i =1
i
20
Em que, X i é o ponto médio do intervalo de classe e k = número de classes.
OBS: Sempre que estiverem disponíveis todos os dados, é preferível calcular a média
aritmética simples à média aritmética para dados agrupados em intervalos de classe, pois
geralmente a segunda perde em precisão por fazer uso apenas dos pontos médios das classes. Em
muitos casos, essa perda de precisão é mínima, podendo então utilizar o estimador da média para
dados agrupados em classes intervalares. Essa diferença entre esses estimadores é chamada de
Hipótese Tabular Básica.
conjunto de n dados.
d) A soma dos quadrados dos desvios de um conjunto de dados em relação a qualquer número
K, é um mínimo quando K = X . Isto significa que a soma de quadrados (SQ) dos desvios
tomados em relação a um valor qualquer sempre excederá a SQ dos desvios tomados em
relação à média aritmética. Esta propriedade fornece um critério para obtenção de medidas
mais representativas de um conjunto de dados chamado de critério de mínimos quadrados.
Média geométrica
A aplicação da média geométrica deve ser feita quando os valores do conjunto de dados se
comportam segundo uma progressão geométrica (P. G.) ou dela se aproxima. É apropriada para
calcular médias de razões, de taxas de variações, de índices econômicos e de taxa de crescimento.
21
Para dados isolados a média geométrica é dada pela seguinte expressão:
n
X g = n X 1 X 2 .....X n = n ∏X
i =1
i Xi > 0, ∀ i=1, 2, ..., n
∑ Fi
n
∑ Fi n
X g = i =1 ∏X = Xi > 0, ∀ i=1, 2, ..., n
Fi
i
i =1
X 1F1 . X 2F2 .....X nFn
i =1
Média harmônica
É usada para dados inversamente proporcionais, em casos em que se deseja obter a medida de
posição que possui a maior estabilidade ou quando houver necessidade de um tratamento algébrico
ulterior. É aplicada para obter médias de razões.
A média harmônica de um conjunto n de valores observados X1, X2, ..., Xn é o resultado da
divisão da quantidade n de elementos do conjunto pelo somatório dos inversos dos valores
observados, ou seja:
n
Xh = Xi > 0, ∀ i=1, 2, ..., n
1
n
∑
i =1 X i
∑F i
F1 + F2 + ... + Fn
Xh = i =1
n
= Xi > 0, ∀ i=1, 2, ..., n
Fi F1 F2 F
∑
i =1 X i
+
X1 X 2
+ ... + n
Xn
∑F i
F1 + F2 + ... + Fn
Xh = i =1
K
= Xi > 0, ∀ i=1, 2, ..., k
Fi F1 F2 F
∑
i =1 X i
+
X1 X 2
+ ... + n
Xn
22
Relação entre as médias aritmética, geométrica e harmônica → a média geométrica de um
conjunto de números positivos X1, X2, ..., Xn é maior ou igual à média harmônica e menor
ou igual à média aritmética, ou seja: Xh ≤ Xg ≤ X .
4.2.2. Mediana
É uma medida típica de tendência central, sendo definida em um conjunto de dados ordenados
como o valor central, ou seja, o valor para o qual há tantas mensurações que o superem quanto são
superados por ele. A mediana é utilizada quando se deseja obter um ponto que divide a distribuição
em partes iguais ou quando há valores extremos que afetam de uma maneira acentuada a média.
X n +1 Se n for ÍMPAR
( )
2
md = X +X
n n+ 2
( ) ( )
2 2 Se n for PAR
2
Ex: No caso do peso dos coelhos (n =10) (Ex 2. pág. 9) a posição central esta entre o 5º e o 6º
elemento. Portanto, a mediana é a média aritmética destas duas posições.
md= (2,59+2,61)/2 = 2,60 kg
23
n
2 − Fci
md = Limd + × hmd
Fmd
Em que,
Fmd: freqüência absoluta da classe mediana;
hmd: amplitude da classe mediana;
Fci: freqüência acumulada das classes anteriores à classe mediana;
Limd: é o limite inferior a classe.
A classe mediana é a classe que contém a posição n/2 (posição mediana) da distribuição de
freqüência.
Considerando-se os dados ta Tabela 4 (página 12), tem-se:
2,413 ├ 2,528 2 2
2,528 ├ 2,643 7 9
2,643 ├ 2,758 1 10
∑ 10
24
Uma vantagem da mediana é que ela pode ser calculada para dados qualitativos ordinais. A
mediana ainda pode ser estimada em amostras em que alguns valores ainda não foram registrados.
Se, por exemplo, um investigador tem dados de tempos de vida de uma amostra de n = 18. Porém,
entre as dezoito árvores, existem duas delas cujos registros não forma feitos, por ainda estarem
vivas, os tempos de vida das mangueiras restantes são os dois maiores valores da amostra, pois ao
se iniciar a pesquisa tomou-se o cuidado de realizar o plantio na mesma data das dezoito árvores.
Dessa forma, não é preciso ter os dados das últimas unidades para calcular a mediana, que é obtida
pela média do 9o e 10o valor ordenado, o que não é possível para a média.
A mediana possui as seguintes propriedades e características:
a) A soma dos módulos dos desvios em relação a qualquer número K, é um mínimo quando
k = md.
n
D = ∑ ( X i − K ) , em que Xi é cada valor do conjunto de n dados.
i =1
4.2.3. Moda
A moda é o valor que mais aparece ou de maior freqüência simples (absoluta ou relativa)
numa distribuição de freqüências. Em outras palavras é aquele valor da variável em que há a mais
densa concentração de valores na sua proximidade. A moda amostral (mo) é o melhor estimador da
moda populacional µo.
Para dados qualitativos nominais ou ordinais e para dados quantitativos discretos a moda é
definida como sendo o valor de maior freqüência na amostra, enquanto que para dados quantitativos
contínuos a moda é o valor de maior densidade (ou freqüência, quando as classes tiverem a mesma
amplitude). Portanto, para estes dados, a moda é aquele valor da distribuição cuja freqüência é
máxima, ou ainda, o ponto de máximo do polígono de freqüências.
A moda pode não existir; existindo, pode não ser a única. Uma distribuição pode ser
AMODAL (não há moda, todos os valores observados aparecem o mesmo número de vezes),
UNIMODAL (há uma só moda), BIMODAL (há duas modas) ou MULTIMODAL (há mais de duas
modas).
25
Ex: Tabela de distribuição de freqüências pontual.
Notas de um aluno da disciplina de Biostatística da turma de Medicina Veterinária, 2007/I.
26
Ex: Tabela de distribuição de freqüências intervalar.
Distribuição de freqüência para o peso dos coelhos abatidos com 90 dias.
Classes (kg) Fi
2,413 ├ 2,528 2
2,643 ├ 2,758 1
∑ 10
7−2
mo = 2 ,528 + × 0 ,115 = 2 ,580kg
(7 − 2 ) + 7 − 1
A moda é normalmente é utilizada quando se deseja obter uma medida rápida e aproximada de
posição ou quando a medida de posição dever ser o valor mais típico da distribuição.
A moda apresenta como propriedade e característica o fato que somando-se, subtraindo-se,
multiplicando-se ou dividindo-se uma mesma quantidade a cada valor observado do conjunto n de
dados, a moda se alterará de tal forma ficando adicionada, subtraída, multiplicada ou dividida por
essa quantidade.
27
Nota 2 – Utilização da média, moda e mediana para diferentes tipos de variáveis:
A média só pode ser calculada para variáveis quantitativas. Para as variáveis
qualitativas nominais somente podemos trabalhar com a moda. Para as variáveis qualitativas
ordinais, além da moda, podemos trabalhar com a mediana.
28
Para exemplificar este fato, tem-se a seguir três amostras.
A = X n − X1
É uma medida simples e fácil de ser calculada, mas é uma pobre medida de dispersão, por não
considerar todas as mensurações, levando em conta apenas os valores extremos (máximo e
mínimo). Além disso, como é improvável que a amostra contenha os valores máximo e mínimo da
população, a amplitude geralmente subestima a amplitude populacional, sendo um estimador
viesado e ineficiente.
Ex: Litros de leite/vaca/dia (Y)
Y = 10,5; 10,2; 11,5; 11,9; 12,7; 12,6; 12,9
A = 12,9 – 10,2 = 2,7
A = X n − X1
Desvio médio
Uma vez que a amplitude é considerada ineficiente por não levar em conta todos os valores
amostrais, é possível expressar a variabilidade de um conjunto de dados em termos de desvios da
média.
29
n n
Em virtude do ∑(X
i =1
i − X ) = 0 , usamos para calcular o desvio médio ∑ (X
i =1
i − X) .
Apesar de seu aspecto atrativo, essa medida, em razão dos valores absolutos, conduz a sérias
dificuldades teóricas em problemas de inferência estatística, por isso é raramente usada.
Variância
A variância é outra forma de contornar o problema de a soma dos desvios em relação à média
aritmética ser sempre igual a zero. Neste caso, a alternativa é usar a soma de quadrado dos desvios.
Por ser considerada como um valor médio dos desvios ao quadrado, é conhecida também como
QUADRADO MÉDIO.
A variância amostral de um conjunto de dados é, por definição, a média dos quadrados das
diferenças dos valores em relação à sua média, isto é,
n n n
∑ (X i − X )2 ∑ X i − (∑ X i ) 2 / n
2
SQ X
σˆ 2 = i =1
= i =1 i =1
=
n −1 n −1 n −1
Em que, SQx = Soma de quadrados de desvios de X.
∑ ( X i − X ) 2 Fi k
(∑ Fi X i ) 2 / n
σˆ 2 = i =1
= ∑ Fi X i2 − i =1
n −1 i =1 n −1
Em que, n-1 é denominado graus de liberdade, e k = número de classes.
30
A unidade da variância é igual ao quadrado da unidade dos dados originais. Por isso, não tem
significado físico, todavia, é extremamente útil como medida de variabilidade, sendo igual a zero
quando todas as mensurações são iguais entre si e crescendo à medida que se aumentam as
diferenças (dispersão) entre os elementos do conjunto mensurado.
As propriedades da variância são:
a) Somando-se ou subtraindo-se uma constante k a cada valor observado a variância não se
alterará.
b) Multiplicando-se ou dividindo-se por uma constante k cada valor observado a variância
ficará multiplicada ou dividida pelo quadrado dessa constante.
Desvio padrão
Os desvio padrão é obtido pela extração da raiz quadrada da variância, tendo como vantagem
o fato de ser expresso na mesma unidade do conjunto de dados. Facilitando assim a leitura e análise
da dispersão.
σˆ = σˆ 2
1 (25,842)
2
σˆ 2 = 66,8116 − = 0,003412kg
2
10 − 1 10
σˆ = 0,003412 = 0,058481kg
31
Classes (kg) Fi Xi X2 Fi × X i Fi × X i2
i
∑ 10 - - 25,745 66,3188
1 ( 25,745)
2
σˆ 2 = 66,3188 − = 0,004261kg
2
10 − 1 10
σˆ = 0,003412 = 0,065279 kg
OBS: Quando o desvio padrão é pequeno, próximo de zero, existirá grande concentração dos dados
em torno da média. Por outro lado, se o desvio padrão for grande os valores não se concentrarão
com tal intensidade em torno da média.
Coeficiente de variação
O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas
são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados.
Conjuntos de dados com diferentes unidades de medida não podem ter suas dispersões comparadas
pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem
medidas de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas
32
medidas de dispersão apresentadas. Fica evidente que um estimador que não seja dependente desses
fatores se faz necessário. Essa avaliação da variabilidade é conhecida por medida da variabilidade
relativa da amostra ou população, sendo usado para este fim o coeficiente de variação (CV).
O estimador do coeficiente de variação populacional é dado por:
σˆ
CV = × 100
X
No exemplo: A = {1, 2, 3}; B={101, 102, 103}; C={1001, 1002, 1003}, tem-se:
1
CVA = × 100 = 50%
2
1
CVB = × 100 = 1%
102
1
CVC = × 100 = 0,1%
1002
Portanto o conjunto A apresenta maior variabilidade em relação aos demais.
amostras (n)
n
n
Amostra 1 → X1
n
n n
Amostra 2 → X2
n …
Amostra m → Xm
σX
O erro padrão da média ( σ X ) é dado pela razão entre o desvio padrão populacional e a raiz
do tamanho amostral.
33
σ
σX =
n
O estimador desse parâmetro é aprestado abaixo. As razões do estimador são: não se
conhece, em geral, o desvio padrão populacional; na maioria das situações reais não é possível
retirar todas as amostras de uma população e, em geral, apenas uma amostra é extraída da
população.
σˆ
σˆ X =
n
O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média
da população. Quanto menor for seu valor, mais provável será a chance de obter a média da amostra
nas proximidades da média da população, e quanto maior o seu valor, menos provável se torna esse
evento.
34
* Distribuição simétrica: X = mo = md
∑(X i − X )r
mr = i =1
N
O coeficiente r da expressão é a ordem do momento. Assim, para r = 1 tem-se o momento de
primeira ordem, o qual sempre será igual a zero; para r = 2 o momento de ordem 2, que é a
variância da população; para r = 3 o momento de assimetria de ordem 3; para r = 4 o momento
de curtose de ordem 4; e assim por diante. Ë importante salientar que essa definição refere-se à
população finita.
Os estimadores amostrais para o momento centrado de ordem r (mr) são apresentados na
seguinte expressão:
35
n
∑(X i − X )r
mr = i =1
estimador do momento de assimetria (r = 3). Seu estimador b1 é dado pela razão do momento
amostral de ordem 3 pelo momento amostral de ordem 2, ou seja:
( m3 ) 2 m3
b1 = 3
= 3
(m2 ) (m2 ) 2
Que corresponde à:
n
∑(X
i =1
i − X )3
b1 = n
3
n
2
2
∑(X i − X )
i =1
n
36
- Se As < 0 ⇒ a distribuição será Assimétrica Negativa.
OBS.: Quando não se dispõe da Moda e nem Mediana, pode-se calcular o coeficiente de
n n
Xi − X 2
assimetria pela seguinte expressão: As = ∑
(n − 1)(n − 2) i =1
(
σˆ
)
Nota: a distribuição simétrica ou em forma de sino está relacionada com a forma mais
notável do modelo probabilístico. Esse modelo é denominado de distribuição de
probabilidade normal. Os métodos estatísticos que são baseados nesse tipo de modelo
probabilístico apresentam facilidade de serem manuseados e implementados em situações reais.
Que corresponde à:
37
n
∑(X
i =1
i − X )4
b2 = n
2
n
2
∑(X i − X )
i =1
n
OBS.: De outra forma o coeficiente de curtose (C) pode ser definido por:
n(n + 1) n
X − X 4 3(n − 1) 2
C= ∑ ( i
σˆ
) −
(n − 1)(n − 2)(n − 3) i=1 (n − 2)(n − 3)
7. LITERATURA CONSULTADA
ARA, A. B.; MUSETTI, A. V.; SHNEIDERMAN, B. Introdução à estatística. São Paulo: Egard
Blucher: Instituto Mauá de Tecnologia, 2003.152p.
CARVALHO, S. Estatística básica. Rio de Janeiro: Campus/Elsevier, 2006. 464p.
FERREIRA, D. F. Estatística básica. Lavras: UFLA, 2005. 664p.
REGAZZI, A. Curso de iniciação à estatística (Apostila). Universidade Federal de Viçosa,
Viçosa – MG, 1997. 136p.
TRIOLA, M. F. Introdução à estatística. Rio de Janeiro: LTC, 2005. 656p.
Este conteúdo é resultado de pesquisas em vários livros e apostilas de estatística básica e aplicada,, portanto, ainda
deve ser revisado. Qualquer erro de digitação (ou outro qualquer), sugestões, críticas, etc., por favor, me comuniquem.
Obrigada.
Profa. Gisele
38
UNIVERSIDADE FEDERAL DO PIAUÍ
Campus Universitário “Profa. Cinobelina Elvas” – Bom Jesus, PI
Lista de exercícios: Estatística descritiva ou Análise exploratória de dados
1. Cinqüenta amostras de arroz foram selecionadas e mediu-se a quantidade de selênio em cada uma
delas. Os resultados estão colocados abaixo.
3. Em um experimento, um pesquisador calculou a altura média dos animais que sofriam de uma
doença específica. O valor obtido foi igual a 156 cm e o desvio-padrão foi de 5 cm. Investigações
posteriores, entretanto, revelaram que todas as medidas feitas estavam 2 cm maiores que os valores
verdadeiros. Nessa situação, é correto afirmar que os valores corretos para a média e o desvio-
padrão são 1,58 m e 0,05 m, respectivamente? Justifique.
39
Calcular também a amplitude, desvio médio, variância, desvio padrão, coeficiente de variação e
erro padrão da média do número de carrapatos após a correção.
5. A tabela abaixo ilustra a classificação por peso, em gramas, de uma amostra com 35 peixes.
Considerando essas informações, é correto é afirmar que:
a) Deve-se associar à quarta classe da tabela o valor de 0,015 kg? Justifique.
b) A média aritmética dos valores agrupados é igual a 15,50 g? Justifique.
c) Obtenha o histograma e o polígono de freqüência.
6. Os dados a seguir, referem-se à altura, em metros, de Pinnus elliottii var. elliottii, com 10 anos
de idade, no espaçamento de 2,0 x 2,5m (Barbin, 2003).
a) Calcular a média aritmética, a mediana, a variância, o desvio padrão, o erro padrão da média
e o coeficiente de variação.
b) Calcular os desvios em torno da média e coloca-los em um gráfico.
c) Eliminar os dados 5,20 e 5,90 e repetir os cálculos dos itens a e b.
d) Discutir os resultados obtidos nos itens b e c.
7. Considere a produção média (toneladas) por hectare de uma espécie vegetal após a utilização de
adubos fosfatados e nitrogenados. Cinco doses de fósforo (i = 1, 2, 3, 4 e 5) e quatro doses de
nitrogênio (j = 1, 2, 3 e 4) foram aplicadas.
40
a) Como são classificadas as variáveis DOSES DE N e DOSES DE P, quanto ao tipo de
variável?
b) A tabela acima apresenta os dados brutos ou elaborados? Justifique.
c) Qual (is) tipo (s) de série estatística a tabela acima apresenta?
d) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a
utilização de CADA dose de fósforo.
e) Calcule a média aritmética, média geométrica e média harmônica da produtividade após a
utilização de CADA dose de nitrogênio.
f) Calcule a média aritmética geral do experimento.
g) Calcule a mediana da produtividade após a utilização de CADA dose de fósforo.
h) Calcule a mediana da produtividade após a utilização de CADA dose de nitrogênio.
i) Calcule a mediana geral do experimento.
j) Calcule a moda da produtividade após a utilização de CADA dose de fósforo.
k) Calcule a moda da produtividade após a utilização de CADA dose de nitrogênio.
l) Calcule a moda geral do experimento.
m) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de
fósforo.
n) Calcule a amplitude total, desvio médio, variância e desvio padrão de CADA dose de
nitrogênio.
o) Obtenha o erro padrão da média da produtividade após a utilização de CADA dose de
fósforo e de CADA dose de nitrogênio. Descreva como você diferencia o que mede o desvio
padrão e o que mede o erro padrão da média.
p) Supondo que, em investigações posteriores, o pesquisador constatou que copiou um número
errado, que na verdade X23 = 7,0. Após a correção, quais as novas estimativas de média
aritmética, mediana e moda após a utilização da dose 2 de P? E após a utilização da dose 3
de N?
q) Considerando o que foi exposto na letra p, após a correção, quais as novas estimativas de
amplitude total, desvio médio, variância e desvio padrão após a utilização da dose 2 de P? E
após a dose 3 de N? Houve similaridade nos resultados dessas estimativas antes da
correção?
r) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada
dose de fósforo. Par qual dose houve maior cuidado do pesquisador quanto à precisão
experimental, ou seja, maior uniformidade? Justifique.
s) Obtenha a estimativa do coeficiente de variação da produtividade após a utilização de cada
dose de nitrogênio. Par qual dose houve maior cuidado do pesquisador quanto à precisão
experimental, ou seja, maior uniformidade? Justifique.
8. Em uma granja foi observada a distribuição dos frangos em relação ao peso, apresentada na
tabela abaixo:
Peso (g) Xi Fi
960 980 970 60
980 1000 990 160
1000 1020 1010 280
1020 1040 1030 260
1040 1060 1050 160
1060 1080 1070 80
41
c) Construa o histograma e o polígono de freqüências. Determinar a natureza da distribuição
quanto à simetria.
d) Obter a mediana e a moda. Compare a estimativa da moda com a classificação da moda
visualizada no histograma e polígono de freqüências obtido anteriormente. Há coerência
entre os resultados?
e) Obter a amplitude total, a variância, o desvio padrão, o desvio médio, o coeficiente de
variação e o erro padrão da média para a mensuração.
f) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões
abaixo da média para receberem ração reforçada, e também separar os animais como peso
superior a um desvio e meio padrão acima da média para usá-los como reprodutores. Qual a
percentagem de animas que serão separados em cada caso?
a) Calcule a amplitude para ambas as amostras. Você concluiria que ambas as amostras exibem
a mesma variabilidade?
b) Calcule o desvio-padrão de ambas as amostras. Essas quantidades indicam que ambas as
amostras têm a mesma variabilidade?
c) Escreva um curto texto contrastando a amplitude da amostra com o desvio-padrão da
amostra, como medida de variabilidade.
42