Sie sind auf Seite 1von 36

Universidade Federal de Minas Gerais

Instituto de Cincias Exatas


Departamento de Estatstica

Anlise descritiva de dados


Sntese numrica

Edna Afonso Reis


Ilka Afonso Reis

Relatrio Tcnico
RTP-02/2002
Srie Ensino
Universidade Federal de Minas Gerais
Instituto de Cincias Exatas
Departamento de Estatstica

Anlise Descritiva de Dados


Sntese Numrica

Edna Afonso Reis


Ilka Afonso Reis

Primeira Edio Julho/2002


NDICE

1. Introduo 5

2. Medidas de Tendncia Central 5


2.1. Mdia Aritmtica Simples 6
2.2. Mediana 7
2.3. Moda 7
2.4. Moda, Mediana ou Mdia: Como escolher ? 8
2.5. A Forma da Distribuio de Freqncias e as Medidas de Tendncia Central 10

3. Medidas de Variabilidade 12
3.1. Amplitude Total 13
3.2. Desvio Padro 13
3.3. Coeficiente de Variao 16
3.4. Regra do Desvio Padro para Distribuies Simtricas 18

4. Medidas de Posio 20
4.1. Percentis 20
4.2. Escores Padronizados 22

5. O Boxplot 27
5.1. Exemplo de Construo 28
5.2. Outras Aplicaes do Boxplot 29
5.3. Vantagens e Desvantagem do Boxplot 30
5.4. Outros Exemplos de construo do Boxplot 31

6. Comparao Grfica de Conjuntos de Dados 33

Referncias Bibliogrficas 35
6 Edna Afonso Reis e Ilka Afonso Reis

1. Introduo

A coleta de dados estatsticos tem crescido muito nos ltimos anos em todas as reas de
pesquisa, especialmente com o advento dos computadores e surgimento de softwares cada vez
mais sofisticados. Ao mesmo tempo, olhar uma extensa listagem de dados coletados no permite
obter praticamente nenhuma concluso, especialmente para grandes conjuntos de dados, com
muitas caractersticas sendo investigadas.
A Anlise Descritiva a fase inicial deste processo de estudo dos dados coletados.
Utilizamos mtodos de Estatstica Descritiva para organizar, resumir e descrever os aspectos
importantes de um conjunto de caractersticas observadas ou comparar tais caractersticas entre
dois ou mais conjuntos de dados.
A descrio dos dados tambm tem como objetivo identificar anomalias, at mesmo
resultante do registro incorreto de valores, e dados dispersos, aqueles que no seguem a
tendncia geral do restante do conjunto.
No s nos artigos tcnicos direcionados para pesquisadores, mas tambm nos artigos de
jornais e revistas escritos para o pblico leigo, cada vez mais freqente a utilizao destes
recursos de descrio para complementar a apresentao de um fato, justificar ou referendar um
argumento.
As ferramentas descritivas so os muitos tipos de grficos e tabelas e tambm medidas de
sntese como porcentagens, ndices e mdias.
As ferramentas grficas e o uso de tabelas so abordados no Relatrio Tcnico RTE04-2001
(Anlise Descritiva de Dados - Tabelas e Grficos). Neste texto, abordaremos as medidas de
sntese numrica, usadas quando a varivel em questo do tipo quantitativa. Sero discutidas
as medidas de tendncia central, variabilidade e ainda as medidas de posio.
Ao sintetizarmos os dados, perdemos informao, pois no se tm as observaes originais.
Entretanto, esta perda de informao pequena se comparada ao ganho que temos com a
clareza da interpretao proporcionada.

2. Medidas de Tendncia Central

A tendncia central da distribuio de freqncias de uma varivel em um conjunto de


dados caracterizada pelo valor tpico dessa varivel. Essa uma maneira de resumir a
informao contida nos dados, pois escolheremos um valor para representar todos os outros.
Assim, poderamos perguntar, por exemplo, qual a altura tpica dos brasileiros adultos no
final da dcada de 90 e compar-la com o valor tpico da altura dos brasileiros no final da
dcada de 80, a fim de verificar se os brasileiros esto se tornando, em geral, mais altos, mais
baixos ou no sofreram nenhuma alterao em sua altura tpica. Fazer essa comparao
utilizando medidas-resumo (as alturas tpicas em cada perodo) bem mais sensato do que
comparar os dois conjuntos de dados valor a valor, o que seria invivel.
Mas, como identificar o valor tpico de um conjunto de dados? Existem trs medidas que
podem ser utilizadas para descrever a tendncia central de um conjunto de dados: a mdia, a
mediana e a moda. Apresentaremos essas trs medidas e discutiremos suas vantagens e
desvantagens.
7

2.1. Mdia Aritmtica Simples

A mdia aritmtica simples (que chamaremos apenas de mdia) a medida de tendncia


central mais conhecida e usada para o resumo de dados. Essa popularidade pode ser devida
facilidade de clculo e idia simples que ela nos sugere. De fato, se queremos um valor que
represente a altura dos brasileiros adultos, por que no medir as alturas de uma amostra de
brasileiros adultos, somar os valores e dividir esse bolo igualmente entre os participantes? Essa
a idia da mdia aritmtica.
Para apresentar a mdia, primeiramente vamos definir alguma notao. A princpio, essa
notao pode parecer desnecessria, mas facilitar bastante nosso trabalho futuro.

Notao

n nmero de indivduos no conjunto de dados

[ valor da i-sima observao do conjunto de dados, i = 1, 2, 3,..., n

[ 
soma de todas as observaes da amostra
(a letra grega o smbolo que indica soma).

X o smbolo usado para representar a mdia aritmtica simples.

Assim,

X =
Soma de todas as observaes do conjunto de dados
=
[ 

tamanho do conjunto de dados Q

Exemplo 2.1: No conjunto de dados ( 3,0 ; 4,5 ; 5,5 ; 2,5 ; 1,3 ; 6,0 ), temos n = 6,


x1 = 3,0 x2 = 4,5 x3 = 5,5 x4 = 2,5 x5 = 1,3 X6 = 6,0

22,8
X = = 3,8
x i = 3,0 + 4,5 + 5,5 + 2,5 + 1,3 + 6,0 = 22,8 e 6

Se esses seis valores representassem, por exemplo, as quantidades de peixe pescado (em
toneladas) durante seis dias da semana, a quantidade tpica pescada por dia, naquela semana,
seria 3,8 toneladas. Como estamos representando o valor tpico pela mdia aritmtica, podemos
falar em quantidade mdia diria naquela semana.

Exemplo 2.2: No conjunto de dados ( 2,0 ; 3,3 ; 2,5 ; 5,6 ; 5,0 ; 4,3 ; 3,2 ), temos



2,0 + 3,3 + 2,5 + 5,6 + 5,0 + 4,3 + 3,2 25,9


X = = = 3,7
7 7

Novamente, vamos imaginar que esses sete valores representam as quantidades de peixe
pescado por dia (em toneladas) durante uma semana inteira. Se quisermos representar a
quantidade tpica pescada por dia nessa semana usando a mdia, ento poderemos dizer que a
mdia diria de peixe pescado nessa semana foi de 3,7 toneladas. Essa mdia pode ser
comparada com a mdia diria da semana anterior, mesmo que se tenha trabalhado um dia a
mais nessa semana. Assim, conclumos que a produo diria mdia da semana anterior foi
ligeiramente superior produo diria mdia da semana deste exemplo.
8 Edna Afonso Reis e Ilka Afonso Reis

2.2. Mediana

A mediana de um conjunto ordenado de dados definida como sendo o valor do meio


desse conjunto de dados, dispostos em ordem crescente, deixando metade dos valores acima
dela e metade dos valores abaixo dela.
Como calcular a mediana ? Basta seguir sua definio. Vejamos:

n mpar: Existe apenas um valor do meio , que a mediana


Seja o conjunto de dados ( 2,0 ; 3,3 ; 2,5 ; 5,6 ; 5,0 ; 4,3 ; 3,2 ).
Ordenando os valores (2,0 ; 2,5 ; 3,2 ; 3,3 ; 4,3 ; 5,0 ; 5,6).
O valor do meio o 3,3 . A mediana o valor 3,3.

n par: Existem dois valores do meio . A mediana mdia aritmtica simples


deles.
Seja o conjunto de dados ( 3,0 ; 4,5 ; 5,5 ; 2,5 ; 1,3 ; 6,0 ).
Ordenando os valores (1,3 ; 2,5 ; 3,0 ; 4,5 ; 5,5 ; 6,0)
Os valores do meio so 3,0 e 4,5. A mediana (3,0 + 4,5)/2 = 3,75.

Como medida de tendncia central, a mediana at mais intuitiva do que a mdia, pois
representa, de fato, o centro (meio) do conjunto de valores ordenados. Assim como a mdia, o
valor da mediana no precisa coincidir com algum dos valores do conjunto de dados. Em
particular, quando os dados forem de natureza contnua, essa coincidncia dificilmente ocorrer.
Nos exemplos 2.1 e 2.2, podemos dizer que a produo diria mediana foi de 3,75 toneladas de
peixe na primeira semana e de 3,3 toneladas na segunda semana.

2.3. Moda:

Uma maneira alternativa de representar o que tpico atravs do valor mais freqente
da varivel, chamado de moda.

Figura 2.1: Diagrama de pontos para dados


Exemplo 2.3: (a) unimodal, (b) bimodal e (c) amodal.

1,8
No conjunto de dados
(1; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 5 ; 5), 1,3
h apenas uma moda, o valor 5.
O conjunto de dados unimodal.
0,8
1 2 3 4 5

1,8

No conjunto de dados
(1 ; 2 ; 2 ; 2 ; 2 ; 3 ; 4 ; 5 ; 6 ; 6 ; 6 ; 6 ; 7 ; 9), 1,3
existem duas modas, os valores 2 e 6.
O conjunto de dados bimodal 0,8
1 2 3 4 5 6 7 8 9
9

1,9
1,8
Nem sempre a moda existe ou faz sentido. 1,7
No conjunto de dados 1,6
1,5
(1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7; 8 ; 9 ) 1,4
1,3
no existe um valor mais freqente que os demais. 1,2
Portanto, o conjunto de dados amodal. 1,1
1
1 2 3 4 5 6 7 8 9

No caso de uma tabela de freqncias, a classe de maior freqncia chamada classe


modal. A moda tambm a nica das medidas de tendncia central que faz sentido no caso de
variveis qualitativas. Assim, a categoria dessas variveis que aparecer com maior freqncia
chamada de categoria modal. No exemplo dos ursos marrons (RTE04-2001), a categoria modal
para a varivel sexo a categoria macho, com 64% dos ursos.

2.4. Moda, Mediana ou Mdia: Como Escolher ?

Devemos sempre apresentar os valores de todas as medidas de tendncia central. Nesta


seo, apenas fazemos uma comparao entre elas em situaes onde a diferena entre seus
valores poder levar a concluses diversas sobre os dados.

Mediana versus Mdia

A mdia uma medida-resumo muito mais usada na prtica do que a mediana. Existem
vrias razes para essa popularidade da mdia, entre elas, a facilidade de tratamento estatstico
e algumas propriedades interessantes que a mdia apresenta, o que ficar mais claro quando
estudarmos os mtodos de estimao.
No entanto, a mdia uma medida muito influenciada pela presena de valores extremos
em um conjunto de dados (valores muito grandes ou muito pequenos em relao aos demais).
Como a mdia usa os valores de cada observao em seu clculo, esses valores extremos
p uxam o valor da mdia em direo a si, deslocando tambm a representao do centro,
que j no ser to central como deveria ser.
A mediana, por sua vez, no to influenciada por valores extremos, pois o que utilizamos
para calcul-la a ordem dos elementos e no diretamente seus valores. Assim, se um elemento
do conjunto de dados tem o seu valor alterado (um erro, por exemplo), mas sua ordem continua
a mesma, a mediana no sofre influncia nenhuma.
Vejamos um exemplo bastante esclarecedor dessas idias.

Exemplo 2.4: Salrio pago (em salrios-mnimos) aos 21 funcionrios de uma empresa.

A Figura 2.4 mostra o diagrama de pontos para os salrios pagos aos 21 funcionrios de uma
empresa e, logo abaixo, esto calculados os valores da mdia e mediana em duas situaes:
uma, considerando todos os funcionrios e outra, sem os quatro salrios mais altos. Na primeira
situao, a mdia est muito deslocada em direo aos mais altos salrios e no seria uma
medida-resumo adequada para representar os salrios pagos nessa empresa. A mediana
representa bem melhor a realidade, informando que pelo menos metade dos empregados
ganham at 4 salrios-mnimos.
claro que, dependendo do uso que se queira fazer da informao sobre os salrios dessa
empresa, emprega-se a mdia ou a mediana como medida de centro. Por exemplo, se os
administradores quisessem pintar um bom quadro para os salrios, escolheriam a mdia. J o
sindicato, em suas negociaes salariais, escolheria a mediana. Nenhum dos dois lados estaria
errado do ponto de vista estritamente tcnico, estariam apenas usando o que mais lhes convm.
Por esta e outras razes, que devemos estar atentos s estatsticas divulgadas, no sentido de
saber como foram calculadas e se, pela natureza dos dados, seriam a forma mais adequada
para a descrio do fenmeno estudado.
10 Edna Afonso Reis e Ilka Afonso Reis

Figura 2.4 Diagrama de pontos para os salrios pagos


(em salrios-mnimos) aos funcionrios de uma empresa

Situao I: dados completos: Situao II: sem os quatro valores mais altos:
Mdia = 24,6 SM Mdia = 9,8 SM
Mediana = 4 SM Mediana = 3 SM

Na segunda situao, quando so removidos os quatro maiores salrios, o valor da mdia


muda drasticamente, enquanto o da mediana muda muito pouco, mostrando como ela pouco
influenciada por valores extremos. Na verdade, se esses quatro valores tivessem sido apenas
modificados, mas continuassem a ser os quatro maiores, a mediana no mudaria. De fato, a
alterao de valor dos maiores salrios, desde que eles continuem a ser os maiores, no altera a
realidade salarial da empresa e a mediana consegue captar isso, mas a mdia, no.
De modo geral, o uso da mediana indicado quando :
Os valores para a varivel em estudo tm distribuio de freqncias assimtrica (verificada
atravs das ferramentas grficas);
O conjunto de dados possui algumas poucas observaes extremas (valores muito mais
altos ou muito mais baixos que os outros);
No conhecemos exatamente o valor de algum elemento, mas temos alguma informao
sobre a ordem que ele ocupa no conjunto de dados. Por exemplo, no caso dos salrios, se
algum no quisesse informar o quanto recebe, mas apenas dissesse que ganha mais (ou
menos) do que um certo valor, de modo que consegussemos determinar uma ordem para
essa pessoa, poderamos calcular a mediana, mas no a mdia.

Uma alternativa para a anlise de conjunto de dados com observaes extremas usando a
mdia como medida de tendncia central analisar separadamente os dois grupos (valores
extremos e no extremos) que, quase sempre, podem ser criados a partir de informaes
externas. No exemplo dos salrios, poderamos criar dois grupos: o das pessoas que recebem 3 e 4
salrios-mnimos, que so provavelmente os operrios da empresa, e um outro grupo com os
demais empregados, que, a julgar pelos salrios, devem exercer funes administrativas ou de
gerenciamento. Em cada um dos grupos, no haveria mais valores extremos e a mdia pode ser
usada sem problemas.
No caso de poucos valores extremos, pode-se fazer a anlise do grupo sem esses valores e
justificar a retirada deles, porm, sem os esquecer.

Moda versus Mdia e Mediana

A moda no uma medida de tendncia central muito conhecida, mas tem suas vantagens
em relao mdia e mediana, especialmente quando estamos lidando com variveis que
possuem distribuio de freqncias bimodais ou multimodais.

Exemplo 2.5: Considere uma pesquisa de opinio na qual foi perguntado a 26 pessoas de baixa
renda: Incluindo crianas e adultos, que tamanho de famlia voc acha ideal? . As respostas so
apresentadas na Tabela 2.1 e representadas graficamente na Figura 2.5.
11

Tabela 2.1 Distribuio de freqncias das respostas sobre o tamanho ideal de famlia.
Tamanho ideal da famlia 1 2 3 4 5 6 7 8 9 10
Freqncia da resposta 1 2 6 2 1 2 3 6 2 1

Figura 2.5 Diagrama de pontos para as respostas sobre o tamanho ideal de famlia.

De acordo com essa pesquisa de opinio, o tamanho mdio para a famlia ideal de 6
pessoas, assim como o tamanho mediano. No entanto, pela Figura 2.5, podemos notar
claramente que h dois grupos de pessoas: as que preferem famlias pequenas (at 5 pessoas) e
as que gostariam de famlias maiores (6 ou mais pessoas). A distribuio de freqncias das
respostas bimodal. A mdia nem mediana seriam boas medidas-resumo para a opinio dessas
pessoas.
A alternativa usar a moda e, nesse caso, h duas: os valores 3 e 8. Esses dois valores
representam melhor os valores tpicos desse conjunto de dados, alm de evidenciar uma diviso
na opinio desse grupo acerca do tamanho de famlia ideal.
Nesse exemplo, os valores 3 e 8 tm a mesma freqncia (6 respostas), caracterizando-se
como as duas modas. No entanto, mesmo que um dos valores tivesse uma freqncia um pouco
inferior (cinco ou quatro respostas), ainda assim poderia haver uma diviso de opinio dessas
pessoas. Nesse caso, seria melhor descrever esses dois grupos separadamente, fazendo essa
separao dos grupos, se possvel, por uma varivel externa, como, por exemplo, tamanho da
famlia do respondente. Curiosamente, poderamos encontrar que pessoas nascidas numa famlia
pequena prefeririam famlias grandes e vice-versa (mas essa s uma especulao).

2.5. A Forma da Distribuio de Freqncias e as Medidas de Tendncia Central

Como j sabemos, a distribuio de freqncias de uma varivel pode ter vrias formas, mas
existem trs formas bsicas, representadas esquematicamente pelos histogramas da Figura 2.5.
Nesta figura, tambm est a posio de cada uma das medidas de tendncia central
apresentadas neste texto.
Quando uma distribuio simtrica em torno de um valor (o mais freqente, isto , a moda),
significa que as observaes esto igualmente distribudas em torno desse valor (metade acima e
metade abaixo) Ou seja, esse valor tambm a mediana. A mdia dessas observaes tambm
coincidir com a moda, que coincide com a mediana, pois, se as observaes valores esto
simetricamente distribudas em torno de um valor, a mdia delas ser esse valor. Assim, quando a
distribuio de freqncias uma varivel simtrica, as trs medidas de tendncia central tm o
mesmo valor.
Se a distribuio assimtrica com concentrao esquerda (ou cauda direita), a
mediana menor do que a mdia. Isto acontece porque a mediana puxada em dir eo
concentrao dos valores, enquanto a mdia puxada em direo cauda (valores
extremos).
12 Edna Afonso Reis e Ilka Afonso Reis

Figura 2.5 Representao esquemtica da forma da distribuio de freqncias


e as posies relativas das medidas de tendncia central.

Simtrica

moda = mediana = mdia

Assimtrica
(concentrao esquerda)
ou (cauda direita)

moda < mediana < mdia

Assimtrica
(concentrao direita)
ou (cauda esquerda)

mdia < mediana < moda

Desse modo, fcil deduzir o que ocorre quando a distribuio assimtrica com
concentrao direita (ou cauda esquerda): a mediana, puxada em direo
concentrao dos valores, maior do que a mdia, que influenciada pelos valores pequenos
da cauda.
13

3. Medidas de Variabilidade

As medidas de tendncia central (mdia, mediana, moda) conseguem resumir em um nico


nmero, o valor que tpico no conjunto de dados. Mas, somente com essas medidas,
conseguimos descrever adequadamente o que ocorre em um conjunto de dados?
Vejamos um exemplo: quando pesamos algo em uma balana, esperamos que ela nos d o
verdadeiro peso daquilo que estamos pesando. No entanto, se fizermos vrias medies do peso
de um mesmo objeto em uma mesma balana, teremos diferentes valores para o peso deste
objeto. Ou seja, existe variabilidade na medies de peso fornecidas pela balana. Neste caso,
quanto menor a variabilidade desses valores, mais precisa a balana (considerando que a
mdia dos medidas de peso coincida como seu valor real). Observe a Figura 3.1, onde esto
representada as distribuies de freqncias das medies do peso de uma esfera de 1000 g,
feitas por duas balanas (A e B). As duas balanas registram o mesmo peso mdio de 1000 g
(mdia dos pesos de todas as medies feitas). Isto , as duas balanas tipicamente acertam o
verdadeiro peso da esfera. Porm, pela Figura 3.1, podemos notar que

As medies da balana A variam pouco em torno de 1000g: oscilam basicamente entre


cerca de 950g e 1050g (uma impreciso de 50 g);
As medies da balana B variam muito em torno de 1000 g: oscilam basicamente entre
900 g e 1100 g, (uma impreciso de 100 g).

Figura 3.1 Representao esquemtica da distribuio de freqncias


das medies do peso da esfera de 1000 gramas feitas nas balanas A e B.

Balana A

Balana B

900 950 1000 1050 1100


Peso (gramas)

Dois conjuntos de dados podem ter a mesma medida de centro (valor tpico), porm com
uma disperso diferente em torno desse valor. Desse modo, alm de uma medida que nos diga
qual o valor tpico do conjunto de dados, precisamos de uma medida do grau de disperso
(variabilidade) dos dados em torno do valor tpico.
O objetivo das medidas de variabilidade quantificar esse grau de disperso. Nesta seo,
apresentaremos trs dessas medidas (amplitude total, desvio-padro e coeficiente de variao),
discutindo suas vantagens e desvantagens. Em discusses posteriores, apresentaremos medidas
de variabilidade alternativas.
14 Edna Afonso Reis e Ilka Afonso Reis

3.1. Amplitude Total

A medida de variabilidade mais simples a chamada amplitude total (AT), que a diferena
entre o valor mximo e o valor mnimo de um conjunto de dados

AT = Mximo Mnimo

Exemplo 3.1: Medies do peso de uma esfera de 1000 g em duas balanas (A e B).
Balana A: Min = 945 g Balana B: Min = 895 g
Max = 1040 g Max = 1095 g
AT = 1040 - 945 = 95 g AT = 1095 - 895 = 200 g
A variabilidade das medies de peso da balana B maior que a variabilidade das medies
de peso da balana A (apesar do valor mdio ser igual)

Embora seja uma medida simples de variabilidade, a amplitude total um tanto grosseira,
pois depende somente de dois valores do conjunto de dados (mximo e mnimo), no captando
o que ocorre com os outros valores. Vejamos um exemplo.

Exemplo 3.2: A Figura 3.2 mostra o diagrama de pontos para os conjuntos de dados I e II:
Dados I: {2, 6, 7, 7, 10, 12, 13, 100}, AT1 = 100 2 = 98
Dados II: {2, 6, 10, 20, 35, 50, 80, 100}, AT2 = 100 2 = 98
As variabilidades desses dois conjuntos de dados so claramente diferentes. No entanto, apenas
usando a amplitude total para medi-las, concluiramos que os dois conjuntos de dados so
igualmente dispersos.

Figura 3.2 Diagrama de pontos para os conjuntos de dados I e II

Embora a amplitude total sozinha no seja uma boa medida de variabilidade, pode ser
usada como uma medida auxiliar na anlise da disperso de um conjunto de dados. Pode
tambm medir o quanto do eixo de valores possveis para a varivel ocupado pelo conjunto de
dados observado.

3.2. Desvio Padro

Uma boa medida de disperso deve considerar todos os valores do conjunto de dados e
resumir o grau de disperso desses valores em torno do valor tpico.
Considerando a mdia como a medida de tendncia central, podemos pensar em medir a
disperso (desvio) de cada valor do conjunto de dados em relao ela. A medida mais simples
de desvio entre duas quantidades a diferena entre elas. Assim, para cada valor Xi, teremos o
seu desvio em relao X representado por (Xi - X ).

Exemplo 3.3: no conjunto de dados (1; 1; 2; 3; 4; 4; 5; 6; 7; 7), relativo ao nmero de filhos de 10


mulheres, temos X = 4 filhos. A coluna 1 da Tabela 3.1 mostra esses 10 valores e a coluna 2 mostra
o desvio de cada deles at a mdia.
15

Tabela 3.1 Exemplo de clculo do desvio-padro.

Coluna 1 Coluna 2 Coluna 3


Xi Xi - X (Xi - X )
2

1 -3 9
1 -3 9
2 -2 4
3 -1 1
4 0 0
4 0 0
5 1 1
6 2 4
7 3 9
7 3 9
- 46

A idia do desvio-padro

Como temos um desvio para cada elemento, poderamos pensar em resumi-los em um desvio
tpico, a exemplo do que fizemos com a mdia. Porm, quando somarmos esses desvios para o
clculo do desvio mdio, a soma dar sempre zero, como mostrado na ltima linha da coluna 2.
Isto ocorre com qualquer conjunto de dados, pois os desvios negativos sempre compensam os
positivos.
No entanto, os sinais dos desvios no so importantes para nossa medida de disperso, j que
estamos interessados na quantidade de disperso em torno da mdia, mas no na direo dela.
1
Portanto, eliminaremos os sinais elevando os desvios ao quadrado , como mostrado na coluna 3. A
soma desses desvios ao quadrado pode ser, ento, dividida entre os participantes do bolo . Na
verdade, por razes absolutamente tericas, dividiremos essa soma pelo total de participantes
menos 1 (n-1). Assim, usando a notao definida anteriormente, teremos
n

(x
i =1
i x) 2

n 1
Para os dados da Tabela 3.1, teremos 46/(10-1) = 5,11. Esse valor pode ser visto como uma
quase-mdia dos desvios ao quadrado e chamado de varincia.
A varincia seria nossa medida de variabilidade se no fosse o fato de que ela est expressa
em uma unidade diferente da unidade dos dados, pois, ao elevarmos os desvios ao quadrado,
elevamos tambm as unidades de medida em que eles esto expressos. No caso dos dados da
Tabela 3.1, medidos em nmero de filhos, a varincia vale 5,11 filhos ao quadrado , algo que
no faz nenhum sentido.
Para eliminar esse problema, extramos a raiz quadrada da varincia e, finalmente, temos a
nossa medida de variabilidade, que chamaremos desvio-padro (DP) .

(x i x) 2
DP = i =1

n 1
O desvio-padro, como o nome j diz, representa o desvio tpico dos dados em relao
mdia, escolhida como medida de tendncia central. No exemplo 3.3, temos que o desvio-
padro vale 2,26. Isto significa que a distncia tpica (padro) de cada me at o nmero mdio
de filhos (4 filhos) de 2,26 filhos. Quanto maior o desvio-padro, mais diferentes entre si sero as
quantidades de filhos de cada me.

1
A funo mdulo | | tambm resolve o problema dos sinais (ex: |-3|=3). No entanto, do ponto de vista matemtico, a
funo quadrado mais fcil de ser tratada.
16 Edna Afonso Reis e Ilka Afonso Reis

O desvio-padro, em alguns livros chamado de s, uma medida sempre positiva. Se


observarmos a maneira como ele calculado, veremos que no h como obter um valor
negativo.

Exemplo 3.4: Os agentes de fiscalizao de certo municpio realizam, periodicamente, uma


vistoria nos bares e restaurantes para apurar possveis irregularidades na venda de seus produtos.
A seguir, so apresentados dados de uma vistoria sobre os pesos (em gramas) de uma amostra
de 10 bifes, constantes de um cardpio de um restaurante como bife de 200 gramas .

170 175 180 185 190 195 200 200 200 205

Como podemos notar, nem todos os bifes de 200 gramas pesam realmente 200 gramas.
Esta variao natural e devida ao processo de produo dos bifes. No entanto, esses bifes
deveriam pesar cerca de 200 gramas e com pouca variao em torno desse valor. Com o auxlio
da Tabela 3.2, calcularemos a mdia e o desvio-padro.

Tabela 3.2 Clculo do desvio-padro para o exemplo dos bifes de 200 gramas.

i Xi Xi - X (Xi - X )
2

1 170 170 190 = -20 400


2 175 175 190 = -15 225
3 180 180 190 = -10 100
4 185 185 190 = -05 25
5 190 190 190 = 0 0
6 195 195 190 = 05 25
7 200 200 190 = 10 100
8 200 200 190 = 10 100
9 200 200 190 = 10 100
10 205 205 190 = 15 225
Soma 1900 0 1300

n n
xi Desvio ( xi x ) 2
1900
Mdia: x = i =1 = = 190 gramas Padro: s= i =1 =
1300
= 12 gramas
n 10 n 1 9

Os bifes desse restaurante pesam, em mdia, 190 gramas, com um desvio-padro de 12


gramas. Ou seja, os pesos dos bifes de 200 gramas variam tipicamente entre 178 e 202 gramas
( X s). Analisando esses valores, conclumos que esse restaurante pode estar lesando a maior
parte de seus clientes.
Para casos como esse, os agentes fiscalizadores podem estabelecer parmetros (valores)
para saber at quanto a mdia pode se desviar do valor correto e o quanto de variao eles
podem permitir numa amostra para concluir que o processo de produo de bifes no possui
problemas. Por exemplo, a mdia da amostra no poderia ser inferior a 200 gramas, com um
desvio-padro que no seja superior a 5% dessa mdia.
Essas idias so utilizadas no controle do processo de produo das indstrias, onde j se
espera alguma variao entre as unidades produzidas. Porm, essa variao deve estar sob
2
controle . Numa indstria farmacutica, por exemplo, espera-se que os comprimidos de um certo
medicamento sejam produzidos com uma certa variao em sua composio (maior ou menor
quantidade do princpio ativo), devido prpria maneira como os comprimidos so produzidos
(mquinas, pessoas, etc.). No entanto, esta variao deve ser pequena, para que no sejam
produzidos comprimidos com doses sub-clnicas (com pouco do princpio ativo) ou com
superdosagem do princpio ativo, o que, em ambos os casos, pode causar srias complicaes
sade do paciente.

2
O chamado Controle Estatstico de Processos um conjunto de ferramentas estatsticas (grficos, medidas de centro e
de variabilidade) bastante usado no Controle da Qualidade Total em uma grande parte das indstrias nacionais e
internacionais.
17

O desvio-padro nos permite distinguir numericamente conjuntos de dados de mesmo


tamanho, mesma mdia, mas que so visivelmente diferentes, como mostra a ilustrao da Figura
3.3. Usando o desvio-padro, tambm conseguimos representar numericamente a variabilidade
das medies das balanas A e B (exemplo 3.1), que, apesar de possurem a mesma mdia,
possuem variabilidades bastante diferentes.
Quando os conjuntos de dados a serem comparados possuem mdias diferentes, a
comparao da variabilidade desses conjuntos deve levar em conta essa diferena. Por esta e
outras razes, definiremos uma terceira medida de variabilidade, o coeficiente de variao.

Figura 3.3 Conjuntos de dados de mesmo tamanho, mesma mdia e variabilidades diferentes.

Tamanho de amostra: n = 10
Mdia = 5

3.3. Coeficiente de Variao

Ao analisarmos o grau de disperso de um conjunto de dados, poderemos nos deparar com


uma questo do tipo: um desvio-padro de 10 unidades pequeno ou grande?
Vejamos:
Se estivermos trabalhando com um conjunto de dados cuja a mdia 10.000, um desvio
tpico de 10 unidades em torno dessa mdia significa pouca disperso;
Mas, se a mdia for igual a 100, um desvio tpico de 10 unidades em torno dessa mdia
significa muita disperso.
Assim, antes de responder se um desvio-padro de 10 unidades grande ou pequeno,
devemos avaliar sua magnitude em relao mdia:
10
No primeiro caso, o desvio-padro corresponde a 0,1% da mdia: = 0,001 ou 0,1%;
10.000
10
No segundo caso, o desvio-padro corresponde a 10% da mdia: = 0,1 ou 10%.
100
essa razo entre o desvio-padro e a mdia damos o nome de Coeficiente de Variao:

GHVYLRSDGUmR
&9 =
PpGLD
Quanto menor o Coeficiente de Variao de um conjunto de dados, menor a sua
variabilidade. O Coeficiente de Variao expressa o quanto da escala de medida, representada
pela mdia, ocupada pelo desvio-padro.
O Coeficiente de Variao uma medida adimensional, isto , no depende da unidade de
medida. Essa caracterstica nos permite us-lo para comparar a variabilidade de conjuntos de
dados medidos em unidades diferentes, o que seria impossvel usando o desvio-padro.

a) Comparao da homogeneidade de uma mesma varivel entre grupos diferentes.


18 Edna Afonso Reis e Ilka Afonso Reis

Exemplo 3.5: Numa pesquisa em sade Sade Ocupacional, deseja-se comparar a idade de
motoristas e cobradores de nibus da regio metropolitana de Belo Horizonte. Algumas estatsticas
descritivas so apresentadas na Tabela 3.3 .

Tabela 3.3 - Estatsticas descritivas para idade de motoristas e cobradores.

Grupo n DP (anos) CV
X (anos)
Motoristas 150 35,6 7,08 0,199 (19,9%)
Cobradores 50 22,6 3,11 0,137 (13,7%)
Fonte: dados fictcios

Os motoristas so, em mdia, 13 anos mais velhos do que os cobradores. Ao compararmos o


grau de disperso dos dois grupos usando o desvio-padro, concluiramos que os motoristas so
menos homogneos quanto idade do que os cobradores. Ao fazermos isso, estamos
esquecendo que, apesar de estarem em unidades iguais, as medidas de idade nos dois grupos
variam em escalas diferentes. As idades dos motoristas variam em torno dos 35 anos e podem
chegar at a 18 anos (idade mnima para se conseguir a habilitao), numa amplitude de 17
unidades. Enquanto isso, as idades dos cobradores variam em torno de 22 anos e tambm s
podem chegar at a 18 anos, uma amplitude de apenas 4 anos. Assim, os motoristas tm a
possibilidade de ter um desvio-padro maior do que o dos cobradores. Se levarmos em conta a
escala de medida, usando o coeficiente de variao, veremos que os motoristas so somente um
pouco mais heterogneos (dispersos) quanto idade do que os cobradores.

b) Comparao da homogeneidade entre variveis diferentes em um mesmo grupo.

Na mesma pesquisa do item (a), foram coletados dados para outras variveis, como tempo
de profisso e salrio, cujas as estatsticas descritivas para o grupo de motoristas so apresentadas
na Tabela 3.4.

Tabela 3.4 - Estatsticas descritivas para idade, tempo de profisso salrio de motoristas.

Varivel DP CV
X
Idade 35,6 anos 5,08 anos 0,143 (14,3%)
Tempo de profisso 6,5 anos 2,98 anos 0,458 (45,8%)
Salrio 537,52 reais 25,34 reais 0,047 (4,7%)

Gostaramos de saber em qual das variveis os motoristas so mais parecidos entre si. Essa
informao conseguida atravs da anlise da variabilidade, procurando-se a varivel mais
homognea. Se usarmos o desvio-padro nessa anlise, alm de no considerarmos as diferentes
escalas de medidas, estaremos fazendo comparaes um tanto estranhas, pois, como comparar
anos com reais? Desse modo, o coeficiente de variao a nica opo nesse caso, pois ele
adimensional. Ao analisarmos os CVs das trs variveis, concluiremos que os motoristas so mais
homogneos quanto ao salrio. Uma pessoa desatenta, usando o desvio-padro, escolheria o
tempo de profisso como a mais homognea, que, na verdade, a mais heterognea.

Classificao do grau de homogeneidade da varivel atravs do coeficiente de variao

Quanto menor o coeficiente de variao, mais homognea a varivel naquele conjunto de


dados. A definio do que pode ser considerado pouco ou muito homogneo segundo o
coeficiente de variao varia de acordo com a rea de estudo de onde provm os dados.
Em geral, um coeficiente de variao menor de que 0,25 indica uma varivel homognea.
Em populaes onde j se espera uma variabilidade maior entre os indivduos, essas faixas de
homogeneidade devem ser redefinidas. Espera-se, por exemplo, que as notas de um processo
seletivo como o vestibular tenham uma alta variabilidade, devido aos diferentes nveis de
preparao das pessoas que prestam os exames. Nesse caso, se uma determinada prova
consegue um coeficiente de variao de 0,27, por exemplo, isto pode significar um grau de
homogeneidade razovel. Depois de alguma experincia analisando esse tipo de dado,
consegue-se definir faixas de homogeneidade.
19

Exemplo 3.6: Trs grupos de ces machos de raas diferentes, porm criados para a mesma
utilidade (ces de guarda), foram submetidos a um teste de fora da mordida, medida em
3
toneladas por cm . As medidas-sntese de tendncia central e variabilidade so apresentadas na
Tabela 3.5.
3
Tabela 3.5 - Estatsticas descritivas para fora de mordida (ton/cm ) de trs raas de ces.

Raa DP CV
X
I 1,5 0,6 0,40
II 2,4 0,6 0,25
III 2,2 0,3 0,14
Fonte: dados fictcios

Os ces da raa II so, em mdia, os mais fortes e os da raa III so os mais homogneos
(menor CV). Se uma pessoa est interessada em criar ces de guarda, deveria optar pelos ces
da raa III, que, embora um pouco mais fracos do que os da raa II, so mais parecidos entre si.
3
Isto , as crias de ces dessa raa tm uma fora que varia pouco em torno de 2,2 ton/cm ,
enquanto os da raa II so, em mdia, um pouco mais fortes, porm podem variar mais em torno
desse valor mdio, tanto para valores mais altos como para valores mais baixos.

Embora seja uma medida de variabilidade bastante usada, o desvio-padro nem sempre a
medida mais adequada. Quando a mdia no a medida de tendncia central mais indicada
(por causa da presena de valores extremos, por exemplo), o desvio-padro e,
consequentemente, o coeficiente de variao, tambm no so indicados para medir a
variabilidade, pois ambos dependem da mdia e sofrem dos mesmos problemas que ela. Desse
modo, existem medidas de variabilidade alternativas, que sero apresentadas oportunamente
neste texto, pois dependem de conceitos ainda no trabalhados at o momento.

3.4. Regra do Desvio-Padro para Dados com Distribuio Simtrica

Quando a distribuio dos dados simtrica, existe uma regra que nos permite determinar a
freqncia de dados contidos em certos intervalos construdos a partir do conhecimento da
mdia e do desvio-padro. Os intervalos mais comuns so aqueles simtricos em torno da mdia
e que se afastam dela por um, dois ou trs desvios-padro, para a direita e para a esquerda,
como ilustra a Figura 3.4.
Essa regra pode ter os mais variados usos como, por exemplo, na classificao de um valor
como extremo. Pela regra, 99,7% dos dados esto contidos no intervalo de trs desvios-padro a
partir da mdia. Se um valor est fora desse intervalo, pode ser considerado extremo por essa
3
regra e merecer uma ateno especial .

Exemplo 3.7: Numa certa populao, os recm-nascidos (de gestaes nicas de 37 semanas
sem intercorrncias) tm peso mdio de 3000g e um desvio-padro de 250g, sendo a distribuio
dos pesos simtrica em torno dessa mdia. Assim, podemos concluir que 68,3% dos recm-
nascidos pesam entre 2750g e 3250g, 95,4% deles pesam de 2500g a 3500g e 99,7% desses bebs
pesam de 2250g a 3750g.

Os intervalos deste exemplo podem servir como faixas de referncia para o peso de bebs
nascidos de gravidez normal. Uma faixa de referncia para uma determinada caracterstica um
intervalo de valores considerados tpicos para uma certa porcentagem da populao
considerada sadia . O intervalo de 2500 g a 3500g pode ser visto como uma faixa de referncia
de 95,4% para o peso de bebs vindos de gravidez normal, pois 95,4% desses bebs nascem com
pesos nesse intervalo.
Outros exemplos de faixas de referncia podem ser encontrados em resultados de exames
clnicos, onde apresentada, juntamente com o resultado do indivduo, a faixa de referncia (ou
normalidade) para a caracterstica em exame. Um indivduo com resultado fora da faixa de
referncia deve ser investigado. No exemplo dos recm-nascidos, aqueles que nascem com peso

3
Existem outros mtodos para deteco de valores extremos (ou discrepantes), que sero apresentados mais adiante.
20 Edna Afonso Reis e Ilka Afonso Reis

fora da faixa de referncia de 95,4% esto entre os 2,3% mais (ou menos) pesados. Descartada a
possibilidade de erro, podem pertencer a populao sadia , porm, mais provvel que
tenham vindo de uma populao centrada em outro valor mdio, no considerada sadia , e
devem ser investigados.
A regra para dados de distribuio simtrica nos fornece faixas de referncia de 68,3%, 95,4%
e 99,7%. Podemos construir faixas de referncia com outros percentuais e este assunto ser
abordado mais adiante.

Figura 3.4 Ilustrao da regra do desvio padro para dados com distribuio simtrica.
21

4. Medidas de Posio
  
        !"#

$ %'&)(+* ,- . /,* .0*2143 5 6 78:92;<
= >?@ A0BCBDBFE G HIKJ LIKGMONOP?A2QRGLSJ LRA:TA2IVUGWWXJ2QY"GM
Z []\X^ _ `

Quando falamos de posio ou colocao de um indivduo em uma corrida ou em um teste


o o o o
como o Vestibular, freqentemente nos referimos ao seu posto, como 1 , 2 , 3 , 29 ou ltimo lugar.
Mas como vimos na estria acima, para sabermos se uma dada colocao ou no um bom
resultado, precisamos informar quantos indivduos participaram da corrida ou do Vestibular.
As duas medidas de posio que veremos aqui, os percentis e os escores padronizados,
solucionam este e outros problemas de posicionamento (ranking). A posio de um indivduo no
conjunto de dados mostrada, pelo percentil, contando-se (em porcentagem) quantos
indivduos do conjunto tm valores menores que o deste indivduo. O escore padronizado mostra
a posio do indivduo em relao mdia de todos os indivduos do conjunto de dados,
considerando tambm a variabilidade de tais medidas.
Como veremos, estas duas medidas de posio podem ser usadas para comparar a posio
do indivduo em diferentes conjuntos de dados, nos quais foram medidas as mesmas variveis ou
variveis diferentes. Veremos tambm que os escores padronizados de um indivduo calculados
de diferentes variveis podem ser combinados para gerar a posio global do indivduo.

4.1. Percentis

Quando dizemos que certo aluno est entre os 5% melhores do colgio ou que um pas est
entre os 10% mais pobres, no precisamos nem saber quantos alunos tem o colgio ou em
quantos pases esto sendo consideradas as rendas. Aqui j houve uma padronizao da posio
usando-se a porcentagem de alunos ou pases com desempenho ou renda abaixo do valor
considerado. este raciocnio que define os percentis.

Definio:

O percentil de ordem K (onde k qualquer valor entre 0 e 100), denotado por Pk, o valor tal que
K% dos valores do conjunto de dados so menores ou iguais a ele.

Assim, o percentil de ordem 10, o P10, o valor da varivel tal que 10% dos valores so
menores ou iguais a ele; o percentil de ordem 65 deixa 65% dos dados menores ou iguais a ele,
etc.
Os percentil de ordem 10, 20, 30, ... 90 dividem o conjunto de dados em dez partes com
mesmo nmero de observaes e so chamados de decis.
Os percentis de ordem 25, 50 e 75 dividem o conjunto de dados em quatro partes com o
mesmo nmero de observaes. Assim, estes trs percentis recebem o nome de quartis primeiro
quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3), respectivamente. O segundo quartil a j
conhecida mediana.
Existem vrios processos para calcular os percentis, usando interpolao. Vamos ficar com um
mtodo mais simples, mostrado na Figura 3.5 a seguir. As diferenas sero muito pequenas e
desaparecero medida que aumenta o nmero de dados.
22 Edna Afonso Reis e Ilka Afonso Reis

Figura 3.5 - Determinao do Percentil de ordem K (Triola, 1996).


 


    ! "

#%$& ' (& )+*,-/. 0132%254/67


8:9<;=>?@A>; B?=C ?D3E F G
HJIKH LMNOPRQN S3TU P ONV

acb]bdef g]ed+hijb jf kljm f b  W X


< ]  %
n o3p]qn rsRtun vxw r yz5n ts:{ Y Z3[]\Y ^_ ` 3 J  R
|~}]   J   5/ ] 
]     3]R 

Exemplo 4.1: Considere as notas finais dos 40 candidatos ao curso de Direito no Vestibular de
certa faculdade, j colocadas em ordem crescente:
40 41 42 42 44 47 48 48 49 49 51 52 53 58 59 62 63 64 65 66
67 68 69 70 75 76 83 83 85 86 86 87 87 88 92 93 94 95 97 98
Vamos calcular alguns percentis.
Percentil de ordem 10: 10% de 40 = 4. Ento o P10 = mdia(4 e 5 valores)=(42+44)/2 = 43.
o o

o o
Percentil de ordem 95: 95% de 40 = 38. Ento o P95 = mdia(38 e 39 valores)=(95+97)/2 = 96.
o o
Primeiro Quartil: 25% de 40 = 10. Ento o Q1 = mdia(10 e 11 valores)=(49+51)/2 = 50.
o o
Terceiro Quartil: 75% de 40 = 30. Ento o Q3 = mdia(30 e 31 valores)=(86+86)/2 = 86.
o o
Mediana: 50% de 40 = 20. Ento mediana = mdia(20 e 21 valores)=(66+67)/2 = 66,5.

A ogiva o grfico representativo dos percentis. Dada a ogiva, podemos determinar


quaisquer percentis. Na Figura 3.6, temos as ogivas para peso de ursos marrons machos e fmeas
do Exemplo Inicial (RTE04-2001). Partindo do valor 125kg, podemos ver que corresponde ao
percentil de ordem 70 para os machos e de ordem 95 para as fmeas. Partindo da freqncia
acumulada de 50%, podemos ver que 80kg a mediana do peso dos machos e 65kg a
mediana do peso para as fmeas.

Figura 3.6: Ogiva para peso de urso marrons, segundo sexo.


23

4.2. Escores Padronizados

Os escores padronizados so medidas que, calculadas para cada observao do conjunto


de dados, nos permitem fazer comparaes entre valores de variveis medidas em escalas
diferentes. Vejamos um exemplo.

Exemplo 4.2: (Dados fictcios) Os 20 alunos da oitava srie de uma escola foram submetidos,
pelo seu professor de Educao Fsica, a cinco testes de aptido fsica e a um teste de
conhecimento desportivo:

1- Abdominal: nmero de abdominais realizados em 2 minutos;


2- Salto em extenso: comprimento do salto (centmetros);
3- Suspenso de braos flexionados: tempo em suspenso (segundos);
4- Corrida: distncia (em metros) percorrida em 12 minutos ;
5- Natao: tempo (em segundos) para nadar 50 metros;
6- Conhecimento desportivo: prova escrita (0 a 100 pontos).

Os resultados dos seis testes para os 20 alunos da turma so mostrados no Quadro 4.1 a seguir.

4
Quadro 4.1: Resultados (escores originais) dos 20 alunos nos seis testes.

Aluno Abdominal Salto Suspenso Corrida Natao Conhecimento


Pedro 34 108 64 1989 34 64
Joo 30 88 33 1461 32 82
Manuel 27 87 23 1333 27 66
Maria 25 94 12 1858 29 78
Vincius 26 102 10 1986 30 68
Luiza 27 80 16 1267 32 84
Marina 28 90 20 1743 33 76
Camila 28 92 27 1833 31 71
Guido 29 71 30 1255 29 72
Brbara 29 88 36 1503 35 75
Luiz 30 89 42 1600 28 77
Gabriela 30 90 39 1747 31 76
Antnio 30 98 45 1930 33 74
Daniele 31 84 48 1276 30 73
Marcelo 31 91 51 1716 25 81
Rodrigo 32 70 57 1054 27 69
Luciana 32 89 54 1535 28 74
Rafael 33 74 60 1084 30 86
Flvia 33 106 67 1968 26 79
Ana 35 69 67 1019 30 75

Vamos tentar resolver algumas questes propostas pelo professor sobre o desempenho dos
alunos nos testes:

o
Questo n 1: Em um dado teste, qual foi o aluno de melhor desempenho ? E de pior
desempenho? Como se poderia classificar os alunos de acordo com seu desempenho em um
dado teste ?

4
Por razes didticas, os alunos esto identificados pelo nome. No entanto, numa anlise de dados, a identidade das
unidades de anlise (neste caso, os alunos) deve ser mantida em sigilo, por questes ticas.
24 Edna Afonso Reis e Ilka Afonso Reis

Esta fcil. No teste de abdominal, por exemplo, a Ana se saiu melhor, pois fez mais
abdominais no tempo marcado, enquanto a Maria, que fez o menor nmero de abdominais, teve
o pior desempenho da turma neste teste.
Assim, o aluno com o melhor desempenho em um teste aquele que obteve o maior escore
no teste, exceto para o de natao, onde o melhor desempenho do aluno que fez o menor
tempo. Para cada teste, os alunos poderiam ser classificados de acordo com seu desempenho
naquele teste (do melhor para o pior) simplesmente ordenando os valores de seus escores
naquele teste (do menor para o maior, no caso da natao, ou o contrrio, para os outros testes).
O Quadro 4.1 mostra os alunos com o melhor e pior desempenho da turma em cada teste.

Quadro 4.1: Alunos com o melhor e o pior desempenho em cada teste.


Teste Pior Desempenho Melhor desempenho
Nmero de abdominais em 2 minutos Maria Ana
Salto em extenso (centmetros) Ana Pedro
Suspenso de braos flexionados (segundos) Vincius Flvia e Ana
Distncia percorrida em 12 minutos (metros) Ana Pedro
Natao de 50 metros (segundos) Brbara Marcelo
Conhecimento desportivo (0 a 100 pontos) Pedro Rafael

o
Questo n 2 Para um dado aluno, em qual teste onde ele se saiu melhor (ou pior) em relao
turma ? Como se poderia classificar os testes de acordo com o desempenho de
um dado aluno ?

Vamos definir o desempenho geral da turma em um teste como sendo o escore mdio de
todos os alunos naquele teste:
Teste Mdia da turma
Abdominais em 2 minutos 30 abdominais
Salto em extenso 88 centmetros
Suspenso de braos flexionados 40 segundos
Corrida em 12 minutos 1558 metros
Natao de 50 metros 30 segundos
Conhecimento desportivo 75 pontos

Inicialmente, podemos pensar em classificar o desempenho de um aluno em um teste como


bom se seu escore ficou acima da mdia da turma (abaixo, para o teste de natao), e como
ruim se seu escore ficou abaixo da mdia da turma (acima, para o teste de natao).

O resultado da mdia
Teste ... Desempenho
est da turma
Abdominal: 34 30 = 4 abdominais Acima bom
Salto: 108 88 = 20 centmetros Acima bom
Para o Pedro:
Suspenso: 64 40 = 24 segundos Acima bom
Corrida: 1989 1558 = 431 metros Acima bom
Natao: 34 30 = 4 segundos Acima ruim
Conhecimento: 64 75 = -11 pontos Abaixo ruim

Agora sabemos que h quatro testes em que o Pedro foi bem em relao turma, mas como
saber em qual destes ele testes teve o melhor desempenho ? No podemos comparar
diretamente seus escores em cada teste, pois esto em unidades de medida diferentes.
Alm disso, no basta saber que, em um dado teste, ele ficou acima da mdia, mas tambm
o quo distante da mdia em relao variabilidade dos resultados da turma. No esquema da
Figura 3.7, temos um aluno com o mesmo escore original em um teste feito em duas turmas onde
a mdia dos resultados foi a mesma, mas com variabilidades diferentes. Assim, para este aluno,
embora a distncia, em valores absolutos, de seu resultado mdia tenha sido a mesma nas duas
turmas, ele se saiu melhor na primeira, pois h menos alunos com escore to alto quanto o seu. Em
outras palavras, como h menos variabilidade na primeira turma, um escore alto provoca maior
efeito e m termos de posio.
25

Figura 3.7: Esquema comparativo da posio relativa de um valor de escore original em


duas distribuies de freqncia com mesma mdia mas diferentes variabilidades.

Uma soluo para estes dois problemas unidades de medida diferentes e necessidade de
se levar em conta a variabilidade dos resultados da turma quando da comparao dos
resultados de um aluno entre os vrios teste dividir a distncia entre o escore original e a mdia
da turma pelo desvio-padro da turma no dado teste. Assim, temos:

Teste Mdia Desvio-Padro


Abdominais em 2 minutos 30 abdominais 3 Abdominais
Salto em extenso 88 centmetros 11 Centmetros
Suspenso de braos flexionados 40 segundos 18 Segundos
Corrida em 12 minutos 1558 metros 327 Metros
Natao de 50 metros 30 segundos 3 Segundos
Conhecimento desportivo 75 pontos 6 Pontos

Teste (escore original mdia)/desvio padro


Abdominal: (34 30)/3 = 1,33
Salto: (108 88)/11 = 1,82
Para o Pedro: Suspenso: (64 40)/18 = 1,33
Corrida: (1989 1558)/327 = 1,32
Natao: (34 30)/3 = 1,33
Conhecimento: (64 75)/6 = -1,83

Agora temos medidas de desempenho do Pedro em cada teste, que so adimensionais e,


assim, podemos fazer um ranking entre os testes, comparando diretamente estas medidas
(lembrando que, no teste de natao, quanto menor o valor menor, melhor o desempenho do
aluno):

Ordenao dos testes, do melhor para o pior, segundo o desempenho do aluno Pedro
Salto Abdominais/Suspenso Corrida Natao Conhecimento
26 Edna Afonso Reis e Ilka Afonso Reis

Esta conta que fizemos para o Pedro chama-se escore padronizado.

Definio:

O escore padronizado de um aluno em um teste calculado como:

EscoreOriginal Mdia
EscorePadronizado =
DesvioPadro

onde mdia e desvio padro so calculados para cada teste usando os escores originais de
todos os 20 alunos naquele teste.

O Quadro 4.2 mostra os escores padronizados dos 20 alunos nos seis testes.

Quadro 4.2: Escores padronizados dos 20 alunos nos seis testes.


Abdomina Conheciment
Aluno l Salto Suspenso Corrida Natao o
Pedro 1,33 1,82 1,33 1,32 1,33 -1,83
Joo 0,00 0,00 -0,39 -0,30 0,67 1,17
Manuel -1,00 -0,09 -0,94 -0,69 -1,00 -1,50
Maria -1,67 0,55 -1,56 0,92 -0,33 0,50
Vincius -1,33 1,27 -1,67 1,31 0,00 -1,17
Luiza -1,00 -0,73 -1,33 -0,89 0,67 1,50
Marina -0,67 0,18 -1,11 0,57 1,00 0,17
Camila -0,67 0,36 -0,72 0,84 0,33 -0,67
Guido -0,33 -1,55 -0,56 -0,93 -0,33 -0,50
Brbara -0,33 0,00 -0,22 -0,17 1,67 0,00
Luiz 0,00 0,09 0,11 0,13 -0,67 0,33
Gabriela 0,00 0,18 -0,06 0,58 0,33 0,17
Antnio 0,00 0,91 0,28 1,14 1,00 -0,17
Daniele 0,33 -0,36 0,44 -0,86 0,00 -0,33
Marcelo 0,33 0,27 0,61 0,48 -1,67 1,00
Rodrigo 0,67 -1,64 0,94 -1,54 -1,00 -1,00
Luciana 0,67 0,09 0,78 -0,07 -0,67 -0,17
Rafael 1,00 -1,27 1,11 -1,45 0,00 1,83
Flvia 1,00 1,64 1,50 1,25 -1,33 0,67
Ana 1,67 -1,73 1,50 -1,65 0,00 0,00

O escore padronizado mede a distncia do escore original mdia em nmero de desvios-


padro. Assim, nos testes de abdominais e natao, o Pedro est 1,33 desvios-padro acima da
mdia de sua turma, o que significa um bom resultado em abdominais, mas um resultado ruim em
natao. Note que o conjunto de escores padronizados em um teste tm mdia igual a zero e
desvio padro-igual a 1.

o
Questo n 3: Como se poderia resumir, em um nico nmero, o desempenho do aluno em todos
os testes (desempenho global) ? Como se poderia classificar os alunos de acordo com seu
desempenho global ?

Se o professor desejar calcular, para cada aluno, um nico nmero, um ndice, que expresse o
desempenho global do aluno em todos os testes, ele deve usar os escores padronizados, pois j
sabemos que so medidas adimensionais. Ele poderia calcular, por exemplo, a mdia dos escores
27

padronizados, lembrando-se de inverter o sinal do escore padronizado do teste de natao. Para


o Pedro, temos:
(1,33) + (1,82) + (1,33) + (1,32) + (1,33) + (1,83) 2,64
DGPedro = = = 0,44
6 6
Fazendo o mesmo clculo para os demais alunos, temos o seguinte ranking dos alunos segundo
seu desempenho global, do melhor para o pior:

Flvia (1,23), Marcelo (0,73), Pedro (0,44), Luciana (0,33), Luiz (0,22), Rafael (0,20), Antnio (0,19),
Gabriela (0,09), Joo e Ana (-0,03), Daniele (-0,13), Maria (-0,15), Camila (-0,20), Vincius e Rodrigo
(-0,26), Marina (-0,31), Brbara (-0,40), Luiza (-0,52), Manuel (-0,54), Guido (-0,59).

Suponha que, na definio da medida para o desempenho global de cada aluno, o


professor queira dar mais peso queles testes com maior poder de discriminao entre os alunos, ou
seja, dar mais peso aos testes com resultados mais heterogneos entre os 20 alunos. Uma sugesto
utilizar uma mdia ponderada dos escores padronizados, usando como peso de cada teste seu
coeficiente de variao (CV), pois, sabemos que esta uma medida de variabilidade adimensional.
Assim, temos:

Teste CV da turma
Abdominais em 2 minutos 0,10
Salto em extenso 0,13
Suspenso de braos flexionados 0,45
Corrida em 12 minutos 0,21
Natao de 50 metros 0,10
Conhecimento desportivo 0,08

Chamando de Z1, Z2, Z3, Z4, Z5 e Z6 o escore padronizado de cada teste, a frmula do ndice de
Desempenho Global Ponderado (DGP) pelo coeficiente de variao descrita abaixo:

DGP = (0,10 Z1) + (0,13 Z2 ) + (0,45 Z3 ) + (0,21 Z4 ) + (0,10 (Z5 )) + (0,08 Z6) .
0,10+ 0,13+ 0,45+ 0,21+ 0,10+ 0,08

Como exemplo, para o aluno Pedro, temos:

0 10 1,33) + (0,13 1,82) + (0,45 1,33) + (0,21 1,32) + (0,10 1,33) + (0,08 1,83) 0,96
DGPPedro= ( , = = 0,90
1,07 1,07

Fazendo o mesmo clculo para os demais alunos, temos o seguinte ranking dos alunos
segundo seu desempenho global ponderado, do melhor para o pior:
Flvia (1,34), Pedro (0,90), Marcelo (0,65), Luciana (0,44), Antonio (0,34), Rafael (0,26), Ana (0,25),
Luiz (0,17), Gabriela (0,09), Daniele e Rodrigo (-0,02), Joo (-0,20), Camila (-0,24), Brbara (-0,31),
Marina (-0,48), Maria e Vincius (-0,50), Guido (-0,64), Manuel (-0,66), Luiza (-0,87).
28 Edna Afonso Reis e Ilka Afonso Reis

5. O Boxplot

O Boxplot um grfico proposto para a deteco de valores discrepantes (outliers), que so


aqueles valores muito diferentes do restante do conjunto de dados.
Esses valores discrepantes podem representar erros no processo de coleta ou de
processamento dos dados, e, nesse caso, devem ser corrigidos ou excludos do banco de dados.
No entanto, os outliers podem ser valores corretos, que, por alguma razo, so muito
diferentes dos demais valores. Nesse caso, a anlise desses dados deve ser cuidadosa, pois, como
sabemos, algumas estatsticas descritivas, como a mdia e o desvio-padro, so influenciadas por
valores extremos.
Na construo do Boxplot, utilizamos alguns percentis (mediana, primeiro e terceiro quartis),
que so pouco influenciados por valores extremos. Alm disso, precisamos saber quais so os
valores mnimo e mximo do conjunto de dados.
O Boxplot constitudo por uma caixa atravessada por uma linha, construdo usando um eixo
com uma escala de valores, como mostra a Figura 5.1. O fundo da caixa marcado na escala de
valores na altura do primeiro quartil (Q1). O topo da caixa marcado na altura do terceiro quartil
(Q3). Uma linha traada dentro da caixa na altura da mediana, que no precisa estar
necessariamente no meio da caixa. Como sabemos, entre o primeiro e o terceiro quartis, temos
50% dos dados. Podemos pensar, ento, que essa caixa contm metade dos dados do conjunto.
A altura da caixa dada por (Q3 - Q1), que denominada distncia interquartlica (DQ).

Figura 5.1 Representao esquemtica do Boxplot (vertical)

Outlier
*
Esta linha se estende at o
maior valor do conjunto
Escala de valores

dentro do Limite Superior

3 quartil

Mediana

1 quartil Esta linha se estende at o


menor valor do conjunto
dentro do Limite Inferior

Como um grfico tem que representar todos os valores do conjunto de dados, precisamos
representar os outros 50%, sendo 25% abaixo do Q1 e 25% acima do Q3. Esses valores sero
representados pelas duas linhas que saem das extremidades da caixa. Cada uma das linhas
traada, a partir das extremidades da caixa, at que:

Encontre o valor mximo (linha superior) ou mnimo (linha inferior) ou


Atinja o maior valor dentro do limite superior (Q3 + 1,5 x DQ), no caso da linha superior,
e atinja o menor valor dentro do limite inferior (Q1 1,5 x DQ), no caso da linha inferior.

No esquema da Figura 5.1, a linha inferior do boxplot atendeu primeira condio,


encontrando o valor mnimo dos dados antes de atingir o comprimento mximo permitido (1,5 x
DQ). Assim, o limite inferior do boxplot coincide com o valor mnimo.
Caso a segunda situao ocorra, os valores que ainda no foram representados devem ser
devidamente marcados por um asterisco (*) em suas respectivas posies na escala de valores.
Foi o que ocorreu com o valor mximo no esquema da Figura 5.1, que no conseguiu ser includo
na linha superior do grfico. Esses valores so considerados outliers pelo critrio do boxplot.
Obviamente, o limite superior do boxplot no coincidiu com o valor mximo do conjunto de
dados, que foi considerado um valor discrepante (outlier).
Existem outros critrios para deteco de outliers, dos quais falaremos adiante.
29

5.1. Exemplo de Construo do Boxplot

Para exemplificar a construo do boxplot, utilizaremos os dados de peso dos ursos fmeas
do Exemplo Inicial (RTE04-2001, Anexo I).
Como pode ser calculado, os valores do primeiro, segundo e terceiro quartis para o peso
dos ursos fmeas so, respectivamente, 51,8 Kg, 61,1 Kg e 75,4 Kg. Assim, os limites da caixa so
marcados nos valores de Q1 e Q3, como mostra a Figura 5.2. A mediana marcada com uma
linha dentro da caixa na sua respectiva posio na escala de valores (61,1 Kg).
Para traarmos as linhas laterais do boxplot, precisamos calcular a distncia interquartlica
(DQ), que (75,4 51,8) = 23,6 . Desse modo, as linhas laterais podem ter comprimento mximo
de 1,5 x 23,6 = 35,4. Vejamos at onde podem ir as linhas laterais:

Linha da esquerda: Q1 1,5 x DQ = 51,8 1,5 x 23,6 = 51,8 35,4 = 16,4.


a linha da esquerda pode se estender at o valor 16,4.
Linha da direita: Q3 1,5 x DQ = 75,4 + 1,5 x 23,6 = 75,4 + 35,4 = 110,8.
a linha da direita pode se estender at o valor 110,8.

Como existem ursos com pesos inferiores a 16,4 Kg (11,8 Kg e 13,2 Kg), eles sero representados por
asteriscos colocados em suas respectivas posies. Do mesmo modo, sero representados os ursos
com pesos superiores a 110,8 Kg (143,5 Kg e 161,6 Kg).
Os valores de peso para essas quatro fmeas so considerados discrepantes (outliers) em
relao ao grupo, pelo critrio do boxplot, e devem ser investigados antes de se prosseguir a
anlise.

Figura 5.2 Boxplot (horizontal) do peso dos ursos fmeas.

Ursos Fmeas

0 50 100 150
Peso (Kg)

Investigando o conjunto de dados do Exemplo Inicial, descobrimos que as duas fmeas


menos pesadas (Addy e Ness), consideradas outliers, so as mais jovens (8 e 9 meses,
respectivamente). J as duas fmeas mais pesadas (Edith e Diane), tambm apontadas como
outliers, no so as mais velhas (70 e 82 meses, respectivamente), mas podem estar grvidas, um
dado do qual no dispomos nesse estudo. Caso essa suspeita possa ser confirmada, os dados de
peso devem ser analisados sem as fmeas Edith e Diane, pois elas esto numa situao especial.
Quanto aos bebs Addy e Ness, pode-se optar por analisar dos dados de peso desse grupo de
ursos separando-se os bebs dos ursos adultos.
Caso a opo seja analisar todos os ursos juntos, deve-se tomar cuidado em relao s
medidas descritivas usadas, como j discutimos anteriormente.
Obviamente, se os dados dos outliers (ou qualquer outro urso) forem considerados erros,
devem ser corrigidos se possvel. Se no, devem ser imediatamente excludos do conjunto de
dados.

5.2. Outras Aplicaes do Boxplot


30 Edna Afonso Reis e Ilka Afonso Reis

Alm da deteco de valores discrepantes, o boxplot pode ser muito til na anlise da
distribuio dos valores de um conjunto de dados.
Atravs do boxplot, podemos:

Identificar a forma da distribuio (simtrica ou assimtrica);


Avaliar e comparar a tendncia central (mediana) de dois ou mais conjuntos de dados;
Comparar a variabilidade de dois ou mais conjuntos de dados.

Para avaliar a forma da distribuio, devemos observar o deslocamento da caixa em relao


a linha do boxplot (Figura 5.3). Lembrando que a caixa do boxplot contm 50% dos dados, o seu
deslocamento na linha nos informa onde esto concentrados os dados.
Se a caixa est mais deslocada para um dos lados da linha, significa que metade dos dados
esto concentrados naquele lado da escala de valores e, assim, a distribuio assimtrica.
Se a caixa est praticamente no meio da linha, dividindo-a em duas partes iguais, distribuio
ser considerada simtrica.

Figura 5.3 Representao esquemtica das formas bsicas de uma distribuio


de freqncias utilizando-se histogramas e boxplots.

Assimtrica Simtrica Assimtrica


(concentrao esquerda) (concentrao direita)

Observando a Figura 5.4, notamos que a distribuio do peso dos ursos fmeas pode ser
considerada simtrica em torno do valor mediano do peso (61,1Kg), enquanto a distribuio do
peso dos ursos machos assimtrica com concentrao esquerda (valores menores).
Ao avaliar e comparar a variabilidade de conjunto de dados atravs do boxplot, devemos
observar a largura (ou altura) das caixas. No caso do peso dos ursos machos e fmeas, notamos
que a altura da caixa das fmeas bem menor do que a altura da caixa dos machos, indicando
que as fmeas so mais homogneas quanto ao peso, apesar de contar com quatro valores
atpicos. De fato, metade dos dados do conjunto de fmeas ocupa um espao bem menor na
escala de valores do que o espao ocupado por metade do conjunto de machos.
Finalmente, atravs da comparao dos boxplots para os pesos dos ursos machos e fmeas,
podemos concluir que os ursos fmeas possuem, em geral, pesos menores e mais homogneos do
que o peso dos ursos machos.
O fato de no termos detectado o aparecimento de outliers no grupo dos ursos machos
pode ser devido a sua grande variabilidade (altura da caixa), pois sabemos que o comprimento
mximo das linhas do boxplot depende do valor dessa altura (DQ). Quanto maior o DQ, maior a
possibilidade de que os valores extremos sejam includos na linha e, assim, no sejam considerados
como outliers.

Figura 5.4 Boxplot do peso (em Kg) dos ursos fmeas e machos
31

200

Peso
100

0
fmea macho
Sexo

5.3. Vantagens e Desvantagem do Boxplot

Alm de permitir analisar a forma da distribuio de freqncias de um conjunto de valores,


assim como a sua variabilidade e tendncia central, o boxplot uma forma mais prtica de
comparao entre dois ou mais grupos. Podemos representar vrios boxplots numa mesma figura,
enquanto isso no possvel quando utilizamos histogramas, por exemplo.
Outra vantagem do boxplot que ele pode ser feito para um nmero reduzido de dados,
enquanto histogramas (ou ogivas) no so recomendados quando o conjunto de dados
pequeno.
Apesar de suas muitas vantagens, o boxplot tem uma restrio: no deve ser usado quando a
distribuio de freqncias dos dados tiver mais de uma classe modal, ou seja, mais de um pico.
O uso do boxplot nesse caso esconder essa caracterstica da distribuio (Figura 5.5). Nessa
figura, notamos como o boxplot mascara o carter bimodal da distribuio atravs de uma falsa
simetria em torno da mediana dos dados, que, como sabemos, no melhor medida de
tendncia central no caso de distribuies multimodais.
Desse modo, recomendvel que se faa uma investigao sobre esse aspecto antes da
5
opo pelo boxplot. Um diagrama de ramo-e-folhas ou de pontos podem ser teis nessa tarefa .

Figura 5.5 Histograma e boxplot para uma distribuio de freqncias bimodal.

5
Na seo sobre histogramas (RTE04/2001), vimos que a distribuio do peso dos ursos machos bimodal, com
valores mais concentrados em torno da moda menor (Figura 4.13). Isto mascarado pelo boxplot da Figura 5.4 atravs
de uma indicao de assimetria esquerda. Essa assimetria no de todo falsa, mas a existncia de dois grupos (menos
pesados e mais pesados) escondida pelo boxplot. Nesse caso, o grfico mais indicado para a comparao dos dois
grupos seria o ramo-e-folhas, devido ao pequeno nmero de fmeas. A ttulo de exemplo de comparao entre boxplots,
manteremos o boxplot para os ursos machos da Figura 5.4 .
32 Edna Afonso Reis e Ilka Afonso Reis

5.4. Outros Exemplos de Construo de Boxplot

Exemplo 5.2: Ramo-e-folhas para renda mensal (em salrio mnimos) de chefes de famlias em
100 domiclios de uma comunidade (dados fictcios):

Acumulad
o
(4) 3 1259 4
(18) 4 0003344555556667788 22
(28) 5 0001122333344455555566678899 50
(28) 6 0001111112222233344455556667 78
(18) 7 111112233455566679 96
(4) 8 0128 100

Legenda: 3|1 = 3,1 salrios mnimos

Dados necessrios construo do grfico Boxplot:

Min = 3,1 Distncia Interquartlica DQ = Q3 Q1 = 6,6 5,0 = 1,6

Q1 = 5,0 1,5DQ = 1,5(1,6) = 2,4 (comprimento mximo da


linhas)

Mediana = 5,9
Limite Inferior Q1 1,5DQ = 5,0 2,4 = 2,6
Q3 = 6,6 2,6 < Min o Min est dentro do limite inferior
o Min ser o final da linha esquerda
Max = 8,8 Limite Superior Q3 + 1,5DQ = 6,6 + 2,4 = 9,0
9,0 > Max o Max est dentro do limite superior
o Max ser o final

1 2 3 4 5 6 7 8 9
Renda (em SM)

Como podemos notar no ramo-e-folhas, a distribuio de freqncias da renda das famlias


dessa comunidade bastante simtrica em torno do salrio mediano. O boxplot tambm reflete
essa caracterstica, posicionando sua caixa no meio da linha.
Nessa comunidade, metade das famlias recebem de 5 a 6,6 salrios-mnimos e apenas 25%
recebem mais de 6,6 salrios-mnimos.
33

Exemplo 5.3: Boxplot para deteco de valores discrepantes

Ramo-e-folhas para renda mensal (em salrio mnimos) de chefes de famlias em 101 domiclios de
uma outra comunidade (dados fictcios):
Ramo-e-folhas

(18) 1 125555666666677889
(35) 2 01112233444467889
(50) 3 002222334567899
(64) 4 0 1 2 3 4 46 6 6 6 7 7 8 9
(73) 5 001255689
(82) 6 001244567
(90) 7 00125588
(96) 8 011249
(99) 9 117
(100) 10 8
(100) 11
(101) 12 2
Legenda: 1|1 = 1,1 salrios mnimos.

Dados necessrios construo do grfico Boxplot:

Min = 1,1
Q1 : 25% de 101 = 25,3 (arredonda para cima: 26).
O Q1 26 valor
Q1 = 2,3
Mediana 50% de 101 = 50,5 (arredonda para cima: 51)
A mediana o 51 valor
Mediana = 4,0
Q3 : 75% de 101 = 75,8 (arredonda para cima: 66).
O Q3 76 valor
Q3 = 6,1
Max = 12,2

DQ = Q3 Q1 = 6,1 2,3 = 3,8

Comprimento mximo das linhas : 1,5 x DQ = 1,5 x (3,8) = 5,7

Limite inferior: Q1 1,5DQ = 2,3 5,7 = -3,4 (-3,4 menor do que o Min; o Min=1,1 ser
o final da linha esquerda)
Limite Superior: Q3 + 1,5DQ = 6,1 + 5,7 = 11,8 (o maior valor dentro do limite superior 10,8, que ser
o final da linha direita)

O valor mximo est fora do limite superior um outlier e ser marcado com um asterisco.

0 1 2 3 4 5 6 7 8 9 10 11 12 13
Renda (em SM)

A distribuio de freqncias da renda familiar nessa comunidade claramente assimtrica


com concentrao esquerda, o que pode ser visto pelo ramo-e-folhas e pelo deslocamento da
caixa do boxplot em direo ao lado esquerda da escala de valores. Do total de famlias dessa
comunidade, metade ganha at 4 salrios-mnimos e apenas 25% ganha mais do que 6,1 salrios-
mnimos.
34 Edna Afonso Reis e Ilka Afonso Reis

6. Comparao Grfica de Conjuntos de Dados


Com a introduo do boxplot, somamos cinco alternativas para a representao grfica de
um conjunto de dados quantitativos: histograma, ramo-e-folhas, ogiva, diagrama de pontos e
boxplot. Em sees anteriores, j discutimos os usos, as vantagens e desvantagens de cada uma
dessas alternativas. Nesta seo, discutiremos a representao grfica de mais de um conjunto
de dados com o objetivo de compar-los. Para isso, usaremos os dados de renda familiar da
comunidade do exemplo 5.2 e da comunidade do exemplo 5.3, sem a famlia de maior renda.

Histograma

Ao escolhermos o histograma, necessitaremos de uma figura para cada conjunto de dados.


Quando a quantidade de grupos a serem comparados maior do que dois, essa alternativa de
representao grfica se torna menos econmica e s deve ser escolhida, se, por outras razes, o
histograma for a melhor maneira de representar graficamente os dados.

Ramo-e-folhas
1 125555666666677889
2 01112233444467889
9521 3 002222334567899
8877666555554433000 4 0 1 2 3 4 46 6 6 6 7 7 8 9
9988766655555544433332211000 5 001255689
7666555544433322222111111000 6 001244567
976665554332211111 7 00125588
8210 8 011249
9 117
10 8

Legenda: | 1 | 2 : 1,2 salrios-mnimos


1 | 3 | : 3,1 salrios-mnimos

O ramo-e-folhas lado-a-lado uma boa alternativa quando se tem pares de grupos a serem
comparados. No entanto, torna-se tambm pouco econmica quando o nmero de pares
grande, pois necessitaremos de uma figura para cada par.
35

Boxplot Ogiva

O boxplot e a ogiva so alternativas que permitem a representao de vrios grupos numa


mesma figura, facilitando a comparao. medida que o nmero de grupos a serem
representados aumenta, o boxplot torna-se uma alternativa melhor do que a ogiva, onde um
grande nmero de linhas pode dificultar a interpretao do grfico. No boxplot, a adio de
grupos significa a adio de caixas numa mesma figura, o que requer apenas a diminuio da
largura dessas caixas (no boxplot vertical).
Alm dessas consideraes, a escolha da representao grfica mais adequada deve
considerar os objetivos da anlise descritiva, no sentido de facilitar a compreenso e
interpretao dos resultados.
36 Edna Afonso Reis e Ilka Afonso Reis

Referncias Bibliogrficas


Freund, J. E., Simon, G. A. (2000). Estatstica Aplicada, 9 edio, Editora Bookman.

Reis, E. A., Reis, I. A. (2001). Anlise Descritiva de Dados- Tabelas e Grficos. (Relatrio Tcnico
RTE04/2001) Departamento de Estatstica - ICEx Universidade Federal de Minas Gerais.

Triola, M. F. (1996). Introduo Estatstica, 7 edio, Editora LTC.

Das könnte Ihnen auch gefallen