Beruflich Dokumente
Kultur Dokumente
Relatrio Tcnico
RTP-02/2002
Srie Ensino
Universidade Federal de Minas Gerais
Instituto de Cincias Exatas
Departamento de Estatstica
1. Introduo 5
3. Medidas de Variabilidade 12
3.1. Amplitude Total 13
3.2. Desvio Padro 13
3.3. Coeficiente de Variao 16
3.4. Regra do Desvio Padro para Distribuies Simtricas 18
4. Medidas de Posio 20
4.1. Percentis 20
4.2. Escores Padronizados 22
5. O Boxplot 27
5.1. Exemplo de Construo 28
5.2. Outras Aplicaes do Boxplot 29
5.3. Vantagens e Desvantagem do Boxplot 30
5.4. Outros Exemplos de construo do Boxplot 31
Referncias Bibliogrficas 35
6 Edna Afonso Reis e Ilka Afonso Reis
1. Introduo
A coleta de dados estatsticos tem crescido muito nos ltimos anos em todas as reas de
pesquisa, especialmente com o advento dos computadores e surgimento de softwares cada vez
mais sofisticados. Ao mesmo tempo, olhar uma extensa listagem de dados coletados no permite
obter praticamente nenhuma concluso, especialmente para grandes conjuntos de dados, com
muitas caractersticas sendo investigadas.
A Anlise Descritiva a fase inicial deste processo de estudo dos dados coletados.
Utilizamos mtodos de Estatstica Descritiva para organizar, resumir e descrever os aspectos
importantes de um conjunto de caractersticas observadas ou comparar tais caractersticas entre
dois ou mais conjuntos de dados.
A descrio dos dados tambm tem como objetivo identificar anomalias, at mesmo
resultante do registro incorreto de valores, e dados dispersos, aqueles que no seguem a
tendncia geral do restante do conjunto.
No s nos artigos tcnicos direcionados para pesquisadores, mas tambm nos artigos de
jornais e revistas escritos para o pblico leigo, cada vez mais freqente a utilizao destes
recursos de descrio para complementar a apresentao de um fato, justificar ou referendar um
argumento.
As ferramentas descritivas so os muitos tipos de grficos e tabelas e tambm medidas de
sntese como porcentagens, ndices e mdias.
As ferramentas grficas e o uso de tabelas so abordados no Relatrio Tcnico RTE04-2001
(Anlise Descritiva de Dados - Tabelas e Grficos). Neste texto, abordaremos as medidas de
sntese numrica, usadas quando a varivel em questo do tipo quantitativa. Sero discutidas
as medidas de tendncia central, variabilidade e ainda as medidas de posio.
Ao sintetizarmos os dados, perdemos informao, pois no se tm as observaes originais.
Entretanto, esta perda de informao pequena se comparada ao ganho que temos com a
clareza da interpretao proporcionada.
Notao
[
soma de todas as observaes da amostra
(a letra grega o smbolo que indica soma).
Assim,
X =
Soma de todas as observaes do conjunto de dados
=
[
Exemplo 2.1: No conjunto de dados ( 3,0 ; 4,5 ; 5,5 ; 2,5 ; 1,3 ; 6,0 ), temos n = 6,
22,8
X = = 3,8
x i = 3,0 + 4,5 + 5,5 + 2,5 + 1,3 + 6,0 = 22,8 e 6
Se esses seis valores representassem, por exemplo, as quantidades de peixe pescado (em
toneladas) durante seis dias da semana, a quantidade tpica pescada por dia, naquela semana,
seria 3,8 toneladas. Como estamos representando o valor tpico pela mdia aritmtica, podemos
falar em quantidade mdia diria naquela semana.
Exemplo 2.2: No conjunto de dados ( 2,0 ; 3,3 ; 2,5 ; 5,6 ; 5,0 ; 4,3 ; 3,2 ), temos
Novamente, vamos imaginar que esses sete valores representam as quantidades de peixe
pescado por dia (em toneladas) durante uma semana inteira. Se quisermos representar a
quantidade tpica pescada por dia nessa semana usando a mdia, ento poderemos dizer que a
mdia diria de peixe pescado nessa semana foi de 3,7 toneladas. Essa mdia pode ser
comparada com a mdia diria da semana anterior, mesmo que se tenha trabalhado um dia a
mais nessa semana. Assim, conclumos que a produo diria mdia da semana anterior foi
ligeiramente superior produo diria mdia da semana deste exemplo.
8 Edna Afonso Reis e Ilka Afonso Reis
2.2. Mediana
Como medida de tendncia central, a mediana at mais intuitiva do que a mdia, pois
representa, de fato, o centro (meio) do conjunto de valores ordenados. Assim como a mdia, o
valor da mediana no precisa coincidir com algum dos valores do conjunto de dados. Em
particular, quando os dados forem de natureza contnua, essa coincidncia dificilmente ocorrer.
Nos exemplos 2.1 e 2.2, podemos dizer que a produo diria mediana foi de 3,75 toneladas de
peixe na primeira semana e de 3,3 toneladas na segunda semana.
2.3. Moda:
Uma maneira alternativa de representar o que tpico atravs do valor mais freqente
da varivel, chamado de moda.
1,8
No conjunto de dados
(1; 2 ; 3 ; 3 ; 4 ; 5 ; 5 ; 5 ; 5 ; 5), 1,3
h apenas uma moda, o valor 5.
O conjunto de dados unimodal.
0,8
1 2 3 4 5
1,8
No conjunto de dados
(1 ; 2 ; 2 ; 2 ; 2 ; 3 ; 4 ; 5 ; 6 ; 6 ; 6 ; 6 ; 7 ; 9), 1,3
existem duas modas, os valores 2 e 6.
O conjunto de dados bimodal 0,8
1 2 3 4 5 6 7 8 9
9
1,9
1,8
Nem sempre a moda existe ou faz sentido. 1,7
No conjunto de dados 1,6
1,5
(1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7; 8 ; 9 ) 1,4
1,3
no existe um valor mais freqente que os demais. 1,2
Portanto, o conjunto de dados amodal. 1,1
1
1 2 3 4 5 6 7 8 9
A mdia uma medida-resumo muito mais usada na prtica do que a mediana. Existem
vrias razes para essa popularidade da mdia, entre elas, a facilidade de tratamento estatstico
e algumas propriedades interessantes que a mdia apresenta, o que ficar mais claro quando
estudarmos os mtodos de estimao.
No entanto, a mdia uma medida muito influenciada pela presena de valores extremos
em um conjunto de dados (valores muito grandes ou muito pequenos em relao aos demais).
Como a mdia usa os valores de cada observao em seu clculo, esses valores extremos
p uxam o valor da mdia em direo a si, deslocando tambm a representao do centro,
que j no ser to central como deveria ser.
A mediana, por sua vez, no to influenciada por valores extremos, pois o que utilizamos
para calcul-la a ordem dos elementos e no diretamente seus valores. Assim, se um elemento
do conjunto de dados tem o seu valor alterado (um erro, por exemplo), mas sua ordem continua
a mesma, a mediana no sofre influncia nenhuma.
Vejamos um exemplo bastante esclarecedor dessas idias.
Exemplo 2.4: Salrio pago (em salrios-mnimos) aos 21 funcionrios de uma empresa.
A Figura 2.4 mostra o diagrama de pontos para os salrios pagos aos 21 funcionrios de uma
empresa e, logo abaixo, esto calculados os valores da mdia e mediana em duas situaes:
uma, considerando todos os funcionrios e outra, sem os quatro salrios mais altos. Na primeira
situao, a mdia est muito deslocada em direo aos mais altos salrios e no seria uma
medida-resumo adequada para representar os salrios pagos nessa empresa. A mediana
representa bem melhor a realidade, informando que pelo menos metade dos empregados
ganham at 4 salrios-mnimos.
claro que, dependendo do uso que se queira fazer da informao sobre os salrios dessa
empresa, emprega-se a mdia ou a mediana como medida de centro. Por exemplo, se os
administradores quisessem pintar um bom quadro para os salrios, escolheriam a mdia. J o
sindicato, em suas negociaes salariais, escolheria a mediana. Nenhum dos dois lados estaria
errado do ponto de vista estritamente tcnico, estariam apenas usando o que mais lhes convm.
Por esta e outras razes, que devemos estar atentos s estatsticas divulgadas, no sentido de
saber como foram calculadas e se, pela natureza dos dados, seriam a forma mais adequada
para a descrio do fenmeno estudado.
10 Edna Afonso Reis e Ilka Afonso Reis
Situao I: dados completos: Situao II: sem os quatro valores mais altos:
Mdia = 24,6 SM Mdia = 9,8 SM
Mediana = 4 SM Mediana = 3 SM
Uma alternativa para a anlise de conjunto de dados com observaes extremas usando a
mdia como medida de tendncia central analisar separadamente os dois grupos (valores
extremos e no extremos) que, quase sempre, podem ser criados a partir de informaes
externas. No exemplo dos salrios, poderamos criar dois grupos: o das pessoas que recebem 3 e 4
salrios-mnimos, que so provavelmente os operrios da empresa, e um outro grupo com os
demais empregados, que, a julgar pelos salrios, devem exercer funes administrativas ou de
gerenciamento. Em cada um dos grupos, no haveria mais valores extremos e a mdia pode ser
usada sem problemas.
No caso de poucos valores extremos, pode-se fazer a anlise do grupo sem esses valores e
justificar a retirada deles, porm, sem os esquecer.
A moda no uma medida de tendncia central muito conhecida, mas tem suas vantagens
em relao mdia e mediana, especialmente quando estamos lidando com variveis que
possuem distribuio de freqncias bimodais ou multimodais.
Exemplo 2.5: Considere uma pesquisa de opinio na qual foi perguntado a 26 pessoas de baixa
renda: Incluindo crianas e adultos, que tamanho de famlia voc acha ideal? . As respostas so
apresentadas na Tabela 2.1 e representadas graficamente na Figura 2.5.
11
Tabela 2.1 Distribuio de freqncias das respostas sobre o tamanho ideal de famlia.
Tamanho ideal da famlia 1 2 3 4 5 6 7 8 9 10
Freqncia da resposta 1 2 6 2 1 2 3 6 2 1
Figura 2.5 Diagrama de pontos para as respostas sobre o tamanho ideal de famlia.
De acordo com essa pesquisa de opinio, o tamanho mdio para a famlia ideal de 6
pessoas, assim como o tamanho mediano. No entanto, pela Figura 2.5, podemos notar
claramente que h dois grupos de pessoas: as que preferem famlias pequenas (at 5 pessoas) e
as que gostariam de famlias maiores (6 ou mais pessoas). A distribuio de freqncias das
respostas bimodal. A mdia nem mediana seriam boas medidas-resumo para a opinio dessas
pessoas.
A alternativa usar a moda e, nesse caso, h duas: os valores 3 e 8. Esses dois valores
representam melhor os valores tpicos desse conjunto de dados, alm de evidenciar uma diviso
na opinio desse grupo acerca do tamanho de famlia ideal.
Nesse exemplo, os valores 3 e 8 tm a mesma freqncia (6 respostas), caracterizando-se
como as duas modas. No entanto, mesmo que um dos valores tivesse uma freqncia um pouco
inferior (cinco ou quatro respostas), ainda assim poderia haver uma diviso de opinio dessas
pessoas. Nesse caso, seria melhor descrever esses dois grupos separadamente, fazendo essa
separao dos grupos, se possvel, por uma varivel externa, como, por exemplo, tamanho da
famlia do respondente. Curiosamente, poderamos encontrar que pessoas nascidas numa famlia
pequena prefeririam famlias grandes e vice-versa (mas essa s uma especulao).
Como j sabemos, a distribuio de freqncias de uma varivel pode ter vrias formas, mas
existem trs formas bsicas, representadas esquematicamente pelos histogramas da Figura 2.5.
Nesta figura, tambm est a posio de cada uma das medidas de tendncia central
apresentadas neste texto.
Quando uma distribuio simtrica em torno de um valor (o mais freqente, isto , a moda),
significa que as observaes esto igualmente distribudas em torno desse valor (metade acima e
metade abaixo) Ou seja, esse valor tambm a mediana. A mdia dessas observaes tambm
coincidir com a moda, que coincide com a mediana, pois, se as observaes valores esto
simetricamente distribudas em torno de um valor, a mdia delas ser esse valor. Assim, quando a
distribuio de freqncias uma varivel simtrica, as trs medidas de tendncia central tm o
mesmo valor.
Se a distribuio assimtrica com concentrao esquerda (ou cauda direita), a
mediana menor do que a mdia. Isto acontece porque a mediana puxada em dir eo
concentrao dos valores, enquanto a mdia puxada em direo cauda (valores
extremos).
12 Edna Afonso Reis e Ilka Afonso Reis
Simtrica
Assimtrica
(concentrao esquerda)
ou (cauda direita)
Assimtrica
(concentrao direita)
ou (cauda esquerda)
Desse modo, fcil deduzir o que ocorre quando a distribuio assimtrica com
concentrao direita (ou cauda esquerda): a mediana, puxada em direo
concentrao dos valores, maior do que a mdia, que influenciada pelos valores pequenos
da cauda.
13
3. Medidas de Variabilidade
Balana A
Balana B
Dois conjuntos de dados podem ter a mesma medida de centro (valor tpico), porm com
uma disperso diferente em torno desse valor. Desse modo, alm de uma medida que nos diga
qual o valor tpico do conjunto de dados, precisamos de uma medida do grau de disperso
(variabilidade) dos dados em torno do valor tpico.
O objetivo das medidas de variabilidade quantificar esse grau de disperso. Nesta seo,
apresentaremos trs dessas medidas (amplitude total, desvio-padro e coeficiente de variao),
discutindo suas vantagens e desvantagens. Em discusses posteriores, apresentaremos medidas
de variabilidade alternativas.
14 Edna Afonso Reis e Ilka Afonso Reis
A medida de variabilidade mais simples a chamada amplitude total (AT), que a diferena
entre o valor mximo e o valor mnimo de um conjunto de dados
AT = Mximo Mnimo
Exemplo 3.1: Medies do peso de uma esfera de 1000 g em duas balanas (A e B).
Balana A: Min = 945 g Balana B: Min = 895 g
Max = 1040 g Max = 1095 g
AT = 1040 - 945 = 95 g AT = 1095 - 895 = 200 g
A variabilidade das medies de peso da balana B maior que a variabilidade das medies
de peso da balana A (apesar do valor mdio ser igual)
Embora seja uma medida simples de variabilidade, a amplitude total um tanto grosseira,
pois depende somente de dois valores do conjunto de dados (mximo e mnimo), no captando
o que ocorre com os outros valores. Vejamos um exemplo.
Exemplo 3.2: A Figura 3.2 mostra o diagrama de pontos para os conjuntos de dados I e II:
Dados I: {2, 6, 7, 7, 10, 12, 13, 100}, AT1 = 100 2 = 98
Dados II: {2, 6, 10, 20, 35, 50, 80, 100}, AT2 = 100 2 = 98
As variabilidades desses dois conjuntos de dados so claramente diferentes. No entanto, apenas
usando a amplitude total para medi-las, concluiramos que os dois conjuntos de dados so
igualmente dispersos.
Embora a amplitude total sozinha no seja uma boa medida de variabilidade, pode ser
usada como uma medida auxiliar na anlise da disperso de um conjunto de dados. Pode
tambm medir o quanto do eixo de valores possveis para a varivel ocupado pelo conjunto de
dados observado.
Uma boa medida de disperso deve considerar todos os valores do conjunto de dados e
resumir o grau de disperso desses valores em torno do valor tpico.
Considerando a mdia como a medida de tendncia central, podemos pensar em medir a
disperso (desvio) de cada valor do conjunto de dados em relao ela. A medida mais simples
de desvio entre duas quantidades a diferena entre elas. Assim, para cada valor Xi, teremos o
seu desvio em relao X representado por (Xi - X ).
1 -3 9
1 -3 9
2 -2 4
3 -1 1
4 0 0
4 0 0
5 1 1
6 2 4
7 3 9
7 3 9
- 46
A idia do desvio-padro
Como temos um desvio para cada elemento, poderamos pensar em resumi-los em um desvio
tpico, a exemplo do que fizemos com a mdia. Porm, quando somarmos esses desvios para o
clculo do desvio mdio, a soma dar sempre zero, como mostrado na ltima linha da coluna 2.
Isto ocorre com qualquer conjunto de dados, pois os desvios negativos sempre compensam os
positivos.
No entanto, os sinais dos desvios no so importantes para nossa medida de disperso, j que
estamos interessados na quantidade de disperso em torno da mdia, mas no na direo dela.
1
Portanto, eliminaremos os sinais elevando os desvios ao quadrado , como mostrado na coluna 3. A
soma desses desvios ao quadrado pode ser, ento, dividida entre os participantes do bolo . Na
verdade, por razes absolutamente tericas, dividiremos essa soma pelo total de participantes
menos 1 (n-1). Assim, usando a notao definida anteriormente, teremos
n
(x
i =1
i x) 2
n 1
Para os dados da Tabela 3.1, teremos 46/(10-1) = 5,11. Esse valor pode ser visto como uma
quase-mdia dos desvios ao quadrado e chamado de varincia.
A varincia seria nossa medida de variabilidade se no fosse o fato de que ela est expressa
em uma unidade diferente da unidade dos dados, pois, ao elevarmos os desvios ao quadrado,
elevamos tambm as unidades de medida em que eles esto expressos. No caso dos dados da
Tabela 3.1, medidos em nmero de filhos, a varincia vale 5,11 filhos ao quadrado , algo que
no faz nenhum sentido.
Para eliminar esse problema, extramos a raiz quadrada da varincia e, finalmente, temos a
nossa medida de variabilidade, que chamaremos desvio-padro (DP) .
(x i x) 2
DP = i =1
n 1
O desvio-padro, como o nome j diz, representa o desvio tpico dos dados em relao
mdia, escolhida como medida de tendncia central. No exemplo 3.3, temos que o desvio-
padro vale 2,26. Isto significa que a distncia tpica (padro) de cada me at o nmero mdio
de filhos (4 filhos) de 2,26 filhos. Quanto maior o desvio-padro, mais diferentes entre si sero as
quantidades de filhos de cada me.
1
A funo mdulo | | tambm resolve o problema dos sinais (ex: |-3|=3). No entanto, do ponto de vista matemtico, a
funo quadrado mais fcil de ser tratada.
16 Edna Afonso Reis e Ilka Afonso Reis
170 175 180 185 190 195 200 200 200 205
Como podemos notar, nem todos os bifes de 200 gramas pesam realmente 200 gramas.
Esta variao natural e devida ao processo de produo dos bifes. No entanto, esses bifes
deveriam pesar cerca de 200 gramas e com pouca variao em torno desse valor. Com o auxlio
da Tabela 3.2, calcularemos a mdia e o desvio-padro.
Tabela 3.2 Clculo do desvio-padro para o exemplo dos bifes de 200 gramas.
i Xi Xi - X (Xi - X )
2
n n
xi Desvio ( xi x ) 2
1900
Mdia: x = i =1 = = 190 gramas Padro: s= i =1 =
1300
= 12 gramas
n 10 n 1 9
2
O chamado Controle Estatstico de Processos um conjunto de ferramentas estatsticas (grficos, medidas de centro e
de variabilidade) bastante usado no Controle da Qualidade Total em uma grande parte das indstrias nacionais e
internacionais.
17
Figura 3.3 Conjuntos de dados de mesmo tamanho, mesma mdia e variabilidades diferentes.
Tamanho de amostra: n = 10
Mdia = 5
GHVYLRSDGUmR
&9 =
PpGLD
Quanto menor o Coeficiente de Variao de um conjunto de dados, menor a sua
variabilidade. O Coeficiente de Variao expressa o quanto da escala de medida, representada
pela mdia, ocupada pelo desvio-padro.
O Coeficiente de Variao uma medida adimensional, isto , no depende da unidade de
medida. Essa caracterstica nos permite us-lo para comparar a variabilidade de conjuntos de
dados medidos em unidades diferentes, o que seria impossvel usando o desvio-padro.
Exemplo 3.5: Numa pesquisa em sade Sade Ocupacional, deseja-se comparar a idade de
motoristas e cobradores de nibus da regio metropolitana de Belo Horizonte. Algumas estatsticas
descritivas so apresentadas na Tabela 3.3 .
Grupo n DP (anos) CV
X (anos)
Motoristas 150 35,6 7,08 0,199 (19,9%)
Cobradores 50 22,6 3,11 0,137 (13,7%)
Fonte: dados fictcios
Na mesma pesquisa do item (a), foram coletados dados para outras variveis, como tempo
de profisso e salrio, cujas as estatsticas descritivas para o grupo de motoristas so apresentadas
na Tabela 3.4.
Tabela 3.4 - Estatsticas descritivas para idade, tempo de profisso salrio de motoristas.
Varivel DP CV
X
Idade 35,6 anos 5,08 anos 0,143 (14,3%)
Tempo de profisso 6,5 anos 2,98 anos 0,458 (45,8%)
Salrio 537,52 reais 25,34 reais 0,047 (4,7%)
Gostaramos de saber em qual das variveis os motoristas so mais parecidos entre si. Essa
informao conseguida atravs da anlise da variabilidade, procurando-se a varivel mais
homognea. Se usarmos o desvio-padro nessa anlise, alm de no considerarmos as diferentes
escalas de medidas, estaremos fazendo comparaes um tanto estranhas, pois, como comparar
anos com reais? Desse modo, o coeficiente de variao a nica opo nesse caso, pois ele
adimensional. Ao analisarmos os CVs das trs variveis, concluiremos que os motoristas so mais
homogneos quanto ao salrio. Uma pessoa desatenta, usando o desvio-padro, escolheria o
tempo de profisso como a mais homognea, que, na verdade, a mais heterognea.
Exemplo 3.6: Trs grupos de ces machos de raas diferentes, porm criados para a mesma
utilidade (ces de guarda), foram submetidos a um teste de fora da mordida, medida em
3
toneladas por cm . As medidas-sntese de tendncia central e variabilidade so apresentadas na
Tabela 3.5.
3
Tabela 3.5 - Estatsticas descritivas para fora de mordida (ton/cm ) de trs raas de ces.
Raa DP CV
X
I 1,5 0,6 0,40
II 2,4 0,6 0,25
III 2,2 0,3 0,14
Fonte: dados fictcios
Os ces da raa II so, em mdia, os mais fortes e os da raa III so os mais homogneos
(menor CV). Se uma pessoa est interessada em criar ces de guarda, deveria optar pelos ces
da raa III, que, embora um pouco mais fracos do que os da raa II, so mais parecidos entre si.
3
Isto , as crias de ces dessa raa tm uma fora que varia pouco em torno de 2,2 ton/cm ,
enquanto os da raa II so, em mdia, um pouco mais fortes, porm podem variar mais em torno
desse valor mdio, tanto para valores mais altos como para valores mais baixos.
Embora seja uma medida de variabilidade bastante usada, o desvio-padro nem sempre a
medida mais adequada. Quando a mdia no a medida de tendncia central mais indicada
(por causa da presena de valores extremos, por exemplo), o desvio-padro e,
consequentemente, o coeficiente de variao, tambm no so indicados para medir a
variabilidade, pois ambos dependem da mdia e sofrem dos mesmos problemas que ela. Desse
modo, existem medidas de variabilidade alternativas, que sero apresentadas oportunamente
neste texto, pois dependem de conceitos ainda no trabalhados at o momento.
Quando a distribuio dos dados simtrica, existe uma regra que nos permite determinar a
freqncia de dados contidos em certos intervalos construdos a partir do conhecimento da
mdia e do desvio-padro. Os intervalos mais comuns so aqueles simtricos em torno da mdia
e que se afastam dela por um, dois ou trs desvios-padro, para a direita e para a esquerda,
como ilustra a Figura 3.4.
Essa regra pode ter os mais variados usos como, por exemplo, na classificao de um valor
como extremo. Pela regra, 99,7% dos dados esto contidos no intervalo de trs desvios-padro a
partir da mdia. Se um valor est fora desse intervalo, pode ser considerado extremo por essa
3
regra e merecer uma ateno especial .
Exemplo 3.7: Numa certa populao, os recm-nascidos (de gestaes nicas de 37 semanas
sem intercorrncias) tm peso mdio de 3000g e um desvio-padro de 250g, sendo a distribuio
dos pesos simtrica em torno dessa mdia. Assim, podemos concluir que 68,3% dos recm-
nascidos pesam entre 2750g e 3250g, 95,4% deles pesam de 2500g a 3500g e 99,7% desses bebs
pesam de 2250g a 3750g.
Os intervalos deste exemplo podem servir como faixas de referncia para o peso de bebs
nascidos de gravidez normal. Uma faixa de referncia para uma determinada caracterstica um
intervalo de valores considerados tpicos para uma certa porcentagem da populao
considerada sadia . O intervalo de 2500 g a 3500g pode ser visto como uma faixa de referncia
de 95,4% para o peso de bebs vindos de gravidez normal, pois 95,4% desses bebs nascem com
pesos nesse intervalo.
Outros exemplos de faixas de referncia podem ser encontrados em resultados de exames
clnicos, onde apresentada, juntamente com o resultado do indivduo, a faixa de referncia (ou
normalidade) para a caracterstica em exame. Um indivduo com resultado fora da faixa de
referncia deve ser investigado. No exemplo dos recm-nascidos, aqueles que nascem com peso
3
Existem outros mtodos para deteco de valores extremos (ou discrepantes), que sero apresentados mais adiante.
20 Edna Afonso Reis e Ilka Afonso Reis
fora da faixa de referncia de 95,4% esto entre os 2,3% mais (ou menos) pesados. Descartada a
possibilidade de erro, podem pertencer a populao sadia , porm, mais provvel que
tenham vindo de uma populao centrada em outro valor mdio, no considerada sadia , e
devem ser investigados.
A regra para dados de distribuio simtrica nos fornece faixas de referncia de 68,3%, 95,4%
e 99,7%. Podemos construir faixas de referncia com outros percentuais e este assunto ser
abordado mais adiante.
Figura 3.4 Ilustrao da regra do desvio padro para dados com distribuio simtrica.
21
4. Medidas de Posio
!"#
$ %'&)(+* ,- . /,*.0*2143 5 6 78:92;<
= >?@A0BCBDBFEG HIKJ LIKGMONOP?A2QRGLSJ LRA:TA2IVUGWWXJ2QY"GM
Z []\X^ _`
4.1. Percentis
Quando dizemos que certo aluno est entre os 5% melhores do colgio ou que um pas est
entre os 10% mais pobres, no precisamos nem saber quantos alunos tem o colgio ou em
quantos pases esto sendo consideradas as rendas. Aqui j houve uma padronizao da posio
usando-se a porcentagem de alunos ou pases com desempenho ou renda abaixo do valor
considerado. este raciocnio que define os percentis.
Definio:
O percentil de ordem K (onde k qualquer valor entre 0 e 100), denotado por Pk, o valor tal que
K% dos valores do conjunto de dados so menores ou iguais a ele.
Assim, o percentil de ordem 10, o P10, o valor da varivel tal que 10% dos valores so
menores ou iguais a ele; o percentil de ordem 65 deixa 65% dos dados menores ou iguais a ele,
etc.
Os percentil de ordem 10, 20, 30, ... 90 dividem o conjunto de dados em dez partes com
mesmo nmero de observaes e so chamados de decis.
Os percentis de ordem 25, 50 e 75 dividem o conjunto de dados em quatro partes com o
mesmo nmero de observaes. Assim, estes trs percentis recebem o nome de quartis primeiro
quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3), respectivamente. O segundo quartil a j
conhecida mediana.
Existem vrios processos para calcular os percentis, usando interpolao. Vamos ficar com um
mtodo mais simples, mostrado na Figura 3.5 a seguir. As diferenas sero muito pequenas e
desaparecero medida que aumenta o nmero de dados.
22 Edna Afonso Reis e Ilka Afonso Reis
Exemplo 4.1: Considere as notas finais dos 40 candidatos ao curso de Direito no Vestibular de
certa faculdade, j colocadas em ordem crescente:
40 41 42 42 44 47 48 48 49 49 51 52 53 58 59 62 63 64 65 66
67 68 69 70 75 76 83 83 85 86 86 87 87 88 92 93 94 95 97 98
Vamos calcular alguns percentis.
Percentil de ordem 10: 10% de 40 = 4. Ento o P10 = mdia(4 e 5 valores)=(42+44)/2 = 43.
o o
o o
Percentil de ordem 95: 95% de 40 = 38. Ento o P95 = mdia(38 e 39 valores)=(95+97)/2 = 96.
o o
Primeiro Quartil: 25% de 40 = 10. Ento o Q1 = mdia(10 e 11 valores)=(49+51)/2 = 50.
o o
Terceiro Quartil: 75% de 40 = 30. Ento o Q3 = mdia(30 e 31 valores)=(86+86)/2 = 86.
o o
Mediana: 50% de 40 = 20. Ento mediana = mdia(20 e 21 valores)=(66+67)/2 = 66,5.
Exemplo 4.2: (Dados fictcios) Os 20 alunos da oitava srie de uma escola foram submetidos,
pelo seu professor de Educao Fsica, a cinco testes de aptido fsica e a um teste de
conhecimento desportivo:
Os resultados dos seis testes para os 20 alunos da turma so mostrados no Quadro 4.1 a seguir.
4
Quadro 4.1: Resultados (escores originais) dos 20 alunos nos seis testes.
Vamos tentar resolver algumas questes propostas pelo professor sobre o desempenho dos
alunos nos testes:
o
Questo n 1: Em um dado teste, qual foi o aluno de melhor desempenho ? E de pior
desempenho? Como se poderia classificar os alunos de acordo com seu desempenho em um
dado teste ?
4
Por razes didticas, os alunos esto identificados pelo nome. No entanto, numa anlise de dados, a identidade das
unidades de anlise (neste caso, os alunos) deve ser mantida em sigilo, por questes ticas.
24 Edna Afonso Reis e Ilka Afonso Reis
Esta fcil. No teste de abdominal, por exemplo, a Ana se saiu melhor, pois fez mais
abdominais no tempo marcado, enquanto a Maria, que fez o menor nmero de abdominais, teve
o pior desempenho da turma neste teste.
Assim, o aluno com o melhor desempenho em um teste aquele que obteve o maior escore
no teste, exceto para o de natao, onde o melhor desempenho do aluno que fez o menor
tempo. Para cada teste, os alunos poderiam ser classificados de acordo com seu desempenho
naquele teste (do melhor para o pior) simplesmente ordenando os valores de seus escores
naquele teste (do menor para o maior, no caso da natao, ou o contrrio, para os outros testes).
O Quadro 4.1 mostra os alunos com o melhor e pior desempenho da turma em cada teste.
o
Questo n 2 Para um dado aluno, em qual teste onde ele se saiu melhor (ou pior) em relao
turma ? Como se poderia classificar os testes de acordo com o desempenho de
um dado aluno ?
Vamos definir o desempenho geral da turma em um teste como sendo o escore mdio de
todos os alunos naquele teste:
Teste Mdia da turma
Abdominais em 2 minutos 30 abdominais
Salto em extenso 88 centmetros
Suspenso de braos flexionados 40 segundos
Corrida em 12 minutos 1558 metros
Natao de 50 metros 30 segundos
Conhecimento desportivo 75 pontos
O resultado da mdia
Teste ... Desempenho
est da turma
Abdominal: 34 30 = 4 abdominais Acima bom
Salto: 108 88 = 20 centmetros Acima bom
Para o Pedro:
Suspenso: 64 40 = 24 segundos Acima bom
Corrida: 1989 1558 = 431 metros Acima bom
Natao: 34 30 = 4 segundos Acima ruim
Conhecimento: 64 75 = -11 pontos Abaixo ruim
Agora sabemos que h quatro testes em que o Pedro foi bem em relao turma, mas como
saber em qual destes ele testes teve o melhor desempenho ? No podemos comparar
diretamente seus escores em cada teste, pois esto em unidades de medida diferentes.
Alm disso, no basta saber que, em um dado teste, ele ficou acima da mdia, mas tambm
o quo distante da mdia em relao variabilidade dos resultados da turma. No esquema da
Figura 3.7, temos um aluno com o mesmo escore original em um teste feito em duas turmas onde
a mdia dos resultados foi a mesma, mas com variabilidades diferentes. Assim, para este aluno,
embora a distncia, em valores absolutos, de seu resultado mdia tenha sido a mesma nas duas
turmas, ele se saiu melhor na primeira, pois h menos alunos com escore to alto quanto o seu. Em
outras palavras, como h menos variabilidade na primeira turma, um escore alto provoca maior
efeito e m termos de posio.
25
Uma soluo para estes dois problemas unidades de medida diferentes e necessidade de
se levar em conta a variabilidade dos resultados da turma quando da comparao dos
resultados de um aluno entre os vrios teste dividir a distncia entre o escore original e a mdia
da turma pelo desvio-padro da turma no dado teste. Assim, temos:
Ordenao dos testes, do melhor para o pior, segundo o desempenho do aluno Pedro
Salto Abdominais/Suspenso Corrida Natao Conhecimento
26 Edna Afonso Reis e Ilka Afonso Reis
Definio:
EscoreOriginal Mdia
EscorePadronizado =
DesvioPadro
onde mdia e desvio padro so calculados para cada teste usando os escores originais de
todos os 20 alunos naquele teste.
O Quadro 4.2 mostra os escores padronizados dos 20 alunos nos seis testes.
o
Questo n 3: Como se poderia resumir, em um nico nmero, o desempenho do aluno em todos
os testes (desempenho global) ? Como se poderia classificar os alunos de acordo com seu
desempenho global ?
Se o professor desejar calcular, para cada aluno, um nico nmero, um ndice, que expresse o
desempenho global do aluno em todos os testes, ele deve usar os escores padronizados, pois j
sabemos que so medidas adimensionais. Ele poderia calcular, por exemplo, a mdia dos escores
27
Flvia (1,23), Marcelo (0,73), Pedro (0,44), Luciana (0,33), Luiz (0,22), Rafael (0,20), Antnio (0,19),
Gabriela (0,09), Joo e Ana (-0,03), Daniele (-0,13), Maria (-0,15), Camila (-0,20), Vincius e Rodrigo
(-0,26), Marina (-0,31), Brbara (-0,40), Luiza (-0,52), Manuel (-0,54), Guido (-0,59).
Teste CV da turma
Abdominais em 2 minutos 0,10
Salto em extenso 0,13
Suspenso de braos flexionados 0,45
Corrida em 12 minutos 0,21
Natao de 50 metros 0,10
Conhecimento desportivo 0,08
Chamando de Z1, Z2, Z3, Z4, Z5 e Z6 o escore padronizado de cada teste, a frmula do ndice de
Desempenho Global Ponderado (DGP) pelo coeficiente de variao descrita abaixo:
DGP = (0,10 Z1) + (0,13 Z2 ) + (0,45 Z3 ) + (0,21 Z4 ) + (0,10 (Z5 )) + (0,08 Z6) .
0,10+ 0,13+ 0,45+ 0,21+ 0,10+ 0,08
0 10 1,33) + (0,13 1,82) + (0,45 1,33) + (0,21 1,32) + (0,10 1,33) + (0,08 1,83) 0,96
DGPPedro= ( , = = 0,90
1,07 1,07
Fazendo o mesmo clculo para os demais alunos, temos o seguinte ranking dos alunos
segundo seu desempenho global ponderado, do melhor para o pior:
Flvia (1,34), Pedro (0,90), Marcelo (0,65), Luciana (0,44), Antonio (0,34), Rafael (0,26), Ana (0,25),
Luiz (0,17), Gabriela (0,09), Daniele e Rodrigo (-0,02), Joo (-0,20), Camila (-0,24), Brbara (-0,31),
Marina (-0,48), Maria e Vincius (-0,50), Guido (-0,64), Manuel (-0,66), Luiza (-0,87).
28 Edna Afonso Reis e Ilka Afonso Reis
5. O Boxplot
Outlier
*
Esta linha se estende at o
maior valor do conjunto
Escala de valores
3 quartil
Mediana
Como um grfico tem que representar todos os valores do conjunto de dados, precisamos
representar os outros 50%, sendo 25% abaixo do Q1 e 25% acima do Q3. Esses valores sero
representados pelas duas linhas que saem das extremidades da caixa. Cada uma das linhas
traada, a partir das extremidades da caixa, at que:
Para exemplificar a construo do boxplot, utilizaremos os dados de peso dos ursos fmeas
do Exemplo Inicial (RTE04-2001, Anexo I).
Como pode ser calculado, os valores do primeiro, segundo e terceiro quartis para o peso
dos ursos fmeas so, respectivamente, 51,8 Kg, 61,1 Kg e 75,4 Kg. Assim, os limites da caixa so
marcados nos valores de Q1 e Q3, como mostra a Figura 5.2. A mediana marcada com uma
linha dentro da caixa na sua respectiva posio na escala de valores (61,1 Kg).
Para traarmos as linhas laterais do boxplot, precisamos calcular a distncia interquartlica
(DQ), que (75,4 51,8) = 23,6 . Desse modo, as linhas laterais podem ter comprimento mximo
de 1,5 x 23,6 = 35,4. Vejamos at onde podem ir as linhas laterais:
Como existem ursos com pesos inferiores a 16,4 Kg (11,8 Kg e 13,2 Kg), eles sero representados por
asteriscos colocados em suas respectivas posies. Do mesmo modo, sero representados os ursos
com pesos superiores a 110,8 Kg (143,5 Kg e 161,6 Kg).
Os valores de peso para essas quatro fmeas so considerados discrepantes (outliers) em
relao ao grupo, pelo critrio do boxplot, e devem ser investigados antes de se prosseguir a
anlise.
Ursos Fmeas
0 50 100 150
Peso (Kg)
Alm da deteco de valores discrepantes, o boxplot pode ser muito til na anlise da
distribuio dos valores de um conjunto de dados.
Atravs do boxplot, podemos:
Observando a Figura 5.4, notamos que a distribuio do peso dos ursos fmeas pode ser
considerada simtrica em torno do valor mediano do peso (61,1Kg), enquanto a distribuio do
peso dos ursos machos assimtrica com concentrao esquerda (valores menores).
Ao avaliar e comparar a variabilidade de conjunto de dados atravs do boxplot, devemos
observar a largura (ou altura) das caixas. No caso do peso dos ursos machos e fmeas, notamos
que a altura da caixa das fmeas bem menor do que a altura da caixa dos machos, indicando
que as fmeas so mais homogneas quanto ao peso, apesar de contar com quatro valores
atpicos. De fato, metade dos dados do conjunto de fmeas ocupa um espao bem menor na
escala de valores do que o espao ocupado por metade do conjunto de machos.
Finalmente, atravs da comparao dos boxplots para os pesos dos ursos machos e fmeas,
podemos concluir que os ursos fmeas possuem, em geral, pesos menores e mais homogneos do
que o peso dos ursos machos.
O fato de no termos detectado o aparecimento de outliers no grupo dos ursos machos
pode ser devido a sua grande variabilidade (altura da caixa), pois sabemos que o comprimento
mximo das linhas do boxplot depende do valor dessa altura (DQ). Quanto maior o DQ, maior a
possibilidade de que os valores extremos sejam includos na linha e, assim, no sejam considerados
como outliers.
Figura 5.4 Boxplot do peso (em Kg) dos ursos fmeas e machos
31
200
Peso
100
0
fmea macho
Sexo
5
Na seo sobre histogramas (RTE04/2001), vimos que a distribuio do peso dos ursos machos bimodal, com
valores mais concentrados em torno da moda menor (Figura 4.13). Isto mascarado pelo boxplot da Figura 5.4 atravs
de uma indicao de assimetria esquerda. Essa assimetria no de todo falsa, mas a existncia de dois grupos (menos
pesados e mais pesados) escondida pelo boxplot. Nesse caso, o grfico mais indicado para a comparao dos dois
grupos seria o ramo-e-folhas, devido ao pequeno nmero de fmeas. A ttulo de exemplo de comparao entre boxplots,
manteremos o boxplot para os ursos machos da Figura 5.4 .
32 Edna Afonso Reis e Ilka Afonso Reis
Exemplo 5.2: Ramo-e-folhas para renda mensal (em salrio mnimos) de chefes de famlias em
100 domiclios de uma comunidade (dados fictcios):
Acumulad
o
(4) 3 1259 4
(18) 4 0003344555556667788 22
(28) 5 0001122333344455555566678899 50
(28) 6 0001111112222233344455556667 78
(18) 7 111112233455566679 96
(4) 8 0128 100
Mediana = 5,9
Limite Inferior Q1 1,5DQ = 5,0 2,4 = 2,6
Q3 = 6,6 2,6 < Min o Min est dentro do limite inferior
o Min ser o final da linha esquerda
Max = 8,8 Limite Superior Q3 + 1,5DQ = 6,6 + 2,4 = 9,0
9,0 > Max o Max est dentro do limite superior
o Max ser o final
1 2 3 4 5 6 7 8 9
Renda (em SM)
Ramo-e-folhas para renda mensal (em salrio mnimos) de chefes de famlias em 101 domiclios de
uma outra comunidade (dados fictcios):
Ramo-e-folhas
(18) 1 125555666666677889
(35) 2 01112233444467889
(50) 3 002222334567899
(64) 4 0 1 2 3 4 46 6 6 6 7 7 8 9
(73) 5 001255689
(82) 6 001244567
(90) 7 00125588
(96) 8 011249
(99) 9 117
(100) 10 8
(100) 11
(101) 12 2
Legenda: 1|1 = 1,1 salrios mnimos.
Min = 1,1
Q1 : 25% de 101 = 25,3 (arredonda para cima: 26).
O Q1 26 valor
Q1 = 2,3
Mediana 50% de 101 = 50,5 (arredonda para cima: 51)
A mediana o 51 valor
Mediana = 4,0
Q3 : 75% de 101 = 75,8 (arredonda para cima: 66).
O Q3 76 valor
Q3 = 6,1
Max = 12,2
Limite inferior: Q1 1,5DQ = 2,3 5,7 = -3,4 (-3,4 menor do que o Min; o Min=1,1 ser
o final da linha esquerda)
Limite Superior: Q3 + 1,5DQ = 6,1 + 5,7 = 11,8 (o maior valor dentro do limite superior 10,8, que ser
o final da linha direita)
O valor mximo est fora do limite superior um outlier e ser marcado com um asterisco.
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Renda (em SM)
Histograma
Ramo-e-folhas
1 125555666666677889
2 01112233444467889
9521 3 002222334567899
8877666555554433000 4 0 1 2 3 4 46 6 6 6 7 7 8 9
9988766655555544433332211000 5 001255689
7666555544433322222111111000 6 001244567
976665554332211111 7 00125588
8210 8 011249
9 117
10 8
O ramo-e-folhas lado-a-lado uma boa alternativa quando se tem pares de grupos a serem
comparados. No entanto, torna-se tambm pouco econmica quando o nmero de pares
grande, pois necessitaremos de uma figura para cada par.
35
Boxplot Ogiva
Referncias Bibliogrficas
Freund, J. E., Simon, G. A. (2000). Estatstica Aplicada, 9 edio, Editora Bookman.
Reis, E. A., Reis, I. A. (2001). Anlise Descritiva de Dados- Tabelas e Grficos. (Relatrio Tcnico
RTE04/2001) Departamento de Estatstica - ICEx Universidade Federal de Minas Gerais.
Triola, M. F. (1996). Introduo Estatstica, 7 edio, Editora LTC.