Sie sind auf Seite 1von 26

Anlise descritiva de Dados

A todo instante do nosso dia-a-dia nos deparamos com dados.


Por exemplo, para decidir pela compra de um eletrodomstico,
um aparelho eletrnico ou at mesmo na compra de uma caixa de
sabo em p temos diferentes opes:
marca: prs e contra de cada uma.
preo: compatvel com o que o produto oferece e com o
nosso oramento?
melhor custo/benefcio.
garantia, assistncia tcnica, acabamento, etc...
Na Pesquisa Cientfica, no entanto, os dados so um fator
preponderante para que possamos responder s nossas indagaes.
Portanto, segundo a metodologia cientfica, a observao e
anlise dos dados devem ser feitas de maneira criteriosa e objetiva
para que os resultados sejam confiveis.
1. Etapas de uma pesquisa
A) O Problema => normalmente surge de um questionamento, no
entanto, a definio do problema vai muito alm de um simples
questionamento, envolvendo uma ampla reviso literria sobre o
tema em questo.
Uma vez definido o problema a ser abordado, os objetivos da
pesquisa devem ser elaborados de forma bastante clara.

Exemplo:
Qual o material metlico com melhores propriedades mecnicas
para utilizao em projetos na rea aeroespacial.
Objetivo: Encontrar um material metlico com propriedades
mecnicas adequadas para projetos aeroespaciais.
Artigo: Establishing Mechanical Property Allowables for Metals,
Journal of Testing and Evaluation, 1998, p. 293-299.

B) Definio dos objetivos


Os objetivos podem ser gerais ou especficos e devem ser
definidos no incio da pesquisa, na fase das definies e
planejamento.
Objetivo geral: o objetivo central e responsvel pelo desencadear
do estudo.

Objetivos especficos: so formados por questes secundrias que


ajudam a entender o resultado da pesquisa,
corroborando, ou no, com o objetivo geral.
Exemplo 1:
No exemplo acima, temos apenas o objetivo geral, porm, em
outras situaes pode haver objetivos especficos em funo do
problema que se defronta.

Exemplo 2:
Determinar o padro de comportamento de estudantes
universitrios do primeiro ano quanto ao hbito de assistir TV.
Objetivo geral:
Determinar a quantidade de horas semanais que um estudante
assite TV.
Objetivos especficos: determinar o perfil socioeconmico desses
estudantes quanto a:
- sexo;
- idade;
- obesidade;
- outros hbitos (p.ex. fumar);
- perfil econmico e social da famlia.
C) Coleta de dados
Em relao coleta dos dados vamos abordar apenas os estudos
experimentais:
Estudo Experimental: consiste na coleta de informao por meio
de um experimento, no qual o pesquisador deliberadamente aplica
um estimulo (tratamento) nas unidades amostrais para observar
sua resposta.
previamente planejado, sendo que o pesquisador consegue
controlar fatores que possam interferir na resposta, diminuindo sua
variabilidade final. O pesquisador pode, com isso, otimizar os
resultados, com uma quantidade bastante reduzida de amostras.
Exemplos: ensaio para se verificar o grau de dureza de diferentes
materiais; ensaios de trao para diferentes composies de matria
prima; estudos caso-controle em epidemiologia; pesos de cobaias
submetidos a diferentes dietas; etc...

2. As variveis
Uma varivel uma caracterstica, desconhecida, da populao
que pode ser observada ou mensurada e que deve gerar uma
nica resposta.
Representa uma caracterstica ou parmetro da populao
que se tem interesse em conhecer.
As variveis devem der definidas no planejamento da pesquisa
representando o que se vai observar, ou medir, em cada um dos
indivduos da amostra.
Exemplo: Estudo para determinar o padro de comportamento de
estudantes universitrios quanto ao hbito de assistir TV:
Sexo:
Idade:
Altura:
Peso:
Se fuma:
Horas de TV:
Aparelhos de TV:
Computador:

masculino (M) ou feminino (F)


idade em anos
altura em metros
peso em quilogramas
sim (S) ou no (N)
horas gastas assistindo TV, por semana
nmero de aparelhos de TV na residncia
se tem microcomputador sim(S) ou no(N)

2.1. Tipos de variveis


As varveis podem ser classificadas segundo o seu tipo.
a) Variveis qualitativas: variveis cujos possveis resultados so
atributos ou qualidades.
So NO NUMRICAS.

So subdivididas em:
Ordinais: quando obedecem a uma ordem natural;
Nominais: quando no obedecem nenhuma ordem predefinida.
b) Variveis quantitativas: variveis cujos possveis resultados
so valores NUMRICOS resultantes de uma mensurao ou
contagem.
So subdivididas em:
Discretas: quando assumem valores inteiros
Contnuas: quando assumem valores reais.
Esquematicamente:
NOMINAIS
QUALITATIVAS
ORDINAIS
VARIVEIS
DISCRETAS
QUANTITATIVAS
CONTNUAS

Exemplo: Estudo do hbito de assistir TV:


Sexo
Idade
Altura
Peso
Se fuma sim/no
Horas de TV
Aparelhos de TV
Computador

2.2. Os dados
Dados so os resultados observados para uma, ou mais,
variveis.
So coletados segundo um procedimento observacional ou de
mensurao. Nos estudos experimentais, por exemplo, temos os
experimentos fatoriais a um e dois fatores, amostras pareadas,
medidas repetidas, etc...
Uma quantidade de observaes coletadas aleatoriamente por
meio de um planejamento de coleta pr-determinado, chamada de
amostra.
A seguir veremos as tcnicas descritivas para representao e
anlise de dados amostrais.

3. Anlise descritiva para variveis quantitativas


3.1. Medidas de Posio:
Considere uma amostra com n observaes: x1, x2, . . . , xn.
a) Mdia: (ou mdia aritmtica) representada por x e dada
soma das observaes, divida pelo nmero de observaes.

x i 1
n

xi

b) Mediana: representada por med (x) , observao que ocupa a


posio central das observaes ordenadas.
Sejam as observaes ordenadas: x(1) x(2) . . . x(n), ento, a

n 1
, portanto,
2

posio central dada por

med ( x) x n 1

Notas:
x.
i) A mediana tambm presentada por ~
ii) Se n par, a mediana dada pela mdia aritmtica das duas
observaes centrais.
c) Moda: representada por mo(x) , observao da amostra com
maior frequncia, ou seja, a que mais se repete.
Um conjunto de dados pode ter mais de uma moda, ou at
mesmo, no ter moda.

Em relao ao nmero de modas um conjunto de dados pode


ser:
i) unimodal: quando o conjunto tem uma nica moda;
ii) bimodal: quando o conjunto tem duas modas;
iii) multimodal: quando o conjunto tem trs ou mais modas;
iv) amodal: quando o conjunto no tem moda (neste caso, todas as
observaes aparecem uma nica vez na amostra).
Exemplos de medidas da posio:
1) Dados discretos: uma grande companhia est preocupada com o
tempo em que seus equipamentos ficam em manuteno na
assistncia tcnica. Assim sendo, fez um levantamento do tempo de
manuteno (dias) de 50 equipamentos para um estudo mais
detalhado.
X = dias em manuteno de equipamentos.
15
9
4
2
5

13
10
11
5
7

21
3
8
9
8

9
4
6
14
3

5
2
6
15
10

5
13
10
3
5

10
12
17
6
5

6
16
13
18
4

2
7
9
3
5

2
6
5
4
2

Dados Ordenados:
2
2
2
2
4
4
4
5
5
6
6
6
9
9
9
9
13 13 13 14

2
5
6
10
15

3
5
6
10
15

3
5
7
10
16

3
5
7
10
17

3
5
8
11
18

4
5
8
12
21

n = 50 observaes

Medidas Descritivas de Posio:

i) Mdia: xi = 392

ii) Mediana:

392
7.84 dias
50

n 1 51
25.5 , logo a mediana a mdia da 25 e
2
2

26 observaes ordenadas:

x( 25 ) x( 26 ) 6 6
~
x

6 dias
2
2

iii) Moda: mo(x) = 5 dias aparece 8 vezes na amostra.

2) Dados contnuos: Em 1798 o cientista Henry Cavendish mediu a


densidade do globo terrestre em 29 ensaios. Os dados foram
obtidos do Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65
5.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39
5.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observaes
Medidas Descritivas de Posio:

i) Mdia: xi = 157.99

ii) Mediana:

157 .99
5.448 g/cm3
29

n 1
15 , logo a mediana a 15 observao
2

ordenada

~
x x(15) 5.46 g/cm3
iii) Moda: mo(x) = 5.29 g/cm3 e mo(x) = 5.34 g/cm3

o conjunto bimodal.

3.2. Medidas de Disperso (ou variao):


a) Amplitude: dada pela diferena entre o maior e o menor valor
da amostra.
Sejam x(1) min [ x1, x2 ,, xn ] e x( n) max[ x1, x2 ,, xn ],
x

ento, a amplitude da amostra definida por

A x( n) x(1)
A amplitude A representa o tamanho da regio na qual os dados
foram observados
b) Varincia amostral: a varincia amostral definida pela soma
dos quadrados dos desvios das observaes em relao media
amostral x , dividida por (n 1), ou seja

xi x 2
.

1
i 1
n

Mostra-se facilmente que s2 pode ser escrita como

nx 2
.
n 1

n
2
i 1 xi

c) Amplitude Interquartil: dada pela diferena entre o 3 e o 1


quartis.
Para definir a amplitude interquartil, vamos primeiro definir o
que so quartis amostrais.

Quartis amostrais so medidas descritivas que dividem a


amostra ordenada em quatro parcelas iguais de 25% (Figura).
25%
25%
25%
25%
------------|------------|------------|-----------Q1
Q2
Q3
med(x)
Assim sendo:
i) Q1 o primeiro quartil;
ii) Q2 = med(x), o segundo quartil.
iii) Q3 o terceiro quartil;
Desta forma, denotada por AQ, definida por

AQ = Q3 Q1
AQ determina o tamanho da regio em torno da mediana que
contm 50% das observaes centrais.

Mtodos para a obteno dos quartis amostrais:


Para a obteno dos quartis devemos proceder da mesma forma
que para a mediana.
Uma vez que a mediana esteja determinada, temos o conjunto
de dados ordenados dividido em duas partes. Os quartis, ento, so
dados pelas observaes centrais destas duas metades.

Q1

med(x)

Observao central
da metade inferior

Q3
Observao central
da metade superior

O procedimento para encontrar os quartis o mesmo usado


para a mediana, porm, teremos dois procedimentos dependendo
do tamanho da amostra n ser par ou mpar.
i) n par: o procedimento o mesmo que para a mediana, sendo
aplicada a cada uma das duas metades;
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9

med ( x)

x(7) x(8)
2

n = 14

56
5.5
2

A mediana med(x) = 5.5 divide os dados em dois grupos


ordenados de 7 observaes cada. Assim,

7 1
4
2

Q1 a 4 observao da metade inferior e,


Q3 a 4 observao da metade superior.

Desta forma, os quartis sero as observaes ordenadas que


ocupam as posies 4 e 11.
5.5
1 1 2 3 4 5 5

6 6 6 7 8 8 9

Q1 x( 4) 3
Q3 x(11) 7

ii) n mpar: devemos optar por incluir, ou no, a mediana no


procedimento de determinao dos quartis.
ii.1) se a mediana no for includa, ento teremos dois grupos,
inferior e superior mediana, cada um com (n 1) 2
observaes

n 1 observaes
2 inferiores

Q1

n 1 observaes
2 superiores

med(x)

Q3

e os quartis Q1 e Q3 so obtidos normalmente.

Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13

A mediana med ( x) x(7) 5 divide os dados em dois grupos


ordenados de 6 observaes cada.

6 1
3.5 Q1 a mdia da 3 e 4 observaes do
2
grupo inferior e,
Q3 a mdia da 3 e 4 observaes do
grupo superior.
5
1 1 2 3 4 5

Q1
Q3

x(3) x( 4)
2

6 6 6 7 8 9

x(9) x(10)
2

23
2.5
2

67
6.5
2

ii.2) se a mediana for includa, ento, ela deve ser considerada1


tanto para a obteno do 1 quartil, na metade inferior
como na obteno do 3 quartil, na metade superior. Desta
forma, teremos 2 grupos, com (n 1) 2 observaes cada,
1

Observe que a mediana uma s. Ela apenas considerada nos dois grupos para as contagens das
posies dos quartis.

grupo
inferior

Q1

grupo
superior

med(x)

Q3

e os quartis Q1 e Q3 so obtidos normalmente.


Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9

n = 13

A mediana med ( x) x(7) 5 divide os dados em dois grupos


ordenados de 6 observaes cada.
Incluindo a mediana no procedimento, teremos uma observao
a mais em cada grupo, ou seja, teremos 7 observaes

7 1
4
2

Q1 a 4 observao do grupo inferior e,


Q3 a 4 observao do grupo superior, ou
seja, a 11 observao ordenada (7 + 4).
1 1 2 3 4 5 5
5 6 6 6 7 8 9

Q1 x( 4) 3
Q3 x(11) 7

iii) Outra forma para a obteno dos quartis apresentada por


Murteira (2002).
]

Se a mediana ocupa a posio (n + 1)/2, ento Q1 dever


ocupar a posio:

n 1

1
2

n3
2
4
Para a posio de Q3 fazemos:

n 3 3n 1
(n 1)

4
4

Portanto, Q1 e Q3 so dados pelas observaes ordenadas que


ocupam as posies

Se os valores de

n3
3n 1
e
, respectivamente.
4
4
n3
3n 1
e
no forem inteiros, Q1 e Q3
4
4

devem ser obtidos por interpolao linear.


Por exemplo, se

n3
k ,
4
em que k a parte inteira e a parte decimal, ento, Q1 pertence ao
intervalo ( x( k ) ; x( k 1) ) e

Q1 x( k ) [ x( k 1) x( k ) ]

Para Q3 o procedimento semelhante, ou seja, se

3n 1
,
4
ento, Q3 pertence ao intervalo ( x() ; x( 1) ) e

Q3 x() [ x( 1) x() ]
Exemplo:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9

n = 14

Para a determinao de Q1, temos:


posio de Q1:

14 3 17
4.25
4
4

Como = 0.25, Q1 a interpolao entre a 4 e 5 observaes


ordenadas:

Q1 3 0.25 (4 3) 3.25
Para a determinao de Q3, temos:
posio de Q3:

3 14 1 43

10.75
4
4

Aqui = 0.75 e Q3 a interpolao entre a 10 e 11 observaes


ordenadas:

Q3 6 0.75 (7 6) 6.75
Obs: o item (iii) com n mpar equivalente ao item e (ii.2).

Notas:
Assim como a mediana, os quartis amostrais dependem do
tamanho da amostra n, fazendo com que nem sempre os quatro
grupos tenham o mesmo tamanho;
Existem diversas outras formas para a determinao dos quartis.
Nesta disciplina daremos nfase nos itens (i) e (ii.1).
Para n pequeno, pode-se, ainda, obter os quartis graficamente
pelo histograma dos dados.
Os quartis so casos especiais dos quantis (ou percentis), que
so denotados por:
x(p) p-simo quantil ou quantil de ordem p.
Portanto, o quantil x(p) dado pela observao ordenada que
deixa uma frequncia acumulada igual 100p % abaixo de si.
Assim sendo temos que:
i) Q1 = x(0.25) quantil de ordem 0.25;
ii) Q2 = med(x) = x(0.5) quantil de ordem 0.50;
iii) Q3 = x(0.75) quantil de ordem 0.75.

Exemplos de medidas de disperso:


3) Dados discretos: dias de manuteno de equipamentos de uma
grande companhia. (n = 50 observaes)
X = dias em manuteno de equipamentos.
Dados Ordenados:
2
2
2
2
4
4
4
5
5
6
6
6
9
9
9
9
13
13
13
14

i 1 xi 392
n

2
5
6
10
15

3
5
6
10
15

3
5
7
10
16

3
5
7
10
17

3
5
8
11
18

4
5
8
12
21

i 1 xi2 4178
n

392
7.84 dias
50

i) Varincia amostral:

4178 50(7.84) 2 4178 3073 .28


s

22.545 dias2
50 1
49
2

Desvio padro amostral: s 22.545 4.7482 dias

ii) Amplitude amostral: A 21 2 19 dias

iii) Amplitude interquartil:


A mediana est entre a 25 e 26 posio, logo o primeiro
quartil a posio central da metade inferior dos dados, ou seja:

25 1
13 , logo o 1 quartil a 13 observao ordenada,
2

Q1 x(13) 4 dias.
O terceiro quartil a posio central da metade superior

25

25 1
38 , logo o 3 quartil a 38 observao ordenada,
2

Q3 x(38) 10 dias.
Desta forma, a amplitude interquartil :

AQ 10 4 = 6 dias

4) Dados contnuos: Dados Cavendish.


X = densidade do globo terrestre (g/cm3).
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observaes

i 1 xi 157 .99
n

i 1 xi2 862 .0855


n

157 .99
5.448 g/cm3
29

i) Varincia amostral:

862 .0855 29(5.448 ) 2 1.3669


s

0.04882 (g/cm3)2
29 1
28
2

Desvio padro amostral: s 0.04882 0.2209 g/cm3

ii) Amplitude amostral: A 5.85 4.88 0.97 g/cm3

iii) Amplitude interquartil:


A mediana 15 observao ordenada, o primeiro quartil
(excluindo-se a mediana do clculo) a posio central da metade
inferior dos dados, ou seja:

14 1
7.5 , logo o 1 quartil a mdia da 7 e 8 observaes
2
ordenadas,

Q1

x(7) x(8)
2

5.29 5.30
5.295 g/cm3.
2

O terceiro quartil a posio central da metade superior

15 7.5 22.5 , logo o 3 quartil a mdia da 22 e 23


observaes ordenadas,

Q3

x( 22) x( 23)
2

5.61 5.62
5.615 g/cm3
2

Desta forma, a amplitude interquartil :

AQ 5.615 5.295 = 0.320 g/cm3.

3.2.1. O coeficiente de variao amostral:


Uma medida utilizada para quantificar a variabilidade dos
dados o coeficiente de variao, ou cv.
O cv de variao dado pela razo entre o desvio padro e a
mdia de uma varivel aleatria sendo que, o coeficiente de
variao amostral dado pela razo do desvio padro da amostra s
e a mdia amostral x :

cv

s
x

Notas:
O coeficiente de variao compara a magnitude do desvio
padro s com a mdia x . Se cv 1 s x .
O coeficiente de variao uma medida adimensional ( um
nmero puro) podendo ser expresso em %.
Exemplos:
a) Dias de manuteno de equipamentos:
x 7.84 dias

s 2 22.545 dias2

s 22.545 4.7482 dias


cv

4.7482
0.6056 ou 60.56%
7.84

b) Dados Cavendish:
x 5.448 g/cm3

s 2 0.04882 (g/cm3)2

s 0.2209 g/cm3
cv

0.2209
0.0405 ou 4.05%.
5.448

Nos exemplos acima temos os cvs de dois processos, sendo


um deles 15 vezes maior do que outro, indicando claramente qual
deles tem maior disperso dos dados.
Um ponto de grande interesse, contudo, diz respeito a
quantificar o cv e poder dizer se um conjunto de dados tem uma
disperso muito alta, ou no. A seguir sero apresentados trs
critrios para classificao do coeficiente de variao.
Como classificar o Coeficiente de Variao
O cv tem uma caracterstica particular de ser intrnseco a
cada processo, tendo sido muito estudado na rea agrcola, mais
especificamente, na experimentao agronmica.
Vrios autores indicam diferentes mtodos para se classificar o
coeficiente de variao. A seguir, so apresentadas trs
classificaes.
I) Classificao segundo Pimentel Gomes (1985), baseada em
ensaios agrcolas.
Faixa

cv

menor ou igual a 10%

baixo

baixa disperso dos dados

entre 10% e 20%

mdio

mdia disperso dos dados

entre 20% e 30%

alto

maior do que 30%

disperso

alta disperso dos dados

muito alto disperso dos dados muito alta

II) Classificao segundo Ferreira, F.V. (1991), Estatstica


Experimental Aplicada Agronomia, classifica com respeito
preciso do processo.
Faixa
preciso
cv
entre 10% e 15%

tima

baixo

entre 15% e 20%

boa

mdio

entre 20% e 30%

regular

alto

maior do que 30%

muito ruim
(ou pssima)

muito alto

III) Classificao obtida no site www.datalyser.com.br


utilizada em CEP Controle Estatstico do Processo.
Faixa
disperso
cv
menor ou igual a 15%

baixo

baixa disperso dos dados

entre 15% e 30%

mdio

mdia disperso dos dados

maior do que 30%

alto

alta disperso dos dados

Exemplos:
a) Dias de manuteno de equipamentos:

cv

4.7482
0.6056
7.84

(60.6%) cv alto ou muito alto.

b) Dados Cavendish:

cv

0.2209
0.0405
5.448

(4.05%) cv baixo.

Das könnte Ihnen auch gefallen