Sie sind auf Seite 1von 71

Representao de dados

Passos para construo de um


Histograma
Passo 1: ordenar o conjunto de dados, ou seja
colocar os dados em ordem crescente de
grandeza;
Passo 2: Determinar o nmero de classes da
tabela. De modo geral no dever ser inferior a
5 e nem superior a 15, orientada para os
objetivos do trabalho.
k = nmero de classes;
n = nmero de observaes;
log = logaritmo de base 10.

Passos para construo de um


Histograma
Passo 3: determinar a amplitude do intervalo i:
Es Ei = extremo superior extremo inferior
Arredondar o nmero de classes (k) ou da
amplitude do intervalo (i) sempre para cima.

Passos para construo de um


Histograma
Passo 4: Construir os intervalos de classe. O
limite inferior de primeira classe ser sempre o
menor valor do conjunto de dados (Ei) e o limite
superior ser o limite inferior acrescido do valor
da amplitude do intervalo de classe (i). Na
sequncia, o limite inferior da segunda classe
ser o limite superior da primeira classe e o
limite superior da segunda classe ser este
acrescido da amplitude do intervalo. E assim
sucessivamente.
Obs: os intervalos so inclusivos esquerda.

Passos para construo de um


Histograma

Obs: os intervalos so inclusivos esquerda.

Frequncia de valores nas classes

120

Histograma de uma distribuio


Normal contnua

100

80

60

40

20

Classes de valores

Histograma de uma distribuio Normal


contnua com suavizao de linhas

Histograma de uma distribuio


Normal
Podemos verificar que, para uma distribuio
normal:
1 s para cima e para baixo corresponde
aproximadamente a 68% das amostras.
E 2s para cima e para baixo a
aproximadamente 95% das amostras.

Histograma de mltiplas distribuies

Tipos de variveis
At agora tratamos de distribuies de
probabilidade de variveis contnuas. Caso
de uma medio, onde a varivel pode
assumir infinitos valores.
Podemos ter outros tipos de variveis, tais
como categricas e variveis numricas
discretas.

Variveis categricas
Para melhor entender o que uma varivel
categrica, nada melhor que um exemplo:
Suponhamos que desejamos ter uma avaliao da
disciplina
de
Metrologia,
para
isto
estabelecemos 4 conceitos; ruim, mdio, bom e
timo.
Uma vez estabelecidos os conceitos vamos fazer
a pesquisa entre 60 alunos: 12 responderam
ruim; 27 mdio; 15 bom e 6 timo.

Variveis categricas
Classe

Freq da classe

Freq Acum

Prop classe

Prop Acum

Ruim

12

12

0,2

0,2

Mdio

27

39

0,45

0,65

Bom

15

54

0,25

0,9

timo

60

0,1

Total

60

30
25
20
15
10
5
0
Ruim

Mdio

Bom

timo

Variveis numricas discretas


Para melhor entender o que uma varivel
numrica discreta:
Consideremos agora que a varivel em
estudo seja o nmero de animais
portadores de brucelose em 350
propriedades rurais.

Variveis numricas discretas


Temos os seguintes dados:
Nmero de animais com brucelose por propriedade
Freq da
classe

Classe

55

55

0,157142857

0,157142857

60

115

0,171428571

0,328571429

112

227

0,32

0,648571429

82

309

0,234285714

0,882857143

31

340

0,088571429

0,971428571

348

0,022857143

0,994285714

350

0,005714286

350

Freq Acum Perc da Classe

Perc
Acumulado

Variveis numricas discretas


Nmero de animais com brucelose por propriedade

Classe

Freq da classe

Freq Acum

Perc da Classe

55

55

0,157142857

0,157142857

60

115

0,171428571

0,328571429

112

227

0,32

0,648571429

82

309

0,234285714

0,882857143

31

340

0,088571429

0,971428571

348

0,022857143

0,994285714

350

0,005714286

350
120

Perc Acumulado

Nmero de animais com brucelose por propriedade

100

1,2
1

80

0,8

60

0,6

40

0,4

Frequncia Acumulada de animais infectados por proprieda

0,2

20

0
0

Medidas descritivas
As medidas descritivas tm o objetivo de
reduzir um conjunto de dados observados
(numricos) a um pequeno grupo de valores
que deve fornecer toda a informao
relevante a respeito desses dados. Estas
medidas
so
funes
dos
valores
observados e podem ser classificadas em
quatro grupos:

Medidas descritivas
- Medidas de localizao, tambm
denominadas medidas de tendncia central
ou medidas de posio: indicam um ponto
central onde, em muitas situaes
importantes, est localizada a maioria das
observaes;
- Medidas separatrizes: indicam limites para
propores de observaes em um
conjunto, podendo ser utilizadas para
construir medidas de disperso;

Medidas descritivas
Medidas
de
variao
tambm
denominadas medidas de disperso:
informam sobre a variabilidade dos dados;
- Medidas de formato: informam sobre o
modo como os valores se distribuem.
Compreendem as medidas de assimetria,
que indicam que a maior proporo de
valores est no centro ou nas
extremidades, e as medidas de curtose,
que descrevem grau de achatamento da
distribuio.

Medidas de localizao

=1
=

Medidas de localizao:
J falamos sobre a mdia
Devemos ter cuidado com a mdia,
principalmente quando temos valores
extremos ou outliers
Em estatstica, outlier, valor atpico, valor
aberrante, uma observao que apresenta um
grande afastamento das demais da srie (que
esta "fora" dela), ou que inconsistente.

Medidas de localizao
Moda: a moda corresponde ao dado que
tem maior frequncia, ou seja, que mais
ocorre. Se existirem dois valores com igual
nmero de ocorrncia, diz-se que a
distribuio bimodal, para mais de dois
valores,
tem-se
uma
distribuio
multimodal.

Medidas de localizao
Mediana: o ponto que divide a amostra
em duas metades. Por exemplo, tendo-se
um conjunto de observaes, tal qual: 10,
50, 25, 60 e 45, a mediana igual a 45,
depois de rearranjar em ordem crescente
os dados. O nmero 45 divide ao meio a
amostra.

Medidas de
localizao
=1
=

Medidas de
localizao

Medidas de
localizao

Medidas separatrizes
As medidas separatrizes delimitam
propores de observaes de uma
varivel ordinal.
Como a mediana divide o conjunto em
duas metades, razovel pensar numa
medida separatriz que efetue uma diviso
adicional: dividir cada metade em duas
metades. Essas medidas separatrizes so
denominadas quartis.

Medidas separatrizes
De modo semelhante, possvel encontrar
valores que delimitem pores expressas
em percentagem de dados em um
conjunto ordenado. Esses valores so
denominados percentis. Entretanto, de
todas essas
medidas separatrizes,
teremos interesse particular na mediana, e
nos quartis.

Quartis
Os quartis dividem um conjunto de dados
ordenado em quatro partes iguais. So elas:
-Primeiro quartil Q1: 25% dos valores ficam
abaixo e 75% ficam acima desta medida.
- Segundo quartil Q2: 50% dos valores ficam
abaixo e 50% ficam acima desta medida,
corresponde mediana (Q2=Md).
- Terceiro quartil Q3: 75% dos valores ficam
abaixo e 25% ficam acima desta medida.

Quartis
Observa-se facilmente que o primeiro quartil
o percentil 0,25, a mediana o percentil 0,5
e o terceiro quartil o percentil 0,75.

Quartis
Para determinar os quartis: 1 caso: quanto n impar

Exemplo
Quartil
n impar

10

Quartis no Minitab
O Minitab calcula os valores dos quartis de forma um pouco diferente, dependendo
da situao isto pode levar a resultados distintos.

Quartis no Minitab

Quartis no Minitab

Para obtermos os quartis acima como o Minitab calcula, usamos a frmula = ( +


4
1).
1
1 = 10 + 1 = 2,75, o valor 2,75 est entre 9 e 16, pega-se a parte fracionria do
4
2,75 (0,75) e multiplica-se pelo intervalo entre 9 e 16 (7), e soma-se ao 9, assim, (169)=7x0,75=5,25+9=14,25. Da mesma forma obtemos 2 3 .
2
2 = 10 + 1 = 5,5 o valor 5,5 est entre 39 e 45; (45-39)=6x0,5=3+39=42.
4
3
4

3 = 10 + 1 = 8,25 o valor 8,25 est entre 46 e 48; (48-46)=2x0,25=0,5+46=46,5.


A amplitude interquatlica dada pela diferena (46,50-14,25)=32,25.

Medidas de variao ou disperso


As medidas de variao ou disperso
complementam as medidas de localizao ou
tendncia central, indicando quanto as
observaes diferem entre si ou o grau de
afastamento das observaes em relao
mdia.

Medidas de variao ou disperso


As medidas de variao mais utilizadas so:
a amplitude total, a varincia, o desvio
padro e o coeficiente de variao.
Desvio padro:

=1( )2
=
1

Coeficiente de variao:
Amplitude total:

= (). 100

= ;
= ;

Medidas de formato
As medidas de formato so um aspecto
importante de uma distribuio. Embora
mudanas em uma medida de variao
tambm provoquem alteraes no aspecto
visual, o formato de uma distribuio se
relaciona com as ideias de simetria e
curtose.

Medidas de formato
Momentos denotados por mr, so medidas
calculadas com o propsito de estudar a
distribuio. O momento de ordem r
( )
centrado num valor a dado por :
=

Quando =
, temos os momentos de
ordem r centrados na mdia e apresentados
( )
por . Assim temos =
( )
= 1, : 1 =

( )3
= 3, : 3 =

( )2
= 2, : 2 =

( )4
= 4, : 4 =

Coeficiente de assimetria
Entre as vrias medidas de assimetria que
devem informar se a maioria dos valores se
localiza esquerda, ou direita, ou se esto
uniformemente distribudos em torno da
mdia aritmtica, temos o coeficiente de
assimetria, denotado por 3 .

3
3 =
2 2

Coeficiente de assimetria
- Se 3 < 0 , a distribuio classificada
como assimtrica negativa, indicando que a
maioria dos valores so maiores ou se
localizam direita da mdia aritmtica.
- Se 3 = 0 , a distribuio classificada
como simtrica, indicando que a maioria dos
valores esto uniformemente distribudos em
torno da mdia aritmtica.

Coeficiente de assimetria
Se 3 > 0 , a distribuio classificada
como assimtrica positiva, indicando que a
maioria dos valores so menores ou se
localizam esquerda da mdia aritmtica.

Coeficiente de assimetria

Coeficiente de curtose
As medidas de curtose indicam o grau de
achatamento de uma distribuio. O
coeficiente de curtose, denotado por4 ,
calculado a partir de:

4
4 = 2
2

Coeficiente de curtose
- Se 4 < 3 , a distribuio classificada
como platicrtica, indicando que ocorre
baixa concentrao de valores no centro,
tornando a distribuio mais achatada que
a distribuio normal.
- Se
, a distribuio
4 = 3
classificada como mesocrtica, indicando
que a concentrao das observaes
ocorre de forma semelhante distribuio
normal.

Coeficiente de curtose
- Se 4 > 3, a distribuio classificada
como leptocrtica, indicando que ocorre
alta concentrao de valores no centro, o
que provoca um pico maior que o da
distribuio normal.

Coeficiente de curtose

Resumo de cinco nmeros


O resumo de cinco nmeros descreve o
conjunto de dados atravs de cinco valores:
a mediana (Md), os quartis, primeiro (Q1) e
terceiro (Q3), e os extremos, inferior (Ei) e
superior (Es). A partir desses valores,
podemos calcular: a amplitude interquartlica
(aq), obtida pela diferena entre os quartis;

Resumo de cinco nmeros


a disperso inferior (Di), obtida pela diferena
entre a mediana e o extremo inferior; e a
disperso superior (Ds), diferena entre o
extremo superior e a mediana.

= 3 1
=

Resumo de cinco nmeros


Para uma distribuio ser considerada simtrica
temos que ter as duas condies: (1 3 )
= 3 1
=
=

( 1 3 )

Resumo de cinco nmeros


Se uma dessas duas condies no for atendida,
ento, a distribuio ser assimtrica.
( 1 3 )

(1 3 )

Identificao de valores discrepantes


Um critrio objetivo para identificao de
valores discrepantes num conjunto de dados
utiliza medidas denominadas cerca inferior
(Ci) e cerca superior (Cs). Calcula-se pelas
seguintes frmulas:
= 1 1,5 = 3 + 1,5

So considerados discrepantes os valores


que estiverem fora do seguinte intervalo:
1 1,5 ; 3 + 1,5

Identificao de valores discrepantes


= 1 1,5 = 3 + 1,5
1 1,5 ; 3 + 1,5

Os valores menores que a cerca inferior so


denominados discrepantes inferiores e os
valores maiores que a cerca superior so
denominados discrepantes superiores.

Grfico em caixa (box plot)


A informao dada pelo resumo de cinco
nmeros pode ser apresentada em forma
de um grfico em caixa, que agrega uma
srie de informaes a respeito da
distribuio,
tais
como
localizao,
disperso, assimetria, caudas e dados
discrepantes.

Grfico em caixa (box plot)


Antes de construir o grfico precisamos
definir o que so valores adjacentes. So
adjacentes o menor e o maior valores no
discrepantes de um conjunto de dados, ou
seja, o maior valor que no ultrapassa a
cerca superior e o menor valor que no
ultrapassa a cerca inferior.
Se num conjunto de dados nenhum valor
considerado discrepante, os valores
adjacentes so os prprios extremos.

Grfico em caixa (box plot)


Para construir
o box plot,
consideramos
um retngulo
onde estaro
representados
os quartis e a
mediana.

Grfico em caixa (box plot)


A partir do retngulo,
para cima e para
baixo, seguem linhas,
denominadas
bigodes, que vo at
os
valores
adjacentes.
Os
valores discrepantes
recebem
uma
representao
individual atravs de
uma letra ou smbolo.

Grfico em caixa (box plot)


A posio central dos valores dada pela
mediana e a disperso pela amplitude
interquartlica (aq). As posies relativas
da mediana e dos quartis e o formato dos
bigodes do uma noo da simetria e do
tamanho das caudas da distribuio.

Grfico em caixa (box plot)


Vale lembrar que quando encontramos um
valor discrepante num conjunto de dados,
a sua origem deve ser investigada. Muitas
vezes, os valores discrepantes, de fato,
fazem parte do conjunto de dados,
reforando a caracterstica assimtrica da
distribuio.

Grfico em caixa (box plot)


Mas, eventualmente, estes valores podem
ser oriundos de erros na aferio ou no
registro dos dados. Em geral, distribuies
com caudas longas (indicadas por bigodes
longos no grfico), caracterstica comum
de distribuies assimtricas, apresentam
uma tendncia maior de produzir valores
discrepantes.
Bigodes de diferentes tamanhos indicam
distribuies assimtricas.

Grfico em caixa (box plot)

Grfico em caixa (box plot) - Outliers


Boxplot comparao de diversos materiais quanto a resduos de OE - Com Outliers
500

PPM de OE

400

300

200

100

0
Cateter OE

Prol Silicone OE Prol Latex OE

Gase OE

Inst Inox OE

Grfico em caixa (box plot) - Outliers

Grfico com as mdias considerando todos os pontos

Grfico em caixa (box plot) - Outliers


Boxplot comparao de diversos materiais quanto a resduos de OE - Sem Outliers
50

PPM de OE

40

30

20

10

0
Cateter OE

Prol Silicone OE

Prol Latex OE

Gase OE

Inst Inox OE

Grfico em caixa (box plot) - Outliers

Grfico em caixa (box plot) - Outliers


Anlise dos dados com os outliers

Grfico em caixa (box plot) - Outliers


Anlise dos dados sem os outliers

Exerccio
Utilize o software Minitab para as anlises.

Exerccio
Utilize o software Minitab para as anlises.

Exerccio
Utilize o software Minitab para as anlises.

Exerccio

Utilize o software Minitab


para as anlises.

Exerccio

Utilize o software Minitab


para as anlises.

Exerccio

Utilize o software Minitab


para as anlises.

Das könnte Ihnen auch gefallen