Sie sind auf Seite 1von 47

Estatstica descritiva

Prof. Carlos Amorim


Introduo Estatstica
O que estatstica?
conjunto de tcnicas que permite, de forma sistemtica,
coletar, organizar, descrever, analisar e interpretar dados
oriundos de estudos ou experimentos, realizados em
qualquer rea do conhecimento.

Dois tipos de estatstica:


Estatstica Descritiva;
Inferncia Estatstica.
Conceitos
Populao
o conjunto de objetos, indivduos ou resultados
experimentais acerca do qual se pretende estudar alguma
caracterstica comum.

Amostra
uma parte da populao que observada com o objetivo
de obter informao para estudar a caracterstica
pretendida.
Conceitos
Parmetro
uma caracterstica relacionada a populao.

Estatstica
uma caracterstica relacionada a amostra.
Definies
Estatstica Descritiva
Mtodos que organizam, resumem e apresentam os dados
de uma maneira que permite entende-los facilmente.

Inferncia Estatstica
Mtodos usados para tirar concluses ou fazer inferncias
sobre as caractersticas da populao baseado nos dados
de uma amostra.
Tipo de Variveis
Variveis
So as caractersticas dos elementos da populao ou da
amostra.
Dados
So os valores observados das variveis.
Nominal
Qualitativas
Ordinal
Variveis
Discreta
Quantitativas
Contnua
Questo 1
Defina quais so os tipos das variveis abaixo:
Estado civil Qualitativa nominal
Grau de instruo Qualitativa ordinal
Nmero de Filhos Quantitativa discreta
Salrio Quantitativa contnua
Idade Quantitativa contnua
Regio de procedncia Qualitativa nominal
Temperatura Quantitativa contnua
Nmero de itens comprados Quantitativa discreta
Grficos para variveis qualitativas
Grficos em barras:
Distribuio de freqncia
Grau de instruo Freqncia
20
18

Fundamental 12 16
14

Frequencia
12
10
Mdio 18 8
6
4
Superior 6 2
0
Fundamental Mdio Superior
Total 36
Grficos para variveis qualitativas
Grficos de composio em setores.
Distribuio de freqncia
Grau de
Freqncia Porcentagem
instruo Superior
17%
Fundamental
Fundamental 12 33,33 33%
Fundamental
Mdio
Mdio 18 50
Superior

Superior 6 16,67 Mdio


50%
Total 36 100
Grficos para variveis quantitativas
Histograma: um grfico de barras, com as bases
proporcionais aos intervalos das classes e a altura de cada
retngulo proporcional respectiva freqncia.

Importncia: sugerem a forma da distribuio da


populao que estamos amostrando.

Exemplo (excel).
Histograma
Determinando o nmero de classes
Nmero de Observaes Nmero de classes
Menos que 50 5-7
50-200 7-9
200-500 9-10
500-1000 10-11
1000-5000 11-13
5000-50000 13-17
Mais que 50000 17-20

Regra de Sturges:

Nmero de classes = 1 + 3,3 log (n)


Histograma
Determinando os intervalos das classes

x max x min
Intervalo =
k
Onde:

x max : maior valor observado.


x min : menor valor observado.

k: nmero de classes.
Formas - Histograma
Histograma simtrico:
Quando uma linha vertical pode ser desenhada no meio
do grfico e as metades resultantes so aproximadamente
imagens espelhadas.
Formas - Histograma
Histograma assimtrico:
Quando a cauda do grfico se alonga mais em um dos
lados.

Assimetria direita (positiva): Assimetria esquerda (negativa):


Medidas descritivas
So funes de valores de uma varivel numrica.

Objetivo: reduzir um conjunto de dados numricos


a um pequeno grupo de valores que deve fornecer
toda a informao relevante a respeito desses dados.
Medidas descritivas
Medidas de localizao ou tendncia central
Media, Mediana, Moda
Medidas de variao ou disperso
Amplitude total, varincia, desvio padro
Medidas de posio
Quartis, Percentis
Medidas de associao
Covarincia, coeficiente de correlao
Mdia aritmtica
Medida mais conhecida e utilizada:
Facilidade de clculo e compreenso;
Propriedades matemticas e estatsticas.

Simples: todos os valores participam do clculo


com o mesmo peso.
Mdia Aritmtica

Ponderada: pelo menos um dos valores participa


com peso diferente.
Mdia aritmtica
Para um conjunto de n valores da varivel X :
x 1 , x 2 ,..., x n n

xi
X = i =1
n

Para um conjunto de valores e um conjunto


de pesos: x1 , x 2 ,..., x n
p 1 , p 2 ,..., p n
n

xp i i
X = i =1

p i
Mediana
o valor que ocupa a posio central da srie
de observaes, quando esto ordenadas em
ordem crescente.
Md
50 % 50 %
x (1 ) x(n)

Para obter a mediana:


1. Ordenar os dados;
2. Determinar a posio (p) da mediana.
Mediana
Formalmente:
x (1 ) x ( 2 ) ... x ( n 1 ) x ( n )

x n +1 se n mpar;

2
md ( X ) =
x n + x n
+1 se n par.
2 2

2
Ex:
A = { 3, 4, 7, 8, 8} Md = 7

B = {3, 4, 7, 8, 8, 9 } Md = (7+8)/2 = 7,5


Moda
o valor mais freqente do conjunto de
valores observados.
a nica medida que pode no existir e,
existindo, pode no ser nica.

Ex:
C = { 2, 3, 5, 6, 7, 10 } No tem moda.
D = { 1, 2, 2, 3, 4 } Moda = 2
E = { 1,1, 2, 3, 4, 4} M1 = 1 e M2 = 4
Mdia, Mediana, Moda
Exerccio:
Para o conjunto de valores abaixo, calcule a
mdia, a mediana e a moda.
25 10 9 12 21 16 18 23 13 5 23 22 9 20 17 9

Mdia = 15,75
Mediana = 16,5
Moda = 9
Mdia, Mediana, Moda
Qual a melhor?
Mdia a nossa primeira escolha para medida de
tendncia central.
Quando existem valores extremos, a mediana
melhor do que a mdia.
Mdia, Mediana, Moda
Forma de distribuio
Medidas de disperso
Indicam a variabilidade de um conjunto de
dados.
Conjuntos de dados:
A = { 3, 4, 5, 6, 7 } (varivel X)
B = { 3, 5, 5, 5, 7 } (varivel Y)

C = { 5, 5, 5, 5, 5 } (varivel Z)

D = { 3, 5, 5, 7 } (varivel W)

E = { 3, 5, 5, 6, 6 } (varivel V)

X = Y = Z = W = V = 5,0
Amplitude Total
a diferena entre o maior e menor valor
observado.
Ex:
A = { 3, 4, 5, 6, 7 } At = 7 3 = 4
B = { 3, 5, 5, 5, 7 } At = 7 3 = 4
C = { 5, 5, 5, 5, 5 } At = 5 5 = 0
D = { 3, 5, 5, 7 } At = 7 3 = 4
E = { 3, 5, 5, 6, 6 } At = 6 3 = 3
No uma boa medida de disperso.
Varincia
a soma dos quadrados dos desvios dividido
pelo nmero de observaes.
(x x )
n
2
i
var( X ) = i =1
n
Ex:
A = { 3, 4, 5, 6, 7 }
Mdia: x = 5
Desvios ( x i x ): 2 , 1 , 0 ,1 , 2
( )2
Quadrado dos desvios xi x : 4 ,1 , 0 ,1 , 4
Varincia

(x x )
5
2
i = 4 + 1 + 0 + 1 + 4 = 10
i =1

(x x )
5
2
i
10
var( X ) = i =1
= = 2,0
n 5
Desvio padro
a raiz quadrada positiva da varincia.
dp( X ) = Var ( X ) = X

Ex:
A = { 3, 4, 5, 6, 7 }
var( X ) = 2,0 O desvio padro indica em mdia qual
ser o erro (desvio) cometido ao tentar

dp( X ) = 2 = 1,41
substituir cada observao pela mdia do
conjunto de dados.
Teorema de Chebyshev
A porcentagem de observaes que se situam dentro
de k desvios padro da mdia deve ser pelo menos
1
1001 2
k
Para qualquer populao com mdia e desvio padro :

k =2 pelo menos 75% dos valores estaro no intervalo 2


k =3 pelo menos 88,9% dos valores estaro no intervalo 3
k =4 pelo menos 93,8% dos valores estaro no intervalo 4
Teorema de Chebyshev
Exemplo:
= 72
=8
Pelo menos 75% dos valores estaro dentro do intervalo:

72 2(8) ou [56;88]
Regra emprica
Se um conjunto de dados tem distribuio normal
(histograma em forma de sino), ento:
Aproximadamente 68% de todas as observaes estaro dentro
de .
Aproximadamente 95% de todas as observaes estaro dentro
de 2 .
Aproximadamente 99,7% de todas as observaes estaro
dentro de 3 .
Medidas de posio
Indicam limites para propores de
observaes em um conjunto.
Mediana Divide o conjunto ordenado em duas partes.

Quartis Dividem o conjunto ordenado em quatro partes.

Decis Dividem o conjunto ordenado em dez partes.

Percentis Dividem o conjunto ordenado em cem partes.


Percentis
So os noventa e nove valores que dividem um
conjunto de dados ordenado em 100 partes
iguais.
Indicamos o 1 percentil como P1, o 2 como P2 e
assim por diante.
importante notar que P25 = Q1, P50 = Md e
P75 = Q3.
Percentis (Pi)
Para se obter os percentis:
1. Ordenar os dados;
2. Determinar a posio (p) de cada percentil.
P
L p = (n + 1)
100
Onde Lp a localizao do p percentil.
Percentis (Pi)
Ex:
0 1 2 3 3 5 5 5 6 7 7
1 quartil = 25 percentil:
P 25
L p = (n + 1) = (11 + 1) = 3 (localizao)
100 100
Q1 = P25 = 2

3 quartil = 75 percentil:
P 75 Q3 = P75 = 6
L75 = (n + 1) = (12) =9
100 100
Percentis (Pi)
Ex2:
2 3 5 6 7 7
1 quartil = 25 percentil:
25 3 2 =1 1 0,75 = 0,75
L25 = (6 + 1) = 1,75
100
Q1 = 2 + 0,75 = 2,75

3 quartil = 75 percentil:

75 77 = 0 0 0,25 = 0
L75 = (6 + 1) = 5,25
100 Q3 = 7 + 0 = 7
Quartis
So trs medidas que dividem um conjunto de
dados ordenado em quatro partes iguais.

Q1 Q2 Q3

x (1 ) 25 % 25 % 25 % 25 % x(n)
Md

Md = Q 2 = D 5 = P50

Distncia interquartil: d q = Q 3 Q1
Box-plot
Baseado:
Valor mnimo observado;
1 quartil;
2 quartil;
3 quartil;
Valor mximo observado.

Q1 Q2 Q3
x min x max
Box-plot
Assimetria a direita Simtrico Assimetria a esquerda
Box-plot
Exemplo:
xmin = 83; Q1 = 107; Q2 = 113; Q3 = 126 e xmax = 170.

50 70 90 110 130 150 170 190

Assimetria a direita.
Exerccio 1
Para o conjunto de valores abaixo, calcule:
varincia, desvio padro, Q1 e Q3.
13 16 15 14 20 18

Varincia = 5,6667
Desvio padro = 2,3804
Q1 = 13,75
Q3 = 18,5
Medidas de associao
Covarincia
n

( x X )( y
i i Y)
COV ( X , Y ) = i =1
n

Se:
COV (X,Y) > 0 relao positiva;
COV (X,Y) < 0 relao negativa;
COV (X,Y) = 0 no existe relao.
Medidas de associao
Coeficiente de correlao

COV ( X , Y )
X ,Y =
X Y

1 X ,Y +1
Medidas de associao

COV > 0 COV < 0 COV = 0

=1 = 1 =0
Applet
Exerccio 2
Uma amostra de 5 operrios
X 1 2 4 4 5 x = 16 x 2
= 62
y = 22 y
Y 7 8 3 2 2 2
= 130
X: anos de experincia xy = 53
Y: tempo (min) gasto na execuo de uma certa tarefa.

a) Faa o diagrama de disperso;


b) Voc acha que existe uma dependncia linear
entre as duas variveis?
c) Calcule o coeficiente de correlao.
Exerccio
9
8
7
Tempo (min)

6
5
4
3
2
1
0
0 1 2 3 4 5 6
Anos de experincia

= 0,9189

Das könnte Ihnen auch gefallen