Sie sind auf Seite 1von 53

1.

ESTATÍSTICA DESCRITIVA
Prf: Vicente Cancho
Prfa: Katherine Zavaleta

2019
O que é Estatística ?

Para muitos, Estatística não passa de conjuntos de


tabelas de dados numéricos. Os estatísticos são
pessoas que coletam esses dados.

• A Estatística originou-se com a coleta de dados e a


construção de tabelas para os governos.
• A situação evoluiu e esta coleta de dados representa
somente um dos aspectos da Estatística.

2
Definição de Estatística

A Estatística é uma ciência baseada na Teoria da


Probabilidade, cujo objetivo principal é nos auxiliar a
tomar decisões ou tirar conclusões em situações de
incerteza, a partir de dados.

População: conjunto de todas as unidades que são de


interesse em um certo estudo.
Amostra: qualquer subconjunto da população
selecionado de acordo com certas regras.

Censo: estudo que inclui todos os elementos da


população.

3
Estatística Descritiva e Análise Exploratória
Etapas iniciais. Utilizadas para descrever e resumir
os dados. A disponibilidade de uma grande
quantidade de dados e de métodos computacionais
muito eficientes revigorou estas áreas da Estatística.
Probabilidade
Permite estudar os fenômenos aleatórios, ou seja,
aqueles em que está presente a incerteza sobre os seus
resultados.

4
Estatística

5
O que fazer com os dados coletados?

1a etapa: Estatística Descritiva e


Análise Exploratória

Medidas resumo, tabelas e gráficos.

6
Variável
Qualquer característica de interesse associada aos elementos
de uma população.

Classificação de variáveis


Nominal Cor, tipo de máquina

Qualitativa
Ordinal Classe social, grau de desgaste

Contínua


Peso, viscosidade, pressão

Quantitativa
Discreta Número de filhos, número de
defeitos

7
Variáveis Quantitativas

Medidas de posição: moda, média, mediana, percentis, quartis.


(medidas de tendência central: três primeiras)

Medidas de dispersão: amplitude, intervalo interquartil, variância,


desvio padrão, coeficiente de variação.

8
9
Amostragem

Uma área importante em muitas aplicações estatísticas é a da Tecnologia de


Amostragem.

Exemplos:
• Pesquisa de mercado,
• Pesquisa de opinião,
• Avaliação do processo de produção.

10
Amostragem Aleatória
Cada elemento da população tem
uma chance conhecida de ser
selecionado.

Amostragem Estratificada
Classificar a população em pelo
menos dois estratos e selecionar
uma amostra de cada um.

Amostragem Sistemática
Selecionar um elemento a cada k.

11
Amostragem por Conglomerados
Dividir a população em conjuntos
homogêneos, mas com elementos
heterogêneos. Selecionar aleatoriamente
alguns destes conjuntos e tomar amostras
deles.

Amostragem por Conveniência


Selecionar elementos de fácil acesso ou
de interesse para o estudo.

12
Medidas de posição
Moda (Mo): É o valor (ou atributo) que ocorre com maior
freqüência.
Ex. Dados: 4,5,4,6,5,8,4,4
mo = 4
n

Média: x 1 + x 2 + x 3 + ... + x n 
i= 1
xi
x = =
n n
Ex. Dados: 2,5,3,7,11

x = (2+5+3+7+11)/5 = 5,6

13
Mediana (Md)
A mediana é o valor que ocupa a posição central de um
conjunto de n valores ordenados.
Posição da mediana: pm = (n+1)/2

Ex. Dados: 2,26,3,7,8 (n = 5)


Dados ordenados: 2,3,7,8, 26 => pm = (5+1)/2=3
=> Md = 7

Ex. Dados: 2,15,2,1,8,5 (n = 6)

Dados ordenados: 1,2,2,5,8,15 => pm = (6+1)/2=3,5


=> Md = (2+5) / 2 = 3,5 (média dos elementos nas
posições 3 e 4).

14
Quantis
O quantil de ordem p, em um conjunto de dados com n
observações, é o valor que ocupa a posição p x (n+1) nos
dados ordenados.

O quantil de ordem p deixa px100% das observações


abaixo dele na amostra ordenada.

Casos particulares:
Quantil 0,5 = mediana ou segundo quartil (md)
Quantil 0,25 = primeiro quartil (Q1)
Quantil 0,75 = terceiro quartil (Q3)

15
Exemplos
Ex. 1. 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7
(n = 10)
Posição da Md: 0,5(n+1)=0,5x11=> Md =(3+3,1)/2 = 3,05
Posição de Q1: 0,25(11)=2,75 => Q1 = (2+2,1)/2 = 2,05
Posição de Q3: 0,75(11)=8,25 => Q3 = (3,7+6,1)/2 = 4,9

Ex. 2. 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6
(n = 11)
Md = 5,3
Q1 = 1,7
Q3 = 12,9

16
Considere as notas de uma prova aplicada a três grupos de alunos:
Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.

0 10
G1
10
0
G2

0 10
G3
5

x 1 = x 3 = x 3 = 5; Md 1 = Md 3 = Md 3 = 5
17
Medidas de Dispersão

Finalidade: encontrar um valor que resuma a variabilidade


de um conjunto de dados.

Amplitude (A): A = max-min


Para os grupos anteriores, temos

Grupo 1: A = 4
Grupo 2: A = 8
Grupo 3: A = 0

18
Intervalo interquartil (dq)

É a diferença entre o terceiro quartil e o primeiro quartil:


dq = Q3 - Q1

Ex. 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7

Q1 = 2,05 e Q3 = 4,9

dq = Q3- Q1 = 4,9-2,05 = 2,85

19
Variância (s2)
n
2
2 2 2 
 ix  x 
(x  x) +(x  x) +...+(x  x)
S2 = 1 2 n
= i=1
n 1 n 1

Desvio padrão (s)


2
s= s

20
Cálculo da variância para o grupo 1:

G1:3, 4, 5, 6, 7: Vimos que x 5

2 ( 3  5 )2 +( 4  5 )2 +( 5  5 )2 +( 6  5 )2 +( 7  5 )2 10
S = = = 2,5
5 1 4

Desvio padrão

2
G1 : s = 2,5  s  1,58
2
G2 : s = 10  s = 3,16
2
G3 : s = 0  s = 0
21
Coeficiente de variação (CV)

É uma medida de dispersão relativa.

Elimina o efeito da magnitude dos dados.

Exprime a variabilidade em relação à média.

S
CV =  100 ,
|x|
see x  0 .

22
Exemplo. Altura e peso de alunos

Média Desvio padrão Coeficiente de


variação
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6kg 12%

Conclusão. O peso dos alunos apresenta


variabilidade aproximadamente duas vezes maior do
que a altura.

23
Organização e representação dos dados

Uma das formas de organizar e resumir a informação


contida em dados observados é por meio de tabela de
freqüências e gráficos.

Tabela de freqüência. Relaciona categorias (ou classes) de


valores juntamente com as contagens (ou freqüências) do
número de ocorrências de cada categoria (ou classe).

1. Variáveis qualitativas. Tabela de freqüências das


categorias de classificação. Representação gráfica: gráfico
de barras e gráfico de setores (“de pizza”).

24
Exemplo. Variável “Grau de instrução” (variável qualitativa)

Grau de fi fr
Contagem
instrução i

1o Grau 12 0,3333
2o Grau 18 0,5000
Superior 6 0,1667
Total n = 36 1,0000
fi : frequência absoluta da categoria i (número de indivíduos
que pertencem à categoria i)

fi
fr= : frequência relativa da categoria i
i
n

25
Representação gráfica de variáveis qualitativas

Barras horizontais ou verticais


Gráficos de setores (“de pizza”)

Diagrama de barras para a variável


grau de instrução

60,00%

50,00%
50,00%

40,00%
33,33%

30,00%

20,00% 16,70%

10,00%

0,00%
1o Grau 2o Grau Superior

Grau de instrução

26
Diagrama circular para a variavel grau de instrução
Diagrama circular para a variável grau de
1oGrau (33.3%)
instrução

Superior
17% 1o Grau
33%
2oGrau (50.0%) Superior (16.7%)

2o Grau
50%

27
2. Organização e representação de variáveis quantitativas

2.1 Discretas. Organizam-se mediante tabelas de freqüências e a


representação gráfica é mediante gráfico de barras ou gráfico de
linha.
Exemplo. Número de defeitos em lotes de produtos.

Tabela. Distribuição de freqüências do número de defeitos por lote.


i Número de Número de lotes % de lotes
defeitos (fi ) (fri)
(Xi )
1 0 4 20%
2 1 5 25%
3 2 7 35%
4 3 3 15%
5 5 1 5%
Total 20 100%

28
Representação gráfica

29
Determinação das medidas de posição e medidas de
dispersão para variáveis quantitativas discretas agrupados
em tabela de freqüências: k

Média: x f + x f ++ xk f k x f i i
x= 1 1 2 2 = i=1
n n

Exemplo. Determine o número médio de defeitos por lote.


0 4+1 5+ 2 7+3 3+51 33
x= = =1,65
20 20

Mediana:

Dados ordenados: 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5
=> pm = (20+1) / 2 = 10,5 => Md = 2

30
Variância:
k
2
(x1  x )2 f1 + (x2  x )2 f 2 +  + (xk  x )2 f k
2
 i
(x
i=1
 x ) fi
s = =
n 1 n 1
Exemplo.

2 4( 0 1,65)2 +5(11,65)2 +7( 2 1,65)2 +3( 31,65)2 +( 5 1,65)2


s =
19
16,3125
 = 0,859
19
Desvio padrão:
s = s 2 = 0,927

Coeficiente de variação: s 0,92


CV  100%  100%  55,8%
| x| 1,65

31
2.2 Procedimento de construção de tabelas de freqüência para
variáveis contínuas

• Escolha o número de intervalos de classe (k)


• Identifique o menor valor (MIN) e o valor máximo (MAX) dos dados.
• Calcule a amplitude (A): A = MAX – MIN
• Calcule o comprimento de cada intervalo de classe (h): h= A
k
• Arredonde o valor de h de forma que seja obtido um número
conveniente.
• Obtenha os limites de cada intervalo de classe.

PRIMEIRO INTERVALO:
Limite inferior: LI1 =MIN
Limite superior: LS1 =LI 1 +h

32
SEGUNDO INTERVALO:
Limite inferior: LI2 =LS1
Limite superior: LS2 =LI 2 +h

i-ÉSIMO INTERVALO:
Limite inferior: LIi =LS i− 1
Limite superior: LSi =LI i +h

Prossiga até que seja obtido um intervalo que contenha o valor máximo
(MAX).

Construa uma tabela de distribuição de freqüências, constituída pelas


seguintes colunas:
• Número de ordem de cada intervalo (i)
• Limites de cada intervalo. Os intervalos são fechados à esquerda
e abertos à direita. Notação:

33
• Ponto médio (ou marca de classe) de cada intervalo de classe:
* LSi + LIi
x =
i
2
•Freqüências absolutas de cada intervalo de classe.
•Freqüências relativas de cada intervalo de classe.
•Freqüências acumuladas absolutas de cada intervalo de classe.
i
Fi = f 1 + f 2 +  + f i = 
j= 1
fj

•Freqüências acumuladas relativa de cada intervalo de classe.


i
Fi
Fr = fr + fr ++ fr =  fr ou Fr =
i 1 2 i
j=1
j i n

34
Exemplo. Variável peso (em kg).
Procedimento:
• Considere k = 5.
• MIN = 4; MAX = 23,30.
• A = MAX – MIN = 23,30 – 4 = 19,30
• h = 19,3/5 = 3,86
• Adotamos h = 3,9
• Cálculo dos limites de cada intervalo:
Primeiro intervalo
LI 1 = 4
LS 1 = 4 + 3,9 = 7,9
Segundo intervalo
LI 2 = 7,9
LS 2 = 7,9 + 3,9 = 11,8

Os demais limites dos intervalos são obtidos de forma semelhante.

35
Pontos médios: x1* =
4+7,9 = 5,95; x2* =
7,9+11,8 = 9,85; etc
2 2

Tabela. Distribuição de freqüências da variável peso.


i Intervalos Ponto médio Freqüência Freqüência Freqüência Freqüência
de classe absoluta) relativa absoluta relativa
acumulada acumulada
1 4,0 |-- 7,9 5,95 10 0,277778 10 0,277778
2 7,9 |-- 11,8 9,85 12 0,333333 22 0,611111
3 11,8 |-- 15,7 13,75 7 0,194444 29 0,805556
4 15,7 |-- 19,6 17,65 6 0,166667 35 0,972222
5 19,6 |-- 23,5 21,55 1 0,027778 36 1
Total 36 1,000000

Nesta organização de dados temos perda de informação.

36
Representação gráfica.
• Histograma (freqüências ou densidades)

37
• Densidade de freqüência (ou densidade):

f ri
f di
=
h
• Propriedade: soma das áreas dos retângulos = 1, pois

k
k f ri
k

 i 1
h f di
 h
h
 f ri
 1.
i 1 i 1

Obs. O comprimento das classes pode variar.

38
Histograma (freqüências relativas acumuladas, em %)

39
Exemplo em R

> hist(dados, main = "", xlab = "Rendimento (%)", ylab = "Densidade",


freq = FALSE, nclass = 5)
> lines(density(dados), col = "blue")

0.08
0.08

0.06
0.06

Densidade
Densidade

0.04
0.04
0.02

0.02
0.00

0.00

75 80 85 90 95 100
75 80 85 90 95 100
Rendimento (%)
Rendimento (%)

40
Escolha do número de classes (k)

k=31 k=13

0.4

0.3
Densidade

Densidade
0.2
0.2

0.1
0.0

0.0
7 8 9 10 11 12 13 7 8 9 10 12
X X

k=7 k=4
0.00 0.10 0.20 0.30

0.20
Densidade

Densidade
0.10
0.00

6 7 8 9 10 12 6 8 10 12 14
X X

41
Medidas de posição e medidas de dispersão para variáveis contínuas
agrupadas em classes.
k
Média: * * * x *
i fi
x f1 + x f 2 +  x f k
1 2 k i =1
x =
n n

Exemplo. Tabela na lâmina 45


5,9510 + 9,8512 +13,75  7 +17,65  6 + 21,55 1
x
36
401,4
= = 11,15
35
Média dos dados não agrupados (dados brutos) :

x1 + x 2 +  + x 36 4 + 4,36 +  + 23 ,30
x= = = 11,12
36 36

Este resultado difere do valor obtido anteriormente. Por quê?

42
k
f x *

 i i x 
2

Variância: s2  i=1

n 1
Exemplo. Tabela na lâmina 45 x = 11 ,15
5

  
2
f i xi*  x
699,66
s2  i=1
=
= 19,99
36  1 35
 s = 4,47 ( Desvio padrão )

43
Gráfico de caixas (boxplot)
Representação dos dados por meio de um retângulo construído
com os quartis. Fornece informação sobre valores extremos
(dq = Q3 – Q1)

Vertical à esquerda: menor valor na amostra que não é extremo.


Vertical à direita: maior valor na amostra que não é extremo.

44
Boxplot em R

1º quartil (Q1) = 86,1. Em R: quantile(dados, 0.25)


Mediana (Md ou Q2) = 89,25. Em R: quantile(dados, 0.5)
3º quartil (Q3) = 93,1. Em R: quantile(dados, 0.75)
dq= intervalo interquartil = Q3-Q1 = 7
Lnhas auxiliares passam por Q1-1,5dq = 75,6 e
Q3+1,5dq = 103,6.
> boxplot(dados, xlab = "Rendimento (%)", horizontal = TRUE)

8 0 8 5 9 0 9 5

R e n d im e n to (% )

45
Boxplot em R

120
100
Redução de volume

80
60
40
20
0

A B C D E F G H

T i p o d e a d i ti vo

46
Associação entre variáveis quantitativas

(x1,y1), ..., (xn,yn): amostra bivariada.

Representação gráfica: gráfico de dispersão (scatter plot)


Medida de associação: coeficiente de correlação linear
de Pearson.
1 n
 i 1
( x i  x )( y i  y )
r  n 1
sxsy

Numerador: covariância entre x e y.

Propriedades: (a) –1  r  1 e
(b) |r| = 1 se, e somente se, a relação entre x e y for linear.

47
Associação entre variáveis quantitativas

48
Associação entre variáveis quantitativas

49
Associação entre variáveis quantitativas

50
Associação entre variáveis quantitativas

E xemplo 1 E xemplo 2
10 11

9
Correlações:

8
9

Exemplo 1:

7
8
Y

Y
0,8164

6
7

5
6

Exemplo 2:

4
5

0,8162

3
4

4 6 8 10 12 14 4 6 8 10 12 14
Exemplo 3:
X X
0,8163
E xemplo 3 E xemplo 4 Exemplo 4:
0,8165
12
12

10
10
Y

8
8

6
6

4 6 8 10 12 14 8 10 12 14 16 18

X X

51
Exemplo em R. Dados na lâmina 17.

> plot(espessura, resistencia, xlab = "Espessura", ylab =


"Resistência", pch = 20)
> lines(lowess(espessura, resistencia), col = "blue")
50
48
Resistência

46
44

10 11 12 13 14 15 16

E s p e s s u ra

52
Exemplo em R. Dados na lâmina 17.

> cores = rainbow(length(levels(cola)))


> plot(espessura, resistencia, xlab = "Espessura", ylab =
"Resistência", pch = 20, col = cores[cola])
> legend("topright", levels(cola), pch = 20, col = cores)

1
2
3
50

4
48
Resistência

46
44

10 11 12 13 14 15 16

E s p e s s u ra

53

Das könnte Ihnen auch gefallen