Sie sind auf Seite 1von 36

ESTATÍSTICA

DESCRITIVA
ENGENHARIA

Resumo

Fernando Mori
Prof.fmori@gmail.com
ESTATÍSTICA DESCRITIVA | Fernando Mori

MÓDULO 1 - ESTATÍSTICA DESCRITIVA

Unidade 1 - Representação dos dados


Um conjunto de dados é uma coleção de valores observados que representam uma ou mais
características de algum objeto ou unidade.

Uma população é um conjunto de dados representando a entidade de interesse.

Uma amostra é um conjunto de dados que representa una porção da população.

Uma distribuição de freqüência é uma lista do número de observações ou freqüências de observações


em cada uma das categorias, normalmente na forma de tabela.

1.1 Exemplo:

Qualidade Freqüência Porcentagem


Bom 13 31.0
Médio 22 52.4
Ruim 7 16.7

Uma distribuição de freqüências relativa consiste de freqüências relativas ou proporções de


observações pertencentes a cada categoria.

Um histograma ou gráfico de barras é uma representação gráfica de uma distribuição.


Vamos analisar alguns exemplos de construção de histogramas.

Exemplo:
Forma levantados os minutos gastos por um atendente ao telefone, de acordo com a tabela a seguir:

Minutos gastos ao telefone

102 124 108 86 103 82


71 104 112 118 87 95
103 116 85 122 87 100
105 97 107 67 78 125
109 99 105 99 101 92

Faça uma tabela de distribuição de freqüência com cinco classes.

Valor mínimo = 67
Valores-chave:
Valor máximo = 125

UNIVERSIDADE SÃO JUDAS TADEU 2015 1


ESTATÍSTICA DESCRITIVA | Fernando Mori

A partir destes dados usamos as seguintes regras empíricas para construir o histograma:

1. Decida o número de classes, que deve ficar entre 5 e 15.

2. Calcule a amplitude das classes.


Primeiro calcule: amplitude total = valor máximo – mínimo. Em seguida,
divida o resultado pelo número de classes. Por fim, arredonde até o próximo
número conveniente. (125 – 67)/5 = 11,6 (arredondado para 12)

3. Calcule os limites das classes.


O limite inferior da classe é o valor mais baixo que pertence a ela e o limite
superior é o mais alto. Use o valor mínimo (67) como limite inferior da
primeira classe.

4. Marque um risco | em cada entrada de dado na classe apropriada.

Quando todos os valores estiverem marcados, conte os riscos em cada


classe para determinar a freqüência dessa classe.

Assim ficamos com o seguinte:

Mínimo = 67, Máximo = 125


Número de classes = 5
Amplitude de classe = 12

Classe Limites Riscos

67 78
79 90 3
91 102 5
103 114 8
115 126 9
5

Faça primeiro todos os limites inferiores.

UNIVERSIDADE SÃO JUDAS TADEU 2015 2


ESTATÍSTICA DESCRITIVA | Fernando Mori

Classe Fronteiras
67 – 78 3 66,5 – 78,5
79 – 90 5 78,5 – 90,5
91 – 102 8 90,5 – 102,5
103 – 114 9 102,5 – 114,5
115 – 126 5 114,5 – 126,5
Tempo ao telefone
9
9
8
8
7
6
5 5
5
4
3
3
2
1
0
66,5 78,5 90,5 102,5 114,5 126,5
Minutos

Classe
67 – 78 3 Tempo ao telefone
79 – 90 5 9
9
91 – 102 8 8
8
103 – 114 9
7
115 – 126 5
6
5 5 5
4
3 3
2
1
0
72,5 84,5 96,5 108,5 120,5
Minutos
Marque o ponto médio no topo de cada barra. Conecte os pontos médios consecutivos.
Estenda o polígono até os eixos.

Ponto Médio: (limite +limite superior) / 2.


Freqüência relativa: freqüência de classe/ freqüência total.
Freqüência cumulativa: número de valores em determinada classe ou abaixo dela.

UNIVERSIDADE SÃO JUDAS TADEU 2015 3


ESTATÍSTICA DESCRITIVA | Fernando Mori

Classe Ponto Médio Freqüência relativa Freqüência


(67 + 78) / 2 3 / 30 cumulativa
67 - 78 3 72,5 0,10 3
79 - 90 5 84,5 0,17 8
91 - 102 8 96,5 0,27 16
103 - 114 9 108,5 0,30 25
115 - 126 5 120,5 0,17 30

Tempo ao telefone

Freqüência relativa
0,30
0,30 0,2
7
0,20 0,17 0,17
0 0,1
0,1
0
0
0
66,5 78,5 90,5 102,5 114,5 126,5

Minutos

A escala vertical mede as freqüências relativas.

Um gráfico de freqüência cumulativa (ou ogiva) mostra o número de valores, em um


conjunto de dados, que são iguais ou inferiores a um dado valor x.

Tempo ao telefone
3
30 0
2
5
20
1
6

10 8

3
0
0
66,5 78,5 90,5 102,5 114,5 126,5
Minutos

UNIVERSIDADE SÃO JUDAS TADEU 2015 4


ESTATÍSTICA DESCRITIVA | Fernando Mori

Unidade 2 – Medidas de posição central

2.1 - Média
Há diferentes tipos de média: a média aritmética, a mais comum, é a soma dos elementos de um
conjunto dividido pelo número de elementos desse conjunto. Assim, um grupo de cinco pessoas, com
idades de 21, 23, 25, 28 e 31, terá média (aritmética) de idade dada por:

21  23  25  28  31
x  25, 6 anos
5
De modo geral, a média aritmética será dada por:
x1  x2   xn
x
n

Ou, escrevendo de maneira mais resumida:


n
 xi
1
x 
n
i 1

A média aritmética também pode ser ponderada, o que não a torna um tipo diferente de média.
Ponderar significa atribuir pesos; logo, se um valor tem peso maior significa simplesmente que ele
entrará mais vezes na média. Digamos, por exemplo, que em três provas um aluno tenha tirado 4, 6 e
8. Se a média não for ponderada, é obvio que será 6.
Se, no entanto, a média for ponderada da seguinte forma: a primeira prova com peso 1, a segunda com
2, e a terceira, 3, a média será calculada como se as provas com maior peso tivessem ocorrido varias
vezes, ou seja:
466888
x
6

Ou simplesmente:
4 1  6  2  8  3
x  6,7
6

Os pesos podem ser o número de vezes que um valor aparece. Suponhamos que numa classe de 20
alunos haja oito com idade de 22 anos, sete de 23, três de 25, um de 28 e um de 30. A quantidade que
cada número aparece no conjunto é chamada de freqüência (freqüência absoluta, nesse caso, pois
se trata da quantidade de alunos com determinada idade). A média de idade, então, será dada por:
22  8  23  7  25  3  28  1  30  1
x  23,5anos
20

UNIVERSIDADE SÃO JUDAS TADEU 2015 5


ESTATÍSTICA DESCRITIVA | Fernando Mori

A freqüência também pode ser expressa em proporções, sendo chamada nesse caso de freqüência
relativa. No exemplo anterior, há oito alunos com 22 anos de idade em um total de 20, portanto,
nessa classe há 8 20  0, 4  40% dos alunos com essa idade. Da mesma forma, temos 35% com
23,15% com 25 e 5% com 28 e 30, respectivamente. A média de idade, então, pode ser calculada da
seguinte forma:
x  22  0, 4  23  0,35  25  0,15  28  0,05  30  0,05  23,5

Repare que o segundo jeito de calcular (usando a freqüência relativa) nada mais é do que o primeiro
(usando a freqüência absoluta) com a fração simplificada (dividiu-se o valor dos pesos pelo número
total).
Um outro tipo de média é a média geométrica. A média geométrica para o aluno que tirou notas
4,6 e 8 será:
G  3 4  6  8  5,8
Ou, genericamente:
G  n x1  x2   xn
Ou, ainda, de maneira mais resumida:
1
 n n
G 
  xi 

 i 1 
Repare que a média geométrica zera se um dos elementos for zero. A média geométrica também pode
ser ponderada: se os pesos das provas forem 1,2 e 3, ela será dada por:

6 1
G 4  6 2  83  6,5

Há ainda um terceiro tipo de média, a média harmônica. No exemplo das notas, ela será dada
por:
1 3
H    5,5
1 1 1 1 1 1
   
4 6 8 4 6 8
3

De modo geral:
n
H 
1 1 1
  
x1 x2 xn

Ou ainda:
n
H 
n

1
xi
i 1

UNIVERSIDADE SÃO JUDAS TADEU 2015 6


ESTATÍSTICA DESCRITIVA | Fernando Mori

Foi possível notar, tanto para as médias simples (sem pesos) como para as ponderadas, que em geral, a
média aritmética é maior do que a média geométrica e essa por sua vez é maior do que a harmônica.
Isso é verdade, exceto, obviamente, quando os valores são todos iguais.

Temos, então, que: x  G  H .

2.2 Exemplos de Aplicação

2.2.1 Um aluno tira as seguintes notas bimestrais: 3, 4,5, 7 e 8,5. Determinemos qual seria sua média
final se esta fosse calculada dos três modos (aritmética, geométrica e harmônica), em cada um
dos seguintes casos.

a) As notas dos bimestres têm os mesmos pesos. Nesse caso, a média aritmética final seria:
3  4,5  7  8,5 23
x 
4 4
x  5, 75

A média geométrica seria:

G  4 3  4,5  7  8,5  4 803, 25


G  5,32

E a harmônica seria:

4
H 
1 1 1 1
  
3 4,5 7 8,5
H  4,90

b) Supondo que os pesos para as notas bimestrais sejam 1, 2, 3 e 4. Agora os pesos dos quatro
bimestres totalizam 10, portanto, a média aritmética final será:

1 3  2  4,5  3  7  4  8,5 67
x 
10 10
x  6,7

A geométrica será:
G  10 31  4, 5 2  7 3  8, 5 4
G  6, 36

E a harmônica:

UNIVERSIDADE SÃO JUDAS TADEU 2015 7


ESTATÍSTICA DESCRITIVA | Fernando Mori

10
H 
1 2 3 4
  
3 4,5 7 8,5
H  5,96

c) Supondo que os pesos sejam, respectivamente, 30%, 25%, 25% e 20%. Agora os pesos são
dados em termos relativos (percentuais) e somam, portanto 1.

O cálculo da média aritmética será então:


x  0,3  3  0, 25  4,5  0, 25  7  0, 2  8
x  5, 475

O da média geométrica será:

G  30,3  4,50,25  0,25  7  0,2  8


G  5,05

E a harmônica:

1
H 
1 1 1 1
 0,3   0, 25   0, 25   0, 2
3 4,5 7 8,5
H  4,66

2.2.2 Dados Agrupados


Foram medidas as alturas de 30 pessoas que estão mostradas na Tabela 4.2.2.1 abaixo:

Alturas de 30 Pessoas
159 168 172 175 181
161 168 173 176 183
162 169 173 177 185
164 170 174 178 190
166 171 174 179 194
167 171 174 180 201

Agrupemos essas pessoas em classes de 10 cm e façamos o histograma correspondente.


Para agrupar em classes de 10 cm, o mais lógico (mas não obrigatório) seria agrupar em:
de 150 a 160; de 160 a 170, e assim sucessivamente.O problema é onde incluir aqueles que
têm, por exemplo, exatamente 170 cm? Na classe de 160 a 170 ou na 170 a 180? Há que se
uma, mas essa escolha é completamente arbitrária. Vamos optar por incluir sempre o limite
inferior, por exemplo, a classe de 170 a 180 inclui todas as pessoas com 170 cm (inclusive)
até 180 cm (exclusive), para o que utilizaremos a notação [170; 180[.
Então, para os valores da Tabela 4.2.2.2, teremos:

Classes de 10 cm
[150; 160[ 1
[160; 170[ 8
UNIVERSIDADE SÃO JUDAS TADEU 2015 8
ESTATÍSTICA DESCRITIVA | Fernando Mori

[170; 180[ 14
[180; 190[ 4
[190; 200[ 2
[200; 210[ 1

Um histograma é uma maneira gráfica de representar esse agrupamento, utilizando-se


retângulos, cuja altura é proporcional ao número de elementos em cada classe.
O histograma para o agrupamento realizado é mostrado no gráfico:

Figura 4.1(Histograma para alturas de 30 pessoas):

16
14
[150; 160[
12
[160; 170[
10
[170; 180[
8
[180; 190[
6
[190; 200[
4
[200; 210[
2
0
150 160 170 180 190 200 210

2.2.3) A partir dos dados agrupados do exemplo anterior, calculemos a média.


Utilizaremos como dados os agrupamentos, é como se – e freqüentemente isso acontece – não
tivéssemos conhecimento dos dados que originaram esse agrupamento.
Já que nossa única informação é o agrupamento (seja pela tabela, seja pelo histograma), não é
possível saber como os dados se distribuem pelo agrupamento, então, a melhor coisa que
podemos fazer na falta de outra opção, é supor que os dados se distribuem igualmente por cada
agrupamento, de modo que, por exemplo, no agrupam que vai de 170 a 180 é como se
tivéssemos 14 pessoas com altura de 175 cm.
Em outras palavras, tomaremos a média de cada classe para o cálculo da média total.
Obviamente, a não ser por uma grande coincidência, esse não será o valor correto da média,
mas é uma aproximação e, de novo, é o melhor que se pode fazer dada a limitação da
informação. Então, temos:
155  1  165  8  175  14  185  4  195  2  205  1
x
30
x  175,33cm

Repare que o valor correto da média, tomando-se os 30 dados originais, é de 174,5 cm.

2.3 - Moda

UNIVERSIDADE SÃO JUDAS TADEU 2015 9


ESTATÍSTICA DESCRITIVA | Fernando Mori

Moda é o elemento de maior freqüência, ou seja, que aparece o maior número de vezes. No
exemplo das idades na classe com 20 alunos, a moda é 22 anos, que é a idade mais freqüente
nesse conjunto.
Pode haver, entretanto, mais de uma moda em um conjunto de valores. Se houver apenas uma
moda, a distribuição é chamada de unimodal. Se houver duas, de bimodal.

2.3.1 - Mediana

Mediana é o valor que divide um conjunto ao meio. Por exemplo, num grupo de cinco pessoas
com alturas de 1,60m, 1,65m, 1,68m, 1,70m e 1,73m, a mediana é 1,68m, pois há o mesmo número de
pessoas mais altas e mais baixas (duas).
A mediana apresenta uma vantagem em relação à média, como veremos a seguir. No grupo, a
média é de 1,672m. Nesse caso, tanto a média como a mediana nos dão uma idéia razoável do grupo
de pessoas que estamos considerando. Se, no entanto, retirarmos a pessoa de 1,73m, substituindo-a
por outra de 2,10m, a média passará a ser 1,746m. Nesse caso, a média não seria muito representativa
de um grupo que, afinal de contas, tem apenas uma pessoa acima de 1,70m. A mediana, entretanto,
fica inalterada.
A mediana, ao contrário da média, não é sensível a valores extremos.
Seguindo a mesma lógica, os quartis são os elementos que dividem o conjunto em quatro
partes iguais. Assim, o primeiro quartil é aquele elemento que é maior do que 1 4 dos elementos e,

portanto, menor do que 3 4 deles; o segundo quartil (que coincide com a mediana) é aquele que
divide 2 4 para acima e 2 4 para baixo; finalmente, o terceiro quartil é aquele elemento que tem
3 abaixo de si e 1 acima.
4 4
Dessa forma, se dividirmos o conjunto em oito pedaços iguais, teremos os octis, decis se
dividirmos em 10 e, mais genericamente, os percentis: o percentil de ordem 20 é aquele que tem
abaixo de si 20% dos elementos e, acima, 80%.

2.4 - Exemplo

2.4.1 - A partir da tabela apresentada anteriormente (altura de 30 pessoas), determinaremos a


moda, a mediana e os quartis do conjunto.

a) A moda.
O elemento que aparece mais vezes (três) é 174 cm, portanto:
Mo  174cm

E só há uma moda, o que não é necessário que ocorra. No caso desse exemplo, bastaria que
houvesse mais uma pessoa com 168 cm de altura para que essa distribuição se tornasse
bimodal.

b) A mediana.

UNIVERSIDADE SÃO JUDAS TADEU 2015 10


ESTATÍSTICA DESCRITIVA | Fernando Mori

Há 30 dados. Do menor para o maior, o 15º. dado é, pela ordem, 173 cm, enquanto o 16º. é
174 cm. Como a mediana deve ter 15 elementos abaixo e 15 acima, tomaremos o ponto
médio entre o 15º. e o 16º. dado:
173  174
Md 
2
Md  173, 5cm

c) O primeiro e o segundo quartis.


Devemos dividir o total de elementos por quatro, o que dá 7,5. Como o sétimo e o oitavo
elementos, indo do menor para o maior são iguais, temos:

Primeiro quartil = 168 cm

O segundo quartil coincide com a mediana:


Segundo quartil  Md  173,5 cm

Resumindo:

Média: A soma de todos os valores dividida pelo número de valores.


Em uma população: Em uma amostra:

Mediana: Ponto que tem um número igual de valores acima e abaixo de si.
Moda: O valor com a maior freqüência.

2.4.2) Um instrutor registra a média de faltas de seus alunos em determinado semestre.


Em uma amostra aleatória, os dados são:
2 4 2 0 40 2 4 3 6

Calcule a média, a mediana e a moda.

Média: x 
x  x  63 n9 x
63
7
n 9

Mediana: Ordene os dados.

0 2 2 2 3 4 4 6 40

O valor que fica no meio é 3, logo a mediana é 3.

Moda: A moda é 2, pois esse é o valor que ocorre mais vezes.


UNIVERSIDADE SÃO JUDAS TADEU 2015 11
ESTATÍSTICA DESCRITIVA | Fernando Mori

2.4.3) Suponha que o aluno com 40 faltas abandone o curso. Calcule a média, a mediana e a
moda dos valores restantes. Compare o efeito da mudança para cada tipo de média. Calcule a
média, a mediana e a moda.
2 4 2 0 2 4 3 6

x
Média: x  n  x  23 n8 x
23
 2,875
8

Mediana: Coloque os dados em ordem.

0 2 2 2 3 4 4 6

Os valores que ficaram no meio são 2 e 3, logo a mediana é 2,5.

Moda: A moda é 2, pois esse é o valor que ocorre mais vezes.

Existem algumas maneiras de interpretarmos graficamente as diferenças entre médias e


medianas.Observe os gráficos abaixo.

UNIVERSIDADE SÃO JUDAS TADEU 2015 12


ESTATÍSTICA DESCRITIVA | Fernando Mori

Uniforme
Simétrica

Média = Mediana

Anti-simétrica à direita Anti-simétrica à esquerda

Média > Mediana Média < Mediana

2.4.4) O preço de fechamento atingido por dois pacotes de ações foi registrado em dez sextas-feiras
consecutivas. Calcule a média, a mediana e a moda de cada pacote.

56 33
Ações A 56 42 Ações B
57 48
58 52
61 57
63 67
63 67
67 77
67 82
67 90
Média = 61,5 Média = 61,5
Mediana = 62 Mediana = 62
Moda = 67 Moda = 67

Amplitude Total = valor máximo – valor mínimo


Amplitude Total de A = 67 - 56 = US$11
Amplitude Total de B = 90 – 33 = US$57

A amplitude total é fácil de calcular porque só usa dois números de conjunto de dados.
UNIVERSIDADE SÃO JUDAS TADEU 2015 13
ESTATÍSTICA DESCRITIVA | Fernando Mori

Para aprender a calcular medidas de variação que usem todo e qualquer valor do conjunto de dados,
primeiro você precisa saber o que é um desvio.

O desvio de cada valor x é a diferença entre o valor de x e a média do conjunto de dados.

Em uma população, o desvio de cada valor x é:

Em uma amostra, o desvio de cada valor x é:

Ações A Desvio
56 – 5,5 56 – 61,5
56 – 5,5
57 – 4,5 56 – 61,5
58 – 3,5   61,5
61 – 0,5 57 – 61,5
63 1,5
63 1,5 58 – 61,5
67 5,5
67 5,5
67 5,5
 x     0
A soma dos desvios é sempre zero.

Variância populacional: a soma dos quadrados dos desvios, dividida por N.

x
56 – 5,5 30,25
56 – 5,5 30,25
57 – 4,5 20,25
58 – 3,5 12,25
61 – 0,5 0,25
63 1,5 2,25
63 1,5 2,25
67 5,5 30,25
67 5,5 30,25
67 5,5 30,25
188,5
Soma dos quadrados
0

UNIVERSIDADE SÃO JUDAS TADEU 2015 14


ESTATÍSTICA DESCRITIVA | Fernando Mori

Desvio padrão populacional: a raiz quadrada da variância populacional.

18,85 4,34

O desvio padrão populacional é US$ 4,34.

Para calcular uma variância amostral, divida a soma dos quadrados por n – 1.

Para calcular o desvio padrão amostral, s, tire a raiz quadrada da variância amostral.

S  S2
S  20, 94  4, 58

2.5 Localização

Uma das características mais úteis de uma distribuição é algum valor médio representativo do
conjunto de valores. Tal valor é chamado de tendência central. Um dos mais usados é a média
aritmética:

- A média é a soma de todos os valores divididos pelo número de valores y 


 yi
n

- A mediana de um conjunto de dados é definida como o valor médio quando as medidas são
colocadas em ordem crescente, 50% das medidas estão acima dela e 50% estão abaixo:
A definição precisa de mediana depende se o número de observações é impar ou par:

 n  1
1) Se n é impar, a mediana está no meio das observações 2 , valores são maiores que
 n  1
ela e 2
valores são menores que ela.

UNIVERSIDADE SÃO JUDAS TADEU 2015 15


ESTATÍSTICA DESCRITIVA | Fernando Mori

2) Se n é par, então existem dois valores médios e a mediana é a média dos dois valores
n n
médios e 2 são maiores que ela, e 2 são menores que ela.

2.5.1) Considere a distribuição para as variáveis x e y dadas . Vamos construir um


gráfico de freqüências e calcular algumas características importantes dessa distribuição.

x y
1 1
2 1
f

3 1
2
3 2
4 1
5 1
1

1 2 3 4 5 x

1
x
6
1  2  3  3  4  5   3, 0

1 2 5 8 y

1
y 
6
1  1  1  2  5  8   3, 0

Temos um número par de observações:


3 3
mx   3, 0
2
1 2
my   1, 5
2

UNIVERSIDADE SÃO JUDAS TADEU 2015 16


ESTATÍSTICA DESCRITIVA | Fernando Mori

A distribuição da variável x é simétrica enquanto a distribuição da variável y é assimétrica.


Moda é o valor que ocorre com mais freqüência em uma série de valores.

2.5.2) Considere a distribuição abaixo. Analisar a simetria da distribuição.

1 2 3 4 5 6 7 8 9 10

A) Total: 19 dados

Dado (x) Freqüência


2 3
3 4
5 5
7 4
8 2
10 1

1
x
19

3  2   4  3   5  5   4  7   2  8   110   
97
  5,105
19

 9 10 9 
Temos um número impar de observações; 
5
mx = 5

Esta distribuição é quase simétrica.


UNIVERSIDADE SÃO JUDAS TADEU 2015 17
ESTATÍSTICA DESCRITIVA | Fernando Mori

UNIVERSIDADE SÃO JUDAS TADEU 2015 18


ESTATÍSTICA DESCRITIVA | Fernando Mori

Unidade 3 – Medidas de dispersão

É muito comum ouvirmos: em estatística, quando uma pessoa come dois frangos enquanto outra passa
fome, na média ambas comem um frango e estão, portanto, bem alimentadas; ou, se uma pessoa está
com os pés em um forno e a cabeça em um freezer, na média experimenta uma temperatura agradável.
É claro que essas distorções têm de ser percebidas, e são! – pela estatística. É para isso que servem as
medidas de dispersão, isto e, medidas de como os dados estão agrupados: mais ou menos
próximos entre si (menos ou mais dispersos).

3.1 - Variância
Uma das medidas mais comuns de dispersão é a variância. Tomemos o exemplo de três
frangos para três indivíduos, ilustrado na Tabela 3.1.1. Na situação 1, há uma divisão eqüitativa,
enquanto, na situação 2, um indivíduo come demais e o outro passa fome.

Tabela 3.1.1. – Frangos por indivíduo

Situação 1 Situação 2
Indivíduo 1 1 2
Indivíduo 2 1 1
Indivíduo 3 1 0

É claro que, em ambas as situações, a média é um frango por indivíduo. Para encontrar uma
maneira de distinguir numericamente os dois casos, uma tentativa poderia ser subtrair a média de cada
valor, como mostrado na Tabela 3.1.2.

Tabela 3.1.2. – Frangos por indivíduo (subtração de médias)

Situação 1 Situação 2
Indivíduo 1 1 – 1 =0 2–1=1
Indivíduo 2 1 – 1 =0 1–1=0
Indivíduo 3 1 – 1 =0 0 – 1 = -1

Média 0 0

O que não resolveu muito, pois a média dos desvios em relação à média (valor menos a média)
continua igual. Mais precisamente, ambas são zero. Isso ocorre porque, na situação 2, os valores
abaixo da média, que ficam negativos, compensam os que ficam acima da média, os positivos.

UNIVERSIDADE SÃO JUDAS TADEU 2015 19


ESTATÍSTICA DESCRITIVA | Fernando Mori

Para eliminar esse inconveniente dos sinais, podemos elevar todos os valores encontrados ao
quadro, como realizado na Tabela 3.1.3.

Tabela 3.1.3. – Frangos por indivíduo (valores elevados ao quadrado)

Situação 1 Situação 2
Indivíduo 1 (1 – 1)2 = 0 (2 – 1)2 = 1
Indivíduo 2 (1 – 1)2 = 0 (1 – 1)2 = 0
Indivíduo 3 (1 – 1)2 = 0 (0 – 1)2 = 1
Média 0 2
3

E, dessa forma, conseguimos encontrar uma medida que distingue a dispersão entre as duas
situações.
Na situação 1, não há dispersão, pois todos os dados são iguais, e a variância é zero.
Na situação 2, a dispersão é, obviamente, maior – encontramos uma variância de 2 3  0,67 .

Basicamente, encontramos a variância subtraindo todos os elementos do conjunto pela média,


elevando o resultado ao quadrado e tirando a média dos valores encontrados. Portanto, a
variância de um conjunto de valores x, que chamaremos de Var  x  ou  x2 , será dada por:

 x1  x    x2  x   
2 2 2
  xn  x
 
var x   x2 
n
ou ainda:
n
  x1  x 
1 2
var  x  
n
i 1

Variância é, portanto, uma medida de dispersão que lembra quadrados. Esse último
aspecto, pode ser um problema na utilização da variância.
Na situação 2 do exemplo anterior (que tratava de frangos), encontramos uma variância de
0,67...frangos ao quadrado? Sim, porque elevamos, por exemplo, um frango ao quadrado. Da mesma
forma que, na geometria um quadrado de lado 2m tem área de (2m)2 = 4m2, temos que (um frango)2 =
um frango2 ! E assim também valeria para outras variáveis: renda medida em reais ou dólares teria
variância medida em reais ao quadrado ou dólares ao quadrado.
Além de causar estranheza, isso dificulta, por exemplo, uma comparação com a média. Para
eliminar esse defeito, utiliza-se uma outra medida de dispersão que é, na verdade, uma pequena
alteração da variância.

UNIVERSIDADE SÃO JUDAS TADEU 2015 20


ESTATÍSTICA DESCRITIVA | Fernando Mori

3.2 - Exemplo

3.2.1 – Variância a partir de dados agrupados

Utilizando o agrupamento do Exemplo da Tabela de altura de 30 pessoas, determinemos a


variância.
A variância é calculada com o mesmo princípio utilizado para a média, ou seja, tomando-se o
valor médio de cada classe como seu representante. Assim:
 2 2 2 
1 155  175,33  1  165  175,33  8  175  175,33  14  
var  x  
30  185  175,33 2  4  195  175,33 2  2  205  175,33 2  1 
      
var  x   108,89

Mais uma vez, é uma aproximação. Verifique que o valor correto da variância (utilizando os
dados iniciais) é 86,92.

3.2.2 – Desvio padrão

Para eliminar o efeito dos quadrados existentes na variância, basta extrair a raiz quadrada.
Chamaremos esta nova medida de desvio-padrão da variável x  dp  x  ou  x  :
dp  x    x  var  x 

Portanto, o desvio-padrão na situação 2 do exemplo dos frangos será dado por:

dp  x   0, 67  0,8 frangos

Estando na mesma unidade os dados (e a média) – no caso específico, frangos -, é possível


comparar o desvio-padrão com a média: nesse caso, o desvio-padrão equivale a 80% da média.
Nota-se que, se o objetivo é a comparação entre dois conjuntos de dados, tanto faz usar a
variância ou o desvio-padrão. Se a variância é maior, o desvio-padrão também será maior (e vice-
versa), necessariamente.

UNIVERSIDADE SÃO JUDAS TADEU 2015 21


ESTATÍSTICA DESCRITIVA | Fernando Mori

3.2.3 – Outra maneira de calcular a variância

Se, a partir da definição de variância, desenvolvermos algebricamente, obteremos:

n
  xi  x 
1 2
var  x  
n
i 1
n
  xi2  2 xi x  x
1 2
var  x   
n 
i 1
n n n
  x
1 1 1 2
var  x   xi2  2 xi x 
n n n
i 1 i 1 i 1
n n
 xi2  2 x n  xi  n n x
1 1 1 2
var  x  
n
i 1 i 1
n
 xi2  2 x
1 2 2
var  x   x
n
i 1
n
 xi2  x
1 2
var  x  
n
i 1

Ou, em outras palavras:

var  x   média dos quadrados - quadrado da média

Utilizando esse método para calcular a variância da situação 2 do exemplo dos frangos,
chegaremos à Tabela 3.1.1 – Frangos por indivíduo (variância):

Situação 2 Ao quadrado
Indivíduo 1 2 4
Indivíduo 2 1 1
Indivíduo 3 0 0

Média 1 5
3

var  x   média dos quadrados - quadrado da média  5  12  2


3 3
Nesse caso, encontramos o mesmo valor que havíamos encontrado calculando a variância pela
definição inicial. Tomemos, contudo, o exemplo de um aluno muito fraco, que tem as seguintes notas
em três disciplinas, como apresentado na Tabela 3.2.4 – Notas do aluno A:

Aluno A Notas Ao quadrado

Economia 3 9
Contabilidade 2 4
Administração 4 16
UNIVERSIDADE SÃO JUDAS TADEU 2015 22
ESTATÍSTICA DESCRITIVA | Fernando Mori

Matemática 1 1
Média 2,5 7,5
Para esse aluno (A), temos:
x  2,5
2
var  x   7,5   2,5   1, 25
dp  x   1,12

Suponha agora um aluno B, mais estudioso, cujas notas são exatamente o dobro,
conforme a Tabela 3.2.5:

Aluno B Notas Ao quadrado


Economia 6 36
Contabilidade 4 16
Administração 8 64
Matemática 2 4
Média 5 30

Para o aluno B, a meia é: x  5 .

Ou seja, se os valores dobram a média dobra. Quanto à variância, temos:

2
var  x   30   5  5  4 1, 25

Ou seja, se os valores dobram, a variância quadruplica. Isso porque variância lembra quadrados. Em
outras palavras, vale a relação:
var  ax   a 2 var  x 
dp  x   2, 24

Isto é, o desvio-padrão dobra, assim como a média. Vale, portanto, a relação:


dp  ax   a.dp  x 

Agora tomemos um aluno C, ainda mais estudioso que tira cinco pontos a mais do que o aluno A em
todas as matérias, como segue Tabela 3.2.6:

Aluno C Notas Ao quadrado


Economia 8 64
Contabilidade 7 49
Administração 9 81
Matemática 6 36
Média 7,5 57,5

Para esse aluno, teremos: x  7,5 .

UNIVERSIDADE SÃO JUDAS TADEU 2015 23


ESTATÍSTICA DESCRITIVA | Fernando Mori

Se o aluno tira cinco pontos a mais em cada disciplina, a média também será de cinco pontos a mais:
2
var  x   57, 5   7, 5   1, 25
dp  x   1,12

A variância e o desvio-padrão são os mesmos do aluno A isso porque são medidas de dispersão – se
somarmos o mesmo valor a todas as notas de A elas continuarão dispersas, espalhadas da mesma
forma, apenas mudarão de posição. Valem, portanto, as relações:

var  x  a   var  x 
dp  x  a   dp  x 

A dispersão pode então ser analisada com base nas seguintes grandezas:

- Amplitude total: é a diferença entre o maior e o menor valor observado.

2
- Variância: S

A variância de um conjunto de n valores observados tendo uma média y é a soma dos desvios
quadráticos divididos por n-1.

  yi  y 
2

S2 
 n  1
- Desvio padrão: é definido como sendo a raiz quadrada positiva de variância.

Para que servem a variância e o desvio padrão?


Embora a média e o desvio padrão sejam apenas duas medidas descritivas, juntas elas fornecem muita
informação sobre a distribuição de um conjunto de valores. Isto é ilustrado pela seguinte regra: se a
forma da distribuição for em forma de sino, a seguinte regra é esperada:

 
1) O intervalo y  S contém 68% das observações.

2) O intervalo  y  2 S  contém aproximadamente 95% das observações.

3) O intervalo  y  3S  contém praticamente todas as observações.

UNIVERSIDADE SÃO JUDAS TADEU 2015 24


ESTATÍSTICA DESCRITIVA | Fernando Mori

3.3.1 Algumas outras medidas de dispersão:

yi  y
- Desvio médio absoluto: DMA   n

- Coeficiente de variação: é a razão entre o desvio padrão e a média expressa em termos de


porcentagem.
S
CV   100
y

- Dispersão baixa: CV  15%

- Dispersão média: 15%  CV  30%

- Dispersão alta: CV  30%


3 yy 
Coeficiente de Assimetria: As  S

0,15  As  1  assimetria moderada


Se, As  1  assimetria forte

Para os dados agrupados usamos as seguintes relações para analisar a dispersão:

1) Média:

fi  xi
x  n
onde n  fi

xi  Ponto central da classe.


(média aritmética entre o limite inferior e o superior de uma classe).
fi = frequência simples de uma classe.

2) Mediana:
n 
h  fac , ant 
2
x  Linf, n   
2 fi , n
2

UNIVERSIDADE SÃO JUDAS TADEU 2015 25


ESTATÍSTICA DESCRITIVA | Fernando Mori

Se n é par:

f ac , ant  Freqüência acumulada anterior ao intervalo que contém o elemento n


.
2

L n n
inf,
2
 Limite inferior da classe que contém o elemento .
2

n
h = amplitude da classe que contém o elemento 2
.

Se n é impar:

 n 1 
h  f ac ,ant 
2
x  Linf, n 1   
2 f i , n1
2

f ac , ant  Freqüência acumulada anterior ao intervalo que contém o elemento n 1


.
2

fi, n1  n 1
2
Freqüência simples da classe que contém o elemento 2
.

L n1 n 1
inf,
2
 Limite inferior da classe que contém o elemento 2
.

n 1
h = amplitude da classe que contém o elemento 2
.

  
2
fi xi  x
3)Variância:
S2 
n 1

UNIVERSIDADE SÃO JUDAS TADEU 2015 26


ESTATÍSTICA DESCRITIVA | Fernando Mori

4) Desvio padrão: S  S2

 fi xi  x
5) Desvio médio absoluto: DMA  n

S
6) Coeficiente de variação: CV   100
x

3 xx 
7) Coeficiente de Assimetria: As  s

0,15  As  1  assimetria moderada


Se, As  1  assimetria forte

- Dispersão baixa: CV < 15%

- Dispersão média: 15% < CV < 30%

- Dispersão elevada: CV ≥ 30%

8) Moda:

h  f mo  f ant 
M o  Linf, mo 

2 f mo  f ant  f pos 
f mo  Freqüência maior.
f ant  Freqüência simples da classe anterior à classe de maior freqüência.
f post  Freqüência simples da classe posterior à classe de maior freqüência.
Linf,mo  Limite inferior da classe de maior freqüência.

UNIVERSIDADE SÃO JUDAS TADEU 2015 27


ESTATÍSTICA DESCRITIVA | Fernando Mori

h  Amplitude de classe de maior freqüência.

Lembremos que um histograma deve ser construído seguindo os seguintes passos:

A partir da tabela de distribuição de freqüências determinamos

I. Número de dados coletados.

II. Amplitude total: R  xmax  xmin


III. Número de classes: k  n ou k  1  3, 22 log n
R
IV. Amplitude de classe (h): h  k
V. Limites de cada classe
VI. Freqüência em cada classe:

3.3.2) Exemplos de Aplicação:

3.3.2.1) Consideremos o seguinte conjunto de dados coletados:

10,1 10,2 10,2 10,8 10,9


11,1 11,5 11,5 11,6 12,1
12,2 12,3 12,3 12,4 12,5
12,9 13,1 13,2 13,3 13,8

Calcule o coeficiente de variação dessa distribuição.

Temos:
n = 20
R  xmax  xmin  3, 7
k n  4, 47  5  5 classes
R 3,7
h   0,74  0,8  Amplitude
k 5

Definimos as Classes:

10 10,8
10,8 11,6
11,6 12,4

UNIVERSIDADE SÃO JUDAS TADEU 2015 28


ESTATÍSTICA DESCRITIVA | Fernando Mori

13,2 14
12,4 13,2

Contamos e criamos uma tabela de freqüências:

Classe Contagem Freqüência


10 10,8 ||| 3
10,8 11,6 ||||| 5
11,6 12,4 ||||| 5
12,4 13,2 |||| 4
13,2 14 ||| 3

Construímos o histograma:

5
F re q ü ê n c i a

0 10 10,8 11,6 12,4 13,2 14


10,4 11,2 12 12,8 13,6

Calculamos a média

n = 20

x
 fi .xi  310, 4  5 11, 2  512  4 12,8  113,6 
n 20
212
  10,6  média = 10,6
20

UNIVERSIDADE SÃO JUDAS TADEU 2015 29


ESTATÍSTICA DESCRITIVA | Fernando Mori

A Mediana será:

 n 
h  f ac ,ant 
x  Linf, n   2 
2 fi ; n
2

20
elemento  10
2

10º elemento está na classe 11,6 – 12,4

n
h  0, 8  10
2

fi , n  5
2

f ac , ant  8

Linf, n  11, 6
2

0, 8 10  8 
x  11, 6   11, 92
5

Variância:

 fi  x  x 
2
i
S2  
n 1

1 
3 10, 4  10,6   5 11, 2  10,6   4 12,8  10,6   1 13,6  10,6  
2 2 2 2
 
19  
1
 40,08   4, 453
19 
Desvio padrão S : S  2,110

UNIVERSIDADE SÃO JUDAS TADEU 2015 30


ESTATÍSTICA DESCRITIVA | Fernando Mori

Coeficiente de variação:

s 2,110
CV  .100  .100  19, 90%
x 10, 6

A dispersão pode ser considerada média.

Coeficiente de assimetria:

As 

3 x x  
3 10, 6   11, 92
s 2,110

As  1, 876
As  1, 876  assimetria forte

Calcular o valor máximo dos 30% iniciais dos dados:

n = 20
in 30.20
  6  6º elemento  intervalo 10,8  11,6  h  0,8
100 100

f ac
→ freqüência acumulada anterior ao elemento 6: 3

f
→ freqüência simples da classe que contém o 6º elemento: 5

L → limite inferior da classe que contém o 6º elemento: 10,8

0,8  6  3 
P30  10,8   11, 28
5

Para 30% dos dados o intervalo x < 11,28

UNIVERSIDADE SÃO JUDAS TADEU 2015 31


ESTATÍSTICA DESCRITIVA | Fernando Mori

3.3.2.2) Os valores abaixo representam uma variável contínua. Construa sua distribuição de
freqüências e calcule a média e a mediana.

7,4 7,4 7,6 7,8 8,0 8,1 8,2


8,2 8,4 8,6 8,9 9,3 9,5 9,7
9,9 10,1 10,3 10,4 10,4 10,5 10,6

A  10, 6  7, 4  3, 2
k  n  4, 58  5
A
h   0, 64
k

21 dados

Classes fi xi xi . fi
7,4 ─ 8,04 5 7,72 38,60
8,04 ─ 8,68 5 8,36 41,80
8,68 ─ 9,32 2 9,00 18,00
9,32 ─ 9,96 3 9,64 28,92
9,96 ─ 10,60 6 10,28 61,68
Total: 189,00

x
 xi . fi 
189
9
n 21

UNIVERSIDADE SÃO JUDAS TADEU 2015 32


ESTATÍSTICA DESCRITIVA | Fernando Mori

 n 1 
 2  f ac ,ant 
md  L n 1
h  
inf, fi , n 1
2
2
Mediana:
n 1 22
  11
2 2

O que nos interessa é o 11º elemento.

n 1
h  0, 64  11
2

f i , n 1  2
2

f ac , ant  10

Linf, n 1  8, 68
2

md  8, 68 
11  10  .0, 64  9, 00
2

3.3.2.3) A tabela abaixo representa a distribuição de freqüências de uma amostra de 24 pessoas.


Levando em consideração o número de vezes que cada uma foi assaltada nos últimos
10 anos na cidade de São Paulo.

xi Número de Pessoas
assaltos
1,5 0─3 5
4,5 3─6 7
7,5 6─9 8
10,5 9 ─ 12 3
13,5 12 ─ 15 1

UNIVERSIDADE SÃO JUDAS TADEU 2015 33


ESTATÍSTICA DESCRITIVA | Fernando Mori

a) Calcule o coeficiente de variação da distribuição.


b) Calcule o coeficiente de assimetria.

a) Média =

1
24

1, 5  5   7  4, 5   8  7, 5   3 10, 5   1 13, 5  
144
  6
24

  xi 
2
 x fi
2
S  
 n  1
1, 5  6  2  101, 25

 4, 5  6  2  15, 75
2
 7, 5  6  .8  18
2
10, 5  6  .3  60, 75

13, 5  6  2 .1  56, 25
S 3, 31
CV    0, 55
x 6
CV  55%
252
S2   10, 96
24  1
S  S 2  3, 31

b) Mediana:
 n 
h  f ac ,ant 
x  Linf, n   2 
2 fi, n
2

n 24
  12  12º posição
2 2

UNIVERSIDADE SÃO JUDAS TADEU 2015 34


ESTATÍSTICA DESCRITIVA | Fernando Mori

n
h  3  12
2

f i ,12  7

f ac , ant  5

Linf  3

x  3
12  5  .3
7
x  6

AS 
3  x  x 
3 6  6 
 0
S 3, 31

UNIVERSIDADE SÃO JUDAS TADEU 2015 35