Beruflich Dokumente
Kultur Dokumente
Fundamentos de Estatística
* ** * **
Sugestão Usual:
Os intervalos gerados pela categorização devem ter o mesmo
comprimento e/ou aproximadamente mesmas frequências.
• Qualquer conjunto de dados fica mais fácil de analisar
se for representado graficamente. No gráfico
tradicional para uma distribuição de frequências, cada
intervalo é representado por um retângulo, cuja base
coincide com a largura do próprio intervalo e cuja área
é idêntica, ou proporcional, a sua frequência.
• A figura geométrica obtida é chamada de histograma.
• A área total do histograma é igual a um, quando a área
de cada retângulo for igual à frequência do intervalo
correspondente.
Histograma
70
da produção industrial categorizada
_ _
x-s x
60
_
50 x+s
Frequência (%)
40
30
_
x-2s _
20 x+2s
10
0
74 76 78 80 82 84 86 88 90 92 94 96
Produção
• Para facilitar a comparação com os dados da tabela, a
altura de cada retângulo, e não a sua área, é igual à
frequência do intervalo.
• Isto não alteram o aspecto geral do histograma, já que
as bases dos retângulos são todas iguais.
Variáveis quantitativas também podem ser
representadas por:
• Diagrama de Pontos
Ex: Distribuição de Frequência da Variável Produção Industrial
78 80 82 84 86 88 90 92
Produção
Exibe pequeno conjunto de dados. Esse gráfico nos
permite ver facilmente duas características dos dados: a
localização, ou o meio, e a dispersão (espalhamento)
ou variabilidade.
• Ramos e Folhas Ramos Folhas
– Utilização: Conjunto 79 37
pequeno de dados 81 47
– Vantagem: Visualização 82 6
completa das obs.
83 277
– Construção: Cada obs.
dividida em duas partes: 84 5578
Ramos e Folhas 85 1
86 13
Ex: Distribuição de Frequência da 87 3
Variável Produção Industrial 88 5
89 17
Unidade das Folhas=0,1 91 9
Variáveis qualitativas podem ser representadas por:
• Gráfico em Barras
• Gráfico de Setores (Gráfico
“Pizza”)
• Gráfico em Retângulo
Sumarização dos Dados
d i = xi − x
s = V ( x) = s 2
− x2
P(µ − σ < x < µ + σ ) = ∫ f ( x)dx = 0,6826(68,26% )
f ( x) =
1
e 2 µ −σ
2π µ +3σ
P(µ − 3σ < x < µ + 3σ ) = ∫ f ( x)dx = 0,9973(99,73% )
µ −3σ
• Na prática podemos consultar na tabela a seguir os
valores das integrais para vários intervalos de uma
variável z≈N(0,1) para obter as probabilidades
correspondentes a quaisquer limites.
• Padronização: Padronizar uma variável aleatória x (µ,σ2)
é construir a partir dela uma nova variável aleatória z,
cujos valores são obtidos subtraindo-se de cada valor de
x a média populacional e dividindo-se o resultado pelo
desvio padrão: x−µ
z=
σ x= variável aleatória com distribuição N(µ,σ2)
z= variável aleatória com distribuição N(0,1)
• O valor numérico de z representa o
afastamento do valor de x em relação à média
populacional µ, medindo em desvios padrão,
ou seja: x=µ+zσ
Exercício
• Padronize a variável aleatória produção e
fazendo z=-2 encontre o valor de x que está a
dois desvios padrão abaixo da média (compare
com o gráfico de histograma)
Valor de z até a segunda casa
Tabela de Probabilidades
Associadas à área da Cauda
Direita da Distribuição Normal
Padronizada
Cov( x, y ) =
1 n
∑ (
n − 1 i =1
)(
xi − x yi − y )
• O sinal na covariância indica o tipo de relação que as
duas variáveis têm. Um sinal positivo indica que elas
movem juntas e um negativo que elas movem em
direções opostas.
• Enquanto a covariância cresce com o poder do
relacionamento, ainda é relativamente difícil fazer
julgamentos sobre o poder do relacionamento entre as
duas variáveis observando apenas a covariância, pois ela
não é padronizada.
• A correlação é a medida padronizada da relação entre
duas variáveis. Ela pode ser calculada da covariância:
1 n xi − x yi − y
r ( x, y ) = ∑
n − 1 i =1 s x s y