Beruflich Dokumente
Kultur Dokumente
e
Regresso
Autores:
Ademir J Petenate, , EDTI Projetos
Marcelo M Petenate, EDTI Projetos
Sumrio
Probabilidade...........................................................................2
Modelos Probabilsticos..........................................................35
Inferencia................................................................................91
Regresso.............................................................................105
Probabilidade
Incerteza e intuio
A intuio humana mal adaptada a situaes que envolvem
incerteza.
Pesquisas recentes mostram que em situaes que envolvem o
acaso nossos processos cerebrais costumam ser gravemente
deficientes.
Os processos aleatrios so fundamentais na natureza, e
onipresentes em nossa vida cotidiana; aind assim, a maioria das
pessoas no os compreende nem pensa muito a respeito.
Leonard Mlodinow
Concha
Kahneman Premio Nobel de Economia de 2002
Exerccio
Linda tem 31 anos de idade, solteira, franca e muito brilhante.
Ela graduou-se em Filosofia. Como estudante, esteve
profundamente preocupada com os assuntos de discriminao e
justia social e tambm participou de manifestaes antinucleares.
Por favor, ordene as trs seguintes alternativas na ordem de
mais provvel (1) para menos provvel (3).
A. Linda participa do movimento feminista
B. Linda bancria e participa do movimento feminista
C. Linda bancria
Exerccio
Aproximadamente 80 bebs por semana nasceram na Santa Casa de Santos
em 1993. Durante o mesmo ano, cerca de 20 bebes por semana nasceram na
Maternidade em So Vicente. Enquanto cerca de 50% de todos os bebes
nascidos em qualquer semana considerada eram meninos, a porcentagem
exata varia de semana para semana, algumas vezes mais, outras menos.
Dos dois hospitais, qual voc acha que registrou mais semanas na qual o
nmero total de meninos nascidos foi maior que 70%?
Santa Casa de Santos
Maternidade em So Vicente
Mais ou menos a mesma quantia
Exerccio
O que maior, o nmero de palavras de seis letras na lngua inglesa que tem
o n como quinta letra ou o nmero de palavras de seis letras que terminam
em ing?
Exerccio
Suponha que uma companhia area tenha um lugar restante no voo e ainda
restem dois passageiros por chegar. Suponha que a partir da experincia a
companhia saiba que existe uma chance de 2/3 de que um passageiro que
reservou um voo se apresente para viajar.
Qual a probabilidade que ela tenha que lidar com um cliente insatisfeito?
Qual a probabilidade que o voo seja realizado com um lugar vago?
Um pouco de Histria
A teoria da probabilidade tal como a conhecemos hoje, foi em grande parte
desenvolvida por cientistas como Girolamo Cardamo (1501-1576), Galileu
Galilei (1564-1642), Blaise Pascal (1623-1662), Pierre de Fermat (16011665), Jackob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), entre
outros.
O desenvolvimento da teoria da probabilidade muitas vezes associado
com os jogos de azar em famosos cassinos europeus, como o que est em
Monte Carlo.
Muitos livros sobre probabilidade e estatstica contam a histria de
Chevalier de Mre, um jogador francs, que contou com a ajuda de Pascal
em um esforo para obter as probabilidades de ganhar em certos jogos de
azar, desenvolvendo assim esse campo do conhecimento.
Um pouco de Histria
Os gregos da Antiguidade se destacam por terem inventado a maneira como
a matemtica levada a cabo: por meio de axiomas, provas, teoremas etc.
Por que motivo eles no criaram uma teoria para demonstrar que se
jogamos dois dados seria pouco sbio apostar uma grande quantia na
possibilidade de que ambos caiam com o nmero 6?
Conceitos bsicos
O que significa Probabilidade?
uma medida de incerteza.
A probabilidade de um evento uma medida numrica da
chance de ocorrncia do evento
Probabilidade medida por um nmero que varia entre 0 e 1
(0 a probabilidade de um evento impossvel e 1 a
probabilidade de um evento certo
Experimento aleatrio
Um experimento aleatrio um processo que tem como
resultado um de um conjunto possvel de resultados. O resultado
uma observao ou medio documentada.
Exemplos
Pagar a conta no prazo: {Sim, No}
Tempo para completar uma ligao: {t: t>0}
Nmero de cartes de crdito que um cliente possui: {0, 1, 2...}
Tipos de Probabilidade
Probabilidade clssica: eventos igualmente provveis
S= {S1, S2, ..., Sn} o espao amostral
=
Tipos de Probabilidade
Probabilidade clssica: eventos no necessariamente
igualmente provveis
S= {S1, S2, ..., Sn} conjunto de eventos possveis
=
= resultados pares
=
2,4,6 =
1 1 1 1
+ + =
6 6 6 2
Cuidado!
Qual a probabilidade que o primeiro beb que vai
nascer em 2014 na cidade de So Paulo seja do sexo
masculino?
10
Probabilidade frequentista
Seja + , , +, o conjunto de resultados possveis de
um experimento realizado vezes e que cada resultado
ocorre vezes. Ento
+
e
=
=1
Probabilidade subjetiva
Chance de ocorrncia de um evento atribuda por um
indivduo com base em sua experincia, conhecimento do
assunto, grau de convico ou simplesmente expresso de
desejo
Suponha que voc rena amigos para assistir a um jogo
de futebol entre os times A e B pergunte a cada um
deles qual a chance do time A ganhar. Provavelmente
cada um far uma afirmao diferente. Estamos nesse
caso atribuindo probabilidade de forma subjetiva.
11
Lei de Bendford
A Lei de Bendford (descoberta pelo astrnomo Simon
Newcomb observando pginas de livros de logaritimos)sugere
que a porcentagem de ocorrncia dos dgitos 1 a 9 na
primeira posio em nmeros de diversas fontes segue um
padro. Esse padro exibido na tabela abaixo.
Qual o tipo de probabilidade?
Como esse resultado poderia ser utilizado em ambiente de
negcios?
Prim
dgito
Freq
Relat
0.301
0.176
0.125
0.097
0.079
0.067
0.058
0.051
0.046
12
A
A
AB
AB
Axiomas de probabilidade
Qualquer que seja o tipo de probabilidade (clssica,
frequentista, subjetiva), o mesmo conjunto de regras
vlido para manipular e analisar probabilidades.
13
Axiomas de probabilidade
1. P (S) = 1, S o espao amostral
2. Qualquer que seja o evento - 0
0
- 1
- 1
(-2) + + ( -7)
(-1 -2)
Notao
Denotaremos eventos por letras maisculas -, 9,
Seja - um evento
: >9
14
normal
abaixo
total
sim
0.10
0.08
0.02
0.20
no
0.15
0.45
0.20
0.80
0.25
0.53
0.20
1.00
hipertenso
total
0.1
= 0.4
0.25
-9 = 0.1
15
-/9
-9
9
9 = (-9)
Condies equivalentes
9/- =
16
17
-9 +
(- 9 ) =
-/9 ) (9 )
Exemplo
Suponha que a probabilidade 0.10 de que um chip que seja sujeito a altos
nveis de contaminao durante a fabricao cause falha no produto e 0.005
caso no esteja sujeito a altos nveis de contaminao.
Em um lote produzido 20% dos chips esto sujeitos a altos nveis de
contaminao.
Qual a probabilidade que um produto usando um chip desse lote venha a
falhar?
Seja F o evento que o produto falhe e A o evento que o chip foi exposto a altos
nveis de contaminao
P(F/A)=0.10, P(F/A )=0.005
P(A)=0.20, P(A )=0.80
P(F)=P(FA)+P(F A)=P(F/A)P(A)+P(F/A)P(A)
=0.10*0.20+0.005*0.80=0.024
18
sim
acima
normal
abaixo
total
0.10
0.08
0.02
0.20
hipertenso
no
total
0.15
0.45
0.20
0.80
0.25
0.53
0.20
1.00
Teorema de Bayes
As frmulas de probabilidade condicional eram conhecidas no
sculo XVIII. Elas dependiam de que o evento condicionante
tivesse ocorrido antes do evento que estivesse sendo
examinado.
No final do sculo XVIII o reverendo Thomas Bayes descobriu
algo inusitado. Era possvel calcular a probabilidade do antes
condicionada ao depois.
19
Exercicos
Uma empresa de consultoria est negociando contratos de servio com
duas grandes multinacionais. Os executivos da companhia estimam que a
probabilidade fechar o contrato com a empresa A, o evento A, de 0,45.
Os executivos tambm sentem que se se fecharem com a empresa A a
probabilidade de entrarem em acordo com a empresa B de 0.9. Qual a
chance da companhia obter os dois servios?
Exerccio
Um analista de investimentos coleta dados sobre aes: informaes sobre o pagamento ou
no de dividendos e o crescimento ou no do preo dessas aes para um dado perodo. Os
dados esto na tabela a seguir.
Dividendo pago
Dividendo no pago
Total
Preo subiu
Preo no subiu
Total
34
85
119
78
49
127
112
134
246
20
Exerccio
Em um artigo sobre o crescimento do investimento, a revista Money informou que as aes de
companhias farmacuticas mostram tendncias excelentes de longo prazo e oferecem aos
investidores potencial incomparvel de ganhos altos e constantes. O Health Care Financing
Administration fundamenta essa concluso por meio de sua previso de que os gastos anuais
com prescrio de medicamentos atingiro 366 bilhes de dlares em 2010, acima dos US $ 117
bilhes de dlares em 2000. Muitos indivduos com 65 anos ou mais dependem fortemente de
medicamentos prescritos. Para esse grupo, 82% tomam medicamentos regularmente, 55%
tomam pelos menos 3 medicamentos e 40% consomem cinco ou mais remdios. Em contraste,
49% das pessoas com menos de 65 anos de idade tomam remdios regularmente, com 37%
tomando pelo menos 3 drogas 28% com cinco ou mais drogas (Money, Setembro de 2001). O
censo dos EUA mostrou que dos 281.421.906 de pessoas nos Estados Unidos, 34.991.753 tem
pelo menos 65 anos (EUA Census Bureau, Censo 2000).
a. Calcule a probabilidade de que uma pessoa escolhida ao acaso nos Estados Unidos tenha 65
anos ou mais.
b. Calcule a probabilidade de que uma pessoa toma medicamentos regularmente.
c. Calcule a probabilidade de que uma pessoa escolhida ao acaso tenha 65 anos ou mais e
toma cinco ou mais drogas.
d. Dado que uma pessoa usa cinco ou mais prescries, calcular a probabilidade de que a
pessoa tem 65 anos ou mais.
Teorema de Bayes
No exemplo do semicondutor, F o evento posterior e A e o
evento anterior e sabemos P(F/A)
Mas podemos estar interessados em saber o seguinte: se o
chip no produto falhar, qual a probabilidade que tenha sido
exposto a altos nveis de contaminao, ou seja P(A/F)?
Observe que sabemos P(F/A), P(F/A), P(A) e P(A). Com isso
podemos calcular P(F). Mas queremos calcular P(A/F)
O Teorema de Bayes permite realizar esse clculo
21
Teorema de Bayes
Sejam A e B dois eventos
9/- (-)
-/9 =
9 >0
(9)
P(A) a probabilidade priori e P(A/B) a probabilidade
posteriori
Extenso do Teorema de Bayes
Se E1, E2, ..., Ek forem eventos mutuamente excludentes e
exaustivos e B um evento qualquer ento
/9 =
? @/AB ?(AB )
? @/AC ? AC D? @/AE ? AE DD? @/AG ?(AG )
9 >0
Teorema de Bayes
No exemplo do semicondutor, F o evento posterior e A e o
evento anterior e sabemos P(F/A)
Aplicando o Teorema de Bayes temos
-/H =
22
Exerccio
Um banco estava interessado em rever sua poltica em relao ao produto carto de
crdito com a inteno de cancelar os cartes de alguns clientes. No passado,
aproximadamente 5% dos portadores de cartes ficaram inadimplentes e o banco no
pode cobrar o saldo devedor. Assim, a administrao estabeleceu probabilidade
priori para a inadimplncia de qualquer cliente igual a 0,05. O banco tambm
descobriu que a probabilidade de no pagamento em um determinado ms de 0,20
para os clientes adimplentes. Claro que, para um cliente inadimplente, a probabilidade
de no pagamento em um ms 1.
a. Dado que um cliente deixou de pagar pelo menos um ms, compute a
probabilidade posteriori de que um cliente vire inadimplente.
b. O banco gostaria de cancelar o carto caso a probabilidade de que um cliente vire
inadimplente seja maior do que 0.2. O banco deveria cancelar o carto caso o
cliente deixe de realizar o pagamento de um ms? Por qu?
Exerccio
Em cirurgias de transplante de corao h risco de que o corpo rejeite o corao
transplantado. Um novo teste foi desenvolvido para detectar os primeiros sinais de que
o corpo possa rejeitar o corao transplantado. No entanto, o teste no perfeito.
Quando o teste realizado em algum cujo corao ser rejeitado, cerca de dois em
cada dez testes sero negativos (falso negativo). Quando o teste realizado em uma
pessoa cujo corao no ser rejeitado, 10% ir mostrar um resultado positivo (falso
positivo). Os mdicos sabem que em cerca de 50% dos transplantes de corao o corpo
tenta rejeitar o rgo transplantado.
a. Suponha que o teste foi realizado em uma pessoa submetida ao transplante e o teste
foi positivo (indicando sinais de alerta precoce de rejeio). Qual a probabilidade
de que o corpo est propenso a rejeitar o corao?
b. Suponha que o teste foi realizado e o resultado negativo (indicando que no h
sinais de rejeio). Qual a probabilidade de que o corpo est propenso a rejeitar o
corao?
23
Distribuies de probabilidade
Variveis aleatrias
Uma varivel aleatria (v.a.) uma funo que atribui um
nmero real a cada resultado do espao amostral de um
experimento aleatrio
Varivel aleatria discreta
Assume valores em um conjunto finito ou infinito enumervel
24
Exemplo
Um banco classifica seus clientes como rentvel, neutro, no
rentvel. Na base de clientes, a proporo a seguinte:
Classificao
Porcentagem
50%
40%
NR
10%
Prob
-1
0.1
0.4
0.5
%.
10%
30%
35%
20%
5%
25
K(L ) = (M = L )
A distribuio de probabilidade satisfaz
K L
=1
M=
=1
26
0.10
0.30
0.35
0.20
0.05
Soma
1
P(X)
X
P(X=xi)
0.25
0.20
0.15
0.10
0.05
0.00
0
27
ento,
E X = T
(L ) = (M = L )
(M) = (V
ou
M =Y=
X X
),
28
Exerccio
Calcule o valor esperado da varivel aleatria M que
representa o nmero de filhos do exemplo anterior
P(X)
0.10
0.30
0.35
0.20
0.05
Soma
1
Exerccio
Calcule o valor esperado da varivel aleatria M que
representa os resultados de um dados honesto
Soma
P(X)
1/6
1/6
1/6
1/6
1/6
1/6
1/6
29
Exerccio
Seja M uma v.a. discreta que representa o nmero de
carros vendidos por dia em uma revendedora, cuja
distribuio de probabilidades dada por
Distribuio do nmero de carros vendidos por dia
x
P(x)
Total
0.10
0.10
0.20
0.30
0.20
0.10
1.00
Calcule (M)
120,00
-27,00
Total
P(g)
0.20
0.80
1.00
gP(g)
24,00
-21,60
2.40
30
Exerccio
Um sistema de radar programado para registrar automaticamente a velocidade de
todos os veculos trafegando por uma avenida, onde passam em mdia 300 veculos
por hora, sendo 55 km/h a velocidade mxima permitida. Um levantamento
estatstico dos registros do radar permitiu a elaborao da distribuio percentual de
veculos de acordo com sua velocidade aproximada.
Exerccio
Uma empresa de seguros vende uma aplice para 1500 proprietrios de um modelo
de bicicleta mountain bike que protege contra roubo por dois anos. O custo de
reposio dessa bicicleta $300.00. Suponha que a probabilidade de um indivduo
ser roubado durante o perodo de proteo 0.15. Assuma que a probabilidade de
mais de um roubo por indivduo zero e que os eventos so independentes.
a. Qual o preo de venda da aplice para que haja um equilbrio para a
empresa(ganho zero, perda zero)?
b. Se a probabilidade de roubo for 0.10, qual o ganho esperado por aplice dado o
valor de venda determinado em (a)?
31
Propriedades da mdia
Seja e X duas constantes e M e \ duas variveis
aleatrias. Ento:
A.
( )=
B.
(XM) = X (M)
C.
( + M) = + (M)
D.
( M + X\) =
(M) + X (\)
32
Varincia
Fornece uma medida de disperso (variao) dos valores em
torno da mdia
M = b2 =
a
c V
L Y
M =b=
M2 = L2
M =
M2
Propriedades da varincia
Seja a e b duas constantes e M e \ duas variveis
aleatrias. Ento:
A. a
M 0
B. a ( ) = 0
C. a ( + M) = a (M)
D. a (XM) = X 2 a (M)
E. a
+ XM = X2 a M
F. a
M\ =a M +a \ ,
M \
i
33
Exerccio
Um sistema de envasamento consiste em encher um vidro com lquido.
Os vidros utilizados tem peso mdio de 20g e desvio padro 0.5g.
A quantidade de lquido em peso que colocada no litro pode ser regulada,
sendo o valor nominal igual a 185g.
O desvio padro do sistema de envasamento 2g.
Qual o peso mdio e o desvio padro do vidro cheio?
34
Modelos probabilsticos
Introduo
Modelos so utilizados em todos os campos da
cincia.
Devem simplificar a realidade ao mesmo tempo que
representam suas principais caractersticas.
Todos os modelos esto incorretos, mas alguns so
teis (George Box)
35
Ensaios de Bernoulli
Considere repeties sucessivas de um ensaio (ou
teste) com apenas dois resultados possveis que
respeite as seguintes regras:
a) Em cada ensaio podem ocorrer somente dois
resultados possveis (Sucesso (S) e Fracasso
(F)).
b) Para cada ensaio, a probabilidade de que
ocorra um Sucesso, denotada por ( ), a
mesma, e denotada por p, ou seja, ( ) = . A
probabilidade de um Fracasso, (H), dada
por 1 , ou seja, (H) = 1 . A quantidade
1 denotada por j. Temos ento + j = 1.
c) Cada ensaio independente.
36
Ensaios de Bernoulli
Se associarmos ao evento S o valor e 0 ao valor F a distribuio
de probabilidade de X
X
P(X)
1-p
Alm disso:
a)
(M) = 0 (1 ) + 1 =
b)
M = M2
M 2
= 02 1 + 12
= (1 )
+ 2
Experimento Binomial
Um experimento Binomial obedece as seguintes
propriedades
1. O experimento consiste de um sequencia de n
ensaios idnticos
2. Dois resultados so possveis em cada ensaio:
Sucesso e Fracasso (Ensaio de Bernoulli)
3. p=P(S) no muda de ensaio para ensaio
4. Os ensaios so independentes
37
Distribuio Binomial
Considere um experimento Binomial
Seja X o nmero de Sucessos nos n ensaios
A varivel M pode assumir os valores 0,1,2, . . , .
M=
Ento,
=
Z!
! Zm
onde
0,1,2, ,
Denotamos M~9
1
!
para
Triangulo de Pascal
Linha
0
9
10
1
1
7
8
9
10
20
56
15
70
1
6
21
56
126
252
1
5
35
126
210
1
4
10
35
84
120
15
28
1
3
10
21
36
45
5
6
1
2
28
84
210
1
7
1
8
36
120
1
9
45
1
10
38
Triangulo de Pascal
60
35
50
30
25
40
20
30
15
20
10
10
x_2
x_6
30
20
25
15
20
15
10
10
5
5
0
1 2
3 4
5 6
7 8
9 10
x_10
x_20
Propriedades da B(n,p)
1.
2. a
M =Y=
M = b2 =
X
p , ento
Se definirmos p
o= n i =X
1.
Mr =
2. a ( ) = a
s(
Mr =
ms)
Z
39
Exerccio
Um gerente de conta especial faz vinte ligaes por dia
para clientes para oferecer um novo produto.
De experincia passada ele estima que a chance de
vender o produto para um cliente 0.10
Se sua meta diria realizar 4 vendas, qual a
probabilidade que ele atinja a meta em um determinado
dia?
Qual o nmero mdio de vendas que ele realiza por
dia?
Qual o desvio padro do nmero de vendas?
Qual o valor mais provvel de venda?
Distribuio de Poisson
Um evento S ocorre no tempo (ou espao) obedecendo os
seguintes postulados:
a)
b)
c)
40
Distribuio de Poisson
Seja X o nmero de ocorrncias de S por unidade de
tempo. Se os postulado anteriores so vlidos, ento
M~ t e
M=L =
u v
t
,
L!
L = 0,1,2, . . .
M =t
a M = t2
41
Exerccio
Durante a segunda guerra, Londres foi bombardeada por
avies alemes. Para verificar se os alemes estavam atirando
bombas com informaes sobre alvos o sul de Londres foi
divido em 576 quadrados, cada um com de milha quadrada.
O nmero de bombas que caiu em cada quadrado foi anotado e
est na tabela seguinte.
Pode-se concluir que os alemes estavam atirando bombas ao
acaso?
K (n de bombas)
0
1
2
3
4
5
Nk (n de
quadrados
229
211
93
35
Exerccio
Faa um grfico de barras do nmero de bombas por
quadrado. Use a frequncia relativa como altura da barra.
Aplique a distribuio de Poisson para o nmero de
nmero de bombas por quadrado.
Calcule a frequncia predita pela distribuio de Poisson
Compare a frequncia observada com a frequncia
esperada e discuta se a distribuio de Poisson
apropriada para essa situao
Escolhida aleatoriamente uma regio, determine a
probabilidade dela ter sido atingida por exatamente duas
vezes?
42
Exerccio
Ao enlatar leite em p, necessrio acrescentar um
dosador. A no incluso do dosador considerada uma
falha. O nmero de falhas que ocorrem em um lote
produzido tem distribuio de Poisson com nmero
mdio de falhas igual a 5.
1.
Qual a probabilidade que em um lote:
a)
b)
2.
grande e
9
M=L =
pequeno
,
mZs
L!
43
Exerccio
O nmero de clientes especiais , digamos, N, que solicitam atendimento por
dia segue a distribuio de Poisson com parmetro =2. As atuais instalaes
de atendimento especial podem atender a trs clientes por dia. Se mais de
trs clientes solicitarem atendimento o quarto em diante no ser atendido, o
que pode impactar de forma negativa o negcio.
1.
2.
3.
4.
5.
Exerccio
Uma empresa de seguros vende uma aplice para 1500 proprietrios de um
modelo de bicicleta mountain bike que protege contra roubo por dois anos.
O custo de reposio dessa bicicleta $300.00. Suponha que a probabilidade
de um indivduo ser roubado durante o perodo de proteo for 0.15.
Assuma que a probabilidade de mais de um roubo por indivduo zero e que
os eventos so independentes.
1.
2.
44
Exerccio
Considere o exemplo do leite em p enlatado com dosador
discutido anteriormente. Considere que o lote formado por
10.000 latas e que o processo de enlatar tal que a
probabilidade que uma lata esteja sem dosador 0.0005.
Qual a probabilidade que em um lote uma lata esteja sem o
dosador utilizando o modelo binomial? E utilizando o modelo de
Poisson?
Distribuio Hipergeomtrica
Considere uma populao com N indivduos sendo que r
indivduos so Sucesso (S) e (N-r) so Fracasso (F).
Uma amostra aleatria sem reposio de tamanho n retirada.
Seja X o nmero de indivduos S na amostra
Os valores possveis de X so: 0, 1, 2, ..., min{n,r}
A distribuio de X dada por
(M = L) =
x
L
x
45
46
Exemplo
Valores
(Y < 60)
(Y >70
60 y 70
% de valores
(histograma)
\ < 60 = 0.185
\ > 70 = 0.140
60 70 = 0.675
Probabilidade
(distribuio)
P( Y < 60) = 0.167
P (Y > 70) = 0.146
P(60 y 70) = 0.687
47
K L 0, L
A rea sob a curva definida por f(x) igual a 1, ou seja,
~
K L
3.
m~
( L X) =
ou seja,
L=1
X i
K L
X,
48
49
50
51
X=
X
i =1
a mdia da amostra
X N( ,
2
n
52
Distribuio Normal
Muitas caractersticas de qualidade contnuas tem distribuio razoavelmente
simtrica e podem ser aproximadas por uma curva em forma de sino
conhecida como Curva Normal, que corresponde distribuio Normal ou
Gaussiana;
Normal
0.4
Density
0.3
0.2
0.1
0.0
195 196 197 198 199
207
53
Distribuio Normal
Utilizamos a notao M~x Y, b 2
A fdp de X dada por
K L =
L ,
1
2b 2
m E vm E
2
Y ,
b2 > 0
54
55
56
MY XY
<
=
b
b
<
Exemplo
O dimetro de uma pea pode ser aproximado pela distribuio Normal com
mdia 0.2508 e desvio padro 0.0005. A especificao para do dimetro da
pea 0.25000.0015. Qual a proporo de peas que so produzidas
dentro da especificao?
0.0005
0.0005
P(0.2485 X 0.2515) = P
57
Exerccio
As notas atribudas em um teste seguem uma distribuio
normal com mdia 14 e desvio padro 2 M~x 14,22 .
Se as pessoas que tem nota menor ou igual a 11 so
reprovadas, qual a porcentagem de pessoas reprovadas?
Exerccio
Uma mquina enlata leite evaporado. O peso lquido de
cada lata tem distribuio normal com mdia 273,3 g e
desvio padro 3,9 g.
Se o limite inferior de especificao 264,3 g, qual a
porcentagem de latas que so produzidas fora de
especificao?
58
i =1
i =1
a iX i =
1
1
Xi =
n
n
E( X ) = a i =
i =1
i =1
X
i =1
i =1
=X
1
n
=
=
n
n
n
Var( X ) = a i 2 =
2
i =1
1 2 n 2 2
= 2 =
n2
n
n
D.P.( X ) =
n
59
Exerccio
O peso bruto de um produto a soma do peso lquido
mais o peso da embalagem. Suponha que a mquina que
embala o produto tal que o peso lquido colocado na
embalagem tem distribuio Normal com mdia igual a 300
g e desvio padro igual a 2 gramas. O peso da embalagem
tem distribuio Normal com mdia igual a 5 g e desvio
padro igual a 0.5 g.
Qual a distribuio do peso bruto do produto?
Qual dos dois processos mais preciso?
~x 0,1
Observaes:
1. Esse resultado uma aplicao do Teorema Central do
Limite exposto anteriormente.
2. Essa aproximao to mais acurada quanto maior for
o valor de n e quanto mais prximo de 0.5 estiver o
valor de p.
60
Exerccio
1.
2.
100
0.2
0.8
= 0.1285
Distribuio exponencial
A distribuio exponencial muito utilizada quando
trabalhamos com tempo para ocorrncia de um evento, por
exemplo, tempo para atendimento de uma chamada)
mv
, onde x 0
Distribution Plot
Exponential
Alfa
0.5
1
2
2.0
1.5
Density
K L =
1.0
0.5
0.0
0
10
61
Distribuio exponencial
A funo distribuio acumulada dada por:
H L =
mv
M L =1
F(x)
0.8
0.6
0.4
0.2
0.0
0
10
Distribuio exponencial
Propriedades:
Se M~ L
, ento:
M =
a
M = E
62
t \~ L
Exerccio
Suponha que o tempo entre duas ligaes seja modelada
por uma distribuio exponencial de parmetro 1 minuto.
Qual a chance de no acontecerem mais do que 3 ligaes
em um minuto?
63
2 |M
>
) = (M >
>
Exemplo
Seja X o tempo entre chegadas de um cliente em um banco
e considere que X tem distribuio exponencial com
parmetro =2 minutos.
A probabilidade de que chegue um cliente dentre 30
segundos a partir do momento em que comeamos a
registrar as chegadas
m.
2 = 0.22
M < 0.5 = 1
Suponha agora que estamos esperando h 3 minutos e no
chegou nenhum cliente nesse tempo. Qual a probabilidade
que chegue um cliente nos prximos 30 segundos?
64
Exerccio
1.
2.
> E
65
Exerccio
Suponha que o interesse seja pesquisar o tempo mdio
de atendimento de uma determinada central de
atendimento e que b 2 = 1. Qual o tamanho de amostra
necessrio para que tenhamos uma probabilidade de pelo
menos 0.95 de que Mr esteja a uma distncia mxima de
0.5 de Y?
66
Exerccio
Uma empresa produz leite enlatado e que o processo
tal que 1% das latas tem peso inferior ao limite.
Se uma amostra aleatria de 20 latas retirada da produo,
qual a probabilidade que
1.
a)
b)
2.
3.
67
Transformao de Variveis
Distribuio Normal
Como saber se a Curva Normal
uma boa aproximao?
Uma forma: Olhe o Histograma
Histogram of tiempo
Histogram of tiempo1
Normal
Normal
35
Mean
StDev
N
30
20.94
6.389
200
30
Mean
StDev
N
1.672
2.030
1000
25
20
20
Percent
Frequency
25
15
15
10
10
5
0
5
10
15
20
25
tiempo
30
35
40
Sim
0
-3
6
9
tiempo1
12
15
No
68
3
2
Frequency
Frequency
Frequency
6
4
5
4
3
0
35
40
45
50
55
60
65
70
75
30
35
40
45
C1
50
55
60
65
35
40
45
50
C2
6
5
55
60
65
C3
3
2
Frequency
Frequency
Frequency
7
4
5
4
3
4
3
2
2
1
0
25
30
35
40
45
50
55
60
65
70
35
40
45
50
55
C4
65
70
75
30
Frequency
4
3
2
3
2
0
40
45
50
55
60
Frequency
35
35
40
45
50
55
60
65
C6
Frequency
60
C5
3
2
1
0
65
30
35
40
45
50
C7
55
60
65
70
75
25
30
35
40
45
C8
50
55
60
65
70
C9
Frequency
Frequency
Frequency
Frequency
35
2
815
710
6
10
5
Frequency
Frequency
6
10
4
35
00
35
3530 40
40
45
45
50
50
55 5560 6065 65 70 70 7575
00
30
30
35
35
4040 45 45 50 50
55
C11
C1
6560 70 65 75
3035
5
2
99
88
610
77
66
1
00
44
33
55
60
60 7065
65
4
35
30
50
45 35 50 40 5545 60
55
65
6070 65 75 70
3030
15
6
510
10
4
Frequency
Frequency
3
2
5
2
00
00
35
45
40 5045
C17
C7
50
60
55 55 60
6565 70
Frequency
Frequency
254030
4040 45 45 50 50
55
60
55
6560 70 6575
C16
C6
710
20
35
35
35
C15
C5
65 70
00
25
40
C14
C4
60 60
20
35
55
00
50
55
50
50
55
22
11
45
50
40 40 45
C13
C3
Frequency
Frequency
Frequency
Frequency
Frequency
Frequency
5
10
Frequency
Frequency
60
55
C12
C2
00
2
1
3
25
1
00
3030 35 35 40 40 45 4550
50
55
C18
C8
55
60
60
65
65 7570
70
50
50
55
55
60
60
65
65
7070
C19
C9
69
10
20
Frequency
20
Frequency
Frequency
20
10
0
20
30
40
50
60
70
80
10
0
20
30
40
50
C21
60
70
80
25
30
35
40
C22
45
50
55
60
65
70
C23
30
20
20
10
Frequency
Frequency
Frequency
20
10
0
30
35
40
45
50
55
60
65
70
75
80
10
30
40
50
60
C24
70
80
20
90
30
40
50
C25
60
70
80
C26
25
20
Frequency
Frequency
10
Frequency
20
20
15
10
10
0
25
30
35
40
45
50
55
60
65
70
75
0
25
30
35
40
C27
45
50
C28
55
60
65
70
75
20
30
40
50
60
70
80
C29
Distribuio Normal
Como saber se a Curva Normal uma boa
aproximao?
Outra forma: Use o Grfico Probabilstico Normal
70
95
90
Percent
80
70
60
50
40
30
20
10
5
-4
-3
-2
-1
71
Y
0.1970
1.4920
0.1895
0.9976
0.1367
1.5646
0.3477
5.2104
0.5408
0.6801
1.9629
0.5110
3.3969
0.6344
0.6670
0.3553
1.0806
0.8718
0.1999
0.8754
1.0709
0.3367
1.6507
1.2362
10.5300
2.6044
0.6303
6.0957
2.1689
0.5237
Probability Plot of X, Y
Normal - 95% CI
-5
99
10
95
90
80
Percent
-1.6245
0.4001
-1.6631
-0.0024
-1.9902
0.4476
-1.0564
1.6507
-0.6148
-0.3855
0.6744
-0.6713
1.2229
-0.4550
-0.4050
-1.0347
0.0776
-0.1372
-1.6101
-0.1330
0.0685
-1.0885
0.5012
0.2120
2.3542
0.9572
-0.4615
1.8076
0.7742
-0.6469
70
60
50
40
30
20
10
5
-5
10
Grficos Probabilsticos
para as nove amostras de tamanho 25
Normal Probability Plot for C2
99
ML Estimates
Mean:
53.4797
StDev:
9.60017
ML Estimates
95
49.1024
StDev:
8.04855
80
70
60
50
40
30
70
60
50
40
30
70
60
50
40
30
Percent
90
20
20
20
10
10
10
1
34
44
54
64
74
84
ML Estimates
95
48.8893
StDev:
10.2680
45
55
65
25
75
95
ML Estimates
Mean:
48.9405
StDev:
8.79949
95
Percent
70
60
50
40
30
Percent
70
60
50
40
30
20
20
20
10
10
10
1
25
80
35
45
55
65
75
85
25
ML Estimates
95
99
Mean:
49.4396
StDev:
8.98477
ML Estimates
95
47.1290
StDev:
10.6092
70
60
50
40
30
70
60
50
40
30
20
20
20
10
10
10
Data
75
ML Estimates
Mean:
50.2510
StDev:
10.4661
90
Percent
Percent
80
70
60
50
40
30
65
75
95
80
55
65
99
Mean:
90
80
45
55
Data
90
35
45
25
35
Data
Data
99
75
9.50359
70
60
50
40
30
70
65
54.3933
80
60
55
StDev:
90
50
45
Mean:
80
40
35
ML Estimates 99
90
80
30
8.35164
Data
Normal Probability Plot for C6
90
51.8801
StDev:
35
99
Mean:
Mean:
25
Data
Normal Probability Plot for C5
99
20
ML Estimates
95
80
Data
Normal Probability Plot for C4
Percent
Mean:
90
80
24
Percent
99
90
Percent
Percent
95
99
1
20
30
40
50
Data
60
70
80
20
30
40
50
60
70
80
Data
72
Exemplo
Arquivo: Decisao.MTW
Informaes:
Uma empresa de crdito mediu, em 100 pedidos de
emprstimo, o tempo para decidir sobre a concesso do
emprstimo. O tempo foi medido em dias.
Instrues:
1. Faa um histograma do tempo.
2. Faa o Grfico Probabilstico Normal do tempo.
3. A varivel tempo pode ser aproximada pela
Distribuio Normal?
4. Analise os dados por estratos (deciso e zona) para
verificar se a distribuio diferente em cada estrato.
73
Distribuio Normal
Muitas tcnicas de anlise de dados dependem de que a
varivel sendo analisada possa ser bem aproximada por
uma Distribuio Normal
Grfico de controle de individuais
ndices de Capacidade (Cp, Cpk, Sigma)
Etc.
Distribuio Normal
Quais as possveis razes para que a distribuio de uma
amostra de dados no possa ser aproximada por uma
Distribuio Normal?
Presena de observaes discrepantes (causas especiais)
Os dados da amostra provem de dois ou mais processos
diferentes (turno, mquina, operador, etc.)
Os dados seguem outra distribuio que no a Normal
O que fazer?
74
Distribuio Normal
Se h causas especiais, analise-as e verifique se os dados
devem permanecer na anlise
Se os dados provem de dois ou mais processo ( tcnicas
grficas como o histograma ou o dot plot ajudam a
apontar se esse o caso - o histograma apresenta duas
ou mais modas) procure por variveis de estratificao
que permitam separar os dados
Se a distribuio intrinsecamente no Normal, utilize
tcnicas de transformao de variveis
Transformao de Dados
Uma transformao uma re-expresso dos dados em
outra escala.
Exemplo simples
Transformar Dlares em Reais:
$1 = R$3.03
75
Transformao de Dados
Transformaes Lineares
Transformaes lineares tem a seguinte forma:
Y = aX + b; a e b constantes
Se X segue a distribuio Normal, multiplicar ou adicionar
constantes no afeta a forma da distribuio; afeta somente a
escala
Transformao de Dados
Transformaes no lineares
Transformaes no lineares podem mudar a forma da
distribuio.
Exemplo: Transformao Raiz Quadrada
YT denota a
varivel
transformada
YT = Y
Histograma de SQRT(Y)
Histograma of Y
20
Frequency
Frequency
15
10
10
10
12
14
16
18
20
22
SQRT(Y)
76
Transformao de Dados
Transformao Logaritmo:
A transformao logaritmo usualmente apropriada para
dados de tempo.
Uma unidade na escala logartmica igual a um fator de 10 na
escala original:
Escala original
1000
100
10
1
0.1
0.01
0.001
Escala Log
3
2
1
0
-1
-2
-3
Transformao de Dados
Transformaes Lineares
Transformaes lineares tem a seguinte forma:
Y = aX + b; a e b constantes
Se X segue a distribuio Normal, multiplicar ou adicionar
constantes no afeta a forma da distribuio; afeta somente a
escala
77
Exemplo
Dados Transformados logaritmo
Dados originais
Transformao Log
Dados: Decisao.MTW
Relembre que a varivel Tempo no Normal
Use a seguinte transformao: YT=log(Y).
Dados originais
40
ML Estimates
99
Mean:
12.31
StDev:
9.60801
95
90
Percent
Frequency
30
20
10
80
70
60
50
40
30
20
10
5
1
0
0
10
20
30
Time
40
50
60
-20
-10
10
20
30
40
50
Data
78
Transformao Log
Faa um histograma e o Grfico Probabilstico Normal
dos dados transformados (Log_Tempo)
Probability Plot of log_tiempo
Histogram of log_tiempo
Normal - 95% CI
20
99.9
Mean
StDev
N
AD
P-Value
99
95
90
Percent
Frequency
15
10
0.9855
0.2973
100
0.432
0.299
80
70
60
50
40
30
20
10
5
1
0
0.4
0.6
0.8
1.0
log_tiempo
1.2
1.4
1.6
0.1
0.0
0.5
1.0
log_tiempo
1.5
2.0
Transformao de Dados
Como escolher qual transformao adequada?
Tentar uma transformao dentre um conjunto de
possibilidades
Usar a tcnica de transformao Box-Cox
79
Transformao
Raiz Quadrada
YT = Y
Y
Logartmica
YT = Log(Y)
Log(Y)
Transformao
Inversa
YT =
1
Y
1
Y
YT =
Y
1
Y
1
Y
80
Outras Transformaes
Dados de classificao - Distribuio Binomial
k = # of unidades defeituosas
n = tamanho da amostra
k
n
Use a transformao raiz quadrada do arcoseno de p
p=
YT = arcsin p
c + 0.5
81
Mtodo de Box-Cox
Mtodo de Box-Cox
Uma transformao potncia eleva os valores de Y a uma
potncia lambda (): YT = Y
tipicamente um valor entre 2 e 2
O Mtodo de Box-Cox sugere um valor de que melhor
aproxima os dados transformados de uma distribuio Normal
Mtodo de Box-Cox
A transformao
potencia inclui
algumas que foram
vistas anteriormente
trabalhoso fazer
aplicar o mtodo
sem o apoio de um
software
Nome
-2
Inversa ao
quadrado
-0.5
1
Y2
1
Y
1
Y
Log(Y)
Logartmica
0.5
Raiz Quadrada
Sem
Transformao
Y2
Quadrado
-1
Inversa
Inversa raiz
Quadrada
82
Mtodo Box-Cox
Softwares (como o MINITAB) fazem a anlise dos dados da
amostra e sugerem um valor de lambida.
Escolha um lambida dentro da faixa de valores
recomendada (barras vermelhas)
Se possvel, escolha um valor que corresponde a um valor
da tabela anterior
Box-Cox Plot for Y
95% Confidence Interval
Last Iteration Info
StDev
Lambda
StDev
Low
0.393
0.553
Est
0.450
0.553
Up
0.507
0.553
-5
-4
-3
-2
-1
Lambda
Upper C L
180
Lambda
(using 95.0% confidence)
160
140
StDev
120
Estimate
-0.189558
Lower C L
Upper C L
-0.497419
0.082957
Best Value
0.000000
100
80
60
40
20
Limit
0
-5
-4
-3
-2
-1
Lambda
83
84
Mtodo Cientfico
O ciclo de aprendizagem
85
Como aprendemos?
Oscar Kempthorne
Mtodo Cientfico
O conhecimento construdo com base em teorias
H trs componentes importantes do conhecimento
Os dados da experincia a partir do qual o processo de aquisio de
conhecimento se inicia
A predio em termos de dados que se espera obter se realizamos
um experimento no futuro
O grau de convico na predio com base nos dados originais
86
87
Plano de teste
Comparao
2 Induo
Deduo
Consequncias
Mundo
5
Novos
dados
Teste
Observaes
(dados)
Teoria
reforada
Comparao
com a Teoria
Deduo
Indu
o
Teoria
modificada
88
Testes
(Planejamento
para coletar e
analisar Dados)
Anlise
O ciclo PDSA
O ciclo PDSA uma adaptao do Mtodo Cientfico
Foi desenvolvido por Deming e colaboradores a partir de
ideias iniciais de Shewhart
89
O Ciclo PDSA
90
Inferncia
Considere uma populao ou um processo e uma varivel
de interesse medida em uma amostra
Os dados da amostra podem ser usados para realizar
inferncias sobre a populao ou o processo
As caractersticas (parmetros) de interesse so em geral
A forma da distribuio da varivel
A mdia
O desvio padro
91
Exemplo
Uma empresa monitorou o tempo gasto para atender uma chamada
de um cliente em um call center. Trinta atendimentos forma
medidos. Os dados obtidos encontram-se na tabela abaixo.
Chamada
1
2
3
4
5
6
7
8
9
10
Tempo
2.53
5.52
3.53
3.26
6.31
4.04
4.09
1.22
3.42
5.01
Chamada
11
12
13
14
15
16
17
18
19
20
Tempo
5.57
4.60
3.84
5.37
3.42
4.51
1.84
6.89
3.53
6.75
Chamada
21
22
23
24
25
26
27
28
29
30
Tempo
4.81
4.82
7.19
2.39
5.52
5.01
1.94
4.60
2.35
2.07
92
95
90
4.198
1.588
30
0.222
0.813
Percent
80
70
60
50
40
30
20
10
5
4
6
tempo de atendimento
10
Normal
10
30
UCL=9.65
Mean
StDev
N
25
4.198
1.588
30
20
6
_
X=4.20
Percent
Individual Value
15
10
0
LCL=-1.25
1
10
13
16
19
Observation
22
25
28
No h evidncia de que
o processo no esteja
sob controle
0
1
3
4
5
tempo de atendimento
93
Obs.:
Essas inferncias s fazem sentido se os dados se ajustam a
uma distribuio e se o processo est estvel
importante fazer inicialmente o grfico de controle e em
seguida o grfico probabilstico)
Estimao pontual
Representa-se os valores de uma amostra de tamanho n
por x1, x2, ... , xn.
A estimao pontual da mdia e do desvio padro da
populao so dados pela mdia amostral e pelo desvio
padro respectivamente
Mdia :
x=
Desvio Padro : s =
(x x)
n 1
94
s
s
, x + t 0.025,(n1) *
)
n
n
2 * t 0.025,(n1) *
s
n
95
(n - 1)
(n - 1)
s 2
,
s
2
0.975
0.025
Exemplo
Summary for tempo de atendimento
A nderson-D arling N ormality Test
A -S quared
P-V alue
0.22
0.813
M ean
StD ev
V ariance
Skew ness
Kurtosis
N
4.1983
1.5876
2.5205
0.026119
-0.694410
30
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
1.2200
3.0775
4.3000
5.4075
7.1900
4.7912
4.9665
1.2644
2.1342
Mean
Median
3.50
3.75
4.00
4.25
4.50
4.75
5.00
96
Teste de hipteses
Voz do Processo
Exemplo 1: trajeto
Voc utiliza um determinado trajeto para o trabalho
todos os dias.
Voc coleta os tempos de deslocamento dos ltimos 2
anos
97
Exemplo 1: trajeto
Um colega lhe prope um novo trajeto (supostamente
mais rpido)
Passo 1: formalizao do teste
: Y 30 V . : Y < 30
Exemplo 1: trajeto
No dia seguinte voc utiliza o trajeto sugerido e gasta 29
minutos
Qual a sua deciso?
Devemos coletar mais dados!
98
Exemplo 1: trajeto
Mr = 29
9 observaes so coletadas
i
Mr =
Exemplo 1: trajeto
Critrio: = Mr Y
Precisamos corrigir o critrio pela preciso
Mr Y
=
b/
Supondo b = 1
29 30
=
= 3
1/ 9
Qual a sua deciso? esta suficientemente afastado?
99
Exemplo 1: trajeto
0
-3
= ( < 3) = 0.001
Exemplo 1: trajeto
Dessa forma completamos os 4 passos:
1. Teste: : Y = 30 V . : Y < 30
2.
3.
4.
Critrio: =
rm
/ Z
100
Exemplo 1: trajeto
Caso b tenha que ser estimado por
L Mr
1
=
O critrio fica
=
obs:
Zm
Mr Y
~
/
= t de student com
Zm
1 graus de liberdade
Exemplo 1: trajeto
Suponha que na realizao dos 9 trajetos os tempos
tenham sido:
30.1, 29.7, 27.3, 29.1, 28.3, 28.4, 31.0, 28.1, 29.0
Nesse caso
Mr Y
Mr = 29 = 1.132 =
= 2.65
/
101
Exemplo 1: trajeto
Observao:
Uma diferena que estatisticamente significante pode no ser
significante do ponto de vista prtico!
Teste de hipteses
Comparao com um valor de referncia ou
valor nominal
No exemplo, suponha que o objetivo era que o tempo mdio de
atendimento fosse igual a 3.50 minutos. O objetivo estava sendo
alcanado?
Teste de Hiptese
Ho: 0 = 3.50 H1: 0 3.50
Critrio do teste : t 0 =
y 0
s
n
102
Teste de hipteses
Calculando o critrio
t0 =
y 0 4.1983 3.50
=
= 2.41
s
1.5876
n
30
p-valor = 0.023
H evidncia para rejeitar H0
OBS. O grfico de controle deve ser feito antes do
clculo do p-valor. Caso haja causas especiais atuando no
processo, no se deve calcular o p-valor
Exemplo
One-Sample T: tempo de atendimento
Test of mu = 3.5 vs not = 3.5
Variable
N
Mean
30 4.19833
tempo de atendimento
StDev SE Mean
1.58760 0.28985
95% CI
(3.60551; 4.79115)
T
2.41
p
0.023
103
Anlise do p-valor
Se o p-valor for menor que 1%, rejeita-se a hiptese nula
Se o p-valor for maior que 10%, no rejeita-se a hiptese
nula
Se o p-valor estiver entre 1% e 10%, deve-se considerar
outros fatores para se tomar uma deciso, como o risco,
custo, etc.
Obs. As recomendaes acima so as usuais e so adequadas para a
maior parte dos casos. Porm, a deciso de rejeitar ou no uma
hiptese deve ser feita levando em considerao os riscos e custos
associados com a deciso. Significncia estatstica no a mesma coisa
que importncia
104
Anlise de Regresso
O SIPOC
O SIPOC uma ferramenta usada para identificar os
elementos relevantes de um processo
Aplica-se a todo tipo de trabalho, seja ele repetitivo ou
pouco freqente
Ajuda a ter uma viso macro do processo:
Definindo seus limites (pontos de incio e fim);
Permitindo localizar pontos de coleta de dados.
105
O SIPOC
As variveis medidas no resultado (output) so denotas
por Y
As variveis medidas no processo e nas entradas so
denotas por X
Em projetos de melhoria, pode ser necessrio entender
as relaes entre os Ys e os Xs
Tcnicas estatsticas so usadas para entender relaes
entre variveis
I
Variveis
de Input
Variveis de
Processo
Variveis de
Output
X1,, X2 , ... , Xk
106
X numrica
Grfico de disperso
Grfico de disperso
estratificado
X categrica
Dot-plot estratificado
Grfico de Tendncia
estratificado
Y categrica
Tabela de
contingncia
Grfico de barras
107
Grfico de Disperso
Uma empresa coletou
dados de Tempo para
produzir um item e
Nmero de set-ups de
50 linhas de produo .
Os dados esto na
tabela ao lado. H
alguma relao entre
essas duas variveis?
108
Grfico de Disperso
109
(x
(x
x )( y i y )
x)
(y
y)
-1 r 1
Obs:
O coeficiente r mede o grau de associao linear entre duas
variveis. Valor de r baixo (prximo de zero) no indica que as
variveis no esto relacionadas. No interprete o valor de r
sem o grfico de disperso
A interpretao de r (se alto) depende do contexto
Estudo de Relaes
O proprietrio de uma casa est interessado no efeito do
seu aparelho de ar condicionado na conta de luz. Para
isso, ele anotou o nmero de horas que usou o seu
aparelho de ar condicionado a cada dia, durante 21 dias.
Tambm monitorou o medidor de consumo de eletricidade
durante estes dias e mediu a quantidade de eletricidade
usada em quilowatt-hora. Finalmente, anotou tambm o
nmero de vezes que a secadora de roupas foi usada por
dia. Os dados esto na tabela seguinte
110
Kwh
35
63
66
17
94
79
93
66
94
82
78
AC
1.5
4.5
5.0
2.0
8.5
6.0
13.5
8.0
12.5
7.5
6.5
Dia
12
13
14
15
16
17
18
19
20
21
Kwh
65
77
75
62
85
43
57
33
65
33
AC
8.0
7.5
8.0
7.5
12.0
6.0
2.5
5.0
7.5
6.0
Kwh
70
60
50
40
30
20
10
0
10
12
14
AC
111
Kwh
70
60
50
40
30
20
10
0
10
12
14
AC
112
95
90
(x,y)
85
80
resduo = ( y y )
75
70
65
60
80
100
120
140
160
180
200
220
90
85
80
75
70
65
60
80
100
120
140
160
180
200
220
113
Melhor reta:
(y y)
seja mnimo
Soluo :
s
b = rx,y y e a = y bx
sx
rx,y Coeficiente de correlao entre x e y
sx e sy desvio padro de x e y respectivamente
114
100
90
14.4530
58.6%
56.4%
80
Kwh
70
60
50
40
30
20
10
0
10
12
14
AC
115
Ajuste de Regresso
Algumas equaes importantes:
1. (y i y) = (y i y) + (y i y i )
2. (y i y)2 = (y i y) + (y i y i )
2
SQAjuste
,
SQTotal
0 R2 1
116
Ajuste de Regresso
Regression Analysis: Kwh versus AC
The regression equation is
Kwh = 27.85 + 5.341 AC
S = 14.4530
R-Sq = 58.6%
R-Sq(adj) = 56.4%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 5609.66
5609.66 26.85 0.000
Error
19 3968.91
208.89
Total
20 9578.57
117
Fit SE Fit
95% CI
70.58 3.34 (63.59; 77.57)
118
Fit SE Fit
95% PI
70.58 3.34 (39.53; 101.63)
119
Regression
95% C I
95% PI
120
S
R-Sq
R-Sq(adj)
Kwh
100
14.4530
58.6%
56.4%
80
60
40
20
0
0
10
12
14
AC
120
121
Predictor
Constant
AC
Coeficientes
Coef
27.851
5.341
SE Coef
7.807
1.031
T
3.57
5.18
P
0.002
0.000
122
Resduos e Outliers
Cada caso (observao) no conjunto de dados tem uma
resposta y e um valor predito pelo modelo, yajustado
A diferena entre y e yajustado chamada de resduo
res=y-yajustado
Resduos e Outliers
Considere os quatro conjunto de dados da tabela abaixo
Conjunto
de Dados 1
X
Conjunto
de Dados 2
Conjunto
de Dados 3
Conjunto
de Dados 4
10.00
8.04
10.00
9.14
10.00
7.46
8.00
6.58
8.00
6.95
8.00
8.14
8.00
6.77
8.00
5.76
13.00
7.58
13.00
8.74
13.00
12.74
8.00
7.71
9.00
8.81
9.00
8.77
9.00
7.11
8.00
8.84
11.00
8.33
11.00
9.26
11.00
7.81
8.00
8.47
14.00
9.96
14.00
8.10
14.00
8.84
8.00
7.04
6.00
7.24
6.00
6.13
6.00
6.08
8.00
5.25
4.00
4.26
4.00
3.10
4.00
5.39
19.00
12.50
12.00
10.84
12.00
9.13
12.00
8.15
8.00
5.56
7.00
4.82
7.00
7.26
7.00
6.42
8.00
7.91
5.00
5.68
5.00
4.74
5.00
5.73
8.00
6.89
123
Resduos e Outliers
A tabela ao lado apresenta a
mdia e desvio padro para
cada varivel
A tabela ao lado
apresenta o
coeficiente de
correlao, reta
ajustada e R2 para
cada conjunto de
dados
C onju nto
1
2
3
4
Varivel
X1
Y1
X2
Y2
X3
Y3
X4
Y4
r
0.86
0.86
0.86
0.86
Mean
9.0
7.5
9.0
7.5
9.0
7.5
9.0
7.5
Std.Dev.
3.32
2.03
3.32
2.03
3.32
2.03
3.32
2.03
R eta ajustada
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x
R2
0.66 8
0.66 8
0.66 8
0.66 8
Resduos e Outliers
1
Retas ajustadas
124
Resduos e Outliers
Como se pode perceber, no suficiente calcular os
coeficientes da reta. Fazer o grfico de disperso
fundamental para verificar se o modelo utilizado
adequado
Em muitas situaes (regresso mltipla, que ser
apresentada mais frente), no possvel visualizar os
pontos
Como ento saber se o modelo ajustado adequado?
A anlise dos resduos do modelo ajustado fundamental
para avaliar a adequao do modelo
125
126
Boxplot of residuo
Histogram of residuo
4.8
3.6
-1.2
-0.6
0.0
0.6
1.2
1.8
Frequency
-1.8
residuo
2.4
residuo
1.2
-1
0.0
-2
-2
I Chart of residuo
4
1.205
N
AD
30
0.276
P-Value
0.631
50
_
X=-0.048
-2
LCL=-3.877
-4
-4
0
residuo
-2
10
UCL=3.780
residuo
StD ev
Individual Value
Percent
90
-0.04843
Normal - 95% CI
Mean
0
residuo
-1
-4
3
12 15 18 21 24 27 30
Observat ion
15
30
127
128
99
20
10
Residual
Percent
90
50
10
0
-10
-20
1
-40
-20
0
Residual
20
40
40
100
6.0
20
4.5
10
Residual
Frequency
60
80
Fitted Value
3.0
1.5
0
-10
-20
0.0
-20
-10
0
Residual
10
20
8 10 12 14 16
Observation Order
18
20
129
Exerccio
Background: Uma empresa de seguros est interessada em
estudar a relao entre o nmero de dias para pagar um
pedido de reembolso e o valor do reembolso. Os dados esto
no arquivo amount.mtw que contm 100 pedidos de
reembolso
Claim
1
2
3
.
.
98
99
100
Days
to Pay
11
1
32
.
.
5
28
5
Amount $
921.04
117.27
5291.58
.
.
369.13
1786.15
540.18
Exerccio
O arquivo calls.mtw contm dados de um call center.
Os dados so: dia da semana, perodo do dia, nmero de
chamadas atendidas e nmero de pessoas atendendo s
chamadas. Use tcnicas de regresso para explorar a
relao entre o nmero de chamadas e o nmero de
pessoas atendendo
130
Exerccio
O arquivo jobshop.mtw contm dados sobre um sistema. As
variveis so tempo de produo (vrivel resposta), nmero
de setups, preo, nmero de caractersticas e nmero de
rtulos (vriveis regressoras). Explore relaes usando
tcnicas de regresso
Job
1
2
3
49
50
ProdTime
61
129
77
112
72
Setups
6
14
5
7
10
$Price
8299
48835
45848
73518
50508
Features
7
31
18
29
21
Labels
5
2
1
1
4
X2
X1
131
KWH
35
63
66
17
94
79
93
66
94
82
78
65
77
75
62
85
43
57
33
65
33
AC
1.5
4.5
5.0
2.0
8.5
6.0
13.5
8.0
12.5
7.5
6.5
8.0
7.5
8.0
7.5
12.0
6.0
2.5
5.0
7.5
6.0
SECADORA
1
2
2
0
3
3
1
1
1
2
3
1
2
2
1
1
0
3
0
1
0
132
Modelo ajustado
Modelo
KWH = 8.11 + 5.47 (AC) + 13.22 (SECADORA)
Interpretao
b0 = 8.11 ainda chamado de intercepto, e ele estima o
nmero de quilowatt-hora consumidos em dias em que nem
o ar condicionado nem a secadora de roupas foram utilizados.
(Ponha AC=0 e SECADORA=0 na equao e voc obter
KWH=8.11.)
b1 = 5.47 a estimativa de quilowatt-hora consumidos para
cada hora em que o ar condicionado ficar ligado.
b2 = 13.22 a estimativa do consumo em quilowatt-hora para
cada vez que a secadora for usada.
133
Anlise de resduos
Anlise de influncia
Anlise de influncia
134
Diagnsticos de influncia
Considere os 4 conjuntos de dados seguintes
X1
1
2
3
4
5
6
7
8
9
10
Y1
8.1
4.1
11.5
16.4
13.8
19.6
18.3
28.1
25.5
30.4
X2
1
2
1
2
1
2
1
2
1
10
Y2
8.1
4.1
8.5
8.3
1.8
7.7
0.3
8.1
5.3
34.5
X3
1
2
3
4
5
6
7
8
9
10
Y3
8.1
4.1
11.5
16.4
33.8
19.6
18.3
28.1
25.5
30.4
X4
1
2
3
4
5
6
7
8
9
10
Y4
28.1
4.1
11.5
16.4
13.8
19.6
18.3
28.1
25.5
30.4
Diagnsticos de influncia
Reta ajustada
Reta ajustada
Y1 = 2,747 + 2,697 X1
Y2 = 1,041 + 3,315 X2
S
R-Sq
R-Sq(adj)
2.88315
90. 0%
88. 8%
20
20
S
R-Sq
R-Sq(adj)
2. 91196
91.7%
90.6%
S
R-Sq
R-Sq(adj)
7. 37032
32.9%
24.5%
Y2
30
Y1
30
10
10
0
0.0
2.5
5.0
7.5
10.0
0.0
2.5
X1
5.0
7.5
10.0
X2
Reta ajustada
Reta ajustada
Y3 = 5,413 + 2,576 X3
Y4 = 10,75 + 1,606 X4
S
R-Sq
R-Sq(adj)
6.40339
62. 5%
57. 8%
20
20
Y4
30
Y3
30
10
10
0
0.0
2.5
5.0
X3
7.5
10.0
0.0
2.5
5.0
7.5
10.0
X4
135
Diagnsticos de influncia
Exercite os conhecimentos que voc j tem sobre ajuste de retas para responder as seguintes
perguntas (os dados encontram-se no conjunto 4ConjuntosInfluncia.xlsx):
1. Qual a mudana que ocorrer nos coeficientes da reta e nos valores ajustados se
removermos qualquer um dos pontos do primeiro conjunto de dados? Voc diria que essa
mudana ser substancial? Onde o impacto ser sentido com maior intensidade? Nos
valores ajustados? Nos coeficientes da reta? Em ambos?
2. E se removermos qualquer um dos pontos do conjunto 2? Qual ponto se removido
provocar o maior impacto?
3. E se removermos qualquer um dos pontos do conjunto 3? Qual ponto se removido
provocar o maior impacto?
4. E se removermos qualquer um dos pontos do conjunto 3? Qual ponto se removido
provocar o maior impacto?
Procure responder as perguntas sem ler os prximos slides. Seu aprendizado ser maior.
Caso voc tenha dvidas em responder, voc pode realizar os ajustes removendo cada um dos
pontos e verificando o efeito no ajuste.
Diagnsticos de influncia
No conjunto 1, a remoo de qualquer um dos pontos no acarretar
grandes mudanas nos valores ajustados e nem nas estimativas dos
parmetros. Dizemos que todos os pontos tem essencialmente a mesma
influncia no ajuste
No conjunto 2, a remoo do ltimo ponto afeta de forma intensa o ajuste.
Se o valor de Y2 para o ltimo ponto se alterar, as estimativas dos
parmetros e os valores ajustados so bastante afetados. Os outros pontos
no tem o mesmo peso no ajuste. Dizemos que o ltimo ponto tem uma
influncia relativa muito maior que os outros nove pontos
No conjunto 3, o quinto ponto tem um resduo muito grande relativamente
aos demais pontos. A remoo desse ponto ir alterar o coeficiente linear da
reta bem como os valores ajustados. Novamente, dizemos que esse ponto
tem uma influncia relativa grande comparada com os outros nove pontos.
No conjunto 4 o primeiro ponto que tem um resduo relativamente grande.
Sua remoo afeta tanto o coeficiente linear como o coeficiente angular.
136
Diagnsticos de influncia
O ltimo ponto do conjunto 2 influente pois est isolado dos demais
pontos ( um outlier em relao aos valores de X1.
O quinto ponto do conjunto 3 e o primeiro ponto do conjunto 4 um
outlier em relao aos resduos do ajuste.
Note a diferena entre as duas situaes: o ltimo ponto do conjunto
2 no gera um resduo grande (outlier); o quinto ponto do conjunto 3
e o primeiro ponto do conjunto 4 no so outliers em relao aos
valores de X3 e X4 respectivamente.
importante identificar pontos influentes em ajustes de regresso
dado o impacto produzido no ajuste.
Diagnsticos de influncia
Quando estamos fazendo um ajuste de uma reta,
relativamente fcil visualizar pontos influentes por meio
do grfico de disperso.
Essa facilidade no existe no caso de regresses
mltiplas pois impossvel fazer o grfico de disperso
se o nmero de variveis independentes for maior que 2.
Precisamos de um critrio que permita identificar pontos
influentes em qualquer situao de ajuste de regresso
linear mltipla
137
O critrio H (leverage)
Para cada ponto xi calcula-se a distancia dele ao centro dos valores
de X. No caso de regresso linear simples, o centro a mdia dos
valores de X. Essa distncia denominada hi
Pode-se mostrar que a mdia dos hi p/n, sendo p o nmero de
parmetros e n o nmero de pontos.
Uma regra prtica considerar que o ponto influente se hi >(2p)/n
Uma outra forma calcular os hi e fazer um Box-Plot desses valores
e verificar se h algum outlier
A estatstica H no aponta necessariamente como influente um ponto
que gera um resduo outlier (caso dos conjuntos 3 e 4)
O critrio H (leverage)
Os Box-Plots dos valores de hi para cada um dos conjuntos de
dados apresentado abaixo.
Observe que somente para o conjunto 2 esse critrio aponta um h
outlier (ltimo valor do conjunto de dados 2), indicando que esse
ponto influente.
138
O critrio D-Cook
Cook desenvolveu um critrio chamado D de Cook que mede a
influncia de um ponto no ajuste. O critrio, denotado por Di ,
calculado para cada ponto.
Di grande se
a) O resduo para o ponto i for grande
b) xi for um ponto x deslocado dos demais
c) Ou ambos
Um valor Di > 1 indica que o i-simo ponto influente
Uma outra forma calcular os Di e fazer um Box-Plot desses
valores e verificar se h algum outlier
O critrio H (leverage)
Os Box-Plots dos valores de Di para cada um dos conjuntos de
dados apresentado abaixo.
Observe que somente para os conjuntos 2, 3 e 4 esse critrio aponta
um Di outlier (ltimo valor do conjunto de dados 2, quinto ponto do
conjunto 3 e primeiro ponto do conjunto 4), indicando que esses
pontos so influentes.
139
Outros diagnsticos
DFFITS (minitab)
Medida de quanto uma observao afeta o valor ajustado.
Valores maiores que 2*sqrt((p)/n) so considerados influentes.
DFBETAS
Medida de quanto uma observao afeta a estimativa dos betas
(h um DFBETA para cada coeficiente, incluindo o intercepto).
Valores maiores que 2/sqrt(n) so considerados influentes.
COVRATIO
Medida do impacto de cada observao na varincia dos
coeficientes da regresso e em suas covarincias. Valores for a
do intervalo 1 +/- 3p/n so considerados influentes.
140
Regresso Logstica
Regresso Logstica
Em muitas aplicaes de regresso a varivel resposta
tem somente dois valores possveis que padronizaremos
como 0 e 1 (ou o evento ocorre (1) ou no ocorre (0)
Seja (1) = . Ento, (0) = 1 = j
Esse tipo de varivel geralmente referenciado como
varivel de Bernoulli
A regresso com esse tipo de resposta pode ser
interpretado como um modelo que estima o efeito das
variveis independentes na probabilidade de ocorrncia
do evento
141
Regresso Logstica
Para ilustrar, considere o seguinte conjunto de dados
OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
RENDA
900.00
1282.50
972.00
922.50
1305.00
1651.50
1620.00
1242.00
1035.00
1395.00
765.00
1215.00
1125.00
792.00
972.00
648.00
1260.00
738.00
891.00
990.00
711.00
495.00
765.00
945.00
CARTAO
s
s
s
s
s
s
s
s
s
s
s
s
n
n
n
n
n
n
n
n
n
n
n
n
CARTAO_COD
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
Regresso Logstica
O grfico de CARTAO (codificado) versus a renda est no grfico abaixo
142
Regresso Logstica
O ajuste do modelo CARTAO_COD=a + B*RENDA apresentado abaixo
(considerando a varivel resposta como numrica)
Regresso Logstica
A RENDA significante e o modelo sugere que possuir carto est associado com valores
altos de renda.
O grfico da reta ajustada revela que o modelo no adequado.
A varivel resposta s pode assumir os valores 0 e 1 e o modelo permite predizer diferentes
valores da varivel resposta entre 0 e 1.
Outro problema que a varincia da varivel resposta uma funo de p(1-p), sendo p a
probabilidade do indivduo ter carto.
Isto viola a suposio de igualdade de varincia para cada valor de X
Assim essa abordagem para modelar ter ou no carto em funo da renda no adequada.
Uma abordagem mais adequada usar a Regresso Logstica
143
Regresso Logstica
O modelo da regresso logstica
1
=
m
DC B
1+
Atravs de uma transformao adequada obtemos
= ln
= - + 9 M
Transformao Logit
Logit (pi)
pi
Logit
Transform
Preditor
Preditor
144
145
Modelo ajustado
Interpretao do parmetro 1
Temos que
p
= 0 + 1X, ento,
ln
1 p
p 0 +1X
= e
1 p
(x +1)
Ods( X +1)
= e1
Ods X
146
Interpretao do parmetro 1
147
Probabilidades estimadas
A estimativa da probabilidade de um evento para
um determinado valor de X dada por:
p 0 +1X
1 p
1
1
= e
= + X p =
1 + e - 0 1X
1 p
p e 0 1
DC
Probabilidade estimada
Grfico da probabilidade estimada pelo
modelo versus a renda
148