Sie sind auf Seite 1von 150

Probabilidade

e
Regresso

Este material no pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou


gravaes de vdeo ou armazenado em dispositivos eletrnicos sem a permisso
escrita dos detentores dos direitos de copyright. O material no pode ser incorporado
em programas de treinamento com exceo da superviso de algum instrutor da EDTI
Consultoria e Treinamento LTDA.

Autores:
Ademir J Petenate, , EDTI Projetos
Marcelo M Petenate, EDTI Projetos

Publicado por EDTI Melhoria de Processos


Campinas, So Paulo
Impresso no Brasil

Sumrio
Probabilidade...........................................................................2
Modelos Probabilsticos..........................................................35
Inferencia................................................................................91
Regresso.............................................................................105

Probabilidade

Incerteza e intuio
A intuio humana mal adaptada a situaes que envolvem
incerteza.
Pesquisas recentes mostram que em situaes que envolvem o
acaso nossos processos cerebrais costumam ser gravemente
deficientes.
Os processos aleatrios so fundamentais na natureza, e
onipresentes em nossa vida cotidiana; aind assim, a maioria das
pessoas no os compreende nem pensa muito a respeito.
Leonard Mlodinow

Jogo das cores


mostrado a um grupo de pessoas uma srie de lmpadas de
duas cores (vermelho e verde). As cores aparecem em
sequencia com diferentes probabilidades.
Depois de observar o a sequencia por um tempo a pessoa deve
tentar prever a prxima cor.
O jogo tem duas estratgias bsicas. Uma delas arriscar na cor
percebida como a que ocorre com mais frequncia. A outra
ajustar a nossa percepo conforme padres que identificamos.
Qual estratgia melhor?

Concha
Kahneman Premio Nobel de Economia de 2002

Exerccio
Linda tem 31 anos de idade, solteira, franca e muito brilhante.
Ela graduou-se em Filosofia. Como estudante, esteve
profundamente preocupada com os assuntos de discriminao e
justia social e tambm participou de manifestaes antinucleares.
Por favor, ordene as trs seguintes alternativas na ordem de
mais provvel (1) para menos provvel (3).
A. Linda participa do movimento feminista
B. Linda bancria e participa do movimento feminista
C. Linda bancria

Exerccio
Aproximadamente 80 bebs por semana nasceram na Santa Casa de Santos
em 1993. Durante o mesmo ano, cerca de 20 bebes por semana nasceram na
Maternidade em So Vicente. Enquanto cerca de 50% de todos os bebes
nascidos em qualquer semana considerada eram meninos, a porcentagem
exata varia de semana para semana, algumas vezes mais, outras menos.
Dos dois hospitais, qual voc acha que registrou mais semanas na qual o
nmero total de meninos nascidos foi maior que 70%?
Santa Casa de Santos
Maternidade em So Vicente
Mais ou menos a mesma quantia

Exerccio
O que maior, o nmero de palavras de seis letras na lngua inglesa que tem
o n como quinta letra ou o nmero de palavras de seis letras que terminam
em ing?

Exerccio
Suponha que uma companhia area tenha um lugar restante no voo e ainda
restem dois passageiros por chegar. Suponha que a partir da experincia a
companhia saiba que existe uma chance de 2/3 de que um passageiro que
reservou um voo se apresente para viajar.
Qual a probabilidade que ela tenha que lidar com um cliente insatisfeito?
Qual a probabilidade que o voo seja realizado com um lugar vago?

Um pouco de Histria
A teoria da probabilidade tal como a conhecemos hoje, foi em grande parte
desenvolvida por cientistas como Girolamo Cardamo (1501-1576), Galileu
Galilei (1564-1642), Blaise Pascal (1623-1662), Pierre de Fermat (16011665), Jackob Bernoulli (1654-1705), Abraham de Moivre (1667-1754), entre
outros.
O desenvolvimento da teoria da probabilidade muitas vezes associado
com os jogos de azar em famosos cassinos europeus, como o que est em
Monte Carlo.
Muitos livros sobre probabilidade e estatstica contam a histria de
Chevalier de Mre, um jogador francs, que contou com a ajuda de Pascal
em um esforo para obter as probabilidades de ganhar em certos jogos de
azar, desenvolvendo assim esse campo do conhecimento.

Um pouco de Histria
Os gregos da Antiguidade se destacam por terem inventado a maneira como
a matemtica levada a cabo: por meio de axiomas, provas, teoremas etc.
Por que motivo eles no criaram uma teoria para demonstrar que se
jogamos dois dados seria pouco sbio apostar uma grande quantia na
possibilidade de que ambos caiam com o nmero 6?

O futuro se desvelava conforme a vontade dos Deuses


Insistncia na verdade absoluta, provada pela lgica e sustentada pelos
axiomas
Desconhecimento da aritmtica; ausncia de um sistema de
representao numrica fcil de trabalhar. Imagine tentar subtrair
de . A notao base 10 s comea a ser usada no sculo VII d.C.
Ausncia do zero (s surgiu no sculo IX d.C.)
O sinal de igual s foi inventado no incio do sculo XVI

Conceitos bsicos
O que significa Probabilidade?
uma medida de incerteza.
A probabilidade de um evento uma medida numrica da
chance de ocorrncia do evento
Probabilidade medida por um nmero que varia entre 0 e 1
(0 a probabilidade de um evento impossvel e 1 a
probabilidade de um evento certo

Experimento aleatrio
Um experimento aleatrio um processo que tem como
resultado um de um conjunto possvel de resultados. O resultado
uma observao ou medio documentada.
Exemplos
Pagar a conta no prazo: {Sim, No}
Tempo para completar uma ligao: {t: t>0}
Nmero de cartes de crdito que um cliente possui: {0, 1, 2...}

Evento e espao amostral


Cada resultado possvel de um experimento aleatrio um
evento simples
O espao amostral a coleo de todos os eventos simples
Um espao amostral pode ser finito, finito enumervel ou infinito
no enumervel

Um evento um subconjunto do espao amostral (um


conjunto com um ou mais eventos simples)
O evento vazio o conjunto com nenhum evento simples
(conjunto vazio)
A probabilidade de um evento a soma das probabilidades
dos eventos simples que formam o evento
A probabilidade do evento vazio zero

Tipos de Probabilidade
Probabilidade clssica: eventos igualmente provveis
S= {S1, S2, ..., Sn} o espao amostral
=

onde simboliza a probabilidade e o resultado de um


experimento aleatrio com resultados possveis, =
1, , .
Seja um evento formado por eventos igualmente
provveis:
=

Tipos de Probabilidade
Probabilidade clssica: eventos no necessariamente
igualmente provveis
S= {S1, S2, ..., Sn} conjunto de eventos possveis
=

onde a probabilidade de ocorrncia de


, =
1, , e calculvel a partir de suposies.
Exemplo: Uma moeda com duas faces (Cara e Coroa) no
equilibrada.
S={Cara, Coroa}
P(Cara)=P1, P(Coroa)=P2; P1P2

Probabilidade clssica: clculo


Tipicamente envolve problemas de contagem
Pode ser muito simples
Exemplo: dado honesto
Resultados possveis 1, 2, 3, 4, 5, 6, , tal que
1
= =
6
para = 1, , 6
Evento

= resultados pares
=

2,4,6 =

1 1 1 1
+ + =
6 6 6 2

Probabilidade clssica: clculo


Pode ser bastante complexo: Exemplo: Poker fechado , 52
cartas (sem curinga)
Sequencia real: 5 cartas seguidas do
mesmo naipe do 10 ao s.
P (Sequencia real) = ?
Sequncia de cor: 5 cartas seguidas do
mesmo naipe.
P (Sequencia de cor) = ?

Cuidado!
Qual a probabilidade que o primeiro beb que vai
nascer em 2014 na cidade de So Paulo seja do sexo
masculino?

10

Probabilidade frequentista
Seja + , , +, o conjunto de resultados possveis de
um experimento realizado vezes e que cada resultado
ocorre vezes. Ento
+

e
=

=1

Probabilidade subjetiva
Chance de ocorrncia de um evento atribuda por um
indivduo com base em sua experincia, conhecimento do
assunto, grau de convico ou simplesmente expresso de
desejo
Suponha que voc rena amigos para assistir a um jogo
de futebol entre os times A e B pergunte a cada um
deles qual a chance do time A ganhar. Provavelmente
cada um far uma afirmao diferente. Estamos nesse
caso atribuindo probabilidade de forma subjetiva.

11

Lei de Bendford
A Lei de Bendford (descoberta pelo astrnomo Simon
Newcomb observando pginas de livros de logaritimos)sugere
que a porcentagem de ocorrncia dos dgitos 1 a 9 na
primeira posio em nmeros de diversas fontes segue um
padro. Esse padro exibido na tabela abaixo.
Qual o tipo de probabilidade?
Como esse resultado poderia ser utilizado em ambiente de
negcios?
Prim
dgito

Freq
Relat

0.301

0.176

0.125

0.097

0.079

0.067

0.058

0.051

0.046

Unio e interseco de eventos


A unio de dois eventos A e B o evento formado por
todos os resultados que esto em A ou B
Notao AB

A interseco de dois eventos A e B o evento formado


por todos os resultados que esto em A e B
Notao AB

O evento complementar de um evento A formado


pelos resultados que no esto em A
Notao A
Dois eventos A e B tal que a interseco deles vazia so
mutuamente excludentes ou disjuntos

12

Unio e interseco de eventos

A
A

AB

AB

Axiomas de probabilidade
Qualquer que seja o tipo de probabilidade (clssica,
frequentista, subjetiva), o mesmo conjunto de regras
vlido para manipular e analisar probabilidades.

13

Axiomas de probabilidade
1. P (S) = 1, S o espao amostral
2. Qualquer que seja o evento - 0
0

- 1

- 1

3. Se A 1 e A 2 so dois eventos que disjuntos - -2 = , ento


(-1 -2) = (-1) + ( -2)
Generalizando, se A1, A2, ... , Ak so eventos mutuamente disjuntos, ento
(-1 -2 -7 ) = (-1) +

(-2) + + ( -7)

4. Se A1 e A2 so dois eventos quaisquer, ento


(-1 -2) = (-1) + ( -2)

(-1 -2)

Notao
Denotaremos eventos por letras maisculas -, 9,
Seja - um evento

Ex1: -: evento dos nmeros pares no jogo de dados


- = 2, 4, 6
Ex2: -: evento onde o tempo para responder a uma solicitao
de crdito maior que 9 dias teis
-=

: >9

14

Probabilidade condicional e independncia


Exemplo: um grupo de bancrios foi classificado de acordo
com o peso corporal e hipertenso
condio em relao ao peso
acima

normal

abaixo

total

sim

0.10

0.08

0.02

0.20

no

0.15

0.45

0.20

0.80

0.25

0.53

0.20

1.00

hipertenso
total

A: pessoa com hipertenso - = 0.20


B: pessoa com peso acima do normal (9) = 0.25

Probabilidade condicional e independncia


Qual a chance de um pessoa que tem peso acima do
normal ser hipertensa? Denotamos essa probabilidade
por (-/9)
-/9 =

0.1
= 0.4
0.25

Qual a chance da pessoa ser hipertensa e ter peso acima


do normal
-9 =

-9 = 0.1

15

Probabilidade condicional e independncia


Probabilidade condicional
-/9 =
desde que (9) > 0.
Ou

-/9

-9
9

9 = (-9)

que chamamos de lei da multiplicao das probabilidades

Probabilidade condicional e independncia


Dois eventos so independentes se
-/9 =

Condies equivalentes
9/- =

9 ou (-9) = (9) (-)

16

Regras de produto para eventos


independentes
As regras para a unio e a interseo de dois eventos
independentes so extensveis para sequncias de mais de dois
eventos.
Estudos enumerativos envolvem, em geral, amostragem
aleatria de alguma populao.
Quando retiramos uma amostra aleatria de uma grande
populao, ou quando retiramos uma amostra com reposio de
uma populao de qualquer tamanho, os itens da amostra so
independentes uns dos outros.

Regras de produto para eventos


independentes
Por exemplo, suponha que temos uma urna contendo 10 bolas,
sendo 7 vermelhas e 3 azuis. Uma bola sorteada, observa-se
que vermelha e devolve-se a bola na urna.
Qual a probabilidade de que a segunda bola que escolhemos
aleatoriamente ser vermelho?
A resposta ainda 3/10 porque o processo no tem memria
nesse caso.
Amostragem com a reposio assegura a independncia dos
elementos.
O mesmo vlido para a amostragem aleatria sem restituio
se a populao relativamente grande em comparao com o
tamanho da amostra.

17

Regra da probabilidade total


Para quaisquer dois eventos A e B
- =

-9 +

- 9 = -/9) (9) + (-/9) (9)

Generalizando, se A um evento qualquer e B1, B2, ..., Bk uma


partio do espao amostral S, ento
- =

(- 9 ) =

-/9 ) (9 )

Exemplo
Suponha que a probabilidade 0.10 de que um chip que seja sujeito a altos
nveis de contaminao durante a fabricao cause falha no produto e 0.005
caso no esteja sujeito a altos nveis de contaminao.
Em um lote produzido 20% dos chips esto sujeitos a altos nveis de
contaminao.
Qual a probabilidade que um produto usando um chip desse lote venha a
falhar?
Seja F o evento que o produto falhe e A o evento que o chip foi exposto a altos
nveis de contaminao
P(F/A)=0.10, P(F/A )=0.005
P(A)=0.20, P(A )=0.80
P(F)=P(FA)+P(F A)=P(F/A)P(A)+P(F/A)P(A)
=0.10*0.20+0.005*0.80=0.024

18

Probabilidade condicional e independncia


Exemplo: um grupo de bancrio foi classificado de acordo
com o peso corporal e hipertenso
condio em relao ao peso

sim

acima

normal

abaixo

total

0.10

0.08

0.02

0.20

hipertenso
no
total

0.15

0.45

0.20

0.80

0.25

0.53

0.20

1.00

Ter peso acima do normal independente de ser


hipertenso?

Teorema de Bayes
As frmulas de probabilidade condicional eram conhecidas no
sculo XVIII. Elas dependiam de que o evento condicionante
tivesse ocorrido antes do evento que estivesse sendo
examinado.
No final do sculo XVIII o reverendo Thomas Bayes descobriu
algo inusitado. Era possvel calcular a probabilidade do antes
condicionada ao depois.

19

Exercicos
Uma empresa de consultoria est negociando contratos de servio com
duas grandes multinacionais. Os executivos da companhia estimam que a
probabilidade fechar o contrato com a empresa A, o evento A, de 0,45.
Os executivos tambm sentem que se se fecharem com a empresa A a
probabilidade de entrarem em acordo com a empresa B de 0.9. Qual a
chance da companhia obter os dois servios?

Formados em Direito devem passar por um exame de da OAB para


poderem exercer a profisso. Suponha que a porcentagem de aprovados
na primeira vez que prestam o exame 72%. Os reprovados na primeira
vez podem fazer um segundo exame. A proporo de aprovados na
segunda tentativa 88%. Qual a probabilidade de que um graduado seja
aprovado?

Exerccio
Um analista de investimentos coleta dados sobre aes: informaes sobre o pagamento ou
no de dividendos e o crescimento ou no do preo dessas aes para um dado perodo. Os
dados esto na tabela a seguir.
Dividendo pago
Dividendo no pago
Total

Preo subiu

Preo no subiu

Total

34
85
119

78
49
127

112
134
246

a. Se uma ao for selecionada ao acaso dentre as 246 da lista do analista, qual a


probabilidade de que o preo tenha subido?
b. Se uma ao for selecionada ao acaso, qual a probabilidade de que ela pagou
dividendos?
c. Se uma ao for selecionada aleatoriamente, qual a probabilidade de que o preo
subiu e pagou dividendos?
d. Qual a probabilidade de que uma ao selecionada aleatoriamente no tenha pago
dividendos nem tenha subido o preo?
e. Dado que o preo de uma ao subiu, qual a probabilidade de que ela tambm tenha
pago dividendos?
f. Se for conhecido que uma ao no pagou dividendos, qual a probabilidade de seu
preo ter subido?
g. Qual a probabilidade de uma ao selecionada aleatoriamente ter sido um bom negcio,
ou seja, ter subido de preo e/ou pago dividendos?

20

Exerccio
Em um artigo sobre o crescimento do investimento, a revista Money informou que as aes de
companhias farmacuticas mostram tendncias excelentes de longo prazo e oferecem aos
investidores potencial incomparvel de ganhos altos e constantes. O Health Care Financing
Administration fundamenta essa concluso por meio de sua previso de que os gastos anuais
com prescrio de medicamentos atingiro 366 bilhes de dlares em 2010, acima dos US $ 117
bilhes de dlares em 2000. Muitos indivduos com 65 anos ou mais dependem fortemente de
medicamentos prescritos. Para esse grupo, 82% tomam medicamentos regularmente, 55%
tomam pelos menos 3 medicamentos e 40% consomem cinco ou mais remdios. Em contraste,
49% das pessoas com menos de 65 anos de idade tomam remdios regularmente, com 37%
tomando pelo menos 3 drogas 28% com cinco ou mais drogas (Money, Setembro de 2001). O
censo dos EUA mostrou que dos 281.421.906 de pessoas nos Estados Unidos, 34.991.753 tem
pelo menos 65 anos (EUA Census Bureau, Censo 2000).
a. Calcule a probabilidade de que uma pessoa escolhida ao acaso nos Estados Unidos tenha 65
anos ou mais.
b. Calcule a probabilidade de que uma pessoa toma medicamentos regularmente.
c. Calcule a probabilidade de que uma pessoa escolhida ao acaso tenha 65 anos ou mais e
toma cinco ou mais drogas.
d. Dado que uma pessoa usa cinco ou mais prescries, calcular a probabilidade de que a
pessoa tem 65 anos ou mais.

Teorema de Bayes
No exemplo do semicondutor, F o evento posterior e A e o
evento anterior e sabemos P(F/A)
Mas podemos estar interessados em saber o seguinte: se o
chip no produto falhar, qual a probabilidade que tenha sido
exposto a altos nveis de contaminao, ou seja P(A/F)?
Observe que sabemos P(F/A), P(F/A), P(A) e P(A). Com isso
podemos calcular P(F). Mas queremos calcular P(A/F)
O Teorema de Bayes permite realizar esse clculo

21

Teorema de Bayes
Sejam A e B dois eventos
9/- (-)
-/9 =

9 >0
(9)
P(A) a probabilidade priori e P(A/B) a probabilidade
posteriori
Extenso do Teorema de Bayes
Se E1, E2, ..., Ek forem eventos mutuamente excludentes e
exaustivos e B um evento qualquer ento
/9 =

? @/AB ?(AB )

? @/AC ? AC D? @/AE ? AE DD? @/AG ?(AG )

9 >0

Teorema de Bayes
No exemplo do semicondutor, F o evento posterior e A e o
evento anterior e sabemos P(F/A)
Aplicando o Teorema de Bayes temos
-/H =

H/- (-) 0.10 0.20


=
= 0.83
(H)
0.024

22

Exerccio
Um banco estava interessado em rever sua poltica em relao ao produto carto de
crdito com a inteno de cancelar os cartes de alguns clientes. No passado,
aproximadamente 5% dos portadores de cartes ficaram inadimplentes e o banco no
pode cobrar o saldo devedor. Assim, a administrao estabeleceu probabilidade
priori para a inadimplncia de qualquer cliente igual a 0,05. O banco tambm
descobriu que a probabilidade de no pagamento em um determinado ms de 0,20
para os clientes adimplentes. Claro que, para um cliente inadimplente, a probabilidade
de no pagamento em um ms 1.
a. Dado que um cliente deixou de pagar pelo menos um ms, compute a
probabilidade posteriori de que um cliente vire inadimplente.
b. O banco gostaria de cancelar o carto caso a probabilidade de que um cliente vire
inadimplente seja maior do que 0.2. O banco deveria cancelar o carto caso o
cliente deixe de realizar o pagamento de um ms? Por qu?

Exerccio
Em cirurgias de transplante de corao h risco de que o corpo rejeite o corao
transplantado. Um novo teste foi desenvolvido para detectar os primeiros sinais de que
o corpo possa rejeitar o corao transplantado. No entanto, o teste no perfeito.
Quando o teste realizado em algum cujo corao ser rejeitado, cerca de dois em
cada dez testes sero negativos (falso negativo). Quando o teste realizado em uma
pessoa cujo corao no ser rejeitado, 10% ir mostrar um resultado positivo (falso
positivo). Os mdicos sabem que em cerca de 50% dos transplantes de corao o corpo
tenta rejeitar o rgo transplantado.
a. Suponha que o teste foi realizado em uma pessoa submetida ao transplante e o teste
foi positivo (indicando sinais de alerta precoce de rejeio). Qual a probabilidade
de que o corpo est propenso a rejeitar o corao?
b. Suponha que o teste foi realizado e o resultado negativo (indicando que no h
sinais de rejeio). Qual a probabilidade de que o corpo est propenso a rejeitar o
corao?

23

Distribuies de probabilidade

Variveis aleatrias
Uma varivel aleatria (v.a.) uma funo que atribui um
nmero real a cada resultado do espao amostral de um
experimento aleatrio
Varivel aleatria discreta
Assume valores em um conjunto finito ou infinito enumervel

Varivel aleatria contnua


Assume valores em um intervalo finito ou infinito de nmeros
reais

Notao: em geral a v.a. denotada por uma letra


maiscula do final do alfabeto (X, Y, Z, );

24

Exemplo
Um banco classifica seus clientes como rentvel, neutro, no
rentvel. Na base de clientes, a proporo a seguinte:
Classificao

Porcentagem

50%

40%

NR

10%

Seja X a v.a. definida como: 1 se cliente R; 0 se cliente N e -1


se cliente NR.
Distribuio de X:

Prob

-1

0.1

0.4

0.5

Distribuio de probabilidade discreta


Exemplo: em um censo coletado o nmero de filhos do
casal
N de Filhos

%.

10%

30%

35%

20%

5%

Para uma famlia escolhida ao acaso, qual a probabilidade


que ela tenha 2 filhos?

25

Distribuio de probabilidade discreta


Para uma varivel aleatria discreta X com valores
x1, x2, ..., xn a distribuio de probabilidade dada por

K(L ) = (M = L )
A distribuio de probabilidade satisfaz
K L

=1

Distribuio de probabilidade discreta


Seja M o nmero de filhos do casal;
M = {0, 1, 2, 3, 4}
(M = L ) = {0.1, 0.3, 0.35, 0.20, 0.05}, para L =
{0, 1, 2, 3, 4}
M uma v.a. discreta

M=

=1

26

Distribuio de probabilidade discreta


Distribuio de probabilidade da varivel aleatria M
0

0.10

0.30

0.35

0.20

0.05

Soma
1

Distribuio: Nmero de filhos


0.40
0.35
0.30

P(X)

X
P(X=xi)

0.25
0.20
0.15
0.10
0.05
0.00
0

27

Mdia e varincia populacional

Mdia ou valor esperado


Seja M v.a. discreta com distribuio
{L , (L ); = 1,2, }, onde

ento,
E X = T

(L ) = (M = L )
(M) = (V

ou
M =Y=

X X

),

28

Exerccio
Calcule o valor esperado da varivel aleatria M que
representa o nmero de filhos do exemplo anterior

P(X)

0.10

0.30

0.35

0.20

0.05

Soma
1

Exerccio
Calcule o valor esperado da varivel aleatria M que
representa os resultados de um dados honesto

Soma

P(X)

1/6

1/6

1/6

1/6

1/6

1/6

1/6

29

Exerccio
Seja M uma v.a. discreta que representa o nmero de
carros vendidos por dia em uma revendedora, cuja
distribuio de probabilidades dada por
Distribuio do nmero de carros vendidos por dia
x
P(x)

Total

0.10

0.10

0.20

0.30

0.20

0.10

1.00

Calcule (M)

Interpretao do valor esperado


Suponha que voc invista no mercado de aes e M seja a
varivel aleatria que representa o resultado desse
investimento;
M = {27, 120};
Ganho (g)

120,00

-27,00

Total

P(g)

0.20

0.80

1.00

gP(g)

24,00

-21,60

2.40

30

Exerccio
Um sistema de radar programado para registrar automaticamente a velocidade de
todos os veculos trafegando por uma avenida, onde passam em mdia 300 veculos
por hora, sendo 55 km/h a velocidade mxima permitida. Um levantamento
estatstico dos registros do radar permitiu a elaborao da distribuio percentual de
veculos de acordo com sua velocidade aproximada.

A velocidade mdia dos veculos


que trafegam nessa avenida de:
(a) 35 km/h
(b) 44 km/h
(c) 55 km/h
(d) 76 km/h
(e) 85 km/h

Exerccio
Uma empresa de seguros vende uma aplice para 1500 proprietrios de um modelo
de bicicleta mountain bike que protege contra roubo por dois anos. O custo de
reposio dessa bicicleta $300.00. Suponha que a probabilidade de um indivduo
ser roubado durante o perodo de proteo 0.15. Assuma que a probabilidade de
mais de um roubo por indivduo zero e que os eventos so independentes.
a. Qual o preo de venda da aplice para que haja um equilbrio para a
empresa(ganho zero, perda zero)?
b. Se a probabilidade de roubo for 0.10, qual o ganho esperado por aplice dado o
valor de venda determinado em (a)?

31

Aplicao do valor esperado em processos


decisrios
Uma fbrica de mveis deve decidir se realiza uma ampliao da capacidade
instalada agora ou se aguarda mais um ano.
Uma anlise econmica diz que se ela expande agora e as condies
econmicas permanecerem boas, ela realizar um lucro de R$328.000,00 no
prximo ano; caso haja uma recesso, ela ter um prejuzo de R$80.000,00.
Se ela adia a expanso para o prximo ano, ela ter um lucro de
R$160.000,00 se as condies permanecerem boas e ter um lucro de
R$16.000,00 se houver recesso.
Se as chances de que ocorra uma recesso de 2/3, qual a deciso que
maximiza seu lucro?

Propriedades da mdia
Seja e X duas constantes e M e \ duas variveis
aleatrias. Ento:
A.
( )=
B.
(XM) = X (M)
C.
( + M) = + (M)
D.
( M + X\) =
(M) + X (\)

32

Varincia
Fornece uma medida de disperso (variao) dos valores em
torno da mdia
M = b2 =

a
c V

L Y

M =b=

Pode-se mostrar que


a
onde

M2 = L2

M =

M2

Propriedades da varincia
Seja a e b duas constantes e M e \ duas variveis
aleatrias. Ento:
A. a
M 0
B. a ( ) = 0
C. a ( + M) = a (M)
D. a (XM) = X 2 a (M)
E. a
+ XM = X2 a M
F. a
M\ =a M +a \ ,
M \
i

33

Exerccio
Um sistema de envasamento consiste em encher um vidro com lquido.
Os vidros utilizados tem peso mdio de 20g e desvio padro 0.5g.
A quantidade de lquido em peso que colocada no litro pode ser regulada,
sendo o valor nominal igual a 185g.
O desvio padro do sistema de envasamento 2g.
Qual o peso mdio e o desvio padro do vidro cheio?

34

Modelos probabilsticos

Introduo
Modelos so utilizados em todos os campos da
cincia.
Devem simplificar a realidade ao mesmo tempo que
representam suas principais caractersticas.
Todos os modelos esto incorretos, mas alguns so
teis (George Box)

35

Distribuio Discreta Uniforme


O modelo mais simples de distribuio discreta o
uniforme
f(x) = 1/n
sendo
n= nmero de valores que a varivel aleatria pode
assumir

Ensaios de Bernoulli
Considere repeties sucessivas de um ensaio (ou
teste) com apenas dois resultados possveis que
respeite as seguintes regras:
a) Em cada ensaio podem ocorrer somente dois
resultados possveis (Sucesso (S) e Fracasso
(F)).
b) Para cada ensaio, a probabilidade de que
ocorra um Sucesso, denotada por ( ), a
mesma, e denotada por p, ou seja, ( ) = . A
probabilidade de um Fracasso, (H), dada
por 1 , ou seja, (H) = 1 . A quantidade
1 denotada por j. Temos ento + j = 1.
c) Cada ensaio independente.

36

Ensaios de Bernoulli
Se associarmos ao evento S o valor e 0 ao valor F a distribuio
de probabilidade de X
X

P(X)

1-p

Alm disso:
a)
(M) = 0 (1 ) + 1 =
b)

M = M2
M 2
= 02 1 + 12
= (1 )

+ 2

Experimento Binomial
Um experimento Binomial obedece as seguintes
propriedades
1. O experimento consiste de um sequencia de n
ensaios idnticos
2. Dois resultados so possveis em cada ensaio:
Sucesso e Fracasso (Ensaio de Bernoulli)
3. p=P(S) no muda de ensaio para ensaio
4. Os ensaios so independentes

37

Distribuio Binomial
Considere um experimento Binomial
Seja X o nmero de Sucessos nos n ensaios
A varivel M pode assumir os valores 0,1,2, . . , .
M=

Ento,

=
Z!
! Zm

onde
0,1,2, ,
Denotamos M~9

1
!

para

Triangulo de Pascal

Linha
0

9
10

1
1

7
8

9
10

20

56

15

70

1
6

21
56

126
252

1
5

35

126
210

1
4

10

35

84
120

15

28

1
3

10

21

36
45

5
6

1
2

28
84

210

1
7

1
8

36
120

1
9

45

1
10

38

Triangulo de Pascal
60

35

50

30
25

40

20
30
15
20

10

10

x_2

x_6

30

20

25
15
20
15

10

10
5
5
0

1 2

3 4

5 6

7 8

9 10

x_10

x_20

Propriedades da B(n,p)

1.
2. a

M =Y=
M = b2 =

X
p , ento
Se definirmos p
o= n i =X

1.

Mr =

2. a ( ) = a

s(
Mr =

ms)
Z

39

Exerccio
Um gerente de conta especial faz vinte ligaes por dia
para clientes para oferecer um novo produto.
De experincia passada ele estima que a chance de
vender o produto para um cliente 0.10
Se sua meta diria realizar 4 vendas, qual a
probabilidade que ele atinja a meta em um determinado
dia?
Qual o nmero mdio de vendas que ele realiza por
dia?
Qual o desvio padro do nmero de vendas?
Qual o valor mais provvel de venda?

Distribuio de Poisson
Um evento S ocorre no tempo (ou espao) obedecendo os
seguintes postulados:
a)

Independncia: o nmero de vezes que S ocorre em


qualquer intervalo de tempo independente do nmero de
ocorrncias de S em qualquer outro intervalo de tempo
disjunto.

b)

Falta de agrupamento: a chance de duas ou mais


ocorrncias de S simultneas pode ser assumida como
sendo zero.

c)

Razo: a nmero mdio de ocorrncias de S por unidade


de tempo uma constante, denotada por l, e ela no
muda com o tempo.

40

Distribuio de Poisson
Seja X o nmero de ocorrncias de S por unidade de
tempo. Se os postulado anteriores so vlidos, ento
M~ t e
M=L =

u v

t
,
L!

L = 0,1,2, . . .

onde t o parmetro que indica o nmero mdio de


ocorrncias de X em um intervalo de tempo unitrio

Propriedades da Distribuio de Poisson


1.
2.

M =t
a M = t2

41

Exerccio
Durante a segunda guerra, Londres foi bombardeada por
avies alemes. Para verificar se os alemes estavam atirando
bombas com informaes sobre alvos o sul de Londres foi
divido em 576 quadrados, cada um com de milha quadrada.
O nmero de bombas que caiu em cada quadrado foi anotado e
est na tabela seguinte.
Pode-se concluir que os alemes estavam atirando bombas ao
acaso?
K (n de bombas)
0
1
2
3
4
5
Nk (n de
quadrados

229

211

93

35

Exerccio
Faa um grfico de barras do nmero de bombas por
quadrado. Use a frequncia relativa como altura da barra.
Aplique a distribuio de Poisson para o nmero de
nmero de bombas por quadrado.
Calcule a frequncia predita pela distribuio de Poisson
Compare a frequncia observada com a frequncia
esperada e discuta se a distribuio de Poisson
apropriada para essa situao
Escolhida aleatoriamente uma regio, determine a
probabilidade dela ter sido atingida por exatamente duas
vezes?

42

Exerccio
Ao enlatar leite em p, necessrio acrescentar um
dosador. A no incluso do dosador considerada uma
falha. O nmero de falhas que ocorrem em um lote
produzido tem distribuio de Poisson com nmero
mdio de falhas igual a 5.
1.
Qual a probabilidade que em um lote:
a)
b)

2.

Uma lata esteja sem o dosador?


Duas ou mais latas estejam sem o dosador?

Qual o nmero mais provvel de falhas que ocorrem


em um lote?

Aproximao da Binomial pela Poisson


Quando

grande e
9
M=L =

pequeno
,

mZs

L!

43

Exerccio
O nmero de clientes especiais , digamos, N, que solicitam atendimento por
dia segue a distribuio de Poisson com parmetro =2. As atuais instalaes
de atendimento especial podem atender a trs clientes por dia. Se mais de
trs clientes solicitarem atendimento o quarto em diante no ser atendido, o
que pode impactar de forma negativa o negcio.
1.
2.
3.
4.
5.

Em um dia, qual a probabilidade de ter clientes no atendidos?


De quanto devero ser aumentadas as instalaes atuais para que todos
os clientes possam ser atendidos em 90% dos dias?
Qual o nmero mdio de clientes que solicitam servios por dia?
Qual o nmero mais provvel de clientes que solicitam servios por
dia?
Qual o nmero mdio de clientes atendidos por dia?

Exerccio
Uma empresa de seguros vende uma aplice para 1500 proprietrios de um
modelo de bicicleta mountain bike que protege contra roubo por dois anos.
O custo de reposio dessa bicicleta $300.00. Suponha que a probabilidade
de um indivduo ser roubado durante o perodo de proteo for 0.15.
Assuma que a probabilidade de mais de um roubo por indivduo zero e que
os eventos so independentes.
1.
2.

Qual o preo de venda da aplice para que haja um equilbrio para a


empresa(ganho zero, perda zero)?
Se a probabilidade de roubo for 0.10, qual o ganho esperado por
aplice dado o valor de venda determinado em (a)?

44

Exerccio
Considere o exemplo do leite em p enlatado com dosador
discutido anteriormente. Considere que o lote formado por
10.000 latas e que o processo de enlatar tal que a
probabilidade que uma lata esteja sem dosador 0.0005.
Qual a probabilidade que em um lote uma lata esteja sem o
dosador utilizando o modelo binomial? E utilizando o modelo de
Poisson?

Distribuio Hipergeomtrica
Considere uma populao com N indivduos sendo que r
indivduos so Sucesso (S) e (N-r) so Fracasso (F).
Uma amostra aleatria sem reposio de tamanho n retirada.
Seja X o nmero de indivduos S na amostra
Os valores possveis de X so: 0, 1, 2, ..., min{n,r}
A distribuio de X dada por

(M = L) =

x
L
x

45

Distribuies de variveis aleatrias


contnuas

Varivel aleatria contnua


Em um Call Center o tempo de atendimento de um
cliente monitorado. Os valores possveis so em
princpio, infinitos dentro de um intervalo (a,b), a<b).
Nesse caso, no faz sentido perguntar qual a
probabilidade de que o tempo de atendimento seja
igual a um valor to . Na realidade, essa probabilidade
igual a zero
O que se pode perguntar qual a probabilidade que
o tempo de atendimento esteja dentro de um
intervalo (x,y), ou seja, P(x<t<y)

46

A figura abaixo mostra o histograma de amostras de tamanho


20, 100, 1000 e 10000 da mesma distribuio com uma funo
contnua f(x) aproximando o histograma.
Observe que quanto maior o tamanho da amostra, melhor a
aproximao.
A porcentagem de valores abaixo de 9 aproximada pela rea
sob a curva esquerda de 9. Quanto maior o tamanho da
amostra, melhor a aproximao
}

%(t < 9) |m~ K L

Exemplo
Valores
(Y < 60)
(Y >70
60 y 70

% de valores
(histograma)
\ < 60 = 0.185
\ > 70 = 0.140
60 70 = 0.675

Probabilidade
(distribuio)
P( Y < 60) = 0.167
P (Y > 70) = 0.146
P(60 y 70) = 0.687

47

Funo densidade de probabilidade


Propriedades da fdp
1.
2.

K L 0, L
A rea sob a curva definida por f(x) igual a 1, ou seja,
~

K L

3.

m~

( L X) =
ou seja,

L=1

X i

K L

X,

Funo distribuio acumulada


Se M um v.a. contnua a funo de distribuio
acumulada (fda) H(L) = (M <= L).
Propriedades
1. H(L) uma funo no decrescente de L
2. H = 0
3. H = 1

48

Mdia e varincia de v.a. contnuas


Uma varivel aleatria contnua M, em geral, tambm tem
uma mdia e uma varincia com o mesmo significado e as
mesmas interpretaes discutidas anteriormente para o
caso discreto, mas o seu clculo envolve integrais e no
sero objeto de nosso trabalho aqui.
Para as distribuies que estudaremos aqui, a mdia e a
varincia sero fornecidas em cada caso.

A distribuio Normal (Gaussiana)


Dentre as muitas distribuies contnuas usadas em
estatstica, a mais importante a Distribuio Normal ou
Gaussiana.
Ela tem a forma de um sino e est associada com os nomes
de Pierre Laplace e Carl Gauss.
Seu estudo remonta ao sculo XVIII

49

A distribuio Normal (Gaussiana)


Importncia
O efeito central do limite.
A robustez ou insensibilidade dos procedimentos estatsticos
mais comumente usados a desvios da suposio de distribuio
normal.

O Efeito Central do Limite


Seja o erro total de medio
Sob certas condies, geralmente encontradas no mundo
da experimentao, podemos escrever como a soma
dos seus componentes
= + + Z Z
Exemplo:
:
:
2 :
:
etc...

50

O Efeito Central do Limite


Se a porcentagem individual de contribuio pequena e o
nmero de componente grande, a distribuio dos erros
tende a ser normal

O Efeito Central do Limite - exemplo


A distribuio de mdias de amostras pode ser aproximada pela
Distribuio Normal

Distribuio da mdia dos resultados de lanamento de n dados.

51

Teorema Central do Limite


Resultado Importante:
Seja X1, X2, ..., Xn uma amostra aleatria de uma varivel
aleatria X com mdia , varincia 2 e distribuio F(x) e
seja
n

X=

X
i =1

a mdia da amostra

Ento a distribuio de X-barra converge para a distribuio


Normal com mdia e varincia 2/n, ou seja,

X N( ,

2
n

Procedimentos robustos derivados da


suposio de normalidade
Muitas tcnicas estatsticas so derivadas da suposio de
normalidade das observaes originais.
Em muitos casos, aproximao, em vez de normalidade
exata, tudo que se requer para que estes mtodos
sejam aplicveis.
Considerando isto, eles so ditos robustos nonormalidade.
Desta forma, a menos que seja especificamente alertado,
no se deve ter excessiva preocupao acerca de
normalidade exata.

52

Distribuio Normal
Muitas caractersticas de qualidade contnuas tem distribuio razoavelmente
simtrica e podem ser aproximadas por uma curva em forma de sino
conhecida como Curva Normal, que corresponde distribuio Normal ou
Gaussiana;
Normal
0.4

Density

0.3

0.2

0.1

0.0
195 196 197 198 199

200 201 202 203 204 205

207

Definio de uma Curva Normal


Toda Curva Normal definida por dois nmeros:
1) Mdia: medida do centro.
2) Desvio padro: medida de disperso.

53

Distribuio Normal
Utilizamos a notao M~x Y, b 2
A fdp de X dada por
K L =
L ,

1
2b 2

m E vm E
2

Y ,

b2 > 0

Propriedades da Distribuio Normal


Para qualquer Distribuio Normal temos:

54

Clculo de probabilidades com a curva


normal
Quando X~x(0,1), chamamos distribuio normal padro
e as probabilidades encontram-se tabeladas

Softwares, como o Excel, tambm possuem frmulas que


realizam esse clculo

55

Clculo de probabilidades com a x Y, b 2


Seja M~x Y, b 2

Considere = . Pode-se mostrar que tem


distribuio normal e
MY
1
=
=
M Y =0
b
b
MY
1
b2
a =a
= 2a M = 2 = 1
b
b
b
Portanto, ~x 0,1

56

Clculo de probabilidades com a x Y, b 2


Se quisermos calcular (M < X) fazemos
M<X =
onde =

MY XY
<
=
b
b

<

Procuramos na tabela x(0,1) o valor

Exemplo
O dimetro de uma pea pode ser aproximado pela distribuio Normal com
mdia 0.2508 e desvio padro 0.0005. A especificao para do dimetro da
pea 0.25000.0015. Qual a proporo de peas que so produzidas
dentro da especificao?

0.2485 - 0.2508 Z 0.2515 - 0.2508

0.0005
0.0005

P(0.2485 X 0.2515) = P

P( 4.6 Z 1.4) = P(Z 1.4) P(Z 4.6)


0.91024 0.00000 = 0.91924 92%

57

Exerccio
As notas atribudas em um teste seguem uma distribuio
normal com mdia 14 e desvio padro 2 M~x 14,22 .
Se as pessoas que tem nota menor ou igual a 11 so
reprovadas, qual a porcentagem de pessoas reprovadas?

Exerccio
Uma mquina enlata leite evaporado. O peso lquido de
cada lata tem distribuio normal com mdia 273,3 g e
desvio padro 3,9 g.
Se o limite inferior de especificao 264,3 g, qual a
porcentagem de latas que so produzidas fora de
especificao?

58

Propriedade da distribuio Normal


O seguinte resultado til quando temos de
trabalhar com a soma de duas ou mais variveis
aleatrias Normais.
Se Xi ~ N(i,i2) , i=1,2,...,n so variveis
aleatrias independentes e a1, a2, ... an
constantes. Ento

aiXi ~ N(ai i , ai2 i2)


ou seja, a combinao de variveis com
distribuio Normal tambm tem distribuio
Normal.

Propriedade da distribuio Normal


Se ai =1/n e se os Xis forem identicamente distribudos,
ento
n

i =1

i =1

a iX i =

1
1
Xi =
n
n

E( X ) = a i =
i =1

i =1

X
i =1

i =1

=X

1
n
=
=
n
n
n

Var( X ) = a i 2 =
2

i =1

1 2 n 2 2
= 2 =
n2
n
n

D.P.( X ) =
n

59

Exerccio
O peso bruto de um produto a soma do peso lquido
mais o peso da embalagem. Suponha que a mquina que
embala o produto tal que o peso lquido colocado na
embalagem tem distribuio Normal com mdia igual a 300
g e desvio padro igual a 2 gramas. O peso da embalagem
tem distribuio Normal com mdia igual a 5 g e desvio
padro igual a 0.5 g.
Qual a distribuio do peso bruto do produto?
Qual dos dois processos mais preciso?

Aproximao da Binomial pela Normal


Se M uma varivel aleatria com distribuio 9 ( , ),
temos que Y =
e b 2 = (1 ). Ento
=

~x 0,1

Observaes:
1. Esse resultado uma aplicao do Teorema Central do
Limite exposto anteriormente.
2. Essa aproximao to mais acurada quanto maior for
o valor de n e quanto mais prximo de 0.5 estiver o
valor de p.

60

Exerccio
1.

2.

Se 20% das peas produzidas por uma mquina forem


defeituosas, utilizando a aproximao da Binomial pela
Normal, qual a probabilidade que em uma amostra
aleatria de 100 peas no mais que 15 sero
defeituosas.
Compare com o valor que seria obtido se utilizssemos
a distribuio Binomial
M 15 =

100

0.2

0.8

= 0.1285

Distribuio exponencial
A distribuio exponencial muito utilizada quando
trabalhamos com tempo para ocorrncia de um evento, por
exemplo, tempo para atendimento de uma chamada)
mv

, onde x 0
Distribution Plot
Exponential
Alfa
0.5
1
2

2.0

1.5
Density

K L =

1.0

0.5

0.0
0

10

61

Distribuio exponencial
A funo distribuio acumulada dada por:
H L =

mv

M L =1

Distribuio Exponencial: Funo Distrib. Acum.


1.0

F(x)

0.8

0.6

0.4

0.2

0.0
0

10

Distribuio exponencial
Propriedades:
Se M~ L

, ento:
M =
a

M = E

62

Relao entre a Poisson e a Exponencial


Quando usamos a distribuio de Poisson para modelar, por
exemplo, o nmero de ligaes em um intervalo de tempo
possvel mostrar que o tempo entre duas ligaes
sucessivas ter distribuio exponencial, ou seja, sob certas
condies:
Seja
M: o nmero de chamadas
\: tempo entre essas chamadas
M~

t \~ L

Exerccio
Suponha que o tempo entre duas ligaes seja modelada
por uma distribuio exponencial de parmetro 1 minuto.
Qual a chance de no acontecerem mais do que 3 ligaes
em um minuto?

63

Propriedade de falta de memria


Para uma varivel aleatria X com distribuio Exponencial
(M <

2 |M

>

) = (M >

>

Ou seja, a informao de quanto tempo decorreu desde o


ltimo evento no afeta a probabilidade de que tenhamos
que esperar um tempo maior que t para a ocorrncia do
prximo evento
A distribuio exponencial a nica distribuio contnua
com essa propriedade

Exemplo
Seja X o tempo entre chegadas de um cliente em um banco
e considere que X tem distribuio exponencial com
parmetro =2 minutos.
A probabilidade de que chegue um cliente dentre 30
segundos a partir do momento em que comeamos a
registrar as chegadas
m.
2 = 0.22
M < 0.5 = 1
Suponha agora que estamos esperando h 3 minutos e no
chegou nenhum cliente nesse tempo. Qual a probabilidade
que chegue um cliente nos prximos 30 segundos?

64

Exerccio
1.

2.

O tempo entre chegada de aeronaves em um aeroporto


tem distribuio exponencial com parmetro = 1
hora. Qual a probabilidade de que cheguem mais de
trs aeronaves dentro de um perodo de uma hora?
Uma empresa area oferece de tempos em tempos
quatro passagens com preo especial. Quando isso
ocorre, o tempo entre ligaes para comprar passagens
tem distribuio exponencial com mdia de 30 minutos.
Assuma que cada chamada compre um bilhete. Qual a
probabilidade que as quatro passagens sejam vendidas
em menos de 3 horas desde o anuncio?

Lei dos grandes nmeros


Quando estamos nos preparando para estimar Y por
meio de Mr, pode ser de interesse estabelece um valor
mximo para a diferena entre a estimativa e o
parmetro, para uma dada probabilidade.
A Lei dos grandes nmeros estabelece que para
quaisquer > 0 e 0 1
Mr Y 1
se

um inteiro tal que

> E

65

Exerccio
Suponha que o interesse seja pesquisar o tempo mdio
de atendimento de uma determinada central de
atendimento e que b 2 = 1. Qual o tamanho de amostra
necessrio para que tenhamos uma probabilidade de pelo
menos 0.95 de que Mr esteja a uma distncia mxima de
0.5 de Y?

Lei dos grandes nmeros


Observao: a lei dos grandes nmeros nos mostra que
Mr Y quando

66

Exerccio
Uma empresa produz leite enlatado e que o processo
tal que 1% das latas tem peso inferior ao limite.
Se uma amostra aleatria de 20 latas retirada da produo,
qual a probabilidade que

1.
a)
b)

2.
3.

Nenhuma lata esteja com peso inferior ao limite


No mais que uma lata esteja com peso inferior ao limite

Qual o nmero mdio esperado de latas com peso inferior


ao limite?
Qual o tamanho da amostra para que a amostra contenha
em mdia 1 lata com peso inferior ao limite?

67

Transformao de Variveis

Distribuio Normal
Como saber se a Curva Normal
uma boa aproximao?
Uma forma: Olhe o Histograma
Histogram of tiempo

Histogram of tiempo1

Normal

Normal

35

Mean
StDev
N

30

20.94
6.389
200

30

Mean
StDev
N

1.672
2.030
1000

25
20
20

Percent

Frequency

25

15

15
10

10
5

0
5

10

15

20
25
tiempo

30

35

40

Sim

0
-3

6
9
tiempo1

12

15

No

68

Nove Histogramas de amostras de tamanho 25


6
5

3
2

Frequency

Frequency

Frequency

6
4

5
4
3

0
35

40

45

50

55

60

65

70

75

30

35

40

45

C1

50

55

60

65

35

40

45

50

C2

6
5

55

60

65

C3

3
2

Frequency

Frequency

Frequency

7
4

5
4
3

4
3
2

2
1

0
25

30

35

40

45

50

55

60

65

70

35

40

45

50

55

C4

65

70

75

30

Frequency

4
3
2

3
2

0
40

45

50

55

60

Frequency

35

35

40

45

50

55

60

65

C6

Frequency

60

C5

3
2
1
0

65

30

35

40

45

50

C7

55

60

65

70

75

25

30

35

40

45

C8

50

55

60

65

70

C9

Qual delas pode ser aproximada por uma distribuio Normal?

Nove Histogramas de amostras de tamanho 50

Frequency
Frequency

Frequency
Frequency

35
2

815

710

6
10
5

Frequency
Frequency

6
10

4
35

00

35
3530 40

40
45

45
50

50
55 5560 6065 65 70 70 7575

00

30
30

35
35

4040 45 45 50 50
55

C11
C1

6560 70 65 75

3035

5
2

99

88

610

77
66

1
00

44
33

55
60

60 7065
65

4
35

30
50
45 35 50 40 5545 60

55
65

6070 65 75 70

3030

15
6

510

10
4

Frequency
Frequency

3
2

5
2

00

00

35
45

40 5045

C17
C7

50
60
55 55 60

6565 70

Frequency
Frequency

254030

4040 45 45 50 50
55

60
55

6560 70 6575

C16
C6

710

20
35

35
35

C15
C5

65 70

00

25
40

C14
C4

60 60

20
35

55

00

50
55

50
50

55

22
11

45
50

40 40 45

C13
C3

Frequency
Frequency

Frequency
Frequency

Frequency
Frequency

5
10

Frequency
Frequency

60
55

C12
C2

2525 30 30 35 3540 4045

00

2
1

3
25
1
00

3030 35 35 40 40 45 4550

50
55

C18
C8

55
60

60
65

65 7570
70

2530 30 35 35 4040 4545

50
50

55
55

60
60

65
65

7070

C19
C9

Qual delas pode ser aproximada por uma distribuio Normal?

69

Nove Histogramas de amostras de tamanho


100

10

20

Frequency

20

Frequency

Frequency

20

10

0
20

30

40

50

60

70

80

10

0
20

30

40

50

C21

60

70

80

25

30

35

40

C22

45

50

55

60

65

70

C23

30
20

20

10

Frequency

Frequency

Frequency

20

10

0
30

35

40

45

50

55

60

65

70

75

80

10

30

40

50

60

C24

70

80

20

90

30

40

50

C25

60

70

80

C26

25
20

Frequency

Frequency

10

Frequency

20

20

15

10

10

0
25

30

35

40

45

50

55

60

65

70

75

0
25

30

35

40

C27

45

50

C28

55

60

65

70

75

20

30

40

50

60

70

80

C29

Qual delas pode ser aproximada por uma distribuio Normal?

Distribuio Normal
Como saber se a Curva Normal uma boa
aproximao?
Outra forma: Use o Grfico Probabilstico Normal

70

Grfico Probabilstico Normal


Use o Grfico Probabilstico Normal para determinar se a distribuio dos
dados da amostra pode ser aproximada por uma Distribuio Normal. Se a
Distribuio Normal se ajusta aos dados, os pontos no grfico seguiro
aproximadamente uma linha reta.
O eixo Y do grfico transformado de acordo com a escala da distribuio
Normal

Grfico Probabilstico Normal


O Grfico Probabilstico Normal pode ser obtido facilmente com o
recurso de um software de anlise estatstica
Abaixo, vemos o grfico probabilstico normal para um conjunto de dados
Probability Plot of X
Normal - 95% CI
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-4

-3

-2

-1

71

Considere as duas amostras seguintes. Qual pode ser


aproximada pela distribuio Normal?
X

Y
0.1970
1.4920
0.1895
0.9976
0.1367
1.5646
0.3477
5.2104
0.5408
0.6801
1.9629
0.5110
3.3969
0.6344
0.6670
0.3553
1.0806
0.8718
0.1999
0.8754
1.0709
0.3367
1.6507
1.2362
10.5300
2.6044
0.6303
6.0957
2.1689
0.5237

Probability Plot of X, Y
Normal - 95% CI
-5

99

10

95
90
80

Percent

-1.6245
0.4001
-1.6631
-0.0024
-1.9902
0.4476
-1.0564
1.6507
-0.6148
-0.3855
0.6744
-0.6713
1.2229
-0.4550
-0.4050
-1.0347
0.0776
-0.1372
-1.6101
-0.1330
0.0685
-1.0885
0.5012
0.2120
2.3542
0.9572
-0.4615
1.8076
0.7742
-0.6469

70
60
50
40
30
20
10
5

-5

10

Grficos Probabilsticos
para as nove amostras de tamanho 25
Normal Probability Plot for C2

Normal Probability Plot for C1

99

ML Estimates
Mean:

53.4797

StDev:

9.60017

ML Estimates

95

49.1024

StDev:

8.04855

80

70
60
50
40
30

70
60
50
40
30

70
60
50
40
30

Percent

90

20

20

20

10

10

10

1
34

44

54

64

74

84

ML Estimates

95

48.8893

StDev:

10.2680

45

55

65

25

75

95

ML Estimates
Mean:

48.9405

StDev:

8.79949

95

Percent

70
60
50
40
30

Percent

70
60
50
40
30

20

20

20

10

10

10

1
25

80

35

45

55

65

75

85

25

ML Estimates

95

99

Mean:

49.4396

StDev:

8.98477

ML Estimates

95

47.1290

StDev:

10.6092

70
60
50
40
30

70
60
50
40
30

20

20

20

10

10

10

Data

75

ML Estimates
Mean:

50.2510

StDev:

10.4661

90

Percent

Percent

80

70
60
50
40
30

65

75

95

80

55

65

99

Mean:

90

80

45

55

Data

90

35

45

Normal Probability Plot for C9

Normal Probability Plot for C8

Normal Probability Plot for C7

25

35

Data

Data

99

75

9.50359

70
60
50
40
30

70

65

54.3933

80

60

55

StDev:

90

50

45

Mean:

80

40

35

ML Estimates 99

90

80

30

8.35164

Data
Normal Probability Plot for C6

90

51.8801

StDev:

35

99

Mean:

Mean:

25

Data
Normal Probability Plot for C5

99

20

ML Estimates

95

80

Data
Normal Probability Plot for C4

Percent

Mean:

90

80

24

Percent

99

90

Percent

Percent

95

Normal Probability Plot for C3

99

1
20

30

40

50

Data

60

70

80

20

30

40

50

60

70

80

Data

72

Exemplo
Arquivo: Decisao.MTW
Informaes:
Uma empresa de crdito mediu, em 100 pedidos de
emprstimo, o tempo para decidir sobre a concesso do
emprstimo. O tempo foi medido em dias.

Instrues:
1. Faa um histograma do tempo.
2. Faa o Grfico Probabilstico Normal do tempo.
3. A varivel tempo pode ser aproximada pela
Distribuio Normal?
4. Analise os dados por estratos (deciso e zona) para
verificar se a distribuio diferente em cada estrato.

73

Distribuio Normal
Muitas tcnicas de anlise de dados dependem de que a
varivel sendo analisada possa ser bem aproximada por
uma Distribuio Normal
Grfico de controle de individuais
ndices de Capacidade (Cp, Cpk, Sigma)
Etc.

Distribuio Normal
Quais as possveis razes para que a distribuio de uma
amostra de dados no possa ser aproximada por uma
Distribuio Normal?
Presena de observaes discrepantes (causas especiais)
Os dados da amostra provem de dois ou mais processos
diferentes (turno, mquina, operador, etc.)
Os dados seguem outra distribuio que no a Normal

O que fazer?

74

Distribuio Normal
Se h causas especiais, analise-as e verifique se os dados
devem permanecer na anlise
Se os dados provem de dois ou mais processo ( tcnicas
grficas como o histograma ou o dot plot ajudam a
apontar se esse o caso - o histograma apresenta duas
ou mais modas) procure por variveis de estratificao
que permitam separar os dados
Se a distribuio intrinsecamente no Normal, utilize
tcnicas de transformao de variveis

Transformao de Dados
Uma transformao uma re-expresso dos dados em
outra escala.
Exemplo simples
Transformar Dlares em Reais:
$1 = R$3.03

Transformar minutos em segundos:


1 min = 60 segs

Transformar Graus Centgrados em Graus Fahrenheit:


9/5C + 32 = F

75

Transformao de Dados
Transformaes Lineares
Transformaes lineares tem a seguinte forma:
Y = aX + b; a e b constantes
Se X segue a distribuio Normal, multiplicar ou adicionar
constantes no afeta a forma da distribuio; afeta somente a
escala

Transformao de Dados
Transformaes no lineares
Transformaes no lineares podem mudar a forma da
distribuio.
Exemplo: Transformao Raiz Quadrada
YT denota a
varivel
transformada

YT = Y

Histograma de SQRT(Y)

Histograma of Y
20

Frequency

Frequency

15

10

10

10

12

14

16

18

20

22

SQRT(Y)

76

Transformao de Dados
Transformao Logaritmo:
A transformao logaritmo usualmente apropriada para
dados de tempo.
Uma unidade na escala logartmica igual a um fator de 10 na
escala original:
Escala original
1000
100
10
1
0.1
0.01
0.001

Escala Log
3
2
1
0
-1
-2
-3

Transformao de Dados
Transformaes Lineares
Transformaes lineares tem a seguinte forma:
Y = aX + b; a e b constantes
Se X segue a distribuio Normal, multiplicar ou adicionar
constantes no afeta a forma da distribuio; afeta somente a
escala

77

Exemplo
Dados Transformados logaritmo

Dados originais

Transformao Log
Dados: Decisao.MTW
Relembre que a varivel Tempo no Normal
Use a seguinte transformao: YT=log(Y).
Dados originais

Normal Probability Plot for Time

40
ML Estimates

99

Mean:

12.31

StDev:

9.60801

95
90

Percent

Frequency

30

20

10

80
70
60
50
40
30
20
10
5
1

0
0

10

20

30

Time

40

50

60

-20

-10

10

20

30

40

50

Data

78

Transformao Log
Faa um histograma e o Grfico Probabilstico Normal
dos dados transformados (Log_Tempo)
Probability Plot of log_tiempo

Histogram of log_tiempo

Normal - 95% CI

20

99.9
Mean
StDev
N
AD
P-Value

99
95
90

Percent

Frequency

15

10

0.9855
0.2973
100
0.432
0.299

80
70
60
50
40
30
20
10
5
1

0
0.4

0.6

0.8

1.0
log_tiempo

1.2

1.4

1.6

0.1

0.0

0.5

1.0
log_tiempo

1.5

2.0

Concluso: podemos dizer que Log_tempo


tem distribuio Normal

Transformao de Dados
Como escolher qual transformao adequada?
Tentar uma transformao dentre um conjunto de
possibilidades
Usar a tcnica de transformao Box-Cox

79

Transformaes Usadas com Freqncia


Distribuio original

Transformao

Distribuio da varivel transformada

Raiz Quadrada

YT = Y
Y

Logartmica

YT = Log(Y)
Log(Y)

Transformaes Usadas com Freqncia,


cont.
Distribuio original

Transformao

Distribuio da varivel transformada

Inversa

YT =

1
Y
1
Y

Raiz Quadrada Inversa

YT =
Y

1
Y
1
Y

80

Outras Transformaes
Dados de classificao - Distribuio Binomial
k = # of unidades defeituosas
n = tamanho da amostra

k
n
Use a transformao raiz quadrada do arcoseno de p
p=

YT = arcsin p

Outras Transformaes, cont.


Dados de contagem Distribuio de Poisson
Use raiz quadrada da contagem:
YT

Se o resultado da contagem pequeno (c 10), use:


YT =

c + 0.5

81

Mtodo de Box-Cox
Mtodo de Box-Cox
Uma transformao potncia eleva os valores de Y a uma
potncia lambda (): YT = Y
tipicamente um valor entre 2 e 2
O Mtodo de Box-Cox sugere um valor de que melhor
aproxima os dados transformados de uma distribuio Normal

Mtodo de Box-Cox
A transformao
potencia inclui
algumas que foram
vistas anteriormente
trabalhoso fazer
aplicar o mtodo
sem o apoio de um
software

Nome

-2

Inversa ao
quadrado

-0.5

1
Y2
1
Y
1

Y
Log(Y)

Logartmica

0.5

Raiz Quadrada

Sem
Transformao
Y2

Quadrado

-1

Inversa
Inversa raiz
Quadrada

82

Mtodo Box-Cox
Softwares (como o MINITAB) fazem a anlise dos dados da
amostra e sugerem um valor de lambida.
Escolha um lambida dentro da faixa de valores
recomendada (barras vermelhas)
Se possvel, escolha um valor que corresponde a um valor
da tabela anterior
Box-Cox Plot for Y
95% Confidence Interval
Last Iteration Info

StDev

Lambda

StDev

Low

0.393

0.553

Est

0.450

0.553

Up

0.507

0.553

-5

-4

-3

-2

-1

Lambda

Selecionar uma Transformao com


Box_Cox
Dados: Decisao.MTW
Box-Cox Plot of Tiempo
Lower C L

Upper C L

180

Lambda
(using 95.0% confidence)

160
140

StDev

120

Estimate

-0.189558

Lower C L
Upper C L

-0.497419
0.082957

Best Value

0.000000

100
80
60
40
20
Limit

0
-5

-4

-3

-2
-1
Lambda

=0 um valor dentro da faixa sugerida.


Use a transformao logaritmo

83

Atividade: Escolher uma Transformao


Um centro de atendimento ao consumidor mediu o tempo
para responder e fechar uma reclamao de um cliente. Os
dados dos ltimos 100 clientes atendidos esto no arquivo
de dados reclamacao.mtw
Analise os dados originais. Caso a Distribuio Normal no
seja adequada, transforme os dados usando o Mtodo
Box-Cox

84

Mtodo Cientfico
O ciclo de aprendizagem

Seres humanos so distintos do resto dos


animais pela sua extraordinria habilidade de
aprender e inovar
George E. P. Box

85

Como aprendemos?

O fundamento de toda cincia ,


obviamente, a observao.

Oscar Kempthorne

Mtodo Cientfico
O conhecimento construdo com base em teorias
H trs componentes importantes do conhecimento
Os dados da experincia a partir do qual o processo de aquisio de
conhecimento se inicia
A predio em termos de dados que se espera obter se realizamos
um experimento no futuro
O grau de convico na predio com base nos dados originais

Nossas teorias precisam ser sistematicamente revisadas e


ampliadas por meio das comparaes entre predies e
observaes (aprendizagem indutiva e dedutiva)
O aprendizado das pessoas sobre os processos realizado de
forma mais eficiente e eficaz pelo uso do Mtodo Cientfico

86

Passos do Mtodo Cientfico


Observar um evento
Formular uma teoria para a causa do evento
Fazer predies com base na teoria
Testar a teoria atravs de um experimento
Analisar os resultados do experimento e concluir a
respeito da teoria
Relatar os resultados comunidade cientfica (publicar o
trabalho) ou aplicar o conhecimento obtido em alguma
situao de interesse

Passos do Mtodo Cientfico

Fonte: Statistics for Experimenters, Box, Hunter & Hunter

87

Passos do Mtodo Cientfico

Plano de teste

Comparao

Fonte: Statistics for Experimenters, Box, Hunter & Hunter

Modelo de produo de conhecimento


Induo e Deduo
Teoria

2 Induo

Deduo

Consequncias
Mundo
5

Novos
dados

Teste

Observaes
(dados)

Teoria
reforada

Comparao
com a Teoria

Deduo

Indu
o

Teoria
modificada

88

Produo de conhecimento especfico


Mtodo Cientfico
Questes
Teorias
Modelos mentais
Conhecimento
Intuio
Experincia

Reforo ou alterao das


teorias e modelos
mentais
Novos conhecimentos
Mais experincia
Predies
Consequncias

Testes
(Planejamento
para coletar e
analisar Dados)

Anlise

O ciclo PDSA
O ciclo PDSA uma adaptao do Mtodo Cientfico
Foi desenvolvido por Deming e colaboradores a partir de
ideias iniciais de Shewhart

89

O Ciclo PDSA

Adaptado do livro Modelo de Melhoria

90

Estudo de uma populao


Varivel resposta contnua

Inferncia
Considere uma populao ou um processo e uma varivel
de interesse medida em uma amostra
Os dados da amostra podem ser usados para realizar
inferncias sobre a populao ou o processo
As caractersticas (parmetros) de interesse so em geral
A forma da distribuio da varivel
A mdia
O desvio padro

91

Inferncia sobre a forma


O objetivo identificar se existe uma distribuio
conhecida que pode ser usada para aproximar a
distribuio dos valores, como por exemplo a
Distribuio Normal, ou Log Normal, ou Weibull
Isso pode ser feito ajustando-se o grfico probabilstico
de uma determinada distribuio aos dados. Caso o
grfico seja aproximadamente uma reta, a distribuio
correspondente pode ser usada.

Exemplo
Uma empresa monitorou o tempo gasto para atender uma chamada
de um cliente em um call center. Trinta atendimentos forma
medidos. Os dados obtidos encontram-se na tabela abaixo.
Chamada
1
2
3
4
5
6
7
8
9
10

Tempo
2.53
5.52
3.53
3.26
6.31
4.04
4.09
1.22
3.42
5.01

Chamada
11
12
13
14
15
16
17
18
19
20

Tempo
5.57
4.60
3.84
5.37
3.42
4.51
1.84
6.89
3.53
6.75

Chamada
21
22
23
24
25
26
27
28
29
30

Tempo
4.81
4.82
7.19
2.39
5.52
5.01
1.94
4.60
2.35
2.07

92

Inferncia sobre a forma: Ajuste da


Distribuio Normal
Probability Plot of tempo de atendimento
Normal - 95% CI
99
Mean
StDev
N
AD
P-Value

95
90

4.198
1.588
30
0.222
0.813

Percent

80
70
60
50
40
30
20
10
5

4
6
tempo de atendimento

10

O grfico Probabilstico Normal indica que a distribuio


Normal adequada para descrever a distribuio do
tempo de atendimento

Anlise: Grfico de controle e histograma


Histogram of tempo de atendimento

I Chart of tempo de atendimento

Normal

10

30

UCL=9.65

Mean
StDev
N

25

4.198
1.588
30

20

6
_
X=4.20

Percent

Individual Value

15
10

0
LCL=-1.25
1

10

13
16
19
Observation

22

25

28

No h evidncia de que
o processo no esteja
sob controle

0
1

3
4
5
tempo de atendimento

O grfico sugere que a


distribuio Normal
adequada para descrever a
distribuio do tempo de
atendimento

93

Inferncia sobre a mdia e o desvio padro


A inferncia sobre a mdia e o desvio padro da
populao pode ser feita de trs formas:
Estimao pontual
Intervalo de confiana
Teste de hipteses

Obs.:
Essas inferncias s fazem sentido se os dados se ajustam a
uma distribuio e se o processo est estvel
importante fazer inicialmente o grfico de controle e em
seguida o grfico probabilstico)

Estimao pontual
Representa-se os valores de uma amostra de tamanho n
por x1, x2, ... , xn.
A estimao pontual da mdia e do desvio padro da
populao so dados pela mdia amostral e pelo desvio
padro respectivamente
Mdia :

x=

Desvio Padro : s =

(x x)

n 1

94

Intervalo de confiana para a mdia


A estimao pontual no fornece informao sobre a
preciso da estimativa
A preciso de uma estimativa pode ser medida atravs da
margem de erro
A margem de erro da estimativa pontual da mdia dada
por
s
M.E. 2 *
n

Intervalo de confiana para a mdia


Um intervalo de confiana de 95% para a mdia populacional
dado por
(x t 0.025,(n1) *

s
s
, x + t 0.025,(n1) *
)
n
n

A amplitude do intervalo de confiana dada por

2 * t 0.025,(n1) *

s
n

t0.025,(n-1) o percentil 2.5% da distribuio t-Student


com (n-1) graus de livberdade

95

Intervalo de confiana para o desvio padro


Um intervalo de confiana de 95% para o desvio padro
populacional dado por

(n - 1)
(n - 1)
s 2
,
s
2

0.975
0.025

X20.025,(n-1) e X20.025,(n-1) so os percentis 2.5% e 97.5%


respectivamente da distribuio Qui-quadrado com
(n-1) graus de livberdade

Exemplo
Summary for tempo de atendimento
A nderson-D arling N ormality Test

A -S quared
P-V alue

0.22
0.813

M ean
StD ev
V ariance
Skew ness
Kurtosis
N

4.1983
1.5876
2.5205
0.026119
-0.694410
30

M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum

1.2200
3.0775
4.3000
5.4075
7.1900

95% C onfidence Interv al for M ean


3.6055

4.7912

95% C onfidence Interv al for M edian


3.4452

4.9665

95% C onfidence Interv al for S tD ev


9 5 % C onfidence Inter vals

1.2644

2.1342

Mean
Median
3.50

3.75

4.00

4.25

4.50

4.75

5.00

96

Teste de hipteses
Voz do Processo

Exemplo 1: trajeto
Voc utiliza um determinado trajeto para o trabalho
todos os dias.
Voc coleta os tempos de deslocamento dos ltimos 2
anos

97

Exemplo 1: trajeto
Um colega lhe prope um novo trajeto (supostamente
mais rpido)
Passo 1: formalizao do teste
: Y 30 V . : Y < 30

Exemplo 1: trajeto
No dia seguinte voc utiliza o trajeto sugerido e gasta 29
minutos
Qual a sua deciso?
Devemos coletar mais dados!

98

Exemplo 1: trajeto
Mr = 29

9 observaes so coletadas
i

A preciso de Mr pode ser calculado como


b Mr =

Mr =

Quanto maior a amostra, maior a preciso!

Exemplo 1: trajeto

Critrio: = Mr Y
Precisamos corrigir o critrio pela preciso
Mr Y
=
b/
Supondo b = 1
29 30
=
= 3
1/ 9
Qual a sua deciso? esta suficientemente afastado?

99

Exemplo 1: trajeto

Como visto anteriormente, Mr ~x 0,1/3 ~x 0,1


Calculamos ( < 3) utilizando a tabela da x 0,1

0
-3
= ( < 3) = 0.001

Quanto menor for ( < 3) maior a evidncia de e,


portanto, rejeitamos

Exemplo 1: trajeto
Dessa forma completamos os 4 passos:
1. Teste: : Y = 30 V . : Y < 30
2.
3.
4.

Critrio: =

rm

/ Z

Distribuio de referncia: ~x 0,1


Nvel de significncia: 3 = 0.001

100

Exemplo 1: trajeto
Caso b tenha que ser estimado por
L Mr
1

=
O critrio fica
=
obs:

Zm

Mr Y
~
/

= t de student com

Zm

1 graus de liberdade

Exemplo 1: trajeto
Suponha que na realizao dos 9 trajetos os tempos
tenham sido:
30.1, 29.7, 27.3, 29.1, 28.3, 28.4, 31.0, 28.1, 29.0
Nesse caso
Mr Y
Mr = 29 = 1.132 =
= 2.65
/

< 2.65 = 0.015

101

Exemplo 1: trajeto
Observao:
Uma diferena que estatisticamente significante pode no ser
significante do ponto de vista prtico!

Teste de hipteses
Comparao com um valor de referncia ou
valor nominal
No exemplo, suponha que o objetivo era que o tempo mdio de
atendimento fosse igual a 3.50 minutos. O objetivo estava sendo
alcanado?

Teste de Hiptese
Ho: 0 = 3.50 H1: 0 3.50

Critrio do teste : t 0 =

y 0
s
n

102

Teste de hipteses
Calculando o critrio
t0 =

y 0 4.1983 3.50
=
= 2.41
s
1.5876
n
30

p-valor = 0.023
H evidncia para rejeitar H0
OBS. O grfico de controle deve ser feito antes do
clculo do p-valor. Caso haja causas especiais atuando no
processo, no se deve calcular o p-valor

Exemplo
One-Sample T: tempo de atendimento
Test of mu = 3.5 vs not = 3.5
Variable
N
Mean
30 4.19833

tempo de atendimento
StDev SE Mean
1.58760 0.28985

95% CI
(3.60551; 4.79115)

T
2.41

p
0.023

103

Passos para se testar hipteses


Formalizao do teste, ou traduo do problema a ser
resolvido na forma de um teste de hipteses: formule as
hiptese nula e alternativa (P)
Construo de um critrio para realizar o teste (P)
Planeje a coleta de dados (P)
Realize a coleta de dados (D)
Calcule a estatstica (critrio) (S)
Compare o critrio com uma distribuio de referncia e
calcule a evidncia contra a hiptese nula (p-valor nvel
de significncia) (S)
Decida o que fazer (A)

Anlise do p-valor
Se o p-valor for menor que 1%, rejeita-se a hiptese nula
Se o p-valor for maior que 10%, no rejeita-se a hiptese
nula
Se o p-valor estiver entre 1% e 10%, deve-se considerar
outros fatores para se tomar uma deciso, como o risco,
custo, etc.
Obs. As recomendaes acima so as usuais e so adequadas para a
maior parte dos casos. Porm, a deciso de rejeitar ou no uma
hiptese deve ser feita levando em considerao os riscos e custos
associados com a deciso. Significncia estatstica no a mesma coisa
que importncia

104

Anlise de Regresso

O SIPOC
O SIPOC uma ferramenta usada para identificar os
elementos relevantes de um processo
Aplica-se a todo tipo de trabalho, seja ele repetitivo ou
pouco freqente
Ajuda a ter uma viso macro do processo:
Definindo seus limites (pontos de incio e fim);
Permitindo localizar pontos de coleta de dados.

105

O SIPOC
As variveis medidas no resultado (output) so denotas
por Y
As variveis medidas no processo e nas entradas so
denotas por X
Em projetos de melhoria, pode ser necessrio entender
as relaes entre os Ys e os Xs
Tcnicas estatsticas so usadas para entender relaes
entre variveis

Estudar Relaes Entre Variveis


Sistema de Causas
S

I
Variveis
de Input

Variveis de
Processo

Variveis de
Output

X1,, X2 , ... , Xk

Y = f(X1,, X2 , ... , Xk)

106

Estudo de Relaes Entre Variveis


Passo 1: Classifique as variveis sob dois critrios:
A varivel Y ou X?
Y:Variveis de sada do processo cujo comportamento voc quer
explicar.
Nomenclatura: variveis resposta, variveis dependentes

X: 1) Variveis de processo ou de entrada, candidatas a explicar o


comportamento das variveis resposta.
Nomenclatura: 1) variveis explicativas, variveis independentes, fatores; 2)
Variveis de estratificao

A varivel numrica ou categrica?

Estudar Relaes Entre Variveis


Passo 2: Identifique a tcnica a ser utilizada na tabela
abaixo:
Y numrica

X numrica

Grfico de disperso
Grfico de disperso
estratificado

X categrica

Dot-plot estratificado
Grfico de Tendncia
estratificado

Y categrica

Tabela de
contingncia
Grfico de barras

107

Associao entre variveis


Y: Numrica
X: Numrica

Grfico de Disperso
Uma empresa coletou
dados de Tempo para
produzir um item e
Nmero de set-ups de
50 linhas de produo .
Os dados esto na
tabela ao lado. H
alguma relao entre
essas duas variveis?

Job Tempo_prod N_Setups Job Tempo_prod N_Setups


1
61
6 26
20
4
2
129
14 27
75
10
3
77
5 28
94
12
4
115
8 29
95
7
5
79
8 30
38
7
6
95
10 31
50
6
7
88
9 32
40
3
8
67
8 33
73
10
9
158
12 34
91
11
10
67
5 35
38
4
11
160
13 36
69
6
12
37
7 37
58
7
13
30
2 38
91
14
14
86
9 39
36
7
15
187
15 40
151
10
16
72
8 41
103
9
17
78
8 42
93
8
18
132
14 43
112
11
19
38
6 44
163
12
20
34
5 45
78
9
21
90
7 46
62
8
22
93
11 47
58
8
23
114
8 48
107
9
24
65
5 49
112
7
25
86
12 50
72
10

108

Grfico de Disperso

Anlise de Grficos de Disperso


Aspectos a serem
observados em m
Grfico de Disperso
Direo
Forma
Fora

109

Coeficiente de correlao linear


Frmula
r=

(x
(x

x )( y i y )

x)

(y

y)

-1 r 1
Obs:
O coeficiente r mede o grau de associao linear entre duas
variveis. Valor de r baixo (prximo de zero) no indica que as
variveis no esto relacionadas. No interprete o valor de r
sem o grfico de disperso
A interpretao de r (se alto) depende do contexto

Estudo de Relaes
O proprietrio de uma casa est interessado no efeito do
seu aparelho de ar condicionado na conta de luz. Para
isso, ele anotou o nmero de horas que usou o seu
aparelho de ar condicionado a cada dia, durante 21 dias.
Tambm monitorou o medidor de consumo de eletricidade
durante estes dias e mediu a quantidade de eletricidade
usada em quilowatt-hora. Finalmente, anotou tambm o
nmero de vezes que a secadora de roupas foi usada por
dia. Os dados esto na tabela seguinte

110

Dados do Estudo de Consumo de Energia


Eltrica
Dia
1
2
3
4
5
6
7
8
9
10
11

Kwh
35
63
66
17
94
79
93
66
94
82
78

AC
1.5
4.5
5.0
2.0
8.5
6.0
13.5
8.0
12.5
7.5
6.5

Dia
12
13
14
15
16
17
18
19
20
21

Kwh
65
77
75
62
85
43
57
33
65
33

AC
8.0
7.5
8.0
7.5
12.0
6.0
2.5
5.0
7.5
6.0

Grfico de Disperso e Correlao


Scatterplot of Kwh vs AC
100
90
80

Kwh

70
60
50
40
30
20
10
0

10

12

14

AC

Correlao entre Kwh e AC : 0.765

111

Questes no Respondidas pela Correlao


Do valor de r pode-se concluir que quando o uso do ar
condicionado aumenta, o nmero de quilowatt-hora
consumido tambm aumenta.
Isso no surpresa. Algumas questes mais importantes so:
Quantos Kwh sero consumidos para cada hora de uso do ar ?
Qual a previso de consumo total de quilowatt-hora em um dia
com um nmero especificado de horas de uso do ar condicionado?
Qual a mdia estimada do consumo em quilowatt-hora para dias
com um especificado nmero de horas de uso do ar condicionado?
Qual a margem de erro para o consumo em Kwh predito?

Essas questes podem ser respondidas com a anlise de


regresso

Ajuste de uma Reta


Scatterplot of Kwh vs AC
100
90
80

Kwh

70
60
50
40
30
20
10
0

10

12

14

AC

Grfico de disperso com uma reta desenhada


manualmente.
Como medir a qualidade da reta ajustada?

112

Ajuste de uma Reta

95

90

(x,y)

85

80

resduo = ( y y )

75

70

65

60
80

100

120

140

160

180

200

220

Ajuste de uma Reta


Reta ajustada e resduos
95

90

85

80

75

70

65

60
80

100

120

140

160

180

200

220

113

Ajuste de uma Reta


Considere um conjunto de n pares de dados (x,y) e o grfico
de disperso X,Y
Para cada reta y=a+bx desenhada no grfico, calcule o valor
y_ajustado=a+bx
O resduo a diferena (y - y_ajustado)
A soma do quadrados dos resduos uma medida da
qualidade do ajuste (proximidade da reta aos pontos do
grfico)
A melhor reta aquela que tem a menor Soma dos
Quadrados dos Resduos e chamada de Reta de Mnimos
Quadrados

Ajuste de Regresso por Mnimos


Quadrados

Melhor reta:

y = a + bx, a e b tal que

(y y)

seja mnimo

Soluo :
s
b = rx,y y e a = y bx
sx
rx,y Coeficiente de correlao entre x e y
sx e sy desvio padro de x e y respectivamente

114

Reta Ajustada por Mnimos Quadrados


Fitted Line Plot
Kwh = 27.85 + 5.341 AC
S
R-Sq
R-Sq(adj)

100
90

14.4530
58.6%
56.4%

80

Kwh

70
60
50
40
30
20
10
0

10

12

14

AC

Ajuste de Regresso: Interpretao


Considere a reta ajustada por mnimos quadrados
Kwh=27.85+5.341AC

Como interpretar os coeficientes 27.85 e 5.341?


Que se pode afirmar sobre o consumo de energia
quando se usa o ar condicionado por 10 horas?
Obs: Nem sempre os coeficientes so interpretveis

115

Ajuste de Regresso: Interpretao


Observe que a faixa de variao de AC de 1.5 a 13.5
Usar a equao para valores de AC fora da faixa de dados
observados extrapolao
Extrapolao tem que ser feita com cuidado. Muitas vezes
obtem-se valores absurdos!

Ajuste de Regresso
Algumas equaes importantes:
1. (y i y) = (y i y) + (y i y i )
2. (y i y)2 = (y i y) + (y i y i )
2

SQTotal = SQ Ajuste + SQ Resduo


3. R 2 =

SQAjuste
,
SQTotal

0 R2 1

Se os pontos esto alinhados em uma reta, yAjustado = y,


SQResduo= 0 e R2 = 1
R2 chamado de Coeficiente de Determinao e
mede a qualidade do ajuste
Quando o ajuste feito atravs de uma reta, R = rx,y

116

Ajuste de Regresso
Regression Analysis: Kwh versus AC
The regression equation is
Kwh = 27.85 + 5.341 AC
S = 14.4530
R-Sq = 58.6%
R-Sq(adj) = 56.4%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 5609.66
5609.66 26.85 0.000
Error
19 3968.91
208.89
Total
20 9578.57

- Equao da reta de mnimos quadrados


- R2
- SQAjuste
- SQResduo
-SQTotal

Estimativa e Margem de Erro


Suponha que voc queira estimar o consumo mdio em
quilowatt-hora quando o ar condicionado fica ligado por
oito horas
Usando a equao de regresso, substitua AC na equao
de regresso por 8 e obtenha
KWH predito = 27.85 + (5.34*8) = 70.57.

Esse valor uma estimativa baseada nos dados do estudo.


Qual a margem de erro dessa estimativa?
Sem entrar em detalhes sobre como calcular a margem
de erro, vamos obt-la com o auxlio do MINITAB

117

Estimativa e Margem de Erro


Obs AC
1 8.00

Fit SE Fit
95% CI
70.58 3.34 (63.59; 77.57)

O valor estimado 70.58


A margem de erro 6.99 (77.57-70.58)
Esse valor aproximadamente 2*SE Fit
Podemos dizer que estamos 95% confiantes que o
consumo mdio de energia quando usamos o ar
condicionado por 8 horas estar entre 63.59 Kwh e
77.57 Khw

Predio e Margem de Erro


Suponha que voc queira predizer o consumo em
quilowatt-hora quando o ar condicionado for ligado por
oito horas
Usando a equao de regresso, substitua AC na equao
de regresso por 8 e obtenha
KWH predito = 27.85 + (5.34*8) = 70.57.

Esse valor uma predio baseada nos dados do estudo.


Qual a margem de erro dessa predio?
Sem entrar em detalhes sobre como calcular a margem
de erro, vamos obte-la com o auxlio do MINITAB

118

Predio e Margem de Erro


Obs AC
1 8.00

Fit SE Fit
95% PI
70.58 3.34 (39.53; 101.63)

O valor estimado 70.58


A margem de erro 31.05 (101.63 -70.58)
Podemos dizer que estamos 95% confiantes que o
consumo de energia quando usarmos o ar
condicionado por 8 horas estar entre 39.53 Kwh e
101.63 Khw
Observe a diferena entre estimar a mdia de
consumo e predizer o consumo para um dia
especfico

A Reta de Regresso com os Limites de


Confiana
til visualizar o grfico com os dados, a reta ajustada, os
limites de predio e os limites de confiana,
Os limites de predio e de confiana so curvas em
torno da reta de regresso
Para cada valor de AC pode-se visualizar graficamente o
valor ajustado, os intervalos de confiana e os intervalos
de predio

119

Reta Ajustada por Mnimos Quadrados, Curva de


Confiana de 95% e Curva de Predio de 95%

Fitted Line Plot


Kwh = 27.85 + 5.341 AC
140

Regression
95% C I
95% PI

120

S
R-Sq
R-Sq(adj)

Kwh

100

14.4530
58.6%
56.4%

80
60
40
20
0
0

10

12

14

AC

Margem de Erro das Estimativas


As estimativas de mnimos quadrados de a e b so
obtidas a partir dos dados do experimento
Se repetirmos o experimento nas mesmas condies
(para os mesmos valores de x) os valores de y (resposta)
quase certamente sero diferentes; conseqentemente, as
estimativas de a e b sero diferentes
importante apresentar as estimativas de a e b com
respectivas margens de erro

120

Margem de Erro das Estimativas


Dizemos que a varivel regressora X til para explicar
(entender) a varivel resposta Y se o coeficiente angular da
reta (b) diferente de zero
Em um experimento, o valor de b calculado por Mnimos
Quadrados pode ser numericamente diferente de zero mas
essa diferena pode ser simplesmente devido ao acaso
Ento, uma questo importante a ser respondida : O
coeficiente angular da reta significativamente diferente de
zero?
Essa pergunta pode ser respondida calculando-se a Margem
de Erro da estimativa ou o p-valor associado com a
estimativa

Margem de Erro das Estimativas


A margem de erro de uma estimativa aproximadamente
2 vezes o erro padro da estimativa (com 95% de
confiana)
possvel calcular o erro padro da estimativa dos
coeficientes da reta de regresso com um software
estatstico (MINITAB, por exemplo)
Com a Margem de Erro pode-se construir um Intervalo
de Confiana para os coeficientes da reta
As estimativas dos coeficientes com respectivos erros
padres e Intervalos de Confiana de 95% esto no slide
seguinte

121

Margem de Erro e Intervalo de Confiana


The regression equation is
Kwh = 27.9 + 5.34 AC

Predictor
Constant
AC

Coeficientes

Coef
27.851
5.341

SE Coef
7.807
1.031

T
3.57
5.18

P
0.002
0.000

Estimativas Erro Padro

Margem de Erro (a) = 2*7.807 = 15.614

IC de 95% (a): (12.237 ; 43.465)

Margem de Erro (b) = 2*1.031 = 2.061

IC de 95% (b): (3.28 ; 7.402)

Margem de Erro e Intervalo de Confiana


Com base nos Intervalos de Confiana podemos afirmar
que os coeficientes linear e angular da reta so
significativamente diferentes de zero
A mesma resposta poderia ser obtida com base no pvalor das estimativas
Como os p-valores so muito pequenos, conclumos que
os coeficientes so significativamente (estatisticamente)
diferentes de zero

122

Resduos e Outliers
Cada caso (observao) no conjunto de dados tem uma
resposta y e um valor predito pelo modelo, yajustado
A diferena entre y e yajustado chamada de resduo
res=y-yajustado

Cada caso tem seu resduo


Se o resduo pequeno, a predio boa para aquele
caso (o que pequeno depende de cada problema)

Resduos e Outliers
Considere os quatro conjunto de dados da tabela abaixo
Conjunto
de Dados 1
X

Conjunto
de Dados 2

Conjunto
de Dados 3

Conjunto
de Dados 4

10.00

8.04

10.00

9.14

10.00

7.46

8.00

6.58

8.00

6.95

8.00

8.14

8.00

6.77

8.00

5.76

13.00

7.58

13.00

8.74

13.00

12.74

8.00

7.71

9.00

8.81

9.00

8.77

9.00

7.11

8.00

8.84

11.00

8.33

11.00

9.26

11.00

7.81

8.00

8.47

14.00

9.96

14.00

8.10

14.00

8.84

8.00

7.04

6.00

7.24

6.00

6.13

6.00

6.08

8.00

5.25

4.00

4.26

4.00

3.10

4.00

5.39

19.00

12.50

12.00

10.84

12.00

9.13

12.00

8.15

8.00

5.56

7.00

4.82

7.00

7.26

7.00

6.42

8.00

7.91

5.00

5.68

5.00

4.74

5.00

5.73

8.00

6.89

123

Resduos e Outliers
A tabela ao lado apresenta a
mdia e desvio padro para
cada varivel

A tabela ao lado
apresenta o
coeficiente de
correlao, reta
ajustada e R2 para
cada conjunto de
dados

C onju nto
1
2
3
4

Varivel
X1
Y1
X2
Y2
X3
Y3
X4
Y4

r
0.86
0.86
0.86
0.86

Mean
9.0
7.5
9.0
7.5
9.0
7.5
9.0
7.5

Std.Dev.
3.32
2.03
3.32
2.03
3.32
2.03
3.32
2.03

R eta ajustada
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x
y = 3 .0 + 0 .5 x

R2
0.66 8
0.66 8
0.66 8
0.66 8

Resduos e Outliers
1

Retas ajustadas

124

Resduos e Outliers
Como se pode perceber, no suficiente calcular os
coeficientes da reta. Fazer o grfico de disperso
fundamental para verificar se o modelo utilizado
adequado
Em muitas situaes (regresso mltipla, que ser
apresentada mais frente), no possvel visualizar os
pontos
Como ento saber se o modelo ajustado adequado?
A anlise dos resduos do modelo ajustado fundamental
para avaliar a adequao do modelo

Anlise dos Resduos


Outra questo importante: Na realizao de um estudo
podem ocorrer (ou estar presentes) causas especiais que
no foram identificadas no momento do estudo e que
afetam os resultados
A identificao de possveis causas especiais importante
para poder validar as concluses do estudo
Caso haja causas especiais necessrio desenvolver
algumas aes
As aes iro depender do tipo de causa especial
presente

125

Anlise dos Resduos


A anlise dos resduos uma tcnica poderosa para
identificar problemas em ajuste de modelos
Essa tcnica baseada fundamentalmente em grficos
Se o ajuste bom, espera-se que os resduos estejam
distribudos em torno de zero sem outliers e que no
estejam correlacionados com nenhuma outra varivel

Grficos para Anlise dos Resduos


Dot plot, Box Plot ou Histograma dos resduos
Verificar se a distribuio dos resduos aproximadamente
normal
Verificar se no h causas especiais

Grfico probabilstico normal dos resduos


Verificar se a distribuio dos resduos aproximadamente
normal
Verificar se no h causas especiais

126

Grficos para Anlise dos Resduos


Grfico de controle de individuais dos resduos
Verificar se h indcios de causas especiais

Resduos versus: valor ajustado, ordem, tempo, variveis


regressoras que esto o modelo, outras variveis que no
esto no modelo
Verificar se h indcios de causas especiais. Caso positivo,
tentar associar com a ordem ou com alguma efeito temporal
Verificar se a variabilidade essencialmente a mesma para cada
tratamento
Verificar se necessrio acrescentar outra varivel ao modelo
Verificar se necessrio transformar a varivel resposta ou
alguma varivel regressora

Grficos de Resduos mais Utilizados


Dotplot of residuo

Boxplot of residuo

Histogram of residuo

4.8

3.6

-1.2

-0.6

0.0

0.6

1.2

1.8

Frequency

-1.8

residuo

2.4

residuo
1.2
-1

0.0
-2
-2

I Chart of residuo
4
1.205

N
AD

30
0.276

P-Value

0.631

50

_
X=-0.048

-2

LCL=-3.877

-4
-4

0
residuo

-2

10

UCL=3.780

residuo

StD ev

Individual Value

Percent

90

-0.04843

Scatt erplot of residuo vs z

Normal - 95% CI
Mean

0
residuo

Probability Plot of residuo


99

-1

-4
3

12 15 18 21 24 27 30
Observat ion

15

30

127

Padres Possveis para Grficos de Resduos


(a) Satisfatrio
(b) Variabilidade aumentando
com X. Provavelmente
necessita transformao da
varivel resposta
(c) Variabilidade no constante.
Provavelmente necessita
transformao da varivel
resposta
(d) Modelo Inadequado.
Provavelmente necessita de
acrescentar outras variveis
no modelo ou de transformar
a varivel resposta ou a
varivel regressora

Grficos de Resduos: Quatro Conjuntos

Observe que a nica situao em que o modelo


ajustado adequado a primeira

128

Grficos de Resduos: Quatro Conjuntos

Grficos dos Resduos: Consumo de Energia


Residual Plots for Kwh
Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

99

20
10
Residual

Percent

90
50
10

0
-10
-20

1
-40

-20

0
Residual

20

40

40

100

Residuals Versus the Order of the Data

6.0

20

4.5

10
Residual

Frequency

Histogram of the Residuals

60
80
Fitted Value

3.0
1.5

0
-10
-20

0.0
-20

-10

0
Residual

10

20

8 10 12 14 16
Observation Order

18

20

129

Exerccio
Background: Uma empresa de seguros est interessada em
estudar a relao entre o nmero de dias para pagar um
pedido de reembolso e o valor do reembolso. Os dados esto
no arquivo amount.mtw que contm 100 pedidos de
reembolso
Claim
1
2
3
.
.
98
99
100

Days
to Pay
11
1
32
.
.
5
28
5

Amount $
921.04
117.27
5291.58
.
.
369.13
1786.15
540.18

Exerccio
O arquivo calls.mtw contm dados de um call center.
Os dados so: dia da semana, perodo do dia, nmero de
chamadas atendidas e nmero de pessoas atendendo s
chamadas. Use tcnicas de regresso para explorar a
relao entre o nmero de chamadas e o nmero de
pessoas atendendo

130

Exerccio
O arquivo jobshop.mtw contm dados sobre um sistema. As
variveis so tempo de produo (vrivel resposta), nmero
de setups, preo, nmero de caractersticas e nmero de
rtulos (vriveis regressoras). Explore relaes usando
tcnicas de regresso

Job
1
2
3

49
50

ProdTime
61
129
77

112
72

Setups
6
14
5

7
10

$Price
8299
48835
45848

73518
50508

Features
7
31
18

29
21

Labels
5
2
1

1
4

Regresso linear mltipla


Y = 0 + 1X1 + 2X2 + erro

X2

X1

131

Listagem do Data Set KILOWATT


OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

KWH
35
63
66
17
94
79
93
66
94
82
78
65
77
75
62
85
43
57
33
65
33

AC
1.5
4.5
5.0
2.0
8.5
6.0
13.5
8.0
12.5
7.5
6.5
8.0
7.5
8.0
7.5
12.0
6.0
2.5
5.0
7.5
6.0

SECADORA
1
2
2
0
3
3
1
1
1
2
3
1
2
2
1
1
0
3
0
1
0

132

Usando o PROC REG para Regresso


Mltipla
Modelo
KWH = b0 + b1AC + b2SECADORA
Regression Analysis: KWH versus AC, SECADORA
The regression equation is
KWH = 8.11 + 5.47 AC + 13.2 SECADORA
Predictor Coef SE Coef T P
Constant 8.105 2.481 3.27 0.004
AC
5.4659 0.2808 19.47 0.000
SECADORA 13.2166 0.8562 15.44 0.000
S = 3.93538 R-Sq = 97.1% R-Sq(adj) = 96.8%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
2 9299.8 4649.9 300.24 0.000
Residual Error 18 278.8 15.5
Total
20 9578.6

Modelo ajustado
Modelo
KWH = 8.11 + 5.47 (AC) + 13.22 (SECADORA)

Interpretao
b0 = 8.11 ainda chamado de intercepto, e ele estima o
nmero de quilowatt-hora consumidos em dias em que nem
o ar condicionado nem a secadora de roupas foram utilizados.
(Ponha AC=0 e SECADORA=0 na equao e voc obter
KWH=8.11.)
b1 = 5.47 a estimativa de quilowatt-hora consumidos para
cada hora em que o ar condicionado ficar ligado.
b2 = 13.22 a estimativa do consumo em quilowatt-hora para
cada vez que a secadora for usada.

133

Anlise de resduos

Anlise de influncia
Anlise de influncia

134

Diagnsticos de influncia
Considere os 4 conjuntos de dados seguintes
X1
1
2
3
4
5
6
7
8
9
10

Y1
8.1
4.1
11.5
16.4
13.8
19.6
18.3
28.1
25.5
30.4

X2
1
2
1
2
1
2
1
2
1
10

Y2
8.1
4.1
8.5
8.3
1.8
7.7
0.3
8.1
5.3
34.5

X3
1
2
3
4
5
6
7
8
9
10

Y3
8.1
4.1
11.5
16.4
33.8
19.6
18.3
28.1
25.5
30.4

X4
1
2
3
4
5
6
7
8
9
10

Y4
28.1
4.1
11.5
16.4
13.8
19.6
18.3
28.1
25.5
30.4

Os respectivos grficos de disperso e reta ajustada


esto na figura seguinte

Diagnsticos de influncia
Reta ajustada

Reta ajustada

Y1 = 2,747 + 2,697 X1

Y2 = 1,041 + 3,315 X2
S
R-Sq
R-Sq(adj)

2.88315
90. 0%
88. 8%

20

20

S
R-Sq
R-Sq(adj)

2. 91196
91.7%
90.6%

S
R-Sq
R-Sq(adj)

7. 37032
32.9%
24.5%

Y2

30

Y1

30

10

10

0
0.0

2.5

5.0

7.5

10.0

0.0

2.5

X1

5.0

7.5

10.0

X2

Reta ajustada

Reta ajustada

Y3 = 5,413 + 2,576 X3

Y4 = 10,75 + 1,606 X4
S
R-Sq
R-Sq(adj)

6.40339
62. 5%
57. 8%

20

20
Y4

30

Y3

30

10

10

0
0.0

2.5

5.0
X3

7.5

10.0

0.0

2.5

5.0

7.5

10.0

X4

135

Diagnsticos de influncia
Exercite os conhecimentos que voc j tem sobre ajuste de retas para responder as seguintes
perguntas (os dados encontram-se no conjunto 4ConjuntosInfluncia.xlsx):
1. Qual a mudana que ocorrer nos coeficientes da reta e nos valores ajustados se
removermos qualquer um dos pontos do primeiro conjunto de dados? Voc diria que essa
mudana ser substancial? Onde o impacto ser sentido com maior intensidade? Nos
valores ajustados? Nos coeficientes da reta? Em ambos?
2. E se removermos qualquer um dos pontos do conjunto 2? Qual ponto se removido
provocar o maior impacto?
3. E se removermos qualquer um dos pontos do conjunto 3? Qual ponto se removido
provocar o maior impacto?
4. E se removermos qualquer um dos pontos do conjunto 3? Qual ponto se removido
provocar o maior impacto?
Procure responder as perguntas sem ler os prximos slides. Seu aprendizado ser maior.
Caso voc tenha dvidas em responder, voc pode realizar os ajustes removendo cada um dos
pontos e verificando o efeito no ajuste.

Diagnsticos de influncia
No conjunto 1, a remoo de qualquer um dos pontos no acarretar
grandes mudanas nos valores ajustados e nem nas estimativas dos
parmetros. Dizemos que todos os pontos tem essencialmente a mesma
influncia no ajuste
No conjunto 2, a remoo do ltimo ponto afeta de forma intensa o ajuste.
Se o valor de Y2 para o ltimo ponto se alterar, as estimativas dos
parmetros e os valores ajustados so bastante afetados. Os outros pontos
no tem o mesmo peso no ajuste. Dizemos que o ltimo ponto tem uma
influncia relativa muito maior que os outros nove pontos
No conjunto 3, o quinto ponto tem um resduo muito grande relativamente
aos demais pontos. A remoo desse ponto ir alterar o coeficiente linear da
reta bem como os valores ajustados. Novamente, dizemos que esse ponto
tem uma influncia relativa grande comparada com os outros nove pontos.
No conjunto 4 o primeiro ponto que tem um resduo relativamente grande.
Sua remoo afeta tanto o coeficiente linear como o coeficiente angular.

136

Diagnsticos de influncia
O ltimo ponto do conjunto 2 influente pois est isolado dos demais
pontos ( um outlier em relao aos valores de X1.
O quinto ponto do conjunto 3 e o primeiro ponto do conjunto 4 um
outlier em relao aos resduos do ajuste.
Note a diferena entre as duas situaes: o ltimo ponto do conjunto
2 no gera um resduo grande (outlier); o quinto ponto do conjunto 3
e o primeiro ponto do conjunto 4 no so outliers em relao aos
valores de X3 e X4 respectivamente.
importante identificar pontos influentes em ajustes de regresso
dado o impacto produzido no ajuste.

Diagnsticos de influncia
Quando estamos fazendo um ajuste de uma reta,
relativamente fcil visualizar pontos influentes por meio
do grfico de disperso.
Essa facilidade no existe no caso de regresses
mltiplas pois impossvel fazer o grfico de disperso
se o nmero de variveis independentes for maior que 2.
Precisamos de um critrio que permita identificar pontos
influentes em qualquer situao de ajuste de regresso
linear mltipla

137

O critrio H (leverage)
Para cada ponto xi calcula-se a distancia dele ao centro dos valores
de X. No caso de regresso linear simples, o centro a mdia dos
valores de X. Essa distncia denominada hi
Pode-se mostrar que a mdia dos hi p/n, sendo p o nmero de
parmetros e n o nmero de pontos.
Uma regra prtica considerar que o ponto influente se hi >(2p)/n
Uma outra forma calcular os hi e fazer um Box-Plot desses valores
e verificar se h algum outlier
A estatstica H no aponta necessariamente como influente um ponto
que gera um resduo outlier (caso dos conjuntos 3 e 4)

O critrio H (leverage)
Os Box-Plots dos valores de hi para cada um dos conjuntos de
dados apresentado abaixo.
Observe que somente para o conjunto 2 esse critrio aponta um h
outlier (ltimo valor do conjunto de dados 2), indicando que esse
ponto influente.

138

O critrio D-Cook
Cook desenvolveu um critrio chamado D de Cook que mede a
influncia de um ponto no ajuste. O critrio, denotado por Di ,
calculado para cada ponto.
Di grande se
a) O resduo para o ponto i for grande
b) xi for um ponto x deslocado dos demais
c) Ou ambos
Um valor Di > 1 indica que o i-simo ponto influente
Uma outra forma calcular os Di e fazer um Box-Plot desses
valores e verificar se h algum outlier

O critrio H (leverage)
Os Box-Plots dos valores de Di para cada um dos conjuntos de
dados apresentado abaixo.
Observe que somente para os conjuntos 2, 3 e 4 esse critrio aponta
um Di outlier (ltimo valor do conjunto de dados 2, quinto ponto do
conjunto 3 e primeiro ponto do conjunto 4), indicando que esses
pontos so influentes.

139

Outros diagnsticos
DFFITS (minitab)
Medida de quanto uma observao afeta o valor ajustado.
Valores maiores que 2*sqrt((p)/n) so considerados influentes.

DFBETAS
Medida de quanto uma observao afeta a estimativa dos betas
(h um DFBETA para cada coeficiente, incluindo o intercepto).
Valores maiores que 2/sqrt(n) so considerados influentes.

COVRATIO
Medida do impacto de cada observao na varincia dos
coeficientes da regresso e em suas covarincias. Valores for a
do intervalo 1 +/- 3p/n so considerados influentes.

140

Regresso Logstica

Regresso Logstica
Em muitas aplicaes de regresso a varivel resposta
tem somente dois valores possveis que padronizaremos
como 0 e 1 (ou o evento ocorre (1) ou no ocorre (0)
Seja (1) = . Ento, (0) = 1 = j
Esse tipo de varivel geralmente referenciado como
varivel de Bernoulli
A regresso com esse tipo de resposta pode ser
interpretado como um modelo que estima o efeito das
variveis independentes na probabilidade de ocorrncia
do evento

141

Regresso Logstica
Para ilustrar, considere o seguinte conjunto de dados
OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

RENDA
900.00
1282.50
972.00
922.50
1305.00
1651.50
1620.00
1242.00
1035.00
1395.00
765.00
1215.00
1125.00
792.00
972.00
648.00
1260.00
738.00
891.00
990.00
711.00
495.00
765.00
945.00

CARTAO
s
s
s
s
s
s
s
s
s
s
s
s
n
n
n
n
n
n
n
n
n
n
n
n

CARTAO_COD
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0

CARTAO: Possui carto de crdito (s)


No possui carto de crdito (n)
Renda: Renda familiar
O objetivo avaliar se ter ou no carto de crdito
pode ser explicado pela renda familiar

Regresso Logstica
O grfico de CARTAO (codificado) versus a renda est no grfico abaixo

142

Regresso Logstica
O ajuste do modelo CARTAO_COD=a + B*RENDA apresentado abaixo
(considerando a varivel resposta como numrica)

Regresso Logstica
A RENDA significante e o modelo sugere que possuir carto est associado com valores
altos de renda.
O grfico da reta ajustada revela que o modelo no adequado.
A varivel resposta s pode assumir os valores 0 e 1 e o modelo permite predizer diferentes
valores da varivel resposta entre 0 e 1.
Outro problema que a varincia da varivel resposta uma funo de p(1-p), sendo p a
probabilidade do indivduo ter carto.
Isto viola a suposio de igualdade de varincia para cada valor de X
Assim essa abordagem para modelar ter ou no carto em funo da renda no adequada.
Uma abordagem mais adequada usar a Regresso Logstica

143

Regresso Logstica
O modelo da regresso logstica
1
=
m
DC B
1+
Atravs de uma transformao adequada obtemos

= ln

= - + 9 M

Dessa forma, o logaritmo da razo [ /(1 )] funo


linear de X, a varivel preditora.
Note que embora o modelo linear no lado direito, o lado
esquerdo uma funo no linear de p. Essa funo no
linear chamada de funo logit.

Transformao Logit
Logit (pi)

pi
Logit
Transform

Preditor

Preditor

144

Estimativa dos parmetros


A estimao dos parametros obtida por mtodos numricos.
No h formulas para a estimativa dos parametros como no
caso da regresso linear.
No h tambm tabela ANOVA com partio da Soma de
Quadrados Total em Soma de Quadrados do Modelo e Soma
de Quadrados dos Resduos.
Entretando, 2*(log da verossimilhana) uma estatstica
realcionada com a distribuio 2 que pode ser usada para
testar hipteses.

Teste de hipteses do modelo


O softwares apresentam a estatstica log-likelihood que
compara o modelo s com intercepto versus o modelo
com as variveis preditoras.
Se as variveis preditoras so significantes o p-valor
baixo.
Nesse exemplo o p-valor baixo indicando que
RENDA significante para explicar a probabilidade de
ter carto de crdito
Log-Likelihood = -11.992
Test that all slopes are zero: G = 9.287, DF = 1, P-Value = 0.002

145

Modelo ajustado

O modelo ajustado log[p/(1-p)] = -5.7936 + 0.00573, ou seja,


0 = -5.7936
1 = 0.00573
O p-valor correspondente baixo indicando que adequado
considerar esses valores como significantemente diferentes de
zero.

Interpretao do parmetro 1
Temos que
p
= 0 + 1X, ento,
ln
1 p

p 0 +1X

= e
1 p

Sejam X e X+1 dois valores


p
Ods X = x = e 0 +1X a razo odds de X e
1 px
p (x +1) + (X+1)
=e 0 1
Ods ( X +1) =
a razo odds de X + 1
1 p

(x +1)

Ods( X +1)
= e1
Ods X

Portanto, e1 o aumento no Ods para cada aumento unitrio no


valor de X.

146

Interpretao do parmetro 1

Portanto, para cada aumento unitrio na renda a


probabilidade de ter carto versus no ter carto (Ods)
aumenta 1.01
Obs. O parmetro 0 no tem, em geral, interpretao.
Corresponderia ao Ods quando X=0. Nem sempre o
valor X=0 pertence faixa de variao dos valores de
X.

Clculo personalizado da razo Ods


O coeficiente 1est associado com o aumento da razo Ods
para cada aumento unitrio em X.
Muitas vezes o interesse saber quanto aumenta a razo Ods
para outro valor que no o unitrio (por exemplo, para um
aumento de 10 unidades em X).
O efeito de um aumento em c unidades em X na razo Ods
igual a exp(c1 ).

147

Probabilidades estimadas
A estimativa da probabilidade de um evento para
um determinado valor de X dada por:

p 0 +1X
1 p
1
1

= e
= + X p =


1 + e - 0 1X
1 p
p e 0 1

DC

Probabilidade estimada
Grfico da probabilidade estimada pelo
modelo versus a renda

148

Das könnte Ihnen auch gefallen