Apostila Inferência Bayesiana - Ricardo Ehlers

INFERENCIA BAYESIANA
RICARDO S. EHLERS
Primeira publica ao em 2002 c Segunda ediao publicada em 2004 c Terceira ediao publicada em 2005 c Quarta ediao publicada em 2006 c Quinta ediao publicada em 2007 c RICARDO SANDES EHLERS 2003-2011
Sumrio a
1 Introduo ca 1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Princ pio da Verossimilhana . . . . . . . . . . . . . . . . . . . . . c 1.3 Exerc cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Distribuies a Priori co 2.1 Prioris Conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Conjugaao na Fam Exponencial . . . . . . . . . . . . . . . . . c lia 2.3 Principais Fam lias Conjugadas . . . . . . . . . . . . . . . . . . . 2.3.1 Distribuiao normal com varincia conhecida . . . . . . . . c a 2.3.2 Distribuiao de Poisson . . . . . . . . . . . . . . . . . . . . c 2.3.3 Distribuiao multinomial . . . . . . . . . . . . . . . . . . . c 2.3.4 Distribuiao normal com mdia conhecida e varincia dec e a sconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.5 Distribuiao normal com mdia e varincia desconhecidos . c e a 2.4 Priori no Informativa . . . . . . . . . . . . . . . . . . . . . . . . a 2.5 Prioris Hierrquicas . . . . . . . . . . . . . . . . . . . . . . . . . . a 2.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Estimao ca 3.1 Introduao ` Teoria da Deciso . . . . . c a a 3.2 Estimadores de Bayes . . . . . . . . . . . 3.3 Estimaao por Intervalos . . . . . . . . . c 3.4 Estimaao no Modelo Normal . . . . . . c 3.4.1 Varincia Conhecida . . . . . . . a 3.4.2 Mdia e Varincia desconhecidas e a 3.4.3 O Caso de duas Amostras . . . . 3.4.4 Varincias desiguais . . . . . . . . a 3.5 Exerc cios . . . . . . . . . . . . . . . . . i 1 1 11 12 14 14 15 19 19 20 21 22 23 25 28 30 35 35 36 38 39 40 41 42 45 47
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
ii 4 Mtodos Aproximados e 4.1 Computaao Bayesiana . . . . . . . . . . . . . . . . c 4.2 Uma Palavra de Cautela . . . . . . . . . . . . . . . 4.3 O Problema Geral da Inferncia Bayesiana . . . . . e 4.4 Mtodo de Monte Carlo Simples . . . . . . . . . . . e 4.4.1 Monte Carlo via Funao de Importncia . . c a 4.5 Mtodos de Reamostragem . . . . . . . . . . . . . . e 4.5.1 Mtodo de Rejeiao . . . . . . . . . . . . . . e c 4.5.2 Reamostragem Ponderada . . . . . . . . . . 4.6 Monte Carlo via cadeias de Markov . . . . . . . . . 4.6.1 Cadeias de Markov . . . . . . . . . . . . . . 4.6.2 Acurcia Numrica . . . . . . . . . . . . . . a e 4.6.3 Algoritmo de Metropolis-Hastings . . . . . . 4.6.4 Casos Especiais . . . . . . . . . . . . . . . . 4.6.5 Amostrador de Gibbs . . . . . . . . . . . . . 4.7 Problemas de Dimenso Varivel . . . . . . . . . . a a 4.7.1 MCMC com Saltos Reversiveis (RJMCMC) 4.8 Tpicos Relacionados . . . . . . . . . . . . . . . . . o 4.8.1 Autocorrelaao Amostral . . . . . . . . . . . c 4.8.2 Monitorando a Convergncia . . . . . . . . . e
SUMARIO 48 48 48 49 50 54 57 57 60 63 63 64 65 71 72 78 81 86 86 86 88 91 93 93 94 94 94 95 95 95 96 96 96 97 97 97 97 98 98
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
5 Modelos Lineares 5.1 Anlise de Varincia com 1 Fator de Classicaao . . . . . . . . . a a c A Lista de Distribuies co A.1 Distribuiao Normal . . . . . . c A.2 Distribuiao Log-Normal . . . . c A.3 A Funao Gama . . . . . . . . . c A.4 Distribuiao Gama . . . . . . . c A.5 Distribuiao Wishart . . . . . . c A.6 Distribuiao Gama Inversa . . . c A.7 Distribuiao Wishart Invertida . c A.8 Distribuiao Beta . . . . . . . . c A.9 Distribuiao de Dirichlet . . . . c A.10 Distribuiao t de Student . . . . c A.11 Distribuiao F de Fisher . . . . c A.12 Distribuiao de Pareto . . . . . c A.13 Distribuiao Binomial . . . . . . c A.14 Distribuiao Multinomial . . . . c A.15 Distribuiao de Poisson . . . . . c A.16 Distribuiao Binomial Negativa c
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
SUMARIO B Alguns Endereos Interessantes c References
iii 99 101
Cap tulo 1 Introduo ca

A informao que se tem sobre uma quantidade de interesse fundamental na ca e Estat stica. O verdadeiro valor de desconhecido e a idia tentar reduzir e e e este desconhecimento. Alm disso, a intensidade da incerteza a respeito de e pode assumir diferentes graus. Do ponto de vista Bayesiano, estes diferentes graus de incerteza so representados atravs de modelos probabil a e sticos para . Neste contexto, natural que diferentes pesquisadores possam ter diferentes graus e de incerteza sobre (especicando modelos distintos). Sendo assim, no existe a nenhuma distinao entre quantidades observveis e os parmetros de um modelo c a a estat stico, todos so considerados quantidades aleatrias. a o
1.1
Teorema de Bayes
Considere uma quantidade de interesse desconhecida (tipicamente no oba servvel). A informaao de que dispomos sobre , resumida probabilisticamente a c atravs de p(), pode ser aumentada observando-se uma quantidade aleatria X e o relacionada com . A distribuiao amostral p(x|) dene esta relaao. A idia de c c e que aps observar X = x a quantidade de informaao sobre aumenta bastante o c e intuitiva e o teorema de Bayes a regra de atualizaao utilizada para quanticar e c este aumento de informaao, c p(|x) = p(x|)p() p(x|)p() p(x, ) . = = p(x) p(x) p(, x)d (1.1)
Note que 1/p(x), que no depende de , funciona como uma constante normaa lizadora de p(|x). Para um valor xo de x, a funao l(; x) = p(x|) fornece a plausibilidade ou c verossimilhana de cada um dos poss c veis valores de enquanto p() chamada e distribuiao a priori de . Estas duas fontes de informaao, priori e verossimic c 1
CAP ITULO 1. INTRODUCAO
lhana, so combinadas levando ` distribuiao a posteriori de , p(|x). Assim, c a a c a forma usual do teorema de Bayes e p(|x) l(; x)p(), (l-se p(|x) proporcional a l(; x)p()). Em palavras temos que e e distribuiao a posteriori verossimilhana distribuiao a priori. c c c Note que, ao omitir o termo p(x), a igualdade em (1.1) foi substituida por uma proporcionalidade. Esta forma simplicada do teorema de Bayes ser util em a problemas que envolvam estimaao de parmetros j que o denominador apenas c a a e uma constante normalizadora. Em outras situaoes, como seleao e comparaao c c c de modelos, este termo tem um papel crucial. E intuitivo tambm que a probabilidade a posteriori de um particular conjunto e de valores de ser pequena se p() ou l(; x) for pequena para este conjunto. Em a particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de valores de ento a probabilidade a posteriori ser zero qualquer que seja a a a amostra observada. A partir da forma (1.2) a constante normalizadora da posteriori em (1.1) e recuperada como p(x) = p(x, )d = p(x|)p()d = E [p(X|)] (1.2)
que chamada distribuiao preditiva. Esta a distribuiao esperada para a e c e c observaao x dado . Assim, c Antes de observar X podemos checar a adequaao da priori fazendo c predioes via p(x). c Se X observado recebia pouca probabilidade preditiva ento o modelo deve a ser questionado. Em muitas aplicaoes (e.g. sries temporais e geoestatistica) o maior interc e esse na previso do processo em pontos no observados do tempo ou espao. e a a c Suponha ento que, aps observar X = x, estamos interessados na previso de a o a uma quantidade Y , tambm relacionada com , e descrita probabilisticamente e por p(y|x, ). A distribuiao preditiva de Y dado x obtida por integraao como c e c p(y|x) = p(y, |x)d = p(y|, x)p(|x)d. (1.3)
Em muitos problemas estatisticos a hiptese de independncia condicional entre o e
1.1. TEOREMA DE BAYES X e Y dado est presente e a distribuiao preditiva ca a c p(y|x) = p(y|)p(|x)d.
Note no entanto que esta no uma hiptese razovel para dados espacialmente a e o a distribuidos aonde estamos admitindo que exista alguma estrutura de correlaao c no espao. De qualquer modo, em muitas aplicaoes prticas a integral em (1.3) c c a no tem soluao analitica e precisa ser obtida por algum mtodo de aproximaao. a c a e c Note tambm que as previses so sempre vericveis uma vez que Y uma e o a a e quantidade observvel. Finalmente, segue da ultima equaao que a c p(y|x) = E|x [p(Y |)]. Fica claro tambm que os conceitos de priori e posteriori so relativos `quela e a a observaao que est sendo considerada no momento. Assim, p(|x) a posteriori c a e de em relaao a X (que j foi observado) mas a priori de em relaao a Y (que c a e c no foi observado ainda). Aps observar Y = y uma nova posteriori (relativa a a o X = x e Y = y) obtida aplicando-se novamente o teorema de Bayes. Mas ser e a que esta posteriori nal depende da ordem em que as observaoes x e y foram c processadas? Observando-se as quantidades x1 , x2 , , xn , independentes dado e relacionadas a atravs de pi (xi |) segue que e p(|x2 , x1 ) l2 (; x2 )p(|x1 ) . . . p(|x1 ) l1 (; x1 )p()
l2 (; x2 )l1 (; x1 )p() . . .
n
p(|xn , xn1 , , x1 )
li (; xi ) p()
i=1
ln (; xn ) p(|xn1 , , x1 ). Ou seja, a ordem em que as observaoes so processadas pelo teorema de Bayes c a irrelevante. Na verdade, elas podem at ser processadas em subgrupos. e e
Exemplo 1.1 : (Gamerman e Migon, 1993) Um mdico, ao examinar uma pese soa, descona que ela possa ter uma certa doena. Baseado na sua experincia, c e no seu conhecimento sobre esta doena e nas informaoes dadas pelo paciente ele c c assume que a probabilidade do paciente ter a doena 0,7. Aqui a quantidade c e
de interesse desconhecida o indicador de doena e c = 1, 0, se o paciente tem a doena c se o paciente no tem a doena. a c
Para aumentar sua quantidade de informaao sobre a doena o mdico aplica um c c e teste X relacionado com atravs da distribuiao e c P (X = 1 | = 0) = 0, 40 e P (X = 1 | = 1) = 0, 95
e o resultado do teste foi positivo (X = 1). E bem intuitivo que a probabilidade de doena deve ter aumentado aps este c o resultado e a questo aqui quanticar este aumento. Usando o teorema de Bayes a e segue que P ( = 1 | X = 1) l( = 1; X = 1) p( = 1) = (0, 95)(0, 7) = 0, 665 P ( = 0 | X = 1) l( = 0; X = 1) p( = 0) = (0, 40)(0, 3) = 0, 120. Uma vez que as probabilidades a posteriori somam 1, i.e. P ( = 0 | X = 1) + P ( = 1 | X = 1) = 1, a constante normalizadora obtida fazendo-se 0, 665k + 0, 120k = 1 e ento e a k = 1/0, 785. Portanto, a distribuiao a posteriori de c e P ( = 1 | X = 1) = 0, 665/0, 785 = 0, 847 P ( = 0 | X = 1) = 0, 120/0, 785 = 0, 153. O aumento na probabilidade de doena no foi muito grande porque a verossimilc a hana l( = 0; X = 1) tambm era grande (o modelo atribuia uma plausibilidade c e grande para = 0 mesmo quando X = 1). Agora o mdico aplica outro teste Y cujo resultado est relacionado a atravs e a e da seguinte distribuiao c P (Y = 1 | = 0) = 0, 04 e P (Y = 1 | = 1) = 0, 99.
Mas antes de observar o resultado deste teste interessante obter sua distribuiao e c preditiva. Como uma quantidade discreta segue que e
1
p(y|x) =
=0
p(y|)p(|x)
1.1. TEOREMA DE BAYES e note que p(|x) a priori em relaao a Y . Assim, e c P (Y = 1 | X = 1) = P (Y = 1 | = 0)P ( = 0 | X = 1)
= (0, 04)(0, 153) + (0, 99)(0, 847) = 0, 845 P (Y = 0 | X = 1) = 1 P (Y = 1 | X = 1) = 0, 155. O resultado deste teste foi negativo (Y = 0). Neste caso, tambm intuitivo e e que a probabilidade de doena deve ter diminuido e esta reduao ser quanticada c c a por uma nova aplicaao do teorema de Bayes, c P ( = 1 | X = 1, Y = 0) l( = 1; Y = 0)P ( = 1 | X = 1) (0, 01)(0, 847) = 0, 0085
+ P (Y = 1 | = 1)P ( = 1 | X = 1)
P ( = 0 | X = 1, Y = 0) l( = 0; Y = 0)P ( = 0 | X = 1) (0, 96)(0, 153) = 0, 1469. A constante normalizadora 1/(0,0085+0,1469)=1/0,1554 e assim a distribuiao e c a posteriori de e P ( = 1 | X = 1, Y = 0) = 0, 0085/0, 1554 = 0, 055 P ( = 0 | X = 1, Y = 0) = 0, 1469/0, 1554 = 0, 945. Verique como a probabilidade de doena se alterou ao longo do experimento c antes dos testes 0, 7, P ( = 1) = 0, 847, aps o teste X o 0, 055, aps X e Y . o
Note tambm que o valor observado de Y recebia pouca probabilidade preditiva. e Isto pode levar o mdico a repensar o modelo, i.e., e (i) Ser que P ( = 1) = 0, 7 uma priori adequada? a e (ii) Ser que as distribuioes amostrais de X e Y esto corretas ? O teste X a c a e to inexpressivo e Y realmente to poderoso? a e a
Exemplo 1.2 : Seja Y Binomial(12, ) e em um experimento observou-se Y = 9. A funao de verossimilhana de dada por c c e l() = 12 9 (1 )3 , (0, 1). 9
Que distribuiao poderia ser usada para resumir probabilisticamente nosso c conhecimento sobre o parmetro ? Note que, como 0 < < 1 queremos que, a p() = 0 p(|y) = 0, (0, 1). Podemos por exemplo assumir que N (, 2 ) truncada no intervalo (0,1). Neste caso, denotando por fN (|, 2 ) a funao de densidade da distribuiao c c 2 N (, ) segue que a funao de densidade a priori de dada por c e p() =
0
fN (|, 2 )
1
fN (|, )d Na Figura 1.1 esta funao de densidade est representada para alguns valores de c a 2 e . Os comandos do R abaixo podem ser utilizados para gerar as curvas. Note como informaoes a priori bastante diferentes podem ser representadas. c > dnorm.t <- function(x, mean = 0, sd = 1) { + aux = pnorm(1, mean, sd) - pnorm(0, mean, sd) + dnorm(x, mean, sd)/aux + } Outra possibilidade atravs de uma reparametrizaao. Assumindo-se que e e c 2 N (, ) e fazendo a transformaao c = exp() 1 + exp()
segue que a transformaao inversa simplesmente c e = log 1 = logito().
Portanto a densidade a priori de ca p() = fN (()|, 2 ) d d 1 2 2 log 1

2
= (2 2 )1/2 exp
1 (1 )
1.1. TEOREMA DE BAYES
2.5
3.0
N(0.5,0.5) N(0,0.5) N(1,0.5) N(2,0.5)
p()
0.0 0.0
0.5
1.0
1.5
2.0
0.2
0.4
0.6
0.8
1.0
Figura 1.1: Densidades a priori normais truncadas para o parametro no Exemplo 1.2. e chamada de normal-logistica. Na Figura 1.2 esta funao de densidade est e c a 2 representada para alguns valores de e . Os comandos do R abaixo foram utilizados. Novamente note como informaoes a priori bastante diferentes podem c ser representadas. Em particular a funao de densidade de ser sempre unimodal c a 2 2 quando 2 e bimodal quando > 2. > dlogist = function(x, mean, sd) { + z = log(x/(1 - x)) + dnorm(z, mean, sd)/(x - x^2) + } Finalmente, podemos atribuir uma distribuiao a priori Beta(a, b) (ver c Apndice A), e p() = (a + b) a1 (1 )b1 , a > 0, b > 0, (0, 1). (a)(b)
Esta distribuiao simtrica em torno de 0,5 quando a = b e assimtrica quando c e e e a = b. Variando os valores de a e b podemos denir uma rica familia de distribuioes a priori para , incluindo a distribuiao Uniforme no intervalo (0,1) se c c a = b = 1. Algumas possibilidades esto representadas na Figura 1.3. a Um outro resultado importante ocorre quando se tem uma unica observaao c da distribuiao normal com mdia desconhecida. Se a mdia tiver priori normal c e e
N(1,0.25) N(1,1) N(0,4) 3 p() 0 0.0 1 2
0.2
0.4
0.6
0.8
1.0
Figura 1.2: Densidades a priori tipo logisticas para o parmetro no Exemplo 1.2. a ento os parmetros da posteriori so obtidos de uma forma bastante intuitiva a a a como visto no teorema a seguir.
2 Teorema 1.1 Se X| N (, 2 ) sendo 2 conhecido e N (0 , 0 ) ento a 2 |x N (1 , 1 ) sendo
1 = Prova. Temos que
2 0 0 + 2 x 2 0 + 2
2 2 e 1 = 0 + 2 .
2 p(x|) exp{ 2 (x )2 /2} e p() exp{0 ( 0 )/2}
e portanto 1 2 p(|x) exp [ 2 (2 2x) + 0 (2 20 )] 2 1 2 2 exp [2 ( 2 + 0 ) 2( 2 x + 0 0 )] . 2 sendo que os termos que no dependem de foram incorporados ` constante de a a 2 2 2 2 2 2 proporcionalidade. Denindo 1 = + 0 e 1 1 = x 0 0 segue que p(|x) exp
2 1 (2 21 ) 2
exp
2 1 ( 1 )2 2
pois 1 no depende de . Portanto, a funao de densidade a posteriori (a menos a c
1.1. TEOREMA DE BAYES
Beta(1.5,4) Beta(2,0.5) Beta(7,1.5) Beta(3,3)
p() 0 0.0 1 2
0.2
0.4
0.6
0.8
1.0
Figura 1.3: Densidades a priori Beta para o parmetro no Exemplo 1.2. a
de uma constante) tem a mesma forma de uma normal com mdia 1 e varincia e a 2 1 . Note que, denindo preciso como o inverso da varincia, segue do teorema a a que a preciso a posteriori a soma das precises a priori e da verossimilhana a e o c e no depende de x. Interpretando preciso como uma medida de informaao a a c 2 2 2 e denindo w = 0 /(0 + ) (0, 1) ento w mede a informaao relativa a c contida na priori com respeito ` informaao total. Podemos escrever ento que a c a 1 = w0 + (1 w)x ou seja, 1 uma combinao linear convexa de 0 e x e portanto e ca min{0 , x} 1 max{0 , x}. A distribuiao preditiva de X tambm facilmente obtida notando que podec e e mos reescrever as informaoes na forma de equaoes com erros no correlacionac c a dos. Assim, X = + , N (0, 2 )
2 = 0 + w, w N (0, 0 )
tal que Cov(, ) = Cov(0 , w) = 0. Portanto a distribuiao (incondicional) de c X normal pois ele resulta de uma soma de variveis aleatrias com distribuiao e a o c
10 normal. Alm disso, e
E(X) = E() + E() = 0

2 V ar(X) = V ar() + V ar() = 0 + 2 2 Concluso, X N (0 , 0 + 2 ). a
Exemplo 1.3 : (Box & Tiao, 1992) Os f sicos A e B desejam determinar uma constante f sica . O f sico A tem mais experincia nesta rea e especica sua e a 2 priori como N (900, 20 ). O f sico B tem pouca experincia e especica uma e priori muito mais incerta em relaao ` posiao de , N (800, 802 ). Assim, no c a c a dicil vericar que e para o sico A: P (860 < < 940) 0, 95 para o sico B: P (640 < < 960) 0, 95. Faz-se ento uma mediao X de em laboratrio com um aparelho calibrado a c o 2 com distribuiao amostral X| N (, 40 ) e observou-se X = 850. Aplicando o c teorema 1.1 segue que (|X = 850) N (890, 17, 92 ) para o f sico A (|X = 850) N (840, 35, 72 ) para o f sico B. Note tambm que os aumentos nas precises a posteriori em relaao `s precises e o c a o a priori foram,
2 2 para o f sico A: preciso() passou de 0 = 0, 0025 para 1 = 0, 00312 a (aumento de 25%). 2 2 para o f sico B: preciso() passou de 0 = 0, 000156 para 1 = 0, 000781 a (aumento de 400%).
A situaao est representada gracamente na Figura 1.4 a seguir. Note como a c a distribuiao a posteriori representa um compromisso entre a distribuiao a priori c c e a verossimilhana. Alm disso, como as incertezas iniciais so bem diferentes c e a o mesmo experimento fornece muito pouca informaao adicional para o sico A c enquanto que a incerteza do sico B foi bastante reduzida. Os comandos do R abaixo podem ser usados nos clculos. a
1.2. PRINC IPIO DA VEROSSIMILHANCA > norm.norm <- function(x, mu0, tau0, s0) { + precisao = 1/tau0 + length(x)/s0 + tau1 = 1/precisao + w = (1/tau0)/precisao + mu1 = w * mu0 + (1 - w) * mean(x) + return(list(m = mu1, tau = tau1)) + }
11
0.020
0.015
priori posteriori verossimilhanca
Fisico A
0.005 0.000
0.010 Fisico B 700
750
800
850
900
950
1000
Figura 1.4: Densidades a priori e a posteriori e funo de verossimilhana para o ca c

Exemplo 1.3.
1.2
Princ pio da Verossimilhana c
O exemplo a seguir (DeGroot, 1970, pginas 165 e 166) ilustra esta propriedade. a Imagine que cada item de uma populaao de itens manufaturados pode ser clasc sicado como defeituoso ou no defeituoso. A proporao de itens defeituosos a c na populaao desconhecida e uma amostra de itens ser selecionada de acordo c e a com um dos seguintes mtodos: e (i) n itens sero selecionados ao acaso. a (ii) Itens sero selecionados ao acaso at que y defeituosos sejam obtidos. a e (iii) Itens sero selecionados ao acaso at que o inspetor seja chamado para a e resolver um outro problema.
12
(iv) Itens sero selecionados ao acaso at que o inspetor decida que j acumulou a e a informaao suciente sobre . c Qualquer que tenha sido o esquema amostral, se foram inspecionados n itens x1 , , xn dos quais y eram defeituosos ento a l(; x) y (1 )ny . O Princ pio da Verossimilhana postula que para fazer inferncia sobre uma c e quantidade de interesse s importa aquilo que foi realmente observado e no o a aquilo que poderia ter ocorrido mas efetivamente no ocorreu. a
1.3
Exerc cios
1. No Exemplo 1.3, obtenha tambm a distribuiao preditiva de X e compare e c o valor observado com a mdia desta preditiva para os 2 f e sicos. Faa uma c a previso para uma 2 mediao Y feita com o mesmo aparelho. a c 2. Uma mquina produz 5% de itens defeituosos. Cada item produzido passa a por um teste de qualidade que o classica como bom, defeituoso ou suspeito. Este teste classica 20% dos itens defeituosos como bons e 30% como suspeitos. Ele tambm classica 15% dos itens bons como defeituosos e e 25% como suspeitos. (a) Que proporao dos itens sero classicados como suspeitos ? c a (b) Qual a probabilidade de um item classicado como suspeito ser defeituoso ? (c) Outro teste, que classica 95% dos itens defeituosos e 1% dos itens bons como defeituosos, aplicado somente aos itens suspeitos. e (d) Que proporao de itens tero a suspeita de defeito conrmada ? c a (e) Qual a probabilidade de um item reprovado neste 2o teste ser defeituoso ? 3. Uma empresa de crdito precisa saber como a inadimplncia est distribuida e e a entre seus clentes. Sabe-se que um cliente pode pertencer `s classes A, B, a C ou D com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente. Um cliente da classe A tem probabilidade 0,30 de estar inadimplente, um da classe B tem probabilidade 0,10 de estar inadimplente, um da classe C tem probabilidade 0,05 de estar inadimplente e um da classe D tem probabilidade 0,05 de estar inadimplente. Um cliente sorteado aleatoriamente. e (a) Dena os eventos e enumere as probabilidades fornecidas no problema.
1.3. EXERC ICIOS (b) Qual a probabilidade dele estar inadimplente ?
13
(c) Sabendo que ele est inadimplente, qual a sua classe mais provvel? a a 4. Suponha que seus dados x1 , . . . , xn so processados sequencialmente, i.e. x1 a observado antes de x2 e assim por diante. Escreva um programa que aplica e o Teorema 1.1 obtendo a mdia e a varincia a posteriori dado x1 , use esta e a distribuiao como priori para obter a mdia e a varincia a posteriori dados c e a x1 , x2 e repita o procedimento sequencialmente at obter a posteriori dados e x1 , . . . , xn . Faa um grco com as mdias a posteriori mais ou menos 2 c a e desvios padro a posteriori. a
Cap tulo 2 Distribuioes a Priori c

A utilizaao de informaao a priori em inferncia Bayesiana requer a especicaao c c e c de uma distribuiao a priori para a quantidade de interesse . Esta distribuiao c c deve representar (probabilisticamente) o conhecimento que se tem sobre antes da realizaao do experimento. Neste capitulo sero discutidas diferentes formas c a de especicaao da distribuiao a priori. c c
2.1
Prioris Conjugadas
A partir do conhecimento que se tem sobre , pode-se denir uma fam lia paramtrica de densidades. Neste caso, a distribuiao a priori representada e c e por uma forma funcional, cujos parmetros devem ser especicados de acordo a com este conhecimento. Estes parmetros indexadores da familia de distribuioes a c a priori so chamados de hiperparmetros para distingui-los dos parmetros de a a a interesse . Esta abordagem em geral facilita a anlise e o caso mais importante o de a e prioris conjugadas. A idia que as distribuioes a priori e a posteriori pertenam e e c c a mesma classe de distribuioes e assim a atualizaao do conhecimento que se tem c c de envolve apenas uma mudana nos hiperparmetros. Neste caso, o aspecto c a sequencial do mtodo Bayesiano pode ser explorado denindo-se apenas a regra de e atualizaao dos hiperparmetros j que as distribuioes permanecem as mesmas. c a a c Denio 2.1 Se F = {p(x|), } uma classe de distribuies amostrais ca e co ento uma classe de distribuies P conjugada a F se a co e p(x|) F e p() P p(|x) P.
Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utilizaao inc discriminada de prioris conjugadas. Essencialmente, o problema que a priori e 14
2.2. CONJUGACAO NA FAM ILIA EXPONENCIAL
15
conjugada nem sempre uma representaao adequada da incerteza a priori. Sua e c utilizaao est muitas vezes associada ` tratabilidade anal c a a tica decorrente. Uma vez entendidas suas vantagens e desvantagens a questo que se coloca a agora como obter uma fam de distribuioes conjugadas. e lia c (i) Identique a classe P de distribuioes para tal que l(; x) seja proporcional c a um membro desta classe. (ii) Verique se P fechada por amostragem, i.e., se p1 , p2 P k tal que e kp1 p2 P . Se, alm disso, existe uma constante k tal que k 1 = l(; x)d < e todo e p P denido como p() = k l(; x) ento P a fam conjugada natural ao e a e lia modelo amostral gerador de l(; x). Exemplo 2.1 : Sejam X1 , . . . , Xn Bernoulli(). Ento a densidade amostral a conjunta e
n
p(x|) = (1 )
nt
0 < < 1 sendo t =

i=1
xi
e pelo teorema de Bayes segue que p(|x) t (1 )nt p(). Note que l(; x) proporcional ` densidade de uma distribuiao e a c Beta(t + 1, n t + 1). Alm disso, se p1 e p2 so as densidades das dise a tribuioes Beta(a1 , b1 ) e Beta(a2 , b2 ) ento c a p1 p2 a1 +a2 2 (1 )b1 +b2 2 , ou seja p1 p2 proporcional a densidade da distribuiao Beta(a1 + a2 1, b1 + e c b2 1). Conclui-se que a fam de distribuioes Beta com parmetros inteiros lia c a e conjugada natural ` fam Bernoulli. Na prtica esta classe pode ser ampliada a lia a para incluir todas as distribuioes Beta, i.e. incluindo todos os valores positivos c dos parmetros. a
2.2
Conjugao na Fam Exponencial ca lia
A fam exponencial inclui muitas das distribuioes de probabilidade mais comulia c mente utilizadas em Estatistica, tanto continuas quanto discretas. Uma caracteristica essencial desta familia que existe uma estatistica suciente com dimenso e a
16
CAP ITULO 2. DISTRIBUICOES A PRIORI
xa. Veremos adiante que a classe conjugada de distribuies muito fcil de co e a caracterizar.
Denio 2.2 A familia de distribuies com funo de (densidade) de probabilca co ca idade p(x|) pertence ` familia exponencial a um parmetro se podemos escrever a a p(x|) = a(x) exp{u(x)() + b()}. Note que pelo critrio de fatoraao de Neyman U (x) uma estatistica suciente e c e para . Neste caso, a classe conjugada facilmente identicada como, e p() = k(, ) exp{() + b()}. e aplicando o teorema de Bayes segue que p(|x) = k( + u(x), + 1) exp{[ + u(x)]() + [ + 1]b()}. Agora, usando a constante k, a distribuiao preditiva pode ser facilmente obtida c sem necessidade de qualquer integraao. A partir da equaao p(x)p(|x) = c c p(x|)p() e aps alguma simplicaao segue que o c p(x) = a(x)k(, ) p(x|)p() = . p(|x) k( + u(x), + 1)
Exemplo 2.2 : Uma extenso direta do Exemplo 2.1 o modelo binomial, i.e. a e X| Binomial(n, ). Neste caso, p(x|) = n exp x log x 1 + n log(1 )
e a fam conjugada natural Beta(r, s). Podemos escrever ento lia e a p() r1 (1 )s1
1 exp {() + b()} . exp (r 1) log
s+r2 n
n log(1 )
A posteriori tambm Beta com parmetros + x e + 1 ou equivalentemente e e a
2.2. CONJUGACAO NA FAM ILIA EXPONENCIAL r + x e s + n x, i.e. p(|x) exp (r + x 1)() + r+x1 (1 )s+nx1 . s+r2+n b() n
17
Como ilustraao, no Exemplo 2.2 suponha que n = 12, X = 9 e usamos pric oris conjugadas Beta(1,1), Beta(2,2) e Beta(1,3). As funes de densidade destas co distribuioes juntamente com a funao de verossimilhana normalizada e as rec c c spectivas densidades a posteriori esto na Figura 2.1. A distribuiao preditiva a c e dada por p(x) = n B(r + x, s + n x) , B(r, s) x x = 0, 1, . . . , n, n 1,
onde B 1 a constante normalizadora da distribuiao Beta, i.e. (ver Apndice e c e A) (a + b) B 1 (a, b) = . (a)(b) Esta distribuiao denominada Beta-Binomial. c e
3.0
2.0
1.0
0.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
1.0
2.0
veross priori posteriori
3.0
0.0
0.2
0.4
0.6
0.8
1.0
3.0
0.0
1.0
2.0
0.0
0.2
0.4
0.6
0.8
1.0
Figura 2.1: Densidades a priori, a posteriori e funo de verossimilhana normalizada ca c

para o Exemplo 2.2.
18
No Exemplo 2.2 suponha novamente que n = 12, X = 9 e usamos as prioris conjugadas Beta(1,1), Beta(2,2) e Beta(1,3). Na Tabela 2.1 esto listadas as a probabilidades preditivas P (X = k) associadas a estas prioris. Os comandos do R a seguir podem ser usados no clculo destas probabilidades. a
> beta.binomial = function(n, a, b) { + m = matrix(0, n + 1, 2) + m[, 1] = 0:n + for (x in 0:n) m[x, 2] = round(choose(n, x) * beta(a + x, + b + n - x)/beta(a, b), 4) + return(list(m = m)) + }
Tabela 2.1: Probabilidades preditivas da Beta-Binomial para o Exemplo 2.2 k 0 1 2 3 4 5 6 7 8 9 10 11 12 Beta(1,1) 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0769 0.0000 Beta(2,2) 0.0527 0.0725 0.0879 0.0989 0.1055 0.1077 0.1055 0.0989 0.0879 0.0725 0.0527 0.0286 0.0000 Beta(1,3) 0.1714 0.1451 0.1209 0.0989 0.0791 0.0615 0.0462 0.0330 0.0220 0.0132 0.0066 0.0022 0.0000
No caso geral em que se tem uma amostra X1 , . . . , Xn da fam exponencial lia a natureza sequencial do teorema de Bayes permite que a anlise seja feita por a replicaoes sucessivas. Assim a cada observaao xi os parmetros da distribuiao c c a c a posteriori so atualizados via a i = i1 + u(xi ) i = i1 + 1
2.3. PRINCIPAIS FAM ILIAS CONJUGADAS com 0 = e 0 = . Aps n observaoes temos que o c
n
19
n = +
i=1
u(xi )
n = + n e a distribuiao preditiva dada por c e

n
p(x) =
i=1
a(xi )
k(, ) . k( + u(xi ), + n)
Finalmente, a deniao de fam exponencial pode ser extendida ao caso c lia multiparamtrico, i.e. e
n r n
p(x|) =
i=1
a(xi ) exp
j=1 i=1
uj (xi ) j () + nb()
com = (1 , . . . , r ). Neste caso, pelo critrio de fatoraao, temos que e c U1 (xi ), . . . , Ur (xi ) uma estat e stica conjuntamente suciente para o vetor de parmetros . a
2.3
Principais Fam lias Conjugadas
J vimos que a fam de distribuioes Beta conjugada ao modelo Bernoulli e a lia c e binomial. No dif mostrar que o mesmo vale para as distribuioes amostrais a e cil c geomtrica e binomial-negativa (ver Exerc 1). A seguir veremos resultados e cio para outros membros importantes da fam exponencial. lia
2.3.1
Distribuio normal com varincia conhecida ca a
Para uma unica observaao vimos pelo Teorema 1.1 que a fam de distribuioes c lia c normais conjugada ao modelo normal. Para uma amostra de tamanho n, a e funao de verossimilhana pode ser escrita como c c l(; x) = (2 )
2 n/2
1 exp 2 2
n exp 2 (x )2 2
i=1
(xi )2
onde os termos que no dependem de foram incorporados ` constante de proa a porcionalidade. Portanto, a verossimilhana tem a mesma forma daquela baseada c em uma unica observaao bastando substituir x por x e 2 por 2 /n. Logo vale c
20
o Teorema 1.1 com as devidas substituioes, i.e. a distribuiao a posteriori de c c 2 dado x N (1 , 1 ) sendo e 1 =
2 0 0 + n 2 x 2 0 + n 2 2 2 e 1 = 0 + n 2 .
Note que a mdia a posteriori pode ser reescrita como w0 + (1 w)x sendo e 2 2 w = 0 /(0 + n 2 ). Uma funao geral pode ser escrita no R para calcular estes parmetros e opc a cionalmente fazer os grcos das densidades. a > norm.norm <- function(x, sigma, mu0, tau0, plot = F) { + n = length(x) + xbar = mean(x) + ep = sigma/sqrt(n) + sigma2 = sigma^2 + tau1 = n * (1/sigma2) + (1/tau0) + mu1 = (n * (1/sigma2) * xbar + (1/tau0) * mu0)/tau1 + if (plot) { + curve(dnorm(x, xbar, ep), xbar - 3 * ep, xbar + 3 * ep) + curve(dnorm(x, mu0, sqrt(tau0)), add = T, col = 2) + curve(dnorm(x, mu1, 1/sqrt(tau1)), add = T, col = 3) + legend(-0.5, 1.2, legend = c("veross.", "priori", "posteriori"), + col = 1:3, lty = c(1, 1, 1)) + } + return(list(mu1 = mu1, tau1 = tau1)) + }
2.3.2
Distribuio de Poisson ca
Seja X1 , . . . , Xn uma amostra aleatria da distribuiao de Poisson com parmetro o c a . Sua funao de probabilidade conjunta dada por c e en t p(x|) = en t , xi !
n
> 0,
t=
i=1
xi .
O ncleo da verossimilhana da forma a eb que caracteriza a fam de u c e lia distribuioes Gama a qual fechada por amostragem (verique!). Assim, disc e tribuiao a priori conjugada natural de Gama com parmetros positivos e c e a , i.e. 1 e , > 0, > 0, > 0. p() = ()
2.3. PRINCIPAIS FAM ILIAS CONJUGADAS A densidade a posteriori ca p(|x) +t1 exp {( + n)}
21
que corresponde ` densidade Gama( + t, + n). Note que a mdia a posteriori a e pode ser reescrita como uma combinaao linear da mdia a priori e da mdia c e e amostral (ver exerc 6). A distribuiao preditiva tambm facilmente obtida cio c e e pois n 1 p(x|) = exp {t log n} x! i=1 i e portanto
n
p(x) =
i=1
( + t) 1 . xi ! () ( + n)+t
Para uma unica observaao x segue ento que c a 1 1 ( + x) = p(x) = +x x! () ( + 1) x! = +x1 x +1
+1
x
1 +1
( + x 1)! ( 1)!
1 +1
Esta distribuiao chamada de Binomial-Negativa com parmetros e e sua c e a mdia e varincia so facilmente obtidos como e a a E(X) = E[E(X|)] = E() = / V ar(X) = E[V ar(X|)] + V ar[E(X|)] = E() + V ar() = ( + 1) . 2
2.3.3
Distribuio multinomial ca
Denotando por X = (X1 , . . . , Xp ) o nmero de ocorrncias em cada uma de p u e categorias em n ensaios independentes e por = (1 , . . . , p ) as probabilidades associadas, deseja-se fazer inferncia sobre estes p parmetros. No entanto, note e a que existem efetivamente p 1 parmetros j que temos a seguinte restriao a a c p p e c e i=1 i = 1. Alm disso, a restriao i=1 Xi = n obviamente tambm se aplica. Dizemos que X tem distribuiao multinomial com parmetros n e e funao de c a c probabilidade conjunta das p contagens X dada por e p(x|) = n!
p i=1 p x i i . i=1
xi !
22
Note que esta uma generalizaao da distribuiao binomial que tem apenas duas e c c categorias. No dif mostrar que esta distribuiao tambm pertence ` fam a e cil c e a lia exponencial. A funao de verossimilhana para c c e
p
l(; x)
x i i i=1
que tem o mesmo ncleo da funao de densidade de uma distribuiao de Dirichlet. u c c A fam Dirichlet com parmetros inteiros a1 , . . . , ap a conjugada natural do lia a e modelo multinomial, porm na prtica a conjugaao extendida para parmetros e a c e a no inteiros. A distribuiao a posteriori dada por a c e
p p x i i i=1 i=1 a i i 1 p
p(|x)
=
i=1
x i i +ai 1 .
Note que estamos generalizando a anlise conjugada para amostras binomiais com a priori beta.
2.3.4
Distribuio normal com mdia conhecida e varinca e a cia desconhecida
Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com conhecido o c 2 e = desconhecido. Neste caso a funao de densidade conjunta dada por c e p(x|, )
n/2
exp{ 2
i=1
(xi )2 }.
Note que o ncleo desta verossimilhana tem a mesma forma daquele de uma u c distribuiao Gama. Como sabemos que a fam Gama fechada por amostragem c lia e podemos considerar uma distribuiao a priori Gama com parmetros n0 /2 e c a 2 n0 0 /2, i.e. 2 n0 n0 0 . Gama , 2 2 Equivalentemente, podemos atribuir uma distribuiao a priori qui-quadrado com c 2 n0 graus de liberdade para n0 0 . A forma funcional dos parmetros da disa tribuiao a priori apenas uma convenincia matemtica como veremos a seguir. c e e a Denindo ns2 = 0
n i=1 (xi
)2 e aplicando o teorema de Bayes obtemos a
2.3. PRINCIPAIS FAM ILIAS CONJUGADAS distribuiao a posteriori de , c 2 p(|x) n/2 exp ns2 n0 /21 exp n0 0 0 2 2 2 = (n0 +n)/21 exp (n0 0 + ns2 ) . 0 2
23
Note que esta expresso corresponde ao ncleo da distribuiao Gama, como a u c era esperado devido ` conjugaao. Portanto, a c |x Gama
2 n0 + n n0 0 + ns2 0 , 2 2
2 Equivalentemente podemos dizer que (n0 0 + ns2 ) | x 2 0 +n . 0 n
2.3.5
Distribuio normal com mdia e varincia desconca e a hecidos
Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com ambos o c 2 e = desconhecidos. Precisamos ento especicar uma distribuiao a priori a c conjunta para e . Uma possibilidade fazer a especicaao em dois estgios e c a j que podemos sempre escrever p(, ) = p(|)p(). No primeiro estgio, a a | N (0 , (c0 )1 ), = 2
e a distribuiao a priori marginal de a mesma do caso anterior, i.e. c e Gama

2 n0 n0 0 , 2 2
A distribuiao conjunta de (, ) geralmente chamada de Normal-Gama com c e 2 parmetros (0 , c0 , n0 , 0 ) e sua funao de densidade conjunta dada por, a c e p(, ) = p(|)p() 1/2 exp
2 n0 0 c0 ( 0 )2 n0 /21 exp 2 2 2 (n0 +1)/21 exp (n0 0 + c0 ( 0 )2 ) . 2
A partir desta densidade conjunta podemos obter a distribuiao marginal de c
24 por integraao c p() =
p(|)p()d
0
2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] d 2
n0 +1 2
2 n0 0 + c0 ( 0 )2 2
( 0 )2 1+ 2 n0 (0 /c0 )
n0 +1 2
que o ncleo da distribuiao t de Student com n0 graus de liberdade, parmetro e u c a 2 de locaao 0 e parmetro de escala 0 /c0 (ver Apndice A). Denotamos c a e 2 tn0 (0 , 0 /c0 ). A distribuiao condicional de dado tambm facilmente obtida c e e como p(|) p(|)p()
2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] , 2

2 n0 + 1 n0 0 + c0 ( 0 )2 , 2 2
e portanto, | Gama
A posteriori conjunta de (, ) tambm obtida em 2 etapas como segue. e e Primeiro, para xo podemos usar o resultado da Seao 2.3.1 de modo que a c distribuiao a posteriori de dado ca c |, x N (1 , (c1 )1 ) sendo 1 = c0 0 + nx c0 0 + nx = c0 + n c0 + n e c1 = c0 + n.
Na segunda etapa, combinando a verossimilhana com a priori de obtemos que c |x Gama sendo
2 2 n1 = n0 + n e n1 1 = n0 0 + 2 n1 n1 1 , 2 2
(xi x)2 + c0 n(0 x)2 /(c0 + n).
2 Equivalentemente, podemos escrever a posteriori de como n1 1 2 1 . Asn 2 sim, a posteriori conjunta (, |x) Normal-Gama(1 , c1 , n1 , 1 ) e portanto a e
2.4. PRIORI NAO INFORMATIVA posteriori marginal de ca

2 | x tn1 (1 , 1 /c1 ).
25
Em muitas situaoes mais fcil pensar em termos de algumas caracter c e a sticas da distribuiao a priori do que em termos de seus hiperparmetros. Por exemplo, c a se E() = 2, V ar() = 5, E() = 3 e V ar() = 3 ento a (i) 0 = 2 pois E() = 0 .
2 2 (ii) 0 = 1/3 pois E() = 1/0 . 4 (iii) n0 = 6 pois V ar() = 2/(n0 0 ) = 18/n0 .
(iv) c0 = 1/10 pois V ar() =
n0 n0 2
2 0 1 = c0 2c0
2.4
Priori no Informativa a
Esta seao refere-se a especicaao de distribuioes a priori quando se espera que c c c a informaao dos dados seja dominante, no sentido de que a nossa informaao c c a priori vaga. Os conceitos de conhecimento vago, no informaao, ou ige a c norncia a priori claramente no so unicos e o problema de caracterizar prioris a a a com tais caracter sticas pode se tornar bastante complexo. Por outro lado, reconhece-se a necessidade de alguma forma de anlise que, a em algum sentido, consiga captar esta noao de uma priori que tenha um efeito c m nimo, relativamente aos dados, na inferncia nal. Tal anlise pode ser pene a sada como um ponto de partida quando no se consegue fazer uma elicitaao a c detalhada do verdadeiro conhecimento a priori. Neste sentido, sero apresena tadas aqui algumas formas de como fazer enquanto discusses mais detalhadas o so encontradas em Berger (1985), Box & Tiao (1992), Bernardo & Smith (1994) a e OHagan (1994). A primeira idia de no informaao a priori que se pode ter pensar em e a c e todos os poss veis valores de como igualmente provveis, i.e. com uma disa tribuiao a priori uniforme. Neste caso, fazendo p() k para variando em um c subconjunto da reta signica que nenhum valor particular tem preferncia (Bayes, e 1763). Porm esta escolha de priori pode trazer algumas diculdades tcnicas, e e (i) Se o intervalo de variaao de for ilimitado ento a distribuiao a priori c a c e imprpria, i.e. o p()d = .
26
(ii) Se = g() uma reparametrizaao no linear montona de ento p() e c a o a e no uniforme j que pelo teorema de transformaao de variveis a a c a p() = p(()) d d . d d
Na prtica, como estaremos interessados na distribuiao a posteriori no darea c a mos muita importncia ` impropriedade da distribuiao a priori. No entanto dea a c vemos sempre nos certicar de que a posterior prpria antes de fazer qualquer e o inferncia. e A classe de prioris no informativas proposta por Jereys (1961) invariante a e a transformaoes 1 a 1, embora em geral seja imprpria e ser denida a seguir. c o a Antes porm precisamos da deniao da medida de informaao de Fisher. e c c Denio 2.3 Considere uma unica observao X com funo de (densidade) ca ca ca de probabilidade p(x|). A medida de informao esperada de Fisher de atravs ca e de X denida como e 2 log p(x|) I() = E . 2 Se for um vetor paramtrico dene-se ento a matriz de informao esperada e a ca de Fisher de atravs de X como e I() = E 2 log p(x|) .
Note que o conceito de informaao aqui est sendo associado a uma espcie de c a e curvatura mdia da funao de verossimilhana no sentido de que quanto maior a e c c curvatura mais precisa a informaao contida na verossimilhana, ou equivalene c c temente maior o valor de I(). Em geral espera-se que a curvatura seja negativa e por isso seu valor tomado com sinal trocado. Note tambm que a esperana e e c matemtica tomada em relaao ` distribuiao amostral p(x|). a e c a c Podemos considerar ento I() uma medida de informaao global enquanto a c que uma medida de informaao local obtida quando no se toma o valor esperado c e a na deniao acima. A medida de informaao observada de Fisher J() ca ento c c a denida como 2 log p(x|) J() = 2 e que ser utilizada mais adiante quando falarmos sobre estimaao. a c Denio 2.4 Seja uma observao X com funo de (densidade) de probabilica ca ca dade p(x|). A priori no informativa de Jereys tem funo de densidade dada a ca por p() [I()]1/2 .
2.4. PRIORI NAO INFORMATIVA Se for um vetor paramtrico ento p() | det I()|1/2 . e a
27
Exemplo 2.3 : Seja X1 , . . . , Xn Poisson(). Ento o logaritmo da funao de a c probabilidade conjunta dado por e
n n
log p(x|) = n +
i=1
xi log log
xi !
i=1
e tomando-se a segunda derivada segue que 2 log p(x|) n + = 2 e assim, 1 I() = 2 E

n i=1 n i=1
xi
n i=1 2
xi
xi = n/ 1 .
Portanto, a priori no informativa de Jereys para no modelo Poisson p() a e 1/2 . Note que esta priori obtida tomando-se a conjugada natural Gama(, ) e e fazendo-se = 1/2 e 0. Em geral a priori no informativa obtida fazendo-se o parmetro de escala a e a da distribuiao conjugada tender a zero e xando-se os demais parmetros convec a nientemente. Alm disso, a priori de Jereys assume formas espec e cas em alguns modelos que so frequentemente utilizados como veremos a seguir. a Denio 2.5 X tem um modelo de locao se existem uma funo f e uma ca ca ca quantidade tais que p(x|) = f (x ). Neste caso chamado de parmetro e a de locao. ca A deniao vale tambm quando um vetor de parmetros. Alguns exemc e e a plos importantes so a distribuiao normal com varincia conhecida, e a disa c a tribuiao normal multivariada com matriz de varincia-covarincia conhecida. c a a Pode-se mostrar que para o modelo de locaao a priori de Jereys dada por c e p() constante. Denio 2.6 X tem um modelo de escala se existem uma funo f e uma ca ca quantidade tais que p(x|) = (1/)f (x/). Neste caso chamado de e parmetro de escala. a Alguns exemplos so a distribuiao exponencial com parmetro , com parmetro a c a a 2 de escala = 1/, e a distribuiao N (, ) com mdia conhecida e escala . c e Pode-se mostrar que para o modelo de escala a priori de Jereys dada por e 1 p() .
28
Denio 2.7 X tem um modelo de locao e escala se existem uma funo f ca ca ca e as quantidades e tais que p(x|, ) = 1 f x .
Neste caso chamado de parmetro de locao e de parmetro de escala. e a ca a Alguns exemplos so a distribuiao normal (uni e multivariada) e a distribuiao a c c de Cauchy. Em modelos de locaao e escala, a priori no informativa pode ser c a obtida assumindo-se independncia a priori entre e de modo que p(, ) = e 1 p()p() . Exemplo 2.4 : Seja X1 , . . . , Xn N (, 2 ) com e 2 desconhecidos. Neste caso, 2 1 1 x p(x|, 2 ) exp , 2 portanto (, ) parmetro de locaao-escala e p(, ) 1 a priori no e a c e a informativa. Ento, pela propriedade da invarincia, a priori no informativa a a a 2 2 2 para (, ) no modelo normal p(, ) . e Vale notar entretanto que a priori no informativa de Jereys viola o princ a pio da verossimilhana, j que a informaao de Fisher depende da distribuiao c a c c amostral.
2.5
Prioris Hierrquicas a
A idia aqui dividir a especicaao da distribuiao a priori em estgios. Alm e e c c a e de facilitar a especicaao esta abordagem natural em determinadas situaoes c e c experimentais. A distribuiao a priori de depende dos valores dos hiperparmetros e podec a mos escrever p(|) ao invs de p(). Alm disso, ao invs de xar valores para os e e e hiperparmetros podemos especicar uma distribuiao a priori p() completando a c assim o segundo estgio na hierarquia. Assim, a distribuiao a priori conjunta a c e simplesmente p(, ) = p(|)p() e a distribuiao a priori marginal de pode c ser ento obtida por integraao como a c p() = p(, )d = p(|)p()d.
2.5. PRIORIS HIERARQUICAS A distribuiao a posteriori conjunta ca c p(, |x) p(x|, )p(|)p() p(x|)p(|)p()
29
pois a distribuiao dos dados depende somente de . Em outras palavras, dado c , x e so independentes. a Exemplo 2.5 : Sejam X1 , . . . , Xn tais que Xi N (i , 2 ) com 2 conhecido e queremos especicar uma distribuiao a priori para o vetor de parmetros = c a (1 , . . . , n ). Suponha que no primeiro estgio assumimos que i N (, 2 ), a 2 i = 1, . . . , n. Neste caso, se xarmos o valor de 2 = 0 e assumirmos que tem distribuiao normal ento ter distribuiao normal multivariada. Por outro c a a c lado, xando um valor para = 0 e assumindo que 2 tem distribuiao Gama c implicar em uma distribuiao t de Student multivariada para . a c Teoricamente, no h limitaao quanto ao nmero de estgios, mas devido `s a a c u a a complexidades resultantes as prioris hierrquicas so especicadas em geral em 2 a a ou 3 estgios. Alm disso, devido a diculdade de interpretaao dos hiperparmeta e ` c a ros em estgios mais altos prtica comum especicar prioris no informativas a e a a para este n veis. Uma aplicaao interessante do conceito de hierarquia quando a informaao a c e c priori dispon s pode ser convenientemente resumida atravs de uma mistura vel o e de distribuioes. Isto implica em considerar uma distribuiao discreta para de c c modo que, se assume os poss veis valores 1 , . . . , k ento a
k
p() =
i=1
p(|i )p(i ).
No dif vericar que a distribuiao a posteriori de tambm uma mistura a e cil c e e com veremos a seguir. Aplicando o teorema de Bayes temos que,
k
p(|x) =
p()p(x|) p()p(x|)d
p(x|)p(|i )p(i ) =
i=1 k
. p(x|)p(|i )d
p(i )
i=1
Mas note que a distribuiao a posteriori condicional de dado i obtida via c e teorema de Bayes como p(|x, i ) = p(x|)p(|i ) p(x|)p(|i )d = p(x|)p(|i ) m(x|i )
30
e a distribuiao a posteriori de i obtida como c e p(i ) = m(x|i )p() . p(x)
Portanto p(x|)p(|i )=p(|x, i )m(x|i ). Assim, podemos escrever a posteriori de como

k
p(|x, i )m(x|i )p(i ) p( |x) =

i=1 k
= m(x|i )p(i )
i=1
p(|x, i )p(i |x)
i=1
Note tambm que p(x) = e m(x|i )p(i ), isto a distribuiao preditiva, uma e c e mistura de preditivas condicionais. Exemplo 2.6 : Se (0, 1), a fam de distribuioes a priori Beta(a, b) conlia c e veniente. Mas estas so sempre unimodais e (se a = b) assimtricas ` esquerda ou a e a a ` direita. Outras formas interessantes, e mais de acordo com a nossa informaao c a priori, podem ser obtidas misturando-se 2 ou 3 elementos desta fam lia. Por exemplo, 0, 25Beta(3, 8) + 0, 75Beta(8, 3) representa a informaao a priori de que (0, 5; 0, 95) com alta probabilidade c (0,71) mas tambm que (0, 1; 0, 4) com probabilidade moderada (0,20). As e modas desta distribuiao so 0,23 e 0,78. Por outro lado c a 0, 33Beta(4, 10) + 0, 33Beta(15, 28) + 0, 33Beta(50, 70) representa a informaao a priori de que > 0, 6 com probabilidade desprez c vel. Estas densidades esto representadas gracamente na Figura 2.2 a seguir. Note a que a primeira mistura deu origem a uma distribuiao a priori bimodal enquanto c a segunda originou uma priori assimtrica ` esquerda com mdia igual a 0,35. e a e Para outros exemplos de misturas de prioris ver OHagan (1994). Para um excelente material sobre modelos hierrquicos ver (Gelman et al. 2004). a
2.6
Problemas
1. Mostre que a fam de distribuioes Beta conjugada em relaao `s dislia c e c a tribuioes amostrais binomial, geomtrica e binomial negativa. c e
2.6. PROBLEMAS
31
.33B(4,10)+.33B(15,28)+.33B(50,70) .25 B(3,8)+.75 B(8,3)
0 0.0
0.2
0.4
0.6
0.8
1.0
Figura 2.2: Misturas de funes de densidade Beta(3,8) e Beta(8,3) com pesos 0,25 e co
0,75 e Beta(4,10), Beta(15,28) e Beta(50,70) com pesos iguais a 0,33.
2. Para uma amostra aleatria de 100 observaoes da distribuiao normal com o c c mdia e desvio-padro 2 foi especicada uma priori normal para . e a (a) Mostre que o desvio-padro a posteriori ser sempre menor do que 1/5. a a Interprete este resultado. (b) Se o desvio-padro a priori for igual a 1 qual deve ser o menor nmero a u de observaoes para que o desvio-padro a posteriori seja 0,1? c a 3. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com cono c hecido. Utilizando uma distribuiao a priori Gama para 2 com coeciente c de variaao 0,5, qual deve ser o tamanho amostral para que o coeciente de c variaao a posteriori diminua para 0,1? c 4. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao N (, 2 ), com e o c 2 desconhecidos, e considere a priori conjugada de (, ).
2 (a) Determine os parmetros (0 , c0 , n0 , 0 ) utilizando as seguintes infora maoes a priori: E() = 0, P (|| < 1, 412) = 0, 5, E() = 2 e c E(2 ) = 5.
32
CAP ITULO 2. DISTRIBUICOES A PRIORI (b) Em uma amostra de tamanho n = 10 foi observado X = 1 e n 2 c i=1 (Xi X) = 8. Obtenha a distribuiao a posteriori de e esboce os grcos das distribuioes a priori, a posteriori e da funao de a c c verossimilhana, com xo. c (c) Calcule P (|Y | > 1|x) onde Y uma observaao tomada da mesma e c populaao. c 5. Suponha que o tempo, em minutos, para atendimento a clientes segue uma distribuiao exponencial com parmetro desconhecido. Com base na exc a perincia anterior assume-se uma distribuiao a priori Gama com mdia 0,2 e c e e desvio-padro 1 para . a (a) Se o tempo mdio para atender uma amostra aleatria de 20 clientes e o foi de 3,8 minutos, qual a distribuiao a posteriori de . c (b) Qual o menor nmero de clientes que precisam ser observados para u que o coeciente de variaao a posteriori se reduza para 0,1? c 6. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao de Poisson com o c parmetro . a (a) Determine os parmetros da priori conjugada de sabendo que E() = a 4 e o coeciente de variaao a priori 0,5. c e (b) Quantas observaoes devem ser tomadas at que a varincia a postec e a riori se reduza para 0,01 ou menos? (c) Mostre que a mdia a posteriori da forma n x + (1 n )0 , onde e e 0 = E() e n 1 quando n . Interprete este resultado. 7. O nmero mdio de defeitos por 100 metros de uma ta magntica desconu e e e hecido e denotado por . Atribui-se uma distribuiao a priori Gama(2,10) c para . Se um rolo de 1200 metros desta ta foi inspecionado e encontrou-se 4 defeitos qual a distribuiao a posteriori de ? c 8. Seja X1 , . . . , Xn uma amostra aleatria da distribuiao Bernoulli com o c parmetro e usamos a priori conjugada Beta(a, b). Mostre que a ma e dia a posteriori da forma n x + (1 n )0 , onde 0 = E() e n 1 e quando n . Interprete este resultado. 9. Para uma amostra aleatria X1 , . . . , Xn tomada da distribuiao U (0, ), o c mostre que a fam de distribuioes de Pareto com parmetros a e b, cuja lia c a funao de densidade p() = aba /a+1 , conjugada ` uniforme. c e e a
2.6. PROBLEMAS
33
10. Para uma varivel aleatria > 0 a fam de distribuioes Gama-invertida a o lia c tem funao de densidade de probabilidade dada por c p() = (+1) / e , () , > 0.
Mostre que esta fam conjugada ao modelo normal com mdia conlia e e hecida e varincia desconhecida. a 11. Suponha que X = (X1 , X2 , X3 ) tenha distribuiao trinomial com parmetc a ros n (conhecido) e = (1 , 2 , 3 ) com 1 + 2 + 3 = 1. Mostre que a priori no informativa de Jereys para p() [1 2 (1 1 2 )]1/2 . a e 12. Para cada uma das distribuioes abaixo verique se o modelo de locaao, c e c escala ou locaao-escala e obtenha a priori no informativa para os parmetc a a ros desconhecidos. (a) Cauchy(0,). (b) t (, 2 ), conhecido. (c) Pareto(a, b), b conhecido. (d) Uniforme ( 1, + 1). (e) Uniforme (, ). 13. Seja uma coleao de variveis aleatrias independentes Xi com distribuioes c a o c p(xi |i ) e seja pi (i ) a priori no informativa de i , i = 1, . . . , k. Mostre que a a priori no informativa de Jereys para o vetor paramtrico = (1 , . . . , k ) a e k dada por i=1 pi (i ). e 14. Se tem priori no informativa p() k, > 0 mostre que a priori de a = a + b, a = 0 tambm p() k. e e 15. Se tem priori no informativa p() 1 mostre que a priori de = a , a a = 0 tambm p() 1 e que a priori de = log p() k. e e e 16. No Exemplo 1.3, sejam i = (i , i2 ), i = 1, 2, as mdias e varincias a e a priori dos f sicos A e B respectivamente. As prioris condicionais foram ento combinadas como a p() = p(1 )p(|1 ) + p(2 )p(|2 ) com p(1 ) = 0, 25 e p(2 ) = 0, 75. Usando as posterioris condicionais obtidas naquele exemplo obtenha a distribuiao a posteriori de (incondicional). c Esboce e comente os grcos das densidades a priori e posteriori. a
34
17. Se X Binomial Negativa(v, ) obtenha a priori de Jereys para . 18. Se X Geometrica() obtenha a priori de Jereys para .
Cap tulo 3 Estimao ca

A distribuiao a posteriori de um parmetro contm toda a informaao probc a e c abil stica a respeito deste parmetro e um grco da sua funao de densidade a a a c posteriori a melhor descriao do processo de inferncia. No entanto, algumas e c e vezes necessrio resumir a informaao contida na posteriori atravs de alguns e a c e poucos valores numricos. O caso mais simples a estimaao pontual de onde se e e c resume a distribuiao a posteriori atravs de um unico nmero, . Como veremos c e u a seguir, ser mais fcil entender a escolha de no contexto de teoria da deciso. a a a
3.1
Introduo ` Teoria da Deciso ca a a
Um problema de deciso ca completamente especicado pela descriao dos a c seguintes espaos: c (i) Espao do parmetro ou estados da natureza, . c a (ii) Espao dos resultados poss c veis de um experimento, . (iii) Espao de poss c veis aoes, A. c Uma regra de deciso uma funao denida em que assume valores em A, a e c i.e. : A. A cada deciso e a cada poss valor do parmetro podemos a vel a associar uma perda L(, ) assumindo valores positivos. Denimos assim uma funao de perda. c Denio 3.1 O risco de uma regra de deciso, denotado por R(), a perda ca a e esperada a posteriori, i.e. R() = E|x [L(, )]. Denio 3.2 Uma regra de deciso tima se tem risco m ca a e o nimo, i.e. R( ) < R(), . Esta regra ser denominada regra de Bayes e seu risco, a risco de Bayes. 35
36
CAP ITULO 3. ESTIMACAO
Exemplo 3.1 : Um laboratrio farmaceutico deve decidir pelo lanamento ou o c no de uma nova droga no mercado. E claro que o laboratrio s lanar a droga a o o c a se achar que ela eciente mas isto exatamente o que desconhecido. Podemos e e e associar um parmetro aos estados da natureza: droga eciente ( = 1), droga a e no eciente ( = 0) e as poss a e veis aoes como lana a droga ( = 1), no lana c c a c a droga ( = 0). Suponha que foi poss construir a seguinte tabela de perdas vel levando em conta a ecincia da droga, e eciente no eciente a lana c -500 600 no lana a c 1500 100
Vale notar que estas perdas traduzem uma avaliaao subjetiva em relaao ` c c a gravidade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza descrita por P ( = 1) = , 0 < < 1 avaliada na distribuiao e c atualizada de (seja a priori ou a posteriori). Note que, para xo, L(, ) uma e varivel aleatria discreta assumindo apenas dois valores com probabilidades e a o 1 . Assim, usando a deniao de risco obtemos que c R( = 0) = E(L(0, )) = 1500 + (1 )100 = 1400 + 100 R( = 1) = E(L(1, )) = (500) + (1 )600 = 1100 + 600
Uma questo que se coloca aqui , para que valores de a regra de Bayes ser de a e a lanar a droga. No dif vericar que as duas aoes levaro ao mesmo risco, c a e cil c a i.e. R( = 0) = R( = 1) se somente se = 0, 20. Alm disso, para < 0, 20 e temos que R( = 0) < R( = 1) e a regra de Bayes consiste em no lanar a a c droga enquanto que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes deve ser de lanar a droga. c
3.2
Estimadores de Bayes
Seja agora uma amostra aleatria X1 , . . . , Xn tomada de uma distribuiao com o c funao de (densidade) de probabilidade p(x|) aonde o valor do parmetro c a e desconhecido. Em um problema de inferncia como este o valor de deve ser e estimado a partir dos valores observados na amostra. Se ento razovel que os poss a e a veis valores de um estimador (X) tambm devam pertencer ao espao . Alm disso, um bom estimador aquele e c e e para o qual, com alta probabilidade, o erro (X) estar prximo de zero. a o Para cada possivel valor de e cada possivel estimativa a vamos associar uma perda L(a, ) de modo que quanto maior a distncia entre a e maior o a
3.2. ESTIMADORES DE BAYES valor da perda. Neste caso, a perda esperada a posteriori dada por e E[L(a, )|x] = L(a, )p(|x)d
37
e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada. Aqui vamos discutir apenas funoes de perda simtricas, j que estas so mais c e a a comumente utilizadas (para outras funoes de perda ver por exemplo (Bernardo c & Smith 1994) e OHagan 1994). Dentre estas a mais utilizada em problemas de estimaao certamente a funao de perda quadrtica, denida como L(a, ) = c e c a 2 (a ) . Neste caso, pode-se mostrar que o estimador de Bayes para o parmetro a ser a mdia de sua distribuiao atualizada. a e c Exemplo 3.2 : Suponha que queremos estimar a proporao de itens defeituosos c em um grande lote. Para isto ser tomada uma amostra aleatria X1 , . . . , Xn de a o uma distribuiao de Bernoulli com parmetro . Usando uma priori conjugada c a Beta(, ) sabemos que aps observar a amostra a distribuiao a posteriori o c e n Beta( + t, + n t) onde t = i=1 xi . A mdia desta distribuiao Beta dada e c e por ( + t)/( + + n) e portanto o estimador de Bayes de usando perda quadrtica a e + n Xi i=1 . (X) = ++n
A perda quadrtica as vezes criticada por penalizar demais o erro de estia e maao. A funao de perda absoluta, denida como L(a, ) = |a |, introduz c c punioes que crescem linearmente com o erro de estimaao e pode-se mostrar que c c o estimador de Bayes associado a mediana da distribuiao atualizada de . e c Para reduzir ainda mais o efeito de erros de estimaao grandes podemos conc siderar funoes que associam uma perda xa a um erro cometido, no importando c a sua magnitude. Uma tal funao de perda, denominada perda 0-1, denida como c e L(a, ) = 1 se |a | > 0 se |a | <
para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes a moda e da distribuiao atualizada de . A moda da posteriori de tambm chamado c e e de estimador de mxima verossimilhana generalizado (EMVG) e o mais fcil a c e a de ser obtido dentre os estimadores vistos at agora. No caso cont e nuo devemos obter a soluao da equaao c c p(|x) = 0.
38 Note que isto equivale a obter a soluao de c p(x|)p() =0
e no necessrio conhecer a expresso exata de p(|x). a e a a Exemplo 3.3 : Se X1 , . . . , Xn uma amostra aleatria da N (, 2 ) com 2 e o 2 conhecido e usarmos a priori conjugada, i.e. N (0 , 0 ) ento a posteriori a tambm ser normal e neste caso mdia, mediana e moda coincidem. Portanto, e a e o estimador de Bayes de dado por e (X) =
2 0 0 + n 2 X . 2 0 + n 2
Exemplo 3.4 : No exemplo 3.2 suponha que foram observados 100 itens dos quais 10 eram defeituosos. Usando perda quadrtica a estimativa de Bayes de a e + 10 (x) = + + 100 Assim, se a priori for Beta(1,1), ou equivalentemente U (0, 1), ento (x) = 0, 108. a Por outro lado se especicarmos uma priori Beta(1,2), que bem diferente da ane terior, ento (x) = 0, 107. Ou seja, as estimativas de Bayes so bastante prxia a o mas, e isto uma consequncia do tamanho amostral ser grande. Note tambm e e e que ambas as estimativas so prximas da proporao amostral de defeituosos 0,1, a o c que a estimativa de mxima verossimilhana. Se usarmos perda 0-1 e priori e a c Beta(1,1) ento (x) = 0, 1. a
3.3
Estimao por Intervalos ca
Voltamos a enfatizar que a forma mais adequada de expressar a informaao que c se tem sobre um parmetro atravs de sua distribuiao a posteriori. A principal a e e c restriao da estimaao pontual que quando estimamos um parmetro atravs de c c e a e um unico valor numrico toda a informaao presente na distribuiao a posteriori e c c resumida atravs deste nmero. E importante tambm associar alguma infore e u e maao sobre o quo precisa a especicaao deste nmero. Para os estimadores c a e c u vistos aqui as medidas de incerteza mais usuais so a varincia ou o coeciente de a a variaao para a mdia a posteriori, a medida de informaao observada de Fisher c e c para a moda a posteriori, e a distncia entre quartis para a mediana a posteriori. a Nesta seao vamos introduzir um compromisso entre o uso da prpria disc o tribuiao a posteriori e uma estimativa pontual. Ser discutido o conceito de c a
3.4. ESTIMACAO NO MODELO NORMAL
39
intervalo de credibilidade (ou intervalo de conana Bayesiano) baseado no disc tribuiao a posteriori. c Denio 3.3 C um intervalo de credibilidade de 100(1-)%, ou n de credca e vel ibilidade (ou conana) 1 , para se P ( C) 1 . c Note que a deniao expressa de forma probabil c stica a pertinncia ou no de e a ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada a distribuiao do parmetro, ou seja o tamanho do intervalo informa sobre a e c a disperso de . Alm disso, a exigncia de que a probabilidade acima possa ser a e e maior do que o n de conana essencialmente tcnica pois queremos que o vel c e e intervalo seja o menor poss vel, o que em geral implica em usar uma igualdade. No entanto, a desigualdade ser util se tiver uma distribuiao discreta onde a c nem sempre poss satisfazer a igualdade. e vel Outro fato importante que os intervalos de credibilidade so invariantes a e a transformaoes 1 a 1, (). Ou seja, se C = [a, b] um intervalo de credibilidade c e 100(1-)% para ento [(a), (b)] um intervalo de credibilidade 100(1-)% a e para (). Note que esta propriedade tambm vale para intervalos de conana e c na inferncia clssica. e a poss construir uma innidade de intervalos usando a deniao acima mas E vel c estamos interessados apenas naquele com o menor comprimento poss vel. Pode-se mostrar que intervalos de comprimento m nimo so obtidos tomando-se os valores a de com maior densidade a posteriori, e esta idia expressa matematicamente e e na deniao abaixo. c Denio 3.4 Um intervalo de credibilidade C de 100(1-)% para de mxca e a ima densidade a posteriori (MDP) se C = { : p(|x) k()} onde k() e a maior constante tal que P ( C) 1 . Usando esta deniao, todos os pontos dentro do intervalo MDP tero denc a sidade maior do que qualquer ponto fora do intervalo. Alm disso, no caso de e distribuioes com duas caudas, e.g. normal, t de Student, o intervalo MDP c e obtido de modo que as caudas tenham a mesma probabilidade. Um problema com os intervalos MDP que eles no so invariantes a transformaoes 1 a 1, a e a a c no ser para transformaoes lineares. O mesmo problema ocorre com intervalos a c de comprimento m nimo na inferncia clssica. e a
3.4
Estimao no Modelo Normal ca
Os resultados desenvolvidos nos cap tulos anteriores sero aplicados ao modelo a normal para estimaao da mdia e varincia em problemas de uma ou mais c e a
40
amostras e em modelos de regresso linear. A anlise ser feita com priori cona a a jugada e priori no informativa quando sero apontadas as semelhanas com a a a c anlise clssica. Assim como nos cap a a tulos anteriores a abordagem aqui ine trodutria. Um tratamento mais completo do enfoque Bayesiano em modelos o lineares pode ser encontrado em Broemeling (1985) e Box & Tiao (1992). Nesta seao considere uma amostra aleatria X1 , , Xn tomada da disc o 2 tribuiao N (, ). c
3.4.1
Varincia Conhecida a
2 Se 2 conhecido e a priori de N (0 , 0 ) ento, pelo Teorema 1.1, a posteriori e e a 2 de N (1 , 1 ). Intervalos de conana Bayesianos para podem ento ser e c a constru dos usando o fato de que
1 |x N (0, 1). 1 Assim, usando uma tabela da distribuiao normal padronizada podemos obter o c valor do percentil z/2 tal que P z/2 1 z/2 1 =1
e aps isolar , obtemos que o P 1 z/2 1 1 + z/2 1 = 1 . Portanto 1 z/2 1 ; 1 + z/2 1 o intervalo de conana 100(1-)% MDP e c para , devido ` simetria da normal. a A priori no informativa pode ser obtida fazendo-se a varincia da priori a a 2 2 tender a innito, i.e. 0 . Neste caso, fcil vericar que 1 n 2 e a e a e e 1 x, i.e. a mdia e a preciso da posteriori convergem para a mdia e a preciso amostrais. Mdia, moda e mediana a posteriori coincidem ento com a e a a estimativa clssica de mxima verossimilhana, x. O intervalo de conana a a c c Bayesiano 100(1-)% dado por e x z/2 / n; x + z/2 / n e tambm coincide numericamente com o intervalo de conana clssico. Aqui e c a entretanto a interpretaao do intervalo como uma armaao probabil c e c stica sobre .
41
3.4.2
Mdia e Varincia desconhecidas e a
Neste caso, usando a priori conjugada Normal-Gama vista no Cap tulo 2 temos que a distribuiao a posteriori marginal de dada por c e
2 |x tn1 (1 , 1 /c1 ).
Portanto, mdia, moda e mediana a posteriori coincidem e so dadas por 1 . e a Denotando por t/2,n1 o percentil 100(1-/2)% da distribuiao tn1 (0, 1) podemos c obter este percentil tal que P t/2,n1 1 c1 t/2,n1 1 =1
e aps isolar , usando a simetria da distribuiao t-Student obtemos que o c 1 1 1 t/2,n1 1 + t/2,n1 c1 c1 o intervalo de conana Bayesiano 100(1-)% de MDP para . e c No caso da varincia populacional 2 intervalos de conana podem ser obtia c dos usando os percentis da distribuiao qui-quadrado uma vez que a distribuiao c c 2 2 a posteriori de tal que n1 1 |x n1 . Denotando por e 2 /2,n
1
e 2 1 /2,n
os percentis /2 e 1/2 da distribuiao qui-quadrado com n1 graus de liberdade c respectivamente, podemos obter estes percentis tais que P 2 /2,n
2 n1 1
1
2 1 /2,n
2 n1 1
= 1 .
Note que este intervalo no de MDP j que a distribuiao qui-quadrado no a e a c a e 2 simtrica. Como = 1/ uma funao 1 a 1 podemos usar a propriedade de e e c invarincia e portanto a 2 n1 1 n1 2 ; 2 1 2 1 /2,n /2,n
1
o intervalo de conana Bayesiano 100(1-)% para 2 . e c Um caso particular quanto utilizamos uma priori no informativa. Vimos e a na Seao 2.4 que a priori no informativa de locaao e escala p(, ) 1/, c a c e portanto pela propriedade de invarincia segue que a priori no informativa de a a (, ) obtida fazendo-se p(, ) 1 pois p(, 2 ) 2 . Note que este um e e 2 caso particular (degenerado) da priori conjugada natural com c0 = 0, 0 = 0 e
42
n0 = 1. Neste caso a distribuiao a posteriori marginal de ca c |x tn1 (x, s2 /n) sendo s2 = 1/(n 1) n (xi x)2 a varincia amostral. Mais uma vez mdia, a e i=1 e moda e mediana a posteriori de coincidem com a mdia amostral x que a e estimativa de mxima verossimilhana. Como n( x)/s tn1 (0, 1) segue a c que o intervalo de conana 100(1-)% para de MDP c e s s x t/2,n1 ; x + t/2,n1 n n que coincide numericamente com o intervalo de conana clssico. c a 2 Para fazer inferncias sobre temos que e |x Gama n 1 (n 1)s2 , 2 2 ou (n 1)s2 |x 2 . n1
A estimativa pontual de 2 utilizada [E(|x)]1 = s2 que coincide com e a estimativa clssica uma vez que o estimador de mxima verossimilhana a a c 2 2 (n 1)S /n viciado e normalmente substituido por S (que no viciado). e e a Os intervalos de conana 100(1-)% Bayesiano e clssico tambm coincidem e c a e so dados por a (n 1)s2 (n 1)s2 . ; 2 /2,n1 2 /2,n1 Mais uma vez vale enfatizar que esta coincidncia com as estimativas clse a sicas apenas numrica uma vez que as interpretaoes dos intervalos diferem e e c radicalmente.
3.4.3
O Caso de duas Amostras
a Nesta seao vamos assumir que X11 , . . . , X1n1 e X21 , . . . , X2n2 so amostras c 2 2 aleatrias das distribuioes N (1 , 1 ) e N (2 , 2 ) respectivamente e que as o c amostras so independentes. a 2 2 Para comear vamos assumir que as varincias 1 e 2 so conhecidas. Neste c a a caso, a funao de verossimilhana dada por c c e p(x1 , x2 |1 , 2 ) = p(x1 |1 )p(x2 |2 ) n2 n1 exp 2 (1 x1 )2 exp 2 (2 x2 )2 21 22 isto , o produto de verossimilhanas relativas a 1 e 2 . Assim, se assumirmos e c que 1 e 2 so independentes a priori ento eles tambm sero independentes a a a e a
3.4. ESTIMACAO NO MODELO NORMAL posteriori j que a p(1 , 2 |x1 , x2 ) = p(x1 |1 )p(1 ) p(x2 |2 )p(2 ) . p(x1 ) p(x2 )
43
Se usarmos a classe de prioris conjugadas i N (i , i2 ) ento as posterioris a 2 independentes sero i |xi N (i , i ) onde a = i
2 i2 i + ni i xi 2 i2 + ni i 2 e i = 1/(i2 + ni i ),
2
i = 1, 2.
Em geral estaremos interessados em comparar as mdias populacionais, i.e e queremos estimar = 1 2 (por exemplo, testar se 1 = 2 ). Neste caso, a posteriori de facilmente obtida, devido ` independncia, como e a e
|x1 , x2 N ( , 1 + 2 ) 1 2
2 2
e podemos usar como estimativa pontual para a diferena e tambm c e 1 2 construir um intervalo de credibilidade MDP para esta diferena. c ( ) z/2 1 2
1 + 2 .
2 2
Note que se usarmos priori no informativa, i.e. fazendo i2 , i = 1, 2 ento a a a posteriori ca 2 2 1 2 + |x1 , x2 N x1 x2 , n1 n2 e o intervalo obtido coincidir mais uma vez com o intervalo de conana clssico. a c a
No caso de varincias populacionais desconhecidas porm iguais, temos que a e 2 2 2 = 1 = 2 = . A priori conjugada pode ser constru em duas etapas. da No primeiro estgio, assumimos que, dado , 1 e 2 so a priori condicionalmente a a independentes, e especicamos i | N (i , (ci )1 ), i = 1, 2. e no segundo estgio, especicamos a priori conjugada natural para , i.e. a Gama
2 n0 n0 0 , 2 2
Combinando as prioris acima no dif vericar que a priori conjunta de a e cil
44 (1 , 2 , ) e
p(1 , 2 , ) = p(1 |)p(2 |)p() 2 n0 /2 exp n0 0 + c1 (1 1 )2 + c2 (2 2 )2 2
Alm disso, tambm no dif obter a priori condicional de = 1 2 , dado e e a e cil , como | N (1 2 , 1 (c1 + c1 )) 1 2 e portanto, usando os resultados da Seao 2.3.5 segue que a distribuiao a priori c c marginal da diferena c e
2 tn0 (1 2 , 0 (c1 + c1 )). 1 2
Podemos mais uma vez obter a posteriori conjunta em duas etapas j que 1 e a 2 tambm sero condicionalmente independentes a posteriori, dado . Assim, no e a primeiro estgio usando os resultados obtidos anteriormente para uma amostra a segue que i |, x N ( , (c )1 ), i = 1, 2 i i onde = i c i i + ni x i c i + ni e c = c i + ni . i
Na segunda etapa temos que combinar a verossimilhana com a priori de c (1 , 2 , ). Denindo a varincia amostral combinada a s2 = p
2 2 (n1 1)S1 + (n2 1)S2 n1 + n2 2
e denotando = n1 + n2 2, a funao de verossimilhana pode ser escrita como c c p(x1 , x2 |1 , 2 , ) = (n1 +n2 )/2 exp s2 + n1 (1 x1 )2 + n2 (2 x2 )2 2
e aps algum algebrismo obtemos que a posteriori proporcional a o e

(n0 +n1 +n2 )/2
2 exp n0 0 + s2 + 2
i=1
c i ni (i xi )2 + c (i )2 i i ci
Como esta posteriori tem o mesmo formato da priori segue por analogia que |x Gama
n n 0 0 , 0 2 2
2

2
45
2 onde n = n0 + n1 + n2 e n 0 = n0 0 + s2 + 2 ci ni (i xi )2 /c . Ainda por 0 0 i i=1 analogia com o caso de uma amostra, a posteriori marginal da diferena dada c e por 1 1 2 |x tn ( , 0 (c + c )). 1 2 1 2 0
Assim, mdia, moda e mediana a posteriori de coincidem e a estimativa e pontual . Tambm intervalos de credibilidade de MDP podem ser obtidos e 1 e 2 usando os percentis da distribuiao t de Student. Para a varincia populacional c a 2 dos usando os a estimativa pontual usual 0 e intervalos podem ser constru e 2 2 percentis da distribuiao qui-quadrado j que n0 0 | x n c a 0 Vejamos agora como ca a anlise usando priori no informativa. Neste caso, a a p(1 , 2 , ) 1 e isto equivale a um caso particular (degenerado) da priori 2 conjugada com ci = 0, 0 = 0 e n0 = 2. Assim, temos que c = ni , = xi , i i 2 2 n0 = e n0 0 = s e a estimativa pontual concide com a estimativa de mxima a = x1 x2 . O intervalo de 100(1 )% de MDP para tem verossimilhana c limites 1 1 + x1 x2 t , sp 2 n1 n2 que coincide numericamente com o intervalo de conana clssico. c a O intervalo de 100(1 )% para 2 obtido de maneira anloga ao caso de e a uma amostra usando a distribuiao qui-quadrado, agora com graus de liberdade, c i.e. s2 s2 p p . 2 , 2 , ,
2 2
3.4.4
Varincias desiguais a
At agora assumimos que as varincias populacionais desconhecidas eram iguais e a (ou pelo menos aproximadamente iguais). Na inferncia clssica a violaao desta e a c suposiao leva a problemas tericos e prticos uma vez que no trivial encontrar c o a a e uma quantidade pivotal para com distribuiao conhecida ou tabelada. Na c verdade, se existem grandes diferenas de variabilidade entre as duas populaoes c c pode ser mais apropriado analisar conjuntamente as consequncias das diferenas e c entre as mdias e as varincias. Assim, caso o pesquisador tenha interesse no e a parmetro deve levar em conta os problemas de ordem terica introduzidos por a o 2 2 uma diferena substancial entre 1 e 2 . c Do ponto de vista Bayesiano o que precisamos fazer combinar informaao a e c priori com a verossimilhana e basear a estimaao na distribuiao a posteriori. A c c c funao de verossimilhana agora pode ser fatorada como c c
2 2 2 2 p(x1 , x2 |1 , 2 , 1 , 2 ) = p(x1 |1 , 1 )p(x2 |2 , 2 )
46
e vamos adotar prioris conjugadas normal-gama independentes com parmetros a 2 (i , ci , i , 0i ) para cada uma das amostras. Fazendo as operaoes usuais para c cada amostra, e usando a conjugaao da normal-gama, obtemos as seguintes c distribuioes a posteriori independentes c i |x t
2 ( , 0i /c ) i i
n 0i
e i |x Gama
n n 0i 0i , 0i 2 2
i = 1, 2.
Pode-se mostrar que tem uma distribuiao a posteriori chamada Behrensc Fisher, que semelhante ` t de Student e tabelada. Assim, intervalos de e a e credibilidade podem ser constru dos usando-se estes valores tabelados. Outra situaao de interesse a comparaao das duas varincias populacionais. c e c a Neste caso, faz mais sentido utilizar a razo de varincias ao invs da diferena a a e c j que elas medem a escala de uma distribuiao e so sempre positivas. Neste a c a 2 2 caso temos que obter a distribuiao a posteriori de 2 /1 = 1 /2 . Usando a c independncia a posteriori de 1 e 2 e aps algum algebrismo pode-se mostrar e o que 2 01 1 F (n , n ). 01 02 2 02 2 Embora sua funao de distribuiao no possa ser obtida analiticamente os valc c a ores esto tabelados em muitos livros de estat a stica e tambm podem ser obtidos e na maioria dos pacotes computacionais. Os percentis podem ento ser utilizados a na construao de intervalos de credibilidade para a razo de varincias. c a a Uma propriedade bastante util para calcular probabilidade com a distribuiao c 1 F vem do fato de que se X F (2 , 1 ) ento X F (1 , 2 ) por simples invera so na razo de distribuioes qui-quadrado independentes. Assim, denotando os a a c quantis e 1 da distribuiao F (1 , 2 ) por F (1 , 2 ) e F (1 , 2 ) respectivac mente segue que 1 F (1 , 2 ) = . F (2 , 1 ) Note que usual que os livros forneam tabelas com os percentis superiores da e c distribuiao F para vrias combinaoes de valores de 1 e 2 devido ` propriedade c a c a acima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter tambm um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de e liberdade. Finalmente, a anlise usando priori no informativa pode ser feita para a a 2 2 2 2 p(1 , 2 , 1 , 2 ) 1 2 e ser deixada como exerc a cio.
3.5. EXERC ICIOS
47
3.5
Exerc cios
1. Gere 2 amostras de tamanho 50 da distribuiao N (0, 1). Agora construa um c intervalo MDP de 95% para a diferena entre as mdias (assuma varincia c e a conhecida igual a 1). Qual a sua concluso? a 2. Repita a anlise da Seao 3.4.4 usando priori no informativa para a c a 2 2 2 2 p(1 , 2 , 1 , 2 ) 1 2 .
Cap tulo 4 Mtodos Aproximados e

4.1 Computao Bayesiana ca
Existem vrias formas de resumir a informaao descrita na distribuiao a postea c c riori. Esta etapa frequentemente envolve a avaliaao de probabilidades ou esperc anas. c Neste cap tulo sero descritos mtodos baseados em simulaao, incluindo a e c Monte Carlo simples, Monte Carlo com funao de importncia, mtodos de c a e reamostragem e Monte Carlo via cadeias de Markov (MCMC). O material apresentado introdutrio e mais detalhes sobre os estes mtodos podem ser obtidos e o e por exemplo em Gamerman (1997), Robert & Casella (1999) e Gamerman & Lopes (2006). Outros mtodos computacionalmente intensivos como tcnicas de e e otimizaao e integraao numrica, bem como aproximaoes anal c c e c ticas no sero a a tratados aqui e uma referncia introdutria Migon & Gamerman (1999). e o e Todos os algoritmos que sero vistos aqui so no determin a a a sticos, i.e. todos requerem a simulaao de nmeros (pseudo) aleatrios de alguma distribuiao de c u o c probabilidades. Em geral, a unica limitaao para o nmero de simulaoes so o c u c a tempo de computaao e a capacidade de armazenamento dos valores simulados. c Assim, se houver qualquer suspeita de que o nmero de simulaoes insuciente, u c e a abordagem mais simples consiste em simular mais valores.
4.2
Uma Palavra de Cautela
Apesar da sua grande utilidade, os mtodos que sero apresentados aqui devem ser e a aplicados com cautela. Devido ` facilidade com que os recursos computacionais a podem ser utilizados hoje em dia, corremos o risco de apresentar uma soluao para c o problema errado (o erro tipo 3) ou uma soluao ruim para o problema certo. c Assim, os mtodos computacionalmente intensivos no devem ser vistos como e a substitutos do pensamento cr tico sobre o problema por parte do pesquisador. 48
4.3. O PROBLEMA GERAL DA INFERENCIA BAYESIANA
49
Alm disso, sempre que poss e vel deve-se utilizar soluoes exatas, i.e. no c a aproximadas, se elas existirem. Por exemplo, em muitas situaoes em que prec cisamos calcular uma integral mltipla existe soluao exata em algumas dimenu c ses, enquanto nas outras dimenses temos que usar mtodos de aproximaao. o o e c
4.3
O Problema Geral da Inferncia Bayesiana e
A distribuiao a posteriori pode ser convenientemente resumida em termos de c esperanas de funoes particulares do parmetro , i.e. c c a E[g()|x] = g()p(|x)d
ou distribuioes a posteriori marginais quando for multidimensional, por exemc plo se = ( 1 , 2 ) ento a p( 1 |x) = p(|x)d 2 .
Assim, o problema geral da inferncia Bayesiana consiste em calcular tais e valores esperados segundo a distribuiao a posteriori de . Alguns exemplos so, c a 1. Constante normalizadora. g() = 1 e p(|x) = kq(), segue que
1
k=
q()d
2. Se g() = , ento tm-se = E(|x), mdia a posteriori. a e e 3. Quando g() = ( )2 , ento 2 = E(( )2 |x), a varincia a posteriori. a a 4. Se g() = IA (), onde IA (x) = 1 se x A e zero caso contrrio, ento a a P (A | x) = p(|x)d
A
5. Seja g() = p(y|), onde y x|. Nestas condioes obtemos E[p(y|x)], a c distribuiao preditiva de y, uma observaao futura. c c Portanto, a habilidade de integrar funoes, muitas vezes complexas e multic dimensionais, extremamente importante em inferncia Bayesiana. Inferncia e e e exata somente ser poss se estas integrais puderem ser calculadas analiticaa vel mente, caso contrrio devemos usar aproximaoes. Nas prximas seoes iremos a c o c apresentar mtodos aproximados baseados em simulaao para obtenao dessas e c c integrais.
50
CAP ITULO 4. METODOS APROXIMADOS
4.4
Mtodo de Monte Carlo Simples e
A idia do mtodo justamente escrever a integral que se deseja calcular como e e e um valor esperado. Para introduzir o mtodo considere o problema de calcular a e integral de uma funao g() no intervalo (a, b), i.e. c
b
I=
a
g()d.
Esta integral pode ser reescrita como

b
I=
a
(b a)g()
1 d = (b a)E[g()] ba
identicando como uma varivel aleatria com distribuiao U (a, b). Assim, a o c transformamos o problema de avaliar a integral no problema estat stico de estimar uma mdia, E[g()]. Se dispomos de uma amostra aleatria de tamanho e o n, 1 , . . . , n da distribuiao uniforme no intervalo (a, b) teremos tambm uma c e amostra de valores g(1 ), . . . , g(n ) da funao g() e a integral acima pode ser c estimada pela mdia amostral, i.e. e 1 I = (b a) n
n
g(i ).
i=1
No dif vericar que esta estimativa no viesada j que a e cil e a a (b a) E(I) = n

n b
i=1
E[g(i )] = (b a)E[g()] =
g()d.
a
Podemos ento usar o seguinte algoritmo a 1. gere 1 , . . . , n da distribuiao U (a, b); c 2. calcule g(1 ), . . . , g(n ); 3. calcule a mdia amostral g = e 4. calcule I = (b a)g Exemplo 4.1 : Suponha que queremos calcular ser reescrita como
3 3 1 n i=1
g(i )/n
exp(x)dx. A integral pode
(3 1)
exp(x)/(3 1)dx
e ser aproximada usando 100 valores simulados da distribuiao Uniforme no a c xi intervalo (1,3) e calculando yi = e , i = 1, . . . , 100. O valor aproximado da
4.4. METODO DE MONTE CARLO SIMPLES
51
integral 2 100 yi /100. Por outro lado, sabemos que exp(x) a funao de e e c i=1 densidade de uma v.a. X Exp(1) e portanto a integral pode ser calculada de forma exata,
3 1
exp(x)dx = P r(X < 3) P r(X < 1) = 0.3181.
Podemos escrever uma funao mais geral no R cujos argumentos so o nmero c a u de simulaoes e os limites de integraao. c c > int.exp = function(n, a, b) { + x = runif(n, a, b) + y = exp(-x) + int.exp = (b - a) * mean(y) + return(int.exp) + } Executando a funao int.exp digamos 50 vezes com n = 10, a = 1 e b = 3 c existir uma variaao considervel na estimativa da integral. Veja a Figura 4.1. a c a Isto se chama erro de Monte Carlo e decresce conforme aumentamos o nmero u de simulaoes. Repetindo o experimento com n = 1000 a variaao car bem c c a menor. Na Figura 4.2 a evoluao deste erro conforme se aumenta o nmero de c u simulaoes ca bem evidente. Os comandos do R a seguir foram utilizados. c > > > + + + + > n = c(20, 50, 100, 200, 500) y = matrix(0, ncol = length(n), nrow = 50) for (j in 1:length(n)) { m = NULL for (i in 1:50) m = c(m, int.exp(n[j], 1, 3)) y[, j] = m } boxplot(data.frame(y), names = n)
A generalizaao bem simples para o caso em que a integral a esperana c e e c matemtica de uma funao g() onde tem funao de densidade p(), i.e. a c c
b
I=
a
g()p()d = E[g()].
(4.1)
Neste caso, podemos usar o mesmo algoritmo descrito acima modicando o passo 1 para gerar 1 , . . . , n da distribuiao p() e calculando c 1 I=g= n
n
g(i ).
i=1
52
0 0.20
0.25
0.30
0.35
0.40
Figura 4.1: Histograma de 50 estimativas de Monte Carlo da integral no Exemplo 4.1 com n = 10. Uma vez que as geraoes so independentes, pela Lei Forte dos Grandes c a converge quase certamente para I, Nmeros segue que I u 1 n
n
i=1
g(i ) E[g(], n .
Alm disso, temos uma amostra g(1 ), . . . , g(n ) tal que e E[g(i )] = E[g()] = I e V ar[g(i )] = 2 = 1 n (g(i ) g )2
e portanto a varincia do estimador pode tambm ser estimada como a e 1 v= 2 n

n
i=1
(g(i ) g)2 ,
i.e. a aproximaao pode ser to acurada quanto se deseje bastando aumentar o c a valor de n. E importante notar que n est sob nosso controle aqui, e no se trata a a do tamanho da amostra de dados. O Teorema Central do Limite tambm se aplica aqui de modo que para n e
53
0.20
0.25
0.30
0.35
0.40
20
50
100
200
500
Figura 4.2: Boxplots para 50 estimativas da integral no Exemplo 4.1 com n=20, 50,
100, 200, e 500 simulaes. co
grande segue que g E[g()] v tem distribuiao aproximadamente N (0, 1). Podemos usar este resultado para c testar convergncia e construir intervalos de conana. e c No caso multivariado a extenso tambm direta. Seja = (1 , . . . , k ) a e e um vetor aleatrio de dimenso k com funao de densidade p(). Neste caso os o a c valores gerados sero tambm vetores 1 , . . . , n e o estimador de Monte Carlo a e ca n 1 g( i ) I= n i=1 Exemplo 4.2 : Suponha que queremos calcular P r(X < 1, Y < 1) onde o vetor aleatrio (X, Y ) tem distribuiao Normal padro bivariada com correlaao o c a c igual a 0,5. Note que esta probabilidade a integral de p(x, y) denida no intere valo acima, portanto simulando valores desta distribuio poderemos estimar esta ca probabilidade como a proporao de pontos que caem neste intervalo. A Figura 4.3 c apresenta um diagrama de disperso dos valores simulados e foi obtida usando os a camandos do R abaixo.
54 > > > > > > >
CAP ITULO 4. METODOS APROXIMADOS Sigma = matrix(c(1, 0.5, 0.5, 1), 2, 2) m = c(0, 0) require(MASS) y = mvrnorm(n = 1000, mu = m, Sigma = Sigma) plot(y[, 1], y[, 2], xlab = "x", ylab = "y") abline(1, 0) abline(v = 1)
1 x
Figura 4.3: Diagrama de disperso de 1000 valores simulados da distribuio N(0,1) a ca

bivariada.
Uma grande vantagem dos mtodos de simulaao que aps uma amostra e c e o de vetores aleatrios ser gerada podemos facilmente calcular caracter o sticas das distribuioes marginais e condicionais. No Exemplo 4.2, para calcular P r(X < 1) c basta calcular a frequncia relativa de pontos (xi , yi ) tais que xi < 1. Para e calcular a probabilidade condicional P r(X < 1|Y < 1) basta selecionar somente aqueles pontos cuja segunda coordenada menor do que 1. Depois calcula-se a e frequncia relativa dos pontos restantes cuja primeira coordenada menor do que e e 1.
4.4.1
Monte Carlo via Funo de Importncia ca a
Em muitas situaoes pode ser muito custoso ou mesmo imposs simular valores c vel da distribuiao a posteriori. Neste caso, pode-se recorrer ` uma funao q() que c a c seja de fcil amostragem, usualmente chamada de funo de importncia. O a ca a procedimento comumente chamado de amostragem por importncia. e a
55
0.4
p(x)
0.3
p(y) 4 2 0 x 2 4
0.2
0.0
0.1
0.0 4
0.1
0.2
0.3
0.4
0 y
0.0 0.1 0.2 0.3 0.4
p(x | y<1)
p(y | x<1) 4 2 0 2
0.0 4
0.1
0.2
0.3
0.4
Figura 4.4: Estimativas das densidades marginais e condicionais no Exemplo 4.2.
Se q() for uma funao de densidade denida no mesmo espao variaao de c c c ento a integral (4.1) pode ser reescrita como a I= g()p() g()p() q()dx = E q() q()
onde a esperana agora com respeito a distribuiao q. Assim, se dispomos de c e c uma amostra aleatria 1 , . . . , n tomada da distribuiao q o estimador de Monte o c Carlo da integral acima ca 1 I= n
n
i=1
g(i )p(i ) . q(i )
e tem as mesmas propriedades do estimador de Monte Carlo simples. Em princ no h restrioes quanto ` escolha da densidade de importncia pio a a c a a q, porm na prtica alguns cuidados devem ser tomados. Pode-se mostrar que e a a escolha tima no sentido de minimizar a varincia do estimador consiste em o a tomar q() g()p().
56
Exemplo 4.3 : Para uma unica observaao X suponha que c X| N (, 1) e Cauchy(0, 1). Ento, a p(x|) exp[(x )2 /2] e p() = Portanto, a densidade a posteriori de dada por e 1 exp[(x )2 /2] 1 + 2 . 1 2 exp[(x ) /2]d 1 + 2 1 . (1 + 2 )
p(|x) =
Suponha agora que queremos estimar usando funao de perda quadrtica. Como c a vimos no Cap tulo 3 isto implica em tomar a mdia a posteriori de como estie mativa. Mas exp[(x )2 /2]d 2 1+ 1 exp[(x )2 /2]d 1 + 2
E[|x] =
p(|x)d =
e as integrais no numerador e denominador no tm soluao anal a e c tica exata. Uma soluao aproximada via simulaao de Monte Carlo pode ser obtida usando c c o seguinte algoritmo, 1. gerar 1 , . . . , n independentes da distribuiao N (x, 1); c 2. calcular gi = i 1 e gi = ; 2 2 1 + i 1 + i
n i=1 gi . n i=1 gi
3. calcular E(|x) =
Este exemplo ilustrou um problema que geralmente ocorre em aplicaoes c Bayesianas. Como a posteriori s conhecida a menos de uma constante de o e proporcionalidade as esperanas a posteriori so na verdade uma razo de intec a a grais. Neste caso, a aproximaao baseada na razo dos dois estimadores de c e a Monte Carlo para o numerador e denominador.
Exercicios
1. Para cada uma das distribuioes N (0, 1), Gama(2,5) e Beta(2,5) gere 100, c 1000 e 5000 valores independentes. Faa um grco com o histograma e c a
4.5. METODOS DE REAMOSTRAGEM
57
a funao de densidade superimposta. Estime a mdia e a varincia da c e a distribuiao. Estime a varincia do estimador da mdia. c a e 2. Para uma unica observaao X com distribuiao N (, 1), desconhecido, c c queremos fazer inferncia sobre usando uma priori Cauchy(0,1). Gere um e valor de X para = 2, i.e. x N (2, 1). (a) Estime atravs da sua mdia a posteriori usando o algoritmo do e e Exemplo 4.3. (b) Estime a varincia da posteriori. a (c) Generalize o algoritmo para k observaoes X1 , . . . , Xk da distribuiao c c N (, 1).
4.5
Mtodos de Reamostragem e
Existem distribuioes para as quais muito dif ou mesmo imposs simular c e cil vel valores. A idia dos mtodos de reamostragem gerar valores em duas etapas. e e e Na primeira etapa gera-se valores de uma distribuiao auxiliar conhecida. Na c segunda etapa utiliza-se um mecanismo de correao para que os valores sejam c representativos (ao menos aproximadamente) da distribuiao a posteriori. Na c prtica costuma-se tomar a priori como distribuiao auxiliar conforme proposto a c em Smith & Gelfand (1992).
4.5.1
Mtodo de Rejeio e ca
Considere uma funao de densidade auxiliar q() da qual sabemos gerar valores. c A unica restriao que exista uma constante A nita tal que p(|x) < Aq(). c e O mtodo de rejeiao consiste em gerar um valor da distribuiao auxiliar q e c c e aceitar este valor como sendo da distribuiao a posteriori com probabilidade c p( |x)/Aq( ). Caso contrrio, no aceito como um valor gerado da posa a e teriori e o processo repetido at que um valor seja aceito. O mtodo tambm e e e e funciona se ao invs da posteriori, que em geral desconhecida, usarmos a sua e e verso no normalizada, i.e p(x|)p(). a a Podemos ento usar o seguinte algoritmo, a 1. gerar um valor da distribuiao auxiliar; c 2. gerar u U (0, 1); 3. se u < p( |x)/Aq( ) faa (j) = , faa j = j + 1 e retorne ao passo 1. c c caso contrrio retorne ao passo 1. a
58
Tomando a priori p() como densidade auxiliar a constante A deve ser tal que p(x|) < A. Esta desigualdade satisfeita se tomarmos A como sendo o valor e e mximo da funao de verossimilhana, i.e. A = p(x|) onde o estimador a c c de mxima verossimilhana de . Neste caso, a probabilidade de aceitaao se a c c simplica para p(x|)/p(x|). Podemos ento usar o seguinte algoritmo para gerar valores da posteriori, a 1. gerar um valor da distribuiao a priori; c 2. gerar u U (0, 1); 3. aceitar como um valor da posteriori se u < p(x| )/p(x|), caso contrrio a rejeitar e retornar ao passo 1. Exemplo 4.4 : Suponha que X1 , . . . , Xn N (, 1) e assume-se uma distribuiao c a priori Cauchy(0,1) para . A funao de verossimilhana , c c e
n
p(x|) =
i=1
(2)
1/2
(xi )2 exp 2
1 exp 2
n exp (x )2 2
i=1
(xi )2
e o estimador de mxima verossimilhana = x. Usando o algoritmo acima, a c e gera-se um valor da distribuiao Cauchy(0,1) e a probabilidade de aceitaao neste c c 2 caso ca simplesmente exp[n( ) /2]. A funao do R a seguir obtm uma x c e amostra de tamanho m de e como ilustraao vamos gerar 50 observaoes da c c distribuiao N (2,1). Note que a taxa de aceitaao foi extremamente baixa. Isto c c ocorreu devido ao conito entre verossimilhana e priori. c
4.5. METODOS DE REAMOSTRAGEM > rej <- function(x, m) { + total = 0 + theta = rep(0, m) + x.bar = mean(x) + n = length(x) + for (i in 1:m) { + accept = FALSE + while (!accept) { + total = total + 1 + theta.new = rcauchy(1, 0, 1) + prob = exp(-0.5 * n * (theta.new - x.bar)^2) + u = runif(1, 0, 1) + if (u < prob) { + theta = c(theta, theta.new) + accept = TRUE + } + } + } + cat("\nTaxa de aceitacao", round(m/total, 4), "\n") + return(list(theta = theta, total = total)) + } > x = rnorm(n = 50, mean = 2, sd = 1) > m = rej(x, m = 1000) Taxa de aceitacao 0.0215
59
O problema ilustrado na Figura 4.5 (gerada com os comandos abaixo) onde e se pode notar que a maioria dos valores de foi gerada em regies de baixa o verossimilhana. c > > > + > > > x.bar = mean(x) x.sd = sd(x) curve(dnorm(x, x.bar, x.sd), xlab = expression(theta), from = -4, to = 6, ylab = "", col = 1, lty = 1) curve(dcauchy(x, 0, 1), from = -4, to = 6, add = T, lty = 2) legend(-3, 0.4, legend = c("priori", "veross."), lty = c(2, 1)) rug(m$theta)
Mudando a priori para Cauchy(2,1) obtm-se uma taxa de aceitaao em torno e c de 10% o que ainda constitui uma amostra pequena. Na verdade o nmero de u simulaoes deveria ser no m c nimo 10000 neste caso.
60
0.4
0.0
0.1
0.2
0.3
priori veross.
Figura 4.5: Verossimilhana normalizada e densidade a priori juntamente com valores c

simulados.
Portanto, um problema tcnico associado ao mtodo a necessidade de se e e e maximizar a funao de verossimilhana o que pode no ser uma tarefa simples c c a em modelos mais complexos. Se este for o caso ento o mtodo de rejeiao a e c perde o seu principal atrativo que a simplicidade. Neste caso, o mtodo da e e prxima seao passa a ser recomendado. Outro problema que a taxa de aceitaao o c e c pode ser muito baixa. Teremos que gerar muitos valores da distribuiao auxiliar c at conseguir um nmero suciente de valores da distribuiao a posteriori. Isto e u c ocorrer se as informaoes da distribuiao a priori e da verossimilhana forem a c c c conitantes j que neste caso os valores gerados tero baixa probabilidade de a a serem aceitos.
4.5.2
Reamostragem Ponderada
Estes mtodos usam a mesma idia de gerar valores de uma distribuiao auxiliar e e c porm sem a necessidade de maximizaao da verossimilhana. A desvantagem e c c que os valores obtidos so apenas aproximadamente distribuidos segundo a e a posteriori. Suponha que temos uma amostra 1 , . . . , n gerada da distribuiao auxiliar q c
4.5. METODOS DE REAMOSTRAGEM e a partir dela construimos os pesos wi =

n j=1
61
p(i |x)/q(i ) , p(j |x)/q(j )
i = 1, . . . , n
O mtodo consiste em tomar uma segunda amostra (ou reamostra) de tamanho e m da distribuiao discreta em 1 , . . . , n com probabilidades w1 , . . . , wn . Aqui c tambm no necessrio que se conhea completamente a posteriori mas apenas e a e a c o produto priori vezes verossimilhana j que neste caso os pesos no se alteram. c a a Tomando novamente a priori como densidade auxiliar, i.e. q() = p() os pesos se simplicam para wi =
n j=1
p(x|i ) , p(x|j )
i = 1, . . . , n
e o algoritmo para geraao de valores (aproximadamente) da posteriori ento ca c a 1. gerar valores 1 , . . . , n da distribuiao a priori; c 2. calcular os pesos wi , i = 1, . . . , n; 3. reamostrar valores com probabilidades w1 , . . . , wn . Este mtodo essencialmente um bootstrap ponderado. O mesmo problema de e e informaoes conitantes da priori e da verossimilhana pode ocorrer aqui. Neste c c caso, apenas poucos valores gerados da priori tero alta probabilidade de aparea cerem na reamostra. Exemplo 4.5 : No Exemplo 4.4, utilizando reamostragem ponderada obtm-se e os grcos da Figura 4.6. a > reamostra <- function(x, n, m) { + x.bar = mean(x) + nobs = length(x) + theta = rcauchy(n, 0, 1) + peso = exp(-0.5 * nobs * (theta - x.bar)^2) + aux = sum(peso) + peso = peso/aux + theta.star = sample(theta, size = m, replace = TRUE, prob = peso) + return(list(amostra = theta, pesos = peso, reamostra = theta.star)) + }
62
0.0 0.1 0.2 0.3 0.4
pesos 4 2 0 2 4 6
0.010
0.025
0.040
2.0
2.1
2.2
2.3
2.4
0.0 0.1 0.2 0.3 0.4 4
Figura 4.6: Verossimilhana normalizada (linha cheia), densidade a priori (linha tracec
jada) e os valores amostrados (a) e reamostrados (c). Em (b) os valores de com pesos maiores do que 0,01.
Exerc cios
1. Em um modelo de regresso linear simples temos que yi N (xi , 1). Os a dados observados so y = (2, 0, 0, 0, 2) e x = (2, 1, 0, 1, 2), e usamos a uma priori vaga N (0, 4) para . Faa inferncia sobre obtendo uma c e amostra da posteriori usando reamostragem ponderada. Compare com a estimativa de mxima verossimilhana = 0, 8. a c 2. Para o mesmo modelo do exerc cio 1 e os mesmos dados suponha agora que a varincia desconhecida, i.e. yi N (xi , 2 ). Usamos uma priori a e hierrquica para (, 2 ), i.e. | 2 N (0, 2 ) e 2 G(0, 01, 0, 01). a (a) Obtenha uma amostra da posteriori de (, 2 ) usando reamostragem ponderada.
4.6. MONTE CARLO VIA CADEIAS DE MARKOV
63
(b) Baseado nesta amostra, faa um histograma das distribuioes c c 2 marginais de e . (c) Estime e 2 usando uma aproximaao para a mdia a posteriori. c e Compare com as estimativas de mxima verossimilhana. a c
4.6
Monte Carlo via cadeias de Markov
Em todos os mtodos de simulaao vistos at agora obtm-se uma amostra da e c e e distribuiao a posteriori em um unico passo. Os valores so gerados de forma c a independente e no h preocupaao com a convergncia do algoritmo, bastando a a c e que o tamanho da amostra seja sucientemente grande. Por isso estes mtodos e so chamados no iterativos (no confundir iteraao com interaao). No entanto, a a a c c em muitos problemas pode ser bastante dif cil, ou mesmo imposs vel, encontrar uma densidade de importncia que seja simultaneamente uma boa aproximaao a c da posteriori e fcil de ser amostrada. a Os mtodos de Monte Carlo via cadeias de Markov (MCMC) so uma ale a ternativa aos mtodos no iterativos em problemas complexos. A idia ainda e a e e obter uma amostra da distribuiao a posteriori e calcular estimativas amostrais c de caracter sticas desta distribuiao. A diferena que aqui usaremos tcnicas de c c e e simulaao iterativa, baseadas em cadeias de Markov, e assim os valores gerados c no sero mais independentes. a a Nesta seao sero apresentados os mtodos MCMC mais utilizados, o c a e amostrador de Gibbs e o algoritmo de Metropolis-Hastings. A idia bsica e a e simular um passeio aleatrio no espao de que converge para uma distribuiao o c c estacionria, que a distribuiao de interesse no problema. Uma discusso mais a e c a geral sobre o tema pode ser encontrada por exemplo em Gamerman (1997) e Gamerman & Lopes (2006).
4.6.1
Cadeias de Markov
Uma cadeia de Markov um processo estocstico {X0 , X1 , . . . } tal que a dise a tribuiao de Xt dados todos os valores anteriores X0 , . . . , Xt1 depende apenas c de Xt1 . Matematicamente, P (Xt A|X0 , . . . , Xt1 ) = P (Xt A|Xt1 ) para qualquer subconjunto A. Os mtodos MCMC requerem ainda que a cadeia e seja, homognea, i.e. as probabilidades de transiao de um estado para outro so e c a invariantes;
64
CAP ITULO 4. METODOS APROXIMADOS irredut vel, i.e. cada estado pode ser atingido a partir de qualquer outro em um nmero nito de iteraoes; u c aperidica, i.e. no haja estados absorventes. o a
e os algoritmos que sero vistos aqui satisfazem a estas condioes. a c d Suponha que uma distribuiao (x), x R seja conhecida a menos de uma c constante multiplicativa porm complexa o bastante para no ser poss obter e a vel (t) uma amostra diretamente. Dadas as realizaoes {X , t = 0, 1, . . . } de uma c cadeia de Markov que tenha como distribuiao de equilibrio ento, sob as c a condioes acima, c X (t) (x) e
t
1 n
t=1
g(Xi ) E (g(Xi )) q.c.
(t)
Ou seja, embora a cadeia seja por deniao dependente a mdia aritmtica dos c e e valores da cadeia um estimador consistente da mdia terica. e e o Uma questo importante de ordem prtica como os valores iniciais inuena a e ciam o comportamento da cadeia. A idia que conforme o nmero de iteraoes e e u c aumenta, a cadeia gradualmente esquece os valores iniciais e eventualmente converge para uma distribuiao de equil c brio. Assim, em aplicaoes prticas comum c a e que as iteraoes iniciais sejam descartadas, como se formassem uma amostra de c aquecimento.
4.6.2
Acurcia Numrica a e
Na prtica teremos um nmero nito de iteraoes e tomando a u c 1 g= n

n
g(Xi )
t=1
(t)
como estimativa da E(g(Xi )) devemos calcular o seu erro padro. Como a sea quncia de valores gerados dependente pode-se mostrar que e e k s2 1 1+2 V ar() = g n n k=1
n
sendo s2 a varincia amostral e k a autocorrelaao amostral de ordem k. Se a c 2 k > 0 k ento V ar() > s /n. Uma forma muito utilizada para o clculo a g a da varincia do estimador o mtodo dos lotes aonde os valores da cadeia so a e e a divididos em k lotes de tamanho m e cada lote tem mdia Bi . O erro padro de e a
4.6. MONTE CARLO VIA CADEIAS DE MARKOV g ento estimado como e a 1 k(k 1)
k
65
i=1
(Bi B)2
sendo m escolhido de modo que a correlaao serial de ordem 1 entre as mdias c e dos lotes seja menor do que 0,05. Nas prximas seoes sero apresentados e discutidos os algoritmos MCMC o c a mais comumente utilizados.
4.6.3
Algoritmo de Metropolis-Hastings
Os algoritmos de Metropolis-Hastings usam a mesma idia dos mtodos de ree e jeiao vistos no cap c tulo anterior, i.e. um valor gerado de uma distribuiao auxe c iliar e aceito com uma dada probabilidade. Este mecanismo de correao garante c a convergncia da cadeia para a distribuiao de equilibrio, que neste caso a e c e distribuiao a posteriori. c Suponha que a cadeia esteja no estado e um valor gerado de uma e distribuio proposta q(|). Note que a distribuiao proposta pode depender do ca c estado atual da cadeia, por exemplo q(|) poderia ser uma distribuiao normal c centrada em . O novo valor aceito com probabilidade e (, ) = min 1, ( ) q(| ) () q( |) . (4.2)
onde a distribuiao de interesse. e c Uma caracter stica importante que s precisamos conhecer parcialmente, e o i.e. a menos de uma constante j que neste caso a probabilidade (4.2) no se a a altera. Isto fundamental em aplicaoes Bayesianas aonde no conhecemos come c a pletamente a posteriori. Note tambm que a cadeia pode permanecer no mesmo e estado por muitas iteraoes e na prtica costuma-se monitorar isto calculando a c a porcentagem mdia de iteraoes para as quais novos valores so aceitos. e c a Em termos prticos, o algoritmo de Metropolis-Hastings pode ser especicado a pelos seguintes passos, 1. Inicialize o contador de iteraoes t = 0 e especique um valor inicial (0) . c 2. Gere um novo valor da distribuiao q(|). c 3. Calcule a probabilidade de aceitaao (, ) e gere u U (0, 1). c 4. Se u ento aceite o novo valor e faa (t+1) = , caso contrrio rejeite a c a (t+1) e faa c = .
66
CAP ITULO 4. METODOS APROXIMADOS 5. Incremente o contador de t para t + 1 e volte ao passo 2.
Embora a distribuiao proposta possa ser escolhida arbitrariamente na prtica c a deve-se tomar alguns cuidados para garantir a ecincia do algoritmo. Em aplie caoes Bayesianas a distribuiao de interesse a prpria posteriori, i.e. = p(|x) c c e o e a probabilidade de aceitaao assume uma forma particular, c (, ) = min 1, p(x| ) p( ) q(| ) p(x|) p() q( |) . (4.3)
O algoritmo ser ilustrado nos exemplos a seguir. a Exemplo 4.6 : Em uma certa populaao de animais sabe-se que cada animal c pode pertencer a uma dentre 4 linhagens genticas com probabilidades e p1 = 1 1 1 + , p2 = , p3 = , p4 = . 2 4 4 4 4
sendo 0 < < 1 um parmetro desconhecido. Para qualquer (0, 1) fcil a e a vericar que pi > 0, i = 1, 2, 3, 4 e p1 + p2 + p3 + p4 = 1. Observando-se n animais dentre os quais yi pertencem ` linhagem i ento o vetor aleatrio a a o Y = (y1 , y2 , y3 , y4 ) tem distribuiao multinomial com parmetros n, p1 , p2 , p3 , p4 c a e portanto, p(y|) = n! p y 1 p y2 p y 3 p y4 y1 !y2 !y3 !y4 ! 1 2 3 4
(2 + )y1 (1 )y2 +y3 y4 . Atribuindo a distribuiao a priori U (0, 1) segue que a densidade a posteriori c proporcional ` expresso acima. Ento, e a a a p(|y) (2 + )y1 (1 )y2 +y3 y4 . Tomando a distribuiao U (0, 1) como proposta ento q() = 1, e a probabilc a idade (4.3) se simplica para p(x| ) (, ) = min 1, p(x|)
= min 1,
2 + 2+
y1
1 1
y2 +y3
y4
Podemos programar este algoritmo com os comandos do R a seguir. > p <- function(x, y) { + (2 + x)^y[1] * (1 - x)^(y[2] + y[3]) * x^y[4] + }
4.6. MONTE CARLO VIA CADEIAS DE MARKOV > metr0 <- function(n, y, fun, start) { + theta = c(start, rep(NA, n - 1)) + taxa = 0 + for (i in 2:n) { + x = runif(1) + A = fun(x, y)/fun(theta[i - 1], y) + prob = min(1, A) + if (runif(1) < prob) { + theta[i] = x + taxa = taxa + 1 + } + else { + theta[i] = theta[i - 1] + } + } + return(list(theta = theta, taxa = taxa/n)) + }
67
Suponha que foram observados 197 animais com os nmeros de animais nas u categorias dados por y = (125, 18, 20, 34) e foi gerada uma cadeia de Markov com 2000 valores de . Os valores simulados e as primeiras 30 autocorrelaoes c amostrais de esto na Figura 4.7. A cadeia parece ter convergido aps algumas a o iteraoes e podemos descartar os 100 primeiros valores (esta foi a nossa amostra c de aquecimento). Note tambem que a cadeia altamente correlacionada ao longo e das iteraoes e isto devido a alta taxa de rejeiao por causa da escolha de q. c e c > > > > y = c(125, 18, 20, 34) n = 2000 m = metr0(n, y, fun = p, start = 0.5) m$taxa
[1] 0.17 Dada uma amostra com valores de temos tambm amostras de valores de e (p1 , p2 , p3 , p4 ) que podem ser resumidas da seguinte forma, > > > > > > > > p1 = m$theta/4 + 0.5 p2 = (1 - m$theta)/4 p3 = p2 p4 = m$theta/4 z = as.mcmc(cbind(p1, p2, p3, p4)) colnames(z) = c("p1", "p2", "p3", "p4") b = summary(window(z, start = 501)) print(b, digits = 3)
68
(a)
1.0
(b)
0.70
Autocorrelation 0 500 1000 Iterations 1500 2000
0.50
0.60
1.0 0
0.0
0.5
10
15 Lag
20
25
30
(c)
8 0 0.50 2 4 6
0.60
0.70
N = 1500 Bandwidth = 0.0106
Figura 4.7: (a) 2000 valores simulados de , (b) 30 primeiras autocorrelaes amostrais co
aps aquecimento, (c) Densidade a posteriori estimada. o
Iterations = 501:2000 Thinning interval = 1 Number of chains = 1 Sample size per chain = 1500 1. Empirical mean and standard deviation for each variable, plus standard error of the mean: Mean 0.6584 0.0916 0.0916 0.1584 SD 0.0114 0.0114 0.0114 0.0114 Naive SE Time-series SE 0.000294 0.000954 0.000294 0.000954 0.000294 0.000954 0.000294 0.000954
p1 p2 p3 p4
4.6. MONTE CARLO VIA CADEIAS DE MARKOV 2. Quantiles for each variable: 2.5% 0.6340 0.0721 0.0721 0.1340 25% 0.6512 0.0844 0.0844 0.1512 50% 0.6592 0.0908 0.0908 0.1592 75% 0.6656 0.0988 0.0988 0.1656 97.5% 0.678 0.116 0.116 0.178
69
p1 p2 p3 p4
Exemplo 4.7 : Suponha que queremos simular valores X N (0, 1) propondo valores Y N (x, 2 ). Neste caso as densidades propostas no numerador e denominador de (4.2) se cancelam e a probabilidade de aceitaao ca c 1 (x, y) = min 1, exp (y 2 x2 ) 2 .
Fixando os valores = 0.5 e = 10 foram simuladas as cadeias que aparecem na Figura 4.8. Note que o valor de teve um grande impacto na taxa de aceitaao c do algoritmo. Isto ocorre porque com = 0.5 a distribuiao proposta est muito c a mais prxima da distribuiao de interesse do que com = 10. o c
70
> metrop <- function(n, sigma) { + x = c(0, rep(NA, n - 1)) + for (i in 2:n) { + y = rnorm(1, x[i - 1], sigma) + prob = min(1, exp(-0.5 * (y^2 - x[i - 1]^2))) + u = runif(1, 0, 1) + if (u < prob) + x[i] = y + else x[i] = x[i - 1] + } + return(x) + }
sigma=0.5
2 0
100
200 Time
300
400
500
sigma=10
2 2 0 0
100
200 Time
300
400
500
Figura 4.8: 500 valores simulados para o Exemplo 4.7 usando o algoritmo de Metropolis-Hastings com (a) = 0.5 e (b) = 10.
71
Nos Exemplos 4.6 e 4.7 foram ilustrados casos especiais do algoritmo nos quais a distribuiao proposta no depende do estado atual ou a dependncia na forma c a e e de um passeio aleatrio. Estes casos so formalizados a seguir. o a
4.6.4
Casos Especiais
Um caso particular quando a distribuiao proposta no depende do estado atual e c a da cadeia, i.e. q( |) = q( ). Em geral, q() deve ser uma boa aproximaao c de (), mas mais seguro se q() tiver caudas mais pesadas do que (). A e probabilidade de aceitaao agora ca, c (, ) = min 1, ( ) q() () q( ) . (4.4)
Note que embora os valores sejam gerados de forma independente a cadeia resultante no ser i.i.d. j que a probabilidade de aceitaao ainda depende de . a a a c Outro caso particular chamado algoritmo de Metropolis e considera apenas e propostas simtricas, i.e., q( |) = q(| ) para todos os valores de e . Neste e caso a probabilidade de aceitaao se reduz para c (, ) = min 1, ( ) () .
Um algoritmo de Metropolis muito utilizado baseado em um passeio aleatrio e o de modo que a probabilidade da cadeia mover-se de para depende apenas da distncia entre eles, i.e. q( |) = q(| |). Neste caso, se usarmos uma a distribuiao proposta com varincia 2 duas situaoes extremas podem ocorrer, c a c 1. se 2 for muito pequena os valores gerados estaro prximos do valor atual a o e quase sempre sero aceitos. Mas levar muitas iteraoes at o algoritmo a a c e cobrir todo o espao do parmetro; c a 2. valores grandes de 2 levam a uma taxa de rejeiao excessivamente alta e a c cadeia se movimenta muito pouco. Nas duas situaoes o algoritmo ca ineciente e na prtica temos que tentar vrios c a a 2 valores de . De um modo geral = (1 , . . . , d ) ser um vetor de parmetros de dimenso a a a d. Neste caso, pode ser computacionalmente mais eciente dividir em k blocos { 1 , . . . , k } e dentro de cada iteraao teremos o algoritmo aplicado k vezes. c Denindo o vetor i = ( 1 , . . . , i1 , i+1 , . . . , k ) que contm todos os elemene tos de exceto i suponha que na iteraao t + 1 os blocos 1, 2, . . . , i 1 j foram c a atualizados, i.e. (t+1) (t+1) (t) (t) i = ( 1 , . . . , i1 , i+1 , . . . , k ).
72
Para atualizar a i-sima componente, um valor de i gerado da distribuiao e e c proposta q(| i , i ) e este valor candidato aceito com probabilidade e ( i , i ) = min 1, ( i | i ) q( i | i , i )) ( i | i ) q( i | i , i ) . (4.5)
Aqui, ( i | i ) chamada de distribuio condicional completa como ser visto e ca a na prxima seao. o c
Exercicios
1. Assumindo que a distribuiao estacionria N (0, 1), c a e (a) faa 500 iteraoes do algoritmo de Metropolis com distribuioes proc c c postas N (; 0, 5), N (; 0, 1) e N (, 10). (b) faa os grcos dos valores das cadeias ao longo das iteraoes. Existe c a c alguma indicaao de convergncia nos grcos? c e a (c) Calcule as taxas de aceitaao. c 2. Suponha que a distribuiao estacionria N (0, 1). c a e (a) Para distribuioes propostas Cauchy(0, ), selecione experimentalc mente o valor de que maximiza a taxa de aceitaao. c (b) Para este valor de faa os grcos dos valores simulados da cadeia c a ao longo das iteraoes e verique se h indicaao de convergncia. c a c e (c) Repita os itens anteriores com a distribuiao proposta Cauchy(, ). c
4.6.5
Amostrador de Gibbs
No amostrador de Gibbs a cadeia ir sempre se mover para um novo valor, i.e no a a existe mecanismo de aceitaao-rejeiao. As transioes de um estado para outro c c c so feitas de acordo com as distribuies condicionais completas (i | i ), onde a co i = (1 , . . . , i1 , i+1 , . . . , d ) . Em geral, cada uma das componentes i pode ser uni ou multidimensional. Portanto, a distribuiao condicional completa a distribuiao da i-sima compoc e c e nente de condicionada em todas as outras componentes. Ela obtida a partir e da distribuiao conjunta como, c (i | i ) = () ()di .
73
Assim, para obter a distribuiao condicional completa de xi basta pegar os termos c da distribuiao conjunta que no dependem de xi . c a Exemplo 4.8 : Em um modelo Bayesiano para os dados y que depende dos parmetros , e suponha que a distribuiao conjunta dada por a c e p(y, , , ) p(y|, )p(|)p()p(). Aps observar y as distribuioes a posteriori de cada parmetro dados todos os o c a outros so a (|y, , ) p(y|, )p(|) (|y, , ) p(y|, )p().
(|y, , ) p(|)p()
Em muitas situaoes, a geraao de uma amostra diretamente de () pode c c ser custosa, complicada ou simplesmente imposs vel. Mas se as distribuioes c condicionais completas forem completamente conhecidas, ento o amostrador de a Gibbs denido pelo seguinte esquema, e 1. inicialize o contador de iteraoes da cadeia t = 0; c 2. especique valores iniciais (0) = (1 , . . . , d ) ; 3. obtenha um novo valor de (t) a partir de (t1) atravs da geraao sucessiva e c dos valores 1
(t) (0) (0)
(t) 2
. . .
(1 |2
(t1)
, 3
(t1)
, . . . , d
(t1)
(t) (t1) (t1) (2 |1 , 3 , . . . , d ) (t) (t) (t)
(t)
(d |1 , 2 , . . . , d1 )
4. Incremente o contador de t para t + 1 e retorne ao passo 2 at obter cone vergncia. e Assim, cada iteraao se completa aps d movimentos ao longo dos eixos coordec o nados das componentes de . Aps a convergncia, os valores resultantes formam o e uma amostra de (). Vale notar que, mesmo em problema de grandes dimenses todas as simulaoes podem ser univariadas, o que em geral uma vantagem o c e computacional. Note tambm que o amostrador de Gibbs um caso especial do algoritmo de e e Metropolis-Hastings, no qual os elementos de so atualizados um de cada vez a
74
(ou em blocos), tomando a distribuiao condicional completa como proposta e c probabilidade de aceitaao igual a 1. c Mais detalhes sobre o amostrado de Gibbs e outros algoritmos relacionados podem ser obtidos, por exemplo, em Gamerman (1997, Cap. 5) e Robert & Casella (1999, Cap. 7) . Exemplo 4.9 : Suponha que Y1 , . . . , Yn N (, 2 ) com e 2 desconhecidos. Denindo = 2 a funao de verossimilhana dada por c c e p(y|, ) n/2 exp 2
n
i=1
(yi )2
e especicando prioris independentes N (0, s2 ), sendo s2 a varincia amostral a e Gama(a, b), com a e b conhecidos, segue que p(, |y) p(y|, )p()p( )
n/2
exp 2
i=1
(yi )2 exp
2 a1 eb . 2s2
Esta distribuiao conjunta no tem forma padro mas as condicionais completas c a a so fceis de obter, a a p(|y, ) exp 2
n
i=1
(yi )2 exp
2 2s2
1 1 exp (n + s2 )2 2) exp ( m)2 y 2 2C onde C 1 = n + s2 e m = C y e p( |y, ) Segue ento que a |y, N (m, C)
a+n/21
exp
1 b+ 2
i=1
(yi )2
1 n |y, Gama a + , b + 2 2
i=1
(yi )2
e o amostrador de Gibbs pode ser implementado facilmente gerando valores destas distribuioes alternadamente. c Exemplo 4.10 : Em um processo de contagem no qual foram observados
4.6. MONTE CARLO VIA CADEIAS DE MARKOV Y1 , . . . , Yn suspeita-se que houve um ponto de mudana m tal que c Yi P oisson(), i = 1, . . . , m i = m + 1, . . . , n.
75
Yi P oisson(),
O objetivo estimar o ponto de mudana m e os parmetros dos 2 processos de e c a Poisson. Assumindo-se as distribuioes a priori independentes c Gama(a, b)
m U nif orme{1, . . . , n} a densidade a posteriori ca

m n
Gama(c, d)
p(, , m|y)
e
i=1
yi
e yi a1 eb c1 ed
i=m+1
1 n
a+t1 1 e(b+m) c+t2 1 e(d+nm)
1 n
sendo t1 = m yi e t2 = n a e i=1 i=m+1 yi . Neste caso no dicil vericar que as distribuioes condicionais completas cam c p(|, m, y) a+t1 1 e(b+m) p(|, m, y) e ou |, m, y Gama(a + t1 , b + m) m = 1, . . . , n.
c+t2 1 (d+nm)
p(m|, , y) t1 em t2 e(nm) ,
ou |, m, y Gama(c + t2 , d + n m)
A funao do R abaixo obtem uma amostra da posteriori conjunta simulando valc ores destas condicionais completas.
76
> Gibbs <- function(a, b, c, d, y, niter) { + N = length(y) + lambda = phi = m = matrix(0, nrow = niter) + lambda[1] = 1 + phi[1] = 1 + m[1] = 10 + for (i in 2:niter) { + t1 = sum(y[1:m[i - 1]]) + t2 = 0 + if (m[i - 1] < N) + t2 = sum(y[(m[i - 1] + 1):N]) + lambda[i] = rgamma(1, (a + t1), (b + m[i - 1])) + phi[i] = rgamma(1, (c + t2), (d + N - m[i - 1])) + prob = NULL + for (j in 1:N) { + t1 = sum(y[1:j]) + t2 = 0 + if (j < N) { + t2 = sum(y[(j + 1):N]) + } + aux = (lambda[i]^t1) * exp(-j * lambda[i]) * (phi[i]^t2) * + exp(-(N - j) * phi[i]) + prob = c(prob, aux) + } + soma = sum(prob) + probm = prob/soma + m[i] = sample(x = N, size = 1, prob = probm) + } + return(list(lambda = lambda, phi = phi, m = m)) + } Testando a funao Gibbs com 40 dados simulados de processos com mdias 2 c e e 5 e ponto de mudana 23. c > y = c(rpois(n = 22, lambda = 2), rpois(n = 18, lambda = 5)) > x = Gibbs(a = 0.1, b = 0.1, c = 0.1, d = 0.1, y = y, niter = 2000) Podemos usar o pacote coda para analisar os valores simulados. As 1000 primeiras simulaoes so descartadas como amostra de aquecimento. c a > library(coda) > amostra = cbind(x$lambda, x$phi, x$m)[1001:2000, ]
4.6. MONTE CARLO VIA CADEIAS DE MARKOV > theta = mcmc(amostra) > colnames(theta) = names(x) > summary(theta) Iterations = 1:1000 Thinning interval = 1 Number of chains = 1 Sample size per chain = 1000 1. Empirical mean and standard deviation for each variable, plus standard error of the mean: Mean SD Naive SE Time-series SE lambda 2.273 0.3247 0.01027 0.00865 phi 5.246 0.5569 0.01761 0.02049 m 21.612 1.6125 0.05099 0.06403 2. Quantiles for each variable: 2.5% 25% 50% 75% 97.5% lambda 1.668 2.054 2.258 2.479 2.979 phi 4.213 4.843 5.230 5.610 6.398 m 18.975 21.000 22.000 22.000 24.025
77
A partir dos valores simulados de m podemos estimar suas probabilidades, > tm = table(theta[, 3])/1000 > print(tm) 7 8 9 10 11 14 15 16 17 18 19 20 21 0.001 0.002 0.001 0.001 0.001 0.005 0.002 0.004 0.001 0.007 0.012 0.059 0.196 22 23 24 25 26 27 0.648 0.010 0.025 0.010 0.013 0.002 Finalmente, pode-se estimar as contagens mdias condicionando nos valor de e m com maior probabilidade. > lambda.22 = theta[, 1][theta[, 3] == 22] > phi.22 = theta[, 2][theta[, 3] == 22] > theta.22 = as.mcmc(cbind(lambda.22, phi.22))
78 > plot(theta)
Trace of lambda
Density of lambda
1.2
2.5
1.5
200
400
600
800
1000
0.0
0.6
1.5
2.0
2.5
3.0
3.5
Iterations
N = 1000 Bandwidth = 0.08448
Trace of phi
7.0 0.6
Density of phi
5.5
4.0
200
400
600
800
1000
0.0
0.3
Iterations
N = 1000 Bandwidth = 0.1483
Trace of m
0.4
Density of m
Density 0 200 400 600 800 1000
20
10
0.0
0.2
10
15 y
20
25
Iterations
Figura 4.9: rtwert
4.7
Problemas de Dimenso Varivel a a
Em muitas aplicaoes prticas razovel assumir que existe incerteza tambm em c a e a e relaao ao modelo que melhor se ajusta a um conjunto de dados. Do ponto de vista c Bayesiano esta incerteza simplesmente incorporada ao problema de inferncia e e considerando-se o prprio modelo como mais um parmetro desconhecido a ser o a estimado. Assim os diferentes modelos tero uma distribuiao de probabilidades. a c Para isto vamos criar uma varivel aleatria discreta k que funciona como a o indicador de modelo e atribuir probabilidades a priori p(k) para cada modelo. Alm disso, para cada k existe um vetor de parmetros (k) Rnk com e a uma verossimilhana p(y| (k) , k) c uma distribuiao a priori p( (k) |k). c
4.7. PROBLEMAS DE DIMENSAO VARIAVEL > plot(tm)
79
tm
0.0 7
0.1
0.2
0.3
0.4
0.5
0.6
11
14
16
18
20
22
24
26
Figura 4.10: Se M conjunto de todos os poss e veis modelos (ou modelos candidatos), ento a as probabilidades a posteriori de cada poss modelo so dadas por vel a (k|y) = p(k) p(y|k) p(k) p(y|k)
kM
, kM
sendo p(y|k) a verossimilhana marginal obtida como c p(y|k) = p(y|, k)p(|k)d.
O problema aqui que esta ultima integral s analiticamente tratvel em alguns e oe a casos restritos. Alm disso, se o nmero de modelos candidatos for muito grande e u calcular (ou aproximar) p(y|k) pode ser invivel na prtica. a a
80 > plot(theta.22)
Trace of lambda.22
1.2 0 100 300 Iterations 500 0.0 0.4 0.8
Density of lambda.22
1.5
2.0
2.5
3.0
1.5
2.0
2.5
3.0
3.5
N = 648 Bandwidth = 0.08688
Trace of phi.22
7.0 0.6
Density of phi.22
6.0
5.0
4.0
0 100
300 Iterations
500
0.0
0.2
0.4
N = 648 Bandwidth = 0.1611
Figura 4.11: Por outro lado, se for especicada a distribuiao de interesse como a seguinte c posteriori conjunta, (, k|y) p(y|, k) p(|k) p(k) e conseguirmos simular valores desta distribuiao ento automaticamente teremos c a uma amostra aproximada de (k|y) e (|k, y). Note que neste caso estamos admitindo que a dimenso de pode variar ao a longo dos modelos e precisamos ento construir uma cadeia com espao de estaa c dos que muda de dimenso ao longo das iteraoes. Os algoritmos de Metropolisa c Hastings e o amostrador de Gibbs no podem ser utilizados j que so denidos a a a apenas para distribuioes com dimenso xa. Embora existam outras possibilic a dades iremos estudar os algoritmos MCMC com saltos reversiveis (Green 1995) que so particularmente uteis no contexto de seleao Bayesiana de modelos. a c
4.7. PROBLEMAS DE DIMENSAO VARIAVEL
81
4.7.1
MCMC com Saltos Reversiveis (RJMCMC)
Este algoritmo baseado na abordagem usual dos mtodos de Metropolise e Hastings de propor um novo valor para a cadeia e denir uma probabilidade de aceitaao. No entanto, os movimentos podem ser entre espaos de dimenc c ses diferentes como veremos a seguir. Em cada iteraao o algoritmo envolve a o c atualizaao dos parmetros, dado o modelo, usando os mtodos MCMC usuais c a e discutidos anteriormente e a atualizaao da dimenso usando o seguinte procedc a imento. Suponha que o estado atual da cadeia (k, ), i.e. estamos no modelo k e com parmetros e um novo modelo k com parmetros proposto com a a e probabilidade rk,k . Em geral isto signica incluir ou retirar parmetros do modelo a atual. Vamos assumir inicialmente que o modelo proposto tem dimenso maior, a > nk e que = g(, u) para uma funao deterministica g e um vetor i.e. nk c nk . Ento o seguinte algoritmo utilizado, aleatrio u q(u) com dimenso nk o a a e proponha (k, ) (k , ) com probabilidade rk,k gere u q(u) com dimenso nk nk a faa = g(, u), c aceite (k , ) com probabilidade min(1, A) sendo (k , ) rk ,k g(, u) A= . (k, ) rk,k q(u) (, u)
Exemplo 4.11 : Sejam Y1 , . . . , Yn os tempos de vida de componentes eletrnicos o sorteados ao acaso e existe incerteza em relaao a distribuiao dos dados. Sabe-se c c que Yi Exp() (Modelo 1) ou Yi Gama(, ) (Modelo 2), i = 1, . . . , n.
Suponha que atribuimos as probabilidades a priori p(k) = 1/2 para o indicador de modelo e as seguintes distribuioes a priori foram atribuidas aos parmetros c a dentro de cada modelo, |k = 1 Gama(2, 1) |k = 2 Gama(4, 2) e |k = 2 Gama(4, 2). Dado o modelo, as funoes de verossimilhana cam c c p(y|, k = 1) = n e
yi
82
CAP ITULO 4. METODOS APROXIMADOS n p(y|, , k = 2) = n ()

1 yi e yi
as distribuioes condicionais completas so facilmente obtidas como c a |y, , , k = 1 Gama(n + 2, 1 + |y, , , k = 2 Gama(n + 4, 2 + p(|y, , , k = 2) n n ()
1 yi 3 e2
yi ) yi )
A distribuiao condicional completa de no conhecida ento vamos usar o c a e a algoritmo de Metropolis-Hastings propondo valores U [ , + ]. A funao a seguir atualiza o valor de segundo este esquema. c > mh.alpha <- function(y, n, alpha, beta, eps) { + z = runif(1, alpha - eps, alpha + eps) + if (z <= 0) { + acc = 0 + } + else { + t1 = prod(y) + num = beta^(n * z) * t1^(z - 1)/(gamma(z)^n) + den = beta^(n * alpha) * t1^(alpha - 1)/(gamma(alpha)^n) + num = num * exp(-2 * z) * z^3 + den = den * exp(-2 * alpha) * alpha^3 + } + aceita = min(1, num/den) + u = runif(1) + newalpha = ifelse(u < aceita, z, alpha) + return(newalpha) + } Suponha que o modelo atual Exp() e queremos propor o modelo e Gama(, ). Um possivel esquema de atualizaao o seguite, c e 1. gere u Gama(a, b) 2. dena (, ) = g(, u) = (u, u) 3. calcule o Jacobiano, 0 1 =u u
4.7. PROBLEMAS DE DIMENSAO VARIAVEL 4. aceite o novo modelo com probabilidade min(1, A) sendo A= p(y | , , k = 2) p()p() u p(y | , k = 1) p() q(u)
83
Note que transformaao no item (2) preserva a mdia, ou seja E(Y ) = 1/ sob o c e modelo exponencial e E(Y ) = u/u = 1/ sob o modelo gama. Se o modelo atual for Gama(, ) e propomos o modelo Exp() o esquema reverso consiste em fazer (, u) = g 1 (, ) = (/, ). A probabilidade de aceitaao simplesmente min(1, 1/A) substituindo u = . c e > rj.modelo <- function(y, n, lambda, alpha, beta, model, a, b) { + if (model == 1) { + u = rgamma(1, a, b) + alpha1 = u + beta1 = lambda * u + lambda1 = lambda + } + else { + lambda1 = beta/alpha + alpha1 = alpha + beta1 = beta + u = alpha + } + t1 = prod(y) + t2 = sum(y) + num = beta1^(n * alpha1) * t1^(alpha1 - 1) * exp(-beta1 * + t2)/(gamma(alpha1)^n) + num = num * 2^4 * alpha1^3 * exp(-2 * alpha1)/gamma(4) + num = num * 2^4 * beta1^3 * exp(-2 * beta1)/gamma(4) * alpha1 + den = (lambda1^n) * exp(-lambda1 * t2) + den = den * lambda1 * exp(-lambda1)/gamma(2) + den = den * b^a * u^(a - 1) * exp(-b * u)/gamma(a) + u = runif(1, 0, 1) + if (model == 1) { + aceita = min(1, num/den) + if (u < aceita) { + model = 2 + alpha = alpha1 + beta = beta1 + } + }
84 + + + + + + + + + + + }
CAP ITULO 4. METODOS APROXIMADOS else { aceita = min(1, den/num) if (u < aceita) { model = 1 lambda = lambda1 } } if (model == 1) return(list(model = model, lambda = lambda)) else return(list(model = model, alpha = alpha, beta = beta))
Finalmente o algoritmo pode ser implementado para atualizar tanto o modelo quanto os parmetros dentro do modelo. a > rjmcmc <- function(niter, nburn, y, n, a, b, eps = 0.25) { + x = matrix(0, nrow = niter + 1, ncol = 3) + x1 = matrix(0, nrow = niter - nburn, ncol = 3) + nv = array(0, 2) + nv1 = array(0, 2) + x[1, (1:3)] = c(1, 1, 1) + model = 1 + t1 = prod(y) + t2 = sum(y) + for (i in 1:niter) { + if (model == 1) { + x[nv[1] + 1, 1] = rgamma(1, n + 2, t2 + 1) + } + else { + x[nv[2] + 1, 3] = rgamma(1, 4 + n * x[nv[2], 2], + t2 + 2) + x[nv[2] + 1, 2] = mh.alpha(y, n, x[nv[2], 2], x[nv[2] + + 1, 3], eps) + } + new = rj.modelo(y, n, x[nv[1] + 1, 1], x[nv[2] + 1, 2], + x[nv[2] + 1, 3], model, a, b) + model = new$model + if (model == 1) { + x[nv[1] + 1, 1] = new$lambda + nv[1] = nv[1] + 1 + if (i > nburn) { + x1[nv1[1] + 1, 1] = new$lambda
4.7. PROBLEMAS DE DIMENSAO VARIAVEL + + + + + + + + + + + + + + + + + + + + + } nv1[1] = nv1[1] + 1 } } else { x[nv[2] + 1, 2] = new$alpha x[nv[2] + 1, 3] = new$beta nv[2] = nv[2] + 1 if (i > nburn) { x1[nv1[2] + 1, 2] = new$alpha x1[nv1[2] + 1, 3] = new$beta nv1[2] = nv1[2] + 1 } } } cat("Probabilidades a posteriori dos modelos", "\n") print(nv1/(niter - nburn)) cat("Medias a posteriori dos parametros", "\n") somas = apply(x1, 2, sum) print(somas/c(nv1[1], nv1[2], nv1[2])) return(list(x = x, nv = nv, x1 = x1, nv1 = nv1))
85
Vamos testar as funoes acima simulando um conjunto de dados com disc tribuiao exponencial. c > > > > y = rexp(10, 3) niter = 1000 nburn = 500 m = rjmcmc(1000, 500, y, 10, 1, 1)
Probabilidades a posteriori dos modelos [1] 0.8 0.2 Medias a posteriori dos parametros [1] 3.794036 1.044988 3.439110 Assim o modelo exponencial tem probabilidade a posteriori bem maior que o modelo gama. Podemos estar interessados em estimar os tempos mdios de vida e (E(Y )) sob cada modelo. > > > > r1 = 1:m$nv1[1] r2 = 1:m$nv1[2] x = m$x1[, c(1, 2)] x[r1, 1] = 1/m$x1[r1, 1]
86 > > > >
CAP ITULO 4. METODOS APROXIMADOS x[r2, 2] = m$x1[r2, 2]/m$x1[r2, 3] somas = apply(x, 2, sum) medias = somas/c(m$nv1[1], m$nv1[2]) print(medias)
[1] 0.2892936 0.3186531 > prob = m$nv1/(niter - nburn) > prob[1] * medias[1] + prob[2] * medias[2] [1] 0.2951655
4.8
4.8.1
Tpicos Relacionados o
Autocorrelao Amostral ca
Em uma cadeia de Markov, os valores gerados so por denio correlacionados a ca (t) ao longo das iteraoes pois o valor de foi gerado a partir de (t1) . Em c muitas situaoes estes valores podem ser altamente correlacionados e em geral a c autocorrelaao ser positiva. Ou seja, pode no haver muito ganho em termos c a a de informaao em se armazenar todos os valores simulados da cadeia e podemos c estar desperdiando espao em disco, especialmente se a dimenso do problema c c a for muito grande. Embora no tenha nenhuma justicativa terica, uma abordagem prtica a o a muito utilizada consiste em guardar os valores simulados a cada k iteraoes. Neste c caso, dizemos que as simulaoes foram feitas com thinning igual a k. Por exemplo, c se foram feitas 100 mil simulaoes, descartadas as 50 mil primeiras e guardados c os valores a cada 10 iteraoes ento no nal as inferncias sero baseadas em uma c a e a amostra de tamanho 5000. Comentrio a A no ser para obter esta reduao de espao ocupado em disco, descartar valores a c c simulados (alm daqueles da amostra de aquecimento) me parece um desperdicio. e Mtodos de sries temporais esto disponiveis para analisar cadeias levando em e e a conta as autocorrelaoes. Alm disso pode-se tentar outros amostradores que c e gerem cadeias com menor autocorrelaao amostral. c
4.8.2
Monitorando a Convergncia e
Aqui vale lembrar que a vericaao de convergncia (ou falta de convergncia) c e e e responsabilidade do analista. Alm disso estamos falando de convergncia para e e
4.8. TOPICOS RELACIONADOS
87
a distribuiao alvo, que neste caso a distribuiao a posteriori, o que pode ser c e c extremamente dif de se vericar na prtica. cil a
Cap tulo 5 Modelos Lineares

Em uma situaao mais geral, a varivel de interesse (varivel resposta) tem sua c a a descriao probabil c stica afetada por outras variveis (variveis explicativas ou a a covariveis). No caso mais simples a inuncia sobre a resposta mdia linear e a e e e aditiva e pode ser vista como uma aproximaao de primeira ordem para funoes c c mais complexas. Usando uma notaao matricial, o modelo linear normal pode ser escrito como c y = X + , onde y um vetor n 1 de observaoes, X uma matriz n p conhecida, e c e um vetor p 1 de parmetros e um vetor n 1 de erros aleatrios tais e a e o 2 que i N (0, ) e E(i j ) = 0, para i = 1, , n e j = i. O modelo nos diz ento que, a distribuiao condicional de y dados e 2 normal multivariada, a c e 2 i.e. y N (X, I n ) sendo I n a matriz identidade de ordem n. Denindo e 2 = e usando a funao de densidade da normal multivariada (ver apndice c e A) segue que 1 f (y|, ) = (2)n/2 |1 I n |1/2 exp (y X) (1 I n )1 (y X) 2 n/2 exp (y X) (y X) . (5.1) 2 A forma quadrtica em (5.1) pode ser reescrita em termos de = (X X)1 X y a que o estimador de mxima verossimilhana de , e a c (y X) (y X) = (y X X( )) (y X X( )) = (y X ) (y X ) + ( X ) X X( X )
2( X )X (y X ) = (y X ) (y X ) + ( X ) X X( X ) 88
89 pois X (y X ) = 0. Denotando por S = (y X ) (y X ) a soma de quadrados residual, podemos escrever ento a funao de verossimilhana como, a c c f (y|, ) n/2 exp [( ) X X( ) + S] . 2
A distribuiao a priori adotada aqui uma generalizao multivariada da c e ca distribuiao Normal-Gama vista na Seao 2.3.5. Assim, a distribuiao a priori c c c e especicada como | Np (0 , (C 0 )1 ) onde C 0 agora uma matriz p p e e Gama
2 n0 n0 0 , 2 2
Com isso a densidade a priori conjunta de (, ) ca completamente especicada e assim como no caso univariado a distribuiao marginal de obtida integrandoc e se p(, ) em relaao a onde, c p(, ) a E fcil vericar que ( 0 ) C 0 ( 0 ) p() 1 + 2 n0 0
(n0 +p)/2
n0 +p 1 2
exp
2 n0 0 + ( 0 ) C 0 ( 0 ) 2
2 de modo que a distribuiao a priori marginal de tn0 (0 , 0 C 1 ). Note c e 0 que, como C 0 simtrica, necessrio especicar p(p + 1)/2 de seus elementos. e e e a Na prtica, podemos simplicar esta especicaao assumindo que C 0 diagonal, a c e i.e. que os componentes de so no correlacionados a priori. a a
Combinando-se com a verossimilhana via teorema de Bayes obtem-se as c seguintes distribuioes a posteriori c |, y N (1 , (C 1 )1 ) 2 n1 n1 1 |y Gama , 2 2 2 1 |y tn1 (1 , 1 C 1 )
2 ou n1 1 2 1 n
90 onde os parmetros atualizados so a a n1 = n0 + n C 1 = C 0 + X X
CAP ITULO 5. MODELOS LINEARES
1 = (C 0 + X X)1 (C 0 0 + X X )
2 2 n1 1 = n0 0 + (y X1 ) y + (0 1 ) C0 0 = n0 2 + (n p) 2 + (0 ) [C 1 + X X 1 ]1 (0 ) 0 0
onde 2 =
2 Os estimadores pontuais de e so dados respectivamente por 1 e 1 . a
1 (y X ) (y X ). np
Intervalos de conana para j e so obtidos atravs dos percentis das c a e 1 2 distribuioes univariadas tn1 (j , 1 (C 1 )jj ), j = 1, , p e 2 1 . Em particular, c n note que 1 obtida como uma ponderaao matricial entre a estimativa a priori e c de e sua estimativa de mxima verossimilhana . Inferncia conjunta sobre a c e tambm pode ser feita usando o fato que a forma quadrtica e a ( 1 ) C 1 ( 1 )/p F (p, n1 ). 2 1
Note que o modelo visto na seao anterior na verdade o caso mais simples c e de um modelo linear quando p = 1 e X um vetor n 1 de 1s. Neste caso e e um escalar podendo ser denotado por e o modelo se reduz a yi = + i . A priori no informativa tambm uma generalizaao multivariada da seao a e e c c anterior. Aqui o vetor um parmetro de locaao e um parmetro de escala, e a c e a e portanto a priori no informativa de Jereys p(, ) 1 . Vale notar a e que esta priori um caso particular (degenerado) da priori conjugada natural e com C 0 = 0 e n0 = p. Fazendo as substituioes adequadas obtm-se que as c e distribuioes a posteriori so dadas por c a |y tnp (, s2 (X X)1 )
(n p)s2 |y 2 np X X( ) ( ) |y F (p, n p) s2
e estimadores pontuais bem como intervalos de conana coincidiro com os obtic a dos usando mtodos clssicos. e a
5.1. ANALISE DE VARIANCIA COM 1 FATOR DE CLASSIFICACAO
91
5.1
Anlise de Varincia com 1 Fator de Classia a cao ca
Considere o modelo yij = j + ij , i = 1, , nj e j = 1, , p. Assim, todas as nj observaoes do grupo j tm a mesma mdia j . Neste problema, o nmero c e e u total de observaoes independentes n = n1 + + np . Em outras palavras, c e 2 Y1j , , Ynj j N (j , ). Se os yij forem empilhados em um unico vetor n 1 ento podemos reescrever o modelo na forma matricial y = X + sendo a 1 0 0 . . . . . . . . . 1 0 0 . . . . . . . X= . . . 0 0 1 . . . . . . . . . 0 0 1 Note que X X = diagonal(n1 , , np ) e a forma quadrtica ( ) X X( ) a se reduz a p
j=1
nj (j y j )2
e a funao de verossimilhana dada por c c e l(1 , , p , ; y) com s2 =

n/2
exp (n p)s2 + 2
j=1
nj (j y j )2
1 (y X ) (y X ). np
Assumindo que j | N (j , (cj )1 ), j = 1, , p so condicionalmente a 2 2 independentes e que n0 0 n0 ento as distribuioes a posteriori so a c a

2 n1 1 |y 2 1 n
j |, y N ( , (c )1 ) j j
2 j |y tn1 ( , 1 /c ) j j
92 onde = j c j
2 n1 1
CAP ITULO 5. MODELOS LINEARES
c j j + nj y j c j + nj = c j + nj
p
n1 = n0 + n =
2 n0 0
+ (n p)s +
i=1
nj c j (y j )2 c j + nj j
e os j |, y permanecem independentes. A priori no informativa p(, ) 1 obtida fazendo-se cj = 0, j = 1, , p a e e n0 = p. Assim, as distribuioes a posteriori marginais so dadas por c a (n p)s2 2 np j |y tnp (y j , s2 /nj )
e as estimativas pontuais e intervalos de conana coincidiro com os da inferncia c a e clssica. Em particular, se estamos interessados em testar a H0 : 1 = = p = ento pode-se mostrar que (DeGroot,1970, pginas 257 a 259) deve-se rejeitar H0 a a se p P F > nj (y j y)2 /(p 1) j=1 2 s
onde F F (p 1, n p) for pequena. Note que as hipteses equivalentes so o a
H0 : 1 = = p = 0 sendo j = j , = 1 n
p p
nj j
j=1
e
j=1
nj j = 0
e j o efeito da j-sima populaao. Neste caso, X X = diagonal(n1 , , np ) e e e c X X( ) ca a forma quadrtica ( ) a nj (j y j y)2 + n( y j y)2 .
Apndice A e Lista de Distribuioes c

Neste apndice so listadas as distribuioes de probabilidade utilizadas no texto e a c para facilidade de referncia. S apresentadas suas funoes de (densidade) de e a c probabilidade alm da mdia e varincia. Uma reviso exaustiva de distribuioes e e a a c de probabilidades pode ser encontrada em Johnson et al. (1992, 1995) e Evans et al. (1993).
A.1
Distribuio Normal ca
X tem distribuiao normal com parmetros R e 2 > 0, denotando-se c a 2 X N (, ), se sua funao de densidade dada por c e p(x|, 2 ) = (2 2 )1/2 exp 1 (x )2 , 2 2 < x < .
E(X) = e V (X) = 2 . Quando = 0 e 2 = 1 a distribuiao chamada normal padro. c e a No caso vetorial, X = (X1 , . . . , Xp ) tem distribuiao normal multivaric ada com vetor de mdias e matriz de varincia-covarincia , denotando-se e a a X N (, ) se sua funao de densidade dada por c e p(x|, ) = (2)p/2 ||1/2 exp[(x ) 1 (x )/2] para Rp e positiva-denida.
93
94
APENDICE A. LISTA DE DISTRIBUICOES
A.2
Distribuio Log-Normal ca
Se X N (, 2 ) ento Y = eX tem distribuiao log-normal com parmetros e a c a 2 . Portanto, sua funao de densidade dada por c e 1 (log(y) )2 1 , p(y|, 2 ) = (2 2 )1/2 exp y 2 2 < x < .
E(X) = exp{ + 2 /2} e V (X) = exp{2 + 2 }(exp{ 2 } 1).
A.3
A Funo Gama ca
() =
0
x1 ex dx.
Propriedades, Usando integraao por partes pode-se mostrar que, c ( + 1) = (), > 0. (1) = 1. (1/2) = .
Para n um inteiro positivo, (n + 1) = n! e n+ 1 2 = n 1 2 n 3 2 ... 3 1 2 2
A.4
Distribuio Gama ca
X tem distribuiao Gama com parmetros > 0 e > 0, denotando-se X c a Ga(, ), se sua funao de densidade dada por c e p(x|, ) = 1 x x e , () x > 0.
E(X) = /
e V (X) = / 2 .
Casos particulares da distribuiao Gama so a distribuiao de Erlang, Ga(, 1), c a c a distribuiao exponencial, Ga(1, ), e a distribuiao qui-quadrado com graus c c de liberdade, Ga(/2, 1/2).
A.5. DISTRIBUICAO WISHART
95
A.5
Distribuio Wishart ca
Diz-se que uma matriz aleatria (n n) segue uma distribuiao Wishart com o c parmetro e graus de liberdade, denotando-se W (, ), se sua funao a c de densidade dada por, e p(|, ) ||(n1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o trao de uma matriz A. Uma c propriedade util que AA W (AA , ). e
A.6
Distribuio Gama Inversa ca
X tem distribuiao Gama Inversa com parmetros > 0 e > 0, denotando-se c a X GI(, ), se sua funao de densidade dada por c e p(x|, ) = , 1 (+1) /x x e , () x > 0.
E(X) =
para > 1 e V (X) =
No dif vericar que esta a distribuiao de 1/X quando X Ga(, ). a e cil e c
2 , ( 1)2 ( 2)
para > 2.
A.7
Distribuio Wishart Invertida ca
Diz-se que uma matriz aleatria (n n) segue uma distribuiao Wisharto c Invertida com parmetro e graus de liberdade, denotando-se W I(, ) a se sua funao de densidade dada por, c e p(|, ) ||(+n+1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o trao de uma matriz A. c No dif vericar que 1 W (, ). Outra propriedade que AA a e cil e W I(AA , ).
96
A.8
Distribuio Beta ca
X tem distribuiao Beta com parmetros > 0 e > 0, denotando-se c a X Be(, ), se sua funao de densidade dada por c e p(x|, ) = E(X) = ( + ) 1 x (1 x)1 , ()() e V (X) = ( + )2 ( 0 < x < 1. + + 1) .
A.9
Distribuio de Dirichlet ca
O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuiao de Dirichlet com parmetros o c a 1 , . . . , k , denotada por Dk (1 , . . . , k ) se sua funao de densidade conjunta c e dada por (0 ) p(x|1 , . . . , k ) = x1 1 . . . xk 1 , k (1 ), . . . , (k ) 1 para 1 , . . . , k > 0 e 0 = E(Xi ) = i , 0 V (Xi ) =
k i=1 k
xi = 1,
i=1
i . e Cov(Xi , Xj ) = i j 2 0 (0 +
(0 i )i , 2 0 (0 + 1)
1)
Note que a distribuiao Beta obtida como caso particular para k = 2. c e
A.10
Distribuio t de Student ca
X tem distribuiao t de Student (ou simplesmente t) com parmetros R, c a 2 > 0 e > 0 (chamado graus de liberdade), denotando-se X t (, 2 ), se sua funao de densidade dada por c e p(x|, , 2 ) = E(X) = , ( +1 ) /2 (x )2 2 + 2 ( ) 2
(+1)/2
, x R.
, para > 2. 2 Um caso particular da distribuiao t a distribuiao de Cauchy, denotada por c e c 2 C(, ), que corresponde a = 1. para > 1 e V (X) = 2
A.11. DISTRIBUICAO F DE FISHER
97
A.11
Distribuio F de Fisher ca
X tem distribuiao F com 1 > 0 e 2 > 0 graus de liberdade, denotando-se c X F (1 , 2 ), se sua funao de densidade dada por c e ( 1 +2 ) 1 /2 2 /2 1 /21 p(x|1 , 2 ) = 1 2 2 1 2 x (2 + 1 x)(1 +2 )/2 , x > 0. ( 2 )( 2 ) E(X) = 2 , 2 2 para 2 > 2 e V (X) =
2 22 (1 + 2 2) , 1 (2 4)(2 2)2
para 2 > 4.
A.12
Distribuio de Pareto ca
X tem distribuiao de Pareto com parmetros e denotando-se X c a P areto(, ), se sua funao de densidade de probabilidade dada por, c e p(x|, ) = E(X) = 1 x
+1
x > . 1
2
2 e V (X) = 2
A.13
Distribuio Binomial ca
X tem distribuiao binomial com parmetros n 1 e p (0, 1), denotando-se c a X bin(n, p), se sua funao de probabilidade dada por c e p(x|n, p) = n x p (1 p)nx , x x = 0, . . . , n.
E(X) = np e V (X) = np(1 p) e um caso particular a distribuiao de Bernoulli com n = 1. e c
A.14
Distribuio Multinomial ca
O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuiao multinomial com parmeto c a ros n e probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua funao de c probabilidade conjunta dada por e n! x x 1 , . . . , k k , p(x|1 , . . . , k ) = x1 !, . . . , xk ! 1
k
xi = 0, . . . , n,
i=1
xi = n,
98
para 0 < i < 1 e k i = 1. Note que a distribuiao binomial um caso c e i=1 particular da distribuiao multinomial quando k = 2. Alm disso, a distribuiao c e c marginal de cada Xi binomial com parmetros n e i e e a E(Xi ) = ni , V (Xi ) = ni (1 i ), e Cov(Xi , Xj ) = ni j .
A.15
Distribuio de Poisson ca
X tem distribuiao de Poisson com parmetro > 0, denotando-se X c a P oisson(), se sua funao de probabilidade dada por c e p(x|) = x e , x! x = 0, 1, . . .
E(X) = V (X) = .
A.16
Distribuio Binomial Negativa ca
X tem distribuiao de binomial negativa com parmetros r 1 e p (0, 1), c a denotando-se X BN (r, p), se sua funao de probabilidade dada por c e p(x|r, p) = r+x1 r p (1 p)x , x r(1 p) p e V (X) = x = 0, 1, . . . r(1 p) . p2
E(X) =
Um caso particular quando r = 1 e neste caso diz-se que X tem distribuiao e c geomtrica com parmetro p. Neste caso, e a p(x|p) = pr (1 p)x , E(X) = 1p p x = 0, 1, . . . 1p . p2
e V (X) =
Apndice B e Alguns Endereos Interessantes c

Neste apndice so listados alguns endereos na internet com contedo relativo a e a c u abordagem Bayesiana. Teorema de Bayes no Wikipedia: http://en.wikipedia.org/wiki/Bayes theorem Bayesian Analysis - The Journal: http://ba.stat.cmu.edu/ International Society for Bayesian Analysis: http://www.bayesian.org American Statistical Association, Section on Bayesian Statistical Science: http://www.amstat.org/sections/SBSS Bayes Methods Working Group of the International Biometric Society, German Region: http://ibealt.web.med.uni-muenchen.de/bayes-ag Encontro Brasileiro de Estat stica Bayesiana: 2006 (http://www.im.ufrj.br/ebeb8), 2008 (http://www.ime.usp.br/ isbra/ebeb/9ebeb) Valencia Meetings: http://www.uv.es/valenciameeting I Workshop em Estat stica Espacial e Mtodos Computacionalmente Intene sivos: leg.ufpr.br/ ehlers/folder Case Studies in Bayesian Statistics: http://lib.stat.cmu.edu/bayesworkshop/ MCMC preprints: http://www.statslab.cam.ac.uk/ mcmc Projeto BUGS (Bayesian inference Using Gibbs Sampling): http://www.mrc-bsu.cam.ac.uk/bugs Projeto JAGS (Just Another Gibbs Sampler): http://www-s.iarc.fr/ martyn/software/jags/ 99
100
APENDICE B. ALGUNS ENDERECOS INTERESSANTES BayesX (Bayesian Inference in Structured Additive Regression Models.): http://www.stat.uni-muenchen.de/ bayesx/bayesx.html MrBayes (Bayesian estimation of phylogeny): http://mrbayes.scs.fsu.edu Nmero especial do Rnews dedicado a inferencia Bayesiana e MCMC: u http://www.est.ufpr.br/R/doc/Rnews/Rnews 2006-1.pdf CRAN Task View (Bayesian Inference): http://cran.r-project.org/src/contrib/Views/Bayesian.html Centro de Estudos do Risco UFSCAR: http://www.ufscar.br/ des/CER/inicial.htm
Referncias e
Berger, J. (1985). Statistical Decision Theory and Bayesian Analysis. SpringerVerlag: New York. Bernardo, J. M. & Smith, A. F. M. (1994). Bayesian Theory. Wiley: New York. Box, G. E. P. & Tiao, G. C. (1992). Bayesian Inference in Statistical Analysis. Wiley Classics Library ed. Wiley-Interscience. Broemeling, L. (1985). Bayesian Analysis of Linear Models. New York: Marcel Dekker. DeGroot, M. H. (1970). Optimal Statistical Decisions. McGraw-Hill Book Co. Evans, M., Hastings, N. & Peacock, B. (1993). Statistical Distributions, Second Edition (Second ed.). Wiley Interscience. Gamerman, D. (1997). Markov chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Texts in Statistical Sciences. Chapman and Hall, London. Gamerman, D. & Lopes, H. (2006). Markov chain Monte Carlo: Stochastic Simulation for Bayesian Inference. Texts in Statistical Science Series. CRC Press. Gelman, A., Carlin, J. B., Stern, H. S. & Rubin, D. B. (2004). Bayesian Data Analysis (2nd ed.). Chapman and Hall: London. Green, P. J. (1995). Reversible jump MCMC computation and Bayesian model determination. Biometrika 82, 711732. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley, New York. Johnson, N. L., Kotz, S. & Kemp, A. W. (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York. Migon, H. S. & Gamerman, D. (1999). Statistical Inference: An Integrated Approach. Arnold. OHagan, A. (1994). Bayesian Inference, Volume 2B. Edward Arnold, Cambridge. 101
102
References.
Robert, C. P. & Casella, G. (1999). Monte Carlo Statistical Methods. SpringerVerlag, New York. Smith, A. F. M. & Gelfand, A. E. (1992). Bayesian statistics without tears: A sampling-resampling perspective. The American Statistician 46, 8488.

Apostila Inferência Bayesiana - Ricardo Ehlers

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Apostila Inferência Bayesiana - Ricardo Ehlers

Hochgeladen von

Copyright:

Verfügbare Formate

INFERENCIA BAYESIANA

SUMARIO B Alguns Endereos Interessantes c References

Cap tulo 1 Introduo ca

CAP ITULO 1. INTRODUCAO

Em muitos problemas estatisticos a hiptese de independncia condicional entre o e

CAP ITULO 1. INTRODUCAO

CAP ITULO 1. INTRODUCAO

segue que a transformaao inversa simplesmente c e = log 1 = logito().

Portanto a densidade a priori de ca p() = fN (()|, 2 ) d d 1 2 2 log 1

1.1. TEOREMA DE BAYES

N(0.5,0.5) N(0,0.5) N(1,0.5) N(2,0.5)

CAP ITULO 1. INTRODUCAO

N(1,0.25) N(1,1) N(0,4) 3 p() 0 0.0 1 2

1 = Prova. Temos que

2 p(x|) exp{ 2 (x )2 /2} e p() exp{0 ( 0 )/2}

pois 1 no depende de . Portanto, a funao de densidade a posteriori (a menos a c

1.1. TEOREMA DE BAYES

Beta(1.5,4) Beta(2,0.5) Beta(7,1.5) Beta(3,3)

Figura 1.3: Densidades a priori Beta para o parmetro no Exemplo 1.2. a

10 normal. Alm disso, e

CAP ITULO 1. INTRODUCAO

E(X) = E() + E() = 0

priori posteriori verossimilhanca

0.010 Fisico B 700

Figura 1.4: Densidades a priori e a posteriori e funo de verossimilhana para o ca c

Princ pio da Verossimilhana c

CAP ITULO 1. INTRODUCAO

1.3. EXERC ICIOS (b) Qual a probabilidade dele estar inadimplente ?

Cap tulo 2 Distribuioes a Priori c

2.2. CONJUGACAO NA FAM ILIA EXPONENCIAL

0 < < 1 sendo t =

Conjugao na Fam Exponencial ca lia

CAP ITULO 2. DISTRIBUICOES A PRIORI

1 exp {() + b()} . exp (r 1) log

A posteriori tambm Beta com parmetros + x e + 1 ou equivalentemente e e a

veross priori posteriori

veross priori posteriori

veross priori posteriori

Figura 2.1: Densidades a priori, a posteriori e funo de verossimilhana normalizada ca c

CAP ITULO 2. DISTRIBUICOES A PRIORI

n = + n e a distribuiao preditiva dada por c e

Principais Fam lias Conjugadas

Distribuio normal com varincia conhecida ca a

CAP ITULO 2. DISTRIBUICOES A PRIORI

Para uma unica observaao x segue ento que c a 1 1 ( + x) = p(x) = +x x! () ( + 1) x! = +x1 x +1

CAP ITULO 2. DISTRIBUICOES A PRIORI

Distribuio normal com mdia conhecida e varinca e a cia desconhecida

)2 e aplicando o teorema de Bayes obtemos a

2 Equivalentemente podemos dizer que (n0 0 + ns2 ) | x 2 0 +n . 0 n

Distribuio normal com mdia e varincia desconca e a hecidos

e a distribuiao a priori marginal de a mesma do caso anterior, i.e. c e Gama

A partir desta densidade conjunta podemos obter a distribuiao marginal de c

24 por integraao c p() =

CAP ITULO 2. DISTRIBUICOES A PRIORI

2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] d 2

2 (n0 +1)/21 exp [n0 0 + c0 ( 0 )2 ] , 2

(xi x)2 + c0 n(0 x)2 /(c0 + n).

2.4. PRIORI NAO INFORMATIVA posteriori marginal de ca

(iv) c0 = 1/10 pois V ar() =

CAP ITULO 2. DISTRIBUICOES A PRIORI

e tomando-se a segunda derivada segue que 2 log p(x|) n + = 2 e assim, 1 I() = 2 E

CAP ITULO 2. DISTRIBUICOES A PRIORI

CAP ITULO 2. DISTRIBUICOES A PRIORI

e a distribuiao a posteriori de i obtida como c e p(i ) = m(x|i )p() . p(x)