Augusto Teixeira - Notas de Aula Probabilidade I

Notas de aula: Probabilidade I
Augusto Teixeira
8 de junho de 2016
Licena
Esse trabalho licenciado nos termos da licena Creative Commons Atribuio-

NoComercial-CompartilhaIgual 3.0 No Adaptada (CC BY-NC-SA 3.0). Assim,
qualquer um pode usar, distribuir e modificar o contedo em obras derivadas
livremente desde que para fim no-comercial e com a devida citao da fonte.
Qualquer violao dos termos da licena citada ser considerado uso ilegal.
i
ii
Contribuies
Somos gratos especialmente a Hubert Lacoin, pela reviso do texto, assim como
pelas colaboraes autorais.
Tambm gostaramos de agradecer
Roberto Imbuzeiro de Oliveira

Milton Jara
Cludio Landim
Conrado Costa
Rangel Baldasso
por diversas discusses, sugestes e correes.
iii
Sumrio
Prefcio iv
1 Fundamentos 1
1.1 Espaos mensurveis . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espaos de probabilidade . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Sistemas - . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1 Igualdade de probabilidades . . . . . . . . . . . . . . . . 7
1.4 Elementos aleatrios . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Distribuio de elementos aleatrios . . . . . . . . . . . . 9
Tpico: O paradoxo de Bertrand . . . . . . . . . . . . . . . . . . . . . 10
2 Construo de espaos de probabilidade 11

2.1 Caso enumervel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Tpico: Mtodo Probabilstico . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Caso absolutamente contnuo . . . . . . . . . . . . . . . . . . . . 15
2.3 Funes acumuladas de distribuio . . . . . . . . . . . . . . . . 15
2.4 Espaos produto finito . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Independncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1 Colees de eventos . . . . . . . . . . . . . . . . . . . . . 19
2.5.2 Independncia de -lgebras . . . . . . . . . . . . . . . . 19
Tpico: Lei dos pequenos nmeros . . . . . . . . . . . . . . . . . . . . 22
2.6 Espaos produto infinito . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.1 Recordar viver... . . . . . . . . . . . . . . . . . . . . . . . 27
2.6.2 Teorema da Extenso de Kolmogorov . . . . . . . . . . . 28
Tpico: Percolao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7 Distribuies conjuntas . . . . . . . . . . . . . . . . . . . . . . . . 35
2.8 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . 35
2.8.1 Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 38
v
SUMRIO
vi
SUMRIO
2.9 Ncleos de transio . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.10 Espaos cannicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.10.1 Espaos poloneses . . . . . . . . . . . . . . . . . . . . . . 46
Tpico: Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . 50
Tpico: Urna de Plya . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Somas de variveis independentes 59

3.1 Esperana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1 Desigualdade de Markov . . . . . . . . . . . . . . . . . . 62
3.1.2 Esperana e independncia . . . . . . . . . . . . . . . . . 63
3.2 Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3 Lei fraca dos grandes nmeros . . . . . . . . . . . . . . . . . . . 66
Tpico: Contando tringulos . . . . . . . . . . . . . . . . . . . . . . . 68
3.4 Lei forte dos grandes nmeros . . . . . . . . . . . . . . . . . . . 70
3.5 Lei {0, 1} de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Momentos exponenciais . . . . . . . . . . . . . . . . . . . . . . . 75
3.7 Princpio de Grandes Desvios . . . . . . . . . . . . . . . . . . . . 77
Tpico: Funes caractersticas . . . . . . . . . . . . . . . . . . . . . . 83
3.8 O Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . 84
3.8.1 A distribuio normal . . . . . . . . . . . . . . . . . . . . 84
3.8.2 Convergncia fraca . . . . . . . . . . . . . . . . . . . . . . 88
3.8.3 Convergncia fraca em R . . . . . . . . . . . . . . . . . . 90
3.8.4 O TCL para uma sequncia i.i.d. . . . . . . . . . . . . . . . 91
Tpico: O Teorema de Portmanteau . . . . . . . . . . . . . . . . . . . 94
4 Esperana condicional 97
4.1 Esperana condicional . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Propriedades bsicas da esperana condicional . . . . . . . . . . 100
4.3 Probabilidade Condicional Regular . . . . . . . . . . . . . . . . . 106
4.4 Princpio da substituio . . . . . . . . . . . . . . . . . . . . . . . 108
Tpico: Processos de Poisson em R . . . . . . . . . . . . . . . . . . . . 112
5 Solues de exerccios 117
Referncias Bibliogrficas 119
Index 119
ndice Remissivo 120
vii
SUMRIO
viii
Captulo 1
Fundamentos
A probabilidade moderna se baseia fortemente na Teoria da Medida e supomos

durante esse curso que o leitor esteja bem familiarizado com conceitos tais como:
Medida de Lebesgue, extenses de medida e teoremas de convergncia. Iremos
agora justificar brevemente a escolha da Teoria da Medida para o estudo de
probabilidade.
No incio da Teoria da Probabilidade, a maioria dos fenmenos estudados
apresentava apenas um nmero finito de resultados possveis, como por exem-
plo ao se jogar um dado de seis lados ou sortear uma carta em um baralho. Em
tais casos desnecessrio o uso de ferramentas sofisticadas pra modelar tais
situaes. Por exemplo, podemos simplesmente dizer que a probabilidade de
se obter cada um dos lados do dado igual a 1/6.
Mas digamos por exemplo que queremos um modelo para estudar o vo-
lume de chuva em uma cidade durante um ano. Obviamente, esse volume
poderia ser qualquer nmero real positivo e no podemos simplesmente atri-
buir valores positivos de probabilidade a cada nmero real (lembramos que
somas no enumerveis de termos positivos so sempre infinitas). Mas como
podemos continuar nossa modelagem se nem ao menos podemos dizer qual
a probabilidade de chover um determinado volume esse ano, por exemplo
(/19)mm?
A soluo para tal dilema, se baseia no fato de que na verdade nunca estamos
interessados no exato resultado do nosso experimento. Gostaramos sim de
responder perguntas do tipo: qual a probabilidade de que chova entre zero e
37mm? Estamos portanto interessados em atribuir probabilidades no a valoers
exatos do experimento, mas a certos conjuntos de possveis valores. Chamamos
tais conjuntos de eventos.
Voltando ao caso do dado de seis lados, poderamos nos interessar por
exemplo pela probabilidade dos seguintes eventos: o lado sorteado foi mpar
1
CAPTULO 1. FUNDAMENTOS
(P({1, 3, 5}) = 1/2) ou o lado serteado foi dois (P({2}) = 1/6). E percebemos
rapidamente que para eventos disjuntos a probabilidade de sua unio a soma
de suas probabilidades (no caso acima, P({1, 2, 3, 5}) = 1/2 + 1/6 = 2/3). Esse
carter aditivo da probabilidade certamente nos remete aos conceitos bsicos de
Teoria da Medida. Vamos agora formalizar a discusso acima com mais calma,
sob a tica dessa teoria.
1.1 Espaos mensurveis

Denotaremos sempre por o nosso espao amostral ( princpio qualquer con-
junto). Um ponto nesse espao corresponde por exemplo a um possvel resul-
tado do nosso experimento aleatrio.
Exemplo 1.1.1. Possveis exemplos de espao amostral
a) 1 = {1, 2, . . . , 6},
b) 2 = R+ ,
c) 3 = { f : [0, 1] R; f contnua}.
Os exemplos acima poderiam ser usados em modelar por exemplo: o resul-

tado de um dado, o volume anual de chuva em uma cidade e o comportamento
ao longo do dia do preo de uma ao na bolsa de valores.
Consideraremos sempre s equipados com uma -lgebra denotada por F .
Mais precisamente
Definio 1.1.1. Dizemos que F P () uma -lgebra se
a) F ,
b) A F implica que Ac F e
c) se A1 , A2 , F , ento i Ai F .
Nesse caso, dizemos que (, F ) um espao mensurvel e os elementos

A F so chamados de eventos.
Se G P () (que chamamos de uma classe ou famlia), denotamos por
(G) a -lgebra gerada por G , que a menor -lgebra contendo G (ou em
outras palavras, a interseo de todas -lgebras que contm G ). Um exemplo
importante dado pela -lgebra de Borel , gerada pelos abertos de uma topologia
em .
Exemplo 1.1.2. Tpicos exemplos de -lgebra correspondentes aos espaos amostrais

do Exemplo 1.1.1
a) F1 = P (1 ),
b) F2 = B([0, 1]) e
2
1.2. ESPAOS DE PROBABILIDADE
c) F3 = B(C [0, 1]).

Exemplo 1.1.3. Alguns eventos de F1 , F2 e F3 acima
a) { x mpar}, {1} 1 ,
b) [0, 1/2], {0}, (Q [0, 1]) 2 e
c) { f : [0, 1] R; f (1) > 0} 3 .
Exerccio 1.1.4. Mostre que { f : [0, 1] R; f (t) 0 para todo t [0, 1]} 3
um evento (ou seja, pertence a F3 ).
Notao 1.1.2. Se Q for uma condio qualquer sobre candidatos , escreveremos
[ satisfaz Q] para denotar { ; satisfaz Q}.
Por exemplo, { f : [0, 1] R; f (1) > 0} pode ser escrita simplesmente como
[ f (1) > 0].
1.2 Espaos de probabilidade

Agora estamos prontos para introduzir o conceito moderno do que uma
probabilidade.
Definio 1.2.1. Dado (, F ) espao mensurvel, dizemos que P : F [0, 1] uma
probabilidade se
a) P() = 1 e
b) Seja uma seqncia ( Ai )i I finita ou enumervel de eventos disjuntos (Ai A j =
se i 6= j), ento
P i I A i = P ( A i ).
S
(1.1)
i I
Obviamente, isso nada mais que uma medida que associa massa um ao
espao todo.
Exemplo 1.2.1. Probabilidades nos espaos do Exemplo 1.1.1
a) P1 ( A) = (#A)/6 em (1 , F1 ). Ou mais geralmente P10 ( A) = i A pi , onde
pi 0 e i pi = 1.
b) P2 pode ser a medida de Lebesgue em ([0, 1], B([0, 1])). Mais geralmente tam-
bm podemos ter P20 ( A) = A ( x ) dx,Ronde : [0, 1] R+ uma funo
R
mensurvel, chamada densidade, tal que [0,1] ( x ) dx = 1.
c) P3 = 0 , que atribui o valor um se o evento contm a funo identicamente nula

( f 0) e zero caso contrrio.
Obviamente o terceiro exemplo bastante artificial (e intil). Mas futura-
mente, estaremos prontos para introduzir medidas bem interessantes no espao
( 3 , F3 ).
3
Proposio 1.2.2. Valem as afirmativas seguintes
a) Se A B ento P( A) P( B).
b) A cota da unio: para I finito o enumervel
P i I A i P ( A i ).
S
(1.2)
i I
c) O que chamamos de princpio da incluso e excluso

n
(1)k1
Sn
P i =1 Ai = P ( A i1 A i k ). (1.3)
k =1 1i1 <<ik n
Demonstrao. a) Como A ( B \ A) = , ento
P( A ( B \ A)) = P( A) + P( B \ A). (1.4)
b) P( A B) = P( A ( B \ A)) = P( A) + P( B \ A) P( A) + P( B).
Deixamos o caso enumervel como exerccio abaixo.
c) Chamamos de A a unio dos Ai . Basta mostrar a validade da equao
abaixo e depois integrar com respeito a P.
n
1 A ( ) = (1)k1 1 Ai ( ). (1.5)
k =1 I {1,...,n} i I
| I |=k
Para tanto, observe que para todo ,
(1 A 1 A1 ) (1 A 1 An )( ) = 0. (1.6)
Logo, expandindo o produto acima obtemos

n
1A + (1)k 1 Ak ( ) = 0, (1.7)
k =1 I {1,...,n}
| I |=k
que equivale a (1.5).
Ai i P( Ai ) no caso enumervel.
S
Exerccio 1.2.2. Mostre que P i
Exerccio 1.2.3. Mostre que

m
(1)k1
Sn
P i =1 A i P( Ai1 Aik ) se m mpar e
k =1 1i1 <<ik n
m
(1)k1
Sn
P i =1 Ai P( Ai1 Aik ) se m par.
k =1 1i1 <<ik n
4
1.3. SISTEMAS -
Exerccio 1.2.4. Seja n 1 um nmero inteiro e considere = {0, 1}n , o hipercubo

de dimenso n (cada pode ser visto como uma funo : {1, . . . , n} {0, 1}).
Para cada i {1, . . . , n}, definimos o evento Ai = { ; (i ) = 1}. Dadas
duas probabilidades P e P0 em (, P ()), mostre que se P( B) = P0 ( B) para todos
conjuntos B dados por intersees de Ai s, ento P = P0 .
Proposio 1.2.3. Toda probabilidade P contnua, isto :
a) Se A1 A2 F for uma sequncia crescente de eventos, ento
limn P( An ) = P(
S
n =1 A n ).
T
b) Tambm, se A1 A2 F , temos lim P( An ) = P( n =1 A n ).
n
Demonstrao. a) Observe que

1
nS
An \
S S
An = Ai , (1.8)
n =1 n =1 i =1
que so disjuntos. Logo

S S n 1

P n =1 A n = P An \ i =1 A i
n =1 (1.9)
Sn
= lim P( i =1 Ai ) = lim P ( An ).
n n
b) A prova anloga de 1.
Lema 1.2.4 (Borel-Cantelli - primeira parte). Sejam A1 , A2 , F satisfazendo
i=1 P( Ai ) < . Ento
P[ Ai para infinitos i ] := P
T S
n=1 ( i n Ai ) = 0. (1.10)
Demonstrao. Estimamos
T S
= lim P in Ai lim P( Ai ) = 0.
S
P i n Ai (1.11)
n =1 n n in
O que termina a prova do lemma.

Imagine que jogamos todos os dias em uma loteria e que nossa probabilidade
de ganhar no dia i pi . Ento se i pi < , sabemos que certamente no
ganharemos infinitas vezes.
1.3 Sistemas -
Uma importante ferramenta para provar fatos tericos sobre probabilidades
o Teorema de Dynkin que apresentaremos nessa seo. Ele trata de classes de
eventos que no so necessariamente -lgebras, mas sistemas ou como
definidos abaixo.
5
Definio 1.3.1. Dizemos que uma classe A P () um -sistema se for fechado

por intersees finitas, isto : para todos A, B A temos A B A.
Definio 1.3.2. Dizemos que A P () um -sistema, se
a) A,
b) Sempre que A A temos Ac A.
c) Para A1 , A2 , A disjuntos dois a dois, temos i Ai A.
Exerccio 1.3.1. D um exemplo de -sistema que no seja uma -lbebra.
Definimos para A P ( W ), o menor -sistema contendo A, ou seja

\
(A) = B. (1.12)
B -sistema
AB
fcil ver que (A) sempre um -sistema.
Teorema 1.3.3 (Dynkin). Se A um -sistema, ento (A) = (A).
Note pelo Exerccio 1.3.1 que a hiptese de que A um -sistema necessria

em geral.
Demonstrao. Obviamente, basta mostrar que (A) fechado por unies no

necessariamente disjuntas. Na verdade, vamos ver que suficiente provar que
(A) um -sistema. (1.13)
De fato, caso isso seja provado teremos que (A) fechado por diferenas
(pois A \ B = A Bc ). Assim, podemos mostrar que (A) fechado por
unies enumerveis, pois se A1 , A2 , (A), definimos Bn = in=1 Ai =
(in=1 Aic )c (A) e escrevemos

An \ Bn1 ,
S S
An = (1.14)
n =1 n =1
que uma unio disjunta de termos em (A), logo est em (A). Isso mostra
que (A) uma -lgebra e que de fato suficiente demonstrar (1.13).
Vamos primeiramente mostrar que (A) fechado por intersees com
A. Para tanto, definimos B = B (A); B A (A) para todo A A) e
veremos que
B = (A). (1.15)
Obviamente, A B , pois A um -sistema. Ento basta mostrar que B um
-sistema.
a) obviamente pertence a B .
6
1.3. SISTEMAS -
b) Se B B e A A, ento Bc A = A \ ( B A) = ( Ac ( B A))c . Mas

como B B , ( B A) (A) e usando o fato que -sistemas so fechados
por complementos e unies disjuntas, Bc A (A). Como isso vale
para todo A A, temos Bc B por definio.
c) Se B1 , B2 , B so disjuntos e A A, ento
S
Bn A = Bn A (A),
S
n =1 (1.16)
n =1
S
pois a unio acima disjunta. Logo n =1 Bn B .
Isso mostra que B um -sistema com A B (A), mostrando (1.15).
No prximo passo, definimos B = { A ( A); B A ( A), B ( A)}
e mostraremos que
B = (A), (1.17)
que vai na direo de provar (1.13).
Primeiramente, observe que A B pois B = (A) (veja a definio de B ).
Mostraremos agora que
B um -sistema. (1.18)
Para tanto, verificaremos
a) B , que claro.
c
b) Tomando A B e B (A), Ac B = B \ ( A B) = Bc ( A B)
(A), por um argumento anlogo ao apresentado para B . Logo Ac B .
c) Tambm o caso de unies disjuntas bastante anlogo ao feito para B .
Isso mostra que B um -sistema com A B (A), estabelecendo (1.18).
Finalmente mostraremos que
B um -sistema. (1.19)
De fato, sejam A1 , A2 B e B ( A). Ento ( A1 A2 ) B = ( A1 B) A2
(A), donde A1 A2 pertence a B . Logo temos por (1.19) e (1.18) que (A)
um -sistema, ou seja (1.13), terminando a prova do teorema.
1.3.1 Igualdade de probabilidades

Proposio 1.3.4. Se P1 e P2 so probabilidades em (, F ), tais que P1 ( A) = P2 ( A)
para todo A A e A um -sistema, ento P1 ( B) = P2 ( B) para todo B (A).
Demonstrao. Seja B = { A F ; P1 ( A) = P2 ( A)}. fcil ver que B um
-sistema. Logo B contm (A) que igual a (A) por Dynkin.
Corolrio 1.3.5. Se P1 e P2 so probabilidades em (1 2 , F1 F2 ), tais que
P1 ( A1 A2 ) = P2 ( A1 A2 ), para todos A1 F1 , A2 F2 , (1.20)
ento P1 = P2 .
7
Demonstrao. Obviamente as caixas do tipo A1 A2 formam um -sistema

que gera F1 F2 (por definio).
Exemplo 1.3.2. Observe portanto que importante que A seja um -sistema na
Proposio 1.3.4. Imagine por exemplo que = {0, 1}2 e P1 = 14 x x e P2 =
1
2 ( (0,0) + (1,1) ). Nesse caso
P1 ( A) = P2 ( A) = 1/2 = P1 ( B) = P2 ( B), (1.21)
com A = {(0, 0), (0, 1)} e B = {(0, 0), (1, 0)}. Contudo, P1 6= P2 , mesmo tendo
P () = ({ A, B}).
1.4 Elementos aleatrios

Muitas vezes no estamos interessados no resultado exato do nosso experimento
aleatrio, mas sim em uma determinada medio ou funo de . Por
exemplo, no caso do Exemplo 1.1.1 c), talvez no nos interesse toda a funo f ,
mas apenas o seu valor no fim do dia f (1). Essas medies so ditas elementos
aleatrios que definimos seguir.
Seja ( E, A) um espao mensurvel. Nesse caso, se X : E uma funo
(F , A)-mensurvel, dizemos que X um elemento aleatrio em (, F ) tomando
valores em E, ou um E-elemento aleatrio.
Exemplo 1.4.1. Consideramos os casos
a) X : R mensurvel dita varivel aleatria.
b) X : Rd mensurvel dito vetor aleatrio (d-dimensional).
c) X : C [0, 1] mensurvel dita funo aleatria.
Seguindo a motivao do Exemplo 1.1.1 c), poderia ser que, por exemplo,
estivssemos interessados apenas na varivel aleatria X : 3 R dada por
X ( f ) = f (1).
Exerccio 1.4.2. Mostre que X : 3 R dada por X ( f ) = f (1) uma varivel
aleatria.
Citando Kingman em seu livro Poisson Processes: a random elephant is a
function from into a suitable space of elephants.
Relembrando a nossa notao: P[ X A] = P({ ; X ( ) A}).
Proposio 1.4.1. Seja X : E onde ( E, A) um espao mensurvel com
A = (G). Ento para verificar que X um elemento aleatrio, basta provar que
X 1 ( G ) F para todo G G .
Demonstrao. Teoria da Medida.
Exemplo 1.4.3. Se e E so espaos topolgicos dotados das correspondentes -
lgebras de Borel, ento toda funo contnua um E-elemento aleatrio.
8
1.4. ELEMENTOS ALEATRIOS
1.4.1 Distribuio de elementos aleatrios

Definio 1.4.2. Se X : E um elemento aleatrio e dotado de uma
probabilidade P, ento denotamos por X P, a chamada distribuio de X , a medida
de probabilidade
X P( A) := P { ; X ( ) A} = P[ X A].

(1.22)
no espao mensurvel ( E, A).

Observao 1.4.3. Essa definio corresponde com a de medida imagem vista no curso
de integrao que tem um papel ainda mais importante em probabilidade.
Fica como exerccio verificar que X P de fato uma probabilidade em E.

Exerccio 1.4.4. Seja X : [0, 1] {0, 1} dada por X ( ) = 1 A ( ). Nesse caso,
mostre que X P = Ber( p) para algum p [0, 1]. Calcule o valor de p.
Duas notaes importantes nesse contexto so:
a) Sejam (, F , P) e (0 , F 0 , P0 ) dois espaos de probabilidade e X et Y dois

d
elementos aleatrios. Dizemos que X = Y, quando X P = Y P0 . Note
que X e Y nem ao menos precisam pertencer ao mesmo espao de proba-
bilidade para dizermos que so igualmente distribudos, mas precisam ser
elementos aleatrios de mesmo tipo (ou seja, possuir o mesmo contrado-
mnio).
b) Escrevemos X d , que l-se X distribuda como , onde uma proba-
bilidade em E, caso X P = .
Exerccio 1.4.5. Sejam X e Y variveis aleatrias tais que X nula quase certamente.
Mostre que X + Y tem a mesma distribuio de Y.
O exerccio acima bastante simples, mas o usaremos para fazer uma im-
portante observao sobre como so enunciados tipicamente os resultados de
probabilidade.
Raramente encontramos teoremas que explicitam qual o espao de proba-
bilidades em questo. Como no exerccio acima, o contexto de um teorema
frequentemente dado apenas em termos de elementos aleatrios em e
de suas distribuies. Dessa forma, podemos utilizar o resultado em vrios
contextos diferentes, desde que possamos encontrar elementos aleatrios que
satisfaam as hipteses. Com o tempo, passamos at mesmo a considerar menos
relevante a escolha especfica do espao amostral, focando cada vez mais na
distribuio de seus elementos aleatrios.
9
Tpico: O paradoxo de Bertrand

Vamos estudar um problema que reala a importana do jeito em que escolhe-
mos o espao amostral. Queremos calcular a probabilidade que uma corda
uniformemente distribuida em um crculo seja maior do que o lado do trin-
gulo equiltero inscrito
nesse crculo (no caso do crculo unitrio, o comprimento
desse lado vale 3). Bertrand props dois mtodos para realizar esse clculo. 1
a) Escolher as duas extremidades da corda uniformemente no crculo.

b) Escolher o centro da corda uniformemente no interior do disco.
No caso a), umavez que uma extremidade fixada, o comprimento da corda

fica maior do que 3 somente se o segundo ponto ficar num setor angular de
comprimento 2/3. Logo, essa probabilidade vale (2/3)/(2 ) = 1/3.

No caso b), pra que a corda fique maior do que 3, o centro dela deve
ficar no circulo inscrito dentro do tringulo equiltero, cujo raio 1/2. Ento a
probabilidade vale a razo dessas reas, que 1/4.
Obtemos ento duas respostas diferente para essa pergunta simples, o que e
nada surprendente: a) e b) correspondem a dois experimento diferentes com
espaos amostrais diferentes.
Exerccio 1.4.6. a) Descreva o espao amostral e as lei de probabilidade associadas
aos experimentos a) e b)
b) Calcule a lei de probabilidade do comprimento da corda em cada caso.

c) Repita os tens anteriores para o seguinte caso: Escolhemos uniformemente um
raio do disco. Depois escolhemos o centro da corda uniformemente ao longo desse
raio.
1 Somos gratos a Hubert Lacoin por sugerir e redigir esse tpico.
10
Captulo 2
Construo de espaos de probabilidade
Nessa seo descreveremos diversas maneiras diferentes de construir um espao

de probabilidade, dando diversos exemplos de como elas podem ser usadas na
modelagem de diferentes processos reais.
2.1 Caso enumervel

Quando finito ou enumervel, tipicamente definimos sobre a -lgebra
das partes, ou seja F = P () = ({ } ). Alm disso podemos definir
probabilidades sobre (, F ) de maneira simples tomando ( p ) tais que
a) p 0 para todo e
b) p = 1.
De fato, nesse caso definimos P( A) = A p que claramente define uma
probabilidade.
Exerccio 2.1.1. Mostre que se finito ou enumervel, toda probabilidade sobre
(, P ()) dada como na descrio acima.
Exemplo 2.1.2.
a) Dado p [0, 1], definimos a medida Ber( p) (em homenagem a Bernoulli) em
{0, 1} com p1 = p, p0 = 1 p.
b) Dados n 1 e p [0, 1], definimos a medida Bin(n, p) (binomial) em =
{0, 1, . . . , n} com

n i
pi = p (1 p)ni , para i . (2.1)
i
11
CAPTULO 2. CONSTRUO DE ESPAOS DE PROBABILIDADE
c) Dado p (0, 1], em = {0, 1, . . . } definimos a medida Geo( p) (geomtrica)

em induzida pelos pesos
pi = (1 p)i p, para i 1. (2.2)
Exerccio 2.1.3. Seja = {0, 1}n e p = 21n para todo (ou seja a proba-
bilidade uniforme). Considere X : {0, 1, . . . , n} dada por X (1 , . . . , n ) =
in=1 i . Obtenha a distribuio PX . D um exemplo de medida em para a qual a
distribuio de X seja Bin(n, p).
12
TPICO: MTODO PROBABILSTICO
Tpico: Mtodo Probabilstico

Uma importante ferramenta em vrias reas da matemtica, tais como Teoria
dos Nmeros, Combinatria e Teoria da Computao o que chamamos de
Mtodo Probabilstico.
Em vrias situaes, ns precisamos de mostrar a existncia de objetos satis-
fazendo determinadas propriedades, mas no temos informao suficiente ou
capacidade para constru-los explicitamente. Nesse caso, podemos recorrer ao
Mtodo Probabilstico, que simplesmente nos sugere tomar um objeto aleatrio
de uma maneira esperta e mostrar que com probabilidade positiva as propri-
edades desejadas sero satisfeitas. Esse mtodo, apesar de muito ingnuo,
muito eficiente e em diversos casos prov os melhores exemplos conhecidos de
certos objetos (para embarao da comunidade cientfica).
Nessa seo daremos um exemplo em Teoria dos Nmeros provido primei-
ramente por Erds1 .
Teorema 2.1.1 (Erds). Para todo conjunto finito A N, existe um sub-conjunto
B A satisfazendo
#A
a) #B 3 e tal que
b) no existem x, y e z B com x + y = z.
A propriedade b) acima o que chamamos de um conjunto ser livre de somas.
Certamente no temos muita informao sobre A, ento vamos usar o m-
todo probabilstico para a prova desse teorema.
Demonstrao. Fixamos p um nmero primo maior que trs vezes o maior ele-
mento de A e considere o espao Z p dos inteiros mdulo p. Seja X um elemento
aleatrio de Z p com distribuio uniforma, isto U{0,...,p1} .
Exerccio 2.1.4. Mostre que para todo a A, a multiplicao por a uma bijeo em
Z p , ou seja
Zp a = Zp. (2.3)
onde o produto Z p a entendido elemento a elemento. Conclua que
h p 2p i 1 1
P X a 3, 3 . (2.4)
3 p
Definimos o conjunto aleatrio
B = { x A | X a [ 3p , 2p
3 )},
Esse conjunto e livre de soma: se X = 0 o cojunto e vazio e nos outros casos se

x, y B
( x + y) [ 2p 4p
3 , 3 )
1 Somos gratos a Robert Morris por sugerir esse teorema como exemplo do Mtodo Probabilstico.
13
p 2p
que e o complementario de [ 3 , 3 ) em Z p .
#A
Basta portanto mostrar que com probabilidade positiva #B 3 , que segue
do seguinte argumento.
Z Z
#B dP = 1Xa[ p/3,2p/3) dP
a A
h p 2p i #A #A #A 1
= P X a 3, 3
3

p
>
3
,
a A
R
mas para qualquer varivel aleatria , P[ X X dP] > 0. Nesse caso, isso
#A1
implica P[ X #A
3 ] = P[ X > 3 ] > 0.
14
2.2. CASO ABSOLUTAMENTE CONTNUO
2.2 Caso absolutamente contnuo

Uma outra maneira simples de definir um espao de probabilidade, partindo
de um espao de medida. Seja (,R F , ) um espao de medida e :
R+ uma funo mensurvel com ( x )(dx ) = 1. Ento podemos definir a
probabilidade induzida
Z
P( A) = ( x )(dx ). (2.5)
A
Nesse caso, chamamos de a densidade de P com respeito a . Uma outra

possvel notao para a equao acima dP = ( x ) d (lembrando a derivada
de Radon-Nikodim).
Observe que o caso discreto pode ser definido em termos de uma densidade,
onde ( ) = p e a medida da contagem em .
Exemplo 2.2.1. Vrios exemplos podem ser obtidos via (2.5) se tomamos R e a
medida de Lebesgue restrita a . Nesses casos, escrevemos P = ( x ) dx em . Alguns
exemplos importantes so:
a) Para a < b R, definimos a medida U [ a, b] usando ( x ) = 1

b a 1[ a,b] ( x ).
b) Para > 0, definimos a medida Exp() (chamada exponencial de parmetro )

por meio da densidade ( x ) = exp{x } em [0, ).
Podemos tambm usar a distribuio de um elemento aleatrio para cons-

truir outras probabilidades, como mostra o seguinte exemplo.
Exemplo 2.2.2. Considere por exemplo X : [0, 2 ] C dada por X (t) = exp{it}.
A distribuio imagem X U[0,2 ] o que chamamos de distribuio uniforme em S1 ,
tambm denotada por US1 .
Exerccio 2.2.3. Mostre que US1 no absolutamente contnua com respeito medida
de Lebesgue em C R2 .
Exerccio 2.2.4. Mostre que US1 invariante por rotaes rgidas de C, isto , se
T : C C uma isometria linear, T US1 = US1 .
Exerccio 2.2.5. Construa uma probabilidade em S2 invariante por rotaes.
2.3 Funes acumuladas de distribuio

Um caso muito importante de espao amostral = R, principalmente por nos
ajudar a entender distribuies de variveis aleatrias. Para tanto, precisaremos
de uma boa ferramenta para descrever probabilidades em R.
Definio 2.3.1. Dada P em R, definimos FP : R [0, 1] por FP ( x ) = P (, x ] .

Essa funo chamada a funo de distribuio acumulada de P.
15
Notao 2.3.2. Se X : R uma varivel aleatria num espao (, F , P),

denotamos por FX a funo de distribuio acumulada correspondente distribuio
X P.
Lembramos que uma probabilidade em R uma funo P : B(R) [0, 1]

e o domnio dessa funo bastante complicado. Por exemplo se quisermos
representar uma distribuio de uma varivel aleatria no computador atravz
dessa funo P, teramos problemas. Contudo, a funo FP (ou FX ) muito mais
simples de ser compreendida ou representada, por seu domnio ser R.
Exemplo 2.3.1. No difcil verificar que

(
0 se x < x0 ,
Fx = (2.6)
0 1 se x x0
e que

0
se x 0,
FU[0,1] = x se x [0, 1] e (2.7)

1 se x 1.

Exerccio 2.3.2. Calcule FExp() .
Proposio 2.3.3. FP (e obviamente FX ) satisfazem:
a) lim F ( x ) = 0, lim F ( x ) = 1,
x x
b) F montona no-decrescente e
c) F contnua direita e possui limite esquerda (cdlg, do francs).
Demonstrao. a) Se xn monotonamente, ento An = (, xn ] so

encaixados e de interseo vazia. Logo, pela Proposio 1.2.3, temos
P( An ) 0. O outro caso anlogo.
b) Se x x 0 ento (, x ] (, x 0 ], donde F ( x ) F ( x 0 ).
c) Continuidade direita (cd) - Se xn x monotonamente, ento An =

(, xn ] (, x ] (eles so encaixados). Logo F ( xn ) F ( x ).
Limite esquerda (lg) - Segue do fato de F ser montona e limitada.
Teorema 2.3.4. Se F satisfaz as trs propriedades listadas na Proposio 2.3.3, ento

existe uma nica P em (R, B(R)) tal que F = FP .
Poderamos usar o Teorema da Extenso de Caratheodory para provar tal

resultado, de maneira similar ao que foi feito no caso da Medida de Lebesgue.
Mas escolhemos abaixo um mtodo mais simples, que parte da existncia de
U[0,1] .
16
2.4. ESPAOS PRODUTO FINITO
S(u)
S(u)
Figura 2.1: Ilustrao da definio de S(u).
Demonstrao. A unicidade de tal P segue da Proposio 1.3.4 (consequcia do

0
Teorema de Dynkin),
0
se P e P so tais que FP = FP0 , ento temos que
pois
P (, x ] = P (, x ] . Mas a classe de intervalos semi-infinitos da forma
(, x ] forma um -sistema que gera a -lgebra dos borelianos, logo P = P0 .
Para construir uma P tal que FP = F, definiremos S : (0, 1) R, a inversa
generalizada de F, por
S(u) = sup{ x R : F ( x ) < u}. (2.8)
Seja P = S U[0,1] , isto P( A) = U[0,1] (S1 ( A)) e mostraremos que FP = F.

Para tanto, basta ver que
{u [0, 1] : S(u) x } = {u [0, 1] : u F ( x )}, para todo x R. (2.9)
Pois isso implicaria que FP ( x ) = U[0,1] [S(u) x ] = U[0,1] [u F ( x )] = F ( x ).

Vamos agora checar (2.9) observando que:
a) Se u F ( x ) ento todo x 0 tal que F ( x 0 ) < u menor que x. Logo S(u) x.
b) Por outro lado, se x S(u) ento todo x 0 > x satisfaz F ( x 0 ) > u. Pois por
continuidade a direita F ( x ) u.
Isos prova (2.9), terminando a prova da proposio.
Exerccio 2.3.3. Mostre o resultado acima usando o Teorema de Extenso de Caratheo-
dory.
2.4 Espaos produto finito

Dados espaos 1 , . . . , n com suas respectivas -lgebras F1 , . . . , Fn , podemos
definir o espao mensurvel produto (, F ) da seguinte forma
n
= i e F = { A1 An : i {1, . . . , n}, Ai Fi } . (2.10)
i =1
17
Nn
Essa -lgebra e chamada de -lgebra produto e denotaremos ela por i =1 Fi ,
o F1 F2 quando n = 2.
Proposio 2.4.1. Se (1 , F1 , P1 ), . . . , (n , Fn , Pn ) so espaos de probabilidade,

ento existe uma nica probabilidade P no espao mensurvel (, F ) tal que
n
P ( A1 A n ) = Pi ( Ai ), para todos Ai Fi , i n. (2.11)
i =1
Nn
Essa probabilidade chamada probabilidade produto. Usaremos a notao i =1 Pi o
P1 P2 Pn .
Demonstrao. Teoria da Medida.
Note que a unicidade do produto pode ser concluda por exemplo usando o
Corolrio 1.3.5.
Exerccio 2.4.1. Mostre que o produto de n cpias de ({0, 1}, P ({0, 1}), Ber(1/2))
a distribuio uniforme em {0, 1}n .
2.5 Independncia
Nossa intuio nos diz que quando jogamos duas moedas, o resultado de cada
uma delas no deve depender um do outro. Dessa forma, a probabilidade de
obtermos um determinado resultado (como por exemplo duas caras) deve ser
um quarto, ou seja meio vezes meio.
Em geral, definimos dois eventos como independentes da seguinte forma.
Definio 2.5.1. Dizemos que dois eventos A, B F , so independentes se
P ( A B ) = P ( A ) P ( B ). (2.12)
Exemplo 2.5.1. Se = {1, . . . , 6} dotada da -lgebra das partes e e P( A) =

#A/6, ento os eventos A = [ impar] e B = [ 5] satisfazem
P( A B) = P({5}) = 1/6 = (1/2)(1/3) = P( A) P( B). (2.13)
Logo tais eventos so independentes.
Exerccio 2.5.2. Seja = {0, 1}n com P( A) = #A/2n e Xi (1 , . . . , n ) = i para

i = 1, . . . , n. Mostre que
P[ Xi = a, X j = b] = P[ Xi = a] P[ X j = b], (2.14)
onde [ A, B] denota a interseo [ A] [ B].
18
2.5. INDEPENDNCIA
2.5.1 Colees de eventos

Definio 2.5.2. Sejam A1 , A2 , . . . , Ak eventos. Dizemos que eles formam uma coleo
independente se para todo I {1, . . . , k} no vazio
P i I A i = P ( A i ).
T
(2.15)
i I
Vale observar que independncia dois a dois no implica independncia.

Mais precisamente
Exemplo 2.5.3. Seja = {1, 2, 3, 4} com P( A) = #A/4 e sejam os seguintes

eventos: A1 = {1, 2}, A2 = {2, 3} e A3 = {1, 3}. Nesse caso,
a) P( Ai ) = 1/2 para i = 1, 2, 3,
b) P( Ai A j ) = 1/4 para todo i 6= j mas
c) P( A1 A2 A3 ) = 0 6= 1/8 = P( A1 ) P( A2 ) P( A3 ).
Definio 2.5.3. Dizemos que uma coleo infinita de eventos ( An )n1 independente
se toda sub-coleo finita de tais eventos forem independentes.
Lema 2.5.4. Se ( An )n1 forma uma sequencia de eventos independentes, ento

T
P
i =1
Ai = P ( A i ). (2.16)
i =1
Demonstrao. De fato,

T n
T n
P
i =1
Ai = lim P
n
Ai = lim
i =1 n
P ( Ai ) = P ( A i ).
i =1 i =1
Exerccio 2.5.4. Mostre que se A F , ento { B F : B independente de A}

um -sistema.
Exerccio 2.5.5. Mostre que se B independente de A para todo B B , com B um

-sistema, ento B independente de A para todo B (B).
2.5.2 Independncia de -lgebras

Definio 2.5.5. Dado um espao de probabilidade (, P, F ) Dizemos que as -lgebra
F1 , . . . , Fn F so independentes se
n
A1 F1 , . . . , An Fn , P(in=1 Ai ) = P( Ai ). (2.17)
i =1
Nessa definio podemos tomar uma coleo infinita.
19
Exerccio 2.5.6. Em um espao produto (1 2 , F1 F2 , P1 P2 ), podemos defi-

nir
F 1 = { A 2 : A F1 },
(2.18)
F 2 = { 1 B : B F2 }.
Mostre que essas -lgebras so independentes.
Podemos extender esse conceito a elementos aleatrios, ou seja:
Definio 2.5.6. Dizemos que X1 , . . . , Xk so elementos aleatrios independentes se
as respectivas -lgebras ( X1 ), . . . , ( Xk ) o forem.
Quando X1 , . . . , Xk so elementos aleatrios independentes e com a mesma
distribuio, escrevemos que Xi so i.i.d. (independentes e identicamente distri-
budos).
Exerccio 2.5.7. Com a notao do exerccio anterior, mostre que as funes Xi :
1 2 i dadas por
X1 ( x, y) = x e X2 ( x, y) = y, (2.19)
so elementos aleatrios e so independentes.

Exerccio 2.5.8. Mostre que as coordenadas cannicas do exerccio anterior no caso
Xi : R2 R no so independentes segundo a medida US1 . Mas o so segundo U[0,1]2
(que a medida de Lebesgue em R2 restrita a [0, 1]2 ).
Exerccio 2.5.9. Seja = {0, 1}n com P( A) = #A/2n e Xi (1 , . . . , n ) = i para
i = 1, . . . , n. Mostre que os Xi so independentes.
Exerccio 2.5.10. Sejam ( Xi )i1 elementos aleatrios independentes tomando valores
em espaos ( Ei )i1 , respectivamente. Mostre que para funes mensurveis ( f i )i1
temos que ( f i ( Xi ))i1 so independentes.
Exerccio 2.5.11. Mostre que se X, Y so elementos aleatrios e se X constante quase
certamente ento X e Y so independentes.
Exerccio 2.5.12. Sejam X e Y variveis aleatrias independentes com distribuio
Exp(1), calcule a distribuio de
a) min{ X, Y } e
b) X + Y.
Exerccio 2.5.13. Seja um espao produto de medidas (1 2 , F1 F2 , 1 2 )
e defina a probabilidade P atravz de
dP = ( x, y) d(1 2 ). (2.20)
Mostre nesse caso que as coordenadas cannicas X1 e X2 so independentes se e somente

se existem 1 e 2 em 1 e 2 respectivamente, tais que ( x, y) = 1 ( x )2 (y) quase
certamente com respeito a 1 2 .
20
2.5. INDEPENDNCIA
Exerccio 2.5.14. Sejam X, Y variveis aleatrias tais que

(
0 if x < 0,
P[ X x, Y y] = (2.21)
(1 e x ) 21 + 1
tan1 y , if x 0.
a) Mostre que a distribuio conjunta (X,Y ) absolutamente contnua com relao

medida de Lebesgue em R2 .
b) Mostre que X e Y so independentes.
Exerccio 2.5.15. Mostre que se X, Y so variveis aleatrias independentes com distri-

buies X d f X ( x ) dx e Y d f Y (y) dy, ento X + Y tem distribuio absolutamente
contnua com respeito a Lebesgue e
Z
f X +Y ( z ) = f Y (z x ) f X ( x ) dx. (2.22)

Lema 2.5.7 (Borel-Cantelli - segunda parte). Se A1 , A2 , F so independentes

e pi = P( Ai ) satisfazem i pi = , ento
P[ Ai infinitas vezes] = 1. (2.23)
Demonstrao. Queremos mostrar que

T S c
P Ai = 0, (2.24)
n i =n
mas

T S c
S T
T
P
n i =n
Ai =P
n i=n
Aic P i=n
Aic . (2.25)
n
Logo basta mostrar que a probabilidade direita zero para todo n. Mas

T
P
i =n
Aic = P( Aic ) = (1 pi )
i =n i =n

(2.26)
exp{ pi } = exp

pi = 0.
i =n i =n
Terminando a prova do lemma.
21
Tpico: Lei dos pequenos nmeros

Nessa seo estudaremos como se comportam limites de algumas variveis
aleatrias bastante importantes, mas primeiramente, uma breve intuio.
Apesar de que descreveremos a nossa motivao a partir desse exemplo do
estudo de um material radioativo, podemos encontrar aplicaes com justificati-
vas bastante semelhantes para outros problemas, como: chegada de carros em
um sinal de trnsito, nmero de mutaes em um gene, nmero de mortes por
ano em uma faixa etria...
Digamos que estamos observando um material radioativo que esporadica-
mente emite ftons que podemos detectar atravz de um aparelho. A razo
dessas emisses pode ser aproximada pelo seguinte modelo. Na amostra temos
um nmero n grande de tomos instveis (n 1023 ) e em um determinado
tempo de observao, cada um deles tem probabilidade muito baixa de de-
cair emitindo um fton (digamos p 1023 ). Nesse caso, supondo que todos
decidam emitir de maneira independente, temos para p [0, 1],
n = {0, 1}n , Fn = P () e Pp = in=1 Ber ( p). (2.27)
Dessa forma, o nmero total de emisses observadas para = (1 , . . . , n )
n
Xn ( ) = i . (2.28)
i =1
E gostaramos de entender como se comporta essa distribuio, que nada mais
que Bin(n, p).
Uma primeira tentativa seria modelar esse processo dizendo que o nmero
de tomos n to grande, que somente estamos interessados no comportamento
assimttico quando n vai para infinito. Mas para manter o nmero de emisses
sob controle, tambm gostaramos que p = pn , que converge a zero. Poderamos
por exemplo escolher

pn = . (2.29)
n
Mas a discusso que se segue muito mais geral que essa escolha especfica.
Como estaremos interessados em um regime assimttico da distribuio de
X p (lembre que apesar do espao amostral de Xn variar com n, sua distribuio
sempre uma probabilidade em N). Mas para falar de regimes assimtticos,
precisamos de definir uma noo de distncia entre duas distribuies em N.
Definio 2.5.8. Dadas duas distribuies 1 e 2 em (, A), definimos
k1 2 kVT = sup |1 ( A) 2 ( A)|, (2.30)
AA
chamada de distncia em variao total entre 1 e 2 .

No nosso caso, enumervel. Vamos ver que nesse caso possvel
reescrever a definio acima de modo a ver mais facilmente que se trata de uma
distncia no espao de probabilidades em .
22
TPICO: LEI DOS PEQUENOS NMEROS
Lema 2.5.9. Se for finito ou enumervel, ento podemos escrever

1
k1 2 kVT =
2 |1 ( x ) 2 ( x )|. (2.31)
x
Demonstrao. Para mostrar que o lado esquerdo maior ou igual ao direito,

escolhemos A = { x : 2 ( x ) 1 ( x )}. Assim
1 ( x ) 2 ( x ) = |1 ( A) 2 ( A)|
x A
(2.32)
= |1 ( Ac ) 2 ( Ac )| = c 2 ( x ) 1 ( x ),
x A
donde
1
2
k1 2 kVT |1 ( A) 2 ( A)| = |1 ( xi ) 2 ( xi )|. (2.33)
i
Na outra direo, observe que para todo B ,
|1 (xi ) 2 (xi )| 1 (x) 2 (x) + c 1 (x) 2 (x)

i xB xB
= 1 ( B) 2 ( B) + (1 2 ( B)) (1 1 ( B)) (2.34)
= 2(1 ( B) 2 ( B)).
O que termina a prova do lema.
Fica agora claro que k1 2 kVT determina uma distncia.
Exerccio 2.5.16. Mostre um lema anlogo ao anterior para (, A) qualquer, desde
que 1 e 2 sejam absolutamente contnuas com relao uma medida fixa nesse espao
mensurvel. Nesse caso utilizaremos as derivadas de RadonNikodym.
Como estaremos interessados em variveis independentes, precisamos de
um resultado que relacione a distncia em variao total com produtos de
medida. Isso parte do seguinte
Lema 2.5.10. Sejam 1 , 2 distribuies em e 1 , 2 distribuies em y ambos
enumerveis. Ento
k1 1 2 2 kVT k1 2 kVT + k1 2 kVT . (2.35)
Demonstrao. Basta expandir
2k1 1 2 2 kVT = |1 ( x )1 (y) 2 ( x )2 (y)|
x ,y
|1 ( x )1 (y) 1 ( x )2 (y)| + |1 ( x )2 (y) 2 ( x )2 (y)| (2.36)

x ,y
2k1 2 kVT + 2k1 2 kVT .

Onde acima ns usamos que 1 e 2 so probabilidades. Isso termina a prova
do lema.
23
Finalmente, gostaramos de entender como a distncia de variao total se

comporta com respeito soma de variveis independentes. Isso estar ligado
convoluo de distribuies:
Definio 2.5.11. Dadas, e distribuies em Z, definimos a distribuio
( ? )( x ) := ( x y ) ( y ). (2.37)
y Z
Essa definio se relaciona com a soma de variveis independentes graas

ao seguinte
d d
Exerccio 2.5.17. Se X e Y so variveis aleatrias inteiras e independentes,
d
ento X + Y ? . Dica: particione o espao amostral nos eventos [ X = j], para
j Z, como na prova do Lema 2.5.15 abaixo.
Corolrio 2.5.12. Se e so distribuies em Z, ento ? = ? .
Como prometido, obtemos a seguinte relao entre a convoluo e a distncia

de variao total.
Lema 2.5.13. Sejam , duas medidas em enumervel e X : (, P ()) ( E, A)

um elemento aleatorio
k X X kVT k kVT . (2.38)
Em particular se 1 , 2 , 1 , 2 so distribuies em Z, ento
k1 ? 1 2 ? 2 kVT k1 1 2 2 kVT (2.39)
Demonstrao. O segundo ponto segue do primeiro applicado ao caso = Z2 ,

E = Z e X : ( x, y) 7 ( x + y). Pelo primeiro, observamos

2k X X kVT = (X ( ) = x) (X ( ) = x)

xE

= ( ) ( )
x E { : X ( )= x } (2.40)

( ) ( )

= 2k kVT .
provando o lema.
Para enunciar o resultado principal dessa seo, vamos apresentar uma

distribuio em N bastane importante, que em particular se comporta muito
bem com respeito a somas de variveis independentes, como veremos.
24
TPICO: LEI DOS PEQUENOS NMEROS
Definio 2.5.14. Uma varivel aleatria X dita ter distribuio de Poisson com
parmetro , se
k e
P[ X = k] = , para k 0 inteiro. (2.41)
k!
d
Denotamos isso por X Poisson().
A distribuio de Poisson se comporta bem com respeito a somas indepen-

dentes, como mostra o seguinte
d d
Lema 2.5.15. Sejam X Poisson(1 ) e Y Poisson(2 ) independentes, ento
d
X + Y Poisson(1 + 2 ).
Demonstrao. Basta calcular

j k j
k e 1 2 e 2
k
P[ X + Y = k ] = P[ X = j, Y = k j] = 1
j =0 j =0
j!(k j)!
(2.42)
k
1 k! j k j e ( 1 + 2 ) ( 1 + 2 ) k
=e (1 +2 )
k! j!(k j)!
1 2 =
k!
,
j =0
mostrando o resultado.
Nossa prxima tarefa estimar a distncia entre uma varivel aleatria com
distribuio Ber( p) e uma Poisson( p), como segue.
Lema 2.5.16. Para p [0, 1], seja 1 = Ber( p) e 2 = Poisson( p), ento,
k1 2 kVT p2 . (2.43)
Demonstrao. Sabemos que
1
2
k1 2 kVT = |1 ( x ) 2 ( x )|
x
1
= |1 (0) 2 (0)| + |1 (1) 2 (1)| + 2 ( x )
2 x 2 (2.44)
1 p
= e (1 p) + p(1 e p ) + (1 e p pe p )
2
2
= p (1 e p ) p2 ,
2
terminando a prova.
O teorema principal de convergncia dessa seo concerne a soma de vari-

veis Bernoulli.
25
Teorema 2.5.17 (Lei dos Pequenos Nmeros). Dado, n 1 e p [0, 1], suponha
que n , Fn e Pp sejam dados como em (2.27). Ento,
kBin(n, p) Poisson( pn)kVT np2 . (2.45)
Demonstrao. Basta observar que
Lema 2.5.15
k Xn Pp Poisson( pn)kVT = kBer( p)?n Poisson( p)?n kVT
Lema 2.5.13
kBer( p)n Poisson( p)n kVT (2.46)
Lema 2.5.10 Lema 2.5.16
nkBer( p) Poisson( p)kVT np2 ,
provando o teorema.
Corolrio 2.5.18. No mesmo contexto do teorema acima, se p = /n, ento temos
kBin(n, p) Poisson( pn)kVT 2 /n, (2.47)
que converge a zero com n.

Veremos mais tarde que existem outros tipos de convergncia.
Exerccio 2.5.18. Fixado > 0, seja N uma varivel aleatria com distribuio
Poisson(), isto
k e
P[ N = k] = para k = 0, 1, . . . (2.48)
k!
Considere no mesmo espao de probabilidade uma sequncia de variveis aleatrias
X1 , X2 , . . . que sejam i.i.d. , com distribuio Ber(1/2) e independentes de N.
a) Calcule a distribuio de Z = iN=1 Xi .

b) Mostre que Z e N Z so independentes.
26
2.6. ESPAOS PRODUTO INFINITO
2.6 Espaos produto infinito

Nessa seo estudaremos que so dados por produtos enumerveis de outros
espaos de probabilidade. Mas antes iremos recordar o Teorema da Extenso de
Caratheodory.
2.6.1 Recordar viver...

Vamos lembrar o enunciado do Teorema da Extenso de Caratheodory . Antes,
vamos relembrar uma definio definio importante. Uma famlia G P ()
dita uma lgebra de conjuntos se valem:
a) G .
b) Se A G , ento Ac G .
Sn
c) Para todo n 1, se A1 , . . . , An G , ento i =1 Ai G .
Teorema 2.6.1 (Teorema da Extenso de Caratheodory). Seja G P () uma

lgebra de conjuntos em e suponha que : G R+ satisfaa a seguinte propriedade:
Se ( Ai )i I e uma familia finita ou enumervel de elementos disjuntos de

G tal que i I Ai G , (2.49)
temos (i I Ai ) = i I ( Ai ).
Ento existe uma medida : (G) R+ tal que ( A) = ( A) para todo A G .
Mostraremos agora uma consequncia simples do teorema acima, que

muito utilizada em probabilidade.
Lema 2.6.2 (Extenso por continuidade no vazio). Seja G P () uma lgebra

de conjuntos em e suponha que P : G R+ satisfaa as seguintes propriedades:
a) P() = 1,
b) P finitamente aditiva e
c) sempre que B1 B2 G forem tais que i Bi = (denotamos isso por

Bi ), temos que limi ( Bi ) = 0.
Ento existe uma nica medida P : (G) R+ tal que P( A) = P( A) para A G .
Observe que P() = 1 somente necessrio para provar a unicidade de

P, ento poderamos tentar mostrar uma verso mais geral desse lema. Mas
no contexto de medidas infinitas, no de se esperar que Bi implique
limi ( Bi ) = 0, como foi assumido acima (veja tambm a Proposio 1.2.3).
Portanto resolvemos escrever o enunciado com probabilidades.
Exerccio 2.6.1. D um exemplo de medida que no satisfaz a segunda hiptese do

Lema 2.6.2.
27
Demonstrao. Primeiro observe que a unicidade segue da Proposio 1.3.4,

j que G um -sistema. Iremos agora mostrar que a propriedade (2.49)
vlida para P, logo tome A1 , A2 , G disjuntos e tais que A = iN Ai G .
Definimos o resto da unio por
n
Bn = A \
S
Ai . (2.50)
i =1
Claramente
a) Bn e
b) Bn G , pois G uma lgebra.
Sn
Logo podemos escrever A como a unio disjunta A = i =1 Ai Bn e j que
P finitamente aditiva,
n
P( A) = P( Ai ) + P( Bn ), (2.51)
i =1
mas como limn P( Bn ) = 0, temos

P(i=1 Ai ) = P ( A i ), (2.52)
i =1
mostrando a propriedade (2.49) e concluindo o teorema.
2.6.2 Teorema da Extenso de Kolmogorov

O objetivo desta seo provar um resultado que nos permitir construir pro-
babilidades em espaos produtos infinitos. Antes precisaremos de introduzir
algumas notaes. Dada uma coleo de espaos ( Ei )iN , definimos o espao
produto

= Ei = (i )iN : i Ei para todo i 1 .

(2.53)
i =1
e os mapas Xi : Ei , definidos para i = 1, 2, . . . por
Xi ( 1 , 2 , . . . ) = i , (2.54)
que chamamos de coordenadas cannicas associadas ao produto .

Se cada Ei dotado de uma -lgebra Ai , ento definimos
F = (( Xi )i1 ), (2.55)
que claramente uma a -lgebra em . Chamamos F de -lbegra cannica.

Exerccio 2.6.2. Mostre que em (RN , F ) temos que os conjuntos
/ {, }},
a) A = {lim infn Xn
28
b) B = {limn Xn = 4} e
c) C = {limn n1 Xn existe}
so todos mensurveis (eventos) com respeito a F . Alm disso Y = 1 A lim infn Xn

uma varivel aleatria em (, F ).
Exerccio 2.6.3. Verifique as seguinte afirmaes

a) F = A1 Ak Ek+1 Ek+2 . . . : k 1, Ai Ai , i k , os
chamados eventos retangulares.

b) F = A Ek+1 Ek+2 . . . : k 1, A Ai Ak , conhecidos
como eventos cilndricos.
Definio 2.6.3. Seja = i I Ei um espao produto (infinito ou finito) dotado de

uma probabilidade P. Se Xi uma coordenada cannica, ento chamamos a probabilidade
( Xi ) P de distribuio marginal de P na coordenada i.
Teorema 2.6.4 (Extenso de Kolmogorov). Seja para cada n 1 uma medida de
probabilidade Pn em Rn tal que seja satisfeita a seguinte condio de compatibilidade
Pn+1 ( A R) = Pn ( A), para todo A B(Rn ). (2.56)
Ento existe uma nica probabilidade P no espao produto infinito (, F ) tal que
P( A R . . . ) = Pn ( A) para todo n e todo boreliano A de Rn .
Demonstrao. Considere a classe de conjuntos
k
n S o
Sl = [ a1,j , b1,j ) [ al,j , bl,j ) Rl : ai,j R {}, bi,j R {} .
j =1
Que obviamente uma lgebra em Rl e seja tambm
S = A R . . . : onde l 1 e A Sl .

(2.57)
Claramente, S tambm uma lgebra.

Se B = A R S com A Sl como acima, definimos
P( B) = Pl ( A). (2.58)
Note que por (2.56) essa definio independe da escolha da escolha de l que
usamos na definio de B.
Gostaramos agora de utilizar o Lemma 2.6.2. Para tanto, tome uma sequn-
cia encaixada B1 B2 S e, supondo que P( Bn ) > 0 para todo
n 1, temos de mostrar que sua interseo no pode ser vazia.
Como Bn S , podemos escrever
Bn = An R . . . , onde An Sln e n 1. (2.59)
29
Podemos obviamente supor que
ln so estritamente crescentes. (2.60)
A fim de obter um ponto na interseo de Bn , gostaramos de aproxim-lo

usando conjuntos compactos encaixados. Para tanto definimos os conjuntos
Cn = Cn R . . . , com Cn Sln (2.61)
de forma que Cn seja compacto, Cn An e

P( Bn \ Cn ) , (2.62)
2l n +1
o que pode ser feito graas continuidade de Pln , que uma probabilidade.
Temos ainda um problema, pois os conjuntos Cn no so encaixados, e isso
nos impedeTde utilizar resultados sobre intersees de compactos. Introduzimos
pois Dn = in=1 Ci , que obviamente pertence lgebra S , e estimamos
n

P( Bn \ Ci ) 2 ,
Sn
P( Bn \ Dn ) = P i =1 ( Bn \ Ci ) (2.63)
i =1
donde P( Dn ) = P( Bn ) P( Bn \ Dn ) /2. De forma que os Dn so encaixados

e no vazios.
Nosso prximo obstculo vem do fato de que os conjuntos Dn esto definidos
em RN , e gostaramos de ter conjuntos em espaos de dimenso finita. Isso
pode ser feito observando que podemos escrever Dn = Dn R R . . . , onde
Dn Sln e
T nT1
Dn = Cn Ci Rln li , (2.64)
|{z} i =1
compacto | {z }
fechado
de forma que os Dn
Rl n
so compactos e no vazios.
Para cada n 1 considere um n Dn . Usando um argumento de diagonal
de Cantor, podemos obter um e uma sub-sequncia de n j que convirja
para coordenada a coordenada (observe que n j Rln j ). Para concluir a
prova mostramos que n1 Bn . Para isso e suficiente mostrar (lembramos
T
que por definio Cn Bn ) que para todo n N
= (1 , 2 , . . . ) Cn .
O que e equivalente a (1 , 2 , . . . , n ) Cn , que vale por compacidade.

Observe que usamos muito poucos atributos de R na prova. Poderamos na
verdade substituir R por um espao mtrico que satisfaa certas propriedades,
como por exemplo a existncia de uma lgebra cujos conjuntos possam ser
aproximados por compactos. Contudo, decidimos no apresentar essa verso
mais geral aqui porque muito em breve obteremos uma verso bem mais geral
do Teorema de Kolmogorov usando apenas o resultado para R.
30
Exerccio 2.6.4. Mostre que a hiptese (2.56) pode ser substituida por
Pn+1 ( I1 . . . , In R) = Pn ( I1 In ), (2.65)
para todo n 1 e Ii = (, bi ], onde bi R, i n.

Um importante exemplo do uso deste teorema o seguinte.
Exemplo
Nn
2.6.5. Se Pi so probabilidades em (R, B(R)), podemos definir Pn =
i =1 Pi (relembrando, Pn a nica distribuio em Rn tal que Pn ( A1 An ) =
n
i=1 Pi ( Ai )). No difcil verificar que essa lei satisfaz as equaes de consistncia
(2.56). Desta forma, podemos construir uma nica P em RN para os quais as coordena-
das cannicas XN i so independentes e possuem distribuies marginais Pi . Denotamos
nesse caso P = i1 Pi .
Mais adiante no texto daremos outros exemplos bastante interessantes do
uso do Teorema 2.6.4.
Exerccio 2.6.6. Mostre que se p > 0 e P = em RN , ento
N
i 1 Ber( p )
lim sup Xn = 1 quase certamente. (2.66)

n
Exerccio 2.6.7. Mostre que se P = em RN , ento

N
i 1 U[0,1]
lim sup Xn = 1 quase certamente. (2.67)

n
Exerccio 2.6.8. Mostre que se P = em RN , ento

N
i 1 Exp(i )
lim sup Xn < quase certamente. (2.68)

n
31
Tpico: Percolao
Imagine que gostaramos de modelar o movimento de um lquido em um meio
poroso, como uma rocha ou uma esponja. A primeira tarefa nesse estudo seria
modelar esse meio poroso de maneira matematicamente rigorosa, que o que
faremos a seguir.
Fixamos uma dimenso d 1 e consideramos o seguinte grafo (Zd , E), onde
a rede quadrada Zd o conjunto de vrtices e o conjunto de elos dado por
E = { x, y} Zd : | x y| = 1},

onde | | representa a distncia euclideana em Rd .

No nosso modelo, esse grafo pode ser entendido como um cristal peridico
onde cada vrtice representa uma cavidade do material poroso e os elos so
potenciais conexes entre poros vizinhos.
At agora nosso grafo apenas uma rede peridica, mas as coisas comeam
a ficar interessantes partir de agora. Imaginamos que nosso material poroso
est sujeito a variaes durante sua formao. Isso se reflete no fato que alguns
elos de E podem estar abertos ou no aleatoriamente.
Para o nosso modelos, o espao amostral vai ser := {0, 1} E considerado
com a -algebra produto. Fixamos um p [0, 1] e definimos uma coleo
de variveis aleatrias e , para e E, que sejam i.i.d. e com distribuio
Ber( p). Chamamos Pp a probabilidade corespondente. Essas variveis aleatrias
induzem um grafo aleatorio G ( ) = (Zd , E ( )), subgrafo do grafo original,
que corresponde a incluir apenas os elos e com e = 1. Mais precisamente

E ( ) = e E : e = 1 . (2.69)
Podemos ver na Figura 2.2 algumas simulaes desse grafo aleatrio.
Figura 2.2: Trs simulaes do grafo aleatrio (Zd , E ), para valores de p = 0, 4

(esquerda), p = 0, 5 (centro) e p = 0, 6 (direita). Tente imaginar como seria caminhar
nesse grafo como se ele fosse um labirinto.
Agora que temos um modelo de meio poroso bem definido, precisamos

pensar em quais perguntas nos interessam sobre G = (Zd , E ). Sendo esse um
modelo poara passagem de fluido, as primeiras perguntas que faremos concerne
a conectividade de G .
32
TPICO: PERCOLAO
Exerccio 2.6.9. Mostre que quase certamente G ( ) desconexo. Mais precisamente,

mostre que existem quase certamente infinitos vrtices isolados em G ( ).
Como no podemos esperar que G ( ) seja conexo, podemos nos perguntar
algo mais fraco, como por exemplo se a componente conexa da origem 0 Zd
em G ( ) infinita.
Voltando Figura 2.2 vemos que, dependendo do valor de p [0, 1], pode
ser bem difcil ou bem fcil encontrar um caminho longo partir da origem.
Isso uo que estudaremos em mais detalhes no que segue.
Mais precisamente estamos interessados em:
A = : a componente conexa de 0 Zd em G ( ) infinita . (2.70)

Para estudar A, vamos fazer uma aproximao de A por eventos mais

simples
An = : a componente conexa de 0 sai da caixa [n, n]d }, (2.71)

para n 1.
Exerccio 2.6.10. Mostre que A = nn=1 An e consequentemente que A de fato
mensurvel e P( A) = limn P( An ).
Definimos portanto a funo : [0, 1] [0, 1] por
( p) = Pp ( A), (2.72)
onde Pp denota a probabilidade correspondente ao valor escolhido de p [0, 1].
Exerccio 2.6.11. Mostre que ( p) 1 (1 p)2d .

Nosso objetivo entender algumas das propriedades de . A nossa intuio
diz que quanto maior o valor de p, mais elos sero abertos em G e portanto maior
ser o valor de , ou em outras palavras, deve ser montona no decrescente.
Exerccio 2.6.12. Construiremos nosso modelo de uma maneira alternativa num espao
de probabilidade maior. Definimos 0 := [0, 1] E (com a -lgebra produto correspon-
dente), e (Ue )eE uma coleo de variveis aleatrias i.i.d. com distribuio U [0, 1], e P
a probabilidade corespondente. Definimos para cada p [0, 1], X p : 0 do jeito
seguinte
p
Xe = 1[ e p ] . (2.73)
Mostre que para todo p [0, 1] ( X p ) P = Pp . Use isso para concluir que montona
no decrescente.
Iremos agora mostrar a existncia de um regime para o qual a componente
conexa da origem no infinita.
Teorema 2.6.5. Para p < 1/(2d), temos que ( p) = 0.
Antes da prova, alguns exerccios.
33
Exerccio 2.6.13. Definimos um caminho como sendo uma sequncia x1 , . . . , xk

(k N), tal que { xi , xi+1 } E para todo i = 1, . . . , k 1. Tal caminho dito aberto
se { xi ,xi+1 } = 1 para todo i k 1. E dizemos que ele auto-evitante se xi 6= x j
para todo 1 i < j < k. Mostre que
n o
An = : existe um caminho aberto ( xi )ik=1 com x1 = 0 e xk 6 [n, n]d
An = : existe um caminho auto-evitante como acima .

Demonstrao. Dado p < 1/(2d) e n N, lembramos que
existe k N e um caminho auto-evitante ( xi )ik=1

h i
( p) Pp ( An ) = Pp
aberto e com x1 = 0 e xk 6 [n, n]d
Pp [( xi )ik=1 aberto] = pk
k n ( xi )k auto-evit. k n ( xi )k auto-evit.
i =1 i =1
Pp [( xi )ik=1 aberto] = (2d)k pk .

kn ( xi )ik=1 caminho kn
Como p < 1/(2d), a soma acima finita e converge a zero quando n diverge,
provando o teorema.
Notas - O teorema acima ajuda a compreender o comportamento que ob-
servamos no lado esquerdo da Figura 2.2. Mais precisamente, ele nos diz que
para valores de p baixos (na verdade 0, 4 no baixo o suficiente para podermos
aplicar esse teorema) difcil encontrar um caminho aberto do centro borda
da caixa.
Na verdade, possvel mostrar que para d = 2,
( p) = 0 para todo p 1/2 e

(2.74)
( p) > 0 para todo p > 1/2,
como foi mostrado por Harris e Kesten, veja por exemplo [Gri99] e [BR06]. De
fato, algo bastante interessante est acontecendo nesse modelo para p = 1/2,
como nos mostrou o trabalho de grandes matemticos, como: Oded Schramm,
Wendelin Werner, Stanislav Smirnov, entre outros.
34
2.7. DISTRIBUIES CONJUNTAS
2.7 Distribuies conjuntas

Um caso bastante importante de distribuio de um elemento aleatrio o
caso de vetores. Digamos por exemplo que temos dois elementos aleatrios
X : E e Y : E0 . J sabemos a definio de X P e Y P (vamos
tambm usar a notao PX e PY ) que nada mais so que as distribuies de X e
Y respectivamente.
Mas podemos considerar o vetor ( X, Y ) que ser um elemento aleatrio
tomando valores em E E0 e possui tambm sua prpria distribuio dada por
( X, Y ) P (tambm denotada por P(X,Y ) ). A essa probabilidade em E E0 damos
o nome de distribuo conjunta deste par. .
Vejamos as relaes que existem entre PX , PY e P(X,Y ) . Primeiramente, fcil
ver que a distribuo conjunta nos fornece as demais, pois para todo A E
mensurvel
P(X,Y ) ( A E0 ) = P[( X, Y ) A E0 ] = P[ X A] = PX ( A) (2.75)
e analogamente para PY . De acordo com a Definio 2.6.3, as distribuies PX e
PY nada mais so do que as marginais da distribuio conjunta.
Apesar de podermos extrair as marginais PX e PY de P(X,Y ) , o contrrio no
sempre possvel como mostra o seguinte exemplo.
Exemplo 2.7.1. Sejam X, Y i.i.d. com distribuio Ber(1/2). Ento ( X, Y ) no tem a
mesma distribuio de ( X, X ), apesar de que esses vetores possuem as mesmas margi-
nais.
Exerccio 2.7.2. Mostre que se X e Y so independentes, ento P(X,Y ) = PX PY .
Exerccio 2.7.3. Sejam X, Y i.i.d. com distribuio U[0,1] e calcule P(X,X +Y ) .
Note que a discusso acima se extende naturalmente para colees maiores
de elementos aleatrios. Mais precisamente, considere um conjunto I qualquer
(finito, enumervel ou no enumervel) de ndices e seja ( Xi )i I uma coleo de
elementos aleatrios tomando valores em ( Ei )i I . Ento a distribuio conjunta
destes elementos aleatrios P(Xi )i I .
Exerccio 2.7.4. Mostre que no caso acima, se P(Xi )i J = P(X 0 )i J para todo J I
i
finito, ento P(Xi )i I = P(X 0 )i I .
i
2.8 Probabilidades condicionais

Uma outra maneira de se construir espaos de probabilidade atravz de
condicionamento, como mostra a seguinte definio.
Definio 2.8.1. Se (, F , P) espao de probabilidade e B F tal que P( B) > 0,
ento definimos a probabilidade P(| B) : F [0, 1] por
P( A B)
P( A| B) = , (2.76)
P( B)
35
chamada probabilidade condicional dado o evento B.

Obviamente P(| B) uma probabilidade em (, F ) e podemos entend-la
de duas formas: como uma normalizao ou como uma tentativa de sucesso.
Explicaremos abaixo cada uma dessas interpretaes.
Quando restringimos o espao amostral ao conjunto B (e associamos a
A F o valor P( A B)), temos uma sub-probabilidade, isto possivelmente
P( B) < 1. Logo podemos entender o denominador de (2.76) como uma
normalizao para obtermos novamente uma probabilidade.
Mas a interpretao mais natural de (2.76) dada pela seguinte proposio.
Para enunci-la, considere (, F , P) um espao de probabilidade e defina o
produto infinito
= N , F = F N e P = P N . (2.77)
Na verdade somente definimos esse produto para = R, mas como menciona-
mos abaixo do Teorema da Extenso de Kolmogorov, isso pode ser fcilmente
generalizado e o faremos posteriormente.
Proposio 2.8.2. Na situao acima, seja B F com P( B) > 0 e defina T : N
por T ( ) = inf{n 1 : Xn ( ) B}, onde os Xn so as coordenadas cannicas.
Ento T < quase certamente e
XT ( ) ( ) um elemento aleatrio em com distribuio P(| B). (2.78)
A intuio desta proposio que se repetimos o experimento (, F , P)

independentemente at obter uma amostra em B, essa ter a distribuio condi-
cional.
Demonstrao. Sejam os eventos An = [ Xn B], n 1 que so claramente
independentes segundo P. Logo, como n P( An ) = n P( B) = , temos pelo
Lema de Borel-Cantelli (segunda parte) que P( An infinitas vezes) = 1, logo
T < quase certamente.
Para ver que XT ( ) ( ) um elemento aletrio, basta escrever

[ XT A] = [ Xt A, T = t],
S
(2.79)
t =1
e observar que tanto [ Xt A] quanto [ T = t] = [ X1 6 B, . . . , Xt1 6 B, Xt B]

so mensurveis.
Finalmente podemos usar a decomposio (disjunta) acima para calcular

P[ XT A] = P[Xt A, T = t]
t =1

= P[Xt A, Xt B, Xs 6 B for s < t] (2.80)
t =1

P( A B)
= P ( A B ) P ( B c ) t 1 = 1 P ( B c ) = P ( A | B ),
t =1
36
2.8. PROBABILIDADES CONDICIONAIS
terminando a prova da proposio.

Exerccio 2.8.1. Seja > 0 e X d Exp() (lembrando a definio da distribuio ex-
ponencial: Exp()(dx ) = exp{x } dx). Mostre que as variveis com distribuio
exponencial no possuem memria, ou seja:
P[ X > t + s | X > t] = P[ X > s], para todo s, t > 0. (2.81)
Ou em outras palavras, sabendo que X maior que t, a distribuio condicional de

X t ainda Exp().
Definimos a distribuio geomtrica de parmetro p (0, 1] por

Geo( p) = i (1 p)i1 p. (2.82)
i =1
Exerccio 2.8.2. Inspirado no exerccio anterior, mostre que a distribuio geomtrica

Geo( p) tambm satisfaz (2.81) para todos t, s N. Mostre que essas so as nicas
distribuies com suporte em N satisfazendo tal propriedade
Exerccio 2.8.3. Sejam Yi , para i 1 i.i.d. com distribuio Ber( p) e defina
T = inf{i : Yi = 1}. (2.83)

d
Mostre que T Geo( p).
Exerccio 2.8.4. Barry James: Cap. 2-5, Ex: 5, 10, 21, 22 (a) e (b).
Exerccio 2.8.5 (Porta dos desesperados). Nas tardes da dcada de 80, as crianas
tinham poucas opes de entretenimento alm de assistir Srgio Malandro, que todos
os dias apresentava o seguinte jogo. O participante era apresentado a trs portas
( = {1, 2, 3}) e apenas uma delas (chamada de X) continha um prmio X d U e o
jogo seguia trs fases:
a) O participante escolhia uma porta arbitrariamente (digamos y ),
b) o Srgio Malandro abria uma porta X 0 que no fosse a escolhida nem a premiada
(X 0 d U\{y,X } )
c) ao participante era dada a oportunidade de trocar sua porta X pela porta restante
em \ { X, X 0 }.
Mostre que o participante sempre aumenta suas chances ao trocar sua escolha. Tente
interpretar esse aparente paradoxo tomando o nmero de portas para infinito.
Exerccio 2.8.6. Emlio e Cristina tiveram dois filhos cujos sexos X, X 0 so i.i.d. e
distribuidos como U{,} . Enunciando hipteses adequadas se for necessario, calcule
a) P[ X, X 0 = | pelo menos um ] e
b) P[ X, X 0 = | pelo menos um e nasceu em uma segunda-feira].
37
Interprete esses resultados trocando segunda-feira por primeiro de abril. 2
Exerccio 2.8.7. Supondo que P( A B) > 0, mostre que P(| A| B) = P(| B| A).
Mais precisamente, podemos condicionar P em B e depois a probabilidade resultante em
A ou vice-versa.
Exerccio 2.8.8. Sejam X, Y variveis aleatrias em um espao (, F , P), independen-

tes e com distribuio U[0,1] .
a) Calcule PX +Y .
b) Considere P0 () = P | X + Y 1 e calcule X P0 .

2.8.1 Regra de Bayes

Frequentemente definimos um espao de probabilidade atravz de probabilida-
des condicionais. Consideramos por exemplo um exame mdico para detectar
uma doena, nesse caso temos
= {(doente, +), (doente, ), (saudvel, +), (saudvel, )}, (2.84)
com obviamente a -lgebra das partes.

Contudo, ao contrrio do que fizemos anteriormente, no daremos probabi-
lidades p [0, 1] para cada . Poderamos por exemplo fornecer
P(doente) = 0.005, P(+|saudvel) = 0.01, P(|doente) = 0.05. (2.85)
Obviamente podemos obter as probabilidades dos complementos dos eventos

acima. As probabilidades acima podem ser facilmente estimadas num labora-
trio e as duas ltimas so chamadas respectivamente de probabilidades de
falso positivo e falso negativo. Outra vantagem da representao em (2.85) que
as probabilidades descritas so mais compartimentadas no seguinte sentido.
Note que P(doente) somente depende da populao em questo, enquanto as
outras duas dependem apenas do exame e no da populao. Isso no pode ser
dito das probabilidades de pontos individuais em .
Agora fica fcil construir nosso espao de probabilidade escrevendo, para
r {+, } e e {saudvel, doente},
P (r e ) = P (r | e ) P ( e ). (2.86)
E as probabilidades do lado direito da equao acima esto todas determinadas

em (2.85) (possivelmente tomando complementos).
Contudo, o que estamos interessado muitas vezes em como interpretar
resultados de um exame. Por exemplo, quanto vele P(doente|+)? Isso nos
fornecido em geral pela regra de Bayes enunciada na seguinte
2 Gratos ao Ricardo Misturini por sugerir esse problema
38
2.9. NCLEOS DE TRANSIO
Proposio 2.8.3. Se ( A j ) j I formam uma partio (finita o enumevel) de e B F

tem probabilidade positiva, ento
P ( Ai ) P ( B | Ai )
P ( Ai | B ) = . (2.87)
j I P ( A j ) P ( B | A j )
Demonstrao. Basta notar que
P ( Ai ) P ( B | Ai ) P ( Ai ) P ( B | Ai ) P ( Ai ) P ( B | Ai )
P ( Ai | B ) = = = . (2.88)
P( B) j I P ( B A j ) j I P ( A j ) P ( B | A j )
Exerccio 2.8.9. Utilize a frmula acima para calcular P(doente|+) com os dados em
(2.85). Comente o resultado.
Exerccio 2.8.10. Barry James: Cap. 1, Ex: 18 e 19.
2.9 Ncleos de transio

J focamos bastante energia em variveis aleatrias independentes. Por exemplo,
estudamos em detalhes o que acontece com a soma de tais variveis. Agora
passaremos a estudar elementos aleatrios dependentes e o primeiro passo para
isso obter um mtodo geral de constru-los.
Definiremos agora um ncleo de transio. Intuitivamente, ele nos d
uma maneira de usar um elemento aleatrio em um espao para induzir uma
probabilidade em outro espao. Um exemplo em que poderamos utilizar essa
construo seria o seguinte.
Digamos que estamos preocupados com a possibilidade de um deslizamento
de terra em uma determinada regio. A ocorrncia desse deslizamento algo
aleatrio, mas que certamente depende da quantidade de chuva no perodo,
que tambm podemos modelar como sendo aleatria.
Aps estudarmos alguns trabalhos anteriores, descobrimos uma funo
F : R+ [0, 1] que nos d a probabilidade de um deslizamento ocorrer, como
funo da quantidade de chuva em milmetros.
Lendo o histrico pluvial da regio, podemos estimar a distribuio Q em
R+ correspondente quantidade de chuva naquele perodo. A lei F Q (tambm
chamada de Q F ) uma lei em [0, 1] que nos d a distribuio da probabilidade
de deslizamento, mas como seguimos em frente para obter a probabilidade de
deslizamento (um nmero entre zero e um)? Saberemos como fazer isso ao
terminar essa seo.
Sejam ( E1 , A1 ) e ( E2 , A2 ) espaos mensurveis.
Definio 2.9.1. Um ncleo de transio entre E1 e E2 uma funo
K : E1 A2 [0, 1], (2.89)
tal que
39
a) para todo y E1 , K (y, ) uma probabilidade em ( E2 , A2 ) e

b) para todo A A2 , a funo K (, A) : E1 [0, 1] A1 -mensurvel.
Exemplo 2.9.1. Daremos agora o exemplo da probabilidade de deslizamento como
funo de F (que ser possivelmente uma varivel aleatria). Nesse caso, seja E1 = [0, 1]
e E2 = {0, 1} com as -lgebras naturais e defina

K ( p, A) = (1 p)0 + p1 ( A). (2.90)
Vamos verificar que K definido acima um ncleo. De fato,

i) K ( p, ) a distribuio Bernoulli com parmetro p, que obviamente
uma probabilidade,
ii) alm disso, K (, ) = 1, K (, ) = 1 e K (, {0}) = 1 p = 1 K (, {1}),
que obviamente so mensurveis. Isso prova que esse K especfico um
ncleo
Exemplo 2.9.2 (Discreto). Seja E1 e E2 dois espaos finitos ou enumerveis. Se
p : E1 E2 [0, 1] tal que para todo y E1 temos zE2 p(y, z) = 1, ento
K (y, A) := p(y, z) um ncleo de transio entre E1 e E2 . (2.91)

z A
Nesse caso p(y, z) representa a probabilidade que a segunda coordenada seja z, se a

primeira y.
Exerccio 2.9.3. Mostre que se E1 e E2 so enumerveis ento todo ncleo entre E1 e
E2 pode ser escrito na forma do exemplo acima.
Exemplo 2.9.4 (Absolutamente contnuo). Digamos que E1 e E2 sejam dotados de
R : E1 E2 R+ mensurvel e tal que para 1 -quase
medidas 1 e 2 -finitas. Seja
todo y E1 , tenhamos que E (y, z)2 (dz) = 1. Ento
2
Z
K (y, A) := (y, z)2 (dz) um ncleo de transio entre E1 e E2 . (2.92)
A
Note que K (, A) est bem definido para 2 -quase todo ponto por Fubini.
Exerccio 2.9.5. Prove que os dois exemplos acima de fato definem um ncleo.
Tipicamente, definimos os ncleos de transio introduzindo K (y, ) como
sendo uma medida que depende de y. Nesse caso, uma das condies para que
K seja um ncleo est automaticamente satisfeita, restando apenas mostrar que
K (, A) mensurvel para quaisquer A A2 . Mas obviamente o conjunto A2
pode ser muito complexo, ento gostaramos de apenas verificar que K (, A)
mensurvel para os conjuntos A em uma classe rica o suficiente.
Proposio 2.9.2. Seja K : E1 A2 [0, 1], tal que K (y, ) uma medida para todo
y E1 . Se K (, A) mensurvel para dodo A G , onde G um -sistema que gera
A2 , ento K um ncleo de transio.
40
Demonstrao. Como de costume, vamos definir

B = { B A2 : K (, B) A1 -mensurvel}. (2.93)
Obviamente, como K (y, ) uma probabilidade, vale que
a) B , pois a funo constante igual a um mensurvel.
b) Se B B , ento Bc B , pois 1 f mensurvel se f o .
Sn
c) E se B1 , B2 , . . . , Bn B so disjuntos, ento i =1 Bi B , pois a soma de
funes mensurveis tambm mensurvel.
A discusso acima mostra que B um -sistema que contm o -sistema G .
Da, vemos pelo Teorema 1.3.3 que A2 = (G) B , provando a proposio.
Exerccio 2.9.6. Seja K : R B(R) [0, 1] dada por K (y, ) = U[y1,y+1] . Mostre
que K define um ncleo de transio.
Apesar de interessante, a definio acima ainda no nos permitiu definir
espaos de probabilidade novos. Isso ser possibilitado pelo prximo resultado,
que pode ser visto como uma generalizao do Teorema de Fubini.
Teorema 2.9.5 (Fubini para Ncleos de Transio). Dado um ncleo de transi-
o K de ( E1 , A1 ) para ( E2 , A2 ) e uma probabilidade P1 em E1 , existe uma nica
probabilidade P em ( E1 E2 , A1 A2 ) tal que
Z Z Z
f dP = f (y, z)K (y, dz) P1 (dy), (2.96)
E1 E2 E1 E2
para toda f : E1 E2 R+ . Em particular, P( A1 A2 ) =

R
A1 K (y, A2 ) P1 (dy).
Nesse caso escrevemos P = P1 ? K.
Antes de iniciar a prova do teorema, vamos ver que as integrais do lado
direito de (2.96) esto bem definidas. Para isso, definimos para y E1 a funo
fatiadora y : E2 E1 E2 dada por y (z) = (y, z). Obviamente essa funo
mensurvel, pois
(
1 , se y 6 A1 e
y ( A1 A2 ) = (2.97)
A2 , se y A1 .
Dessa forma, para definirmos f (y, z)K (y, dz), introduzimos f y : A2 R+

R
dada por f y (z) = f (y, z), que mensurvel pois f y =R f y .
Assim, gostaramos de integrar a funo y 7 f y (z)K (y, dz), que est
obviamente bem definida. Porm resta a pergunta, ser que essa expresso
define uma funo mensurvel de y?
Lema 2.9.6. Se K um ncleo de transio, ento para toda f : E1 E2 R+ que
seja A1 A2 mensurvel, temos que g f : A1 R+ dada por
Z
g f (y) = f y (z)K (y, dz) (2.98)
A1 -mensurvel.
41
Demonstrao. Se f = 1 A1 A2 para Ai Ai , i = 1, 2, ento temos que g f (y) =

K (y, A2 )1 A1 , que obviamente mensurvel pois K um ncleo.
Definimos D = { B A1 A2 : g1B A1 -mensurvel}. fcil ver que D
um -sistema que contm o -sistema dos retngulos, logo D = A1 A2 .
Acabamos de ver que g f mensurvel para toda f indicadora, donde o
mesmo vale para f simples por linearidade e para toda f positiva pelo Teo-
rema da Convergncia Montona (lembre que limite de funes mensurveis
mensurvel).
Estamos prontos agora para fornecer a
Demonstrao do Teorema 2.9.5. J sabemos que a integral do lado direito de

(2.96) est bem definida (assumindo possivelmente o valor infinito). A uni-
cidade vale obviamente pois (2.96) aplicado a funes indicadoras temos neces-
sariamente para todos B
Z Z
P( B) = 1B K (y, dz) P1 (dy). (2.99)
E1 E2
S temos que verificar a formula acima nos define uma probabilidade em

( E1 E2 , A1 A2 ).
De fato,
a) obviamente P() = E E K (y, dz) P1 (dy) = 1 e

R R
2 1
b) se ( Bi )i I e uma familia finita o enumervel de eventos dijuntos (em A1

A2 ) ento 1Si I Bi = i I 1Bi a -aditividade de P segue das propriedades
bsicas (linearidade e Teorema de convergncia monotona) da integrao.
O que demonstra o teorema.
Exerccio 2.9.7. Considere duas probabilidades Pi em ( Ei , Ai ) para i = 1, 2 e K :

E1 A2 [0, 1] dado por K (y, A) = P2 ( A). Mostre que K ncleo e que P1 ? K =
P1 P2 . Relacione esse resultado ao Teorema de Fubini clssico para produtos de
medidas.
Exerccio 2.9.8. Considere o ncleo do Exemplo 2.9.1 e calcule:
a) U[0,1] ? K [ X2 = 1],
b) P1 ? K [ X2 = 1], onde dP1 = 2x dx e

c) encontre a distribuio de ( X1 ) U[0,1] ? K [ | X2 = 1] . Interprete o resultado.
Exerccio 2.9.9. Seja P = P1 ? K como acima e Q() = P[| X2 = 1]. Calcule

Z
X1 dQ (2.100)
[0,1]{0,1}
42
Exerccio 2.9.10. Para 0 a < b 1, definimos a probabilidade U[ a,b] em ([0, 1], B([0, 1]))
atravz da seguinte frmula U[ a,b] ( B) = L( B [ a, b])/(b a). Consideramos tam-
bm a funo K : [0, 1] B([0, 1]) [0, 1] dada por K ( x, ) = U[0,x] (), se x > 0 e
K (0, ) = 0 ().
a) Mostre que K um ncleo de transio.
b) Calcule U[0,1] ? K [ X1 < 1/2] e U[0,1] ? K [ X2 < 1/2], onde X1 e X2 so as
projees cannicas em [0, 1]2 .
c) Mostre que U[0,1] ? K absolutamente contnua com respeito medida de Lebesgue

em [0, 1]2 e calcule sua densidade.
Exerccio 2.9.11. Considere K : E1 A2 [0, 1] dada por K ( p, ) = Exp( p).
Mostre que K ncleo de transio e calcule U[0,1] [ X2 > 1] ? K.
Exerccio 2.9.12. Se K um ncleo de transio entre E1 e E2 e {y} A1 satisfaz

P1 ({y}) > 0, mostre que
P1 ? K [ X2 | X1 = y] = K (y, ). (2.101)
Ou em outras palavras, K nos d a distribuio condicional de X2 dado X1 = y.

Posteriormente extenderemos o resultado acima para o caso P1 ({y}) = 0,
mas isso demandar algum esforo.
Vamos introduzir uma ltima notao com respeito a ncleos de transio.
Muitas vezes, no estamos interessados na distribuio conjunta de P1 ? K em
E1 E2 , mas apenas na distribuio marginal da segunda coordenada. No nosso
problema da chuva por exemplo, talvez poderamos estar interessados apenas
na probabilidade final de ocorrer um deslizamento. Nesse caso, conveniente
escrever
P1 K := ( X2 ) ( P1 ? K ) = ( P1 ? K ) X2 . (2.102)
Exerccio
R 2.9.13. Seja K : R+ B(R+ ) [0, 1] dada pela equao K ( x, A) =
A x exp { xt} dt.
a) Prove que K um ncleo de transio.

b) Seja P dada por P = K ? Exp(1). Obtenha P[ X2 > x2 ] para todo x2 0
(lembrando que X2 denota a segunda coordenada no espao produto onde est
definida P). Compare a probabilidade acima com K (1, [ x2 , )).
Rz
c) Mostre que P[ X1 + X2 z] = 0 exp{ x (z x + 1)} dx + exp{z}.
43
2.10 Espaos cannicos

Em vrias reas da matemtica, existe um importante conceito de equivalncia
entre duas estruturas, como por exemplo: homeomorfismos, isometrias e iso-
morfismos. Nessa seo estudaremos o caso anlogo para espaos mensurveis,
que nos trar uma grande surpresa.
Definio 2.10.1. Uma funo : E E0 entre dois espaos mensurveis dita

bi-mensurvel quando uma bijeo mensurvel, com inversa mensurvel.
Vamos agora tentar classificar os espaos a menos de bi-mensurabilidade.

Descobriremos que na verdade os borelianos da reta incluem praticamente tudo
em que podemos estar interessados. Comeamos com a seguinte definio.
Definio 2.10.2. Dizemos que o espao mensurvel ( E, A) cannico se existe uma

funo : E B bi-mensurvel para algum B B(R).
Antes de mostrar que essa classe de espaos cannicos inclui muitssimos

exemplos, vamos motivar a definio acima exemplificando como esse conceito
pode ser utilizado.
Teorema 2.10.3 (Extenso de Kolmogorov Extendida). Se ( E1 , F1 ), ( E2 , F2 ), . . .

so espaos mensurveis cannicos, ento o Teorema 2.6.4 (da extenso de Kolmogorov)
tambm vlido no espao produto = E1 E2 . . . :
Se a seguinte condio de consistncia for vlida
n
O
n 0, A Fi , Pn+1 ( A En+1 ) = Pn ( A). (2.103)
i =1
ento existe uma probabilidade P em tal que

n
O
n 0, A Fi , P( A En+1 En+2 . . . ) = Pn ( A). (2.104)
i =1
Demonstrao. Sejam i : Ei Bi B(R) bijees bi-mensurveise defina

n : E1 En Rn por n (1 , . . . , n ) = 1 (1 ), . . . , n (n ) . Assim
podemos introduzir as medidas de probabilidade
Pn = (n ) Pn , em Rn . (2.105)
fcil verificar que as Pn so consistentes como em (2.56). Logo, existe P em

(RN , F ) extendendo Pn .
Vamos agora definir uma medida em i=1 Ei . Para tanto, primeiramente
fixamos para cada i 1 um elemento arbitrrio wi de Ei e definimos i : R Ei
por (
i1 ( x ), se x Bi ,
i ( x ) =
wi no caso contrrio.
44
2.10. ESPAOS CANNICOS
Como Bi B(R), concluimos que i mensurvel.

Finalmente, consideramos o mapa : RN dado por
( x1 , x2 , . . . ) = (1 ( x1 ), 2 ( x2 ), . . . ). (2.106)
Resta mostrar que a medida P = P extende as probabilidades Pn . Observe

que
P A1 An En+1 . . . = P 1 ( A1 An En+1 . . . )

= P 11 ( A1 ) n1 ( An ) R . . .

= Pn (11 ( A1 ) n1 ( An ))
= Pn 11 11 ( A1 )) n1 n1 ( An )

= Pn ( A1 An ),
concluindo a prova do teorema.
Uma ferramenta importante para construirmos espaos cannicos a se-

guinte.
Lema 2.10.4. Seja ( E, A) um espao cannico e A A, ento A tambm cannico

quando dotado da -lgebra { A C : C A} induzida por A em A.
Demonstrao. Seja : E B B(R) uma funo bi-mensurvel que mostra

que E cannico. Consideramos 0 : A R dada pela restrio de a A e
precisamos mostrar as seguintes afirmativas:
a) 0 injetiva.
b) 0 mensurvel.
c) ( A) B(R).
d) A inversa de 0 (chamada 0 ) de 0 ( A) em A mensurvel.
Vejamos,
a) ser injetiva implica que 0 tambm o .
b) Dado D B(R), (0 )1 ( D ) = A 1 ( D ) which is of the form A C

with C B(Rd ).
c) Denotando por : B E a inversa de , temos que ( A) = 1 ( A)

B( B) pois mensurvel.
d) Finalmente, se D B( A), ento (0 )1 ( D ) = 1 ( D ) B( B), nova-
mente pela mensurabilidade de .
Concluindo portanto a bi-mensurabilidade de 0 quando o seu contra-domnio

restrito a sua imagem.
45
A seguir daremos um exemplo de espao cannico que ser importante na

seo seguinte.
Lema 2.10.5. O espao produto E = N N . . . , dotado da -lgebra produto
cannico.
Demonstrao. Primeiramente definimos em E a Mtrica de Hamming:
1
d H ( x, y) = 2i + 1 1 { x i 6 = y i } . (2.107)
i 1
Fica como exerccio mostrar que a -lgebra dos borelianos induzida por essa
mtrica coincide com a -lgebra produto em E. Definimos agora o mapa
: E R dado por
k
( n 1 , n 2 , . . . ) = 2 n 1 + 2 1 n 1 n 2 + + 2 k i =1 n i + . . . (2.108)
Tambm deixamos a cargo do leitor mostrar que define um homeomorfismo

entre ( E, d H ) e um boreliano de R.
2.10.1 Espaos poloneses

Nessa seo mostraremos que todos espaos chamados poloneses so cannicos.
Definio 2.10.6. Um espao mtrico ( E, d) dito polons se separvel e completo.
Exemplo 2.10.1.
a) Todo espao enumervel pode ser feito em um espao mtrico polons de forma
que a -lgebra de Borel seja P ().
b) Rn e C ([0, 1]) so notoriamente poloneses.
Exerccio 2.10.2. Se ( Ei , di )i=1 uma sequencia de espaos mtricos poloneses, mostre
que E = i=1 Ei com a mtrica

1 d (x , y )
d( x, y) = 2i+1 1 +i di (i xi ,i yi ) (2.109)
i =1
tambm polons. Mostre tambm que a topologia induzida por essa mtrica equiva-
lente topologia produto em E.
Outros exemplos de espaos poloneses so dados pelo seguinte lema, que
tambm ser til para provar o resultado principal desta seo.
Lema 2.10.7. Seja ( E, d) um espao polons e G, F E um aberto e um fechado de E
respectivamente. Ento, existe uma mtrica d0 em F G tal que
a) d e d0 so equivalentes em F G (induzem a mesma noo de convergncia),
b) d( x, y) d0 ( x, y) para todo x, y F G e
46
c) ( F G, d0 ) polons.
Demonstrao. A primeira observao que faremos que F G separvel com
respeito a d. Isso segue do fato de separabilidade ser equivalente existncia de
uma base enumervel.
Vamos definir para x, y em G,
1 1
d0 ( x, y) = d( x, y) + (2.110)

c c
d( x, G ) d(y, G )
,
onde d( x, A) = inf{d( x, x 0 ) : x 0 A}. No difcil ver que com a definio

acima (e deixamos como exerccio) que:
a) As mtricas d e d0 so equivalentes em G.
b) F G separvel quando dotado da mtrica d0 .
c) ( F G, d0 ) completo.
Isso termina a prova do lema.
Exemplo 2.10.3. Um importante exemplo dado por espaos produto. Seja ( Ei , di )i=1
uma sequncia de espaos poloneses e introduza em E = i=1 Ei a mtrica d definida
em (2.109). Ento, se A1 E1 , . . . , Ak Ek forem abertos, o retngulo R =
A1 Ak Ek+1 . . . aberto. Dessa forma vemos que tanto R como Rc podem
ser dotados de mtricas com as quais se tornam espaos poloneses. Alm disso tais
mtricas podem ser escolhidas satisfazendo as hipteses do Lema 2.10.7
O prximo lema o ingrediente chave para provarmos o resultado principal
dessa seo. Ele nos d uma maneira de fatiar um espao polons em uma
partio de espaos poloneses pequenos.
Lema 2.10.8. Seja ( E, d) um espao polons e r > 0. Ento existe uma partio finita
ou enumervel ( Ai )i I de A e mtricas (di )i I nesses respectivos subconjuntos de
forma que para todo i I,
a) ( Ai , di ) so espaos poloneses disjuntos.
b) di e d so equivalentes em Ai e di d.
c) O dimetro de Ai (com respeito a d) menor ou igual a r.
Observe que podemos sempre escolher I = N mas nesse caso os Ai podem ser vazios.
Demonstrao. Obtemos atravz da separabilidade de E, uma coleo de bolas
( Bi )i1 com dimetros limitados por r e cobrindo E. Ento definimos
1
nS
A1 = B1 , e An = Bn \ Bi para n 1. (2.111)
i =0
Agora podemos dotar cada um dos Ai com a mtrica di obtida atravz do

Lema 2.10.7 (observe para tanto que os Ai so dados por intersees de um
aberto com um fechado). As propriedades enunciadas no lema so trivialmente
satisfeitas.
47
Terminamos essa seo com esse importante resultado, que confirma nossa
afirmao de que quase todos os espaos mensurveis que podemos nos inte-
ressar so cannicos.
Teorema 2.10.9. Todo sub-conjunto boreliano de espao polons ( E, d) cannico.
Demonstrao. Primeiramente, pelo Lema 2.10.4, basta mostrar que todo espao
E polons cannico. Pelo Lema 2.10.5 e novamente o Lema 2.10.4,
basta construir uma funo bi-mensurvel : E B B(NN ) (2.112)

e depois comp-la com uma funo bi-mensurvel 0 : B C B(R).
Para comear, construiremos uma partio encaixada de E. Mais precisa-
mente, defina os conjuntos Mn que sero utilizados como ndices
Mn = N n para n 1 e M = n Mn . (2.113)
Vamos definir borelianos Am de E e mtricas dm em Am para cada m M.
Faremos isso da seguinte forma:
a) se m = i M1 , ento definimos A1 , A2 , A3 , . . . e d1 , d2 , d3 , . . . como no
Lema 2.10.8 com r = 1,
b) se ( Am , dm ) j foi definido para algum m Mn , ento utilizamos tambm
o Lema 2.10.8 com r = 1/n para particionar o conjunto Am (com a mtrica
dm ) em A(m,1) , A(m,2) , . . . com suas respectivas mtricas d(m,1) , d(m,2) , . . .
Obviamente suporemos que so vlidas as propriedades de tais mtricas garan-
tidas pelo Lema 2.10.8.
Podemos desde j definir : E NN e para tanto, considere x E.
Indutivamente
a) como { Am }m M1 formam uma partio de E, definimos 1 ( x ) como o
nico ndice tal que x A1 ( x) ,
b) se j encontramos 1 ( x ), . . . , n ( x ) tal que x A(1 ( x),...,n ( x)) , ento o fato

que particionamos o ltimo conjunto na definio de Am , m Mn+1 nos
garante que podemos definir unicamente n+1 ( x ) de forma a continuar a
induo.
Da maneira acima j obtivemos ( x ) = (1 ( x ), 2 ( x ), . . . ). Para terminar, deve-
mos mostrar que bi-mensurvel quando seu contra-domnio restrito sua
imagem.
Isso comea com a prova de que injetiva. Se ( x ) = (y), ento existe
uma sequncia mn Mn tal que x, y Amn para todo n. Mas isso no possvel
dado que o dimetro de Amn+1 menor ou igual a 1/n na mtrica dmn d. Isso
mostra que x = y.
Vejamos agora que mensurvel. Seja w NN tal que ( x ) = w e
tome G NN com G = {(w1 , . . . , wl )} NN (esses conjuntos geram a -
lgebra cannica em NN ). Claramente, 1 ( G ) = A(1 ( x),...,l ( x)) , de forma que
mostramos que mensurvel.
48
Para mostrar que sua inversa : ( E) E mensurvel, veremos que ela

de fato contnua com respeito Mtrica de Hamming definida em (2.107). Dado
n 1, tomamos < 2n . Se w, w0 ( E) so tais que d H (w, w0 ) < em NN ,
ento wi = wi0 para todo i n, de forma que 1 (w) e 1 (w0 ) pertencem a
A(w1 ,...,wn ) . A continuidade de 1 segue do fato que o dimetro de A(w1 ,...,wn )
no mximo 1/n (com respeito a d(w1 ,...,wn1 ) e portanto com respeito a d).
Mas ateno, apesar de que parece que provamos o teorema, ainda falta
mostrar que ( E) mensurvel. Para tanto, afirmamos que

( E) = NN \ { w1 } { w k } N . . . ,
[
(2.114)
(w1 ,...,wk )E
onde
Nn : A1 ,...,n = }.
[
E := {(w1 , . . . , wk )
n 1
A igualdade acima ser mostrada no que segue.

Dado w ( E) existe x E tal que ( x ) = w. Como x Aw1 ,...,wn para
todo n 1, esses conjuntos no so vazios. Logo w no pertence unio
em (2.114), mostrando o lado () da equalidade. Finalmente, suponha que
w = (w1 , w2 , . . . ) tal que para todo k 1, Aw1 ,...,wk 6= . Tomamos portanto
para todo k 1 um ponto xk Aw1 ,...,wk .
Afirmamos que
para todo n, ( xk )kn Cauchy em ( Aw1 ,...,wn , dw1 ,...,wn ), (2.115)
o que segue loge do fato que por k n + 1, xk Aw1 ,...,wk cujo dw1 ,...,wn -dimetro
menor que 1/k.
Consideramos x n o limite de ( xk )kn em ( Aw1 ,...,wn , dw1 ,...,wn ). E facil de
mostrar que x n = x0 := x (o limite da sequencia em ( E, d)) para todo valor de n.
E suficiente ver que d( x n , xk ) dw1 ,...,wn ( x n , xk ), para todo k n, o que implica
que x n e o limite em ( E, d).
Em consequencia podemos concluir que x Aw1 ,...,wn para todo n e ento
que ( x ) = , o que conclui a prova do teorema.
49
Tpico: Cadeias de Markov

Um exemplo de como usar ncleos de transio a construo de Cadeias de
Markov. Esse tipo de processo bastante til em diversas aplicaes, desde a
biologia at a computao.
Considere um espao mensurvel cannico fixo ( E, A) e seja K um ncleo de
E nele mesmo. Seria bastante intuitivo agora iterar K (j que ele est no mesmo
espao) e obter uma medida em = EN com a -lgebra cannica.
Para comear esse procedimento, seja 0 uma medida inicial em ( E, A).
Podemos ento definir 1 = 0 ? K o que o primeiro passo da nossa construo,
porm observe que no podemos escrever 2 = 1 ? K, pois 1 ? K uma
medida em ( E2 , A2 ). Vamos com calma ento.
Observe que
Z Z
1 ( A0 A1 ) = K ( x0 , dx1 )0 (dx0 ), (2.116)
A0 A1
ou em outras palavras o valor de x0 determina a distribuio de x1 . Gostaramos

agora que x1 determinasse a distribuio de x2 via K, como por exemplo assim
Z Z Z
2 ( A0 A1 A2 ) = K ( x1 , dx2 )K ( x0 , dx1 )0 (dx0 ). (2.117)
A0 A1 A2
Mas essa notao fica bastante carregada medida que iteramos.

Para tornar essa notao mais simples, definimos a projeo n : En E
por n ( x0 , . . . , xn1 ) = xn1 . Tambm precisamos de Kn : En A [0, 1] dado
por

Kn (~x, A) = K n (~x ), A = K ( x n 1 ), A ) . (2.118)
O fato de Kn ser um ncleo de transio segue imediatamente dessa propriedade

para K.
Note que, nessa notao, estamos dizendo que para irmos de En para En+1
iremos olhar apenas para a ltima coordenada, na qual aplicaremos o ncleo
K. Isso o ponto mais importante que caracteriza uma Cadeia de Markov: a
distribuio do estado futuro da cadeia depende apenas do estado atual e no
do passado. Em alguns contextos essa propriedade chamada de ausncia de
memria.
Podemos finalmente definir
n+1 = n ? Kn , para todo n 1. (2.119)
Mas resta a questo sobre a existncia de uma que ser respondida com
ajuda do prximo resultado.
Lema 2.10.10. As probabilidades n definidas em (2.119) so compatveis, mais preci-

samente n+1 ( A E) = n ( A) para todo A An .
50
TPICO: CADEIAS DE MARKOV

Z
n +1 ( A E ) = n ? K ( A E ) = Kn (~x, E) n (d~x ) = n ( A). (2.120)
A | {z }
1
Provando o lema.
Logo, o Teorema da Extenso de Kolmogorov (lembre que ( E, A) foi suposto
cannico) nos fornece uma nica P em (, F ) tal que
P(X0 ,...,Xn ) = n , para todo n 0. (2.121)

Lembramos que Xi denotam as projees cannicas em = i=1 E.
Chamamos o processo X1 , X2 , . . . sob a lei P da Cadeia de Markov com
distribuio inicial 0 e ncleo de transio K.
Exemplo 2.10.4. Suponha que E seja enumervel. Nesse caso recordamos do Exem-
plo 2.9.2 que o ncleo pode ser representado por uma matriz p( x, y) x,yE que nos
retorna a probabilidade de saltar de x a y. Alm disso, a distribuio
inicial 0
determinada por P({ x }) = p0 ( x ), para alguma sequncia p0 ( x ) xE .
Exerccio 2.10.5. Mostre que no exemplo acima temos
P ( X0 = x 0 , . . . , X n = x n ) = p 0 ( x 0 ) p ( x 0 , x 1 ) . . . p ( x n 1 , x n ) . (2.122)
Exerccio 2.10.6. Defina K : R2 B(R2 ) [0, 1] dada por
K ( x, A) = US1 ( A x ). (2.123)
Nesse contexto,
a) mostre que K um ncleo de transio e,
b) considerando a cadeia com distribuio inicial 0 = 0 em R2 e ncleo K, mostre
que X2 tem distribuio absolutamente contnua com respeito a Lebesgue e calcule
sua densidade.
Exerccio 2.10.7. Mostre que para qualquer ncleo de transio K entre E e E, existe
um ncleo de transio K entre E e = EN , tal que para toda medida inicial 0 , temos
que 0 ? K a distribuio de uma Cadeia de Markov comeando de 0 e com transio
dada por K. Esse ncleo til se quisermos mudar a distribuio inicial 0 e uma
notao bastante comum para esse ncleo Px () = K ( x, ).
Vamos terminar essa seo dando uma interpretao bastante interessante
para os ncleos de transio em analogia lgebra linear. Fixe um ncleo de
transio K entre E e E, uma medida inicial e uma funo limitada f : E R.
Relembre a notao em (2.102) e defina K f : E R dada por
Z
K f ( x ) := f (y)K ( x, dy), (2.124)
51
que obviamente limitada e j vimos ser mensurvel no Teorema de Fubini.

Ento temos dois operadores definidos para ncleos, a multiplicao
esquerda por uma medida em E (K que tambm uma medida em E) e a
multiplicao direita por uma funo limitada e mensurvel (K f que tambm
uma funo limitada e mensurvel). Podemos pensar em f como um vetor
coluna e como um vetor linha, nesse caso K faria o papel de uma matriz. Essa
analogia real se E for um espao enumervel.
Exerccio 2.10.8. No contexto de cadeias de Markov,
a) mostre a relao de associatividade (K f ) = (K ) f ,
b) defina para todo n o ncleo K (n) iterado (de E em E), de forma que K (n) f ainda
seja associativa.
c) Mostre que a medida K (n) a distribuio de Xn se comeamos de ,
d) que a funo K (n) f () o valor esperado de f no tempo n se comeamos no zero

do ponto e finalmente que
e) o nmero real K (n) f a esperana de f no tempo n se comeamos de .
Vamos agora dar um exemplo simples de Cadeia de Markov que poderemos

analisar em detalhes.
Seja E = Z e considere K : Z P (Z) [0, 1] dado por
x1 + x+1
K ( x, ) = , (2.125)
2
que obviamente define um ncleo pois toda funo em Z mensurvel na
-lgebra das partes.
Podemos portanto construir P em ZN que nos fornece a lei de uma Cadeia
de Markov em Z com distribuio inicial 0 e ncleo de transio K. Chamamos
esse processo de passeio aleatrio simples simtrico.
Poderamos estar interessados em vrias perguntas sobre esse processo,
como por exemplo quo longe esperamos que o passeio aleatrio pode ir depois
de um determinado tempo? Para responder essa e vrias outras questes,
iremos mostrar outra construo do passeio simples simtrico atravz de uma
soma de variveis aleatrias.
Introduzimos um espao de probabilidade P, variveis Y1 , Y2 , . . . i.i.d. com
distribuio (1 + 1 )/2 e definimos S0 = 0 e Sn = Y1 + + Yn .
Lema 2.10.11. A distribuio da sequncia infinita ( X0 , X1 , . . . ) sob a lei P do passeio

aleatrio simples e simtrico igual distribuio de (S0 , S1 , . . . ) sob P.
Demonstrao. Observamos primeiramente que basta mostrar a igualdade de

distribuies para cilindros do tipo { x1 } { xn } ZN , pois tais eventos
52
TPICO: CADEIAS DE MARKOV
compem um -sistema que gera a -lgebra produto em ZN . Calculamos

portanto
P [ X1 = x 1 , . . . , X n = x n ]
pela definio de Cadeia de Markov (via extenso de Kolmogorov),
= n [ X1 = x 1 , . . . , X n = x n ]
= n 1 ? K n [ X1 = x 1 , . . . , X n = x n ]
por Fubini para ncleos (Teorema 2.9.5),

= n 1 [ X1 = x 1 , . . . , X n 1 = x n 1 ] K n ( x 1 , . . . , x n 1 ) , { x n }

= n 1 [ X1 = x 1 , . . . , X n 1 = x n 1 ] K x n 1 , { x n }
1
= n1 [ X1 = x1 , . . . , Xn1 = xn1 ]1{| xn1 xn |=1}
2
n
= = 2n 1{| xi1 xi |=1} .
i =1
Faremos agora esse clculo para a distribuio de Si s:
P[S1 = x1 , . . . , Sn = xn ]
= n [Y1 = x1 x0 , Y2 = x2 x1 . . . , Yn = xn xn1 ]
n n
= P[Yi = xi xi1 ] = 2n 1{| xi1 xi |=1} .
i =1 i =1
Isso mostra o enunciado do lemma.

Podemos agora por exemplo estimar
P[| Xn | n] = P[|Sn | n] 2 exp{(1 +1 )/2 ()n}, (2.126)
que responde nossa pergunta sobre a probabilidade de um passeio aleatrio se

distanciar muito da origem.
53
Tpico: Urna de Plya

Um excelente exemplo de como Cadeias de Markov podem gerar interessantes
modelos de situaes reais so as chamadas Urnas de Plya. Esse processo
modela sistemas de fsica, biologia, computao e economia que apresentam o
que chamamos de reforo.
Tome por exemplo duas empresas que competem pelo mercado de avies.
Inicialmente, no temos nenhuma razo para escolher uma em detrimento
da outra, portanto compramos nosso primeiro avio de cada empresa com
probabilidade meio. Porm, depois que j compramos diversos avies de uma
determinada empresa, ela j recebeu bastante dinheiro que pode ser reinvestido
para gerar melhor tecnologia e aumentar as chances que ela seja escolhida
novamente no futuro. Isso o que chamamos de reforo.
Vamos agora apresentar rigorosamente um modelo para situaes desse tipo.
O nosso modelo comea com uma urna contendo duas bolas, uma vermelha e
uma azul. No cada passo do processo, escolheremos uma bola da urna ao acaso,
olharemos sua cor e retornaremos essa bola para dentro urna junto com mais
uma bola da mesma cor. Isso pode ser formalizado seguir.
Vamos construir uma medida em {0, 1}N , dotado da -lgebra produto.
Fixada uma sequncia finita w1 , . . . , wn em {0, 1}, definimos

Nx (w1 , . . . , wn ) = # j {1, . . . , n} : w j = x + 1, (2.127)
que nada mais que o nmero de bolas do tipo x que se encontram na urna no
tempo n. Quando tivermos uma sequncia infinita de wi s, escreveremos Nxn
para denotar Nx (w1 , . . . , wn ).
Para cada n 1, definimos Kn : {0, 1}n P ({0, 1}) por
N1
Kn (w1 , . . . , wn ) = Ber n . (2.128)
Ou seja, dadas cores w1 , . . . , wn , escolheremos uma bola de cor 1 proporcional-

mente ao nmero N1 de bolas de cor 1 que j foram sorteadas.
Exerccio 2.10.9. Mostre que todos Kn acima definem ncleos de transio. Alm disso
a seguinte sequncia de medidas compatvel no sentido de Kolmogorov:
P1 = Ber(1/2),
P2 = P1 ? K1 ,
P3 = P2 ? K2 , . . .
Conclua que existe a medida P em {0, 1}N que define o modelo de Plya.
Podemos agora fazer perguntas como por exemplo: ser que escolheremos
bolas de ambas as cores para sempre, ou a partir de um certo momento escolhe-
remos bolas de apenas uma cor com certa probabilidade. Mais precisamente,
qual a probabilidade de [ Xi = 1, infinitas vezes]?
54
TPICO: URNA DE PLYA
Para responder perguntas desse tipo, iremos mostrar algo muito curioso,
que pode ser entendido como uma outra maneira de representar o modelo
descrito acima. Mas antes, vamos colecionar alguns fatos sobre o modelo da
Urna de Plya.
Primeiramente vamos olhar para os seguintes eventos. Fixamos n 1 e uma
sequncia w1 , . . . , wn {0, 1} e seja A o evento {w1 } {wn } {0, 1} . . .
Note que os eventos desse tipo (junto com o evento ) formam um -sistema
que gera a -lgebra cannica de {0, 1}N , portanto essa coleo bastante
completa para identificar a distribuio da Urna de Plya.
Podemos calcular a probabilidade do evento A acima
Nw1 1 Nw2 1 Nwn n 1 n

P( A) =
2 3
...
n+1
= Ni
( n + 1 ) ! i =1 wi
1 (2.129)
N1n !(n N1n )! 1 n
= = .
( n + 1) ! (n + 1) N1n
O que muito interessante sobre a equao acima que ela nos remete a
problemas combinatrios ao notarmos o fator binomial acima.
Vamos portanto construir um processo completamente diferente que apre-
senta as mesmas probabilidades que o anterior. Seja S N o conjunto de todas as
permutaes de {1, . . . , N }. fcil ver que
1
1 n h i
= USn+1 (n + 1) = j + 1, (i ) j se e s se i j .
( n + 1) j
Um mtodo muito interessante de se produzir uma permutao uniforme

dado pelos seguintes exerccios.
Exerccio 2.10.10. Seja n 1 um inteiro, P uma probabilidade em ( E, A), uma

permutao fixa em Sn . Ento
( X1 , . . . , X n ) d ( X ( 1 ) , . . . , X ( n ) ) , (2.130)
onde Xi como sempre representam as coordenadas cannicas em ( En , An , Pn ).
Ou em outras palavras, aplicar uma permutao fixa a uma sequncia

i.i.d. no altera sua distribuio. Sequncias de elementos aleatrios (no neces-
sariamente i.i.d. s) que satisfazem (2.130) so ditas intercambiveis.
Um outro exerccio interessante nesse tpico o seguinte
Exerccio 2.10.11. Seja n 1 e F : [0, 1]n Sn dada por

(
(1, 2, . . . , n), se existe i 6= j tal que xi = x j ,
F ( x1 , . . . , x n ) =
o nico tal que x(1) < < x(n) , caso contrrio.
Mostre que F (U[0,1n ] ) = USn .
55
Ou seja, ordenar uma sequncia de uniformes independentes nos fornece

uma permutao uniforme. Como prometido, isso nos d uma maneira de
construir uma permutao uniforme de {1, . . . , n} partir de uma sequncia
i.i.d. (que algo que j estamos comeando a entender melhor).
Podemos agora escrever nossa probabilidade de observar uma sequncia
no modelo da Urna de Plya em termos de uma sequncia i.i.d. de variveis
aleatrias.
1
1 n h i
n = F U[0,1n+]
1
( n + 1 ) = N1
n
+ 1, ( i ) N1
n
se e s se i N1
n
(n + 1) N1
h i
= U[0,1n+
]
1
X i < X n +1 , para i N 1
n
e X i > X n +1 , para i N 1
n
+ 1 .
Agora estamos prontos para provar o resultado principal que nos ajudar a
calcular probabilidades no modelo da Urna de Plya.
Dado u [0, 1], seja Pu = Ber(u)N , ou seja a probabilidade que nos d uma
sequncia infinita de moedas independentes com probabilidade u de sucesso.
Definimos agora K : [0, 1] (P ({0, 1})N ) [0, 1] dada por
K (u, A) = Pu ( A). (2.131)
Lema 2.10.12. A funo K definida acima um ncleo entre [0, 1] e {0, 1}N .
Demonstrao. Usando a Proposio 2.9.2, basta ver que
para todo k 1 e w1 , . . . , wk {0, 1}, temos que

(2.132)
Pu ( X1 = w1 , . . . , Xk = wk ) uma funo mensurvel de u [0, 1].
Mas fcil ver que
Pu ( X1 = w1 , . . . , Xk = wk ) = u N1 (w1 ,...,wk ) (1 u) N0 (w1 ,...,wk ) , (2.133)
que obviamente mensurvel, provando assim o lema.
O resultado muito curioso a qual nos referimos o seguinte.
Lema 2.10.13. A lei P definida no Exerccio 2.10.9 igual a U[0,1] K.
Em outras palavras, digamos que realizamos os seguintes experimentos.

Primeiramente Joo realiza o processo da Urna de Plya e anota a sequncia das
cores obtidas. Depois Maria sorteia uma varivel aleatria X de distribuio
uniforme em [0, 1] e depois joga infinitas vezes uma moeda com probabilidade X
de obter vermelho e (1 X ) de obter azul, anotando tambm quais cores foram
obtidas. Finalmente, no seramos capazes de distinguir essas duas sequncias
(mesmo que pudssemos repetir vrias vezes esse experimento) pois elas tem a
mesma distribuio em {0, 1}N .
56
TPICO: URNA DE PLYA
Demonstrao. J sabemos que basta mostrar a igualdade para eventos do tipo

A = {w1 } {wn } {0, 1}N . Sabemos pelo Teorema de Fubini para
Ncleos que
Z 1 Z 1
(2.133)
U[0,1] K ( A) = K (u, A) du = u N1 (w1 ,...,wk ) (1 u) N0 (w1 ,...,wk ) du.
0 0
(2.134)
Por outro lado , sabemos (usando simetria entre 0 e 1)que
h i
P[ A] = U[0,1n+
]
1
X i < X n + 1 , para i N0
n
e X i > X 0 , para i N0
n
+ 1 (2.135)
Se definirmos K : [0, 1] B([0, 1]n ), dado por K (u, B) = U[0,1n ] , sabemos que
isso define um ncleo pelo Exerccio 2.9.7. Mais ainda, esse mesmo exerccio
nos diz que U[0,1] ? K = U[0,1] , de forma que
h i
P( A) = U[0,1] ? K Xi < X0 , para i N0n e Xi > X0 , para i N0n + 1
Z 1 h i
= U[0,1n ] Xi < u, para i N0n e Xi > u, para i N0n + 1 du
0
Z 1
n n
= u N0 (1 u)n N0 du,
0
que coincide com U[0,1] K ( A), provando o lema.
Exerccio 2.10.12. Mostre que a probabilidade, segundo o modelo da Urna de Plya,

de que observemos infinitas bolas de ambas as cores um.
57
58
Captulo 3
Somas de variveis independentes
Nesse captulo introduziremos vrias tcnicas e resultados que sero teis

em geral, mas que aparecem naturalmente no estudo de somas de variveis
aleatrias independentes, que por sua vez um assunto de extrema importncia
em teoria e aplicaes de probabilidade.
3.1 Esperana
| X | d < , dizemos que X
R
Definio 3.1.1. Se X uma varivel aleatria com
integrvel e definimos Z
E( X ) = X ( ) P(d ), (3.1)

a chamada esperana de X. Nesse caso tambm dizemos que X L1 .
Quando X 0, tambm podemos supor que E( X ) est bem definida, mesmo
que possivelmente tomando valor infinito.
No demonstraremos algumas propriedades conhecidas da integrao de
Lebesgue, tais como
a) E( X + Y ) = E( X ) + E(Y ) (se estiverem bem definidas),
b) Valem os Teoremas de Convergncia (Montona e Limitada).
Exerccio 3.1.1. Mostre que se X L1 e P[ X > x ] = 0, ento E( X ) x.
Lema 3.1.2. A esperana de uma varivel aleatria X L1 depende somente de sua
distribuio. Mais precisamente
Z
E( X ) = x PX (dx ). (3.2)
59
CAPTULO 3. SOMAS DE VARIVEIS INDEPENDENTES
Demonstrao. Vamos mostrar que

Z
E f (X) = f ( x )( X P)(dx ), (3.3)
para toda f : R R mensurvel tal que f ( X ) L1 .

Para f = 1 A , temos

E f ( X ) = P[ X A] = ( X P)( A), (3.4)
por definio de X P.
Agora podemos extender o teorema para funes f simples por linearidade,
depois para funes positivas usando o Teorema da Convergncia Montona e
finalmente escrevemos x = x1[0,) ( x )1(,0) .
Vamos mostrar uma frmula bastante simples de integrao de variveis

tomando valores em um conjunto enumervel. Se X { x1 , x2 , . . . } P-quase
certamente, ento
Z Z Z
E( X ) =

XP(d ) = 1[X=xi ] XP(d ) + { x1 ,x2 ,... }c
XP(d )
i
Z (3.5)
= xi P(d ) + 0 = x i P [ X = x i ].
i [ X = xi ] i
Para nos acostumar notao de probabilidade, vamos agora mostrar o

mesmo resultado da seguinte forma

E( X ) = E X1[ X = xi ] + E( X1{ x1 ,x2 ,... }c )
i
(3.6)
= E[ X; X = xi ] + 0 = xi P[ X = xi ].
i i
Que certamente muito til quando nos habituamos a ela.

Observe que acima usamos a notao E[ X; Q] = E( X1[Q] ). Tambm utiliza-
remos E[ X; Q1 , Q2 , . . . ] = E( X1[Q1 ,Q2 ,... ] )
d
Exemplo 3.1.2. Se X Ber( p), ento E( X ) = 0 P[ X = 0] + 1P[ X = 1] =
0 + p = p.
d
Exemplo 3.1.3. Seja X Bin(n, p), ento, para calcular E( X ), basta calcular E(Y )
d
onde X Y. Como vimos anteriormente, se Z1 , Z2 , . . . , Zn so variveis i.i.d. (re-
d
lembrando: independentes e identicamente distribudos) com Z1 Ber( p), ento
d
Y = i Zi Bin(n, p). Logo
E ( X ) = E (Y ) = E(Zi ) = np. (3.7)

i
60
3.1. ESPERANA
R
Se d( X P) = ( x ) dx (com 0 e ( x ) dx = 1), ento
Z Z
E( X ) = x ( X P)(dx ) = x( x ) dx. (3.8)
d
Exemplo 3.1.4. Se X U[0,1] , ento sua densidade com respeito a Lebesgue dada
R1
por d( X P) = 1[0,1] dx, donde E( X ) = 0 x dx = 1/2.
Proposio 3.1.3. Se X 0 P-q.c., ento
Z Z
E( X ) = P[ X > x ] dx ) = 1 F ( x ) dx. (3.9)
0 0
Demonstrao.
Z X Z
E( X ) = E 1 dx = E 1[ x< X ] dx
0 0 (3.10)
Z Z
Fubini
= E(1[ x<X ] ) dx = P[ x < X ] dx.
0 0
d
Exemplo 3.1.5. Se X Exp(), ento
Z
P[ X x ] = et dt = ex , (3.11)
x
donde Z
1
E( X ) = ex dx = . (3.12)
0
Exerccio 3.1.6. Se X L1 e P[ X x ] = P[ X x ] para todo x 0, ento
E( X ) = 0.
Exerccio 3.1.7. Marcelo coleciona figurinhas de futebol. O lbum completo conter
N figurinhas. No i-simo dia, ele compra uma nova carta Xi {1, . . . , N }. A coleo
( Xi )i0 distribuida de maneira i.i.d. e uniforme nas figurinhas.
a) Para j = 1, . . . , N, seja Tj o tempo passado at a aquisio da j-sima nova
figurinha, i.e.
T1 = 1 e Tj = inf{i, Xi 6 { XTj0 ; j0 < j}}. (3.13)
Mostre que Tj finito quase certamente, para todo j N.

b) Calcule a distribuio conjunta de ( T1 , T2 T1 , . . . , TN TN 1 ).
c) Calcule a esperana de TN (o dia em que Marcelo completa seu lbum).
Exerccio 3.1.8. Sejam X1 , X2 , . . . variveis aleatrias i.i.d. e defina o primeiro tempo
de rcorde como
R = inf{i 2; Xi X1 }. (3.14)
Supondo que X1 absolutamente contnua com respeito medida de Lebesgue, encontre
E ( R ).
61
3.1.1 Desigualdade de Markov

Teorema 3.1.4. Se X 0 P-q.c., ento para todo x > 0,
E( X )
P[ X x ] . (3.15)
x
Demonstrao. Sabemos que X x1[ X x] , logo
E( X ) xE(1[ X x] ) = xP[ X x ], (3.16)
que termina a prova.
O prximo exemplo serve muito bem para mostrar porque estamos interes-
sados em desigualdades como a do Teorema 3.1.4 acima.
Em vrios exemplos importantes, podemos ter dificuldade de calcular pro-
babilidades explicitamente. Nesses casos, poderamos gastar nossas energias
tentando calcul-las a qualquer custo, ou podemos nos contentar em obter cotas
superiores e inferiores para as probabilidades nas quais estamos interessados.
Em vrios casos, a segunda estratgia tem uma grande vantagem sobre a pri-
meira, por possibilitar que estudemos problemas mais complexos (e consequen-
temente mais importantes/interessantes) e muitas vezes sem nos afastarmos da
realidade (em vrios exemplos as cotas superiores e inferiores so prximas o
suficiente para que no nos preocupemos).
Exemplo 3.1.9. Sejam n patos e m caadores. Cada caador escolhe um pato aleatorea
e uniformemente e atira (abatendo-o com probabilidade p). Seja X = #{patos vivos},
que pode ter uma distribuio complicada de calcular, mas
n n
E( X ) = E 1[pato i vive] = P[pato i vive]
i =1 i =1
m
T
= nP[pato 1 vive] = P [caador j no mata pato 1] (3.17)
j =1
p
= nP[caador j no mata pato 1]m = n 1 .
n
Observe que
a) acima obtivemos uma igualdade e
b) [pato i vive], i = 1, . . . , n no so independentes.
Finalmente estimamos (digamos para n par)
E( X )
P[patos para o jantar n/2] = P[ X n/2]
n/2 (3.18)
n p m pm
= 2 1 2 exp{ }.
n n n
62
3.2. VARINCIA
3.1.2 Esperana e independncia

Proposio 3.1.5. Sejam X e Y variveis aleatrias independentes e em L2 , ento
E( XY ) = E( X ) E(Y ). (3.19)
Demonstrao. Obviamente o resultado acima vlido para funes indicadoras,

pois 1 A 1B = 1 A B . Por linearidade, o resultado tambm vale para funes
simples e usando o Teorema da Convergncia Montona podemos extend-lo
para funes positivas. Finalmente, decompomos X = X+ X e Y = Y+ Y
e lembramos que ambas esto em L2 para concluir a prova.
Exerccio 3.1.10. Mostre que E( XY ), E( X/Y ), E( X + Y )... dependem apenas da
distribuio de ( X, Y ) R2 .
Exerccio 3.1.11. Mostre que se X, Y L1 , ento tambm vale E( XY ) = E( X ) E(Y ).
3.2 Varincia
Na seo anterior, limitamos P[ X > a] usando E( X ) (se X 0). Esse mtodo
chamado de mtodo do primeiro momento, de acordo com a seguinte
Definio 3.2.1. Dada uma varivel aleatria X, definimos o seu k-simo momento
como E( X k ), para k = 1, 2, . . .
Ento, por exemplo, se X Lk e X 0, podemos estimar
E( X k )
P[ X x ] = P[ X k xk ] , para quaisquer k 1. (3.20)
xk
Observe que quando o k-simo momento de X finito, a razo acima decai mais
rpido quando x diverge.
Exerccio 3.2.1. Mostre uma frmula anloga da Proposio 3.1.3.
Exerccio 3.2.2. Mostre que se a distribuio de X tem densidade e E(| f ( X )|) < ,
ento Z
E( f ( X )) = f ( x )( x ) dx. (3.21)
Um caso bastante importante ocorre quando k = 2, por vrias razes que

descreveremos abaixo.
Digamos que estamos interessados em aproximar uma varivel aleatria
por uma constante de forma a minimizar o erro da aproximao. Uma possvel
formulao desse problema encontrar a de forma a minimizar

E ( X a)2 = E( X 2 ) 2aE( X ) + a2 . (3.22)
Essa equao obviamente possui um nico mnimo em a = E( X ). Ao erro da

aproximao acima damos o nome de varincia
63
Definio 3.2.2. Dada uma varivel aleatria X L2 , definimos sua varincia como
2
Var( X ) = E X E( X ) = E ( X 2 ) E ( X )2 . (3.23)
Observe pelas definies alternativas dadas acima que
a) Var( X ) 0 e
b) E( X 2 ) E( X )2 .
Exerccio 3.2.3. Mostre que se X L2 , ento Var( X ) = 0 se e somente se X = a

quase certamente.
Obviamente
Var( aX ) = E( a2 X 2 ) E( aX )2 = a2 Var( X ). (3.24)
Podemos alternativamente entender a varincia da seguinte meneira. Sejam

X e Y variveis aleatrias independentes em L2 de mesma distribuio. Ento,
E ( X Y )2 = E( X 2 ) 2E( XY ) + E( X 2 ) = E( X 2 ) E( X )2 = Var( X ). (3.25)

Exerccio 3.2.4. Mostre que se X L2 , ento Var( X + b) = Var( X ).
Exerccio 3.2.5. Calcule Var ( X ) quando X tem distribuies Ber( p), U [0, 1] ou
Exp().
A seguinte proposio mostra que a varincia uma maneira de estimar o

quanto uma varivel aleatria se desvia de sua mdia.
Proposio 3.2.3. Se X L2 e a > 0, ento
Var( X )
P[| X E( X )| > a] . (3.26)
a2
Demonstrao. A desigualdade segue trivialmente da cota de Markov, ao obser-
varmos que
a) | X E( X )| 0,
b) | X E( X )| > a se e somente se | X E( X )|2 > a2 e
c) E | X E( X )|2 = E ( X E( X ))2 = Var( X ),

mostrando a proposio.
Para variveis aleatrias de mdia zero, a varincia nada mais que E( X 2 ),

ou em outras palavras k X k22 , o quadrado de sua norma em L2 . Isso nos motiva a
olhar mais de perto para o produto interno em L2 , que se traduz a E( XY ). Mas
para no nos restringirmos a variveis de mdia zero, introduzimos a seguinte
64
3.2. VARINCIA
Definio 3.2.4. Se X, Y so variveis em L2 , definimos

Cov( X, Y ) = E X E( X ) Y E(Y ) = E( XY ) E( X ) E(Y ). (3.27)
Uma observao importante que
se X e Y em L2 so independentes, ento Cov( X, Y ) = 0. (3.28)
Exerccio 3.2.6. Sejam X1 e X2 as coordenadas cannicas em R2 . J vimos que

elas no so independentes sob a distribuio US1 . Mostre que mesmo assim temos
Cov( X1 , X2 ) = 0.
Uma outra propriedade bastante importante da varincia que ela se com-

porta bem com somas, no seguinte sentido
Proposio 3.2.5. Se X1 , . . . , Xn so variveis em L2 , ento

n
Var( X1 + + Xn ) = Var(Xi ) + Cov(Xi , Xj ). (3.29)
i =1 i6= j
Em particular, se as variveis Xi forem independentes duas a duas, ento

n
Var( X1 + + Xn ) = Var(Xi ). (3.30)
i =1
Demonstrao. Basta fazer o tedioso desenvolvimento

2
Var i
X = E i
X E i
X
i i i
2
=E Xi E ( Xi ) (3.31)
i
n

= E Xi E ( Xi ) E X j E ( X j ) ,
i,j=1
o que termina a prova ao separarmos i = j de i 6= j.
d
Exerccio 3.2.7. Calcule Var( X ) quando X Bin(n, p).
d
Exerccio 3.2.8. Calcule E( X ) quando X Geo( p).
Um dito popular muito comum no Brasil que no devemos deixar todos os

ovos no mesmo cesto, o que nos remete possibilidade de perdermos todos
eles caso o cesto caia. Uma outra maneira de pensar nas vantagens de se dividir
nossos riscos entre vrias fontes independentes de incerteza, vem da equao
(3.30), melhor explicada no exerccio abaixo.
65
Exerccio 3.2.9. Imagine que X1 , . . . , Xn so variveis i.i.d. , tomando valores em [0, 1]

e que temos um certo valor s R+ que temos que guardar em n caixas (dividindo como
quisermos em s1 , . . . , sn ). Ao fim da semana, obteremos S = i si Xi .
Calcule E(S) e Var(S),
a) se s1 = s e si = 0 para todo i 2 e
b) se si = s/n para todo i.
Compare os resultados.
Exerccio 3.2.10. Calcule lim p0 Fp ( x ) onde Fp a funo de distribuio acumulada

d
de pX p com X p Geo( p). Voc reconhece esse limite?
3.3 Lei fraca dos grandes nmeros

Nessa seo iremos mostrar um dos resultados mais importantes da Teoria da
Probabilidade. O que nossa intuio tem a nos dizer sobre a probabilidade de
obtermos um resultado em um dado 1/6? Uma possvel explicao seria por
simetria, mas e o que podemos dizer no caso de um dado viciado?
Se dizemos a algum que a probabilidade de obter 6 em um certo dado
1/10, naturalmente a pessoa pode se perguntar como descobrimos isso. Um bom
jeito de obter tal medida seria jogar o dado vrias vezes independentemente e
calcular em qual proporo dos ensaios ele retornou um seis.
O objetivo desta seo confirmar a validade desse experimento de maneira
quantitativa.
Teorema 3.3.1. Se X1 , X2 , . . . so i.i.d.s em L2 e definimos

n
Sn = Xi , (3.32)
i =1
ento para todo > 0

h S i
n
lim P E( X1 ) > = 0. (3.33)

n n
Sn
Ou seja, n E( X1 ) em medida (que tambm chamamos de em probabilidade).
h S
n
i Var( Snn )
P E ( X1 ) > , (3.34)

n 2
pois E(Sn /n) = 1/nE( X1 + + Xn ) = E( X1 ).
Mas como Var(Sn /n) = 1/n2 Var( X1 + + Xn ) = (n/n2 ) Var( X1 ), temos
o resultado.
66
3.3. LEI FRACA DOS GRANDES NMEROS
Observe que ns apenas utilizamos que as variveis Xi eram independentes

duas a duas.
Alm disso, obtivemos o seguinte resultado quantitativo que vale mesmo
para valores finitos de n:
Esclio 3.3.2. Se X1 , X2 , . . . so i.i.d.s em L2 e definimos Sn = in=1 Xi como acima,
ento, para todo > 0 e n 1, temos
h S
n
i Var( X1 )
P E ( X1 ) > . (3.35)

n 2 n
Corolrio 3.3.3. Se A1 , A2 , . . . so eventos independentes dois a dois com P( Ai ) =
p [0, 1] para todo i, ento
h #{i n; A } i
i
lim P p > = 0, (3.36)

n n
ou em outras palavras a proporo de ensaios onde o evento Ai ocorre converge em
probabilidade para p.
Demonstrao. Basta tomar Xi = 1 Ai no Teorema 3.3.1.
Exerccio 3.3.1. Sejam ( Xi )i1 variveis i.i.d. com distribuio Ber( p), p [0, 1].
Mostre que
1 N
lim
N N
Xi Xi+1 = p2 , em probabilidade. (3.37)
i =1
Exerccio 3.3.2. Sejam X1 , . . . , Xn e Y1 , . . . , Yn variveis independentes com distri-

buio Ber( p). Defina agora Zi,j = Xi Yj , para i, j {1, . . . , n} e
a) calcule a esperana de Sn = 1
n2 in=1 nj=1 Zi,j e
b) estime P[|Sn E(Sn )| > a] usando o mtodo do segundo momento. Como esse
resultado se compara com o caso em que os Zi,j so i.i.d.?
Exerccio 3.3.3. Considere uma rua infinita com casas i Z. Para todo i Z, existia
uma rua entre as casas i e i + 1, mas aps uma grande tempestade essas ruas foram
danificadas. Mais precisamente, para cada i Z, temos variveis aleatrias Xi que so
i.i.d. com distribuio Ber( p), onde Xi = 1 indica que o trecho da rua entre as casas
i e i + 1 foi danificado e no pode ser utilizado. Defina, para i Z, Ri como sendo o
nmero de casas que continuaram acessveis casa i aps a tempestade. Por exemplo,
se X2 e X0 = 1 e X1 = 0, temos que a casa 0 somente pode acessar a casa 1, logo
R0 = 1. Nesse contexto,
a) Calcule a distribuio e a esperana de R0 ,
b) Use o mtodo do segundo momento para estimar a probabilidade
h 1 n i
P R i E ( R0 ) > a . (3.38)

n i =1
67
Tpico: Contando tringulos

Vimos como a Lei Fraca dos Grandes Nmeros seguiu de uma estimativa de
segundo momento (mais precisamente usando a varincia).
Nessa seo iremos mostrar como esse mtodo mais geral, se aplicando
mesmo em situaes onde as variveis no so necessariamente independentes
duas a duas.
Seja Vn = {1, . . . , n} com n 3 e En = { x, y} Vn ; x 6= y . Chamamos o
par (Vn , En ) de grafo completo em n vrtices.
Definimos em um certo espao de probabilidade Pn , as variveis aleat-
rias ( Xe )eEn de maneira i.i.d. com distribuio Ber( p), onde p [0, 1]. Essas
variveis induzem um subgrafo aleatrio (Vn , En0 ), onde
En0 = e En ; Xe = 1 .

(3.39)
Dizemos que os elos e, tais que Xe = 1 so abertos.

Definimos nesse espao a varivel aleatria
Tn = # tringulos em (Vn , En0 ) .

(3.40)
Essa varivel claramente pode ser escrita como
Tn = 1 A{x,y,z} , (3.41)
x,y,zVn distintos
onde A{ x,y,z} = {x,y,z} formam um tringulo em (Vn , En0 ) .

Gostaramos de entender algo sobre a distribuio de Tn e comeamos calcu-

lando
En ( Tn ) = Pn ( A{ x,y,z} )
{ x,y,z} distintos
(3.42)
n(n 1)(n 2) 3

n 3
= p = p .
3 6
Logo, P[ Tn > a] n(n 1)(n 2) p3 /6a. Mais ainda,
En ( Tn2 ) = Pn ( A{ x,y,z} A{ x0 ,y0 ,z0 } )

{ x,y,z} distintos { x 0 ,y0 ,z0 } distintos

n 6 6 n 5 3 6 n 3 4 5 n 3 (3.43)
= p + p + p + p
6 3 5 3 1 4 2 3 3
| {z } | {z } | {z } | {z }
todos distintos 1-comum 2 em comum iguais
Donde
1 6 6 1
Varn ( Tn ) = n p n6 p6 + cn5 p5 + ... c(n5 p5 + n3 p3 ), (3.44)
36 36
para todos p [0, 1] e n 1 se escolhemos bem a constante c > 0.
68
TPICO: CONTANDO TRINGULOS
Isso nos permite por exemplo estimar o que acontece em alguns regimes,
como por exemplo, se p = 1/2, ento
n(n 1)(n 2)
En ( Tn ) = , (3.45)
48
que cresce como n3 , e Varn ( Tn ) cn5 , logo
h i Varn ( Tn ) c
Pn Tn En ( Tn ) > n3 2 . (3.46)

2
n 6 n
69
3.4 Lei forte dos grandes nmeros

Teorema 3.4.1 (Lei Forte dos Grandes Nmeros). Sejam X1 , X2 , . . . i.i.d. em L1 ,
com m = E( X1 ). Ento,
n
1
lim
n n Xn = m, P-quase certamente. (3.47)
i =1
Antes de comear a prova, buscando inspirao no Teorema das Trs Sries,

mostraremos que basta considerar verses truncadas das variveis Xi . Isso
feito no prximo
Lema 3.4.2. Sejam Yi = Xi 1[| Xi |i] . Ento, para demonstrar o Teorema 3.4.1, basta
provar que
1 n
lim Yi = m, P-quase certamente. (3.48)
n n
i =1
Prova do Lema 3.4.2. Consideramos os eventos Ai = [ Xi 6= Yi ]. Obviamente,

Z
P ( Ai ) = P[|Xi | i] 0
P[| Xi | t] dt = E | Xi |) < . (3.49)
i i
Logo, pelo Lema de Borel-Cantelli, temos que P-quase certamente Ai acontece

apenas finitas vezes. Digamos que Ai no acontece para i > N ( ). Dessa forma,
para qualquer n 1,
1 n n
1 1
(Xi Yi ) n |Xi Yi | | Xi | , (3.50)

n n

i =1 i =1 i N ( )
que converge para zero P-quase certamente, mostrando o resultado.

O prximo passo para a prova da Lei Forte dos Grandes Nmeros cuidar
da esperana das novas variveis Yi .
Lema 3.4.3. Sejam Zi = Yi E(Yi ), para i 1 como acima. Ento, para demosntrar
o Teorema 3.4.1, basta mostrar que
n
1
lim
n n Zi = 0, P-quase certamente. (3.51)
i =1
Demonstrao. Supondo a convergncia em (3.51), sabemos que

n
1
lim
n n Yi E(Yi ) = 0, P-quase certamente. (3.52)
i =1
Mas E(Yi ) = E( Xi 1[| Xi |i] ) que converge a E( Xi ) = m, pelo Teorema da Con-

vergncia Dominada, donde conclumos que
n
1
n
lim
n E(Yi ) = m. (3.53)
i =1
70
3.4. LEI FORTE DOS GRANDES NMEROS
Dessa forma, obtemos que n1 in=1 Yi converge quase certamente a m, donde

conclumos a prova do Teorema 3.4.1 por meio do Lema 3.4.2.
Gostaramos de utilizar os teoremas das sries para mostrar a convergncia

de n1 n Zn , mas obviamente, o fator n1 que precede a soma nos impede de
faz-lo. O prximo resultado um simples exerccio de anlise real, que nos
permite reduzir a prova de (3.51) para uma simples convergncia de uma srie
sem pr-fatores.
Lema 3.4.4 (Lema de Kronecker). Suponha que xn R e bn > 0 sejam tais que
bn e i=1 xbi convirja a s R. Ento
i
n
1
lim
n bn xi = 0. (3.54)
i =1
x1 xn
Demonstrao. Definindo s0 = 0 e sn = b1 ++ bn , temos, por integrao por
partes,
n n n n n 1
x
xi = bi bii = bi s i bi s i 1 = b n s n + ( bi bi + 1 ) s i . (3.55)
i =1 i =1 i =1 i =1 i =1
Escolhemos agora, para qualquer > 0, um n0 1 tal que |sn s| < para
todo n n0 . Dessa forma,
n n 1
1 1
bn xi = s n bn ( bi + 1 bi ) s i
i =1 i =1
n0 1 n 1
1 1
= sn
bn ( bi + 1 bi ) s i b n ( bi + 1 bi ) s i
i =1 i = n0
| {z }
n0
n 1 n 1
1 1 1
= s n n0
|{z} bn bn (bi+1 bi )s bn (bi+1 bi )(si s),
i = n0 i = n0
s | {z }
0
| {z } | {z }
( bn bn 0 ) s ( bn bn 0 )
= bn s bn
onde os limites indicados acima representam o que acontece quando n . A

prova segue do fato de ter sido escolhido arbitrariamente.
Estamos agora em posio de finalizar a
Prova do Teorema 3.4.1. De acordo com o Lema de Kronecker e o Lema 3.4.3,

suficiente mostrar que
n
Zi
i
, converge quase certamente. (3.56)
i =1
71
Por outro lado, como os Zi s tem mdia zero, o Teorema de Uma Srie diz que
suficiente mostrar que
n Z n
1
Var i
i
= i2 Var(Zi ) < . (3.57)
i =1 i =1
Isso segue da seguinte estimativa

n n n
1 1 1
i2 i2 i2 E Xi2 1[|Xi |i]

Var ( Zi ) = Var ( Yi )
i =1 i =1 i =1
n i
1
i2 E Xi2 1[k1<| Xi |k]

=
i =1 k =1
n n
1
E X12 1[k1<| Xi |k] i2

= (3.58)
k =1 i =k
n
1
E X12 1[k1<| Xi |k]

2
k =1
k
n
E X1 1[k1<| Xi |k] 2E( X1 ) < .

2
k =1
Isso nos permite concluir a prova de (3.51) via o Lema de Kronecker. Conse-
quentemente, obtemos o Teorema 3.4.1 via o Lema 3.4.3.
Exerccio 3.4.1. Sejam Yk variveis aleatrias independentes e com a seguinte distri-
buio: (
1
1 se i = 1 or i = 1,
P[Yk = i ] = 22 k2 (3.59)
k2
se i = 3.
Mostre que
h1 n i
P
n Yk converge a zero = 1. (3.60)
k =1
Exerccio 3.4.2 (Depende de Tpico: Urna de Plya). Mostre que segundo a lei P
construida no Exerccio 2.10.9, vale que
n
n Xi converge] = 1.
1
P (3.61)
i 1
Alm disso calcule a distribuio do limite acima.
3.5 Lei {0, 1} de Kolmogorov

Ao estudarmos o Lema de Borel-Cantelli, vimos que se os eventos ( Ai )i1 so
independentes ento a probabilidade de [ Ai infinitas vezes] somente pode assu-
mir os valores zero ou um (dependendo da somabilidade de P( Ai )). Nessa seo
72
3.5. LEI {0, 1} DE KOLMOGOROV
iremos estudar outros tipos de evento que assumem apenas esses dois valores.
Esperamos que esse fenmeno se torne intuitivo ao final dessa discusso.
No que se segue, consideraremos um espao mensurvel = i=1 E, com a
-lgebra cannica F , isto a -lgebra gerada pelas coordenadas cannicas
( Xi )i=1 .
Definio 3.5.1. Dizemos que um evento A F caudal se

A Xi ; i n , para todo n 1. (3.62)
Tambm introduzimos a classe F de tais eventos, que claramente uma -lgebra,

pois pode ser escrita como

F = Xi ; i n .
T
(3.63)
n 1
Chamamos F de -lgebra caudal.

Vejamos que, dados Ai ( Xi ), i 1, temos que [ Ai infinitas vezes]
caudal. Para tanto, basta observar que para todo n 1, temos que
[ Ai infinitas vezes] = #{i 1; Ai } = = #{i n; Ai } = ,

que obviamente pertence a ( Xi ; i n) para todo n 1.

Exerccio 3.5.1. Mostre que em = R , so caudais os seguintes eventos
a) [ Xi converge],
b) n1 in=1 Xi converge e

c) [#{i 1; Xi > 0} < ].

Podemos agora enunciar o pricipal teorema dessa seo
Teorema 3.5.2 (Lei {0, 1} de Kolmogorov). Se = E , onde E um espao
cannico, for provido de uma lei produto P = i=1 Pi , ento todo evento caudal tem
probabilidade 0 ou 1 sob P.
Quando uma -lgebra F satisfaz P( A) {0, 1} para todo A F , dizemos
que F trivial. Uma outra maneira de enunciar a concluso do teorema acima
dizer que a -lgebra caudal F trivial.
Demonstrao. A idia da prova, apesar de soar um pouco estranha, mostrar
que se A F , ento A independente de si mesmo. Em outras palavras,
P( A) = P( A A) = P( A)2 , donde P( A) {0, 1}. Mas vamos com calma.
Fixe k 1, A F e B ( X1 , . . . , Xk ). Nesse caso, como o evento A
pertence a ( Xk+1 , Xk+2 , . . . ), temos que A e B so independentes. Fixe agora
A F e considere a classe
B A = { B F ; B independente de A}. (3.64)
73
J sabemos que ( X1 , . . . , Xk ) B A para todo k 1.

Obviamente independente de A, assim como Bc B A sempre que
B B A . Alm disso, suponha que B1 , B2 , . . . in B A so disjuntos, ento,
disj. indep.
P ( Bi ) A = P ( Bi A) = P( Bi A) = P( A) P( Bi ).
S S T T S
i i i i
Logo B A um -sistema.
Lembrando que B A contm o -sistema k ( X1 , . . . , Xk ), isto dos eventos
S
cilndricos, temos que todos eventos so indepentes de A, inclusive o prprio A.

Isso termina a prova do teorema.
Exerccio 3.5.2. Dizemos que uma probabilidade P no espao produto = n1 E

(com a -lgebra cannica) fortemente misturadora se, para todo k 1, temos

lim sup P( A B) P( A) P( B) = 0, (3.65)
n
onde o supremo acima tomado sobre A ( X1 , . . . , Xk ) e B ( Xn , Xn+1 , . . . ).

Mostre que nesse caso, a -lgebra dos eventos caudais trivial.
Exerccio 3.5.3 (Depende de Tpico: Percolao). Considere o grafo G = (Z2 , E),

onde E = { x, y}; | x y|2 = 1 . Dotamos agora o espao {0, 1} E com a -lgebra A

gerada pelas projees cannicas Ye ( ) = (e), onde {0, 1} E e e E. Definimos

o conjunto A {0, 1} E por
existe uma sequncia de distintos x0 , x1 , Z2 ,

h i
A= . (3.66)
tais que ei = { xi , xi+1 } E e Yei = 1 para cada i 0
a) Mostre que A mensurvel com respeito a A.
b) Mostre que A um evento caudal, ou seja

\
A Ye ; e 6 K . (3.67)
K E; finito
c) Conclua que P( A) {0, 1}.
Exerccio 3.5.4. Seja = EZ um espao produto infinito, dotado da -lgebra A

gerada pelas projees cannicas ( Xi )iZ . Consideramos agora em (, A) a medida
produto P = PZ , onde P uma probabilidade fixada no espao polonns ( E, B( E)).
a) Mostre que para qualquer evento A A e qualquer > 0, existe um k Z+ e

um evento Ak ( Xi , |i | k) tais que P[( A \ Ak ) ( Ak \ A)] < .
b) Considere o shift : dado por ( )(i ) = (i 1) e mostre que se

A = ( A), ento P( A) {0, 1}.
74
3.6. MOMENTOS EXPONENCIAIS
3.6 Momentos exponenciais

Nessa seo desenvolveremos uma outra tcnica para estimar a probabilidade
de uma varivel aleatria se desviar de sua esperana.
J vimos o mtodo do primeiro, segundo e quarto momento para controlar
uma soma de variveis independentes. Um exemplo disso foi visto na estimativa
n
Var( X )
h i
P i ( X E ( X i )) a i 2 i .
a
(3.68)
i =1
Em geral, quanto maior o momento, melhor a estimativa do decaimento

para a probabilidade de que uma varivel se desvie de sua esperana. Nessa
seo iremos para momentos exponenciais, que em um certo sentido produzem
estimativas timas para o comportamento assinttico da probabilidade de
desvio.
Note que se quisermos uma pequena probabilidade de erro (como por
exemplo 0.01), o mtodo do segundo momento muito bom, como veremos
posteriormente. Mas se quisermos uma probabilidade de erro minscula (em
situaes concretas, algo como 1012 por exemplo), certamente teremos que
aumentar bastante o valor de n, mas quanto? As cotas de segundo momento
so muito ruins para esse tipo de estimativa, nos levando a escolher um n maior
que o necessrio. Abaixo, desenvolveremos um mtodo mais eficiente para
responder a essa pergunta, obviamente sob certas hipteses na distribuio das
variveis aleatrias.
Definio 3.6.1. Dada uma varivel aleatria X, definimos sua transformada de La-
place como
X (s) = E(esX ) (0, ], (3.69)
para todos s R. Essa transformada tambm chamada funo geradora de mo-
mentos de X.
Exerccio 3.6.1. Calcule a funo geradora de momentos das distribuies Ber( p),
Exp() e U[0,1] .
Proposio 3.6.2. Se E(e| X | ) < , ento
a) X L p para todo 1 p < ,
b) X (s) < para todo s (, ),
c) X (s) C em (, ) e
(n)
d) X (s) = E( X n esX ).
A ltima concluso da proposio acima justifica a nomenclatura funo

(n)
geradora de momentos pois X (0) = E( X n ).
75
Demonstrao. Obviamente, para todo p 1 existe c > 0 tal que e| x| c| x | p ,

donde X L p . Alm disso, para todo s (, ), temos X (s) = E(esX )
E(e| X | ) < , donde 2. segue imediatamente.
Fixando s R, vamos agora calcular
E e(s+h)X esX

X ( s + h ) X ( s ) ehX 1
= = E esX . (3.70)
h h h
Lembrando que | y1 (ey 1)| e|y| , para todo y R, temos que para todos os
+|s|
h < ( |s|)/2, o integrando acima dominado por | X |e(|s|+h)| X | | X |e 2 | X |
que pertence a L1 . Logo podemos usar o Teorema da Convergncia Dominada
para trocar o limite h 0 com a esperana, obtendo
0
X (s) = E( XesX ). (3.71)
Note que para todo > 0 e k 1, | x |k c(k)e| x| , isso nos permite repetir o
argumento acima indutivamente para obter c) e d).
Lembramos que ao usar o mtodo do segundo momento, nos foi bastante
til o fato que a varincia se comporta bem com relao a somas independentes.
Mais precisamente, Var( X1 + + Xk ) = Var( X1 ) + + Var( Xk ).
Uma outra propriedade importante da funo geradora de momentos que
ela tambm se comporta bem com respeito somas independentes.
Proposio 3.6.3. Se X1 , . . . , Xn so variveis independentes com Xi (s) < para
todo i k e |s| < , ento
X1 ++Xk (s) = X1 (s) Xk (s), para todos |s| < . (3.72)
E(exp{s( X1 + + Xk )}) = E(esX1 esXk ))

(3.73)
= E esX1 ) E(esXk = X1 (s) Xk (s),

usando Fubini.
Consideraremos agora uma sequncia X1 , X2 , . . . de variveis i.i.d. com
X1 (s) < para |s| < . Ento podemos tentar estimar, para a > 0 e |s| < ,
hX + + X i h i
1 n
P E( X1 ) a = P X1 + + Xn ( a + E( X1 ))n
nh i
= P es(X1 ++Xn ) es(a+E(X1 ))n
X1 ++Xn (s)es(a+E(X1 ))n = X

n
1
(s)es(a+E(X1 ))n .
O primeiro fator na estimativa acima pode crescer exponencialmente com n,

enquanto o segundo decresce. Gostaramos que o comportamento do segundo
predominasse, o que podemos concluir do seguinte argumento.
76
3.7. PRINCPIO DE GRANDES DESVIOS
Sabemos que X1 (s) diferencivel em zero e que X 0 (0) = E ( X ). Logo,

1 1
a
existe s > 0 tal que X1 (s) < 1 + ( E( X1 ) + 2 )s, donde
hX + + X i
1 n
P n
E ( X1 ) a X (s)es(a+E(X1 ))n
n 1
a n
1 + ( E( X1 ) + )s es(E(X1 )+a)n
2
n a o
exp s E( X1 + E( X1 ) a)n = esan/2 .
2
Isso nos garante um decaimento exponencial da probabilidade da mdia dos Xi
se desviar da esperana.
Exerccio 3.6.2. Aplique o mtodo acima para variveis Xi i.i.d. com distribuio
Ber(1/2) e encontre s( a) que otimize o decaimento da probabilidade P in=1 Xi >

(1/2 + a)n .
Poderamos nos perguntar se a cota acima suficientemente boa. Talvez
pudssemos esperar um decaimento ainda melhor que exponencial. Para res-
ponder a essa pergunta, vamos considerar o seguinte exemplo. Sejam ( Xi )i1
variveis i.i.d. com X1 d Ber(1/2). Nesse caso temos por exemplo
h X + + X 1 1i
n
P 1 P[ Xi = 1, i n] = 2n . (3.74)
n 2 4
Dessa forma, sabemos que no podemos esperar um decaimento melhor que ex-
ponencial, mesmo para variveis bem simples (como Bernoulli) que satisfazem
X (s) < para todo s R.
Note que para variveis com distribuio Ber(1/2), obtivemos acima cotas
exponenciais em n (superior e inferior), mas elas possuem expoentes diferentes.
Resta agora tentar entender qual o expoente correto para o decaimento da
probabilidade P[ X1 + + Xn n( E( X1 ) + a)], o que ser feito na prxima
seo.
3.7 Princpio de Grandes Desvios

A primeira tarefa nossa ser otimizar a estimativa grosseira feita na seo
anterior. Essas estimativas so chamadas de estimativas de grandes desvios, pois se
referem a probabilidades que a mdia emprica de Xi se desvie de sua esperana
por um valor constante a. Futuramente no curso estudaremos as probabilidades
de que esse desvio seja de ordem an 0 que so chamados de desvios moderados
ou flutuaes, dependendo se a probabilidade de desvio converge a zero ou no.
Teorema 3.7.1 (Princpio de Grandes Desvios - cota superior). Consideramos
variveis aleatrias i.i.d. X1 , X2 , . . . tais que X1 (s) < , para todo s (, ).
Ento, para a > 0,
P X 1 + + X n m + a n e X1 ( m + a ) n ,

(3.75)
77
onde m = E( X1 ) e
X1 ( x ) = sup xs log X1 (s) (3.76)
s 0
chamada funo taxa.

importante observar que para estimar P X1 + + Xn (m a)n , basta
considerarmos Xi0 = Xi ao utilizar o teorema acima.
Demonstrao. J sabemos que, para todo s 0,
n
( s ) es(m+ a)n

P X1 + + X n m + a n X 1
(3.77)

= exp log X1 (s) n s(m + a)n

= exp (m + a)s log X1 (s) n
O que termina a prova do teorema se tomamos o nfimo em s 0.

Exerccio 3.7.1. Calcule X ( a) quando X distribuda como Ber( p), U[0,1] e Exp().
Exerccio 3.7.2. Na Nova Calednia, temos k habitantes. Seja f : {1, . . . , k} {0, 1}

uma funo que indica a inteno de voto de cada cidado. Mais precisamente, para
cada habitante i {1, . . . , k}, se f (i ) = 0, ento i vota no candidato 0, enquanto se
f (i ) = 1, o cidado i vota no candidato 1. Para estimar o nmero k1 = # f 1 ({1}) de
pessoas que votam em 1, ns escolhemos variveis aleatrias Yi i.i.d. com distribuio
uniforme em {1, . . . , k} e queremos estimar
n
h 1 k1 i
Errn (e) = P f (Yi ) >e . (3.78)

n i =1
k
Sabendo que k par e k1 = k/2, ento

a) use o mtodo do segundo momento para obter um n tal que Errn (0.01) < 0.02 e
um n tal que Errn (0.01) < 1012 ,
b) use o mtodo do momento exponencial para obter resolver o tem acima.
Compare os quatro resultados obtidos acima.
Vamos agora tomar um exemplo concreto para anlise. Sejam X1 , X2 , . . .
variveis aleatrias i.i.d. com distribuio Ber(1/2), donde
1
X1 ( s ) = (1 + e s ) e X1 ( x ) = sup{ xs log(1 + es ) + log(2)}. (3.79)
2 s 0
Um clculo simples nos mostra que, se x < 1, o mnimo acima atingido no

nico ponto smax = log( 1x x ). Portanto, podemos concluir do Teorema 3.7.1 que
P[ X1 + . . . + Xn > 1/2 + a] eX1 (smax )n

n o (3.80)
= exp n b log(b) + (1 b) log(1 b) + log(2)
78
Note que P[ X1 + + Xn = n] = 2n = e log(2)n = eX1 (1)n . Isso nos d

um forte indcio de que talvez nossas cotas superiores no estejam to longe
de ser precisas. Para confirmar essa hiptese, precisamos obter cotas inferiores
parecidas.
X 0 ( b )
log(4)
X ( b )
log(2)
log(4/3)
b b
0 1 0 1
Figura 3.1: Funes taxa X (b) de uma varivel X com distribuio Ber(1/2), e
X 0 (b) de uma varivel com distribuio Ber(3/4), para b (0, 1).
Antes de buscar cotas inferiores para as probabilidades de desvio, vamos

estabelecer algumas propriedades da funo X (b). Primeiramente, quando
podemos dizer que o supremo na definio de X atingido em algum smax ?
Certamente, esse nem sempre o caso, por exemplo se X = m quase certamente,
ento X (s) = esm e o supremo definindo X (b) no atingido se b 6= m.
Lema 3.7.2. Seja X uma varivel aleatria tal que X (s) < para todo s (, ).
Supondo a 0 tal que P[ X > m + a] > 0, ento existe smax 0 tal que

X (m + a) = (m + a)smax log X (smax ) . (3.81)
Demonstrao. Por hiptese, existe x > m + a tal que p = P[ X x ] > 0, donde

X (s) pes(m+ a) . Dessa forma, (m + a)s log X (s) (m + a x )s log( p),

que converge a menos infinito quando s diverge. Isso, junto com a continuidade
de X implica a existncia do smax desejado.
Lema 3.7.3. Seja X uma varivel aleatria tal que X (s) < para todo s (, ).
Ento o conjunto onde a funo X (s) finita um intervalo, na qual X convexa e
portanto contnua.
Demonstrao. Primeiramente, supomos que a < b so tais que X ( a) e X (b)

so finitas. Logo, para todo c ( a, b), temos que a funo linear cs menor ou
79
igual a as bs, da
X (c) = sup{cs log(X (s))} sup{( as bs) log(X (s))}

s 0 s 0
(3.82)
sup{ as log(X (s))} sup{bs log(X (s))} < .
s 0 s 0
Para mostrar que X convexa, observe que X ( x ) dada pelo supremo (para
s 0) das funes afins x 7 xs X (s). Como o supremo de funes convexas
tambm convexo, obtemos o enunciado do lemma.
Exerccio 3.7.3. Suponha que se X (s) finita para todo s (, ) e mostre que
a) na definio de X ( a), poderamos tomar o nfimo em todos s R (ao invz de

s 0) sem mudar o valor de X ( a),
b) a funo X (s) no negativa, semi-contnua inferior e convexa em seu domnio
c) X ( a) se anula somente em a = 0 e X crescente no seu domnio.
Buscaremos agora cotas inferiores para a probabilidade de obter um grande

desvio. Gostaramos que essas estimativas fossem o mais prximas possveis
das estimativas superiores obtidas acima. Certamente no podemos obter algo
como
P X1 + + Xn m + a n exp{X1 ( a)n}, (3.83)
pois seno isso nos daria uma igualdade o que impossvel, pois perdemos um
pouco de preciso ao utilizar a desigualdade de Markov na cota superior.
Contudo, gostaramos de entender se ao menos o expoente X1 ( a) na cota
superior tambm possui algum papel na cota inferior. Isso confirmado no
seguinte resultado.
Teorema 3.7.4 (Princpio de Grandes Desvios - cota inferior). Sejam X1 , X2 , . . .

variveis aleatrias i.i.d. com X1 (s) < , para todo s R. Ento, para todo a > 0,
1
lim inf log P X1 + + Xn m + a n X1 (m + a), (3.84)
n n
onde novamente m = E( X1 ) e X1 ( x ) definida como no Teorema 3.7.1.
Note que o resultado do teorema acima mais fraco que o que vemos
na equao (3.83), mas mostra que X1 ( a) realmente o expoente correto no
decaimento da probabilidade de grandes desvios.
Um corolrio dos Teoremas 3.7.1 e 3.7.4 o seguinte
Corolrio 3.7.5. Se X1 , X2 , . . . variveis aleatrias i.i.d. com X1 (s) < , para todo
s R, ento
1
lim log P X1 + + Xn m + a n = X1 (m + a). (3.85)
n n
80
A idia da prova transformar a distribuio de Xi , usando uma exponencial

como derivada de Radon-Nikodim. Essa nova distribuio possuir esperana
maior que m + a, de forma que se tomamos a mdia de variveis i.i.d. X10 , . . . , Xn0
distribudas dessa forma, obteremos algo que se concentra acima de m + a.
Finalmente, o preo pago para que as variveis Xi se comportem como as
Xi0 ser aproximadamente exp{X1 (m + a)}, como desejado para nossa cota
inferior.
Demonstrao. Primeiramente, consideraremos o caso P[ X1 m + a] = 1, que

se assemelha ao caso que analizamos acima (Ber(1/2) 1). Nesse caso, temos

P X1 + + Xn m + a n = P[ Xi = m + a, para todo i n]
= P [ X1 = m + a ] n .
Donde o limite acima igual a log( P[ X1 = m + a]). Mas por outro lado,
X1 (m + a) = inf log E(es(X1 ) ) (m + a)s = inf log E(es(X1 ma) )

s 0 s 0
s ( X1 m a )

lim inf log E(e ) = log P[ X1 = m + a] ,
s
pelo Teorema da Convergncia Dominada, demonstrando o teorema nesse caso

especial.
Suponhamos agora que P[ X1 > m + a] > 0, o que implica que para b >
m + a suficientemente prximo de m + a, temos P[ X1 > b] > 0. Observe que
basta mostrar que para todo b > a satisfazendo P[ X1 > b] > 0 e para todo
> 0, temos
1 hX + + X i
n
lim inf log P 1 (b , b + ) X1 (b), (3.86)
n n n
pois a funo X1 ( x ) convexa, portanto contnua.
Vamos definir uma nova distribuio com derivada de Radon-Nikodim
d 1 x
= e . (3.87)
dPX1 Z
Observamos primeiramente que o valor de ainda no foi escolhido. Alm

disso aps escolhido , teremos que calcular a constante de normalizao Z de
forma que seja uma probabilidade.
Escolheremos 0 como no Lema 3.7.2, isto , tal que X1 (b) = b

log X1 ( ) . Isso nos d imediatamente que Z = E[eX1 ] = X1 ( ) por
definio.
Por diferenciabilidade de X1 , o mximo deve ser assumido em um ponto
de derivada zero para a funo X1 , ou seja
0 ()
X E( XeX ) E( XeX )
Z
1
Prop. 3.6.2
b= = = = x(dx ). (3.88)
X1 ( ) E(e )
X Z
81
Isso implica que se uma varivel aleatria tem distribuio , sua esperana b.
possvel verificar que uma tal varivel aleatria X 0 satisfaz obrigatoriamente
X 0 (s) < para todo s 0, donde X 0 L p para todo p > 1.
Como prometido, consideramos variveis X10 , X20 , . . . i.i.d. com distribuio
. Pela lei fraca dos grandes nmeros, para qualquer > 0,
h X0 + + X0 i
1 n
lim P (b , b + ) = 1. (3.89)
n n
Finalmente vamos relacionar essa probabilidade probabilidade definida
em termos de Xi , na qual estamos interessados.
hX + + X i Z n
1 n O
P (b , b + ) = 1 ( X1 P)(dxi )
n xi ; n i n xi b <
i =1
n n
e i =1 x i
Z
= Zn ( X10 P)(dxi )
O
1
xi ; i n xi b <
n i =1
h X0 + + X0 i
n
Zn exp{(b + )n} P 1
(b , b + ) .
n
Tomando o logartmo, dividindo por n e tomando o liminf quando n vai a
infinito, recuperamos
1 hX + + X i
n
lim log P 1 (b , b + ) log( Z ) (b + )
n n n (3.90)
= log(X1 ()) (b + ) = X1 () .
Como isso vale para todo > 0, provamos (3.86) o que conclui a prova do
teorema.
Exerccio 3.7.4. Mostre o Teorema 3.7.4 no caso em que X1 (s) < , para todo
s (, ).
82
TPICO: FUNES CARACTERSTICAS
Tpico: Funes caractersticas 1

Esta seo trata da funo caracterstica de uma varivel aleatria, que pode
ser vista como um anlogo complexo da trasformada de Laplace, ou tambm
como a transformada de Fourier de uma distribuio em R. Vamos estudar suas
principais propriedades e demonstrar que a funo caractersticas determinam
unicamente a distribuio da varivel aleatria.
Definio 3.7.6. Dada uma varivel aleatria X, a funo caracterstica de X, X :
R C, definida por
X (t) = E(eitX ), t R. (3.91)
Vamos comear estudando as propriedades bsicas de X .
Exerccio 3.7.5. Prove que a funo X absolutamente contnua.
Exerccio 3.7.6. Suponha que E(| X |n ) < +. Prove que a funo X n vezes
(n)
diferencivel em t = 0 e que X (0) = in E( X n ).
Exerccio 3.7.7. Se X1 , X2 , . . . , Xn so independentes e a1 , a2 , . . . , an R, ento
a1 X1 +a2 X2 ++ an Xn (t) = X1 ( a1 t) X2 ( a2 t) Xn ( an t). (3.92)
Como vamos ver agora, a funo caracterstica nos permite recuperar a
distribuio de X:
Exerccio 3.7.8. Use a seguinte igualdade

Z T 1
se z > 0
sin(tz)
lim dz = 0 se z = 0 (3.93)
T + 0 t
1 se x < 0

para provar que se a < b so pontos de continuidade da funo de distribuio de X,

FX , ento
Z T itb
1 e eita
FX (b) FX ( a) = lim X (t) dt. (3.94)
T + 2 T it
Conclua que a distribuio de X determinada por X .
O prximo exerccio consiste em calcular algumas funes caractersticas.
Exerccio 3.7.9. Calcule as funes caractersticas das seguintes distribuies:
i. X Ber ( p);
ii. X Poisson();
iii. X N (0, 1). Dica: fixe z R, calcule E(ezX ) e use o Princpio da continuao
analtica.
1 Somos gratos a Rangel Baldasso por escrever essa seo.
83
3.8 O Teorema Central do Limite

At o presente momento, j sabemos por exemplo que mdias de variveis
aleatrias i.i.d. , suficientemente regulares convergem para sua esperana quase
certamente. Vamos fazer contudo um experimento para visualizar esse fen-
meno.
Nesse experimento, jogamos 100 moedas e contamos quantas caras obti-
vemos. Pelo que discutimos anteriormente, esperamos que esse nmero se
encontre por volta de 50, que a esperana desta soma de variveis i.i.d. .
Vamos portanto repetir esse experimento mil vezes e observar quantas vezes
obtemos algo prximo de 50, veja Figura 3.2.
300
250
200
150
100
50
10 20 30 40 50 60 70
Figura 3.2: Vrios ensaios de uma varivel Bin(100, 0.5), pra ser mais preciso
1000 ensaios. Cada barra representa o nmero de ensaios que caram no intervalo
determinado pela base da barra. Note que apesar dos experimentos se concentrarem
em torno da mdia, alguns se afastam um pouco (obviamente pois o experimento
aleatrio). Nessa seo estudaremos esses desvios espontneos, que so chamados
de flutuaoes.
Nosso objetivo nessa seo ser obter qual o tamanho tpico das flutuaes
em torno da mdia dessa soma de variveis aleatrias. Ao contrrio do que
fizemos ao estudar Grandes Desvios, ns agora estamos buscando flutuaes
menores, que acontecem espontaneamente e no com baixa probabilidade.
Note tambm que apesar de observarmos uma aleatoriedade na Figura 3.2,
tambm notamos uma certa regularidade que muitas vezes chamada de forma
de sino no histograma apresentado.
3.8.1 A distribuio normal

Comearemos estudando qual poderia ser uma possvel forma limite para o
histograma da Figura 3.2.
Como uma primeira tentativa, suponha que i=1 Zi possui uma certa distri-
buio (veremos posteriormente que isso somente pode acontecer em casos
triviais). Mas se esse fosse o caso, poderamos dividir a soma nos termos pares
e mpares X = i par Zi e Y = i mpar Zi . Nesse caso teramos X e Y indepen-
84
3.8. O TEOREMA CENTRAL DO LIMITE
dentes e tambm distribudos como (pois so dados por uma soma que tem a
mesma distribuio daquela que define ).
O seguinte lema mostra que isso somente pode acontecer na situao trivial
em que = 0 .
Lema 3.8.1. Sejam X e Y variveis aleatrias em L2 , i.i.d. com distribuio . Nesse
caso, se X + Y tambm tem distribuio , ento = 0 .
E( X + Y ) = E( X ) + E(Y ) = 2E( X ) e
(3.95)
Var( X + Y ) = Var( X ) + Var(Y ) = 2 Var( X ).
Mas como X + Y tem a mesma distribuio de X, ento E( X ) = 2E( X ) e
Var( X ) = 2 Var( X ), donde ambas so zero. Usando o mtodo dos segundo
momento, para todo a > 0,
Var( X )
P[| X | a] = 0, (3.96)
a2
terminando a prova de que X = 0 quase certamente.
A intuio dessa prova que quando somamos duas variveis no determi-
nsticas, a incerteza da soma (medida atravz da varincia) tende a aumentar.
Dessa forma no podemos obter a mesma distribuio aps a soma.
Mas existe uma maneira simples de tornar esse problema interessante nova-
mente. Digamos que X e Y pertencem a L2 e so i.i.d. Ento
X +Y X
Var = 2 Var = Var( X ). (3.97)
2 2
Ento podemos nos perguntar se
Questo 3.8.2. Existe alguma distribuio no trivial em L2 tal que, se X e Y so
independentes e distribudas de acordo com , temos
X+Y
d ? (3.98)
2
Pelo menos sabemos agora que a varincia no se altera atravz dessa operao.
Ou em outras palavras, queremos saber se existe algum ponto fixo para o
operador que toma uma distribuio em R e retorna
X + X
() = 1
2 . (3.99)
2
Para tentar responder a essa questo, vamos estudar mais a fundo qual
a distribuio da soma de duas variveis aleatrias independentes. Para isso,
considere a distribuio ( X, Y ) P do par, que coincide com , nos dando
hX +Y i
z = ( x, y); x+y z .

P (3.100)
2 2
85
1

Note tambm que a transformao linear ( x, y) 7 x + y, x y uma
2
rotao rgida em R2 , o que nos motiva a propor a pergunta mais simples.
Questo 3.8.3. Existe alguma distribuio no trivial em L2 tal que, se X e Y so
independentes e distribudas de acordo com , a distribuio do par ( X, Y ) invariante
por rotaes?
Ainda estamos numa busca no rigorosa de tal distribuio, ento vamos su-
por algumas outras propriedades, como por exemplo que seja absolutamente
contnua com respeito a Lebesgue, isto d = f ( x ) dx. Nesse caso, j vimos
que ( X, Y ) d f ( x ) f (y) dx dy e no fundo estamos procurando uma funo f tal
que
f ( x ) f (y) = h( x2 + y2 ), para todo x, y R e alguma h : R+ R+ . (3.101)
Para trasformar o produto f ( x ) f (y) em uma soma, definimos g = log f e
k = log h e o que gostaramos que acontecesse g( x ) + g(y) = k( x2 + y2 ). Como
ainda no estamos preocupados com unicidade de e apenas com a existncia,
j podemos encontrar nossa resposta para nossa pergunta, escolhendo uma
funo quadrtica, tal como g( x ) = x2 . 2
Mas temos ainda R que cuidar para que f ( x ) = exp x seja uma
densidade, ou seja f dx = 1. Para isso, precisamos que seja negativo e,
fixado , o valor de j estar determinado por normalizao. Tudo isso motiva
finalmente a seguinte definio.
Definio 3.8.4. Dizemos que X tem distibuio normal cannica, se
1
exp x2 /2 dx.

X d (3.102)
2
Alm disso, para m R e 0, dizemos que Y d N (m, 2 ) se Y tem a mesma
distribuio de X + m, onde X tem distribuio normal cannica N (0, 1). Note que
N (m, 0) = m . Muitas vezes chamamos essa distribuio de gaussiana, obviamente
em homenagem a Gauss.
Vamos rapidamente observar que a definio acima realmente descreve uma
distribuio de probabilidade, ou seja que a integral dessa densidade um. Para
tanto, vamos usar um truque conhecido, que consiste em retornar ao plano.
Obviamente,
Z 2 Z Z
exp x2 /2 dx = exp ( x2 + y2 )/2 dx dy

Z 2 Z (3.103)
2s = r2
= exp{r2 /2}r dr d = 2.
0 0
Donde a constante em (3.102) est de fato correta.
Exerccio 3.8.1. Mostre que a distribuio N (m, 2 ), tem densidade
1
exp ( x m)2 /(22 ) .

(3.104)
2
86
Exerccio 3.8.2. Mostre que Y d N (m, 2 ) tem esperana m e varincia 2 .
Para confirmar que de fato as distribuies normais se comportam bem com

respeito a somas independentes, apresentamos o seguinte resultado.
Proposio 3.8.5. Se X d N (m, 2 ) e Y d N (m, 2 ) so independentes, ento

X + Y tem distribuio N (m + m, 2 + 2 ). Em particular, um ponto fixo do
operador definido em (3.99).
Demonstrao. O caso em que ou se anulam trivial, portanto vamos consi-

derar que ambas so positivas. No difcil ver que podemos tambm supor
que m = m = 0. Podemos ento calcular
P[ X + Y a] = P[W + Z a], (3.105)
onde W e Z so independentes com distribuio N (0, 1). Assim, a probabilidade

acima pode ser escrita como

N (0, 1) N (0, 1) (w, z) R2 ; w + z a . (3.106)
Agora aplicaremos a rotao rgida A : R2 R2 dada por
1
A(w, z) = w + z, w z . (3.107)
2 + 2
Como sabemos que a densidade f de (W, Z ) invariante por A, ou seja

f A = f , ento podemos escrever (3.106) como

N (0, 1) N (0, 1) A (w, z) R2 ; w + z a
n 1 o
= N (0, 1) N (0, 1) (w, z); wa
2 + 2
p
= N (0, 1) (, a 2 + 2 = N (0, 2 + 2 ) (, a ,

Podemos obter um corolrio interessante sobre a soma de normais i.i.d.
Corolrio 3.8.6. Sejam X1 , X2 , . . . variveis i.i.d. com distribuio N (m, 2 ), ento
X1 + + Xn d N (nm, n2 ). (3.108)
Como consequncia
in=1 Xi nE( X1 )
d N (0, 1). (3.109)
n
87
Lembrando da Lei dos Grandes Nmeros, se dividimos a soma dos Xi

E( Xi ) por n, essa frao
vai a zero quase certamente. O que conclumos acima
que ao dividir por n obtemos um limite no trivial (nem zero, nem infinito) e
aleatrio (no determinstico).
Mais uma observao curiosa: nossa motivao para a definio da distri-
buio normal passou por invarincia por rotaes e podemos extender essa
invarincia para n normais independentes. Note que somar as coordenadas
cannicas equivalente a tomar o produdo escalar com o vetor (1, 1, . . . , 1), que
tem norma euclideana n.
Uma outra maneira de entender o corolrio acima que a normal um
ponto fixo da operao seguinte
a) tome uma distribuio L2 ,
b) considere X1 , . . . , Xn i.i.d. com distribuio e
c) retorne a distribuio de
X1 + + Xn nE( X1 )
. (3.110)
n
Na Questo 3.8.2, nos perguntamos quais seriam os outros possveis pontos

fixos de e isso ser considerado depois. Mas uma outra questo bastante
importante se o ponto fixo N (0, 1) atrator, ou seja se comeando com outras
distribuies poderamos nos aproximar de N (0, 1) medida que iteramos .
Isso estudado no Teorema Central do Limite (TCL) que provaremos posteri-
ormente. Mas antes, precisamos desenvolver uma boa definio de convergncia
para distribuies, ou em outras palavras definir uma topologia. Esse ser o
nosso prximo tpico.
3.8.2 Convergncia fraca

Em muitos casos importante termos bem definida uma noo de convergncia
de medidas de probabilidade. Supondo por exemplo no espao mensurvel
( E, A), tenhamos uma sequncia de probabilidades n e gostaramos de saber
se ela converge a uma determinada .
Um candidato natural para dara sentido a essa convergncia poderia se a
distncia de variao total entre duas medidas
dVT (, ) = sup |( A) ( A)|. (3.111)
AA
No difcil mostrar que a definio acima induz uma mtrica, mas ela possui
alguns problemas que descreveremos a seguir.
Exerccio 3.8.3. Mostre que dVT define uma mtrica.
Exerccio 3.8.4. Sejam e absolutamente contnuas com respeito a uma medida fixa
, tendo densidades e respectivamente. Encontre uma frmula para dVT (, ) em
termos das densidades. Essa frmula nos remete a qual distncia entre funes?
88
Digamos que o espao amostral E j seja provido de uma mtrica d e A seja

a -lgebra dos borelianos em E. Qualquer que seja a noo de convergncia
que iremos considerar, gostaramos de dizer que xn converge a x sempre que
xn x em E. Esse porm no o caso para dVT , pois se xn 6= x para todo n e
{ x } A, teramos
dVT (xn , x ) |xn ({ x }) x ({ x })| = |0 1| = 1. (3.112)
Aqueles que j viram o conceito de convergncia fraca acharo natural que a

convergncia
R Rde n para seja definida em termos da convergncia das integrais
f dn para f d. Porm, como mencionamos no exemplo das medidas xn
acima, gostaramos tambm de a convergncia respeitasse a topologia original
do espao E, o que torna natural o seguinte conceito.
Definio 3.8.7. Dizemos que uma sequncia de medidas de probabilidade n converge

fracamente (ou converge em distribuio) para uma probabilidade se
Z Z
lim f dn = f d, para toda f : E R contnua e limitada. (3.113)
n
Essa convergncia muitas vezes denotada por n .
Essa definio fica ainda mais natural para aqueles que conhecem o Teo-
rema da Representao de Riesz. Com isso em mente, podemos relacionar a
convergncia em distribuio com a convergncia fraca-? no espao de medidas
finitas.
Exerccio 3.8.5. Mostre que em (R, B(R)), temos que 1

n in=1 i/n U[0,1] .
Exerccio 3.8.6. Considere a funo do espao de medidas em ([0, 1], B([0, 1])) nele
mesmo, dada por:
()( A) = 21 (3A) + (3A 2) .

(3.114)
Identifique o limite em distribuio de (n) (0 ). Mostre que
a) a funo de distribuio acumulada associada ao limite contnua,
b) o limite no absolutamente contnuo com respeito medida de Lebesgue.
Exerccio 3.8.7. Sejam X1 , X2 , . . . i.i.d. distribuidas como Exp(1) e defina
Mn = max Xi . (3.115)
i =1,...,n
Mostre que Mn log(n) converge fracamente e identifique o limite. Observe que no

precisamos dividir Mn log(n) por nada para obter a convergncia.
Ns algumas vezes denotamos Xn X quando Xn e X so elementos

aleatrios de (, F , P) para descrever a convergncia fraca de suas respectivas
distribuies. Mais precisamente, Xn P X P.
89
3.8.3 Convergncia fraca em R

No caso especial em que E = R, temos vrios outras maneiras de caracterizar
convergncia em distribuio. A primeira dada pela seguinte
Proposio 3.8.8. Se g dn converge para g d para toda g C3 limitada e com
R R
as trs primeiras derivadas limitadas, ento n .
Demonstrao. Primeiramente, vamos ver que podemos nos concentrar em um
conjunto compacto da reta.
Para isso fixe um > 0 e tome M0 tal que [ M0 , M0 ] > 1 /3. Tomando

uma funo g satisfazendo as hipteses do teorema e tal que
1[ M0 , M0 ] g 1[ M0 1, M0 + 1], (3.116)
concluimos que
n [ M0 1, M0 + 1] 1 /2,

(3.117)
para todo n suficientemente grande. Se tomamos M M0 suficientemente
grande, podemos obter a cota acima para todo n (com M no lugar de M0 + 1 e
no lugar de /2).
Fixamos agora uma f : R R contnua e limitada. Sabemos que possvel
aproximar f por uma funo g C3 de suporte compacto, com k gk 2k f k e
| g f | /M uniformemente no intervalo [ M, M]. Essa g certamente satisfaz
as hipteses do teorema.
Portanto,
Z Z Z M Z M
f dn f d 2k f k + f dn f d

M M
Z M Z M
2k f k + 2M + g dn g d

M M M
Z Z
2k f k + 2 + g dn d.

Como o ltimo termo converge a zero e foi escolhido arbitrariamente, isso

conclui a prova da proposio.
90
3.8.4 O TCL para uma sequncia i.i.d.

Teorema 3.8.9 (Teorema Central do Limite). Considere em (, F , P), uma sequn-
cia X1 , X2 , . . . de variveis aleatrias i.i.d. em L3 . Nesse caso, se definimos m = E( X1 )
e 2 = Var( X1 ), temos
in=1 ( Xi m)
N (0, 1). (3.118)
n
Demonstrao. Primeiramente, observe que podemos supor que m = 0, pois de
qualquer forma iremos subtrair a mdia da distribuio na qual nos interessa-
mos. Uma outra observao importante que podemos supor = 1, pois no
caso geral de qualquer forma estamos somando Xi / no enunciado.
Como vimos na Proposio 3.8.8, basta mostrar a convergncia das integrais
de funes g C3 , que possuam todas as trs primeiras derivadas limitadas.
Considerando a funo
x + + x
1 n
n ( x1 , . . . , x n ) : = g , (3.119)
n
nos basta provar a convergncia das sequncias de nmeros reais

Z Z
lim n ( X1 , . . . , Xn ) dP = g(s)N (0, 1)(ds). (3.120)
n
Vale lembrar que no Corolrio 3.8.6 j estabelecemos algo mais forte para
variveis normais. Mais precisamente, suponha que extendemos nosso espao
de probabilidade para (0 , F 0 , P0 ), onde exista uma sequncia Y1 , Y2 , . . . de
variveis aleatrias i.i.d. com distribuio N (0, 1) independente de X1 , X2 , . . .
Ento, para todo n 1,
Z Z
n (Y1 , . . . , Yn ) dP0 = g(s)N (0, 1)(ds), (3.121)
o que tornaria o limite em (3.120) trivial para tais variveis. A nossa estratgia
ser aproximar n ( X1 , . . . , Xn ) por (Y1 , . . . , Yn ), e faremos isso trocando uma
varivel de cada vez.
Para entender o que acontece quando trocamos uma das variveis Xi por Yi ,
temos que expandir g em srie de potncias, isto , escrever
g(s) = g(s0 ) + g0 (s0 )(s s0 ) + g00 (so )(s s0 )2 /2 + rs0 (s s0 ), (3.122)
onde rs0 (h)/h3 limitada por M, uniformemente em h e s0 em consequncia

das nossas suposies sobre g.
Denotando zi = (y1 , . . . , yi1 , xi , . . . xn ), zio := (y1 , . . . , yn1 , 0, xn+1 , . . . , xn )
o
e si = y1 + + yn1 + xn+1 + . . . xn , temos
so x so x2 x
n (zi ) = n (zio ) + g0 i i + g00 i i
+ r sio i , (3.123)
n n n 2n
n
n
91
Ns propositalmente expandimos n at ordem dois, pois Xi e Yi possuem os

mesmos momentos de ordem um (m = 0) e dois (2 = 1).
Integrando os dois lados da igualdade acima com respeito a Zi P (de-
notamos como antes, Zi = (Y1 , . . . , Yi1 , Xi , . . . , Xn ) e Zio , Sio analogamente),
teremos
1
Z Z
n ( Zi ) dP0 = n ( Zio ) dP0 + v + ki , (3.124)
2n i
onde as quantidades v e k, se escrevem como
Z So Z X
vi = g i dP0
00
e ki = rSo /n i dP0 . (3.125)
n i n
Note que vi no depende de Xi e que
Z X 3 n3/2 X M
i 0
|ki | i
r dP 3/2 E(| Xi3 |). (3.126)

o
Si / n
n 3/2 3
Xi n n
As observaes acima so o ponto mais importante da prova de que essa

aproximao funciona e uma outra maneira de coloc-las a seguinte. Como
Xi e Yi possuem os dois primeiros momentos iguais, os dois primeiros termos
de Taylor coincidem aps a integrao (o primeiro se anula e o segundo vi
tanto para Xi quanto para Yi ). O resto de ordem muito pequena para influir
no limite.
De fato, se retiramos o termo Yi de Zi+1 , fazendo a mesma expanso que
para Xi , obtemos
1
Z Z
n ( Zi+1 ) dP0 = n ( Zio ) dP0 + v + k0i , (3.127)
2n i
com o termo de ordem superior k0i sendo definido exatamente como k i , mas com
Yi no lugar de Xi .
Estamos prontos agora para a computao final
Z Z
n ( X1 , . . . , Xn ) dP g(s)N (0, 1)(ds)

Z Z
= n ( Z0 ) dP0 n ( Zn ) dP0

n 1 Z Z n 1
n ( Zi ) dP0 n ( Zi+1 ) dP0 = |k i k0i |

i =0 i =0
M
n 3/2 E(| X1 |3 ) + E(|Y1 |3 ) ,

n
que claramente converge a zero, provando o teorema.
Corolrio 3.8.10. A N (0, 1) a nica distribuio que possui esperana zero,
varincia 1 e tal que se X, Y so i.i.d. com distribuio , ento ( X + Y )/ 2 tambm
possuem distribuio . Em outras palavras, N (0, 2 ), para 0, so os nicos
pontos fixos de em L3 .
92
Demonstrao. Usando a invarincia enunciada acima, temos que
X1 + + X2 k
d . (3.128)
2k
Mas pelo Teorema central do limite, a distribuio dessa combinao de Xi deve
convergir a N (0, 1), logo temos = N (0, 1).
Vamos terminar essa seo com uma aplicao do teorema acima.

Exerccio 3.8.8. Digamos que jogamos 100 moedas honestas e independentes, como
foi proposto no incio da seo, obtendo finalmente uma varivel aleatria Y d
Bin(100, 1/2). Usando o Teorema Central do Limite, estime P[Y 55] usando uma
aproximao por uma N (0, 1). Calcule numericamente o valor real desta probabilidade
e compare ambas as estimativas.
93
Tpico: O Teorema de Portmanteau

O prximo resultado bastante til para provar convergncia fraca, pois nos
fornece uma coleo de equivalncias muitas vezes mais fceis de verificar.
Teorema 3.8.11 (Teorema de Portmanteau). Sejam (n )n1 e medidas de proba-

bilidade em ( E, A). So equivalentes:
a) n ,
R R
a) f dn f d, para toda f unifmormemente contnua e limitada,
b) lim supn n ( F ) ( F ), para todo F E fechado,
b) lim infn n ( G ) ( G ), para todo F E aberto,
c) limn n ( A) = ( A), para todo A A com (A) = 0.
Para memorizar o teorema acima, conveniente lembrar dos dois exemplos:
i) se xn x com xn 6= x, F = { x } e G = B( x, ) \ { x } temos, para n

grande,
n ( F ) = ( G ) = 0 < 1 = ( F ) = n ( G ), (3.129)
ii) em (R, B(R)), seja 2n = n e 2n+1 = = 0 . Obviamente n no

converge fracamente a . Contudo, para todo A B(R),
lim inf n ( A) lim inf 2n ( A) = ( A) e

n n
(3.130)
lim sup n ( A) lim sup 2n ( A) = ( A).
n n
Prova do Teorema 3.8.11. Obviamente, ( a a0 ), pois a0 ) somente supe a con-

vergncia das integrais para funes f que sejam uniformemente contnuas,
portanto um requisito mais fraco que a).
Observamos tambm que (b b0 ). De fato, basta tomarmos complementos
e observar a mudana nos sinais das desigualdades.
Ento, para a prova do teorema, basta mostrar que ( a0 b), (b + b0 c) e
( c a ).
Comeamos com ( a0 b) e para tanto, consideramos F E fechado. Seja
> 0 e defina a funo f : E R dada por
n d( x, F ) o
f ( x ) = max 1 ,0 . (3.131)

Claramente, f uniformemente contnua e vale R 1F f
R 1B( F, ). Dessa de-
sigualdade, temos lim supn n ( F ) lim supn f dn = f d ( B( F, )).
Tomando agora o limite com 0, obtemos b) por continuidade da probabili-
dade .
94
TPICO: O TEOREMA DE PORTMANTEAU
Para mostrar (b + b0 c), seja A A tal que (A) = 0. Nesse caso,

sabemos que
lim sup n ( A) lim sup n ( A) ( A) = ( A)

n n
lim inf n ( A) lim inf n ( A),
n
o que mostra o limite em c).

Finalmente, resta mostrar (c a) e, para tanto, consideramos uma funo
f : E R contnua e limitada. Digamos, com k f k = M.
Sabemos que os conjuntos { f 1 ({ a})} aR so disjuntos, logo os conjuntos
1
f ({ a}) podem ter medida positiva apenas para uma coleo enumervel
de valores a R. Obtemos assim uma coleo finita b0 < b1 < < bk , tal que
b0 < M e bk > M, bi+1 bi e

(3.132)
f 1 ({bi }) = 0 para todo i k.
f (x)
Figura 3.3: Uma funo contnua e limitada f , os pontos bi e um conjunto Ai .
Iremos aproximar f por uma funo da forma f = i bi 1 Ai , onde os con-

juntos Ai = f 1 [bi , bi+1 ) so disjuntos. Obviamente f f f + , donde

Z Z Z Z
lim inf f dn lim inf f dn lim sup f dn lim inf f dn + .
Mas como f dn = i bi n ( Ai ), a prova estar concluida se mostrarmos que

R
n ( Ai ) ( Ai ) para todo i k. Isso segue de d), pois Ai f 1 ({bi , bi+1 }),

que tem medida zero.
Exerccio 3.8.9. Lembrando que em (R, B(R)), temos n1 in=1 i/n U[0,1] , use
o tem d) do Teorema 3.8.11 para dar uma caracterizao dos conjuntos Riemann-
mensurveis. Mais precisamente, encontre os A R tais que n1 in=1 i/n ( A) converge
para a medida de Lebesgue de A.
95
96
Captulo 4
Esperana condicional
4.1 Esperana condicional

Como j foi dito anteriormente, a estrutura de -lgebra tem um papel muito
importante em probabilidade. Durante o curso de Teoria da Medida, muitas
vezes o conceito de -lgebra parece uma tecnicalidade que simplesmente
dificulta nosso acesso ao contedo realmente interessante do curso. Em alguns
momentos, chegamos a desejar que tudo fosse mensurvel e no tivssemos
que nos preocupar com tais formalidades.
Contudo, no estudo que iniciaremos agora, nos restringiremos a -lgebras
menores de maneira proposital. Ficar claro em particular, que o estudo de
mensurabilidade no uma mera tecnicalidade, mas sim uma ferramenta im-
portante.
Esse interesse, vem da necessidade de representar situaes de informao
incompleta, onde podemos apenas observar uma parte da realidade. Isso
certamente de suma importncia em diversas aplicaes, desde a estatstica,
fsica e computao at a teoria de jogos. Vamos comear com um exemplo
simples.
Suponha que = R2 dotado da -lgebra de Borel e denotamos por X1 , X2
as coordenadas cannicas. Como podemos representar matematicamente a afir-
mao uma pessoa somente conhece o valor de X1 e no de X2 ? Digamos por
exemplo que essa pessoa dever tomar uma deciso (por exemplo escolher um
elemento de E) baseando-se apenas nessa informao incompleta. A maneira
que modelamos isso matemticamente dizendo que a deciso da pessoa deve
ser uma funo f : E mensurvel com respeito a ( X1 ).
Nossa primeira utilizao desse conceito ser feita agora ao introduzirmos a
noo de esperaa condicional, que generaliza o conceito de esperana. Relem-
97
CAPTULO 4. ESPERANA CONDICIONAL
brando o clculo (3.22), ns podemos pensar em E( X ) como uma boa maneira

de aproximar X por um nmero real. Isso por exemplo poderia ser til se no
temos nenhuma informao sobre o que ocorreu, mas ainda sim temos que
tentar adivinhar o valor de X. Mas vamos agora imaginar uma outra situao,
onde temos um pouco de informao sobre o que ocorreu.
Voltando ao exemplo em que = R2 , digamos que ns podemos observar
o valor de X1 , mas gostaramos de estimar o valor de X2 . De acordo com o
que discutimos acima, nossa estimativa agora no precisa mais ser apenas um
nmero real, podendo ser qualquer funo mensurvel com respeito a ( X1 ).
Vamos no que segue tornar esse discusso rigorosa, mas antes lembramos
um lema bsico de Teoria da Medida.
Lema 4.1.1. Se f , f 0 so funes mensurveis tais que

Z Z
f d = f 0 d, para todo A F 0 , (4.1)
A A
ento f = f 0 -quase certamente.
Demonstrao. Aplicando a hiptese para A = [ f > f 0 ], vemos que

Z
f f 0 d = 0, (4.2)
A
mas no conjunto A acima, o integrando positivo. Portanto, f = f 0 , -quase

certamente em A. Aplicando o mesmo raciocnio para [ f < f 0 ] obtemos que
f = f 0 quase certamente.
O lema acima nos diz que se soubermos integrar f em todos os eventos A,

ento podemos recuperar a funo f propriamente dita. O que aconteceria se
soubssemos integrar f apenas para eventos A em uma sub--lgebra? isso
que estudaremos partir de agora.
Definio 4.1.2. Seja uma varivel aleatria X L1 ( P) e uma sub--lgebra F 0

F . Dizemos que uma varivel aleatria Y a esperana condicional de X com respeito a
F 0 (ou a esperana condicional de X dada F 0 ) se
a) Y F 0 -mensurvel e
b) E( X1 A ) = E(Y1 A ) para todo A F 0 .
Nesse caso, escrevemos

Y = E( X |F 0 ). (4.3)
Observe que faz sentido escrever E Y |F 0 ( ), pois E( X |F 0 ) uma varivel

aleatria.
Interpretamos informalmente a definio acima como Y a melhor apro-
ximao F 0 -mensurvel de X. Ou Y a melhor aproximao que podermos
fazer de X se conhecemos apenas F 0 .
98
4.1. ESPERANA CONDICIONAL
Exemplo 4.1.1. Se F 0 = {, }, ento Y = E( X ) (uma varivel aleatria constante)

esperana condicional de X dado F 0 , pois
a) Y F 0 -mensurvel (por ser constante). Alm disso
b) E( X1 ) = 0 = E(Y1 ) e E( X1 ) = E( X ) = E(Y1 ).
Uma propriedade muito importante que segue da Definio 4.1.2 dada

pela seguinte
Proposio 4.1.3. Se Y satisfaz as a) e b) em Definio 4.1.2, ento Y L1 ( P).
Demonstrao. Tomamos A = [Y 0] e A0 = [Y < 0] que esto em F 0 e

estimamos
Z Z Z Z Z Z
|Y | dP = Y dP + Y dP = X dP + X dP | X | dP < (4.4)
A A0 A A0
O que mostra a proposio.
Alm caso trivial dado acima pelo Exemplo 4.1.1, quando podemos esperar
que existam esperanas condicionais?
Teorema 4.1.4. Dada X L1 ( P) e F 0 F uma -lgebra, ento existe a esperana

condicional E( X |F 0 ). Alm disso ela nica P-quase certamente.
Demonstrao. Vamos primeiro mostrar a unicidade quase certa. Para isso,

supomos que existam Y e Y 0 satisfazendo as condies da Definio 4.1.2 (logo
em L1 ). Iremos proceder como no Lema 4.1.1 acima, definindo A = [Y > Y 0 ],
donde conclumos que
E (Y Y 0 )1 A = E(Y1 A ) E(Y 0 1 A ) = 0.

(4.5)
Mas como Y > Y 0 em A, vemos que Y Y 0 quase certamtente. A prova da

unicidade pode ser completa trocando os papis de Y e Y 0 acima.
Vamos agora para a prova da existncia. Como X L1 ( P), podemos
introduzir
( A) = E( X1 A ), (4.6)
que define uma medida com sinal em (, F ), com variao total finita.
Caso o leitor no se sinta familiarizado com o conceito de medida com sinal,
poder decompor X em partes positiva e negativa e proceguir sem problemas.
Um passo importante da prova observar que tambm define uma medida
no espao (, F 0 ). Estamos portanto propositalmente restringindo nossa -
lgebra. Como P( A) = 0 implica que ( A) = 0, temos que P e podemos
aplicar o Teorema de Radon-Nikodim para obter uma derivada Y : R tal
que
a) Y F 0 -mensurvel e
R
b) ( A) = A Y dP.
99
Agora s observar que as afirmaes acima correspondem s condies da

Definio 4.1.2.
Observe que a condio de F 0 -mensurabilidade essencial para a unicidade.
De fato, X obviamente satisfaz a segunda condio da Definio 4.1.2, mas no
necessariamente a primeira.
Exerccio 4.1.2. Mostre que se X F 0 , ento E( X |F 0 ) = X quase certamente.
Exerccio 4.1.3. Seja P a probabilidade uniforme em {( x1 , x2 ) [0, 1]2 ; x1 x2 }.
Calcule E( X2 | X1 ).
4.2 Propriedades bsicas da esperana condicional

Nessa seo justificaremos, em certa medida, a nomenclatura esperana con-
dicional. Faremos isso mostrando que ela satisfaz vrias propriedades que j
conhecemos para a esperana tradicional.
Mas como podemos mostrar propriedades simples tais como a linearidade
da esperana condicional? Vamos comear com um exemplo
Proposio 4.2.1. Se X, X 0 L1 ( P), ento
E( X + X 0 |F 0 ) = E( X |F 0 ) + E( X 0 |F 0 ), P-quase certamente. (4.7)
Note que a igualdade acima uma igualdade entre variveis aleatrias.
Demonstrao. Sabemos que Y = E( X |F 0 ) + E( X 0 |F 0 ) uma varivel aleatria
bem definida. Mais do que isso, sabemos que ela uma candidata muito boa
a E( X + X 0 |F 0 ). Logo, por unicidade da esperana condicional, basta verificar
que Y satisfaz as condies da Definio 4.1.2 com respeito a X + X 0 . De fato
a) Y F 0 -mensurvel, por ser uma soma de duas variveis F 0 -mensurveis e
b) por linearidade da esperana (no da esperana condicional), temos
E(Y1 A ) = E E( X |F 0 )1 A + E( X 0 |F 0 )1 A

= E E( X |F 0 )1 A + E E( X 0 |F 0 )1 A

(4.8)
0 0

= E( X1 A ) + E( X 1 A ) = E ( X + X )1 A .
Isso termina a prova do proposio.

Exerccio 4.2.1. Dados X L1 e R, mostre que E(X |F 0 ) = E( X |F 0 ).
Uma outra propriedade bem simples da esperana condicional a monoto-
nicidade.
Lema 4.2.2. Se X X 0 em L1 ( P), ento
E( X |F 0 ) E( X 0 |F 0 ), P-quase certamente. (4.9)
Em particular, se X 0, ento E( X |F 0 ) 0 quase certamente.
100
4.2. PROPRIEDADES BSICAS DA ESPERANA CONDICIONAL
Demonstrao. Seja A = [ E( X 0 |F 0 ) E( X |F 0 ) > 0], que pertence a F 0 . Ento
0 E ( E( X 0 |F 0 ) E( X |F 0 ))1 A = E ( X 0 X )1 A 0,

(4.10)
o que implica que P( A) = 0.
Proposio 4.2.3. Se X, ZX L1 ( P), com Z F 0 , temos
E( XZ |F 0 ) = ZE( X |F 0 ) P-quase certamente. (4.11)
Em particular, E(X |F 0 ) = E( X |F 0 ), para todo R. Uma outra consequncia

interessante que ZE( X |F 0 ) estar automaticamente em L1 .
De maneira bastante informal, vamos dar uma intuio para o resultado

acima. Ao considerarmos a esperana condicional dada F 0 , ns j conhece-
mos as variveis aleatrias F 0 -mensurveis, portanto elas se comportam como
constantes.
Demonstrao. Mais uma vez, basta verificar que ZE( X |F 0 ) satisfaz as condies
que definem a esperana condicional. A primeira trivial, pois ZE( X |F 0 )
F 0 -mensurvel por ser um produto de funes F 0 -mensurveis.
Para provar a segunda condio, comeamos com o caso Z = 1B , implicando
que B F 0 , donde
E ZE( X |F 0 )1 A = E E( X |F 0 )1 A B = E( X1 A B ) = E( ZX1 A ).

Por linearidade, j sabemos que o resultado vale para funes Z simples e gos-
taramos de extender para quaisquer Z positivas via Teorema da Convergncia
Montona. Um problema aqui que mesmo que Z seja positiva, no sabemos
se E( X |F 0 ) tambm ser positiva.
Portanto, trataremos primeiramente do caso X 0. Para tais X, sabemos
pelo Lema 4.2.2 que E( X |F 0 ) 0 quase certamente. Da, podemos concluir que
ZE( X |F 0 ) = E( ZX |F 0 ) para toda Z 0, podemos aproxim-la por baixo por
Zn simples e, pelo Teorema da Convergncia Montona,
TCM
E ZE( X |F 0 ) = lim E Zn E( X |F 0 )

n (4.12)
TCM
= lim E E( Zn X |F 0 ) = E E( ZX |F 0 ) .

n
O que mostra o resultado sempre que X 0.

Alm disso, pela Proposio 4.1.3, sabemos que ZE( X |F 0 ) L1 . Podemos
finalmente concluir a prova por linearidade decompondo X = X+ X .
O prximo resultado tenta corroborar nossa afirmao que a esperana

condicional uma boa maneira de aproximar uma varivel aleatria.
Lema 4.2.4. Se X L2 ( P) e F 0 F , ento E( X |F 0 ) a projeo ortogonal de X no

espao vetorial HF 0 . Onde HF 0 = {Y L2 ; Y F 0 -mensurvel}.
101
Demonstrao. Temos que verificar que X E( X |F 0 ) ortogonal a HF 0 . Ou seja,

mostrar que para todo Z HF 0 , temos
E XZ E( X |F 0 ) Z = 0.

(4.13)
Note que no claro que essa esperana faz sentido, pois no sabemos que
ZE( X |F 0 ) L1 . Masisso segue facilmente
da Proposio
4.2.3.
Mas E E( X |F 0 ) Z = ZE E( X |F 0 )1 = ZE X1 , provando o resultado.
Vimos acima uma metodologia que se repete frequentemente. Digamos

que queremos provar que uma determinada expresso nos d a esperana
condicional de algo. Podemos comear provando esse resultado para funes
indicadoras, depois para funes simples usando a linearidade provada acima.
Porm ainda falta um ingrediente bastante importante para construir ou
verificar que determinadas variveis so esperanas condicionais.
Teorema 4.2.5 (Convergncia Montona para Esperanas Condicionais). Se as

variveis Xn satisfazem Xn X e esto todas em L1 ( P), ento
lim E( Xn |F 0 ) = E( X |F 0 ). (4.14)
n
Demonstrao do Teorema 4.2.5. Sabemos que E( Xn+1 |F 0 ) E( Xn |F 0 ), donde

conclumos que E( Xn |F 0 ) Y. Vamos demosntrar que Y = E( X |F 0 ).
a) Por ser um limite de funes F 0 mensurveis, Y F 0 -mensurvel.
b) Dado A F 0 , temos
TCM
E(Y1 A ) = E(lim E( Xn |F 0 )1 A ) = lim E E( Xn |F 0 )1 A

n n
(4.15)
TCM
= lim E( Xn 1 A ) = E( X1 A ).
n
O que termina a prova do teorema.
No que segue, muitas vezes escreveremos E( X | Z ) para representar a espe-

rana condicional E( X | ( Z )).
Exerccio 4.2.2. Sejam X1 e X2 as coordenadas cannicas em R E e definimos a

probabilidade dP = ( x, y) d1 d2 , onde : R E R+ uma densidade. D
sentido expresso abaixo e mostre que el E( X1 | X2 ):
R
x( x, X2 )1 (dx )
R . (4.16)
( x, X2 )1 (dx )
Exerccio 4.2.3. Seja E enumervel com uma -lgebra F 0 . Mostre que
F 0 = ( Ai , i 1), com Ai E disjuntos. (4.17)
102
Suponha que todos conjuntos Ai tem probabilidade positiva e mostre que
E( X |F 0 ) = E i ( X )1 Ai , (4.18)
i
onde Ei a esperana com respeito probabilidade P(| Ai ). Em breve extenderemos

esse tipo de resultado a espaos quaisquer.
Uma outra propriedade que a esperana condicional herda da integral a
Proposio 4.2.6 (Desigualdade de Jensen). Se : R R convexa, X, ( X )
L1 ( P), ento
E( X |F 0 ) E ( X )|F 0 .

(4.19)
Demonstrao. Se for uma funo linear, o resultado segue da linearidade que
j provamos para a esperana condicional. Alm disso, se temos uma funo
: R R linear e tal que ( x ) ( x ) para todo x R, ento
E ( X )|F 0 E ( X )|F 0 = E( X |F 0 ) .

(4.20)
Tomamos finalmente o supremo em todas as lineares com dos dois

lados da desigualdade acima, obtendo
E ( X )|F 0 sup E( X |F 0 ) = E( X |F 0 ) ,

(4.21)

linear

Corolrio 4.2.7. Se X L1 ( P), ento E( X |F 0 ) E | X |F 0 .

Uma outra propriedade interessante da esperana condicional diz respeito a

sua relao com independncia.
Proposio 4.2.8. Se X L1 ( P) independente de F 0 , ento
E( X |F 0 ) = E( X ) P-quase certamente. (4.22)
Demonstrao. Funes constantes so sempre mensurveis. Alm disso, se

A F 0 , ento
E( X1 A ) = E( X ) P( A) = E E( X )1 A , (4.23)
concluindo a prova.
Terminamos essa seo com o que chamamos da propriedade de torre da
esperana condicional.
Proposio 4.2.9. Se F 0 F 00 so ambas sub--lgebras de F , ento para X
L1 ( P), temos
E E( X |F 0 )F 00 = E( X |F 0 ) = E E( X |F 00 )F 0 ,

(4.24)
ou em outras palavras, independentementeda ordem, prevalece a condio na menor

-lgebra. Consequentemente, E E( X |F 0 ) = E( X ).
103
Demonstrao. Como E( X |F 0 ) F 00 -mensurvel, a Proposio 4.2.3, aplicada

com X = 1, mostra a primeira igualdade
em (4.24).
Falta mostrar que E E( X |F 00 )F 0 a esperana condicional de X dada
F 0 . Obviamente ela F 0 -mensurvel, e nos resta verificar a segunda condio.
Mas para todo A F 0 , lembrando que A tambm pertence a F 00 e usando a
definio de esperana condicional duas vezes,

E E E( X |F 00 )F 0 1 A = E E( X |F 00 )1 A = E( X1 A ).

(4.25)
O que termina a prova da proposio.

Lema 4.2.10. Se X : E um elemento aleatrio e f : R ( X )-mensurvel,
ento existe uma g : E R mensurvel tal que f = g X.
Demonstrao. Como de costume, consideramos primeiramente o caso f = 1 A
Claramente A tem que pertencer a ( X ), ou seja A = X 1 ( B) para algum B A.
Neste caso colocamos g = 1B , donde obtemos f ( ) = 1 A X ( )
B g X = 1.
No caso em que f simples, temos f = i ai ( gi X ) = (i ai gi ) X. Se f
positiva, ento ela um limite crescente de funes do tipo gn X, alm disso
podemos tomar gn crescentes, pois
f n+1 = f n+1 f n = ( gn+1 X ) ( gn X ) = ( gn gn+1 ) X. (4.26)
Finalmente usamos a linearidade da composio novamente para resolver o

caso geral f = f + f .
Se X : E elemento aleatrio, ento E(Y |( X )) obviamente ( X )-
mensurvel. Pelo lema anterior, E(Y | ( X )) = g X para alguma g : E R.
Nesse caso denotamos
E (Y | X = x ) = g ( x ) . (4.27)
Exerccio 4.2.4. Mostre que g nica X P-quase certamente.
Gostaramos de dizer que E(Y | X = x ) satisfaz alguma propriedade que
justifique essa notao. Apesar de que apenas na prxima seo poderemos jus-
tificar completamente essa nomenclatura, nesse momento j podemos mostrar
a seguinte relao
Z
E (Y ) = E E (Y | X ) = E E (Y | X = x ) X = E(Y | X = x )( X P)(dx ).
Em outras palavras, para integrar Y, basta conhecermos a distribuio de X e a

esperana condicional de Y, dado que X = x.
Exerccio 4.2.5. Sejam X e Y as coordenadas cannicas em E1 E2 , com a probabili-
dade P = 1 2 e seja f : E1 E2 R em L1 ( P). Mostre que
Z
E( f | X = x ) = f ( x, y)2 (dy). (4.28)
104
Exerccio 4.2.6. Se K um ncleo de transio entre E1 e R e P1 uma probabilidade

em E1 , mostre que em P1 ? K temos
Z
E ( X2 | X1 = x 1 ) = x2 K ( x1 , dx2 ). (4.29)
Um outro resultado bastante importante o seguinte
Teorema 4.2.11 (Teorema da Convergncia Dominada para Esperanas Condici-

onais). Se Xn X e existe Y L1 ( P) tal que | Xn | Y para todo n, ento
E( Xn |F ) E( X |F ) P-quase certamente. (4.30)
Demonstrao. Seja Zn = supkn | Xk X | o erro mximo partir de n. Clara-

mente, Zn 0 quase certamente e alm disso
| Zn | sup | Xk | + | X | 2Y, (4.31)

k 1
donde E( Zn ) E(0) = 0, quase certamente pelo Teorema da Convergncia

Dominada.
Obviamente E( Zn |F ) uma sequncia positiva e no-crescente, logo de-
cresce quase certamtente para algum Z. Da,

E( Xn |F ) E( X |F ) E( Zn |F ) Z 0. (4.32)

Mas E( Z ) E E( Zn |F ) = E( Zn ). Como E( Zn ) vai a zero pelo Teorema da
Convergncia Dominada, temos que Z = 0 quase certamente como gostaramos.
Exerccio 4.2.7. Sejam Z1 , Z2 , . . . variveis aleatrias i.i.d. em L1 ( P) com E( Z1 ) = 0.
a) Defina X0 = 0 e
n
Xn = Zi , para n 1. (4.33)
i =1
Mostre que E( Xn+1 | Z1 , . . . , Zn ) = Xn .
b) Supondo agora que Z1 L2 ( P) e E( Z ) = 0, defina Y0 = 0 e
n 2
Yn = Zi nE( Z12 ) (4.34)
i =1
Mostre que E(Yn+1 | Z1 , . . . , Zn ) = Yn .
105
4.3 Probabilidade Condicional Regular

J sabemos definir por exemplo E(1 A | X = x ). Gostaramos porm de garantir
que essa expresso definisse uma probabilidade em A, e chamaramos essa
probabilidade de P( A| X = x ). Mas certamente gostaramos que P(| X = x )
fosse uma funo -aditiva. Essa especulao parece promissora, por exemplo
se A e B so disjuntos,
P( A B|F 0 ) = E(1 A B |F 0 ) = E(1 A |F 0 ) + E(1B |F 0 ) = P( A|F 0 ) + P( B|F 0 ).
timo, mas ainda temos o seguinte problema.

Lembramos que a equao acima est bem definida apenas quase certamente.
Poderamos portanto garantir que para uma classe enumervel de conjuntos
A F , essa aditividade fosse satisfeita. Porm, a -lgebra F frequentemente
no enumervel, portanto no conseguimos a -aditividade plena. Isso pode ser
contornado se o espao for cannico, como afirma o nosso prximo resultado.
Ele nos ajudar bastante ao fazermos clculos usando condicionais, de ma-
neira semelhante Lei da Probabilidade Total. Esse o contedo do seguinte
resultado.
Teorema 4.3.1 (Teorema da Desintegrao). Sejam espaos mensurveis (, F ) e
( E, A), com E cannico. Se P uma probabilidade no espao produto ( E, F A)
e denotamos por P = P X1 a primeira distribuio marginal de P, ento existe um
ncleo de transio K : A [0, 1] satisfazendo
P = P ? K, (4.35)
Em particular,
Z
P( A B) = K (, B) P (d ) para todo A F , B A. (4.36)
A
Nesse caso denotamos K (, B) por P[ X2 B| X1 = ] (como de costume Xi denota a

i-sima coordenada cannica).
Demonstrao. Como de costume, basta resolver o caso ( E, A) = (R, B(R)). De
fato, se assumimos a validade do teorema para a reta, podemos usar a funo
bi-mensurvel : E B B(R) para concluir o caso geral.
Nos restringiremos agora ao espao ( R, F B(R), P). Para cada q Q,
q
definimos P : F [0, 1] por
q
P ( A) = P (, q] A .

(4.37)
q
Observando que P absolutamente contnua com respeito a P , podemos
definir q
dP
F (, q) = ( ). (4.38)
dP
Observamos as seguintes propriedades de F:
106
4.3. PROBABILIDADE CONDICIONAL REGULAR
q
a) para cada q Q, F (, q) [0, 1], P -quase certamente, pois P ( A)
P ( A) para todo A F ,
q
b) para q < q0 Q, F (, q) F (, q0 ), P -quase certamente, pois P ( A)
q0
P ( A) para todo A F e
c) F (, n) 1 (analogamente F (, n) 0) quando n tende a infinito,

P -quase certamente. Para ver isso, note que a sequncia de variveis
aleatrias F (, n) quase certamente montona no decrescente, logo
converge P -quase certamente. Sendo limitada, converge em L1 e como
sua integral em P converge para um, F (, n) 1, quase certamente
(analogamente para F (, n)).
Existe pois um conjunto 0 F com P (0 ) = 1 no qual as trs hipteses

acima so satisfeitas. Definimos F (, q) como sendo igual a F (, q) em 0 e
igual a F0 (q) (uma funo de distribuio fixa) caso contrrio (que claramente
ser mensurvel). Finalmente podemos definir F (, x ) = infqQ;q x F (, q),
que satisfaz para todo as hipteses do Teorema 2.3.4. Logo, existe para cada
uma medida K (, ) em (R, B(R)) satisfazendo K (, (, q]) = F (, q)
P -quase certamente.
Precisamos mostrar que K um ncleo, e para isso basta observar que
F (, q) so mensurveis e a famlia {(, q]; q Q} forma um -sistema que
gera B(R).
Finalmente, vamos verificar (4.36), notando que se A F e B = (, q],
Z Z
q
K (, B) P (d ) = F (, q) P (d ) = P ( A) = P( A B). (4.39)
A A
Como a classe B um -sistema gerando B(R) terminamos a prova.
Interpretamos P[ X2 B| X1 = ] da seguinte forma. Se algum tiver acesso

-lgebra ( X1 ), ou seja, essa pessoa capaz de observar o valor de , ela
pode no saber o valor de X2 , mas j pode atualizar sua distribuio para
P( X2 | X1 = ).
Uma das grandes vantagens de ter um ncleo de transio a determinar
uma distribuio conjunta, como foi feito acima, que podemos usar a verso
generalizada de Fubini. Antes, ns somente podiamos usar Fubini para espaos
construdos atravz de um ncleo.
Exerccio 4.3.1. Se = E1 E2 com E2 cannico dotado da probabilidade dP =

( x1 , x2 )1 2 (dx1 dx2 ), mostre que
R
( x1 , x2 )2 (dx2 )
P( X2 A| X1 = x1 ) = RA , (4.40)
( x1 , x2 )2 (dx2 )
( X1 P)-quase certamtente.
107
Exerccio 4.3.2. Sejam X1 e X2 as projees cannicas em um espao produto E,

com E cannico. Ento, se X1 e X2 so independentes com respeito a P, vale
P[ X2 B| X1 = ] = P[ X2 B] para ( X1 P)-quase todo . (4.41)
Exerccio 4.3.3. Considere em (R2 , B(R2 )) as projees cannicas X1 e X2 . Calcule,

em cada um dos exemplos abaixo, a probabilidade condicional regular P[ X1 | X2 =
x2 ], justificando sua resposta,
a) Quando P a medida uniforme em T = {( x, y) [0, 1]2 ; x y} (ou seja, a

medida de Lebesgue em R2 restrita a T e normalizada para ser uma probabilidade).
b) Quando P a medida US1 (uniforme em S1 ).
4.4 Princpio da substituio

O Teorema 4.3.1 bastante poderoso e nos permite definir e calcular diversas
probabilidades, como faremos seguir. Nessa seo construiremos nossa ltima
verso de probabilidade condicional regular que no se restringe a espaos
produtos e nos fornecer o que chamamos de Princpio da Substituio.
Teorema 4.4.1. Sejam (, F , P) e ( E, A) espaos mensurveis cannicos. Considere

tambm X : E um elemento aleatrio, ento existe um ncleo de transio K de E
a tal que
K ( X ( ), F ) = E[1F | X ], para todo F F . (4.42)
Tambm denotamos esse ncleo como K ( x, F ) = P[ F | X = x ], que nico no sentido
que se K 0 tambm satisfaz (4.42), ento K ( x, F ) = K 0 ( x, F ) para ( X P)-quase todo
x E.
Alm disso vale o que chamamos de Princpio da Substituio:
K ( x, [ X = x ]) = 1, X P-quase certamente. (4.43)
Que pode ser dito de maneira estranha: P[ X = x | X = x ] = 1, quase certamente.
Demonstrao. Defina o elemento aleatrio W : E , dado por W ( ) =

( X ( ), ), que percorre o grfico de X (representado horizontalmente). Observe
que a medida PW := W P possui marginais ( X1 PW ) = ( X P) e ( X2
PW ) = P. Como PW satisfaz as condies do Teorema 4.3.1, existe um ncleo
K : E F [0, 1] tal que para todo A A, F F ,
Z
PW ( A F ) = K ( x, F ) PX (dx ). (4.44)
A
Fixado F F , K ( X ( ), F ) obviamente ( X ) mensurvel, por ser uma com-

posio de uma funo mensurvel em E com X. Logo, para provar (4.42),
108
4.4. PRINCPIO DA SUBSTITUIO
[X = x]
E
x
Figura 4.1: O grfico do elemento aleatrio X representado horizontalmente. Os

pontos marcados no eixo vertical representam o conjunto [ X = x ] que possui
medida um segundo P[ | X = x ] de acordo com o Teorema 4.4.1
basta mostrar a segunda propriedade de esperanas condicionais. Se B ( X ),

podemos escrever B = [ X A] para algum A A, donde
Z
E K ( X, F )1B = E K ( X, F )1[ X A] = K ( x, F ) PX (dx )
A (4.45)
= PW ( A F ) = E[1X A 1F ] = E[1B 1F ],
concluindo a prova de (4.42).

Para mostrarmos o Princpio da Substituio, vamos usar o seguinte lema.
Lema 4.4.2. Se X : E um elemento aleatdio tomando valores em um espao
E cannico, ento seu grfico G = {(, X ( )); } mensurvel na -lgebra
produto F A.
Demonstrao. Primeiramente, consideramos o caso ( E, A) = (R, B(R)). Neste
caso, vemos que
[ X j/2n , ( j + 1)/2n ] j/2n , ( j + 1l )/2n ,

\ [
G= (4.46)
n 1 j Z
que mensurvel.
Caso E seja outro espao cannico qualquer, existe : E B B(R)
bi-mensurvel e G = 1 ( G X ), onde G X o grfico de X e (, x ) =
(, ( x )). Logo G tambm mensurvel nesse caso.
Retornando prova de (4.43), j sabemos que G 0 = {( X ( ), ); }
mensurvel. Alm disso, por definio PW ( G 0 ) = P[( X ( ), ) G 0 ] = P() =
1, ou seja a medida PW tem suporte em G 0 .
109
Logo podemos escrever

Z Z
1 = PW ( G 0 ) = 1G0 ( x, )K ( x, d )( X P)(dx )
Z (4.47)
= K ( x, [ X = x ])( X P)(dx ).
Mas como o integrado acima pertence a [0, 1], essa integral s pode ser um se
K ( x, [ X = x ]) = 1, ( X P)-quase certamente, como desejado.
Exerccio 4.4.1. Sejam X : E e Y : E0 elementos aleatrios com E
cannico. Ento existe um ncleo de transio K entre E e E0 tal que
K ( X ( ), B) = E[1Y B | X ], para todo B A0 . (4.48)
Poderamos chamar esse ncleo de K ( x, B) = P[Y B| X = x ].
Exerccio 4.4.2. Mostre que se K ( x, F ) = P[ F | X = x ], ento
Z
f ( 0 )K ( X ( ), d 0 ) = E( f | X )( ), para toda f F . (4.49)
Exerccio 4.4.3. Se Y varivel aleatria e X : E um elemento aleatrio

cannico, mostre que
Z
E (Y | X ) = yP(Y dy| X = ) X, P-q.c. (4.50)
Vamos agora mostrar uma aplicao do que foi feito acima, tentando justifi-
car o nome Princpio da Substituio.
Lema 4.4.3. Se X, Y so variveis aleatrias independentes, ento a funo de distri-
buio acumulada F de X + Y dada por
Z
F (z) = P[ X + Y z] = FY (z x )( X P)(dx ), (4.51)

onde FY (y) = P[Y y].

Esse lema pode ser visto como uma generalizao do Exerccio 2.5.15 para o
caso no absolutamente contnuo. Vale a pena tentar diferenciar (no rigorosa-
mente) a equao acima em z.
Demonstrao. Vamos calcular

P [ X + Y z ] = E E ( 1 [ X +Y z ] | X )

= E E ( 1 [ X +Y z ] | X )

= E P[ X + Y z| X = ) X
(4.52)

= E P[ X + Y z, X = x | X = ) X

= E P[Y z x | X = ] X ,
110
4.4. PRINCPIO DA SUBSTITUIO
onde P[Y + X z| X = ] representa a funo x 7 P[Y + X z| X = x ].

Agora vamos usar a hiptese que X e Y so independentes. Isso equivale a
dizer que a distribuio conjunta desse par igual a PX PY e pela unicidade
da probabilidade condicional regular temos que P[Y F | X = x ] = P[Y F ],
( X P)-quase certamente, veja Exerccio 4.3.2. Portanto,
Z
P[ X + Y z] = E P[Y z ] X = FY (z x )( X P)(dx ), (4.53)

terminando a prova do lema.

Exerccio 4.4.4. Considere as medidas
1 + 1
a = , e b = N (0, 1). (4.54)
2
e K : R B(R) [0, 1] dada por
(
a ( A x ), se x < 0,
K ( x, A) = (4.55)
b ( A x ), se x 0,
Mostre que
a) K define um ncleo de transio entre R em R.
b) Se X1 , X2 , . . . for uma cadeia de Markov em R com ncleo de transio K, ento

calcule
i) E( Xi ), para todo i 1 e
ii) Var( Xi ), para todo i 1.
iii) Mostre que
in=1 Xi
N (0, 1). (4.56)
n
111
Tpico: Processos de Poisson em R

Nessa seo aplicaremos o conceito de Probabilidade Condicional Regular e do
Princpio da Substituio para estudarmos um importante processo de chegadas
chamado Processo de Poisson.
O Tenente Boavista est encarregado de vigiar o Sargento Pimenta, que
frequentemente dorme durante sua viglia. Para isso, Boavista tem que decidir
os momentos t1 , t2 , R que ele ir verificar se Pimenta est cochilando.
Uma primeira estratgia poderia ser tomar intervalos igualmente espaados,
t1 = 1, . . . , tk = k, mas o Sargento certamente iria dormir nos intevalos (k +
, k + 1 ) sem se preocupar.
Dado esse problema, o Tenente decide escolher tempos aleatrios T1 , T2 , . . .
Mas importante lembrar que no so todas as distribuies que funcionaro
bem, por exemplo se Tk Tk1 a quase certamente o Sargento ir se aproveitar
desse intervalinho.
A primeira simplificao que o Tenente imagina para esse problema a
seguinte: dado que houve uma vistoria no instante tk , ento o que acontecer
partir da ser o mesmo processo com o qual ele comeou. Isso pode ser
traduzido de maneira rigorosa como

P ( Tk+1 tk , Tk+2 tk , . . . ) A| Tk = tk = P ( T1 , T2 , . . . ) A , (4.57)
Tk P-quase certamente. No iremos entrar muito em detalhes sobre qual

essa esperana condicional, pois no momento ainda estamos trabalhando
heuristicamente, mas j podemos dizer que:

P T1 A1 , T2 T1 A2 = E 1T1 A1 P[ T2 T1 A2 | T1 = t1 ] T1
(4.57)
= E 1T1 A1 P[ T1 A2 ] = P[ T1 A1 ] P[ T1 A2 ].
(4.58)
Procedendo de maneira anloga, podemos concluir que ( T1 , T2 T1 , T3 T2 , . . . )

so uma coleo i.i.d. . Agora o Tenente Boavista somente precisa escolher a
distribuio de T1 .
Para essa escolha, ele sabe que se ele no chegar em tempo t, ento o Sargento
Pimenta sabe que sua prxima chegada ter distribuio P[ T1 t A| T1 > t].
Como o Tenente Boavista gostaria que essa essa informao fosse intil para o
Sargento Pimenta, ele escolher
P[ T1 t A| T1 > t] = P[ T1 A]. (4.59)
E sabemos que as distribuies Exp(), para > 0 satisfazem isso, portanto j

temos um candidato ao nosso processo de vistorias, mas antes vamos introduzir
algumas notaes.
J podemos perceber por (4.58) que mais importante que os tempos Tk , sero
os intervalos entre visitas Xk = Tk Tk1 .
112
TPICO: PROCESSOS DE POISSON EM R
Seja D [0, ) o espao de todas as funes cdlg em N, ou seja

D [0, ) = f : R+ N : f contnua direita e com limite esquerda .

Definiremos : RN D [0, ) da seguinte forma: dados ( x1 , x2 , . . . ) RN ,

seja ( x1 , . . . ) = N, tal que

n
Nt = max{n; xi t}, (4.60)
i =1
que conta quantas visitas ocorreram antes de t, veja Figura 4.2.
t1 t2 t3 t4 t5 t6 t7
Figura 4.2: A funo Nt definindo o nmero de chegadas do Processo de pontos de

Poisson. Note que N cdlg.
Poderamos nosperguntar qual a -lgebra que estamos considerando

no espao D [0, ) , essa uma interessante questo que deve ser abordada
em estudos mais profundos desse espao. Mas por enquanto ser suficiente
considerarmos a -lgebra induzida pelo mapa (a maior que ainda o deixa
mensurvel).
Estamos prontos agora pra definir o nosso processo.
Definio 4.4.4. Fixado > 0, definimos um Processo de Poisson em R com pa-
rmetro como a lei P em D [0, ) , dada por Exp()N . Ou em outras

palavras, o processo de contagem de chegadas Nt , no qual os intervalos entre chegadas

so independentes e distribudos como Exp().
Lembramos que como de costume definimos X1 , X2 , . . . como sendo as pro-
jees cannicas em RN onde definimos Exp()N . Como esses representam
os intervalos entre chegadas, definimos tambm
k
Tk = Xi , para k 1. (4.61)
i =1
113
Podemos agora enunciar o primeiro lema, que nos fornece a distribuio do

nmero de chegadas em um dado tempo t 0.
Lema 4.4.5. Se > 0 e t 0, ento Nt d Poisson(t) sob P .
Demonstrao. Vamos primeiramente ver que
P [ Nt = 0] = P [ X1 > t] = et , (4.62)
que coincide com o caso poissoniano.

Para verificar o caso arbitrrio [ Nt = k], utilizaremos induo e os resultados
de esperana condicional regular que vimos anteriormente. Primeiro, observe
que se x1 > s, ento
( x1 , x2 , . . . )(r s) = ( x1 s, x2 , . . . )(r ). (4.63)
Logo,
P [ Nt = k] = P [hX1 t, ( X2 , X3 , . . . )(t X1 ) = k 1] i
= E 1X1 t P [( X2 , X3 , . . . )(t X1 ) = k 1| X1 ]
h i
Subst.
= E 1X1 t P [( X2 , X3 , . . . )(t x1 ) = k 1| X1 = x1 ] X1
h i
induc.
= E 1X1 t Poisson((t x1 ))({k 1}) X1

h ((t X1 ))k1 e(tX1 ) i

= E 1 X1 t
( k 1) !
((t x1 ))k1 e(t x1 ) x1 k et tk
Z t
= e dx1 = ,
0 ( k 1) ! ( k 1) ! k
como queramos demonstrar.
114
TPICO: PROCESSOS DE POISSON EM R
Um outro resultado importante sobre esses processos se relaciona ao fato

de reiniciar o sistema em tempo t > 0. Isso feito com o seguinte mapa
t : D [0, ) D [0, ) , que leva N em
t ( N )(s) = Ns+t Nt . (4.64)
Exerccio 4.4.5. Mostre que o mapa t mensurvel.

Lema 4.4.6. Se , t > 0, k Z+ e A mensurvel, ento
P [ Nt = k, t N A] = P [ Nt = k]P [t N A]. (4.65)
115
116
Captulo 5
Solues de exerccios
Soluo de 3.3.3 Primeiramente, vamos ver qual a distribuio de R0 . Vamos

escrever R0 = E0 + D0 , onde E0 o nmero de casas acessveis esquerda e
D0 direita. Note que E0 e D0 so independentes e identicamente distribudas,
com
P[ D0 = l ] = P[ Xl = 1, Xi = 0 para i = 0, . . . , l 1] = p(1 p)l . (5.1)
Podemos agora calcular
k k
P [ R0 = k ] = P[ D0 = l, E0 = k l ] = p2 (1 p)k = p2 k(1 p)k . (5.2)
l =0 l =0
Alm disso,

2(1 p )
E( R0 ) = 2E( D0 ) = lP[ D0 = l ] = 2p l (1 p)l = p
=: m. (5.3)
l =0 l =0
O que resolve o primeiro tem.

O grande problema do segundo tem que as variveis Ri no so inde-
pendentes, veja por exemplo que P[ R0 = 0, R1 = 2, R2 = 0] = 0. Nesse caso,
o mtodo do segundo momento deve ser feito com ateno. Chamando de
Sn = in=1 Ri , temos
h 1 i Var(Sn )
P Sn E ( R0 ) > a , (5.4)

n a2 n2
117
CAPTULO 5. SOLUES DE EXERCCIOS
mas a varincia da soma no se torna a soma das varincias. De fato

n 2 n n
( Ri E( Ri )) E

Var(Sn ) = E = Ri E ( Ri ) R j E( R j )
i =1 i =1 j =1
n n n 1
= Cov( Ri , R j ) = nVar( R0 ) + 2 (n k)Cov( R0 , Rk ).
i =1 j =1 k =1
(5.5)
Aqui j temos metade da estimativa resolvida, mas ainda falta obter uma esti-
mativa explcita.
Ento precisamos estimar superiormente Cov( Ri , R j ) = Cov( R0 , R j1 ). Po-
demos calcular essa quantidade explicitamente, mas vamos evitar contas chatas
fazendo uma estimativa do tipo
Cov( R0 , Rk ) c exp{c0 k}, para todo k 1. (5.6)
O que nos daria que
n 1
Var(Sn ) nVar( R0 ) + 2 (n k)c exp{c0 k} c00 n. (5.7)
k =1
Donde a probabilidade que queramos estimar no mximo c/a2 n, como no

caso independente.
Para obter a prometida cota para a covarincia, observe que podemos truncar
D0 e Ek para obter independncia. Definindo
R0 = E0 + ( D0 bk/2c) e Rk = Dk + ( Ek bk/2c), (5.8)
temos que R0 e Rk so independentes (pois dependem de elos disjuntos). Da
Cov( R0 , Rk ) = E( R0 Rk ) m2
= E( R0 Rk ) + E( R0 Rk 1[ R0 6= R0 ] [ Rk 6= Rk ]) m2
E( R0 )2 m2 + E ( E0 + D0 )( Ek + Dk )1[ R0 6= R0 ] [ Rk 6= Rk ]

E ( E0 + k + Dk )2 1[ R0 6= R0 ] [ Rk 6= Rk ]

= E ( E0 + k + Dk )2 P [ R0 6= R0 ] [ Rk 6= Rk ]

2E( E02 ) + k2 + 2kE( E0 ) + E( E0 )2 2 P[ R0 6= R0 ]

ck2 (1 p)bk/2c c exp{c0 k}.

(5.9)
Finalizando a cota para a covarincia.
118
Referncias Bibliogrficas
[BR06] B. Bollobs and O. Riordan, Percolation, Cambridge University Press,

2006.
[Gri99] Geoffrey Grimmett, Percolation, second ed., Grundlehren der Mathema-

tischen Wissenschaften [Fundamental Principles of Mathematical Scien-
ces], vol. 321, Springer-Verlag, Berlin, 1999. MR 1707339 (2001a:60114)
119
ndice Remissivo
[ satisfaz Q], 3 elemento aleatrio, 8

espao
anel de conjuntos, 27 mensurvel, 2
espao
bi-mensurvel, 44 amostral, 2
cannico, 44
Cadia de Markov, 51 polons, 46
cdlg, 16 esperana, 59
condio de compatibilidade, 29 condicional, 98
conjunto aditividade, 100
livre de somas, 13 desigualdade de Jensen, 103
continuidade no vazio, 27 monotonicidade, 100
convergncia T.C.D., 105
fraca, 89 T.C.M., 102
coordenadas cannicas, 28 torre, 103
evento, 1, 2
densidade, 15
Desigualdade de Markov, 62 flutuaes, 84
distribuio, 9 funo
binomial, 11 geradora de momentos, 75
conjunta, 35 taxa, 78
de Bernoulli, 11 funo de distribuio, 15
de Poisson, 25 FX , 16
exponencial, 15
geomtrica, 12, 37 incluso e excluso, 4
marginal, 29 independncia
normal, 86 de elementos, 20
uniforme, 15 de eventos, 18, 19
dP = d, 15 de -lgebras, 19
120
NDICE REMISSIVO
-sistema, 6 varivel aleatria, 8

Lei integrvel, 59
{0, 1} de Kolmogorov, 73
dos Pequenos Nmeros, 25 X d , 9
Forte dos Grandes Nmeros, 70 X d Y, 9
Fraca dos Grandes Nmeros, 66
Mtodo Probabilstico, 13
momento
primeiro, 63
segundo, 68
k1 2 k, 22
ncleo de transio, 39
Paradoxo de Bertrand, 10
passeio aleatrio simples, 52
-sistema, 6
Princpio
da Substituio, 108, 112
de Grandes Desvios, 77
Princpio de Grandes Desvios, 80
probabilidade, 3
condicional, 35
Processo de Poisson, 112
sequncias
intercambiveis, 55
-lgebra, 2
caudal, 73
de borel, 2
gerada por G , 2
trivial, 73
Teorema
Central do Limite, 91
da Desintegrao, 106
da Extenso de Caratheodory, 27
da Extenso, 29, 44
de Dynkin, 6
de Fubini para Ncleos, 41
de Portmanteau, 94
trasformada
de Laplace, 75
variao total, 22
varincia, 64
121

Augusto Teixeira - Notas de Aula Probabilidade I

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Augusto Teixeira - Notas de Aula Probabilidade I

Hochgeladen von

Copyright:

Verfügbare Formate

Notas de aula: Probabilidade I

Esse trabalho licenciado nos termos da licena Creative Commons Atribuio-

Tambm gostaramos de agradecer

Roberto Imbuzeiro de Oliveira

por diversas discusses, sugestes e correes.

2 Construo de espaos de probabilidade 11

2.9 Ncleos de transio . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Somas de variveis independentes 59

5 Solues de exerccios 117

Referncias Bibliogrficas 119

ndice Remissivo 120

A probabilidade moderna se baseia fortemente na Teoria da Medida e supomos

1.1 Espaos mensurveis

Exemplo 1.1.1. Possveis exemplos de espao amostral

Os exemplos acima poderiam ser usados em modelar por exemplo: o resul-

Definio 1.1.1. Dizemos que F P () uma -lgebra se

Nesse caso, dizemos que (, F ) um espao mensurvel e os elementos

Exemplo 1.1.2. Tpicos exemplos de -lgebra correspondentes aos espaos amostrais

c) F3 = B(C [0, 1]).

1.2 Espaos de probabilidade

c) P3 = 0 , que atribui o valor um se o evento contm a funo identicamente nula

Proposio 1.2.2. Valem as afirmativas seguintes

b) A cota da unio: para I finito o enumervel

c) O que chamamos de princpio da incluso e excluso

Demonstrao. a) Como A ( B \ A) = , ento

P( A ( B \ A)) = P( A) + P( B \ A). (1.4)

Para tanto, observe que para todo ,

Logo, expandindo o produto acima obtemos

que equivale a (1.5).

Exerccio 1.2.3. Mostre que

Exerccio 1.2.4. Seja n 1 um nmero inteiro e considere = {0, 1}n , o hipercubo

Demonstrao. a) Observe que

que so disjuntos. Logo

O que termina a prova do lemma.

Definio 1.3.1. Dizemos que uma classe A P () um -sistema se for fechado

Definio 1.3.2. Dizemos que A P () um -sistema, se

b) Sempre que A A temos Ac A.

c) Para A1 , A2 , A disjuntos dois a dois, temos i Ai A.

Exerccio 1.3.1. D um exemplo de -sistema que no seja uma -lbebra.

Definimos para A P ( W ), o menor -sistema contendo A, ou seja

fcil ver que (A) sempre um -sistema.

Teorema 1.3.3 (Dynkin). Se A um -sistema, ento (A) = (A).

Note pelo Exerccio 1.3.1 que a hiptese de que A um -sistema necessria

Demonstrao. Obviamente, basta mostrar que (A) fechado por unies no

(A) um -sistema. (1.13)

b) Se B B e A A, ento Bc A = A \ ( B A) = ( Ac ( B A))c . Mas

1.3.1 Igualdade de probabilidades

Demonstrao. Obviamente as caixas do tipo A1 A2 formam um -sistema

P1 ( A) = P2 ( A) = 1/2 = P1 ( B) = P2 ( B), (1.21)

1.4 Elementos aleatrios

1.4.1 Distribuio de elementos aleatrios

no espao mensurvel ( E, A).

Fica como exerccio verificar que X P de fato uma probabilidade em E.

a) Sejam (, F , P) e (0 , F 0 , P0 ) dois espaos de probabilidade e X et Y dois

Tpico: O paradoxo de Bertrand

a) Escolher as duas extremidades da corda uniformemente no crculo.

No caso a), umavez que uma extremidade fixada, o comprimento da corda

b) Calcule a lei de probabilidade do comprimento da corda em cada caso.

1 Somos gratos a Hubert Lacoin por sugerir e redigir esse tpico.

Construo de espaos de probabilidade

Nessa seo descreveremos diversas maneiras diferentes de construir um espao

2.1 Caso enumervel

c) Dado p (0, 1], em = {0, 1, . . . } definimos a medida Geo( p) (geomtrica)