Introdução À Probabilidade

Introduo Probabilidade
Notas de Aula
Leonardo T. Rolla
8 de agosto de 2017

c 20122017 Leonardo T. Rolla.
A qualquer pessoa que receba uma cpia deste trabalho,

concedida licena para:
X Visualizar este trabalho em dispositivo eletrnico.
X Imprimir ou fotocopiar este trabalho.
X Distribuir a terceiros uma cpia deste trabalho, desde
que sem modificaes e em sua integralidade, com 195
pginas, incluindo a capa e esta nota.
Disponvel para download gratuito em .

http://mate.dm.uba.ar/~leorolla/
8 de agosto de 2017.
Prefcio
Estas notas foram produzidas a partir de notas de aula das disciplinas Proba-
bilidade, do mestrado em Cincias Atuariais da PUC-Rio, ministrada em 2006,
Introduo Probabilidade, ministrada em 2012 e 2013 no IMPA, e Teoria da
Probabilidade, ministrada em 2017 na NYU-Shanghai.
Para seguir estas notas no necessrio qualquer conhecimento prvio em Proba-
bilidade. Os pr-requisitos so clculo de derivadas e integrais em Rd , limites de
sequncias, convergncia de sries, e limites laterais de funes. Para seguir as de-
monstraes mais avanadas, o leitor deve estar familiarizado com as propriedades
elementares de lim sup e lim inf, polinmios de Taylor e supremo de conjuntos.
Descrio e Interdependncia dos Captulos

A primeira parte destas notas consiste de 4 captulos que devem ser estudados em
sequncia, antes de passar para os captulos seguintes. No Captulo 1 introduzimos
os espaos de probabilidade, probabilidade condicional e independncia de eventos.
Os Captulos 2 e 3 estudam as variveis aleatrias e vetores aleatrios, com nfase
nos casos discreto e absolutamente contnuo. No Captulo 4 estudada a esperana
matemtica, suas propriedades, momentos, varincia e algumas desigualdades.
A segunda parte contm uma escolha de assuntos mais comumente abordados em
um curso introdutrio de Probabilidade. O Captulo 5 trata do lema de Borel-
Cantelli e da convergncia de variveis aleatrias. Os Captulos 6 e 7 apresentam a
Lei dos Grandes Nmeros e o Teorema Central do Limite. O Captulo 8 introduz a
funo geradora de momentos e a funo caracterstica, incluindo convergncia em
distribuio. No Captulo 9 estudamos a esperana condicional dada uma partio e
a esperana condicional regular. Os captulos desta segunda parte so basicamente
5
6 PREFCIO
independentes entre si, exceto que os Captulos 6, 7 e 8 que dependem em maior

ou menor medida do Captulo 5.
Na terceira parte estudamos tpicos menos cannicos para um curso introdutrio.
No Captulo 10 estudamos teoremas de convergncia da esperana, no Captulo 11
estudamos passeios aleatrios na rede hipercbica, e finalmente no Captulo 12 es-
tuamos o Princpio dos Grandes Desvios. Os captulos da terceira parte pressupem
que o leitor passou pelos Captulos 5, 6 e 7.
Rigor Matemtico
A primeira parte auto-contida e matematicamente rigorosa, inclusive na constru-

o da Esperana Matemtica como supremo sobre funes simples, sua frmula
para os casos discreto e contnuo, e suas propriedades fundamentais.
H uma omisso importante: sem demonstrar, assumimos implicitamente a exis-
tncia de variveis aleatrias contnuas, ou de uma sequncia infinita de variveis
aleatrias com determinada distribuio conjunta.
Uma omisso secundria o significado de integral. As variveis aleatrias
absolutamente contnuas so definidas e estudadas em termos de uma integral,
sem discutir o que significa a integral em si. Em todos os exemplos que vamos
considerar, a integral que conhecemos do Clculo suficiente.
Na segunda parte, algumas demonstraes que dependem de Teoria da Medida
sero omitidas com um aviso correspondente. As principais so: existncia e
propriedades da distribuio condicional regular e da esperana condicional, a
mudana de variveis no plano complexo para obteno da funo caracterstica de
uma gaussiana, equivalncia entre convergncia em distribuio e convergncia da
esperana de funes-teste suaves e limitadas.
Tpicos Omitidos
Alguns tpicos importantes so omitidos, dentre eles: quantil de uma varivel

aleatria; estatstica de ordem, mtodo do Jacobiano sem bijeo, distribuio nor-
mal multivariada, funo geradora e funo caracterstica para vetores aleatrios,
distribuio condicional de vetores aleatrios.
PREFCIO 7
Erros e Omisses
Estas notas contm inmeras imprecises e omisses. A quem faa uso deste texto,
peo que me enviem todos os comentrios, crticas e correes que venham a surgir.
8 de agosto de 2017.
8 PREFCIO
Sumrio
Prefcio 5
1 Espao de Probabilidade 13
1.1 Espao de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Independncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4 O Problema de Monty-Hall . . . . . . . . . . . . . . . . . . . . . . . 29
1.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2 Variveis Aleatrias 33
2.1 Variveis Aleatrias . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2 Variveis Aleatrias Discretas . . . . . . . . . . . . . . . . . . . . . . 39
2.3 Variveis Aleatrias Contnuas . . . . . . . . . . . . . . . . . . . . . 42
2.4 Distribuies Mistas e Singulares . . . . . . . . . . . . . . . . . . . . 48
2.5 Distribuio Condicional dado um Evento . . . . . . . . . . . . . . . 49
2.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Vetores Aleatrios 53
3.1 Vetores Aleatrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Tipos de Vetores Aleatrios . . . . . . . . . . . . . . . . . . . . . . . 57
9
10 SUMRIO
3.3 Independncia de Variveis Aleatrias . . . . . . . . . . . . . . . . . 60

3.4 Mtodo do Jacobiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4 Esperana Matemtica 71
4.1 Variveis Aleatrias Simples . . . . . . . . . . . . . . . . . . . . . . . 71
4.2 Esperana Matemtica . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.3 Demonstraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Momentos, Varincia e Covarincia . . . . . . . . . . . . . . . . . . . 87
4.5 Desigualdades Bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6 Esperana Condicional dado um Evento . . . . . . . . . . . . . . . . 95
4.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5 Convergncia de Variveis Aleatrias 99

5.1 Lema de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.2 Convergncia de Variveis Aleatrias . . . . . . . . . . . . . . . . . . 102
5.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6 Lei dos Grandes Nmeros 111

6.1 Lei Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2 Lei Forte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
7 Teorema Central do Limite 117

7.1 Teorema de De Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . 118
7.2 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . 122
7.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8 Funes Geradoras 127

8.1 Funo Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . 127
SUMRIO 11
8.2 Funo Caracterstica . . . . . . . . . . . . . . . . . . . . . . . . . . 131

8.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9 Esperana Condicional 139

9.1 Esperana Condicional dada uma Partio . . . . . . . . . . . . . . . 139
9.2 Distribuio Condicional Regular . . . . . . . . . . . . . . . . . . . . 147
9.3 Esperana Condicional Regular . . . . . . . . . . . . . . . . . . . . . 150
9.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
10 Convergncia da Esperana 157

10.1 Teoremas de Convergncia . . . . . . . . . . . . . . . . . . . . . . . . 157
10.2 Corolrios e Aplicaes . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
11 O Passeio Aleatrio 163

11.1 Passeio Aleatrio, Recorrncia e Transincia . . . . . . . . . . . . . . 163
11.2 Prova da Transincia . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
11.3 Prova da Recorrncia . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
12 Grandes Desvios 169

12.1 Desigualdade de Concentrao . . . . . . . . . . . . . . . . . . . . . 169
12.2 Princpio dos Grandes Desvios . . . . . . . . . . . . . . . . . . . . . 171
12.3 Prova da Cota Inferior . . . . . . . . . . . . . . . . . . . . . . . . . . 174
12.4 Prova da Cota Superior . . . . . . . . . . . . . . . . . . . . . . . . . 176
12.5 Convexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
A Frmula de Stirling 179

A.1 Obteno da Frmula e Demonstrao . . . . . . . . . . . . . . . . . 179
A.2 Clculo da Constante . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Lista de Figuras 183

12 SUMRIO
Lista de Tabelas 185
Notao 188
ndice Remissivo 189
Referncias Bibliogrficas 195

Captulo 1
Espao de Probabilidade
O objetivo deste texto introduzir o estudo formal dos Espaos de Probabilidade, as

variveis aleatrias e suas propriedades. A Teoria da Probabilidade estuda eventos
aleatrios, i.e., eventos que no possuem regularidade determinstica, mas possuem
regularidade estatstica. A ausncia de regularidade determinstica significa que
observaes feitas nas mesmas condies no do o mesmo resultado, enquanto a
regularidade estatstica se manifesta na estabilidade estatstica de frequncias.
Por exemplo, no lanamento de um dado, apesar de a trajetria do dado ser
determinstica do ponto de vista da mecnica Newtoniana, impraticvel tentar
prever seu resultado: este experimento no possui regularidade determinstica. No
entanto, esse experimento possui regularidade estatstica e o tratamento probabi-
lstico o mais adequado.
Um Espao de Probabilidade, ou Modelo Probabilstico, ou ainda Modelo Estatstico,
uma abstrao matemtica, uma idealizao que busca representar os fenmenos
aleatrios.
1.1 Espao de Probabilidade
Um modelo probabilstico tem trs componentes bsicas:
1. Um conjunto formado por todos os resultados possveis do experimento,
13
14 CAPTULO 1. ESPAO DE PROBABILIDADE
chamado espao amostral.
2. Uma classe apropriada F de subconjuntos do espao amostral, chamada classe

de conjuntos mensurveis ou eventos aleatrios.
3. Uma funo P que associa a cada conjunto mensurvel um nmero real, que
representa a ideia de chance, verossimilhana, confiana, credibilidade, ou
probabilidade. Esta funo chamada de probabilidade, medida, ou medida
de probabilidade.
Resultados equiprovveis Num modelo em que os resultados so equiprovveis,

o espao amostral um conjunto finito e a medida de probabilidade proporcional
quantidade de resultados que fazem parte de um dado evento:
#B
P (B) = ,
#
onde #B denota a cardinalidade do conjunto B , isto , a quantidade de

elementos que pertencem a B.
Exemplo 1.1. Imagine o sorteio de uma carta em um baralho francs com 52

cartas (numeradas A, 2, 3, . . . , 9, 10, J, Q, K e de naipes , , , ). Queremos
saber a probabilidade de um jogador tirar 4, 7, A ou 7, evento que ser
denotado por B. Temos ento:
#B 4 1
P (B) = = = 8%.
# 52 13
Exemplo 1.2. Imagine o lanamento de um dado em que um jogador precisa obter

5 ou 6. Neste caso temos = {1, 2, 3, 4, 5, 6}, B = {5, 6} e
#B 2 1
P (B) = = = 33%.
# 6 3
Espao discreto Outro exemplo um pouco mais complicado quando o es-

pao amostral discreto, isto , pode ser escrito como uma sequncia =
{x1 , x2 , x3 , . . . }. Neste caso no faz sentido que todos os elementos sejam igual-
mente provveis.
1.1. ESPAO DE PROBABILIDADE 15
A cada possvel resultado xn associada uma probabilidade p(xn ) de forma que

X
p(xn ) = 1.
n=1
Para um subconjunto B definimos

X
P (B) = p(x).
xB
Exemplo 1.3. Imagine que lanamos um dado em sequncia at obter o nmero 3,

e contamos o nmero de lanamentos necessrios, ou seja, o resultado desse
experimento o nmero de lanamentos efetuados. Ento caso o espao amostral
dado pelo conjunto N dos nmeros naturais
N = {1, 2, 3, . . . }.
Neste caso, p(n) = 61 ( 56 )n1 . Seja A = obter um 3 em no mximo 5 tentativas e

B = no se obter o 3 nas primeiras 10 tentativas. Temos
1
( 65 )5 16
P (A) = 1
+ 1
5
+ + 1
( 56 )4 = 6
= 1 ( 61 )5 = 4651
60%.
6 6 6 6
1 56 7776
e
1 5 10
6(6)
P (B) = 61 ( 56 )10 + 16 ( 56 )11 + 16 ( 56 )12 + = = ( 56 )10 16%.
1 ( 56 )
A seguir veremos uma formulao mais precisa desses conceitos.
Espao Amostral
Um conjunto no-vazio , cujos elementos representam todos os resultados possveis

de um determinado experimento, chamado de espao amostral. O experimento
dado pela escolha de algum dos possveis , e dizemos que o escolhido
representa a realizao do experimento.
Exemplo 1.4. Se o experimento consiste em lanar uma moeda, ento
= {0, 1},
onde 1 representa a face cara e 0 representa a face coroa.
Exemplo 1.5. Se o experimento consiste em lanar um dado e observar a face

superior, ento
= {1, 2, 3, 4, 5, 6},
onde cada nmero representa o possvel valor da face observada.
Exemplo 1.6. Se o experimento consiste em lanar duas moedas, ento
= {0, 1}2 = {0, 1} {0, 1} = {(0, 0), (0, 1), (1, 0), (1, 1)},
onde a primeira coordenada representa o valor observado na primeira moeda, e a

segunda coordenada, o da segunda moeda.
Exemplo 1.7. Se o experimento consiste em lanar dois dados e observar as faces

superiores, ento
= {1, 2, 3, 4, 5, 6}2 = = (1 , 2 ) : 1 , 2 {1, 2, 3, 4, 5, 6} .

Exemplo 1.8. Lanar uma moeda infinitas vezes em sequncia.

= {0, 1}N = {0, 1} {0, 1} = = (n )nN : n {0, 1} para todo n .
Exemplo 1.9. Se o experimento consiste em medir a durao de uma lmpada,

ento um possvel espao amostral dado por = [0, ).
Eventos Aleatrios
Qualquer subconjunto A do espao amostral , isto , A , ao qual atribumos
uma probabilidade, dito um evento aleatrio.
Dizemos que o evento A ocorre se a realizao tal que A. Vamos traduzir
algumas operaes sobre conjuntos para a linguagem de eventos.
A unio A B o conjunto de todos os tais que pertence a A ou
pertence a B, ou seja, o conjunto das realizaes tais que algum dos eventos A
ou B ocorrem, portanto A B o evento A ou B.
Exemplo 1.10. No lanamento de um dado ( = {1, 2, 3, 4, 5, 6}) considere os

eventos A = par = {2, 4, 6} e B = mltiplo de 3 = {3, 6}. O evento A ou
B contm todos os resultados que sejam pares ou mltiplos de 3 (ou ambos!), e

dado por C = A B = {2, 3, 4, 6}.
Analogamente, a interseo A B, que dada por { : A e B},

o conjunto das realizaes tais que ambos os eventos A e B ocorrem, portanto
A B o evento A e B.
eventos A = par = {2, 4, 6} e B = mltiplo de 3 = {3, 6}. O evento A e B
contm todos os resultados que sejam pares e ao mesmo tempo mltiplos de 3, e
dado por C = A B = {6}.
Denotamos por Ac o complementar do conjunto A, dado por Ac = { : / A},

ou seja, o conjunto das realizaes para as quais o evento A no ocorre, portanto
Ac o evento no A.
Exemplo 1.12. No lanamento de um dado ( = {1, 2, 3, 4, 5, 6}) considere o
evento A = par = {2, 4, 6}. O evento no A contm todos os resultados que
no sejam pares, ou seja, que so mpares, e dado por C = Ac = {1, 3, 5}.
Dois eventos A e B so ditos mutuamente exclusivos ou incompatveis se AB = ,

isto , se o evento A e B impossvel. O conjunto vazio denominado evento
impossvel. Por outro lado, suponha que, para dois eventos A e B dados, pelo
menos um dos dois necessariamente ocorre. Isso quer dizer que A B = . O
conjunto tambm um evento denominado evento certo.
eventos A = par = {2, 4, 6} e B = mpar = {1, 3, 5}. O evento A e B
o evento impossvel porque nenhum nmero par e mpar ao mesmo tempo.
Em termos de conjuntos, temos que A B = . O evento A ou B o evento
certo, porque todo nmero par ou mpar. Em termos de conjuntos, temos que
A B = .
Se , o evento {} dito elementar. A relao A B significa que todo A

satisfaz B, ou seja, para qualquer realizao , se o evento A ocorre ento
necessariamente o evento B ocorre. Portanto, A B significa que a ocorrncia do
evento A implica a ocorrncia do evento B.
Quando o espao amostral um conjunto finito ou enumervel, natural tomar
a classe de eventos aleatrios F como F = P(), isto , o conjunto de todos os
subconjuntos de , dado por
P() = {A : A }
e chamado o conjunto das partes. Porm h casos em que no enumervel,

como no Exemplo 1.8, e no possvel construir um modelo probabilstico em toda
essa classe P(). Em todo caso, faremos algumas suposies naturais sobre a classe
F P() de eventos aleatrios. Mais precisamente, vamos assumir que F satisfaz
as seguintes propriedades:
(F1) F;
(F2) Para todo A F, tem-se que Ac F;
(F3) Se A1 , A2 , A3 , F, ento (
i=1 Ai ) F.
Chamaremos de -lgebra a uma classe de subconjuntos de satisfazendo as trs

propriedades acima.
Espao de Probabilidade
Seja um espao amostral e F uma -lgebra para um dado experimento. Uma
medida de probabilidade P uma aplicao P : F R satisfazendo as seguintes
propriedades:
(P1) P (A) > 0 para todo A F.

(P2) P () = 1.
P
(P3) Se A1 , A2 , F e Ai Aj = i 6= j, ento P (
i=1 Ai ) = i=1 P (Ai ).
A maneira usual de definir medida de probabilidade atravs das propriedades

acima, a partir das quais podem-se demonstrar inmeras outras. Listamos abaixo
as mais comuns.
Teorema 1.14. Toda medida de probabilidade P satisfaz:
1. P () = 0.
2. P (Ac ) = 1 P (A).
3. Se A, B F e A B ento P (A) 6 P (B). (monotonicidade)
4. Se A, B F e A B ento P (B \ A) = P (B) P (A).
5. Para todo A F, temos 0 6 P (A) 6 1.

P
6. Se A1 , A2 , . . . , An F, ento P Ai 6 P (Ai ). (-subaditividade).
i=1 i=1
7. Sejam A e B F. Ento P (A B) = P (A) + P (B) P (A B).
Demonstrao. Feita em aula.
Uma medida de probabilidade P tambm tem a propriedade de ser contnua.

Dizemos que An % A se A1 A2 A3 e
n=1 = A. Analogamente,
An & A se A1 A2 A3 e
n=1 = A.
Teorema 1.15 (Continuidade). Se An % A ou An & A, ento P (An ) P (A).
Finalmente introduzimos o conceito de espao de probabilidade, que nada mais

que a conjuno das noes de espao amostral, eventos aleatrios e medida de
probabilidade.
Definio 1.16 (Espao de Probabilidade). Um espao de probabilidade um

trio (, F, P ), onde
1. um conjunto no-vazio;
2. F uma -lgebra de subconjuntos de ;
3. P uma probabilidade definida em F.
Exemplo 1.17. Lanamento de uma moeda. Este espao pequeno o suficiente

para que possamos constru-lo explicitamente. Como fizemos anteriormente, as
duas faces da moeda sero representadas em = {0, 1}. A -lgebra F dada por

F = P() = {}, {0}, {1}, {0, 1} . A medida de probabilidade P : F R dada
por P ({}) = 0, P ({0}) = P ({1}) = 12 , P ({0, 1}) = 1.
Exemplo 1.18. Sortear 4 cartas de um baralho francs, com reposio. Neste

caso temos
4
= {A, 2, 3, . . . , 9, 10, J, Q, K} {, , , }
e
# = 524 .
Tomamos
F = P()
e
#A
P (A) = , A F.
524
Qual a probabilidade do evento A = as quatro cartas so valetes? Temos A =
4
({J} {qualquer naipe}) , logo #A = 44 e portanto
44 1
P (A) = 4
= 4.
52 13
Qual a probabilidade do evento B = todas as cartas tm o mesmo naipe? Temos

4 escolhas para o naipe, e 13 escolhas para cada uma das cartas retiradas, logo
#B = 4 134 e portanto
4.134 1
P (B) = = 3.
524 4
Qual a probabilidade do evento C = h um par de cartas de um naipe e um par
de cartas de um outro naipe? Temos 42 escolhas para os naipes, onde nk denota

o nmero de combinaes de n, k a k, isto , nk = k!(nk)!

n!

. Escolhidos os naipes,
4

temos 2 combinaes para quais retiradas correspondem a qual naipe. Escolhidos
os naipes e as posies, h 13 escolhas de cartas para cada retirada. Assim,
4
4
#C = 2 2 134 = 62 134
e portanto
62 134 62 9
P (C) = 4
= 4
= .
52 4 64
1.2 Probabilidade Condicional

A probabilidade condicional uma nova medida de probabilidade, de forma a
representar melhor as chances de eventos aleatrios a partir da observao da
ocorrncia ou no de um dado evento. definida da seguinte maneira:
Definio 1.19 (Probabilidade Condicional). Dados A, B F em um espao

(, F, P ), definimos a probabilidade condicional de A dado que ocorreu B, ou
1.2. PROBABILIDADE CONDICIONAL 21
simplesmente probabilidade condicional de A dado B, por
P (A B)
P (A | B) = .
P (B)
Quando P (B) = 0, definimos P (A|B) = P (A).
Exemplo 1.20. Um dado lanado. Sabendo-se que o resultado maior que

3, qual a probabilidade de que seja par? Denotamos o primeiro evento por B =
{4, 5, 6} e o segundo por A = {2, 4, 6}. Aplicando a definio, a probabilidade de
ser par sabendo-se que o resultado maior que 3 dada por
P (A B) P ({4, 6}) 2/6 2

P (A|B) = = = = .
P (B) P ({4, 5, 6}) 3/6 3
Exemplo 1.21. Suponha que 30% dos genes de cor de olhos seja para olho
claro c, uniformemente espelhados por toda uma populao. Como essa uma
caracterstica gentica recessiva, 9% da populao ter olhos claros cc, 42% ter
ambos os genes diferentes Cc, e 49% ter ambos os genes correspondentes a olhos
escuros CC. Os 42% com genes diferentes Cc tero o mesmo fentipo dos 49%
que tm ambos os genes para olhos escuros CC, porque este um gene dominante.
Uma pessoa de olhos escuros selecionada ao acaso. Qual a probabilidade de
que essa pessoa tenha o gene recessivo para olhos claros? Denotando B = olhos
escuros= {Cc, CC} e A = tem um gene de olhos claros= {cc, Cc}, temos
P (A B) P ({Cc}) 42%
P (A|B) = = = = 46, 15%.
P (B) P ({Cc, CC}) 91%
Proposio 1.22. A probabilidade condicional uma medida de probabilidade,

isto , dado B F, a funo que leva A em P (A|B) satisfaz (P1)(P3).
Demonstrao. Exerccio.
Regra do produto
A regra do produto permite expressar a probabilidade da ocorrncia simultnea

de diversos eventos a partir do valor de cada probabilidade condicional dados os
eventos anteriores.
Teorema 1.23 (Regra do Produto). Dados A1 , A2 , . . . , An em (, F, P ), vale
P (A1 An ) = P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) P (An |A1 A2 An1 ).
Demonstrao. Vamos provar por induo em n. Para n = 1 vale trivialmente:

P (A1 ) = P (A1 ). Para n = 2, temos
P (A2 A1 )
P (A2 |A1 ) = = P (A1 A2 ) = P (A1 )P (A2 |A1 ).
P (A1 )
Para n = 3, temos
P (A1 A2 A3 )
P (A3 |A1 A2 ) =
P (A1 A2 )
e portanto
P (A1 A2 A3 ) = P (A1 A2 )P (A3 |A1 A2 )

= P (A1 )P (A2 |A1 )P (A3 |A1 A2 ).
Suponhamos a igualdade vlida para n = m, temos
P (A1 Am Am+1 )
P (Am+1 |A1 Am ) =
P (A1 Am )
e portanto
P (A1 Am+1 ) = P (A1 Am ) P (Am+1 |A1 Am )

| {z }
usando a hiptese
= P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) P (Am+1 |A1 Am ),
completando a prova por induo.
Exemplo 1.24. Um mvel tem 2 gavetas, a primeira gaveta contm 3 bolsas e a

segunda contm 4 bolsas, a primeira bolsa da primeira gaveta contm duas bolas
vermelhas e uma bola azul, e todas as demais bolsas contm duas bolas azuis.
Abre-se uma gaveta, escolhe-se uma bolsa e retira-se uma bola de dentro da bolsa,
tudo ao acaso. Qual a probabilidade de que a bola retirada seja vermelha? Sejam
A = abre-se a primeira gaveta, B = escolhe-se a primeira bolsa e C = retira-se
a bola vermelha, ento temos
1 1 2 1
P (A B C) = P (A)P (B|A)P (C|B A) = = .
2 3 3 9
Exemplo 1.25. Selecionar 3 cartas de um baralho francs de 52 cartas, ao acaso e
sem reposio. Qual a probabilidade de tirar 3 reis? Seja Ai = tirar rei na i-sima
retirada e A = tirar 3 reis= A1 A2 A3 . Temos
4 3 2 1
P (A) = P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) = = .
52 51 50 5525
Exemplo 1.26. Continuando o Exemplo 1.21, suponha que os casais se formam e
decidem ter filhos aleatoriamente. Cada vez que o casal tem um filho, cada um dos
pais transmite algum dos genes com mesma probabilidade. Selecionam-se uma me
e filha ao acaso. Qual a probabilidade de ambas me e filha terem olhos claros?
Definindo A = me tem olhos claros, B = filha tem olhos claros, D = o gene
transmitido pelo pai c, temos
P (A B) = P (A)P (B|A) = P (A)P (D) = 9% 30% = 2, 7%.
Lei da probabilidade total
Dizemos que B1 , B2 , B3 , F formam uma partio de se Bi Bj = i 6= j

e i=1 Bi = . Parties so particularmente teis em contextos onde determinado
aspecto divide os resultados possveis em casos, e possvel expressar determinadas
relaes em cada um desses casos separadamente.
Teorema 1.27 (Lei da Probabilidade Total). Sejam A, B1 , B2 , B3 , . . . eventos

aleatrios em (, F, P ) tais que B1 , B2 , B3 , . . . formam uma partio de . Ento

X
P (A) = P (Bi )P (A|Bi ).
i=1
Demonstrao. Usando a regra do produto temos

X X
P (A) = P

i=1 (A Bi ) = P (A B i ) = P (Bi )P (A|Bi ).
i=1 i=1
A primeira igualdade vale pois A = A = A (

i=1 Bi ) = i=1 (A Bi ). Na
segunda igualdade usamos que esses eventos so disjuntos, pois (ABi )(ABj )
Bi Bj = para todo i 6= j. Na ltima igualdade usamos a regra do produto.
A Lei da Probabilidade Total particularmente til quando um experimento tem

duas etapas, e possvel expressar as probabilidades condicionais de determinado
aspecto da etapa final dados os possveis resultados da etapa inicial.
Exemplo 1.28. Um armrio tem duas gavetas, A e B. A gaveta A tem 2 meias

azuis e 3 meias pretas, e a gaveta B tem 3 meias azuis e 3 meias vermelhas. Abre-se
uma gaveta ao acaso e retira-se uma meia ao acaso da gaveta escolhida.
Problema: Qual a probabilidade de escolher-se uma meia azul?
Soluo: Comeamos pelos valores conhecidos: P (A) = P (B) = 21 , P (azul|A) = 2
5
e P (azul|B) = 63 . Assim,
1 2 1 3 9
P (azul) = P (A)P (azul|A) + P (B)P (azul|B) = + = .
2 5 2 6 20
Exemplo 1.29. So dadas duas urnas, A e B. A urna A contm 1 bola azul e 1
vermelha. A urna B contm 2 bolas vermelhas e 3 azuis. Uma bola extrada ao
acaso de A e colocada em B. Uma bola ento extrada ao acaso de B.
Problema: Qual a probabilidade de se retirar uma bola vermelha de B?
Problema: Qual a probabilidade de ambas as bolas retiradas serem da mesma cor?
Frmula de Bayes
A frmula de Bayes determina a probabilidade condicional de eventos que precedem

aquele efetivamente observado. Mais precisamente, quando conhecemos as proba-
bilidades de uma sequncia de eventos Bj que particionam e a probabilidade
condicional de um evento posterior A em termos dessa partio, podemos calcular
as probabilidades condicionais de ocorrncia de cada Bj sabendo-se da ocorrncia
ou no do evento A. Os valores originais so chamados de probabilidades a priori
dos eventos Bj , e os valores das probabilidades condicionais so chamados de
probabilidades a posteriori desses eventos.
Teorema 1.30 (Frmula de Bayes). Dado um espao de probabilidade (, F, P ),

uma partio B1 , B2 , B3 , . . . , e um evento A, para todo j N vale a identidade
P (Bj )P (A|Bj )
P (Bj |A) = P .
i P (Bi )P (A|Bi )
Exemplo 1.31. No Exemplo 1.28, sabendo-se que uma meia azul foi retirada, qual
a probabilidade de ter sido aberta a gaveta A? Pela Frmula de Bayes temos
1
P (A)P (azul|A) 5 4
P (A|azul) = = 9 = .
P (A)P (azul|A) + P (B)P (azul|B) 20
9
Exerccio 1.1. Num certo certo pas, todos os membros de um comit legislativo
ou so trabalhistas ou so liberais. H trs comits. O Comit 1 tem 5 trabalhistas,
o Comit 2 tem 2 trabalhistas e 4 liberais, e o Comit 3 consiste de 3 trabalhistas
e 4 liberais. Um comit selecionado aleatoriamente e uma pessoa selecionada
aleatoriamente deste comit.
(a) Ache a probabilidade de que a pessoa selecionada seja trabalhista.

(b) Dado que a pessoa selecionada trabalhista, qual a probabilidade de ela ter
vindo do comit 1?
Exemplo 1.32. Continuando o Exemplo 1.26, selecionando-se uma criana de

olhos escuros ao acaso, qual a probabilidade de que o pai tenha olhos claros?
Tomando A = uma criana tem olhos claros, B = o pai tem olhos claros,
e D = o pai transmite o gene de olhos claros, temos
30
P (A|D) = P (A|D B) = P (A|D B c ) =
100
que representam a chance de a me tambm transmitir o gene de olhos claros. Por
outro lado,
1 P (Cc) 1 42 21
P (D|B) = 1, P (D|B c ) = = = .
2 P ({Cc, CC}) 2 91 91
Logo, pela Regra do Produto,
30
P (A|B) = P (A D|B) = P (D|B)P (A|D B) =
100
e
63
P (A|B c ) = P (A D|B c ) = P (D|B c )P (A|D B c ) = .
910
Finalmente, pela Frmula de Bayes,
9 70
P (B)P (Ac |B)
P (B|Ac ) = = 9 70
100 100
91 847 = 6.92%.
P (B)P (Ac |B) + P (B c )P (Ac |B c ) 100 100 + 100 910
1.3 Independncia
Dois eventos aleatrios so independentes quando a ocorrncia de um deles no

aumenta nem diminui a chance relativa de que ocorra o outro.
Definio 1.33 (Eventos Independentes). Os eventos aleatrios A e B so ditos

independentes se
P (A B) = P (A)P (B).
Exemplo 1.34. Uma moeda lanada duas vezes. Sejam A = a primeira moeda
sai cara e B = a segunda moeda sai cara. Ento A e B so independentes, pois
2 1
P (A) = P ({1} {0, 1}) = =
4 2
2 1
P (A) = P ({0, 1} {1}) = =
4 2
1
P (A B) = P ({1} {1}) = = P (A)P (B).
4
Veja que no exemplo acima, j sabamos de antemo que os eventos deveriam ser
independentes, pois cada lanamento da tm absolutamente nenhuma interferncia
sobre o outro. Entretanto, independncia no significa necessariamente que os
eventos no possam nenhuma relao entre si.
Exemplo 1.35. Dois dados so lanados. Consideramos os eventos A = o

1.3. INDEPENDNCIA 27
primeiro dado par e C = a soma dos valores dos dados par. Ento
18 1
P (A) = P ({2, 4, 6} {1, 2, 3, 4, 5, 6}) = = ,
36 2
2 2 18 1
P (C) = P ({2, 4, 6} {1, 3, 5} ) = = ,
36 2
2 9 1
P (A C) = P ({2, 4, 6} ) = = = P (A)P (C).
36 4
Proposio 1.36. So equivalentes:
(i) A e B so independentes,
(ii) A e B c so independentes,
(iii) Ac e B so independentes,
(iv) Ac e B c so independentes,
(v) P (A|B) = P (A),
(vi) P (B|A) = P (B).
Definio 1.37 (Eventos Independentes Dois a Dois). Os eventos aleatrios

(Ai )iI , onde I um conjunto qualquer de ndices, so ditos independentes dois a
dois se Ai e Aj so independentes para todos i, j I com i 6= j.
Exemplo 1.38. Dois dados so lanados. Consideramos os eventos A = o
primeiro dado par, B = o segundo dado par C = a soma dos valores
dos dados par. Ento
18 1
P (A) = P ({2, 4, 6} {1, 2, 3, 4, 5, 6}) = = ,
36 2
18 1
P (B) = P ({1, 2, 3, 4, 5, 6} {2, 4, 6}) = = ,
36 2
2 2 18 1
P (C) = P ({2, 4, 6} {1, 3, 5} ) = = ,
36 2
2 9 1
P (A B) = P ({2, 4, 6} ) = = = P (A)P (B),
36 4
9 1
P (A C) = P ({2, 4, 6}2 ) = = = P (A)P (C),
36 4
9 1
P (B C) = P ({2, 4, 6}2 ) = = = P (B)P (C).
36 4
Exemplo 1.39. Lanamento de um dado de 4 faces. Considere A = par, B =

menor que 3, C = 1 ou 4, i.e., A = {2, 4}, B = {1, 2}, C = {1, 4}. Ento A, B
e C so independentes dois a dois. De fato,
1
P (A B) = P ({2}) = = P (A)P (B),
4
1
P (A C) = P ({4}) = = P (A)P (C),
4
1
P (B C) = P ({1}) = = P (B)P (C).
4
Definio 1.40 (Eventos Coletivamente Independentes). Os eventos aleatrios
(Ai )iI so ditos coletivamente independentes ou estocasticamente independentes
se, dado qualquer conjunto de ndices distintos i1 , i2 , . . . , in I, vale
P (Ai1 Ai2 Ain ) = P (Ai1 )P (Ai2 ) P (Ain ).
Exemplo 1.41. Lanamento de um dado de 12 faces. Seja A = mltiplo de 3,

B = menor ou igual a 6 e C = par, i.e., A = {3, 6, 9, 12}, B = {1, 2, 3, 4, 5, 6}
e C = {2, 4, 6, 8, 10, 12}. Ento A, B e C so coletivamente independentes, pois
1
P (A B) = P ({3, 6}) = = P (A)P (B),
6
1
P (B C) = P ({2, 4, 6}) = = P (B)P (C),
4
1
P (A C) = P ({6, 12}) = = P (A)P (C),
6
1
P (A B C) = P ({6}) = = P (A)P (B)P (C).
12
Contra-Exemplo 1.42. No Exemplo 1.39, os eventos A, B e C no so coletiva-
mente independentes. De fato,
1
P (A B C) = P () = 0 6= = P (A)P (B)P (C).
8
Contra-Exemplo 1.43. No Exemplo 1.38, os eventos A, B e C no so coletiva-
mente independentes. De fato,
1 1
P (A B C) = P ({2, 4, 6}2 ) = 6= = P (A)P (B)P (C).
4 8
1.4. O PROBLEMA DE MONTY-HALL 29
1.4 O Problema de Monty-Hall
Num programa de auditrio, h trs portas, e atrs de cada uma delas h um

prmio, sendo que uma delas esconde uma bolsa com cem mil reais, e as outras
duas escondem cabras velhas sem valor. O programa sempre funciona da seguinte
forma. O participante escolhe uma das portas. O apesentador, ao invs de abrir
a porta escolhida e entregar o prmio correspondente, abre uma segunda porta,
revelando uma das cabras. Em seguida, ele oferece ao participante a opo de
trocar sua escolha para a outra porta que ainda no foi revelada. A pergunta :
Ao participante, o que lhe convm mais? Deve ele trocar
de porta, manter sua escolha original, ou tanto faz?
Mais precisamente, como se comparam as chances de o participante ganhar o prmio
trocando de porta e mantendo a escolha original? A pergunta j gerou muita
controvrsia. At mesmo matemticos como Erds viram sua intuio falhar e s
se convenceram depois de observar a resposta correta experimentalmente. E no
precisamos ir to longe: perguntando a professores universitrios, no ser difcil
encontrar alguns que pensem como um dia pensou Erds.
A resposta correta que sem dvida alguma, o participante deve trocar de porta.
Mesmo que a produo do programa estabelea uma multa de 49% sobre o prmio
obtido caso o participante decida trocar de porta, ainda assim essa a melhor
opo. Isso porque a chance de ganhar o prmio trocando de porta o dobro da
chance de ganhar o prmio mantendo a escolha original.
Muitas pessoas acreditam que indiferente manter a escolha ou trocar, porque a
probabilidade condicional de o prmio estar na terceira porta dado que no est na
segunda porta de 50%, e portanto no h razo para trocar de porta.
No faremos aqui as contas para justificar a proporo de 2 para 1 entre a terceira
porta e a primeira, porque fazer uma outra conta no refutaria a essncia da conta
feita logo acima, que seguir slida, inquebrantvel, e at mesmo correta.
O que tentaremos fazer convencer o leitor de que a pergunta original no trata
de probabilidade condicional, ou pelo menos no essa apresentada acima. De fato,
parte do problema est na linguagem um pouco negligente que usamos quando
falamos em probabilidade condicional. Por exemplo, estas expresses esto, de
certa forma, incompletas: a probabilidade de que o resultado seja par sabendo-se
que maior que 3, a probabilidade de ter sido aberta a primeira gaveta sabendo-
se que uma meia azul foi retirada, a probabilidade condicional de esse casal ter
dois filhos homens, sabendo-se que o casal tem um filho homem. A incompletude
est na expresso sabendo-se. Como foi que o observador soube que o resultado
do dado era maior que 3, ou que a meia retirada foi azul, ou que o casal tem um
filho homem? Essa pequena falha na linguagem compreensvel, porque tornar
essas expresses absolutamente precisas (se que isso possvel) teria um preo
esttico s vezes muito alto. Um possvel compromisso entre preciso e fluidez ir
eliminando a ambiguidade nas entrelinhas dos exemplos e exerccios. Entretanto,
para o problema em questo, mais preciso se faz necessria.
Probabilidade Condicional representa a nova medida de probabilidade do ponto de
vista de um observador que tem acesso ocorrncia ou no de determinado evento
B. Neste caso, faz-se uma observao com dois resultados possveis: ou B ocorreu
ou B no ocorreu. O fato de um terceiro trazer a notcia de que B ocorreu no
se enquadra nesse tipo de situao. Isso porque no h uma dicotomia entre as
possveis observaes B e B c , j que o terceiro poderia ter decidido no revelar
nada a respeito da ocorrncia ou no desse evento B.
Esse o caso do problema de Monty Hall. O participante no tinha a prerrogativa
de revelar o contedo de uma outra porta para ento decidir se queria mudar
sua escolha original. Ao contrrio, foi o apresentador quem decidiu, usando a
informao sobre o contedo das portas e sobre a escolha que fez o participante,
que deveria abrir a segunda porta e no a terceira. Veja tambm que nesse
programa o apresentador nunca revela uma porta com dinheiro, o que novamente
deixa claro que no se trata de uma observao que tem como resultados possveis
B ou B c . Portanto, o clculo de 50% mencionado acima to simples e to
correto quanto intil para responder pergunta original. A formulao pertinente
seria a probabilidade condicional de o prmio estar na terceira porta, dado que
o participante escolheu a primeira porta e, seguindo o protocolo pr-estabelecido
pela produo do programa, o apresentador decidiu mostrar-lhe que o prmio no
est na segunda porta, de %. Deixamos ao leitor a tarefa de formular um
modelo probabilstico capaz de representar todo o processo de decises envolvidas
nesse programa, e preencher a lacuna acima com 66,666...
1.5 Exerccios
1.2. Considere o experimento resultante do lanamento de dois dados onde se
observa o mnimo entre suas faces. Construa um modelo probabilstico associado.
1.5. EXERCCIOS 31
1.3. Considere uma populao de indivduos capazes de gerar proles do mesmo

tipo. O nmero de indivduos inicialmente presentes, denotado por X0 , o tamanho
da gerao zero. Todos as proles da gerao zero constituem a primeira gerao
e o seu nmero denotado por X1 . Em geral, Xn denota o tamanho da n-sima
gerao. Mostre que limn P (Xn = 0) existe e interprete o seu significado.
1.4. Um casal tem dois filhos que no so gmeos. Calcule a probabilidade

condicional de esse casal ter dois filhos homens, sabendo-se que:
(a) O casal tem um filho homem.

(b) O filho mais velho do casal homem.
(c) O casal tem um filho homem que nasceu num sbado.
(d) O casal tem um filho homem que no nasceu num sbado.
Respostas aproximadas: 33%, 50%, 48%, 36%. Comente o porqu de o resultado

do item (d) ser prximo ao do item (a) e o do item (c) ser prximo ao do item (b).
1
1.5. Se P (A) = P (A|B) = 4 e P (B|A) = 12 :
1. A e B so independentes?
2. A e B so mutuamente exclusivos?
3. Calcule P (Ac |B c ).
1.6. Em uma gaveta existem 2 maos de baralho fechados. Um deles um

baralho comum de 52 cartas, {A, 2, 3, . . . , 9, 10, J, Q, K} {, , , }, e outro
um baralho de truco com 40 cartas (no possui as cartas de nmeros 8, 9 e
10).
Um dos maos retirado da gaveta ao acaso e depois uma carta sorteada ao acaso
do baralho retirado.
(a) Calcule a probabilidade de a carta sorteada ser uma das trs figuras reais
(J, Q, K).
(b) Sabendo-se que foi sorteada uma figura real, calcule a probabilidade de o
baralho retirado ter sido o baralho comum.
(c) Calcule a probabilidade de a carta sorteada ser de espadas .
(d) Sabendo-se que foi sorteada uma carta de espadas, calcule a probabilidade
de o baralho retirado ter sido o baralho de truco.
(e) Sejam A = Foi retirado o baralho comum, B = Foi sorteada uma figura
real e C = Foi sorteada uma carta de espadas. A e B so independentes?
A e C so independentes? A, B e C so coletivamente independentes?
(f) Qual a probabilidade de se sortear uma carta de nmero 5 ?
(g) Sabendo-se que foi sorteado um nmero (i.e., no foi sorteado A, J, Q nem
K), qual a probabilidade de o baralho retirado ter sido o baralho de truco?
1.7. [Jam04, Captulo 1].

Recomendados: 1, 2, 3, 4, 5, 11, 16, 18, 22.
Sugeridos: 8, 9, 10, 12, 13, 14, 15, 17, 19, 20, 21.
Captulo 2
Variveis Aleatrias
Na realizao de um fenmeno aleatrio, muitas vezes estamos interessados em

uma ou mais quantidades, que so dadas em funo do resultado do fenmeno.
Por exemplo, sortear 11 cartas do baralho e contar quantas dessas cartas so de
espadas, ou sortear dois nmeros reais entre 0 e 1 e considerar o menor deles. A
essas quantidades damos o nome de variveis aleatrias. Uma varivel aleatria
um observvel numrico resultante de um experimento.
2.1 Variveis Aleatrias

Uma varivel aleatria uma funo que associa a cada resultado do espao
amostral um nmero real, ou seja, uma funo
X: R .
7 X()
Exemplo 2.1. Joga-se um dado e observa-se a face superior. Nesse caso temos
= {1, 2, 3, 4, 5, 6} e X() = .
Vamos colocar uma restrio sobre a funo X com o intuito de poder associar
probabilidade a eventos como o valor observado de X menor que 7. Para isso,
introduzimos uma definio mais formal:
33
34 CAPTULO 2. VARIVEIS ALEATRIAS
Definio 2.2 (Varivel Aleatria). Uma varivel aleatria X em um espao de

probabilidade (, F, P ) uma funo real definida no espao tal que o conjunto
{ : X() 6 x} evento aleatrio para todo x R, isto ,
X:R
uma varivel aleatria se { : X() 6 x} F para todo x R. Daqui para

frente denotaremos por [X 6 x] o evento { : X() 6 x}.
Exemplo 2.3 (Varivel aleatria constante). Se X() = c para todo , ento
(
, se a > c,
{ : X() 6 a} =
, se a < c.
Portanto, X varivel aleatria.

Exemplo 2.4 (Funo indicadora). Dado A , definimos
(
1, A,
1A () =
0, 6 A.
Se A F e X = 1A , ento

,

se a > 1,
{ : X() 6 a} = c
A , se 0 6 a < 1,

,

se a < 0.
Portanto, X varivel aleatria.

Contra-Exemplo 2.5. Sejam = {1, 2, 3, 4} e F = {, {1, 2}, {3, 4}, } e
considere os conjuntos A = {1, 2} e B = {1, 3}. Ento 1A varivel aleatria
em (, F), mas 1B no .
Espao induzido e lei de uma varivel aleatria

A -lgebra de Borel na reta R, denotada por B, a menor -lgebra que contm
todos os intervalos da reta.1 Os conjuntos B R tais que B B so chamados
1 Equivalentemente, B a menor -lgebra que contm todos os intervalos semi-infinitos, ou
ainda, a menor -lgebra que contm todos os conjuntos abertos. O leitor mais curioso pode
2.1. VARIVEIS ALEATRIAS 35
Borelianos. A -lgebra de Borel B muito menor que a -lgebra das partes

P(R), e daqui em diante, sempre que aparecer B R, deve-se entender B B.
Dado um espao de probabilidade (, F, P ) e uma varivel aleatria X, definimos
o espao de probabilidade induzido por X como (R, B, PX ), onde

PX (B) = P { : X() B} , B B.
Ou seja, o espao amostral o conjunto dos nmeros reais, os eventos aleatrios

so os conjuntos Borelianos, e a medida de probabilidade aquela induzida por X.
A medida de probabilidade PX em R induzida por X chamada de lei da varivel
aleatria X ou distribuio de X.
A importncia terica e conceitual do espao de probabilidade induzido por uma
varivel aleatria X, bem como sua distribuio PX , que ele permite descrever
o comportamento estatstico de X abstraindo-se todos os detalhes do espao de
probabilidade original. Mais precisamente, toda pergunta formulada apenas em
termos de X pode ser respondida com PX ao invs de P .
Exemplo 2.6. Um dado lanado trs vezes. Seja X o valor obtido no primeiro
lanamento. Esse experimento pode ser modelado por = {1, 2, 3, 4, 5, 6}3 , F =
P() e P (A) = #A
216 para todo A F, nesse caso X dado por
X:R
7 1 ,
onde cada identificado como uma tripla (1 , 2 , 3 ). O espao induzido

por X dado por (R, B, PX ), com PX dado por
#(B {1, 2, 3, 4, 5, 6})

PX (B) = , B B.
6
Para calcular P (1, 5 6 X 6 3, 4), podemos fazer
#({2, 3} {1, 2, 3, 4, 5, 6}2 ) 72 1

P ( : 1, 5 6 X() 6 3, 4) = = =
216 216 6
ver [Jam04, Exerccio 1.6] a respeito da existncia e unicidade da menor -lgebra contendo uma
classe de conjuntos qualquer.
ou
#{2, 3} 1
PX ([1, 5 , 3, 4]) = = .
6 3
Funo de Distribuio
Definio 2.7 (Funo de Distribuio). A funo de distribuio, ou funo de

distribuio acumulada da varivel aleatria X, denotada por FX , definida como
FX (x) = P (X 6 x), x R.
A funo de distribuio determina o comportamento estatstico da varivel

aleatria, e vice-versa. Mais precisamente, dadas X e Y variveis aleatrias,
FX (t) = FY (t) para todo t R se e somente se PX e PY em (R, B) so iguais. Neste
caso escrevemos X Y . Por isso a funo de distribuio uma caracterstica
fundamental da varivel aleatria.
Exemplo 2.8. Duas moedas honestas so lanadas. Seja a varivel X que conta
o nmero de caras observadas. Temos que

P () = 0, t < 0;

P ({(0, 0)}) = 1 ,

0 6 t < 1;
4
FX (t) = P (X 6 t) = 3
P ({(0, 0), (0, 1), (1, 0)}) = , 1 6 t < 2;

4
P () = 1, t > 2.

Observe que o salto da funo de distribuio acumulada corresponde proba-

bilidade de a varivel aleatria assumir aquele valor, como se v na Figura 2.1.
Exemplo 2.9. Seja um experimento que consiste em selecionar um ponto ao

acaso do intervalo [a, b] com a < b. Seja X a varivel aleatria que representa
a coordenada do ponto.
Primeiro observamos que, ao selecionar um ponto ao acaso em um intervalo,
estamos dizendo implicitamente que quaisquer subintervalos de mesmo tamanho
tm a mesma probabilidade de conter o ponto escolhido. Isso implica que que,
dc
dado [c, d] [a, b], temos que P (X [c, d]) = ba . Para t [a, b], tomando c = a
ta
temos que P (X 6 t) = ba . Para t < a temos que P (X 6 t) = 0, e para t > a
2.1. VARIVEIS ALEATRIAS 37
FX (t)
1
3/4
1/4
t
1 2
Figura 2.1: Grfico de uma funo de distribuio acumulada.
temos que P (X 6 t) = 1. Portanto,

0,
t 6 a;
ta
FX (t) = P (X 6 t) = , a 6 t 6 b;

b a
1, t > b;

cujo grfico est ilustrado na Figura 2.2.
FX (t)
1
a b t
Figura 2.2: Grfico de uma funo de distribuio acumulada.
Proposio 2.10 (Propriedades da Funo de Distribuio). Se X uma varivel

aleatria, sua funo de distribuio FX satisfaz as seguintes propriedades:
1. FX no-decrescente, i.e., x 6 y FX (x) 6 FX (y).

2. FX contnua direita, i.e., xn & x FX (xn ) FX (x).
3. limx FX (x) = 0 e limx+ FX (x) = 1.

De forma geral, uma funo de distribuio qualquer funo F () satisfazendo as

trs propriedades acima.
Teorema 2.11. Dada uma funo de distribuio F , existe um espao de proba-

bilidade e uma varivel aleatria cuja funo de distribuio F .
Demonstrao. Omitida. Envolve Teoria da Medida.
No demonstraremos esse fato.
Proposio 2.12. A funo de distribuio de uma varivel aleatria X satisfaz:
1. P (X > a) = 1 FX (a).
2. P (a < X 6 b) = FX (b) FX (a).
3. P (a < X < b) = FX (b) FX (a).
4. P (a 6 X < b) = FX (b) FX (a).
5. P (a 6 X 6 b) = FX (b) FX (a).
6. P (X = a) = FX (a) FX (a).
7. P (X = a) = 0 se e somente se FX contnua em a.
Exerccio 2.1. Seja F (x) a funo

0,

x < 0,
1
F (x) = x + 2 , 0 6 x 6 1
2
x > 12 .

1,
Mostre que F de fato uma funo de distribuio e calcule:
(a) P (X > 18 )
(b) P ( 18 < X < 25 )
2
(c) P (X < 5 | X > 18 )
2.2. VARIVEIS ALEATRIAS DISCRETAS 39
2.2 Variveis Aleatrias Discretas

Dizemos que uma varivel aleatria X, sua funo de distribuio FX e sua lei PX
so discretas se existe um conjunto enumervel A = {x1 , x2 , x3 , . . . } R tal que
P (X A) = 1.
Definimos a funo de probabilidade de uma varivel aleatria X como
pX (x) = P (X = x).
O tratamento de variveis aleatrias discretas feito em termos de somatrios com

a funo de probabilidade. Por exemplo, a lei de uma varivel aleatria discreta
dada por
X
PX (B) = pX (x) B B
xB
e sua funo de distribuio dada por

X
FX (t) = pX (x) t R.
x6t
Demonstrao. Com efeito, esta ltima equao um caso particular da anterior

tomando-se B = (, t], e para justificar a anterior usamos -aditividade e
monotonicidade da medida de probabilidade P :
X
pX (x) = PX (B A) 6 PX (B) 6 PX (B A) + PX (Ac ) = PX (B A),
xB
onde a primeira igualdade vale pois pX (x) 6 PX (Ac ) = 0 para todo x 6 A.
A funo de distribuio de uma varivel aleatria discreta tipicamente se parece

da Figura 2.1, sendo constante por partes e dando um saltos de tamanho pX (t)
em cada ponto t R com pX (t) > 0. Como
pX (t) = FX (t) FX (t),
temos que a funo de distribuio determina a funo de probabilidade de uma

varivel aleatria, e pela equao anterior vale a recproca. Portanto, para determi-
nar o comportamento estatstico de uma varivel aleatria discreta, equivalente

especificar pX , FX , ou PX . A primeira normalmente mais simples.
De forma geral, uma funo de probabilidade qualquer funo p() satisfazendo
X
p(x) > 0 x R, p(x) = 1.
xR
Dada uma funo de probabilidade p(), existe um espao de probabilidade onde

est definida uma varivel aleatria discreta cuja funo de probabilidade p().
Exerccio 2.2. A probabilidade de um indivduo acertar um alvo 23 . Ele deve

atirar at atingir o alvo pela primeira vez. Seja X a varivel aleatria que representa
o nmero de tentativas at que ele acerte o alvo.
(a) Encontre a funo de probabilidade de X.

(b) Mostre que pX funo de probabilidade.
(c) Calcule a probabilidade de serem necessrios exatamente cinco tiros para que
ele acerte o alvo.
Exerccio 2.3. Seja X uma varivel aleatria com funo de probabilidade

P (X = x) = cx2 , onde c uma constante e x = 1, 2, 3, 4, 5.
(a) Encontre pX (x) e FX (x).

(b) Calcule P (X ser mpar).
Distribuio de Bernoulli Dizemos que X Bernoulli com parmetro p [0, 1],

o que denotamos X Bernoulli(p), se pX (1) = p e pX (0) = 1 p. Indicadores
de eventos so Bernoulli e vice-versa. s vezes associamos o evento [X = 1] a
sucesso e [X = 0] a fracasso.
Distribuio uniforme discreta Dado I = {x1 , x2 , . . . , xk }, dizemos que X

tem distribuio uniforme discreta em I, denotado por X Ud [I], se
1
pX (xi ) = , i = 1, 2, . . . , k.
k
Exemplo 2.13. Lanamento de um dado. Temos I = {1, 2, 3, 4, 5, 6} e p(i) = 61 ,

i = 1, 2, . . . , 6.
2.2. VARIVEIS ALEATRIAS DISCRETAS 41
Distribuio binomial Considere n ensaios de Bernoulli independentes e com

mesmo parmetro p, e seja X o nmero de sucessos obtidos. Dizemos que X segue
o modelo binomial com parmetros n e p, o que denotamos por X b(n, p). A
funo de probabilidade de X dada por
n

pX (x) = x px (1 p)nx , x = 0, 1, 2, . . . , n.
Exemplo 2.14. Lanar um dado 4 vezes e contar o nmero de vezes que se obtm
o nmero 3. Temos X b(4, 61 ). A probabilidade de se obter 3 duas vezes dada
por
2 5 42 4! 52 25
P (X = 2) = pX (2) = 42 61 6 = 4
= .
2!(4 2)! 6 216
Exerccio 2.4. Seja X o nmero de caras obtidas em 4 lanamentos de uma moeda

honesta. Construa a funo de probabilidade e a funo de distribuio de X e
esboce os seus grficos.
Distribuio geomtrica Numa sequncia de ensaios independentes com proba-

bilidade de sucesso p, considere o nmero X de ensaios necessrios para a obteno
de um sucesso. Dizemos que X segue o modelo geomtrico de parmetro p, e que
denotamos por X Geom(p), e sua funo de probabilidade dada por
pX (n) = p(1 p)n1 , n = 1, 2, 3, 4, . . . .
Exemplo 2.15. Lanar um par de dados at obter nmeros iguais. Se X denota

o nmero de lanamentos necessrios, ento X Geom( 61 ).
Distribuio hipergeomtrica Suponha que numa caixa existem m bolas azuis

e n bolas brancas, de onde retiramos r bolas ao acaso. Contamos o nmero X
de bolas azuis retiradas. Se aps cada retirada a bola fosse devolvida caixa,
m
teramos um experimento com reposio, e X b(r, m+n ). No caso em que as
bolas retiradas so guardadas fora da caixa, temos um experimento sem reposio,
e nesse caso X segue o modelo hipergeomtrico com parmetros m, n e r, denotado
por X Hgeo(m, n, r). A funo de probabilidade de X dada por
m
n
k rk
pX (k) = m+n
, para [0 r n] 6 k 6 [r m].
r
Denotamos por a b e a b o mximo e o mnimo entre a e b, respectivamente.
Exemplo 2.16. Num jogo de bingo com 50 pedras, conta-se o nmero X de pedras
pares sorteadas nas 10 primeiras retiradas. Neste caso, X Hgeo(25, 25, 10).
Exemplo 2.17. No jogo de buraco um jogador recebe 11 cartas de um baralho

francs de 52 cartas. Conta-se o nmero X de cartas de espadas . Neste caso,
X Hgeo(13, 39, 11).
Distribuio de Poisson Imagine uma grande quantidade de determinados ob-

jetos (estrelas, chamadas telefnicas, uvas-passas, etc.) uniformemente distribudas
em uma certa regio (o cu, a linha do tempo, uma massa de panetone, etc.)
tambm muito grande, sendo a proporo entre a quantidade de objetos e o
tamanho dessa regio. Se contamos o nmero X de objetos encontrados em uma
unidade de volume dessa regio, temos que X segue o modelo de Poisson com
parmetro , denotado por X Poisson(), com funo de probabilidade
e k
pX (k) = , k = 0, 1, 2, 3, . . . .
k!

De fato, se temos n grande e pn = n, ento para cada k fixo temos
n k nk k n n1 nk e k
nk+1

P (X = k) = k n 1 n = k! n n n 1 n .
k!
Exemplo 2.18. Se em 1.000 horas de servio uma operadora recebe 50.000 cha-
madas, essas chamadas acontecendo em instantes independentes e uniformemente
distribudas ao longo dessas 1.000 horas, ento a distribuio da quantidade X de
chamadas recebidas em 1 hora bem aproximada por X Poisson(50).
2.3 Variveis Aleatrias Contnuas
Definio 2.19. Uma varivel aleatria X dita contnua se P (X = a) = 0 para

todo a R, ou seja, se FX for uma funo contnua.
Definio 2.20. Dizemos que uma varivel aleatria X, sua funo de distribuio
2.3. VARIVEIS ALEATRIAS CONTNUAS 43
FX e sua lei PX so absolutamente contnuas se existe fX () > 0 tal que

Z
PX (B) = P (X B) = fX (x) dx B B.
B
Neste caso, dizemos que fX a funo de densidade de probabilidade de X, ou

simplesmente densidade de X.
No tratamento de variveis aleatrias absolutamente contnuas, tudo pode ser

feito em termos de integrais. A funo de distribuio de uma varivel aleatria
absolutamente contnua dada por
Z t
FX (t) = fX (s) ds.

Exemplo 2.21. Sortear um nmero em [0, 1]. Definimos

(
1, x [0, 1]
fX (x) =
0, caso contrrio,
e neste caso temos

Z t 0,

t 6 0,
FX (t) = fX (x) dx = t, 0 6 t 6 1,

1, t > 1.
A densidade fX pode ser obtida por
d
fX (x) = FX (x),
dx
para quase todo x R, isto , para todo x exceto talvez em conjunto pequeno.2
Portanto, para especificar a distribuio ou a lei de uma varivel aleatria absolu-
2 Dizemos que um conjunto A B pequeno, isto , tem medida zero, se, para todo > 0,
P de intervalos (an , bn ) cuja unio contenha A e cujo tamanho total seja

existe uma sequncia
pequeno, isto , (b an ) 6 . Por exemplo, se A = {x1 , x2 , . . . } enumervel, ento
n=1 n
podemos tomar a sequncia de intervalos (xn 2n1 , xn + 2n1 ), que contm A e cujo
tamanho total exatamente . Podemos modificar a densidade fX em um conjunto pequeno de
pontos eRainda teremos uma densidade para X, pois um conjunto pequeno no altera o valor da
integral fX (x) dx.
B
tamente contnua, suficiente saber sua funo de densidade, e vice-versa.

Observao 2.22. Uma funo f () satisfazendo
Z +
f (x) > 0 x R, f (x) dx = 1,

chamada funo de densidade.

Exerccio 2.5. Seja X uma varivel aleatria absolutamente contnua tal que sua
funo de densidade par, isto , fX (x) = fX (x). Mostre que
(a) FX (x) = 1 FX (x);

(b) FX (0) = 12 ;
(c) P (x < X < x) = 2FX (x) 1, x > 0;
Rx
(d) P (X > x) = 12 0 fX (t)dt, x > 0.
Exerccio 2.6. Seja Z uma varivel aleatria contnua com funo de densidade
de probabilidade
10 e10z , z > 0

fZ (z) =
0, z 6 0
Obtenha a funo de distribuio de Z e esboce o seu grfico.
Distribuio uniforme Dizemos que a varivel aleatria X tem distribuio

uniforme no intervalo [a, b], denotado por X U [a, b], se todos os subintervalos
de [a, b] com mesmo comprimento tiverem a mesma probabilidade. Sua densidade
(
1
1 , x [a, b],
fX (x) = 1[a,b] (x) = ba
ba 0, x 6 [a, b].
A distribuio uniforme a distribuio contnua mais simples. Segundo esta
distribuio, a probabilidade de X estar em um dado subintervalo de [a, b] depende
apenas do comprimento desse subintervalo.
A distribuio uniforme pode ser pensada como o limite de uma distribuio
uniforme discreta em {a, a + ba ba ba ba
n , a + 2 n , . . . , a + (n 2) n , a + (n 1) n , b},
quando n muito grande.
Exemplo 2.23. O ponto de ruptura X de algum cabo numa rede eltrica de 5 km
pode ser modelado por uma varivel aleatria com distribuio uniforme em [0, 5].
Neste caso temos que fX = 15 1[0,5] . A probabilidade de um determinado cabo se

R 0,8
romper nos primeiros 800m da rede igual a 0 51 dx = 16%.
Distribuio exponencial Dizemos que X tem distribuio exponencial com

parmetro > 0, denotado por X exp(), se sua funo de distribuio for dada
por (
1 ex , x > 0,
FX (x) =
0, x 6 0.
A distribuio exponencial se caracteriza por ter uma funo de taxa de falha
constante, o que chamamos de perda de memria.
Exemplo 2.24. Quando se diz que uma lmpada incandescente de uma deter-
minada marca tem vida mdia de 1.000 horas, isso quer dizer que seu tempo de
1
vida T satisfaz T exp( 1000 ).
A distribuio exponencial pode ser pensada como como o limite de distribuies

geomtricas com pequenos intervalos de tempo. Isto , se X n1 Geom( n ) com n
muito grande, ento a distribuio de X se aproxima da distribuio exponencial
com parmetro . Essa a distribuio adequada para modelar a vida til de
uma lmpada, ou de inmeros outros materiais, como leos isolantes, porque estes
deixam de funcionar no por deteriorao ao longo do tempo mas sim porque um
determinado evento passvel de causar a falha pode ocorrer a qualquer instante
com uma probabilidade muito pequena.
Distribuio gama A distribuio gama tem dois parmetros, e , e inclui

como casos particulares a distribuio exponencial e as chamadas qui-quadrado e
Erlang. Dizemos que X tem distribuio gama com parmetros positivos e ,
denotado por X Gama(, ), se X tem densidade dada por

1 x
x
e
, x > 0,
fX (x) = ()
0, x < 0,

onde Z
() = x1 ex dx.
0
Distribuio normal Dizemos que a varivel aleatria X tem distribuio

normal com parmetros R e 2 > 0, denotado por X N (, 2 ), se X
tem como densidade
1 (x)2
fX (x) = e 2 2 , x R.
2 2
A distribuio N = N (0, 1) chamada normal padro.

Denotamos por a funo de distribuio acumulada de uma normal padro N ,
dada por
Z t x2 /2
e
(t) = FN (t) = P (N 6 t) = dx.
2
Em geral, a soluo de problemas numricos envolvendo a distribuio normal inclui
a consulta de uma tabela de valores de ((t); t > 0) com os valores de t apropriados.
Na Tabela 2.1 exibimos os valores de (t) para t = 0, 00, 0, 01, 0, 02, . . . , 3, 49.
Para t < 0 usa-se a identidade
(t) = 1 (t).
Consequentemente,
P (+a < N < +b) = (b) (a)

P (a < N < b) = (b) (a) = (a) (b)
P (a < N < +b) = (b) (a) = (b) + (a) 1.
Em particular,
P (a < N < a) = 2(a) 1.
Exemplo 2.25. Calculemos as seguintes probabilidades:
(a) P (0 < N < 1) = (1) (0) 0, 8413 0, 5000 = 0, 3413.

(b) P (1.93 < N < 3) = (1.93) + (3) 1 0, 9732 + 0, 9988 1 = 0, 9720.
(c) P (1.8 < N < 1.8) = 2(1.8) 1 2 0, 9641 1 = 0, 9282.
(d) Para qual x tem-se P (x < N < x) = 0, 90?
2(x) 1 = 0, 90 (x) = 0, 95 x 1, 645.
(e) Para qual x tem-se P (x < N < x) = 0, 6826?
2(x) 1 = 0, 6826 (x) = 0, 8413 x 1, 000.
Tabela 2.1: (x + y), onde x so os valores das linhas e y os das colunas.

0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
Exerccio 2.7. Mostre que, se Y = aX + b com a > 0 e b R, ento fY (y) =

1 yb
a fX ( a ). Sugesto:R determine FY (y), y R, em termos de fX (x), x R,
t
sabendo que FX (t) = fX (x) dx, e depois tome a derivada.
X
Exerccio 2.8. Mostre que se X N (, 2 ) ento a varivel aleatria tem
distribuio normal padro.
2.4 Distribuies Mistas e Singulares

Uma varivel aleatria discreta X vive em um conjunto enumervel de pontos,
cada um dos quais tem probabilidade de ocorrncia positiva Nesse contexto, tudo
se expressa em termos de somatrios ponderados pela funo pX .
Uma varivel aleatria absolutamente contnua X vive em R, sua distribuio em
cada intervalo (n, n+1] similar de uma distribuio uniforme, apenas seu peso
ponderado pela funo fX . Nesse contexto, tudo se expressa em termos de integrais
com fX (x) dx.
Existem variveis aleatrias que so misturas dos tipos discreto e absolutamente
contnuo. Neste caso, a varivel pode ser decomposta, separando-se as suas partes
discreta e absolutamente contnua, e suas propriedades sero determinadas por
combinaes de somatrios e integrais. Mais precisamente, dizemos que X uma
varivel aleatria mista com componentes discreta e absolutamente contnua se
existem pX e fX tais que
X Z
P (X B) = pX (x) + fX (x) dx, B B.
xB B
Alm desses casos, existem variveis aleatrias cuja parte contnua no absolu-
tamente contnua. Por um lado, nenhum ponto em particular tem probabilidade
positiva de ocorrer, o que afasta o tratamento por somatrios do caso discreto.
Por outro lado, sua distribuio no similar de uma distribuio uniforme,
pois tais variveis aleatrias vivem conjuntos pequenos da reta, no sendo aplicvel
tampouco o uso de integrais em f (x)dx para nenhuma f . A tais variveis chamamos
de singulares. Toda varivel aleatria pode ser decomposta em suas partes discreta,
absolutamente contnua, e singular. O leitor pode ler mais a respeito em [Jam04,
pp. 44-48], e nas referncias ali citadas.
2.5. DISTRIBUIO CONDICIONAL DADO UM EVENTO 49
Exemplo 2.26. Imagine uma pessoa sempre se desperta num horrio S com
distribuio normal de mdia 07:00 e desvio-padro de 1 hora. Representemos
como nmeros reais os horrios medidos em horas, relativos meia-noite, de
maneira que S N (7, 1). Colocamos um alarme para despertar essa pessoa s
08:00, que funciona com probabilidade 12 . Nesse caso, ela vai se despertar s 08:00
com probabilidade 7,94%, ou antes das 08:00 seguindo a densidade original, ou
depois das 08:00 seguindo uma densidade normal atenuada. Mais precisamente,
essa pessoa vai se despertar em um horrio T cuja distribuio dada por
2
( (
1 e(t7) /2 , t < 8, 0, 0794, t = 8,
fT (t) = 2 pT (t) =
2
1 e(t7) /2 , t > 8, 0, t 6= 8.
8
A probabilidade de essa pessoa se despertar entre 06:00 e 09:00 dada por
X Z 9
P (6 6 T 6 9) = pT (t) + fT (t) dt
66t69 6
Z 8 Z 9
1 2 1 2
= 0, 0794 + e(t7) /2 dt + e(t7) /2 dt
6 2 8 8
= 0, 0794 + [(1) (1)] + 12 [(2) (1)]
= 0, 0794 + 32 (1) + 21 (2) 1 = 82, 99%
com quatro algarismos significativos.
2.5 Distribuio Condicional dado um Evento
Dado um evento A com P (A) > 0, definimos a funo de distribuio condicional

de X dado A
FX (t|A) = FX|A (t) = P (X 6 t|A), t R.
Exemplo 2.27. Considere dois lanamentos de uma moeda honesta e seja X o

nmero de caras obtidas. Temos

0, t < 0,

1 , 0 6 t < 1,

FX (t) = 43
4 , 1 6 t < 2,

1, t > 2.

Seja A o evento pelo menos uma moeda deu cara. Temos

0, t < 1,

FX (t|A) = 2
3 , 1 6 t < 2,

1, t > 2.
Se X discreta, definimos ainda a funo de probabilidade condicional de X dado

A, pX ( |A) ou pX|A ( ), como a funo de probabilidade associada funo de
distribuio FX ( |A). No exemplo acima, temos

2
3 , x = 1,

pX (x|A) = 1
3 , x = 2,

0, caso contrrio.
Se X absolutamente contnua, definimos a funo de densidade condicional de X

dado A, fX ( |A) ou fX|A ( ), como a densidade associada funo de distribuio
FX ( |A).
2.6 Exerccios
2.9. Mostre que, se duas variveis aleatrias X e Y so iguais quase certamente,

isto , P (X = Y ) = 1, ento FX = FY .
2.10. Encontre os valores das constantes reais e de modo que a funo F

abaixo seja funo de distribuio acumulada de alguma varivel aleatria definida
2.6. EXERCCIOS 51
em algum espao de probabilidade:

(
0, x 6 0,
F (x) = x2 /2
+ e , x > 0.
2.11. Seja X o nmero de caras obtidas em 4 lanamentos de uma moeda honesta.

Determine a funo de probabilidade de X. Desenhe o grfico da funo de
distribuio da varivel aleatria X.
2.12. Se (
e3t + c et , t > 0,
f (t) =
0, t 6 0,
funo de densidade, ache c.
2.13. Se f (t) = c 3t2 et 1[0,2] (t) funo de densidade, ache c.
2.14. Mostre que a funo de probabilidade do modelo de Poisson de fato uma
funo de probabilidade.
2.15. Perda de memria do modelo geomtrico.
1. Mostre que P (X > m + n|X > n) = P (X > m) para inteiros no-negativos,

se X segue o modelo geomtrico.
2. Se X segue o modelo geomtrico, prove que a distribuio de X dado que
X > n igual distribuio de X + n.
2.16. Mostre que a densidade do modelo uniforme contnuo de fato uma funo
de densidade.
2.17. Mostre que a distribuio do modelo exponencial de fato uma distribuio.
Calcule a densidade associada.
2.18. Seja X uma varivel aleatria em (, F, P ) com distribuio exponencial
de parmetro > 0. Considere N = dXe, o menor inteiro maior ou igual a X.
Encontre a distribuio de N .
2.19. Uma pesquisa eleitoral determinou que a inteno de voto do Candidato A
de 46%, com margem de erro de 3%, para mais ou para menos. Ou seja, a inteno
de voto desse candidato tem distribuio normal com mdia = 46% e desvio-
padro = 3%. Calcule a probabilidade de o Candidato A ter mais de 50% das
intenes de voto.
2.20. Uma caixa contm 10 parafusos, cujos tamanhos so normais independentes,

com mdia 21, 4 mm e desvio-padro 0, 5 mm. Calcule a probabilidade de que
nenhum dos parafusos tenha mais de 22 mm.
2.21. Perda de memria do modelo exponencial.
1. Mostre que P (X > t + s|X > s) = P (X > t) para t, s > 0 se X tem

distribuio exponencial.
2. Mostre que a distribuio de X dado que X > s igual distribuio de
X + s.
2.22. Se X exp() e Y = 5X, ache a distribuio acumulada de Y . Ache a

funo de distribuio condicional e a densidade condicional de Y dado que X > 3.
2.23. [Jam04, Captulo 2]. Recomendados: 1, 5, 6, 7, 9, 10, 13, 14.

Captulo 3
Vetores Aleatrios
Imagine que queremos produzir duas variveis aleatrias com distribuio

Bernoulli( 12 ). A forma mais natural seria lanar uma moeda duas vezes e considerar
o par X = (Z, W ). Uma outra forma de faz-lo seria, por exemplo, lanar a moeda
apenas uma vez e copiar o resultado: Y = (Z, Z).
Em ambos os casos, produziu-se um par de variveis aleatrias distribudas como
Bernoulli( 12 ). Entretanto, o comportamento conjunto dessas variveis aleatrias
bem diferente nos dois casos.
Neste captulo vamos estudar as principais propriedades dos vetores aleatrios,
isto , a combinao de muitas variveis aleatrias em que se considera seu
comportamento estatstico conjunto.
3.1 Vetores Aleatrios
Comeamos com um pouco de notao vetorial. x Rd representa uma d-upla de

nmeros reais, x = (x1 , x2 , . . . , xd ). Uma funo X em associa a cada uma
d-upla, i.e., um vetor X() = (X1 (), X2 (), . . . , Xd ()).
Denotamos por x 6 y o conjunto de desigualdades xi 6 yi , i = 1, . . . , d, isto
, x 6 y se, e somente se, vale a desigualdade para todas as coordenadas
simultaneamente. Analogamente denotamos por x < y o conjunto de desigualdades
xi < yi , i = 1, . . . , d. Dados a 6 b, denotamos por [a, b] o conjunto {x Rd : a 6
53
54 CAPTULO 3. VETORES ALEATRIOS
x 6 b}. Analogamente para (a, b], etc.

Definio 3.1 (Vetor aleatrio). Um vetor aleatrio X = (X1 , . . . , Xd ) uma
funo X : Rd tal que cada coordenada Xi uma varivel aleatria.
Espao de probabilidade induzido e lei de um vetor aleatrio Como na

reta, a -lgebra de Borel no espao Euclidiano Rd , denotada por B d , a menor
-lgebra que contm todos os octantes {x Rd : x 6 t}, t Rd . Dado um
espao de probabilidade (, F, P ) e um vetor aleatrio X, definimos o espao de
probabilidade induzido por X como (Rd , B d , PX ), onde
B Bd .

PX (B) = P { : X() B} ,
Ou seja, o espao amostral o conjunto dos vetores d-dimensionais, os eventos ale-

atrios so os conjuntos Borelianos, e a medida de probabilidade aquela induzida
por X. Chamaremos de lei do vetor aleatrio X a medida de probabilidade PX
em Rd induzida por X.
Funo de Distribuio Conjunta

Definio 3.2 (Funo de Distribuio Conjunta). A funo de distribuio
conjunta de um vetor aleatrio X, denotada por FX , uma funo FX : Rd R
dada por

FX (t) = P X 6 t .
Exemplo 3.3. Lanamos duas moedas honestas e consideramos X1 = quantidade
de caras, X2 = 1 se os resultados forem iguais, 0 se forem diferentes, e X =
(X1 , X2 ). Temos ento

0, t1 < 0 ou t2 < 0,

pois [X 6 t] = ;

0, t1 , t2 [0, 1),

pois [X 6 t] = [X1 = 0, X2 = 0] = ;

1 , t > 1, t [0, 1),

pois [X 6 t] = [X1 = 1, X2 = 0];
1 2
P (X 6 t) = 12
4 , t1 [0, 1), t2 > 1, pois [X 6 t] = [X1 = 0, X2 = 0];

3
4 , t1 [1, 2), t2 > 1, pois [X 6 t] = [X1 = 0 ou 1];

1, t > 2, t > 1, pois [X 6 t] = .
1 2
Os valores de FX so ilustrados na Figura 3.1.

3.1. VETORES ALEATRIOS 55
t2
3/4 1
1/4
1
0
1/2
t1
1 2
Figura 3.1: Valores assumidos por FX (t1 , t2 ) para cada (t1 , t2 ) R2 .
Considere o operador ia,b sobre funes de Rd em R, dado por
ia,b F (x) = F (x1 , . . . , xi1 , b, xi+1 , . . . , xd ) F (x1 , . . . , xi1 , a, xi+1 , . . . , xd ).

Note que a funo ia,b F no depende da i-sima coordenada de x.
Proposio 3.4. Para a 6 b Rd , 1a1 ,b1 dad ,bd FX = P (a < X 6 b).
Demonstrao. Para quaisquer x, a 6 b, temos
dad ,bd FX (x) = P (X1 6 x1 , . . . , Xd1 6 xd1 , Xd 6 bd )

P (X1 6 x1 , . . . , Xd1 6 xd1 , Xd 6 ad ) =
= P (X1 6 x1 , . . . , Xd1 6 xd1 , ad < Xd 6 bd ),
e sucessivamente obtemos
h i
jaj ,bj dad ,bd FX (x) = jaj ,bj j+1 d
aj+1 ,bj+1 ad ,bd FX (x) =
= P (X1 6 x1 , . . . , Xj1 6 xj1 , Xj 6 bj , aj+1 < Xj+1 6 bj+1 , . . . , ad < Xd 6 bd )
P (X1 6 x1 , . . . , Xj1 6 xj1 , Xj 6 aj , aj+1 < Xj+1 6 bj+1 , . . . , ad < Xd 6 bd ) =
= P (X1 6 x1 , . . . , Xj1 6 xj1 , aj < Xj 6 bj , . . . , ad < Xd 6 bd ).
Tomando j = 1 temos
1a1 ,b1 dad ,bd FX (x) = P (a1 < X1 6 b1 , . . . , ad < Xd 6 bd ).

Proposio 3.5 (Propriedades da Funo de Distribuio Conjunta). Se X

um vetor aleatrio em (, F, P ), ento sua funo de distribuio FX goza das
seguintes propriedades:
1. FX no-decrescente em cada uma de suas coordenadas.

2. FX contnua direita em cada uma de suas coordenadas.
3. Se (xk )k tal que, para algum j, xkj , ento FX (x) 0.
4. Se (xk )k tal que, para todo j, xkj +, ento FX (x) 1.
5. Para a 6 b Rd , 1a1 ,b1 dad ,bd FX > 0.
Contra-Exemplo 3.6. Considere a seguinte funo:

(
1, x > 0, y > 0, x + y > 1,
F (x, y) =
0, caso contrrio.
Ento 10,1 20,1 F = F (1, 1) F (1, 0) F (0, 1) + F (0, 0) = 1 1 1 + 0 = 1 < 0.

Portanto, F no pode ser funo de distribuio conjunta, ainda que satisfaa as
Propriedades 14.
Funo de distribuio marginal
A partir da funo de distribuio conjunta, pode-se obter o comportamento de

cada varivel isoladamente.
A funo de distribuio de uma das coordenadas do vetor X denominada funo
de distribuio marginal e obtida da seguinte forma:
FXj (xj ) = x lim F (x1 , . . . , xd ),

X
i
i6=j
em que o limite aplicado em todas as coordenadas, exceto j.

3.2. TIPOS DE VETORES ALEATRIOS 57
Exemplo 3.7. No Exemplo 3.3, temos

0, t < 0,
0, t < 0,

1 , 0 6 t < 1,

FX1 (t) = 34 FX2 (t) = 1
, 0 6 t < 1,
2
4 , 1 6 t < 2,

1, t > 1.
1, t > 2,

3.2 Tipos de Vetores Aleatrios

Os principais tipos de vetores aleatrios so o discreto, o absolutamente contnuo,
e o misto com componentes discreta e absolutamente contnua. Porm, h muitos
exemplos de vetores aleatrios que no so de nenhum desses tipos, e esses exemplos
no so to artificiais como as variveis aleatrias singulares.
Vetores Aleatrios Discretos
Definio 3.8. Dizemos que um vetor aleatrio X, sua funo de distribui-

o FX e sua lei PX so discretos se existem {x1 , x2 , x3 , . . . } tais que P X

{x1 , x2 , x3 , . . . } = 1. Neste caso, a funo de probabilidade de X dada por

pX (x) = P X = x .
Um vetor aleatrio X discreto se e somente se suas coordenadas X1 , . . . , Xd so

discretas. Uma funo p() satisfazendo
X
p(x) = 1 e p(x) > 0, x Rd
x
chamada funo de probabilidade conjunta.
Funo de probabilidade marginal A funo de probabilidade marginal de

uma varivel Xi obtida somando-se nas demais variveis:
X XX X
pXi (xi ) = P (Xi = xi ) = p(x1 , . . . , xi1 , xi , xi+1 , . . . , xd ).
x1 xi1 xi+1 xd
Exerccio 3.1. No Exemplo 3.3, obtenha a funo de probabilidade de X, e as

funes de probabilidade marginais de X1 e X2 .
Vetores Aleatrios Absolutamente Contnuos
Dizemos que um vetor aleatrio X, sua funo de distribuio FX e sua lei PX so

absolutamente contnuos se existe fX () > 0 tal que
Z
P (X B) = fX (x) dd x B B d .
B
Neste caso, dizemos que fX a funo de densidade conjunta de X, ou simples-

mente densidade de X.
A funo de distribuio conjunta FX pode ser calculada integrando-se a funo
de densidade conjunta fX em cada coordenada:
Z t1 Z td
FX (t) = fX (x) dxd dx1

e, por outro lado, esta sempre pode ser calculada derivando-se aquela tambm em
cada coordenada:
d
fX (x) = FX (x1 , . . . , xd ).
x1 xd
para quase todo x Rd , isto , para todo x exceto talvez em conjunto pequeno.1
Exemplo 3.9. Seja G Rd uma regio tal que Vol G > 0, onde Vol G o volume
1 Dizemos que um Boreliano A B d pequeno, isto , tem medida zero, se, para todo > 0,
existe uma sequncia

Pde paraleleppedos (aj , bj ) cuja unio contenha A e cujo tamanho total seja
pequeno, isto , (b a1 ) (bd ajd ) 6 . Por exemplo, se A = {(x, y) : x > 0, y = 0}
j=1 1
j j j
uma semi-reta no plano, ento podemos tomar a sequncia (j 1, j) (2j1 , 2j1 ).

Essa sequncia contm a semi-reta A e seu tamanho total exatamente . Podemos modificar a
densidade fX em um conjunto pequeno de pontos eRainda teremos uma densidade para X, pois
um conjunto pequeno no altera o valor da integral fX (x) dd x.
B
3.2. TIPOS DE VETORES ALEATRIOS 59
d-dimensional de G. Dizemos que X = (X1 , X2 , . . . , Xd ) com funo de densidade

(
1
Vol G , (x1 , . . . , xd ) G
fX (x1 , . . . , xd ) =
0, (x1 , . . . , xd )
/G
uniformemente distribudo em G.
Uma funo f () satisfazendo

Z
d
f (x) > 0, x R e f (x) dd x = 1
Rd
chamada funo de densidade conjunta.
Densidade marginal A densidade de uma varivel Xi chamada densidade

marginal, e pode ser calculada por
Z + Z +
fXi (xi ) = f (x1 , . . . , xi , . . . , xd ) dx1 dxd .
| {z }
| {z } exceto xi
d1 vezes
Exerccio 3.2. Sejam trs variveis aleatrias X, Y e Z com funo de densidade

conjunta dada por
(
kxy 2 z, se 0 < x 6 1, 0 < y 6 1 e 0 < z 6 2,
f (x, y, z) =
0, caso contrrio.
Encontre o valor de k e ache a funo de densidade marginal de X.
Observao 3.10. Se um vetor aleatrio X absolutamente contnuo, ento suas

coordenadas X1 , . . . , Xd so absolutamente contnuas, mas no vale a recproca! De
fato, muito fcil construir um vetor aleatrio contnuo que no absolutamente
contnuo.
Exerccio 3.3. Seja X U [0, 1], Y = 1 X e X = (X, Y ). Encontre

2
a funo de distribuio conjunta FX (x, y). Verifique que yx FX (x, y) = 0
para todo par (x, y) no plano R2 , exceto em algumas retas ou segmentos de
reta. As coordenadas de X so absolutamente contnuas, mas o vetor X no

absolutamente contnuo!
Vetores Aleatrios Mistos
Como no caso uni-dimensional, dizemos que um vetor aleatrio X do tipo misto

com componentes discreta e absolutamente contnua se existem pX e fX tais que
X Z
P (X B) = pX (x) + fX (x) dd x B B d .
xB B
3.3 Independncia de Variveis Aleatrias
Definio 3.11 (Variveis Aleatrias Independentes). Dizemos que as variveis

aleatrias X1 , X2 , . . . , Xd em (, F, P ) so coletivamente independentes, ou sim-
plesmente independentes, se
P (X1 B1 , . . . , Xd Bd ) = P (X1 B1 ) P (Xd Bd )
para quaisquer B1 , . . . , Bd B. Se I uma famlia qualquer de ndices, dizemos

que (Xi )iI so coletivamente independentes se Xi1 , . . . , Xin so independentes
para todo n N e i1 , . . . , in I.
Dada uma famlia de variveis aleatrias independentes, qualquer subfamlia

tambm formada por variveis aleatrias independentes.
Muitas vezes vamos considerar uma famlia de variveis aleatrias que, alm de
serem independentes, tm a mesma distribuio, o que chamamos de independentes
e identicamente distribudas, ou simplesmente i.i.d.
Proposio 3.12 (Critrio de Independncia). So equivalentes:
(i) X1 , X2 , . . . , Xd so independentes.
(ii) FX (t) = FX1 (t1 )FX2 (t2 ) FXd (td ) para todo t Rd .
(iii) FX (t) = F1 (t1 )F2 (t2 ) Fd (td ) para todo t Rd , com F1 , . . . , Fd funes
reais.
3.3. INDEPENDNCIA DE VARIVEIS ALEATRIAS 61
Demonstrao. (i) (ii) (iii) so triviais. Suponha (iii). Calculando a

marginal temos
Y
FXi (xi ) = x lim

F X (x) = F i (x i ) lim Fj (xj ) = ci Fi (xi ),
j xj
j6=i j6=i
onde ci 6= 0 pois FXi no pode ser uma funo constante. Assim,
1
FX (x1 , . . . , xd ) = FX1 (x1 ) FXd (xd ).
c1 cd
Fazendo xi i, temos que c1 cd = 1, portanto (iii) (ii).

Assumindo (ii), vamos mostrar (i) supondo que os Bi so unies de intervalos
disjuntos. Observe que se Bi = (ai , bi ] para i = 1, . . . , d, temos
P (X1 B1 , . . . , Xd Bd ) = 1a1 ,b1 dad ,bd FX (x)

= 1a1 ,b1 dad ,bd [FX1 (x1 ) FXd (xd )]
= [1a1 ,b1 FX1 (x1 )] [dad ,bd FXd (xd )]
= P (X1 B1 ) P (Xd Bd ).
A mesma identidade se estende para Bi = [ai , bi ] tomando-se o limite a ai ,

analogamente para intervalos abertos ou semi-infinitos, e por aditividade vale para
unies de intervalos disjuntos. A extenso a todo Bi B envolve argumentos de
Teoria da Medida e ser omitida.
Proposio 3.13 (Critrio de Independncia. Caso Discreto). Seja X um vetor

aleatrio discreto. So equivalentes:
(ii) pX (t) = pX1 (t1 )pX2 (t2 ) pXd (td ) para todo t Rd .
(iii) pX (t) = p1 (t1 )p2 (t2 ) pd (td ) para todo t Rd , com p1 , . . . , pd funes reais.
Demonstrao. (i) (ii) (iii) so triviais. Suponha (iii). Para xi tal que
pXi (xi ) > 0, calculando a marginal temos
X XX X YX
pXi (xi ) = pX (x) = pi (xi ) pj (xj ) = ci pi (xi ),
xj xi1 xi+1 xd j6=i xj
onde ci 6= 0. Assim,
1
pX (x1 , . . . , xd ) = pX (x1 ) pXd (xd ).
c1 cd 1
Somando em x, temos que c1 cd = 1, portanto (iii) (ii).

Suponha (ii). Temos que
X X
P (X1 B1 , . . . , Xd Bd ) = pX (x) =
x1 B1 xd Bd
" # " #
X X
= pX1 (x1 ) pXd (xd ) = P (X1 B1 ) P (Xd Bd ),
x1 B1 xd Bd
e portanto (ii) (i).
Proposio 3.14 (Critrio de Independncia. Caso Contnuo). Seja X um vetor

aleatrio absolutamente contnuo. So equivalentes:
(ii) fX (t) = fX1 (t1 )fX2 (t2 ) fXd (td ) para quase todo t Rd .
(iii) fX (t) = f1 (t1 )f2 (t2 ) fd (td ) para quase todo t Rd , com f1 , . . . , fd funes
reais.
Demonstrao. (i) (ii) (iii) so triviais. Suponha (iii). Para Bi B tal que
P (Xi Bi ) > 0,
Z Z YZ Z
PXi (Bi ) = 1Bi (xi )fX (x) dd x = fi (xi )dxi fj (xj ) dxj = ci fi (xi )dxi ,
Rd Bi j6=i R Bi
onde ci 6= 0. Logo, fXi (xi ) = ci fi (xi ) para todo xi R. Assim,
1
fX (x1 , . . . , xd ) = fX (x1 ) fXd (xd ).
c1 cd 1
Integrando em Rd , temos que c1 cd = 1, portanto (iii) (ii).

3.4. MTODO DO JACOBIANO 63
Suponha (ii). Temos que

Z
P (X1 B1 , . . . , Xd Bd ) = fX (x) dd x =
B1 Bd
Z Z
= fX1 (x1 ) dx1 fXd (xd ) dxd = P (X1 B1 ) P (Xd Bd ),
B1 Bd
e portanto (ii) (i).
Definio 3.15 (Variveis Aleatrias Independentes Duas a Duas). Se I uma

famlia qualquer de ndices, dizemos que (Xi )iI so duas a duas independentes se
Xi e Xj so independentes para quaisquer i 6= j I.
Segue das definies que uma famlia de variveis aleatrias coletivamente indepen-
dentes tambm independente duas a duas. Entretanto no vale a recproca.
Contra-Exemplo 3.16. Sejam X e Y independentes assumindo os valores 1

ou +1 com probabilidade 21 cada, e tome Z = XY . Ento temos
(
1
4, (x, y, z) = (1, 1, 1), (1, 1, 1), (1, 1, 1), (1, 1, 1),
pX,Y,Z (x, y, z) =
0, caso contrrio.
Ento X, Y e Z no so coletivamente independentes, pois
1 1
pX,Y,Z (1, 1, 1) = 6= = pX (1)pY (1)pZ (1).
4 8
Entretanto, X, Y e Z so duas a duas independentes.
3.4 Mtodo do Jacobiano

Suponha que o vetor aleatrio X absolutamente contnuo e assume valores em
um domnio G0 Rd , e que estamos interessados em estudar o vetor aleatrio Y
dado por uma transformao Y = g(X). Vamos considerar o caso em que
g : G0 G, G Rd , bijetiva e diferencivel, com inversa g 1 = h : G G0
tambm diferencivel. Escrevemos a transformada inversa como X = h(Y ) e
definimos os Jacobianos:

x1 x1
y1 yd
x .. .. ..
Jh (y) = det = det . . .

y
xd xd
y1 yd
e
y1 y1
x1 xd
y .. .. ..
Jg (x) = det = det . . .
.
x
yd yd
x1 xd
O Jacobiano satisfaz a seguinte identidade:
1
Jh (y) = .
Jg (x)
Proposio 3.17 (Mtodo do Jacobiano). Sejam G0 , G Rd , g : G0 G uma

bijeo e h = g 1 , e suponha que g e h sejam diferenciveis. Se X um vetor
aleatrio absolutamente contnuo assumindo valores em G0 , e Y = g(X), ento a
densidade fY pode ser obtida a partir da densidade fX pela relao
1
fY (y) = Jh (y) fX h(y) = fX h(y) .
|Jg (x)|
Ideia da prova. Pelo clculo de vrias variveis, sabemos que se o jacobiano for
no-nulo para todo y G, ento
Z Z
f (x) dd x = f (h(y)) |Jh (y)| dd y
A g(A)
para qualquer f integrvel em A, onde A G0 . Como P (Y g(A)) dada por

P (X A), e esta ltima dada pelo lado esquerdo da expresso acima com f = fX ,
temos que o integrando do lado direito necessariamente dado por fY (y).
Exemplo 3.18. Considere o vetor aleatrio X = (X1 , X2 ) com densidade

(
4x1 x2 , x1 , x2 [0, 1],
fX (x1 , x2 ) =
0, caso contrrio,
3.4. MTODO DO JACOBIANO 65
e o vetor Y dado por Y1 = X1 /X2 , Y2 = X1 X2 . Temos y = h(x) = (x1 /x2 , x1 x2 )

e
1/x2 x1 /x22

y
=
x x2 x1
e Jg (x) = 2x1 /x2 . Obtendo x em funo de y:

y1 = x1 /x2 y1 y2 = x21 y1 = x1 = y1 y2
p
y2 = x1 x2 y2 /y1 = x22 y2 = x2 = y2 /y1 ,
e os valores possveis de y so
n o
1
G = (y1 , y2 ) : 0 < y2 < y1 , 0 < y2 < y1 .
Agora, q
2 y1 y2
Jg (h(y)) = p = 2y1
y2 /y1
e q p
fX (h(y)) = 4 y1 y2 y2 /y1 = 4y2 .
Portanto,
(
1 2y2 /y1 , 0 < y2 < 1, y2 < y1 < 1/y2 ,
fY (y) = fX h(y) =
|Jg (x)| 0, caso contrrio.
Exerccio 3.4. Sejam X e Y variveis aleatrias independentes, cada uma com

distribuio exponencial com parmetro 1, mostre que Z = X + Y e W = XY so
tambm independentes com densidades
zez , z > 0

fZ (z) =
0, z 6 0
e (
1
(w+1)2 ,w>0
fW (w) = .
0, w 6 0
Exemplo 3.19. Se X e Y so independentes e distribudas como N (0, 1), ento

X + Y e X Y so independentes e ambas distribudas como N (0, 2).
Ponha Z = (X, Y ) e W = (X + Y, X Y ). Temos que W = g(Z), onde g(x, y) =

(x + y, x y). Logo,

w 1 1
= ,
z 1 1
assim Jg (z) = 2. Obtendo z como funo de w:
w1 + w2
w1 = x + y x=
2
w1 w2
w2 = x y y= .
2
Ainda,
1 x2 1 y 2
fZ (z) = fX,Y (x, y) = fX (x)fY (y) = e 2 e 2 ,
2 2
logo
2 2 w2 +w2 +2w1 w2 +w2 +w2 2w1 w2

1 (
w1 +w2
2 ) ( w1 w

2
2
) e
1 2
8
1 2
1 w12 w22
fZ (h(w)) = e 2 e 2 = = e 4 e 4
2 2 2
e, substituindo,
1 1 w12 w22
fW (w) = fZ (h(w)) = e 4 e 4 = fN (0,2) (w1 )fN (0,2) (w2 ).
|Jg (h(w))| 4
Portanto, W1 e W2 so independentes e distribudas como N (0, 2).
Exerccio 3.5. Se X e Y so independentes e distribudas como N (0, 1), ento

4X + 3Y e 3X 4Y so independentes e ambas distribudas como N (0, 25).
3.5 Exerccios
3.6. Considere um vetor aleatrio (X, Y ) absolutamente contnuo com distribuio

uniforme em
A = (x, y) R2 : 0 < y < x e x + y < 1 .

Encontre FX,Y .
3.5. EXERCCIOS 67
3.7. Considere um vetor aleatrio (Z, W ) absolutamente contnuo com densidade

(
c, 0 < z < 1, 0 < w < z,
fZ,W (z, w) =
0, caso contrrio.
Encontre FZ,W .
3.8. Sejam Y e U duas variveis aleatrias em um mesmo espao de probabilidade,

independentes e com leis Y N (0, 1) e P (U = 1) = P (U = +1) = 12 . Ache a lei
de Z = U Y .
Dica: estudar diretamente a funo de distribuio acumulada.
3.9.
(a) A densidade conjunta de X e Y dada por
c ey
(
x3 , x > 1, y > 0
f (x, y) =
0, caso contrrio.
Encontre c. Diga se X e Y so independentes e por qu.
(b) Suponha que (X, Y ) um vetor aleatrio absolutamente contnuo com funo
de distribuio conjunta dada por
(
1 ex + exy xex ey + xexy , x, y > 0
FXY (x, y) =
0, caso contrrio.
Encontre a densidade conjunta fXY e diga se X e Y so independentes.
(c) Com X e Y dadas no item anterior, encontre a distribuio marginal FY .
3.10. Sejam X e Y variveis aleatrias discretas e independentes. Mostre que

X
pX+Y (t) = pX (s) pY (t s).
s
Sugesto: particione segundo o valor de X.
3.11. Mostre por induo finita que, se X1 , X2 , . . . , Xn so variveis aleatrias

independentes com Xi b(mi , p), i = 1, 2, . . . , n, ento

n n
!
X X
Xi b mi , p .
i=1 i=1
a+b
Pn a
b

Dica: n = k=0 k nk .
3.12. Se X e Y so independentes e distribudas respectivamente como Poisson(1 )
e Poisson(2 ), mostre que
X + Y Poisson(1 + 2 ).
Pk k

Dica: (a + b)k = j=0 j aj bkj .
3.13. Sejam X e Y variveis aleatrias definidas no mesmo espao de probabi-
lidade, independentes, discretas e com distribuies Poisson(1 ) e Poisson(2 ),
respectivamente. Mostre que, dada a ocorrncia do evento [X + Y = n], a
probabilidade condicional de X = k
k nk
n 1 2
P (X = k|X + Y = n) = .
k 1 + 2 1 + 2
Como voc interpreta essa identidade?

3.14. O nmero X de uvas-passas encontradas em um panetone tem distribuio
Poisson(). O panetone, estando com a data de validade vencida h alguns meses,
pode ter uvas-passas estragadas. Cada uva-passa pode estar estragada indepen-
dente das demais, com probabilidade p. Encontre a distribuio do nmero de
uvas-passas estragadas e calcule a probabilidade de no haver nenhuma estragada.
3.15. Sejam X e Y variveis aleatrias independentes, ambas com distribuio
exp(1). Use o mtodo do Jacobiano para determinar a distribuio conjunta de
X X
X + Y e X+Y . Diga se X + Y e X+Y so independentes. Encontre a distribuio
X
de X+Y .
3.16. Sejam X e Y i.i.d. absolutamente contnuas com densidade f . Mostre que
Z
fX+Y (t) = f (t s)f (s) ds t R.
R
Sugesto: faa Z = X + Y e W = Y , e calcule a densidade conjunta de Z e W .

3.5. EXERCCIOS 69

Recomendados: 2, 17, 18, 21, 30, 33, 34, 41, 46.
Captulo 4
Esperana Matemtica
A esperana EX de uma varivel aleatria X a mdia dos valores assumidos

por X, ponderada pela probabilidade de X assumir esses valores. Podemos pensar
em EX como sendo o centro de massa de X. A esperana de X , em vrios
sentidos, a melhor aproximao determinstica para a varivel aleatria X. Uma
das justificativas mais importantes, que veremos mais adiante, a lei dos grandes
nmeros: se X1 , . . . , Xn so independentes e tm a mesma distribuio de X, ento
Pn
a mdia amostral n1 i=1 Xi se aproxima de EX quando fazemos n grande.
4.1 Variveis Aleatrias Simples

Uma varivel aleatria X dita simples se assume apenas finitos valores.
Definio 4.1. Dada uma varivel aleatria simples X, definimos a esperana de
X, ou mdia de X, ou ainda o valor esperado de X, denotada por EX, por
X
EX = x P (X = x).
x
A esperana de X pode ser pensada como o centro de massa da varivel

aleatria X, como ilustrado na Figura 4.1.
Outra interpretao de EX vem dos jogos em cassinos. Sejam X o resultado que
se ganha em um dado jogo, e a1 , . . . , ak os possveis valores. Suponhamos tambm
71
72 CAPTULO 4. ESPERANA MATEMTICA
pX (x)
x
EX
Figura 4.1: A esperana de X como o centro de massa de pX .
que jogaremos esse jogo n vezes, e denotamos o resultado de cada jogada por
X1 , . . . , Xn , independentes e com a mesma distribuio de X. A noo intuitiva
de probabilidade como frequncia relativa diz que a proporo dentre essas n
repeties em que o resultado ai se aproxima de P (X = ai ) para n grande,
ou seja,
n
1X
1[Xj =ai ] P (X = ai ).
n j=1
Dessa forma, para o ganho total dividido pelo nmero de jogadas, temos
n n k
1X 1 XX
Xj = ai 1[Xj =ai ] =
n j=1 n j=1 i=1
k n
! k
X 1X X
= ai 1[Xj =ai ] ai P (X = ai ) = EX.
i=1
n j=1 i=1
Exemplo 4.2. Lanar um dado e observar sua face superior. Temos
1 2 6 21 7
EX = 1 P (X = 1) + + 6 P (X = 6) = + + + = = .
6 6 6 6 2
Exemplo 4.3. Lanar uma moeda 4 vezes e contar quantas vezes saem cara.
Temos
1 4 6 4 1 32
EX = 0 +1 +2 +3 +4 = = 2.
16 16 16 16 16 16
Exemplo 4.4. Seja X dada por X = 1A para algum A F. Nesse caso temos
EX = 0 P (Ac ) + 1 P (A) = P (A). Ou seja, 1A tem distribuio Bernoulli e
E1A = P (A).
4.1. VARIVEIS ALEATRIAS SIMPLES 73
Por outro lado, se X Bernoulli(p) ento podemos considerar o evento A dado

por A = { : X() = 1}, de forma que X = 1A e EX = p.
Exemplo 4.5. Lanar um dado duas vezes e somar os valores observados. Temos
1 2 3 4 5 6
EX = 2 +3 +4 +5 +6 +7 +
36 36 36 36 36 36
5 4 3 2 1 252
+8 +9 + 10 + 11 + 12 = = 7.
36 36 36 36 36 36
Exemplo 4.6. Retirar 3 cartas de um baralho francs e contar quantas so reis.
48.47.46 3.48.47.4 3.48.4.3 4.3.2 30600 3

EX = 0 +1 +2 +3 = = .
52.51.50 52.51.50 52.51.50 52.51.50 132600 13
Exemplo 4.7. Em geral, se X b(n, p), ento
n n
X n k X n!
EX = k p (1 p)nk = k pk (1 p)nk
k k!(n k)!
k=0 k=1
n
X (n 1)!
= np pk1 (1 p)nk
(k 1)!(n k)!
k=1
n1
X (n 1)!
= np pj (1 p)n1j = np[p + (1 p)]n1 = np.
j=0
j!(n 1 j)!
Exemplo 4.8. Lanar um dado duas vezes e multiplicar os valores observados.
1
EX = 1 1 + 2 2 + 3 2 + 4 3 + 5 2 + 6 4 + 8 2 + 9 1 + 10 2 + 12 4+
36
441 49
+ 15 2 + 16 1 + 18 2 + 20 2 + 24 2 + 25 1 + 30 2 + 36 1 = = .
36 4
Teorema 4.9. Sejam X e Y variveis aleatrias simples.
(i) Se X > 0 ento EX > 0.

(ii) Se X = c ento EX = c.
(iii) E[aX + bY ] = aEX + bEY .
(iv) Se X > Y ento EX > EY .
Vejamos alguns exemplos do uso da linearidade.

Exemplo 4.10. No Exemplo 4.3, temos X = X1 +X2 +X3 +X4 , onde Xi representa
o lanamento da i-sima moeda. Logo EX = EX1 +EX2 +EX3 +EX4 = 4 12 = 2.
Exemplo 4.11. No Exemplo 4.5, observamos que X = Y + Z, onde Y e Z

representam o primeiro e segundo lanamento do dado. Logo
7 7
EX = EY + EZ = + = 7.
2 2
Exemplo 4.12. No Exemplo 4.6, observamos que X = X1 + X2 + X3 , onde Xi
o indicador de que a i-sima carta retirada rei. Ao contrrio dos exemplos
anteriores, aqui X1 , X2 e X3 no so independentes. Ainda assim, cada uma
1
individualmente satisfaz EXi = 13 , e podemos calcular
1
EX = EX1 + EX2 + EX3 = 3 .
13
Exemplo 4.13. No Exemplo 4.7, observamos que X tem a mesma distribuio de
X1 + + Xn , com Xi i.i.d. Bernoulli(p), e portanto
EX = EX1 + + EXn = (p + + p) = np.
Nos exemplos anteriores, mais curto calcular a esperana usando linearidade

do que usando a distribuio de X diretamente. Existem muitos outros casos,
descrever a distribuio de X pode ser muito mais complicada ou at mesmo
impossvel.
Exemplo 4.14. Uma gaveta contm 10 pares de meias, todos diferentes. Abre-
se a gaveta no escuro e retiram-se 6 meias. Qual o valor esperado do nmero
de pares X formados pelas meias retiradas? Se numeramos as meias retiradas,
e contamos a quantidade N de meias cujo par tambm foi retirado, estaremos
contando cada par duas vezes, portanto N = 2X. A probabilidade de que o par
5
da primeira meia retirada tambm seja retirado 19 . Somando sobre as 6 meias,
5 15
temos E[2X] = EN = 6 19 , e portanto EX = 19 .
Proposio 4.15 (Incluso e excluso). Sejam A1 , . . . , An eventos aleatrios.

Ento
X X
P (A1 An ) = P (Ai ) P (Ai Aj )+
16i6n 16i<j6n
X
+ P (Ai Aj Ak ) P (A1 An ).
16i<j<k6n
Demonstrao. Como (i Ai )c = i Aci , temos 1 1i Ai = 1i Aci = i 1Aci , logo

Q
Q
1 1i Ai = i (1 1Ai ) . Expandindo o produto e simplificando, obtemos
X X X
1i Ai = 1Ai 1Ai Aj + 1Ai Aj Ak 1A1 An .
i 16i<j6n 16i<j<k6n
Finalmente, tomando a esperana de ambos os lados e usando linearidade, obtemos

a identidade desejada.
Teorema 4.16. Se X e Y so simples e independentes, ento
E[XY ] = EX EY.
Exemplo 4.17. No Exemplo 4.8, observamos que X = Y Z, onde Y e Z

representam o primeiro e segundo lanamento do dado. Logo,
7 7 49
EX = EY EZ = = .
2 2 4
Demonstraes
Conclumos esta seo com a demonstrao dos teoremas acima.

Observe que, se A1 , . . . , Ak formam uma partio de , ento cada pertence
a um, e somente um, dos A1 , . . . , Ak . Portanto,
k
X
1Aj () = 1 .
j=1
Sejam a1 , . . . , an os valores assumidos por X e considere os eventos aleatrios Aj

dados por [X = aj ]. Observe que, exceto por permutaes dos ndices j, existe
uma nica forma de escrever

n
X
X= aj 1Aj
j=1
com os aj distintos e A1 , . . . , An formando uma partio de . Nessa notao,

n
X
EX = aj P (Aj ).
j=1
Pn
Lema 4.18. Se X = j=1 aj 1Aj , onde A1 , . . . , An formam uma partio, ento
Pn
EX = j=1 aj P (Aj ), mesmo que alguns aj coincidam.
Pk
Demonstrao. Com efeito, primeiro escrevemos X = j=1 cj 1Cj onde os cj so
distintos e C1 , . . . , Ck formam uma partio. Observe que, para todo j = 1, . . . , k,
[
Cj = Ai .
i:ai =cj
Agrupando corretamente os termos dos somatrios, obtemos
k
X k
X X k
X X
EX = cj P (Cj ) = cj P (Ai ) = ai P (Ai ) =
j=1 j=1 i:ai =cj j=1 i:ai =cj
k X
X n n
X
= 1ai =cj ai P (Ai ) = ai P (Ai ),
j=1 i=1 i=1
concluindo a prova.
Demonstrao do Teorema 4.9. Os itens (i) e (ii) so triviais, e (iv) segue de (iii)
e (i) se tomamos Z = X Y . Resta provar (iii). Sejam X e Y variveis aleatrias
simples. Escrevemos X e Y como
n
X k
X
X= ai 1Ai e Y = bj 1Bj ,
i=1 j=1
onde A1 , . . . , An particionam e B1 , . . . , Bk tambm. Temos
n
X k
X k
X n
X
aX + bY = a ai 1Ai 1Bj + b bj 1Bj 1Ai =
i=1 j=1 j=1 i=1
n X
X k n X
X k
= (aai + bbj )1Ai 1Bj = (aai + bbj )1Ai Bj .
i=1 j=1 i=1 j=1
Mas a famlia {Ai Bj }i=1,...,n;j=1,...,k forma uma partio de , e pelo lema

anterior temos
n X
X k
E[aX + bY ] = (aai + bbj )P (Ai Bj )
i=1 j=1
n X
X k n X
X k
= aai P (Ai Bj ) + bbj P (Ai Bj )
i=1 j=1 i=1 j=1
n
X k
X k
X n
X
= aai P (Ai Bj ) + bbj P (Ai Bj )
i=1 j=1 j=1 i=1
n
X k
X
= aai P (Ai ) + bbj P (Bj )
i=1 j=1
n
X k
X
=a ai P (Ai ) + b bj P (Bj ) = aEX + bEY.
i=1 j=1
Demonstrao do Teorema 4.16. Sejam a1 , . . . , an os valores assumidos por X e

b1 , . . . , bk os valores assumidos por Y . Tomando Ai = [X = ai ] e Bj = [Y = bj ],
temos
" n
! k
!# " n X
k
#
X X X
E[XY ] = E ai 1Ai bj 1Bj =E ai bj 1Ai 1Bj
i=1 j=1 i=1 j=1
" k
n X
# n X
k
X X
=E ai bj 1Ai Bj = ai bj E[1Ai Bj ]
i=1 j=1 i=1 j=1
X k
n X n X
X k
= ai bj P (Ai Bj ) = ai bj P (Ai )P (Bj )
i=1 j=1 i=1 j=1
" n
#" k #
X X
= ai P (Ai ) bj P (Bj ) = EX EY.
i=1 j=1
Na quarta e sexta igualdades foram usadas a linearidade da esperana e indepen-

dncia de X e Y , respectivamente.
4.2 Esperana Matemtica

Nesta seo definimos a esperana de uma varivel aleatria qualquer, e estudamos
suas principais propriedades. A esperana de uma varivel aleatria no-negativa
definida aproximando-se por variveis aleatrias simples.
Definio 4.19. Seja X uma varivel aleatria tal que X > 0. Definimos a
esperana de X por
EX = sup {EZ : Z varivel aleatria simples com 0 6 Z 6 X}.
Para definir a esperana no caso geral, observe que uma varivel aleatria sempre
pode ser decomposta em suas partes positiva e negativa. De fato, temos
X = X + X ,
onde ( (
+ X, X > 0, X, X 6 0,
X = X =
0, X 6 0, 0, X > 0,
satisfazem X + > 0 e X > 0. Observe tambm que |X| = X + + X .

4.2. ESPERANA MATEMTICA 79
Definio 4.20 (Esperana de uma Varivel Aleatria). Seja X uma varivel

aleatria. Definimos a esperana de X por
EX = EX + EX
sempre que EX + ou EX for finita.
Observe que as trs definies so consistentes entre si, ou seja, se X no-negativa

esta ltima definio d o mesmo valor que a definio anterior, e se X simples
teremos o mesmo valor que pela definio dada no incio do captulo.
A seguir veremos como obter EX no caso de X ser discreta, contnua, ou mista,
bem como a esperana de funes de variveis ou vetores aleatrios desses tipos.
Teorema 4.21 (Variveis Aleatrias Discretas). Seja X uma varivel aleatria

discreta no-negativa. Ento
X
EX = x pX (x).
x
Demonstrao. Segue direto do Teorema 4.27 com h(x) = x.
Exemplo 4.22 (Poisson). Se X Poisson(), ento

X n e X n e X n1 X n
EX = n = = e = e = e e = .
n=0
n! n=1
(n 1)! n=1
(n 1)! n=0
n!
Portanto, o valor esperado de uma varivel aleatria que segue o modelo de Poisson
com parmetro o prprio .
Proposio 4.23. Se X assume valores em {0, 1, 2, 3, . . . }, ento

X
EX = P (X > n).
n=1
Demonstrao. Introduzimos um indicador de n 6 k para inverter as somas:

X X
X k
EX = k P (X = k) = P (X = k)
k=1 k=1 n=1
X X
= 1n6k P (X = k)
k=1 n=1
X X
= 1n6k P (X = k)
n=1 k=1
X X
X
= P (X = k) = P (X > n).
n=1 k=n n=1
Exemplo 4.24 (Geomtrica). Se X Geom(p) ento

X X X 1 1
EX = P (X > n) = (1 p)n1 = (1 p)j = = .
n=1 n=1 j=0
1 (1 p) p
Exerccio 4.1. Sejam X1 , X2 , X3 , . . . uma sequncia de variveis independentes

com distribuio U [0, 1] e tome a varivel aleatria N como sendo o menor n tal
que X1 + X2 + + Xn > 1. Mostre que EN = e.
Teorema 4.25 (Variveis Aleatrias Absolutamente Contnuas). Seja X uma

varivel aleatria absolutamente contnua no-negativa. Ento
Z
EX = x fX (x) dx.
R
Demonstrao. Segue direto do Teorema 4.27 com h(x) = x.
Exemplo 4.26 (Exponencial). Se X exp(), vale

Z + Z + Z
1
xex dx = xex 0 [ex ] dx =

EX = x fX (x) dx = .
0 0
Portanto, o valor esperado de uma varivel aleatria que segue o modelo exponen-
cial com parmetro 1 .
4.2. ESPERANA MATEMTICA 81
Suponha que queremos calcular a esperana da varivel aleatria Y dada por
Y = h(X),
onde h uma funo real contnua, ou uma funo contnua por partes. Temos pelo
menos duas alternativas. Uma calcular FY (t) para todo t, a partir da distribuio
acumulada FX de X, e depois calcular a esperana usando os Teoremas 4.21 e 4.25.
Entretanto, existe outra maneira, que pode ser mais conveniente:
Teorema 4.27 (Mudana de Varivel). Seja X um vetor aleatrio misto com
componentes discreta e absolutamente contnua. Seja h : Rd R+ uma funo
contnua por partes, e considere Y = h(X). Ento
X Z
EY = h(x) pX (x) + h(x) fX (x) dd x.
x Rd
Exemplo 4.28. Seja X exp(). Vamos calcular EX 2 . Temos

Z Z Z
x 2 x 2 2
EX =2 2
x e dx = xe dx = 2 ex dx = ,
0 0 0 2
integrando por partes duas vezes.
Definio 4.29. Dizemos que X integrvel se ambas EX + e EX so finitas,

ou seja, se EX um nmero finito.
Teorema 4.30. Sejam X e Y variveis aleatrias em (, F, P ). Ento valem as

seguintes propriedades:
(E1) Unitariedade. Se X = 1A , ento EX = P (A).

(E2) Monotonicidade. Se X 6 Y , ento EX 6 EY .
(E3) Linearidade. E[aX + bY ] = aEX + bEY para a, b R.
Em (E2) basta que EY < + ou EX > para que ambas as esperanas

estejam definidas e valha a desigualdade. A igualdade em (E3) vale se EX e EY
esto definidas e aEX + bEY est definido, isto , no resulta em + . Em
ambos casos, suficiente que X seja integrvel.
Demonstrao. Ver na pgina 85.

Todas as propriedades da Esperana decorrem dessas trs propriedades.
Proposio 4.31.
1. Se X = c ento EX = c.
2. Se P (X = Y ) = 1 e EX est definida, ento EY = EX.
3. Se e EX est definida, ento E[aX + b] = aEX + b.
4. X integrvel se e somente se E|X| < .
5. Se X integrvel ento E[X EX] = 0.
6. Se a 6 X 6 b, ento a 6 EX 6 b.
7. Se e EX est definida, ento |EX| 6 E|X|.
8. Se 0 6 |X| 6 Y e Y integrvel, ento X integrvel.
9. Se e EX est definida, ento E[X1A ] est definida para todo A F.
10. Se X integrvel, ento X1A integrvel para todo A F.
11. Se X > 0 ento EX > 0.
12. Se X > 0 e EX = 0 ento P (X = 0) = 1.
Demonstrao. Vamos mostrar apenas a ltima, deixando as demais como exerc-

cio. Para k N, temos 0 = EX > E(X1[X> k1 ] ) > E( k1 1[X> k1 ] ) = k1 P (X > k1 ).
Logo, P (X > k1 ) = 0 para todo k, portanto P (X > 0) = limk P (X > k1 ) = 0.
Proposio 4.32 (Esperana de Variveis Aleatrias Independentes). Se X e Y

so independentes e integrveis, ento XY integrvel e
E[XY ] = EX EY.
A mesma identidade vale se X e Y so no-negativas sem supor integrabilidade.
Existem outras formas de se definir a esperana, todas elas equivalentes. Isso

tambm se reflete em distintas notaes, que o leitor poder encontrar em diferentes
bibliografias:
Z Z Z
EX = X dP, EX = x dPX , EX = x dFX (x).
R R
4.3. DEMONSTRAES 83
A definio que usamos aqui corresponde primeira, que se refere Integral de

Lebesgue sobre o Espao de Probabilidade visto como um Espao de Medida.
Essa nomenclatura no coincidncia, e de fato a definio de esperana parecida
com a definio de integral. A rea sob a curva do grfico de uma funo g : R R+
constante por partes dada pela soma de reas de retngulos, e cada uma dessas
reas dada pelo comprimento da base do respectivo retngulo multiplicado por
sua altura. De forma anloga, a esperana de uma varivel aleatria simples X :
R+ dada pela soma da contribuio de cada um dos seus valores, e a
contribuio de cada valor dada pelo prprio valor multiplicado por sua respectiva
probabilidade. Quando consideramos uma funo g : R R+ qualquer (ou seja,
R
no necessariamente constante por partes), a integral R g(x)dx equivale noo
de rea sob a curva do seu grfico, e definida a partir de aproximaes em
que o domnio dividido em pequenas partes. Para a esperana de uma varivel
aleatria X : R+ qualquer, a ideia tambm de usar aproximaes. Porm,
como no h uma forma razovel de dividir o domnio em pequenas partes, o que
se faz dividir o contra-domnio, como ilustrado na Figura 4.2.
g(x) X()
Figura 4.2: Comparao entre a integral de Riemann na reta e a esperana

matemtica em um espao de probabilidade.
4.3 Demonstraes
Nesta seo demonstramos as propriedades da Esperana apresentadas na seo
anterior. Primeiro observamos que qualquer varivel aleatria no-negativa X pode
ser aproximada por variveis aleatrias simples. De fato, considere gk : R+ R+
dada por
gk (x) = 2k max j {0, 1, . . . , 2k k} 2k j 6 x ,

ilustrada na Figura 4.3.
g2 (y)
x
g3 (x)
g2 (x)
g1 (x)
x y
Figura 4.3: Grfico de g2 (y) e aproximao de gk (x) % x para um x fixo.
Observe que gk assume no mximo 2k k + 1 valores. Alm disso,
gk (x) > gk1 (x)
e
x 2k < gk (x) 6 x para todo k > x.
Portanto, para todo x > 0,
gk (x) % x quando k .
Tomando Xk = gk (X), temos que Xk uma varivel aleatria simples e Xk % X

para todo . Veja a Figura 4.4.
Lema 4.33. Sejam X e Y variveis aleatrias no-negativas definidas em
(, F, P ), e tome Xk = gk (X), Yk = gk (Y ). Ento, quando k ,
EXk EX e E[Xk + Yk ] E[X + Y ].
Demonstrao. Seja Z uma varivel aleatria simples com 0 6 Z 6 X + Y .

Tomando M = max Z(), temos que Xk + Yk > Z 2k+1 para k > M .
Da segue que E[Xk + Yk ] > E[Z] 2k+1 , logo lim inf k E[Xk + Yk ] > EZ.
Tomando o supremo em Z, temos que lim inf k E[Xk + Yk ] > E[X + Y ] e portanto
E[Xk + Yk ] % E[X + Y ]. Tomando Y = 0 temos EXk % EX.
4.3. DEMONSTRAES 85
X()
g2 (X())
g1 (X())
Figura 4.4: Aproximao de X por g1 (X) e g2 (X).
Demonstrao do Teorema 4.30. A unitariedade segue da Definio 4.1.

Para a monotonicidade, primeiro supomos que 0 6 X 6 Y . Dada Z 6 X simples,
temos Z 6 Y , e pela definio de EY , temos EZ 6 EY . Tomando o supremo em
Z, pela definio de EX, temos EX 6 EY . Para o caso geral, observe que X 6 Y
implica X + 6 Y + e X > Y .
Para a linearidade, primeiro observamos que da definio de esperana segue que
E[aX] = aEX, restando apenas mostrar que E[X + Y ] = EX + EY .
Suponha inicialmente que X e Y sejam no-negativas. Usando o Teorema 4.9 e o
Lema 4.33, temos que
E[X + Y ] = lim E[Xk + Yk ] = lim[EXk + EYk ] = EX + EY.

k k
Finalmente, sejam X e Y duas variveis aleatrias quaisquer. Temos que
(X + Y )+ (X + Y ) = X + Y = X + X + Y + Y ,
logo
(X + Y )+ + X + Y = (X + Y ) + X + + Y + .
Como todas as variveis aleatrias acima so no-negativas, pelo caso anterior
temos
E[(X + Y )+ ] + EX + EY = E[(X + Y ) ] + EX + + EY + .
Supondo que EX +EY est definido, necessariamente temos que EX +EY <
ou EX + + EY + < . Consideramos sem perda de generalidade o primeiro caso.
Como (X + Y ) 6 X + Y , temos E[(X + Y ) ] 6 EX + EY < , e portanto
podemos subtrair, obtendo
E[(X + Y )+ ] E[(X + Y ) ] = (EX + EX ) + (EY + EY ).
Demonstrao do Teorema 4.27. Tome Yk = gk (Y ) = gk (h(X)). Temos que

X Z
EYk = gk (h(x)) pX (x) + gk (h(x)) fX (x) dd x.
x Rd
Portanto,
X Z
EY = lim EYk 6 h(x) pX (x) + h(x) fX (x) dd x.
k Rd
x
Por outro lado,
EYk = E[Yk 1h(X)6k ] + E[Yk 1h(X)>k ]

X Z
= gk (h(x)) pX (x) + gk (h(x)) fX (x) dd x + E[Yk 1h(X)>k ]
xAk Ak
X Z
> h(x) pX (x) + h(x) fX (x) dd x 2k ,
xAk Ak
onde Ak = {x Rd : h(x) 6 k} % Rd . Fazendo k , temos que1

X Z
lim EYk > h(x) pX (x) + h(x) fX (x) dd x.
k Rd
x
Portanto, pelo Lema 4.33 temos

X Z
EY = lim EYk = h(x) pX (x) + h(x) fX (x) dd x,
k Rd
x
como queramos demonstrar.

1 Ao invs de justificar que a integral de uma funo no-negativa sobre A converge para a
k
integral sobre Rd , diremos que a integral deve ser calculada tomando esse limite.
4.4. MOMENTOS, VARINCIA E COVARINCIA 87
Demonstrao da Proposio 4.32. Suponha que X e Y so variveis aleatrias

no-negativas. Usando o Teorema 4.16, temos que
E[XY ] = lim E[gk (X)gk (Y )] = lim[Egk (X) Egk (Y )] = EX EY,

k k
onde os limites sero justificados pelo Teorema 10.1.

Suponha agora que X e Y so integrveis. Usando o caso anterior, temos
E[XY ] = E[X + Y + X + Y X Y + + X Y ]
= EX + EY + EX + EY EX EY + + EX EY = EX EY.
4.4 Momentos, Varincia e Covarincia

Definio 4.34. Dado k = 1, 2, 3, . . . , definimos o momento de ordem k, ou o
k-simo momento da varivel aleatria X como EX k . Se X integrvel, definimos
o k-simo momento central por E(X EX)k . O momento absoluto de ordem k
definido como E|X|k .
Exemplo 4.35. Se X U [0, 1], temos
Z 1 Z 1 Z 1
1 1 1
EX = x dx = , EX 2 = x2 dx = , EX k = xk dx = ,
0 2 0 3 0 k+1
e o segundo momento central dado por

Z 1
h
1 2
i
1 2
1
E X 2 = x 2 dx = .
0 12
O segundo momento central recebe o nome de varincia.

Definio 4.36 (Varincia). Seja X uma varivel aleatria integrvel. Define-se
a varincia da varivel aleatria X, denotada por V X ou 2 (X), como
V X = E[(X EX)2 ].
1 1
Exemplo 4.37. Pelo exemplo anterior, se X U [0, 1], ento EX = 2 eVX = 12 .
Proposio 4.38 (Propriedades da Varincia). Seja X uma varivel aleatria

integrvel. Ento:
1. V X > 0.
2. V X = EX 2 (EX)2 .
3. V X = 0 se e somente se P (X = c) = 1 para algum c R, neste caso
X = EX.
4. V X 6 EX 2 .
5. V (X b) = V X.
6. V (aX) = a2 V X.
Exemplo 4.39. Se X Bernoulli( 12 ), temos
1 1 1
EX = , EX 2 = , V X = EX 2 (EX)2 = .
2 2 4
Definio 4.40 (Desvio-Padro). O desvio-padro (X) dado pela raiz quadrada
da varincia
(X) = V X,
e mede a disperso de X em torno de sua mdia. O desvio-padro tem a mesma
unidade de medida de X.
Exemplo 4.41. Se X Bernoulli( 12 ), temos

p 1
(X) = VX = 1/4 = .
2
Ou seja, uma varivel Bernoulli( 21 ) varia em mdia = 1

2 unidade em torno de seu
valor esperado = 12 .
As propriedades do desvio-padro so anlogas:
1. (X) > 0.
2. (X) = 0 se e somente se P (X = c) = 1 para algum c R.

3. (X) 6 EX 2 .
4. (X b) = (X) para todo b R.
5. (aX) = |a| (X) para todo a R.
4.4. MOMENTOS, VARINCIA E COVARINCIA 89
Definio 4.42 (Covarincia). Dadas duas variveis aleatrias X e Y com segundo

momento finito, uma forma de medir a dependncia linear da disperso dessas
variveis atravs da sua covarincia Cov(X, Y ), dada por
Cov(X, Y ) = E [(X EX)(Y EY )] .
Proposio 4.43 (Propriedades da Covarincia). Dadas X e Y com segundo

momento finito:
1. Cov(X, Y ) = E[XY ] EX EY .
2. Cov(X, Y ) = 0 se e somente se E[XY ] = EX EY .
3. Cov(cX, Y ) = c Cov(X, Y ).
4. Cov(X, Y ) = Cov(Y, X).
5. Cov(X, X) = V X.
6. Cov(X, c) = 0 para todo c R.
7. Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z).
P P P P
8. Cov( i ai Xi , j bj Yj ) = i j ai bj Cov(Xi , Yj ).
Exemplo 4.44. Se fXY (x, y) = 1[0,1] (x)1[0,1] (y), Z = X Y , W = X Y , ento:

Z 1Z 1
1
E[ZW ] = E[XY ] = xy dxdy =
0 0 4
Z 1 Z x Z 1 Z 1
2 1 1 1
EZ = ydy + xdy dx = ( x2 + x x2 )dx = =
0 0 x 0 2 6 3
Z 1 Z x Z 1 Z 1
1 x2 1 1 1 2
EW = xdy + ydy dx = (x2 + 2 2 )dx = + =
0 0 x 0 3 2 6 3
1 2 1
Cov(Z, W ) = E[ZW ] EZ EW = = .
4 9 36
Observao 4.45. Se as variveis aleatrias X e Y so independentes e integrveis
ento X e Y so no-correlacionadas, i.e., Cov(X, Y ) = 0. Entretanto, nem sempre
vale a recproca, isto , E[XY ] = EX EY no implica X e Y independentes.
Contra-Exemplo 4.46. Sejam X e Y variveis aleatrias tomando valores 1, 0, 1
com distribuio conjunta dada por p(1, 1) = p(1, 1) = p(1, 1) = p(1, 1) =
p(0, 0) = 15 . Ento EXY = EX EY , mas X e Y no so independentes, pois

P (X = 0, Y = 0) 6= P (X = 0)P (Y = 0).
Definio 4.47 (Coeficiente de Correlao). Dadas X e Y com varincias finitas e

positivas, o coeficiente de correlao (X, Y ) de X e Y uma medida padronizada
da dependncia linear entre X e Y :

X Y
(X, Y ) = Cov , .
(X) (Y )
O coeficiente de correlao no tem unidade de medida.
Proposio 4.48 (Propriedades do Coeficiente de Correlao). Dadas X e Y com

varincias finitas e positivas, valem:
1. (X, Y ) = (Y, X).

Cov(X,Y )
2. (X, Y ) = (X)(Y ) .
3. (X, X) = 1.
4. (X, aY + b) = (X, Y ) se a > 0 e b R.
Exemplo 4.49. No Exemplo 4.44, temos

Z 1 Z x Z 1 Z 1
3 1 1 1
EZ 2 = y 2 dy + x2 dy dx = ( x3 + x2 x3 )dx = =
0 0 x 0 3 6 6
1 1 1
V Z = EZ 2 (EZ)2 = =
6 9 18
1
V W = exerccio =
18
Cov(Z, W ) 1/36 1
(Z, W ) = =p p = .
(Z)(W ) 1/18 1/18 2
Dada uma varivel aleatria X com EX 2 < , definimos a padronizao de X, ou

a normalizao de X, como
X EX
.
(X)
A padronizao de uma varivel aleatria no tem unidade de medida.
4.5. DESIGUALDADES BSICAS 91
Exerccio 4.2. Mostre que:
1. EZ = 0 e V Z = 1, onde Z a padronizao de X.
2. X e (aX + b) tm a mesma padronizao para a > 0 e b R.
3. Se Z a padronizao de X e W a padronizao de Y , ento
(Z, W ) = Cov(Z, W ) = E(ZW ) = (X, Y ).
Proposio 4.50. Sejam X e Y variveis aleatrias com varincias finitas e

positivas. Ento:
1. (X, Y ) [1, +1].

2. | Cov(X, Y )| 6 (X)(Y ).
3. (X, Y ) = 1 Cov(X, Y ) = (X)(Y ) P (Y = aX + b) = 1, a > 0.
Veremos a demonstrao na prxima seo, como corolrio da Desigualdade de

Cauchy-Schwarz.
4.5 Desigualdades Bsicas

Definio 4.51 (Funes cncavas e convexas). Seja B R um intervalo. Dizemos
que g : B R convexa se satisfaz s seguintes condies equivalentes:
xa
(i) Para todos a < x < b em B, g(x) 6 g(a) + ba [g(b) g(a)].
(ii) Para todo a B, existe c R tal que g(x) > g(a) + c(x a) para todo x B.
(iii) g 0 no-decrescente em B (caso g seja diferencivel).
(iv) g 00 (x) > 0 para todo x B (caso g tenha segunda derivada).
Dizemos que g cncava se g convexa.

Exemplo 4.52. So funes convexas: g(x) = x2 , g(x) = ex , g(x) = |x|, g(x) =
x1 . So funes cncavas: g(x) = log x em (0, ), g(x) = x.
Proposio 4.53 (Desigualdade de Jensen). Seja g : B R uma funo convexa
e X uma varivel aleatria integrvel assumindo valores em B. Ento
E[g(X)] > g(EX).

Demonstrao. Tomando a = EX e c tal que g(x) > g(a)+c(xa) para todo x I,

temos E[g(X)] > E[g(EX) + c(X EX)] = g(EX) + cEX cEX = g(EX).
Corolrio 4.54. Se g uma funo cncava, ento E[g(X)] 6 g(EX).
Corolrio 4.55. Seja X uma varivel aleatria integrvel. Ento
(a) E|X| > |EX|.

(b) EX 2 > (EX)2 .
(c) E X1 > EX1

se X > 0.
p p p
(d) E |X| > (E |X|) > |EX| para p > 1.
1 1
(e) (E|X|t ) t > (E|X|s ) s se 0 < s 6 t.
Demonstrao. (a), (b) e (c) so imediatos. Para (d) usamos g(x) = xp em (0, )
e depois (a). Para (e), tomamos Y = |X| e g(y) = y t/s em (0, ). Temos que g
t
convexa pois g 0 (y) = st y s 1 no-decrescente. Logo, E|X|t = E[(Y s )t/s ] >
[EY s ]t/s . Elevando todos os temos a 1/t, temos a desigualdade desejada.
Proposio 4.56 (Desigualdade Bsica de Tchebyshev). Seja X uma varivel

aleatria no-negativa e seja > 0 uma constante. Ento
E(X)
P (X > ) 6 .

Demonstrao. Tome Y = 1[X>] . Temos que Y 6 X, logo
EX > EY = P (X > ),
donde segue a desigualdade.
Exemplo 4.57. Se uma empresa recebe em mdia 100 chamadas telefnicas por
dia, queremos estimar a probabilidade de, num certo dia, receber mais de 300
chamadas. Temos
EX 1
P (X > 300) 6 = .
300 3
Ou seja, esse evento ocorre com probabilidade igual a, no mximo, 31 .
Exerccio 4.3. Suponha que X seja uma varivel aleatria tal que P (X > 0) = 1
e P (X > 10) = 15 . Mostre que E(X) > 2.
4.5. DESIGUALDADES BSICAS 93
Proposio 4.58 (Desigualdade de Markov). Seja X uma varivel aleatria

qualquer e seja > 0 uma constante. Ento para todo t > 0,
t
E |X|
P (|X| > ) 6 .
t
Demonstrao. Defina Y = |X|t e use a desigualdade bsica com Y e t :
EY E|X|t
P (|X| > ) = P (Y > t ) 6 = .
t t
Proposio 4.59 (Desigualdade Clssica de Tchebyshev). Seja X uma varivel
aleatria integrvel e seja > 0 uma constante. Ento
VX
P |X E(X)| > 6 2 .

Demonstrao. Tomando Y = (X EX)2 , temos EY = V X e, aplicando a

desigualdade bsica,
EY VX
P |X EX| > = P (Y > 2 ) 6 2 = 2 .

Exemplo 4.60. Estimar a probabilidade de uma varivel aleatria X no diferir
de sua mdia por mais que duas vezes o valor do seu desvio-padro . Temos
VX 2 3
P ( 2 < X < + 2) = 1 P |X EX| > 2) > 1 2
= 1 2
= .
(2) 4 4
Exerccio 4.4. Suponha que X seja uma varivel aleatria tal que E(X) = 10,
P (X 6 7) = 0, 2 e P (X > 13) = 0, 3. Prove que V X > 29 .
Teorema 4.61 (Desigualdade de Cauchy-Schwarz). Se EX 2 < e EY 2 < ,

ento XY integrvel e

E[XY ] 6 EX 2 EY 2 .

Ainda, se E[XY ] = EX 2 EY 2 , ento existe c > 0 tal que P (Y = cX) = 1, ou
ento P (X = 0) = 1.

Demonstrao. Sejam a = EX 2 e b = EY 2 . Se a = 0 ou b = 0, o teorema vale
trivialmente. Assumimos ento que 0 < a < e 0 < b < . Observamos que
2
X2 Y2

X Y XY 2 E[XY ]
06E =E 2 + =2 ,
a b a2 ab b2 ab
donde
E[XY ] 6 ab = EX 2 EY 2 .
X Y
2
Reciprocamente, suponha que E[XY ] = ab. Temos que E a b = 0, logo
P(X Y a
a b = 0) = 1 e portanto P (Y = cX) = 1 com c = b .
Demonstrao da Proposio 4.50. Tomamos
X EX Y EY
Z= e W =
(X) (Y )
Pela Desigualdade de Cauchy-Schwarz temos que

(X, Y ) = E[ZW ] 6 EZ 2 EW 2 = +1,
donde
Cov(X, Y ) = (X)(Y )(X, Y ) 6 +(X)(Y ).
Ainda, se (X, Y ) = +1, ento W = +cZ com c > 0. Mas 1 = EW 2 = c2 EZ 2 = c2 ,
logo c = +1 e portanto
X EX
Y = EY + (Y ) Z = EY + (Y ) .
(X)
As propriedades anlogas com 1 no lugar de +1 seguem do caso anterior tomando-

se X no lugar de X:
(X, Y ) = (X, Y ) > 1,

Cov(X, Y ) = Cov(X, Y ) > (X)(Y ),
X E[X] X EX
Y = EY + (Y ) = EY (Y ) .
(X) (X)
4.6. ESPERANA CONDICIONAL DADO UM EVENTO 95
4.6 Esperana Condicional dado um Evento
A informao sobre a ocorrncia de um certo evento A F com P (A) > 0 leva

definio de uma nova medida P 0 em (, F), dada pela relao P 0 (B) = P (B|A),
B F. A distribuio de qualquer varivel aleatria X tambm afetada neste
caso. Como vimos no Captulo 2, X passa a ter uma nova funo de distribuio
FX|A (t), t R, uma nova lei PX|A (B), B B.
Nesta situao, X tambm ter um novo valor esperado E(X|A). No caso de
X ser mista com componentes discreta e absolutamente contnua, sua esperana
condicional dado A ser dada por
X Z
E(X|A) = x pX|A (x) + x fX|A (x) dx.
x R
No caso discreto, escolhemos a forma mais conveniente entre calcular
FX|A (t) = P (X 6 t | A) t
ou
pX|A (x) = P (X = x | A) x.
Exemplo 4.62. Seja X a varivel aleatria que representa o resultado do lana-

mento de um dado, isto , X Ud {1, 2, 3, 4, 5, 6}. Vamos calcular E(X | X par).
Primeiro encontramos a funo de probabilidade condicional:
1
pX|A (x) = P (X = x|A) = 1{2,4,6} (x)
3
e em seguida a esperana
X
E(X|A) = x pX|A (x) = 4.
x
No caso contnuo, em geral calculamos
FX|A (t) = P (X 6 t | A) t
e depois fazemos
d
FX|A (x) x.
fX|A (x) =
dx
Exemplo 4.63. Seja X uma varivel aleatria com distribuio X U [0, 1].
Vamos calcular E(X | X < 21 ). Primeiro encontramos a funo de distribuio
condicional
0,

x 6 0,
FX|A (t) = P (X 6 t|A) = 2x, 0 6 x 6 21 , ,

1
1, x> 2
logo a densidade condicional
d
fX|A (x) = FX|A (x) = 2 1[0, 21 ]
dx
e finalmente a esperana condicional
Z
1
E(X|A) = x fX|A (x) dx = .
R 4
4.7 Exerccios
4.5. Calcular EX, onde:
1. X Geom(p).
2. X N (, 2 ).
4.6. Considere o seguinte jogo de azar. Uma urna contm 18 bolas, sendo 9 azuis e
9 brancas. Retiram-se 3 bolas da urna ao acaso. As bolas retiradas so descartadas
e o jogador marca 1 ponto se pelo menos 2 dessas 3 bolas forem azuis. Em seguida
retiram-se outras 3 bolas da urna ao acaso, as bolas retiradas so descartadas e o
jogador marca 1 ponto se pelo menos 2 dessas 3 bolas forem azuis. Repete-se o
procedimento at que a urna esteja vazia. Ao final, o jogador recebe um prmio X
igual ao total de pontos marcados. Calcule EX.
4.7. Dada X varivel aleatria, defina
(
X, X 6 a,
Y =
a, caso contrrio,
4.7. EXERCCIOS 97
onde a uma constante positiva. Mostre que EY 6 EX.

4.8. Mostre que X integrvel se, e somente se, E|X| < .
4.9. Seja X uma varivel aleatria simtrica em torno de , isto , P (X > +x) =
P (X 6 x) para todo x R. Mostre que se X integrvel, ento E(X) = .
4.10. Seja X uma varivel aleatria. Mostre que X integrvel se, e somente se

X
P |X| > n < .
n=0

4.11. Prove que E|X| 6 EX 2 .
4.12. Sejam X1 , . . . , Xn variveis aleatrias satisfazendo EXi2 < i.
1. Se Cov(Xi , Xj ) = 0 i 6= j, mostre que

n
! n
X X
V Xi = V Xi .
i=1 i=1
2. A identidade acima tambm vale se as variveis aleatrias forem independen-

tes?
4.13. Calcular V X, onde:
1. X Geom().
2. X Poisson().
3. X b(n, p).
4. X exp().
5. X N (, 2 ).
4.14. Considere uma sequncia de variveis aleatrias X1 , X2 , X3 , . . . i.i.d. com
distribuio Bernoulli(p). Quantas realizaes so suficientes para que a mdia
amostral, dada por
n
1X
Xn () = Xn (),
n j=1
no difira de seu valor esperado p por mais de 0,01, com probabilidade mnima de
0,95? (Sugesto: Desigualdade de Tchebyshev)
4.15. Seja X U [1, 1] e sejam A1 = [X > 0] e A2 = [X < 0]. Pede-se
1. A distribuio condicional de X dado A1 .

2. A distribuio condicional de X dado A2 .
3. E(X|A1 ).
4. E(X|A2 ).
4.16. Seja X uma varivel aleatria exponencial com parmetro . Encontre

E [X | X > 2].
4.17. Se X Geom(p), encontre E [X | X > 5].
4.18. Se X tem funo de probabilidade
nn e
pX (n) =
.n!
para n = 0, 1, 2, 3, . . . , calcule V X.
Dica: desenvolver (n 1)(n 2 + 1) + 2(n 1) + 1.

Recomendados: 5, 6, 19, 20ab, 21, 23, 26, 28, 30, 36.
Captulo 5
Convergncia de Variveis
Aleatrias
Considere uma sequncia de variveis aleatrias X1 , X2 , X3 , . . . . Em inmeras

situaes tericas e prticas, uma pergunta natural qual o comportamento de
longo prazo da sequncia (Xn )n . Dito de outra forma: como se comporta Xn
quando n suficientemente grande?
Tratando-se de variveis aleatrias, o conceito de convergncia uma generalizao
do conceito de convergncia para nmeros reais. Entretanto, existem vrias formas
de se fazer essa generalizao, e cada forma a mais natural em determinado
contexto. No caso de variveis aleatrias degeneradas, todas as definies so
equivalentes convergncia de nmeros reais.
5.1 Lema de Borel-Cantelli
Comeamos definindo o lim inf e o lim sup de uma sequncia de eventos.
Definio 5.1 (lim sup e lim inf de eventos). Dada uma sequncia de eventos
aleatrios An , definimos o evento lim sup An , denotado por [An infinitas vezes] ou
99
100 CAPTULO 5. CONVERGNCIA DE VARIVEIS ALEATRIAS
[An i.v.], por

[
\
lim sup An = Ak .
n
n=1 k=n
Definimos o evento lim inf An , denotado por [An eventualmente], por

\
[
lim inf An = Ak .
n
n=1 k=n
importante entender as seguintes interpretaes:
lim sup An o conjunto dos s tais que pertence a infinitos An s.
O evento lim sup An significa An acontece infinitas vezes.
lim inf An o conjunto dos s tais que pertence a todos os An s exceto

uma quantidade finita deles.
O evento lim inf An significa An acontece para todo n grande.
Alm disso, vale que

lim inf An lim sup An
e
lim inf(Acn ) = (lim sup An )c .
(
(1/n, 1], n mpar,
Exemplo 5.2. Exemplo: = R, An =
(1, 1/n], n par.
Temos
[
\
\
lim sup An = Ak = (1, 1] = (1, 1]
n=1 k=n n=1
e
\
[
[
lim inf An = Ak = {0} = {0}.
n=1 k=n n=1
Exerccio 5.1. Sejam um espao de probabilidade (, F, P ) e uma sequncia de

eventos aleatrios (An ) em F. Mostre que, se (An ) crescente, ento
lim sup An = lim inf An =

n=1 An .
5.1. LEMA DE BOREL-CANTELLI 101
Por outro lado, se (An ) decrescente, ento
lim sup An = lim inf An =

n=1 An .
Exerccio 5.2. Considere o espao de probabilidade (R2 , B 2 , P ), no qual P uma

probabilidade arbitrria. Se An = {(x, y) R2 : 0 6 x 6 n, 0 6 y 6 n1 }, encontre
lim sup An e lim inf An .
Exerccio 5.3. Considere a sequncia de intervalos

(
(0, 2 + n1 ), n par
An = 1
(0, 2 n ), n mpar.
Encontre o lim inf An e o lim sup An .
Teorema 5.3 (Lema de Borel-Cantelli). Seja (, F, P ) um espao de probabilidade

e (An ) uma sequncia de eventos aleatrios. Ento:
P
1. Se n=1 P (An ) < ento
P (An infinitas vezes) = 0.
P
2. Se n=1 P (An ) = e os eventos An so independentes, ento
P (An infinitas vezes) = 1.
Demonstrao. Feita em aula, seguindo [Jam04, p. 201].
Exemplo 5.4. Considere uma sequncia de infinitos sorteios independentes e

uniformes de um nmero (Xn )nN entre 0 e 1. Ento
1. P (Xn [0, 1/n] para infinitos ns) = 1.

2. P (Xn [0, 1/n2 ] para infinitos ns) = 0.
Exemplo 5.5. Seja X1 U [0, 1] e tome X2 , X3 , X4 , . . . todas iguais a X1 . Ento
1. P (Xn [0, 1/n] para infinitos ns) = 0.

2. P (Xn [0, 1/n2 ] para infinitos ns) = 0.
Podemos afirmar que vale a recproca do Lema de Borel-Cantelli, ou seja, que

P
P (An i.v.) = 0 implica n P (An ) < , quando os (An ) so independentes. Caso
P
contrrio, podemos ter P (An i.v.) = 0 sem que necessariamente n P (An ) < .
Neste caso podemos afirmar pelo menos que P (An ) 0.
Proposio 5.6. Se P (An infinitas vezes) = 0 ento P (An ) 0.
Demonstrao. Tomando Bk = n>k An , temos que Bk & [An i.v.] quando k

. Como Bk Ak , vale P (Ak ) 6 P (Bk ) P (An i.v.) = 0.
Observao 5.7 (Lei 0-1 para Infinitos Eventos Independentes). Uma consequn-
cia imediata do Lema de Borel-Cantelli a seguinte. Se (An )nN uma sequncia
de eventos independentes, ento P (An infinitas vezes) = 0 ou 1.
5.2 Convergncia de Variveis Aleatrias
Sejam X e (Xn )nN variveis aleatrias definidas num mesmo espao de probabi-
lidade (, F, P ).
Definio 5.8 (Convergncia em Probabilidade). Dizemos que Xn converge em

P
probabilidade para X, denotado por Xn X, se para todo > 0

P |Xn X| > 0 quando n .
Exemplo 5.9. Sejam X1 , X2 , . . . variveis aleatrias independentes, tais que Xn

Bernoulli( n1 ). Temos para < 1 que
1
P |Xn 0| > = P (Xn = 1) = 0,
n
P
e portanto Xn 0.
Exemplo 5.10. Sejam X1 , X2 , . . . variveis aleatrias independentes, identica-

mente distribudas com distribuio exp(1) e tome
Xn
Yn = .
log n
5.2. CONVERGNCIA DE VARIVEIS ALEATRIAS 103
Ento
Xn

P log n 0 > = P (Xn > log n) = n 0,

Xn P
e portanto log n 0.
Definio 5.11 (Convergncia Quase Certa). Dizemos que Xn converge quase

q.c.
certamente para X, denotado por Xn X, se

P Xn X quando n = 1,
ou seja, o evento A0 = { : Xn () X()} de probabilidade 1.
Observao 5.12. A convergncia quase certa uma convergncia pontual num

conjunto de medida 1, ou seja, Xn () X() para quase todo , exceto
aqueles dentro de um conjunto de medida nula. Por outro lado convergncia
em probabilidade no diz respeito convergncia pontual, ela apenas afirma que
para valores grandes de n as variveis Xn e X so aproximadamente iguais com
probabilidade muito alta.
Exemplo 5.13. Um ponto selecionado uniformemente do intervalo = [0, 1].

Seja (Xn )n a sequncia de variveis aleatrias dada por
Xn () = + n .
q.c.
Ento Xn X com X U [0, 1]. De fato, tomando X() = , temos que
q.c.
Xn () X() para todo [0, 1). Como P [0, 1) = 1, segue que Xn X.
q.c.
Proposio 5.14. Xn X se, e somente se,

P |Xn X| > infinitas vezes = 0 > 0.
Demonstrao. A proposio segue da seguinte cadeia de equivalncias:
P (Xn X) = 1
P ( > 0, |Xn X| < eventualmente) = 1
P (@ > 0 tal que |Xn X| > i.v.) = 1
P @k N tal que |Xn X| > k1 i.v. = 1

P k N tal que |Xn X| > k1 i.v. = 0

k N, P |Xn X| > k1 i.v. = 0

> 0, P (|Xn X| > i.v.) = 0.
As equivalncias acima so: definio de convergncia; negao de um evento

ocorrer eventualmente; substituio de por k1 , que possvel porque a condio
montona em ; evento complementar; sub-aditividade da probabilidade; nova
substituio de k1 por .
q.c. P
Proposio 5.15 (q.c. P ). Se Xn X ento Xn X.
Demonstrao. Para qualquer > 0, pela Proposio 5.14 temos que
P (|Xn X| > i.v.) = 0,
P
e pela Proposio 5.6 segue que P (|Xn X| > ) 0, ou seja, Xn X.
Exerccio 5.4. Sejam (Xn )n variveis aleatrias tais que

X
P |Xn | > <
n=1
para qualquer > 0. Mostre que

q.c.
Xn 0.
Mostre que tambm vale a recproca no caso de as Xn serem independentes.
Contra-Exemplo 5.16 (P 6 q.c.). No Exemplo 5.9, temos pelo Lema de Borel-

Cantelli que
P (Xn = 1 infinitas vezes) = 1,
q.c.
portanto no vale Xn 0.
Contra-Exemplo 5.17 (P 6 q.c.). No Exemplo 5.10, temos que
Xn
P( > infinitas vezes) = 1
log n
Xn q.c.
para 6 1 e 0 para > 1. Portanto no vale que log n 0.
Definio 5.18 (Convergncia em Lp ). Dizemos que Xn converge para X em Lp ,

Lp
que denotamos por Xn X, se
p
lim E |Xn X| = 0.
n
Quando p = 2, a convergncia dita em mdia quadrtica.

Lp P
Proposio 5.19 (Lp P ). Se Xn X para algum p > 1 ento Xn X.
Demonstrao. Pela desigualdade de Markov temos
E|Xn X|p
P (|Xn X| > ) 6 0.
p
Lp+s
Proposio 5.20 (Lp+s Lp ). Sejam p > 1 e s > 0. Se Xn X ento
Lp
Xn X.
Demonstrao. Fazendo q = p + s, pela Desigualdade de Jensen temos

p 1 q 1
E Xn X p 6 E Xn X q 0.
1
Contra-Exemplo 5.21 (q.c. 6 Lp ). Suponha que P (Xn = n3 ) = n2 = 1
q.c. P
P (Xn = 0). Ento para < 1 temos P (X > ) = n12 , portanto Xn 0 e Xn 0.
L
Entretanto, EXn = n, logo no podemos ter Xn 1 0, e pela proposio acima no
podemos ter convergncia em Lp para nenhum p > 1.
Contra-Exemplo 5.22 (Lp 6 q.c.). No Exemplo 5.9, temos
1
E|X 0|p = EX p = P (X = 1) = 0,
n
Lp P q.c.
portanto Xn 0 para todo p e Xn 0. No entanto, no vale Xn 0.
Definio 5.23 (Convergncia em Distribuio). Dizemos que Xn converge em

d
distribuio para X, que denotamos por Xn X, se, para todo ponto t em que FX
contnua, vale
lim FXn (t) = FX (t).
n
Observao 5.24. Para convergncia em distribuio no necessrio que as

variveis aleatrias estejam definidas no mesmo espao de probabilidade, pois essa
noo de convergncia leva em conta apenas a sua distribuio.
Proposio 5.25 (Unicidade do Limite em Distribuio). O limite em distribuio

d d
nico, isto , se Xn X e Xn Y ento X Y .
Ideia da prova. Feita em aula.

d
Exemplo 5.26. Seja Xn = n1 para n > 1 e X = 0. Ento Xn X, embora
limn Fn (0) = 0 6= 1 = F (0). Mas como 0 no ponto de continuidade de F ,
isto no problema.
Exerccio 5.5. Seja (Xn )n uma sequncia de variveis aleatrias independentes

com distribuio uniforme em (0, b), b > 0. Defina Yn = max(X1 , X2 , . . . , Xn ) e
d
Y = b. Ento verifique que Yn Y .
P d
Proposio 5.27 (P d). Se Xn X ento Xn X.
Demonstrao. Seja t R tal que FX seja contnua em t. Temos que mostrar que
FXn (t) FX (t) quando n . Dado > 0, temos que
Xn 6 t = |Xn X| > ou X 6 t +
X 6 t = |Xn X| > ou Xn 6 t,
donde
FX (t ) P (|Xn X| > ) 6 FXn (t) 6 FX (t + ) + P (|Xn X| > ).
Fazendo n temos
FX (t ) 6 lim inf FXn (t) 6 lim sup FXn (t) 6 FX (t + ),

n n
e fazendo 0, como t e ponto de continuidade de FX , temos
lim FXn (t) = FX (t),

n
concluindo a demonstrao.
q.c. d
Exerccio 5.6. Mostre que, se Xn Y e Xn Z, ento Y Z.
A convergncia em probabilidade implica a convergncia em distribuio, mas a

recproca falsa (de fato, a recproca nem faz sentido j que convergncia em
distribuio nem necessita que as variveis estejam definidas no mesmo espao de
probabilidade). Alm disso, como vimos nos exemplos acima, em geral convergncia
quase certa no implica convergncia em Lp , e vice-versa. Entretanto, sob condies
particulares, podemos garantir mais implicaes entre as diferentes definies de
convergncia.
d P
Proposio 5.28. Se Xn c para c R constante, ento Xn c.
Demonstrao. Convergncia em distribuio a uma varivel constante quer dizer

que limn FXn (t) = 0 se t < c e limn FXn (t) 1 se t > c. Seja > 0. Veja que
P (|Xn c| > ) 6 P (Xn 6 c ) + P (Xn > c + 2 ) =

= FXn (c ) + 1 FXn (c + 2 ) 0 quando n .
Como arbitrrio, isso conclui a demonstrao.

P
Proposio 5.29 (Convergncia por Subsequncias). Se Xn X ento existe
q.c.
uma subsequncia nk tal que Xnk X.
Demonstrao. Como P (|Xn X| > ) 0 para todo > 0, podemos tomar

n1 > 0 tal que P (|Xn1 X| > 1) < 21 . Novamente, podemos tomar n2 > n1 tal
que P (|Xn2 X| > 12 ) < 14 . Sucessivamente, podemos tomar nk > nk1 tal que
P (|Xnk X| > k1 ) < 21k .
q.c.
Vamos ver que essa sequncia nk satisfaz Xnk X. Seja > 0. Temos que
P (|Xnk X| > ) 6 P (|Xnk X| > k1 ) para todo k > 1 . Por outro lado
temos que k P (|Xnk X| > k1 ) < , logo k P (|Xnk X| > ) < . Pelo
P P
q.c. q.c.
Exerccio 5.4 temos que Xnk X 0, ou seja, Xnk X.
q.c.Y
constante
subsequncia |
P +3 d
BJ
caso dominado
y
Lp+s +3 Lp
Figura 5.1: Diagrama de implicaes entre os tipos de convergncia.
P P
Corolrio 5.30 (Unicidade do Limite em Probabilidade). Se Xn X e Xn Y
ento P (X = Y ) = 1.
Demonstrao. Tome uma subsequncia nk tal que

q.c.
Xnk X
k
e uma subsequncia nkj tal que

q.c.
Xnkj Y.
j
Para todo na interseo de A = [Xnk X] e B = [Xnkj Y ] temos que

[X = Y ]. Como P (A) = P (B) = 1, temos que P (A B) = 1, e portanto P (X =
Y ) > P (A B) = 1.
P
Proposio 5.31 (Caso Dominado). Seja p > 1. Se Xn X e existe Y tal que
Lp
EY p < e |Xn | 6 Y q.c. para todo n, ento Xn X.
Completamos assim o diagrama de implicaes da Figura 5.1.

5.3. EXERCCIOS 109
5.3 Exerccios
5.7. Sejam (Xn )nN variveis aleatrias independentes, distribudas respectiva-
P
mente como exp(n ), onde n = n3 . Prove que P n=1 Xn < = 1.
5.8. [Jam04, Captulo 5]. Recomendados: 5, 6, 7, 9, 10.

5.9. Seja (An )n uma sequncia de eventos em (1An )n a sequncia de variveis
aleatrias indicadoras das ocorrncias dos eventos correspondentes. Encontre uma
P
condio sobre as probabilidades P (An ) para que 1An 0.
5.10. Considere o espao de probabilidade ([0, 1], B, P ) com P dado pela medida
de comprimento, e a sequncia de variveis aleatrias (Xn )n dadas por
(
1
n, w< n,
Xn () = 1
0, w> n.
d P q.c. L L
Verifique respectivamente se Xn X, Xn X, Xn X, Xn 2 X, Xn 1 X,
para alguma varivel aleatria X.
5.11. Seja (Xn )n uma sequncia de variveis aleatrias independentes com dis-
tribuio uniforme em [0, 1], e Yn = max{X1 , . . . , Xn }. Encontre a funo de
distribuio de Yn e o limite em distribuio desta sequncia.
5.12. Sejam Xn , n N, variveis aleatrias independentes tais que Xn
Bernoulli(pn ). Estude as condies sobre (pn ) para que:
P
1. Xn 0.
q.c.
2. Xn 0.
5.13. Seja (Xn )n uma sequncia i.i.d. Mostre que
Xn q.c.
0
n
se e somente se E|X1 | < .
5.14. Seja (Xn )n uma sequncia i.i.d. Mostre que
X q.c.
n 0
n
se e somente se E|X1 |2 < .
5.15. Seja (Xn )n uma sequncia i.i.d. com distribuio exp(1). Mostre que
P (Xn > 2 log n i.v.) = 0.
5.16. Seja (Xn )n uma sequncia i.i.d. com distribuio Poisson(). Mostre que
Xn q.c.
0.
log n
Sugesto: mostre antes que EeX1 / < .
5.17. Seja (Xn )n uma sequncia i.i.d. de variveis aleatrias no-negativas com
EX12 < . Mostre que ( )
X Xn
P < =1
n=1
n2
5.18. [Jam04, Captulo 6]. Recomendados: 15, 19.

Captulo 6
Lei dos Grandes Nmeros
A Lei dos Grandes Nmeros a primeira aproximao para a soma de muitas

variveis aleatrias. Como discutido no incio Captulo 4, a mdia de uma grande
quantidade de variveis i.i.d. deveria convergir para um valor determinstico,
dado pela esperana dessas variveis aleatrias. Neste captulo estudaremos essa
convergncia e algumas de suas implicaes.
6.1 Lei Fraca

Sejam X1 , X2 , . . . variveis aleatrias integrveis em (, F, P ) e S1 , S2 , . . . suas
somas parciais dadas por
Sn = X1 + X2 + + Xn .
Definio 6.1 (Lei Fraca dos Grandes Nmeros). Dizemos que a sequncia
(X1 , X2 , . . . ) satisfaz a Lei Fraca dos Grandes Nmeros se, para todo > 0, vale

Sn ESn
P > 0, quando n ,

n
ou seja, se
Sn ESn P
0.
n
111
112 CAPTULO 6. LEI DOS GRANDES NMEROS
Teorema 6.2 (Lei dos Grandes Nmeros de Bernoulli, 1713). Considere uma
sequncia de ensaios binomiais independentes tendo a mesma probabilidade p de
sucesso em cada ensaio. Se Sn o nmero de sucessos nos primeiros n ensaios,
ento
Sn P
p.
n
No veremos a demonstrao original de Bernoulli. A Lei dos Grandes Nmeros
de Tchebyshev provada logo abaixo mais geral.
A Lei dos Grandes Nmeros de Bernoulli tem uma importncia histrica inestim-
vel. De certa forma, esse teorema justifica o conceito de probabilidade como sendo
a frequncia relativa de ocorrncia de um evento, isto ,
quantidade de experimentos em que o evento e observado

p ,
quantidade total de experimentos realizados
onde a ideia de aproximao passa a ter um significado mais preciso, o da

convergncia em probabilidade. O ano de 2013 foi considerado o Ano Internacional
da Estatstica em comemorao dos 300 anos do teorema de Bernoulli.
Teorema 6.3 (Lei dos Grandes Nmeros de Tchebyshev, 1867). Sejam X1 , X2 , . . .
variveis aleatrias duas a duas no-correlacionadas e com varincias finitas e
uniformemente limitadas, isto , existe M finito, tal que V Xn < M para todo n.
Ento (X1 , X2 , . . . ) satisfaz a Lei Fraca dos Grandes Nmeros:
Sn ESn P
0.
n
Demonstrao. Pela Desigualdade Clssica de Tchebyshev, temos
Pn
V ( Snn )

Sn ESn V Sn V Xi nM
P
> 6 2
= 2 2 = i=1
2 2
6 2 2 0.
n n n n
Teorema 6.4 (Lei dos Grandes Nmeros de Khintchine, 1929). Sejam X1 , X2 , . . .

variveis aleatrias independentes, identicamente distribudas e integrveis, com
mdia . Ento (X1 , X2 , . . . ) satisfaz a Lei Fraca dos Grandes Nmeros:
Sn P
.
n
A demonstrao original de Khintchine foi feita usando o mtodo de truncamento,

6.2. LEI FORTE 113
aparentemente introduzido por Markov, e utilizado em seguida por Kolmogorov na

prova da Lei Forte dos Grandes Nmeros. Uma prova alternativa usando funes
caractersticas ser dada no Captulo 8, pgina 135.
6.2 Lei Forte
Definio 6.5 (Lei Forte dos Grandes Nmeros). Dizemos que (X1 , X2 , . . . )
satisfaz a Lei Forte dos Grandes Nmeros se

Sn ESn
P lim = 0 = 1,
n n
ou seja, se
Sn ESn q.c.
0.
n
Teorema 6.6 (Lei dos Grandes Nmeros de Borel, 1909). Considere uma sequn-
cia de ensaios binomiais independentes tendo a mesma probabilidade p de sucesso
em cada ensaio. Se Sn o nmero de sucessos nos primeiros n ensaios, ento
Sn q.c.
p.
n
No veremos a demonstrao original de Borel. A Lei dos Grandes Nmeros de

Cantelli mais geral.
Teorema 6.7 (Lei dos Grandes Nmeros de Cantelli, 1917). Sejam X1 , X2 , . . . va-
riveis aleatrias independentes e identicamente distribudas, com quarto momento
finito e mdia . Ento (X1 , X2 , . . . ) satisfaz a Lei Forte dos Grandes Nmeros:
Sn q.c.
.
n
Demonstrao. Podemos supor que = 0, ou tomar Xn = Xn . Observe que
X X 4! X 2 2
Sn4 = (X1 + + Xn )4 = Xi Xj Xk Xl = Xi4 + X X +
i
2!2! i<j i j
i,j,k,l
4! X 3 4! X 2 X
+ Xi Xk + Xi Xj Xk + 4! Xi Xj Xk Xl .
3! 2! j<k
i6=k i<j<k<l
i6=j,k
Por independncia, temos que

X X
ESn4 = EXi4 + 6 E[Xi2 Xj2 ]+
i i<j
X h X X X i
+ E 4 Xi3 + 12 Xi2 Xj + 24 Xi Xj Xl EXk .
k
Como assumimos que EXk = 0, a segunda linha igual a zero. Alm disso, como
as Xi tm a mesma distribuio, obtemos
n
ESn4 = nEX14 + 6 E(X12 X22 )

2
= nEX14 + 3(n2 n)E(X12 X22 )
q q
6 nEX14 + 3(n2 n) EX14 EX24
= (3n2 2n)EX14
6 3n2 EX14 .
Pela Desigualdade de Markov, temos
ES 4 3EX 4

Sn
P > 6 4 n4 6 4 21 ,
n n n
Sn q.c.
e pelo Lema de Borel-Cantelli segue que n 0.
Teorema 6.8 (Lei dos Grandes Nmeros de Kolmogorov, 1933). Sejam X1 , X2 , . . .

variveis aleatrias independentes, identicamente distribudas e integrveis, com
EXn = . Ento (X1 , X2 , . . . ) satisfaz a Lei Forte dos Grandes Nmeros:
Sn q.c.
.
n
6.3. EXERCCIOS 115
Demonstrao. O leitor interessado pode consultar [Jam04, pp. 204214].
6.3 Exerccios
Observao. As questes sobre a Lei Forte dos Grandes Nmeros, por tratarem
de eventos que devem acontecer com probabilidade 1, em geral envolvem o uso do
Lema de Borel-Cantelli.
6.1. Seja (Xn )n uma sequncia de variveis aleatrias independentes com funes
de probabilidade pn dadas por pn (n2 ) = n13 = 1 pn (0). Essa sequncia satisfaz a
Lei dos Grandes Nmeros?
6.2. Seja (Xn )n uma sequncia de variveis aleatrias independentes com funes
de probabilidade pn dadas por pn (n2 ) = n12 = 1 pn (0). Essa sequncia satisfaz a
Lei dos Grandes Nmeros?
6.3. [Jam04, Captulo 5]. Recomendados: 2, 3, 14.

Captulo 7
Teorema Central do Limite
Seja (Xn )n uma sequncia i.i.d. de variveis aleatrias. Pela Lei dos Grandes
Nmeros sabemos que a mdia amostral Snn se aproxima do valor esperado para
valores grandes de n, isto ,
Sn
.
n
Porm, no razovel esperar que Snn seja exatamente igual a . Ento a primeira
pergunta que surge sobre a flutuao Snn da mdia amostral em torno do seu
valor esperado. Tipicamente, essa diferena ocorre em qual escala? Nessa escala,
qual seu comportamento estatstico?
No difcil adivinhar a escala em que ocorre essa flutuao. De fato, sabemos

que ESn = nEX1 = n e V Sn = nV X1 = n 2 , ou seja, (Sn ) = n. Assim
temos que a esperana da mdia amostral e seu desvio-padro n . Isso uma
indicao de que tipicamente as flutuaes assumem valores da ordem n (de fato,
pela desigualdade de Tchebyshev, as flutuaes no podem ser muito maiores do
que o desvio-padro, porm o valor numrico da varincia poderia ser resultado de
uma flutuao atipicamente grande, enquanto os valores tpicos fossem na verdade
muito menores). Vamos supor que esse argumento est correto para tentar entender
qual poderia ser o comportamento estatstico das flutuaes nessa escala.
Escrevemos Snn = + n Yn , onde Yn satisfaz EYn = 0 e V Yn = 1. Ser que
o comportamento estatstico de Yn se aproxima de alguma distribuio Y que
no depende de n? Suponhamos que sim, e busquemos um candidato para essa
117
118 CAPTULO 7. TEOREMA CENTRAL DO LIMITE
distribuio. Observamos que S2n = Sn + Sn , onde separamos os 2n termos da

soma em dois blocos independentes com tamanho n. Assim obtemos a relao
S2n
n = 2+ n (Yn + Yn ), onde Yn independente e com a mesma distribuio de Yn .

Por outro lado, S2n
2n
= + 2n Y2n , donde chegamos finalmente a Yn + Yn = 2Y2n ,

ou seja, Y + Y 2 Y . A nica distribuio que satisfaz essa relao a
distribuio normal.
Esses argumentos ad hoc so confirmados pelo Teorema Central do Limite:
Sn ESn d
N (0, 1).
V Sn
Reescrevendo, temos
Sn
+ N (0, 1).
n n
Ou seja, a escala em que a mdia amostral Snn flutua em torno de seu valor
esperado de fato dada por n . Ademais, seu comportamento nessa escala possui
forte regularidade estatstica, e sua distribuio se aproxima de uma normal padro.
Dito de outra forma, a distribuio da soma parcial Sn pode ser aproximada por
uma normal com mesma mdia e varincia de Sn :
Sn N (n, n 2 ).
7.1 Teorema de De Moivre-Laplace
O exemplo mais simples da aproximao Sn N (n, n 2 ) quando lanamos

uma moeda honesta n vezes e contamos o nmero Sn de caras. Neste caso Sn tem
distribuio b(n, 12 ). Na Figura 7.1 vemos como essa distribuio, devidamente
normalizada, se aproxima da distribuio normal padro.
Teorema 7.1 (Teorema de De Moivre-Laplace, 1730, 1812). Seja (Xn )nN uma
sequncia de variveis aleatrias independentes, com distribuio Bernoulli(p),
onde p = 1 q (0, 1), e tome Sn = X1 + + Xn . Ento para todos a < b
Z b
Sn np 1 x2
P a< 6b e 2 dx.
npq 2 a
7.1. TEOREMA DE DE MOIVRE-LAPLACE 119
n
Figura 7.1: Funo de probabilidade de Sn n
para Sn com distribuies b(4, 12 )
1
e b(16, 2 ) para valores entre 3 e 3. A rea de cada retngulo dada pela funo de
probabilidade. O terceiro grfico a funo de densidade de uma normal padro,
assim como as linhas pontilhadas. O quarto grfico representa as frequncias
n
relativas de Sn n
para Sn com distribuio b(16, 12 ), em um experimento real
com 200 amostras.
Ou seja,
Sn N (np, npq).
O teorema foi provado por De Moivre supondo que p = 21 e por Laplace para
0 < p < 1. De fato, ele segue de uma aproximao muito mais fina:
x2
n! 1 k
pk q nk e 2 , ()
k! (n k)! 2npq
onde
k np
xk = xn,k =
npq
e significa que a razo entre ambos os termos tende a 1 quando n tende a infinito.
O limite em () uniforme se restrito a |xk | < M com qualquer M < fixo.
Essa aproximao muito mais fina porque diz no apenas que a probabilidade de
a flutuao estar dentro de um certo intervalo bem aproximada pela normal, mas
tambm que a funo de probabilidade de cada um dos possveis valores dentro de
um intervalo fixo aproximado pela densidade da normal.
Para entender de onde vem essa aproximao, primeiro precisamos de uma expres-
so mais palpvel para n!. Qual a probabilidade de obtermos exatamente 60 caras
se lanamos uma moeda 120 vezes? A resposta fcil:
120! 1
P (S120 = 60) = 120 .
60! 60! 2
Essa expresso simples e matematicamente perfeita. Porm, quanto vale essa
probabilidade? Mais de 15%? Menos de 5%? Entre 5% e 10%? Uma calculadora de
bolso trava ao calcular 120!. Num computador esse clculo resulta em 7, 2684979%.
Mas e se fossem 40.000 lanamentos da moeda? E se estivssemos interessados
em calcular P (S40.000 6 19.750), faramos um clculo semelhante 250 vezes para
depois somar? As expresses com fatorial so perfeitas para a combinatria, mas
impraticveis para se fazer estimativas. Nosso socorro ser a frmula de Stirling

n! nn en 2n.,
provada no Apndice A. Essa aproximao de n! pela frmula de Stirling muito

boa mesmo sem tomar n grande. Ela aproxima 1! por 0, 92, 2! por 1, 92, 4! por
23, 5, e a partir de 9! = 362.880, que aproximado por 359.537, o erro menor

que 1%. primeira vista nn en 2n no parece mais agradvel do que n!. Mas
vejamos como isso ajuda com o clculo anterior. Temos:

(2k)2k e2k 4k

(2k)! 1 1 1
2k 2k = = 0, 0728 . . . ,
k! k! 2 (k k ek 2k)2 2 k k=60
que pode ser feito at mesmo sem calculadora. Mais do que isso, acabamos de
obter a aproximao () no caso particular em que p = q = 12 e xk = 0.
Vamos que mostrar () para |xk | < M onde M est fixo. Aplicando a frmula de
Stirling obtemos

n! nn en 2n pk q nk ( np )k ( nk
nq nk
)
k nk
p q p = pk .
k! (n k)! k
k e k 2k(n k)nk e kn 2(n k) 2k(n k)/n
Observe que para |xk | < M vale

k = np + npq xk np e n k = nq npq xk nq,
7.1. TEOREMA DE DE MOIVRE-LAPLACE 121
donde obtemos
np k nq nk
n! k nk f (n, k)
pk q nk = .
k! (n k)! 2npq 2npq
Vamos estudar log f (n, k). Reescrevendo cada termo temos

np npq xk nq npq xk
=1 e =1+ .
k k nk nk
Fazendo a expanso de Taylor de log(1 + x) temos
x2 r(x)
log(1 + x) = x + r(x), onde 0 quando x 0.
2 x2
Assim,

npqx2k

npq xk npq xk
log f (n, k) = k + r( k ) +
k 2k 2

npqx2k

npq xk npq xk
+ (n k) + r( nk ) .
nk 2(n k)2
Note que os primeiros termos se cancelam e, quando n ,
npqx2k npqx2k n2 pqx2k n2 pqx2k x2

log f (n, k) = = k,
2k 2(n k) 2k(n k) 2npnq 2
donde segue que

x2
k
f (n, k) e 2
uniformemente em |xk | < M , o que termina a prova de ().

Somando sobre os possveis valores de Sn temos

Sn np
X X n!
P a<
npq 6b = P (Sn = k) = pk q nk ,
k! (n k)!
a<xk 6b a<xk 6b
knp
onde os somatrios so sobre k com a condio sobre xk , que dado por xk =
npq .
Observando que
1
xk+1 xk = ,
npq
e substituindo (), obtemos
x2
k

Sn np
X e 2 1 X x2
k
P a<
npq 6b = e 2 [xk+1 xk ].
2npq 2
a<xk 6b a<xk 6b
Finalmente, observamos que o somatrio acima uma soma de Riemann que se

R b x2
aproxima da integral 12 a e 2 dx. Isso termina a prova do Teorema 7.1.
7.2 Teorema Central do Limite

Teorema 7.2 (Teorema Central do Limite para Variveis Aleatrias I.I.D.). Seja
(Xn )nN uma sequncia de variveis aleatrias i.i.d., com mdia e varincia 2 ,
onde 0 < 2 < , e tome Sn = X1 + X2 + + Xn . Ento
Sn ESn d
N (0, 1),
V Sn
isto ,
Sn n d
N (0, 1).
n
A demonstrao ser vista no Captulo 8, como aplicao do Teorema da Conti-

nuidade de Lvy para funes caractersticas.
Teorema 7.3 (Teorema Central do Limite de Lyapunov). Sejam (Xn )n indepen-

dentes com terceiros momentos finitos satisfazendo
Pn 3
i=1 E|Xi EXi |
Pn 3/2
0 as n .
( i=1 V Xi )
Ento,
2
ex /2

Sn ESn
Z
Ef f (x) dx quando n
V Sn R 2
para qualquer f tal que f , f 0 , f 00 e f 000 sejam limitadas.
7.2. TEOREMA CENTRAL DO LIMITE 123
Convergncia para toda f satisfazendo as condies acima equivalente conver-

gncia para todas f contnua e limitada, o que por sua vez equivale a convergncia
em distribuio. A prova desses fatos envolve Teoria da Medida e ser omitida.
Demonstrao. Podemos assumir EXi = 0 sem perda de generalidade. Escreva

i = V Xi . Considere (Yn )n independentes, e tambm independentes de (Xn )n ,
com a distribuio N (0, i2 ). (Aceitaremos sem prova existncia de tal seqncia
no mesmo espao de probabilidade.)
Escreva
Y1 + + Yn X1 + + Xn
Wn = N (0, 1) e Zn = .
V Sn V Sn
Fixe n, defina Z 0 = Wn e, para i = 1, . . . , n, defina
Yi Xi
V i = Z i1 e Zi = V i + ,
V Sn V Sn
de modo que Z n = Zn . Agora,

n
X
Ef (Zn ) Ef (Wn ) = Ef (Z n ) Ef (Z 0 ) = Ef (Z i ) Ef (Z i1 ).
i=1
Usando a expanso de Taylor de f ,
Xi Xi f 00 (Vi ) Xi2 f 000 (i ) Xi3

f (Z i ) = f (Vi + ) = f (V i ) + f 0 (V i ) + + ,
V Sn V Sn 2 V Sn 6 (V Sn )3/2
Yi Yi f 00 (Vi ) Yi2 f 000 (i ) Yi3
f (Z i1 ) = f (Vi + ) = f (V i ) + f 0 (V i ) + + ,
V Sn V Sn 2 V Sn 6 (V Sn )3/2
onde i e i vm do polinmio de Taylor e dependem de Vi , Xi e Yi .

Observe que EXi = EYi , EXi2 = EYi2 , Xi V i e Yi
V i , e recordemos que f e
suas trs primeiras derivadas so limitadas. Queremos tomar a esperana acima e
subtrair. Como f limitada, f (V i ) integrvel e este primeiro termo se cancela.
Alm disso, f 0 (V i ) integrvel e, usando a independncia,
E[f 0 (V i )Xi ] = Ef 0 (V i ) EXi = Ef 0 (V i ) EYi = E[f 0 (V i )Yi ],

de forma que este termo tambm se cancela, bem como o terceiro termo pelo mesmo
motivo. Portanto,
E[f 000 (i )Xi3 ] E[f 000 (i )Yi3 ]

Ef (Z i ) Ef (Z i1 ) = .
6(V Sn )3/2
Tomando C = supx |f 000 (x)| temos

3 3
Ef (Z i ) Ef (Z i1 ) 6 CE|Xi | + CE|Yi |

6(V Sn ) 3/2
E|Xi |3 + i3 E|N |3
=C
6(V Sn )3/2
E|Xi |3
6C ,
(V Sn )3/2
onde na ltima desigualdade usamos que E|N |3 = 4 < 2 e que

2
1 1
i = (E|Xi |2 ) 2 6 (E|Xi |3 ) 3
pela desigualdade de Jensen. Finalmente, somando sobre i,

n Pn 3
Ef (Z i ) Ef (Z i1 ) 6 C P i=1 E|Xi | 0
X
Ef (Z i ) Ef (Z i1 ) 6

n 3/2
i=1 ( i=1 V Xi )
quando n por hiptese, o que conclui a prova do teorema.
7.3 Exerccios
7.1. Um par de dados honestos lanado 180 vezes por hora.
1. Qual a probabilidade aproximada de que 25 ou mais lanamentos tenham

tido soma 7 na primeira hora?
2. Qual a probabilidade aproximada de que entre 700 e 750 lanamentos tenham
tido soma 7 durante 24 horas?
7.2. Imagine um modelo idealizado com M eleitores, dos quais MA pretendem

votar no candidato A. Suponha que seja possvel sortear um desses eleitores ao
7.3. EXERCCIOS 125
acaso, e de forma equiprovvel. Definimos

(
1, caso o eleitor sorteado v votar no candidato A,
X=
0, caso contrrio.
Deseja-se estimar a proporo p = M M de eleitores do candidato A, que

A
desconhecida. Para isso, repete-se este processo N vezes, obtendo-se X1 , . . . , XN .

Para estimar o valor de p considera-se
X1 + + XN
pbN = .
N
Supomos a priori que p bem prximo de 12 , de forma que V X 14 . Se

entrevistamos N = 2500 eleitores, calcule aproximadamente a probabilidade de
essa pesquisa cometer um erro |b
pN p| maior que 0, 01.
7.3. A quantidade de uvas-passas encontradas em cada panetone de uma determi-

nada marca independente dos demais panetones e segue a distribuio de Poisson
com parmetro = 25 (ou seja, tm esperana igual varincia, igual a ). Um
grupo de estudantes de frias resolve estimar o valor de , uma vez que o mesmo
desconhecido para eles. Para isso, vo contar as uvas-passas de uma amostra
de N = 625 panetones e registrar o resultado de cada contagem X1 , . . . , XN . A
estimativa
bN para o valor de que os estudantes vo adotar ser dada por
bN = X1 + + XN .

N
a) Qual o valor aproximado da probabilidade de que o valor bN esteja entre

24, 8 e 25, 4?

b) Para que o erro bN fosse menor que 0, 075 com probabilidade pelo menos
igual a 86, 64%, qual deveria ser o nmero N de panetones examinados?
(Sugesto: resolve-se esse item como o anterior, porm de trs para frente.)
7.4. Use o Teorema Central do Limite para verificar que

n
X 2nk
lim en = 1.
n n!
k=0
7.5. Se lanamos 10.000 vezes uma moeda honesta, calcule aproximadamente a

probabilidade de que o nmero de vezes que se obtm coroa seja no mnimo 4.893
e no mximo 4.967.
7.6. [Jam04, Captulo 7]. Recomendados: 2 e 9.

Captulo 8
Funes Geradoras
A funo geradora de momentos e a funo caracterstica esto entre os exemplos

mais importantes de transformadas. A ideia geral de transformada mapear certos
objetos em objetos de outro tipo e outras propriedades, onde determinadas anlises
so possivelmente mais fceis. Isso ficar claro nos exemplos e aplicaes. A
funo geradora de momentos a instncia da Transformada de Laplace de uma
distribuio em R, e a funo caracterstica a Transformada de Fourier.
8.1 Funo Geradora de Momentos

Definio 8.1. Seja X uma varivel aleatria. Define-se a funo geradora de
momentos de X como a funo MX : R [0, ] dada por
MX (t) = E[etX ].
Pelo Teorema 4.27, podemos calcular a funo geradora de momentos por

X
MX (t) = etx P (X = x) se X discreta
x
e Z
MX (t) = etx fX (x) dx se X absolutamente contnua.
R
127
128 CAPTULO 8. FUNES GERADORAS
Exemplo 8.2 (Bernoulli). Se X Bernoulli(p), ento
MX (t) = pet + 1 p = 1 + p(et 1).
Exemplo 8.3 (Binomial). Se X b(n, p), ento

n
X n
X
n n
etk pk (1 p)nk = (et p)k (1 p)nk

MX (t) = k k
k=0 k=0
= [et p + (1 p)]n = [1 + p(et 1)]n
Exemplo 8.4 (Geomtrica). Se X Geom(p), ento

X
X
MX (t) = etn p(1 p)n1 = et p [(et )(1 p)]m
n=1 m=0
pet p 1
= t
= t , para t < log 1p .
1 (1 p)e e +p1
Proposio 8.5. Se X tem funo geradora de momentos MX (t) e Y = aX + b,

ento MY (t) = ebt MX (at).

X e n X (et )n t t
MX (t) = etn = e = e ee = e(e 1) .
n=0
n! n=0
n!
Proposio 8.7. Se MX finita em algum intervalo (, +), ento os momentos

de X podem ser obtidos atravs das derivadas de MX por
(k)
EX k = MX (0), k = 1, 2, 3, . . . .
Demonstrao. Para lembrar da frmula interessante entender a ideia da prova:

h k i
dk dk tX tX
dtk
MX (t) = dt k E[e
d
] = E dt k e = E[X k etX ].
No caso de X ser uma varivel aleatria simples, essa a demonstrao, pois a

esperana uma soma finita e podemos derivar dentro da soma. No caso geral,
8.1. FUNO GERADORA DE MOMENTOS 129
h que se justificar a derivada dentro da esperana. Faremos isso no Captulo 10,

pgina 160.
Exemplo 8.8 (Bernoulli). Se X Bernoulli(p), ento
0
EX = MX (0) = p,
00
EX 2 = MX (0) = p,
V X = EX 2 (EX)2 = p(1 p).
Exemplo 8.9 (Binomial). Se X b(n, p), ento
0
EX = MX (0) = np,
00
EX 2 = MX (0) = np(1 p) n2 p2 ,
V X = EX 2 (EX)2 = np(1 p).
0 1
EX = MX (0) = ,
p
00 2 1
EX 2 = MX (0) = 2 ,
p p
1p
V X = EX 2 (EX)2 = .
p2
0
EX = MX (0) = ,
00
EX 2 = MX (0) = 2 + ,
V X = EX 2 (EX)2 = .
Proposio 8.12 (Unicidade). A funo geradora de momentos define de forma

unvoca a distribuio da varivel aleatria. Mais precisamente, se MX = MY <
em algum intervalo (, +) ento FX = FY e MX = MY em R.
A demonstrao envolve aspectos tcnicos acima dos nossos objetivos, e de fato

difcil encontr-la em livros-texto.1
1 Veja Curtiss, J. H. A note on the theory of moment generating functions. Ann. Math.
Statistics 13:430-433 (1942) e referncias l citadas.

Exemplo 8.13. Se X uma varivel aleatria no-constante assumindo valores

em {0, 1, 2, 3, . . . } e EX < , chamamos de amostragem por tamanho de X
1
distribuio dada por pY (n) = EX n pX (n). Vamos mostrar que, se Y X + 1
e MX finita para todo t, ento X Poisson() para algum > 0.
Demonstrao. Com efeito, observe que
MX+1 (t) = et MX (t)
e, tomando = EX,
0

MX (t) 1 X tn X npX (n) X
= ne pX (n) = etn = etn pY (n) = MY (t).
n n
n
Se MX+1 = MY vale
M 0 (t)
et M (t) =

M 0 (t)
= et ,
M (t)
integrando em t obtemos
log M (t) = et + c
e, como M (0) = 1, temos c = . Logo,
t
1)
M (t) = e(e
e portanto X Poisson().
Proposio 8.14 (Variveis Aleatrias Independentes). Se X e Y so indepen-

dentes, ento
MX+Y (t) = MX (t) MY (t)
para todo t onde ambas MX e MY estejam definidas.
Exemplo 8.15 (Soma de Poissons Independentes). Se X Poisson() e Y

8.2. FUNO CARACTERSTICA 131
Poisson() so independentes, ento

t
1) (et 1) t
1)
MX+Y (t) = MX (t) MY (t) = e(e e = e(+)(e = MZ (t),
onde Z Poisson( + ). Portanto, X + Y Poisson( + ).

Exemplo 8.16 (Binomial). Se X b(n, p), ento X distribuda como a soma
de n variveis X1 , . . . , Xn independentes com distribuio Bernoulli(p). Portanto,
MX (t) = MX1 (t) MXn (t) = [1 + p(et 1)]n .
8.2 Funo Caracterstica

Do ponto de vista terico, a funo caracterstica bem mais robusta e funcional
que a funo geradora de momentos: est definida para qualquer distribuio; sem-
pre determina a distribuio; determina tambm a convergncia em distribuio;
no bastasse, ainda gera momentos. Entretanto, a funo caracterstica envolve a
manipulao de nmeros complexos.2
Definio 8.17 (Varivel Aleatria Complexa). Uma varivel aleatria complexa
Z uma funo Z : C tal que Z = X +i Y , onde X e Y so variveis aleatrias
reais. Se X e Y so integrveis, dizemos que Z integrvel e definimos
EZ = EX + iEY.
A integrao de funes complexas em domnios reais pode ser feita, para todos os
d
fins prticos, como no caso real. Ou seja, se F : R C satisfaz dx F (x) = f (x)
para x [a, b], ento
Z b
f (x) dx = F (b) F (a).
a
Vamos utilizar a frmula de Euler
eiy = cos(y) + i sen(y), |eiy | = 1,

2 O uso de funes caractersticas no requer conhecimentos de clculo em uma varivel
complexa. Isso porque as integrais so calculadas em dx para x R e no em dz para

caminhos C. As nicas situaesH em que teramos que sair de R e usar argumentos tpicos de
variveis complexas, em particular f (z) dz = 0, seriam na obteno da funo caracterstica

da Normal e da distribuio de Cauchy.
e usaremos sem demonstrao os seguintes fatos:

X zn zn n
ez = , ez+w = ez ew , (eg )0 = eg g 0 , 1+ ez se zn z.
n
n! n
Proposio 8.18. Se Z e W so variveis aleatrias complexas integrveis, ento

Z + W integrvel com E[Z + W ] = EZ + EW , e para z C tem-se zW integrvel
com E[zW ] = zEW . Se, alm disso, Z e W so independentes, ento ZW
integrvel com E[ZW ] = EZ EW .
Proposio 8.19. |EZ| 6 E|Z|
Demonstrao. Fazendo EZ = rei , com r = |EZ|, temos E[ei Z] = ei E[Z] =

r R, logo r = E[<(ei Z)] 6 E|ei Z| = E|Z|.
Definio 8.20 (Funo Caracterstica). A funo caracterstica de uma varivel

aleatria X, denotada por X , a funo X : R C definida como
X (t) = E[eitX ] = E cos(tX) + iE sen(tX), t R.
Observao 8.21. Como |eitX | = 1, X (t) sempre est definida para todo t R.
Exemplo 8.22 (Uniforme). Se X U [a, b], ento
X (t) = E[eitX ] = E[cos(tX)] + iE[sen(tX)]

Z b Z b
1 1
= cos(tx) dx + i sen(tx) dx
a b a a b a
1 b i b
= sen(tx) cos(tx)

t(b a) a t(b a) a
1
= [sen(tb) sen(ta) i cos(tb) + i cos(ta)]
t(b a)
ieitb + ieita eitb eita
= = .
t(b a) it(b a)
8.2. FUNO CARACTERSTICA 133
Ou, mais rpido:

b
eitb eita
Z
itx 1 1 1 itx b
X (t) = e dx = e = .
a ba b a it a it(b a)
Exemplo 8.23 (Poisson). Se X Poisson(), ento:

n
X
itn e
X (eit )n it it
X (t) = E[e itX
]= e =e = e ee = e(e 1) .
n=0
n! n=0
n!

X X p
X (t) = eitn p(1 p)n1 = eit p [(eit )(1 p)]m = .
n=1 m=0
eit + p 1
Proposio 8.25. Para todo t R vale |X (t)| 6 1. Alm disso, (0) = 1.

Ademais, para a, b R, vale aX+b (t) = eitb X (at).
Proposio 8.26 (Independncia). Se X e Y so independentes, ento
X+Y (t) = X (t) Y (t)
para todo t R.
Proposio 8.27 (Clculo de Momentos). Se E|X k | < ento
dk
(t) = ik EX k .

X
dtk

t=0
Demonstrao. Idntico ao caso da funo geradora de momentos, com iX no lugar

de X.
Corolrio 8.28 (Expanso de Taylor). Se E|X k | < , ento

k
t2 t3 (k) t
X (t) = X (0) + 0X (0) t + 00X (0)
+ 000
X (0) + + X + rk (t)
2 6 k!
2 3 k
EX 2 EX 3 EX k
= 1 + iEX t t i t + + ik t + rk (t),
2 6 k!
rk (t)
onde o resto rk (t) pequeno: tk t0
0.
Demonstrao. Essa uma propriedade bsica do Clculo em uma varivel real,

de que toda funo com k-sima derivada no ponto t = 0 admite essa expanso
com resto pequeno.
Exemplo 8.29 (Poisson). Calculando os momentos da Poisson:
EX = i 0X (0) = ,
EX 2 = 00X (0) = 2 + ,
V X = EX 2 (EX)2 = .
Proposio 8.30 (Unicidade). Se X (t) = Y (t) t R, ento X Y .
Exemplo 8.31 (Soma de Poissons Independentes). Se X Poisson() e Y

Poisson() so independentes, ento
it
1) (eit 1) it
1)
X+Y (t) = X (t) Y (t) = e(e e = e(+)(e = Z (t),
onde Z Poisson( + ). Portanto, X + Y Poisson( + ).
Convergncia em distribuio
O Teorema de Continuidade relaciona convergncia de funes caractersticas com
convergncia em distribuio, vista no Captulo 5.
Teorema 8.32 (Teorema da Continuidade de Lvy). Sejam X e (Xn )nN variveis
aleatrias. Ento
d
Xn X se, e somente se, Xn (t) X (t) t R.
8.3. EXERCCIOS 135
Exemplo 8.33 (Binomial Converge a Poisson). Seja > 0 e para n > 1

considere Xn b(n, n ). Ento
d
Xn Poisson().
Demonstrao. Analisando a funo caracterstica das Xn obtemos

it
1)
Xn (t) = [1 + n (eit 1)]n e(e = X (t) com X Poisson().
Demonstrao do Teorema 6.4. Como as Xn so i.i.d., temos

n
n t
Sn (t) = Sn ( nt ) = X1 ( nt ) Xn ( nt ) = X1 nt t

= 1 + i + r1 n ,
n n
r1 (w)
onde r1 () tal que w 0 quando w 0. Segue que Sn (t) eit quando
n
Sn d
n , para todo t R. Pelo Teorema 8.32, n . Como constante, isso
Sn P
o mesmo que n .
Demonstrao do Teorema 7.2. Supomos sem perda de generalidade que = 0.

Como as Xn so i.i.d., temos
h in t2 n
Sn

(t) = Sn ( t n ) = X1 t n = 1 + r2 t n ,
n 2n
r2 (w) t2
onde r2 () tal que w2 0 quando w 0. Segue que Sn

(t) e 2 quando
n
Sn d
n , para todo t R. Pelo Teorema 8.32, n
N.
8.3 Exerccios
t2
8.1. Se X N (0, 1), mostre que MX (t) = e 2 . Mostre que EX = 0. Mostre que
V X = 1. (Sugesto: verifique que (z 2 2tz) = t2 (z t)2 e faa z t = u.)
8.2. Sejam X1 , X2 , X2 , . . . independentes,
X1 + X2 + + Xn
Sn = X1 + X2 + + Xn e Sn = .
n
Mostre as seguintes propriedades:
X
1. Se X N (, 2 ), ento Z = N (0, 1).
2
2. Assim, se X N (, ), ento
1 2 2
MX (t) = et+ 2 t
EX =
V X = 2 .
Pn Pn
3. Se Xi N (i , i2 ), ento Sn N ( i=1 i , i=1 i2 ).
4. Se Xi N (, 2 ), ento Sn N (n, n 2 ).
2
5. Se Xi N (, 2 ), ento Sn N (, n ).
8.3. A distribuio dos comprimentos dos elos da corrente de bicicleta normal,

com mdia 2 cm e varincia 0, 01 cm2 . Para que uma corrente se ajuste bicicleta,
deve ter comprimento total entre 58 e 61 cm. Qual a probabilidade de uma
corrente com 30 elos no se ajustar bicicleta?
8.4. As duraes de gravidez tm distribuio normal com mdia de 268 dias e

desvio-padro de 15 dias.
(a) Selecionada aleatoriamente uma mulher grvida, determine a probabilidade de
que a durao de sua gravidez seja inferior a 260 dias.
(b) Se 25 mulheres escolhidas aleatoriamente so submetidas a uma dieta especial
a partir do dia em que engravidam, determine a probabilidade de os prazos de
durao de suas gravidezes terem mdia inferior a 260 dias (admitindo-se que a
dieta no produza efeito).
(c) Se as 25 mulheres tm realmente mdia inferior a 260 dias, h razo de
preocupao para os mdicos de pr-natal? Justifique adequadamente.
8.5. O peso de uma determinada fruta uma varivel aleatria com distribuio
normal com mdia de 200 gramas e desvio-padro de 50 gramas. Determine a
probabilidade de um lote contendo 100 unidades dessa fruta pesar mais que 21 kg.
8.3. EXERCCIOS 137
8.6. Um elevador pode suportar uma carga de 10 pessoas ou um peso total de

1750 libras. Assumindo que apenas homens tomam o elevador e que seus pesos so
normalmente distribudos com mdia 165 libras e desvio-padro de 10 libras, qual
a probabilidade de que o peso limite seja excedido para um grupo de 10 homens
escolhidos aleatoriamente?
8.7. Se X U [a, b], calcule MX (t). Use a funo geradora de momentos para
calcular EX e V X.
8.8. As cinco primeiras repeties de um experimento custam R$ 10, 00 cada. To-

das as repeties subsequentes custam R$ 5, 00 cada. Suponha que o experimento
seja repetido at que o primeiro sucesso ocorra. Se a probabilidade de sucesso de
uma repetio igual a 0, 9, e se as repeties so independentes, qual custo
esperado da operao?
8.9. Se X exp(), calcule MX (t). Use a funo geradora de momentos para

calcular EX e V X.
8.10. Seja Y uma varivel aleatria absolutamente contnua com funo de densi-
dade de probabilidade dada por
yey , se y > 0

fY (y) =
0, caso contrrio
Ache a funo geradora de momentos de Y e use-a para calcular EY e V Y .
Exerccio 8.11. Seja X uma varivel aleatria. Mostre que o conjunto {t R :

MX (t) < } um intervalo que contm o ponto t = 0.
t2
8.12. Se X N (0, 1), mostre que X (t) = e 2 .
Voc pode usar o seguinte fato, da teoria do clculo em uma varivel complexa:
Z Z
2 2
e(w+ci) dw = ew dw
R R
para qualquer c R.
8.13. Se X N (, 2 ), calcule X (t).

Recomendados: 1, 2, 3, 4, 7, 9, 13a, 14, 17, 18, 21, 29.
Captulo 9
Esperana Condicional
Muitas vezes a estrutura do espao amostral complicada demais para estudar-

mos as grandezas de interesse diretamente a partir dos eventos elementares ,
at mesmo em situaes aparentemente simples.
Neste contexto, estudamos as propriedades de algumas grandezas observveis, ou
ainda, conseguimos dividir em classes que podem ser estudadas como um todo.
Estudar uma partio D de quer dizer que estamos trabalhando apenas com a
informao relacionada quela partio.
Da mesma forma, e inmeras situaes queremos estudar o comportamento de
uma dada varivel aleatria X em termos de outra varivel aleatria Y , o que em
estatstica significa dizer que buscamos um estimador para X sabendo-se o valor
da varivel Y .
9.1 Esperana Condicional dada uma Partio

Nesta seo, assumimos que todas as variveis aleatrias so discretas e no-
negativas. Caso as variveis aleatrias sejam todas simples, pode-se somar-lhes
uma constante para trabalhar com variveis no-negativas.
Definio 9.1. Dizemos que D = {D1 , D2 , D3 , . . . } uma partio de (, F) se
Di F i, Di Dj = i 6= j, e i Di = . Os elementos Di da partio D so
chamados tomos de D.
139
140 CAPTULO 9. ESPERANA CONDICIONAL
Exemplo 9.2. Sejam X1 , X2 , X3 , . . . variveis aleatrias assumindo valores em

{1, 1}. O espao pode ser dividido em tomos onde X1 e X2 so constantes.
Definio 9.3 (Probabilidade Condicional Dada uma Partio). Dada uma par-
tio D = {Di }i e um evento A, definimos a varivel aleatria
X
P (A|D) = P (A|D)() = P (A|Di ) 1Di ().
i
Note que, em cada tomo Di da partio D, a varivel aleatria P (A|D) assume o

valor constante P (A|Di ).
Exemplo 9.4. Suponha que
P (chover amanh|chove hoje) = 0, 7,

P (chover amanh|no chove hoje) = 0, 1,
e seja D = {chove hoje, no chove hoje}. Ento

(
0, 7, se no estado chove hoje,
Z = P (chover amanh|D) =
0, 1, caso contrrio.
Teorema 9.5 (Lei da Probabilidade Total).

P (A) = E P (A|D) .
P P
Demonstrao. E P (A|D) = E[ j P (A|Dj )1Dj ] = j P (A|Dj )P (Dj ) = P (A),
onde a segunda igualdade basicamente uma aplicao do Teorema 4.27 com
P
relao varivel aleatria J = j j1Dj que vale j em cada Dj .
Exemplo 9.6. Se P (chover hoje) = 0, 6, ento

X
P (chover amanh) = EZ = z P (Z = z) = 0, 7 0, 6 + 0, 1 0, 4 = 0, 46.
z
Definio 9.7. Seja X uma varivel aleatria discreta. Definimos a partio

induzida por X como DX = {D1 , D2 , D3 , . . . }, onde Dj = { : X() = xj }.
Denotamos a varivel aleatria P (A|DX )() por P (A|X)().
9.1. ESPERANA CONDICIONAL DADA UMA PARTIO 141
Exemplo 9.8. Se X e Y so i.i.d. Bernoulli(p), considere o evento A = [X +Y = 1].

Vamos calcular P (A|Y ):
P (A|Y ) = p 1[Y =0] + (1 p) 1[Y =1] ,
ou, escrevendo explicitamente como funo de Y :
P (A|Y ) = p (1 Y ) + (1 p) Y.
Definio 9.9 (Esperana Condicional Dada uma Partio). Seja X uma varivel
aleatria simples. Considere D uma partio de (, F). Definimos a varivel
aleatria X
E(X|D)() = E(X|Di ) 1Di ().
i
Observe que, desenvolvendo a expresso acima, temos

XX X X
E(X|D) = x P (X = x|Dj ) 1Dj = x P (X = x|Dj ) 1Dj ,
j x x j
e portanto X
E(X|D) = x P (X = x | D).
x
P
De forma mais geral, se X = i xi 1Ai para uma partio {Ai }i , ento E(X|D) =
P
i xi P (Ai | D).
A esperana condicional E(X|D) a uma aproximao para X que depende apenas

da informao relacionada partio D. Ela grosseira o suficiente para atender
restrio de ser constante no tomos de D, mas fina o suficiente para ser a melhor
entre todas as aproximaes sujeitas a essa restrio. Veja a Figura 9.1.
Exemplo 9.10. Lanamento de um dado honesto. Seja D = {mpar, par}. Temos
(
E(X|X par), se X() par,
Z() = E(X|D)() =
E(X|X mpar), se X() mpar.
Assim, (
4, se X() par,
Z() =
3, se X() mpar.
X() E(X|D)()
D D
Figura 9.1: Ilustrao da definio de E(X|D).
Proposio 9.11 (Propriedades da esperana condicional).
1. E(c | D) = c
2. Se X 6 Y ento E(X|D) 6 E(Y |D)
3. E(aX + bY |D) = aE(X|D) + bE(Y |D)
4. E(X|{}) = EX .
Teorema 9.12 (Generalizao da Lei da Probabilidade Total).

EX = E E(X|D) .
Demonstrao. Como no Teorema 9.5,

XX
E E(X|D) = x P (X = x|Dj )P (Dj ) =
j x
X X X
= x P (X = x|Dj )P (Dj ) = x P (X = x) = EX.
x j x
Com o Teorema 9.12 completamos o diagrama da Figura 9.2.
Exemplo 9.13. Lanamento do dado no Exemplo 9.10. Temos

7
EX = E E(X|D) = EZ = .
2
P
EX= xP (X=x)
P ()
x
/ E()
E Y
P (AD)
P (A|D)= P (D)

P
E(X|D)= xP (X=x|D)
P (|D)
x
/ E(|D)
P
P (A|D)= P (A|Di )1Di
P (A)=E[P (A|D)] i EX=E[E(X|D)]
P
E(X|D)= E(X|Di )1Di
i

P (|D) P / E(|D)
E(X|D)= xP (X=x|D)
x
Figura 9.2: Relao entre probabilidade, esperana, probabilidade condicional

dado um evento, esperana condicional dado um evento, probabilidade condicional
dada uma partio, e esperana condicional dada uma partio.
Se Y uma varivel aleatria discreta, denotamos
E(X|Y ) = E(X|DY ).
Exerccio 9.1. Se X e Y so independentes ento E(X|Y ) = EX constante.

Observao 9.14. Caso particular do teorema anterior: EX = E E(X|Y ) .
Dizemos que D2 mais fina que D1 , denotado por D2 < D1 , se todo elemento de D1
igual unio de elementos de D2 , isto , se para todo D D1 existe C D2 tal
que D = C. Isso significa que D2 tem mais informao do que D1 .
Exemplo 9.15. Seja D2 = {D1 , D2 , D3 , D4 } uma partio de , e sejam D5 =

D1 D3 , D6 = D2 e D7 = D4 . Se definimos D1 = {D5 , D6 , D7 }, temos D2 < D1 .
Exemplo 9.16. Para qualquer partio D vale D < D < {}.
Dada uma partio D = {D1 , D2 , D3 , . . . }, dizemos que X D-mensurvel se

D < DX , isto , se a informao sobre D determina o valor de X. De forma
equivalente, X D-mensurvel se e somente se pode ser escrito como

X
X= xi 1Di ,
i
onde os xi no so necessariamente distintos.
Observao 9.17. X sempre DX -mensurvel. Se Y = g(X) para alguma funo

g : R R, ento Y DX -mensurvel.
Definimos DX1 ,X2 ,...,Xd como sendo a partio gerada pelo vetor (X1 , X2 , . . . , Xd ),
ou seja, a partio cujos tomos so os maiores conjuntos onde todas as Xj so
constantes. Mais formalmente, se {x1 , x2 , x3 , . . . } so os valores assumidos pelo
vetor aleatrio X, definimos Di = [X = xi ] e D = {D1 , D2 , D3 , . . . }.
Exerccio 9.2. Mostre que DX1 ,X2 < DX1 .
De forma anloga a E(X|Y ), definimos

E(X|Y1 , . . . , Yn ) = E X DY1 ,...,Yn .
Proposio 9.18. Se X D-mensurvel, ento
E(XY |D) = XE(Y |D).
Em particular, E(X|D) = X. Ademais, E(X|X) = X.
Demonstrao. Escrevemos
X X
X= xi 1Di e Y = yj 1Aj ,
i j
assim XX
XY = xi yj 1Aj Di
i j
e portanto
XX
E[XY |D] = xi yj P (Aj Di |D)
i j
XX X
= xi yj P (Aj Di |Dm )1Dm
i j m
XX
= xi yj P (Aj |Di )1Di .
i j
Por outro lado,

X X
XE[Y |D] = xi 1Di yj P (Aj |D)
i j
X X X
= xi 1Di yj P (Aj |Dm )1Dm
i j m
XX X
= xi yj P (Aj |Dm )1Dm Di
i j m
XX
= xi yj P (Aj |Di )1Di ,
i j
concluindo a prova.
Observao 9.19. E(X|D) sempre D-mensurvel.
Proposio 9.20. Se C 4 D, ento

E E(X|D)C = E E(X|C)D = E(X|C).
Em particular,

E E(X|Y1 , Y2 )Y1 = E(X|Y1 ).
Demonstrao. Pela observao anterior, E[X|C] C-mensurvel. Como D < C,

E[X|C] tambm D-mensurvel, e pela proposio anterior E E(X|C) D =

E(X|C). Resta mostrar que E E(X|D)C = E(X|C).
Escrevendo C = {C1 , C2 , . . . } e D = {D1 , D2 , . . . }, temos

X X

E[E(X|D)|C] = 1Ci E E(X|Dj )1Dj Ci
i j
X X
= 1Ci E(X|Dj )P (Dj |Ci ),
i j
onde a segunda igualdade basicamente uma aplicao do Teorema 4.27 com

P
relao varivel aleatria J = j j1Dj que vale j em cada Dj . Continuando,
X X E(X1Dj ) P (Dj )
E[E(X|D)|C] = 1Ci
P (Dj ) P (Ci )
i j:Dj Ci
X 1 X
= 1Ci E(X1Dj )
P (Ci )
i j:Dj Ci
X 1
= 1Ci E(X1Ci )
i
P (Ci )
X
= 1Ci E(X|Ci ) = E(X|C).
i
Para justificar a terceira igualdade sem usar o Corolrio 10.5, escrevemos X =

P
k xk 1Ak e fazemos
X X X
E(X1Dj ) = xk P (Ak Dj ) =
j:Dj Ci j:Dj Ci k
X X X
= xk P (Ak Dj ) = xk P (Ak Ci ) = E(X1Ci ).
k j:Dj Ci k
Isso conclui a prova da proposio.
Exemplo 9.21. Dada uma funo g, vale
E [g(Y )E (X|Y )] = E [Xg(Y )] .
Com efeito, como Z = g(Y ) DY -mensurvel, temos

E Xg(Y )Y = g(Y )E(X|Y ).
9.2. DISTRIBUIO CONDICIONAL REGULAR 147
Tomando a esperana dos dois lados, obtemos a equao anterior.
9.2 Distribuio Condicional Regular

Quando Y uma varivel aleatria discreta assumindo valores y1 , y2 , . . . , essa
varivel aleatria induz uma partio DY de (, F), e temos as seguintes relaes:
X
P (X B) = P (X B|Y = y)P (Y = y) = E P (X B|Y )
y
X
E(X) = E(X|Y = y)P (Y = y) = E E(X|Y ) .
y
No caso de variveis aleatrias Y que no sejam discretas, temos que dar sentido a
expresses como P (X B|Y = y) e E(X|Y = y), mesmo que P (Y = y) seja zero,
para poder dizer que relaes anlogas continuam valendo.
Definio 9.22 (Distribuio Condicional Regular). Sejam X e Y variveis

aleatrias definidas no mesmo espao de probabilidade (, F, P ). A distribuio
condicional regular de X dado que Y = y definida por

P X [s, t] Y = y = lim lim P X [s , t + ] Y [y , y + ]
0 0
para todo s < t e y A, onde A algum conjunto tal que P (Y A) = 1.

importante tomar o limite primeiro em e depois em . Quando s = ,
definimos a funo de distribuio condicional acumulada
FX (t|Y = y) = P (X 6 t|Y = y).
Teorema 9.23. Para quase todo y R, isto , para todo y A onde A um

conjunto tal que P (Y A) = 1, o duplo limite acima existe para todo s < t e
determina uma probabilidade em R.
Na prtica, o que se faz encontrar um candidato ad hoc de quem deveria ser a

distribuio condicional regular de X dado Y , segundo princpios que se aplicam
em diferentes casos, e verifica-se a posteriori que o candidato proposto satisfaz a

Definio 9.22. continuao veremos alguns desses princpios.
Caso de Y discreta Se Y varivel aleatria discreta, a distribuio condicional

de X dado Y = y dada por
P (X B, Y = y)
P (X B|Y = y) =
P (Y = y)
para todo y tal que P (Y = y) > 0.
Caso de X e Y independentes Se X e Y so independentes, o condicionamento

em Y = y no afeta em nada a varivel X. Neste caso temos
P (X B|Y = y) = P (X B).
Caso de X e Y possurem densidade conjunta Se X e Y possuem funo

de densidade conjunta fX,Y (x, y), a funo de densidade condicional de X dado
Y = y dada por
fX,Y (x, y)
fX (x|Y = y) =
fY (y)
para todo y tal que fY (y) > 0. Neste caso a funo de distribuio condicional de
X dado que Y = y dada por
Z t
FX (t|Y = y) = fX (x|Y = y) dx.

Exemplo 9.24. Sejam X e Y com densidade conjunta

(
6xy(2 x y), 0 < x < 1, 0 < y < 1,
fX,Y (x, y) =
0, caso contrrio.
Vamos determinar a distribuio condicional de X dado que Y = y. Temos

Z + Z 1
fY (y) = fX,Y (x, y)dx = 6xy(2 x y)dx = 4y 3y 2
0
9.2. DISTRIBUIO CONDICIONAL REGULAR 149
se y (0, 1) e 0 caso contrrio. Assim, para y [0, 1] temos

( 6x(2xy)
fX,Y (x, y) 43y , 0<x<1
fX (x | Y = y) = =
fY (y) 0, caso contrrio.
Para y fora desse intervalo fX (|Y = y) irrelevante, pois P (Y 6 [0, 1]) = 0.
Exemplo 9.25. Sejam X e Y com densidade conjunta

(
1 xy
2 ye , 0 < x < e 0 < y < 2,
fX,Y (x, y) =
0, caso contrrio.
Vamos determinar a distribuio condicional de X dado que Y = y. Temos

Z + Z
1 1
fY (y) = fX,Y (x, y)dx = yexy dx =
2 0 2
para 0 < y < 2. Logo Y U [0, 2].

Assim, para y (0, 2] temos
(
fX,Y (x, y) yexy , x > 0,
fX (x | Y = y) = =
fY (y) 0, x 6 0.
Caso de Y possuir densidade e X ser discreta Se X discreta e Y tem

funo de densidade fY (y), a funo de probabilidade condicional de X dado Y = y
dada por
P (X = x)fY (y|X = x)
pX (x|Y = y) =
fY (y)
para todo y tal que fY (y) > 0. Neste caso a funo de distribuio condicional de
X dado Y = y X
FX (t|Y = y) = pX (x|Y = y).
x6t
Princpio da preservao das chances relativas O princpio da preservao

das chances relativas diz que, dada a ocorrncia de um evento, os resultados
possveis dentro desse evento mantm as mesmas chances relativas que possuam
antes.
Exemplo 9.26. X N (0, 1) e Y = X 2 . Qual a distribuio condicional de X

dado que Y = y?
Como P (Y > 0) = 1, basta considerar valores y > 0. Sabendo que Y = y temos

duas alternativas: X = y ou X = y. Como fX (y) = fX (y), esses dois
valores continuam tendo a mesma chance quando condicionamos a Y = y. Temos
1
ento P X = y Y = y = P X = y Y = y = 2 , y > 0.
Exemplo 9.27. Seja X U [0, 2] e Y U [1, 1] independentes. Vamos encontrar

FX (x|X + Y = z).
Seja Z = X + Y . A densidade conjunta de X e Y dada por fXY (x, y) =
1 1
4 1[0,2][1,1] (x, y), e a marginal de X dada por fX (x) = 2 1[0,2] (x). Con-
dicionando a Z = z, temos que o conjunto dos resultados possveis fica res-
trito a uma diagonal {(x, y) [0, 2] [1, 1] : x + y = z} que corta o quadrado
[0, 2][1, 1]. Pelo Princpio da Preservao das Chances Relativas, todos os pontos
desse conjunto eram equiprovveis antes do condicionamento e devem continuar
equiprovveis dentro do conjunto da restrio. Assim, para z > 1 devemos ter
X U [z 1, 2] e para z < 1 devemos ter X U [0, z + 1], ou seja
(
1
3z 1[z1,2] (x), 1 < z < 3,
fX (X|Z = z) = 1
z+1 1[0,z+1] (x), 1 < z < 1.
Princpio da substituio O princpio da substituio permite substituir Y por

y sempre que se condiciona a Y = y. Se W = g(X, Y ), ento

P (W B|Y = y) = P (g(X, y) B|Y = y) = P X {x : g(x, y) B} Y = y .
9.3 Esperana Condicional Regular

Dada X integrvel, definimos E(X|Y = y) como a esperana de X com respeito
sua distribuio condicional regular dado que Y = y.
Teorema 9.28. Sejam X e Y variveis aleatrias definidas em (, F, P ) com X

integrvel. Ento existe algum A B tal que P (Y A) = 1 e E(X|Y = y) finita
para todo y A.

9.3. ESPERANA CONDICIONAL REGULAR 151
Tomando g : R R como sendo a funo tal que E(X|Y = y) = g(y), definimos a

varivel aleatria E(X|Y ) por E(X|Y ) = g(Y ), isto , E(X|Y )() = g(Y ()).
Exemplo 9.29. Se X U [0, 2] e Y = max{X, 1}. Temos que Y assume valores

em [1, 2]. Tomando y em (1, 2], temos que [Y = y] = [X = y] e, pelo Princpio da
Substituio, E[X|Y = y] = y. Tomando y = 1, temos que [Y = 1] = [X 6 1].
Assim,

x/2
1/2 = x, 0 6 x 6 1,

P (X 6 x, X 6 1)
FX (x|Y = 1) = FX (x|X 6 1) = = 0, x < 0,
P (X 6 1)

1, x > 1.
d
Logo, fX (x|Y = 1) = dx FX (x|Y = 1) = 1[0,1] (x) e
Z 1
1
E(X|Y = 1) = xfX (x|Y = 1)dx = .
0 2
1
Portanto, E(X|Y = y) = y se y (1, 2] e E(X|Y = y) = 2 se y = 1. Substituindo,
(
1
2, Y = 1,
E(X|Y ) =
Y, 1 < Y 6 2.
Teorema 9.30. Se X integrvel ento

EX = E E(X|Y ) .
Exemplo 9.31. No Exemplo 9.29, temos que Y mista com funes de densidade
e probabilidade dadas por
pY (y) = 12 1{1} (y), fY (y) = 12 1[1,2] (y)
e portanto
Z 2
1 1 1

EX = E E(X|Y ) = E[g(y)] = 2 2 + 2 y dy = 1.
1
Teorema 9.32 (Propriedades da Esperana Condicional).

1. E(c|Y ) = c quase certamente.

2. X 6 Z E(X|Y ) 6 E(Z|Y ) quase certamente.
3. E(aX + bZ|Y ) = aE(X|Y ) + bE(Z|Y ) quase certamente.
4. Se X = g(Y ) ento E(X|Y ) = X quase certamente.
5. Se Z = g(Y ), ento

E E (X|Z) Y = E E (X|Y ) Z = E X Z quase certamente.
6. Se Z = g(Y ), E|X| < e E|XZ| < , ento

E XZ Y = Z.E X Y quase certamente.
Exemplo 9.33. O Jogador I lana uma moeda honesta n vezes, obtendo k caras,
onde 0 6 K 6 n. Depois o Jogador II lana a moeda k vezes, obtendo j coroas.
Seja X o nmero j de coroas obtidas pelo Jogador II. Queremos calcular EX.
(Poderamos fazer algum esforo neste caso nem sempre isso possvel para
mostrar que X b(n, 41 ) e portanto EX = n4 , mas estamos interessados apenas em
saber EX.)
Seja Y o nmero de caras obtidas pelo Jogador I. claro que X|Y = k b(k, 21 ),
logo E(X|Y = k) = k2 . Assim, E(X|Y ) = Y2 . Calculamos ento

Y 1 1n n
EX = E [E(X|Y )] = E = EY = = ,
2 2 22 4
uma vez que Y b(n, 12 ).

Exemplo 9.34. No Exemplo 9.24, vamos cacular E [X|Y ] e E [X].
Substituindo a densidade obtida temos
Z + 1
6x2 (2 x y) 5 4y
Z
E[X|Y = y] = xfX (x | Y = y)dx = dx = .
0 4 3y 8 6y
54Y
Ento E[X|Y ] = 86Y e
1
5 4y
Z
15 8 7
(4y 3y 2 )dy =

E[X] = E E(X|Y ) = = .
0 8 6y 12 12 12
9.3. ESPERANA CONDICIONAL REGULAR 153

Exemplo 9.35. No Exemplo 9.25, vamos calcular E eX/2 Y e E eX/2 Y = 1 .
Substituindo a densidade condicional obtida, temos
h X i Z x Z
1
E e 2 Y = y = e 2 yexy dx = y e( 2 y)x dx.
0 0
1 y
Se y 6 2 a integral vale +. Se y > 12 , a integral vale y 21
. Assim,
(
h i +, Y 6 21 ,
E eX/2 Y = y
y 12
, y > 12 ,

e E eX/2 Y = 1 = 12 .

Exemplo 9.36. Seja X U [0, 1]. Se X = x, ento uma moeda com proba-
bilidade x de sair cara lanada n vezes independentemente. Seja Y a varivel
aleatria que representa o nmero de caras obtidas.
Temos que Y |X = x b(n, x) e X U (0, 1) Se y 0, 1, . . . , n ento:
Z 1 Z 1
n

P (Y = y) = P (Y = y | X = x)fX (x)dx = y xy (1 x)ny dx.
0 0
Portanto
n
X n Z
X 1
n

E[Y ] = yP (Y = y) = y y xy (1 x)ny dx
y=0 y=0 0
Z 1 n
X
n1

= xn y1 xy1 (1 x)ny dx
0 y=0
Z 1 Z 1
n
= xn(x + 1 x)n1 dx = n xdx = .
0 0 2
Por outro lado, E[Y | X = x] = nx, ou seja, E[Y | X] = nX, logo

n
E E(Y |X) = E[nX] = .
2
Exerccio 9.3. Sejam X e Y variveis aleatrias independentes tais que X
U [0, 2] e Y U [1, 1].
(a) Calcule E [X|X + Y 6 2].

(b) Calcule E [X|X + Y ].
(c) Calcule E [X|X + Y = 2].
Exerccio 9.4. Seja X1 , X2 , . . . .uma sequncia de variveis aleatrias indepen-

dentes e identicamente distribudas e seja N uma varivel aleatria inteira e no-
N
P
negativa independente da sequncia X1 , X2 , . . . . Seja Y = Xi . Mostre que
i=1
E [Y ] = E [N ] E [X] .
Exerccio 9.5. Sejam Y1 , Y2 , . . . , Yn variveis aleatrias no-negativas i.i.d. Mos-

tre que
k
E [Y1 + Y2 + + Yk |Y1 + Y2 + + Yn = y] = y, k = 1, 2, . . . , n.
n
Exerccio 9.6. Um nmero no-negativo X escolhido com densidade fX (x) =
xex para x > 0. Se X = x, um nmero Y escolhido no intervalo [0, x]. Ache
P (X + Y 6 2).
9.4 Exerccios
9.7. Considere X e Y i.i.d. Bernoulli(p). Calcule E(X+Y |Y ) e escreva essa varivel
aleatria como uma funo da varivel aleatria Y , de duas formas diferentes:
(a) usando P (X + Y = k|Y ) e aplicando a definio de esperana condicional

dada uma partio.
(b) usando a linearidade da esperana condicional, a independncia entre X e Y
e o fato de que Y DY -mensurvel.
9.8. Sejam X e Y variveis aleatrias simples e i.i.d. Mostre que
X +Y
E(X|X + Y ) = E(Y |X + Y ) = .
2
9.9. Seja X uma varivel aleatria simples definida em (, F, P ) e D uma partio
de (, F). A varincia condicionada a uma partio definida de forma anloga
9.4. EXERCCIOS 155
varincia de uma varivel aleatria:

n o
2
V (X|D) = E [X E (X|D)] D .
Mostre que
2
V (X|D) = E X 2 D [E (X|D)]

e que
V X = E[V (X|D)] + V [E(X|D)].
9.10. Sejam X e Y variveis aleatrias simples definidas em (, F, P ) e D uma

partio. Mostre que
E [ X E (Y |D) ] = E [ Y E (X|D) ] .
9.11. Sejam X e Y variveis aleatrias simples definidas em (, F, P ) e D uma

partio. Se
E Y 2 D = X 2 e E(Y |D) = X,

mostre que P (X = Y ) = 1. Dica: desenvolva E (X Y )2 .
9.12. Joga-se um dado, depois uma moeda, depois o dado novamente e segue-se
alternando entre o dado e a moeda. Quando se obtm cara na moeda, o jogo
imediatamente interrompido e conta-se o total Z de pontos obtidos nos lanamentos
do dado. Calcule EZ.
9.13. Seja X exp() e Y = min{X, c}, onde c > 0 uma constante. Encontre
E(X|Y ).
9.14. [Jam04, Captulo 4]. Recomendados: 1, 9, 15, 16b, 32, 40.

Captulo 10
Convergncia da Esperana
Uma questo fundamental sobre o limite de EXn para uma sequncia qualquer
X1 , X2 , X3 , . . . de variveis aleatrias. Mas precisamente, a questo quando po-
demos comutar a esperana com o limite em n, ou seja, se E[limn Xn ] = limn EXn .
Vale lembrar que derivadas e integrais tambm so limites.
Pensemos a regio abaixo do grfico de uma funo real no-negativa como tendo
uma rea, volume ou massa. Se a funo dada por f (x) = n 1(0, n1 ] (x),
ou por g(x) = 1(n,n+1] (x), essa massa sempre igual a 1 e, no entanto, desaparece
quando tomamos o limite em n. Podemos dizer que a massa escapou ao infinito,
no primeiro exemplo o fez verticalmente e, no segundo, horizontalmente. As trs
propriedades estudadas neste captulo explicam o que pode acontecer com a massa
no limite.
10.1 Teoremas de Convergncia

O Teorema da Convergncia Montona diz que nada de estranho pode acontecer
com a massa de uma seqncia crescente de funes, mais precisamente que no se
pode ganhar massa.
Teorema 10.1 (Teorema da Convergncia Montona). Seja Xn uma sequncia

no-negativa no-decrescente de variveis aleatrias estendidas, e defina X =
limn Xn . Ento EXn EX quando n .
157
158 CAPTULO 10. CONVERGNCIA DA ESPERANA
Demonstrao. Por monotonicidade, temos que EXn converge e limn EXn 6 EX,
faltando demonstrar a desigualdade oposta. Seja 0 6 Z 6 X simples, e seja < 1.
Tomando Ak = [Xk > Z], temos que
EXn > E[Xn 1An ] > E[Z1An ] =

X X
= z P [Z = z] An z P (Z = z) = EZ.
z z
A soma sobre finitos zs porque Z simples, e para cada z o limite justifica-se

pois, como Xn % X > Z, temos que Ak % . Portanto, limn EXn > EZ.
Tomando o supremo em e depois em Z, conclumos a prova do teorema.
O Lema de Fatou diz que, embora os exemplos acima mostrem que possvel perder
massa no limite, no possvel ganhar massa.
Teorema 10.2 (Lema de Fatou). Seja (Xn )n uma sequncia de variveis aleatrias
estendidas no-negativas. Ento E[lim inf n Xn ] 6 lim inf n EXn .
Demonstrao. Tomando Yn = inf k>n Xk e definindo Y = lim inf n Xn , temos que

0 6 Yn % Y . Pelo Teorema da Convergncia Montona, limn EYn = EY. Como
Yn 6 Xn , temos lim inf n EXn > lim inf n EYn = EY = E[lim inf n Xn ].
O Teorema da Convergncia Dominada diz que, se os grficos esto todos confinados

a uma regio de massa finita, tampouco se pode perder massa no limite. A razo
que o grfico de Xn divide essa regio de massa total finita em duas partes, e o
fato de que cada uma dessas partes no pode ganhar massa no limite implica que
a outra no pode perder.
Teorema 10.3 (Teorema da Convergncia Dominada). Se |Xn | 6 Y para todo n
P
com Y integrvel, e Xn X, ento EXn EX quando n .
Demonstrao. Primeiro supomos que Xn X q.c. Como Xn 6 Y , temos Y

Xn > 0, e portanto podemos aplicar Fatou, obtendo
lim inf E[Y Xn ] > E[lim inf Y Xn ] = E[Y X]

n n
Como Y integrvel, vale E[Y Xn ] = EY EXn , E[Y X] = EY EX e
lim sup EXn 6 EX.

n
10.2. COROLRIOS E APLICAES 159
Aplicando o mesmo argumento com Xn no lugar de Xn , obtemos a desigualdade

oposta lim inf n EXn > EX, e portanto EXn EX.
Finalmente, suponhamos que Xn X em probabilidade. Queremos mostrar que
a sequncia numrica EXn converge para o nmero EX. Isto equivalente a dizer
que qualquer sub-sequncia tem uma sub-sub-sequncia que converge a EX. Seja
Xnk uma subsequncia. Como limn Xn = X em probabilidade, temos limk Xnk =
X em probabilidade, e podemos tomar Xnkj tal que limj Xnkj = X q.c. Aplicando
o caso anterior, temos que limj EXnkj = EX, concluindo a prova.
10.2 Corolrios e Aplicaes

Corolrio 10.4. Se Xn & X > 0 q.c. e X1 integrvel, ento EXn EX
quando n .
Corolrio 10.5. Seja (Xn )n uma sequncia de variveis aleatrias no-negativas.

P P
Ento E[ n Xn ] = n EXn .
P
Corolrio 10.6. Sejam (Xn )n variveis aleatrias tais que n E|Xn | < . Ento
P P P
a srie n Xn converge quase-certamente, e E[ n Xn ] = n EXn .
q.c.
Corolrio 10.7. Se Xn X e exite M R tal que |Xn | 6 M q.c. para todo n,
ento EXn EX.
Demonstrao. Tome Y = M e aplique o Teorema da Convegncia Dominada.
Corolrio 10.8. Seja (Xn )n uma sequncia no-decrescente de variveis aleatrias

no-negativas, e tome X = limn Xn . Suponha que eixte M R tal que EXn < M
para todo n. Ento X quase-certamente finita.
P
Demonstrao da Proposio 5.31. Suponha que Xn X e |Xn | 6 Y q.c., onde
EY p < . Ento |X| 6 Y q.c. e temos
|Xn X|p 6 (|Xn | + |X|)p 6 (2Y )p ,
P P
que integrvel. Por outro lado, como Xn X 0 temos |Xn X|p 0. Pelo
Teorema da Convergncia Dominada, E|Xn X|p 0.
Demonstrao da Proposio 8.7. Pela definio do Captulo 8, existe > 0 tal

que MX (t) < para todo t (, +). Vamos mostrar que
dk
MX (t) = E[X k etX ]
dtk
para todo t (, +), por induo em k.
Para k = 0 temos a identidade MX (t) = EetX que vale trivialmente. Suponhamos
a identidade acima vlida para k N. Escrevemos gx (t) = xk etx e gx0 (t) = xk+1 etx .
Temos
d (k) d gX (t + h) gX (t)
M (t) = EgX (t) = lim E .
dt X dt h0 h
Se pudermos comutar a esperana e o limite, teremos
(k+1) gX (t + h) gX (t) 0
MX (t) = E lim = EgX (t) = E[X k+1 etX ].
h0 h
Para aplicar o Teorema da Convergncia Dominada, tomamos uma sequncia
qualquer hn 0, e basta dominar o termo aleatrio | gX (t+h)gh
X (t)
| por uma
varivel aleatria integrvel. Ora, pelo Teorema do Valor Mdio,
gx (t + h) gx (t)
= gx0 (),
h
|t|
onde [t, t + h] depende de x, t e h. Tomando = 3 , para |h| < temos
|gx0 ()| 6 |x|k+1 e(2)|x| 6 Ce()|x| para todo x R,
onde C depende de e t. Da hiptese segue que Ee()|X| < , concluindo a

demonstrao.
10.3. EXERCCIOS 161
Proposio 10.9. Se X integrvel e MX finita em algum intervalo [0, +),

0
ento EX = MX (0) como derivada direita.
Demonstrao. Similar demonstrao da Proposio 8.7, porm separando gx0 ()

em suas partes positiva e negativa. Deixamos os detalhes como exerccio.
10.3 Exerccios
10.1. Seja X uma varivel aleatria integrvel, se seja (An )n uma sequncia de
eventos tais que P (An ) 0. Prove que E[X1An ] 0.
10.2. Prove os corolrios da seo anterior.

Captulo 11
O Passeio Aleatrio
Neste captulo vamos definir o passeio aleatrio simples e simtrico em Zd , e mostrar

que ele recorrente para d 6 2 e transiente para d > 2.
11.1 Passeio Aleatrio, Recorrncia e Transincia
Zd o conjunto de vetores em Rd com coordenadas inteiras. Cada ponto x Zd

tem 2d vizinhos, x ej , j = 1, . . . , d, onde e1 = (1, 0, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0),
etc.
Considere uma sequncia i.i.d. (Xn )n em Zd com distribuio dada por
1
P (Xn = ej ) = P (Xn = ej ) = 2d , j = 1, . . . , d.
O passeio aleatrio simples e simtrico em Zd definido por
S0 = 0, Sn = Sn1 + Xn .
Teorema 11.1. (
1, d 6 2,
P (Sn = 0 i.v.) =
0, d > 2.
Antes de ver a prova completa, tentaremos entender de onde vem essa diferena
163
164 CAPTULO 11. O PASSEIO ALEATRIO
P
entre d 6 2 e d > 2. Definimos Zn = 1Sn =0 e R = n=1 Zn , que conta o nmero
de retornos origem. Ento

X
ER = P (Sn = 0).
n=1
Para d = 1, usando a frmula de Stirling temos, para uma constante positiva c,

n
P (Sn = 0) = 2n cn1/2
n/2
se n par, e P (Sn = 0) = 0 se n mpar. Para d = 2, nos primeiros n passos,

aproximadamente n2 so horizontais e n2 so verticais. Alm disso, se sabemos
quantos passos foram feitos em cada direo, os sentidos so independentes, e
plausvel que
P (Sn = 0) 21 c2 ( n2 )1
para n par (o termo 21 a mais se deve possibilidade de os nmeros de saltos
horizontais e verticais serem ambos pares ou ambos mpares). Assim, tanto em
d = 1 como d = 2, ER = .
Para d = 3, nos primeiros n passos, cerca de n3 esto na direo x, n
3 esto na
direo y e n3 na direo z. Novamente, plausvel que
P (Sn = 0|paridade) c3 ( n3 )3/2
ou 0 dependendo da paridade. Isso, por sua vez, implica que ER < , o que
certamente implica que R < q.c. O mesmo raciocnio tambm funciona para
d = 4, 5, 6, . . . .
H dois pontos que devemos justificar: para d 6 2, por que ER = implica
P (R = ) = 1; para d > 2, formalizar a idia de que nd passos so feitos em cada
direo, enquanto os sentidos dos passos permanecem independentes.
11.2 Prova da Transincia

Vamos considerar d = 3. Dimenses maiores so tratadas de forma anloga.
Denotamos por Jn {1, 2, 3} a direo de Xn , ou seja, Jn = 1 se Xn = e1 , Jn = 2
11.2. PROVA DA TRANSINCIA 165
se Xn = e2 , e Jn = 3 se Xn = e3 , . Tome Yn = +1 ou 1 de acordo com se

Xn = +eJn ou eJn . Ento Yn independente de Jn , e eles so distribudos como
variveis uniformes discretas em {1, +1} e {1, 2, 3}, respectivamente.
Pn
Fixemos n N, e denotemos por N1 = k=1 1Jk =1 o nmero de passos dados na
Pn Pn
direo x. Analogamente para N2 = k=1 1Jk =2 e N3 = k=1 1Jk =3 .
Dado que N1 = n1 , N2 = n2 e N3 = n3 , a probabilidade condicional de Sn = 0
dada por
3
n1 n2 n3

2n1 2n2 2n3 c

P Sn = 0(N1 , N2 , N3 ) = (n1 , n2 , n3 ) = n1 /2 n2 /2 n3 /2 n1 n2 n3
se n1 , n2 , n3 so todos pares, e 0 se algum deles for mpar.

Portanto,
X c3
P (Sn = 0) P (N1 , N2 , N3 ) = (n1 , n2 , n3 )
n1 ,n2 ,n3
n1 n2 n3
todos pares
X c3
6 P (N1 , N2 , N3 ) = (n1 , n2 , n3 ) +
n1 ,n2 ,n3
n1 n2 n3
n
todos maiores que 4
X c3
+ P (N1 , N2 , N3 ) = (n1 , n2 , n3 )
n1 ,n2 ,n3
n1 n2 n3
n
algum menor que 4
3
c X
6 P (N1 , N2 , N3 ) = (n1 , n2 , n3 ) +
( n4 )3/2 n1 ,n2 ,n3
n
todos maiores que 4
X
+ P (N1 , N2 , N3 ) = (n1 , n2 , n3 )
n1 ,n2 ,n3
n
algum menor que 4
3
8c
= P (N1 , N2 , N3 so maiores que n4 )+
n3/2
n
+ P (algum N1 , N2 , N3 menor que 4)
8c3 E(N1 n3 )4
6 + 3 n 4
n3/2 ( 12 )
6 (8c3 )n3/2 + (3 3 124 )n2 .
Na ltima desigualdade usamos a mesma estimativa que na prova da Lei dos

Grandes Nmeros de Cantelli, segundo a qual o quarto momento centrado de uma

soma i.i.d. menor que 3n2 vezes o quarto momento centrado de cada varivel.
A partir da estimativa acima, vemos que P (Sn = 0) somvel sobre n, logo R
integrvel e, portanto, finito quase certamente. Isso conclui a prova de que o
passeio aleatrio simples e simtrico em dimenso 3 q.c. transiente.
11.3 Prova da Recorrncia
Lema 11.2. Para todo k N, P (R > k) = P (R > 1)k .
Demonstrao. Quando ocorre o evento R > k, definimos T1 < < Tk como

os primeiros k instantes em que o passeio aleatrio retorna, isto ,
S0 = ST1 = = STk = 0, Sn 6= 0 para Tj < n < Tj+1 .
Ento X
P (R > k) = P (T1 = t1 , T2 = t2 , . . . , Tk = tk ).
t1 <t2 <<tk
Observe que todo caminho possvel at o momento tk tem a mesma probabilidade

1
(2d)tk
. Logo, a probabilidade acima dada por
#{(x1 , . . . , xtk ) : st1 = = stk = 0, sn 6= 0 para tj < n < tj+1 } #At1 ,...,tk
= ,
(2d)tk (2d)tk
onde, dada uma sequncia x1 , . . . , xtk , denotamos o caminho correspondente por

sn = x1 + + xn .
A principal observao que as sequncias no conjunto acima podem ser obtidas
pela concatenao de subsequncias correspondentes a cada tempo de retorno. Mais
precisamente, escrevendo

At = (x1 , . . . , xt ) : st = 0, sn 6= 0 para 0 < n < t ,
temos
#At1 ,...,tk = #At1 #At2 t1 #At3 t2 #Atk tk1 .
11.3. PROVA DA RECORRNCIA 167
Para concluir, escrevemos

X
P (R > k) = P (T1 = r1 , T2 = r1 + r2 , . . . , Tk = r1 + r2 + + rk )
r1 ,r2 ,...,rk >0
X #Ar1 ,r1 +r2 ,...,r1 +r2 ++rk
=
r1 ,r2 ,...,rk >0
(2d)r1 +r2 ++rk
X #Ar1 #Ar2 #Ark
= r
r

r1 ,r2 ,...,rk >0
(2d) 1 (2d) 2 (2d)rk
X #Ar X #Ar X #Ar
1 2 k
= r
r
rk
r >0
(2d) 1
r >0
(2d) 2
r >0
(2d)
1 2 k
k
= P (R > 1) .
( P
1, n P (Sn = 0) = ,
Corolrio 11.3. P (R = ) = P
0, n P (Sn = 0) < .
Demonstrao. Seja = P (R > 1). Existem apenas duas possibilidades:

Se = 1, ento P (R > k) = 1 para cada k, logo P (R = ) = 1, e ER = .
Se < 1, ento P (R > k) = k 0 quando k , logo P (R = ) = 0 e
P P
ER = n=1 P (R > n) = n=1 n = 1 < .
P
Recordando que ER = n P (Sn = 0), isso prova o corolrio.
Provaremos agora a recorrncia para dimenses d = 1 e d = 2 mostrando que

1/2
P
n P (Sn = 0) = . Para d = 1, P (Sn = 0) cn para n par, que no
somvel, concluindo a prova.
Para d = 2, usamos a definio de N1 e N2 do incio da seo anterior. Afirmamos
que para n par, P (N1 , N2 ambos pares) = 12 . Com efeito, considere a paridade
dessas mesmas contagens no passo n 2: se ambas forem mpares, ento um passo
em cada direo as far pares no passo n; se ambas forem pares, ento dois passos
na mesma direo as mantero pares no passo n. Esses eventos ocorrem com a
probabilidade 12 cada, provando assim a afirmao.
Portanto, para n par, temos

X c2
P (Sn = 0) P (N1 , N2 ) = (n1 , n2 )
n1 ,n2
n1 n2
ambos pares
c2 X
6 pn n P (N1 , N2 ) = (n1 , n2 )
2 2 n1 ,n2
ambos pares
c2
= p n n P (N1 , N2 so ambas pares)
2 2
2 1
=c n ,
que no somvel, concluindo a prova da recorrncia para d = 2.

Captulo 12
Grandes Desvios
Sejam (Xn )n variveis aleatrias i.i.d. e Sn = X1 + + Xn . Neste captulo vamos

enunciar e provar a Desigualdade de Concentrao de Chernoff para Snn em torno .
Vamos enunciar o Princpio dos Grande Desvios de Cramr, e prov-lo sob certas
hipteses.
g(n)
Notao. O termo o(bn ) denota uma funo g(n) satisfazendo bn 0. Cada vez
que aparece, denota uma funo diferente.
12.1 Desigualdade de Concentrao
Seja X uma varivel aleatria integrvel com mdia . Sejam (Xn )n independentes
e com a mesma distribuio de X, e tome Sn = X1 + + Xn .
A Lei dos Grandes Nmeros foi provada da seguinte forma: dado a > ,
Sn
2 1
> a 6 P ( Snn )2 > (a )2 6 1 Sn VX

P n (a)2 E n = (a)2
n
A desigualdade acima diz que, quando EX 2 < , a probabilidade de Snn diferir de

por mais que uma quantidade fixa a decai pelo menos to rpido quanto n1 .
Na prova da Lei dos Grandes Nmeros de Cantelli, vimos que, quando EX 4 < ,
esta probabilidade decai pelo menos to rpido quanto n12 . Em geral, se EX 2k <
169
170 CAPTULO 12. GRANDES DESVIOS
1
ela decai pelo menos to rpido quanto nk
.
Tentaremos agora obter estimativas melhores usando momentos de etX ao invs de
X 2k . Para t > 0,
Sn
> a 6 P etSn > eatn 6 1 tSn
= eatn M (t)n = e[atlog M (t)]n ,

P n eatn Ee
onde M (t) = EetX a funo geradora de momentos de X. Da mesma forma,

para a < e t 6 0,
P Snn 6 a 6 e[atlog M (t)]n .

(12.1)
Portanto, se mostrarmos que a expresso entre colchetes positiva para algum t,

teremos estabelecido que essa probabilidade de fato decai pelo menos exponencial-
mente rpido.
Sabemos que a funo geradora de momentos finita em um intervalo que contm
+
o ponto t = 0. Denotaremos os extremos desse intervalo por DM 6 0 a DM > 0.
+
Teorema 12.1 (Desigualdade de Concentrao de Chernoff). Se DM > 0, ento
para qualquer a > existe t > 0 tal que [at log M (t)] > 0. Como
Sn
> a 6 e[atlog M (t)]n ,

P n
segue que essa probabilidade decai pelo menos exponencialmente rpido em n.

Analogamente, se DM < 0 e a < ento [at log M (t)] > 0 para algum t < 0 e a
estimativa em (12.1) decai exponencialmente rpido.
+
Demonstrao. Suponha que DM > 0 e seja a > . Pela Proposio 10.9, podemos
tomar a derivada lateral pela direita, obtendo
d h i M 0 (0)
at log M (t) =a = a > 0,
dt t=0
M (0)
de forma que para t positivo e pequeno a expresso acima positiva.

Da mesma forma, suponha que DM < 0 e seja a < . Tomando a derivada lateral
pela esquerda, vemos que o termo entre colchetes ser positivo para t negativo e
pequeno.
12.2. PRINCPIO DOS GRANDES DESVIOS 171
12.2 Princpio dos Grandes Desvios

Comeamos com o conceito fundamental de funo taxa.
Definio 12.2 (funo taxa). Seja X uma varivel aleatria. Definimos a funo
taxa I associada distribuio de X, por

I(a) = sup at log M (t) .
tR
Podemos pensar na funo taxa como uma tentativa de obter a melhor estimativa
possvel a partir de (12.1). A razo pela qual a funo I merece esse nome
que, uma vez que maximizamos [at log M (t)] sobre todo t, a desigualdade (12.1)
deixa de ser apenas mais uma cota superior, sendo de fato a melhor cota superior
possvel. O prximo teorema torna esta afirmao precisa. Dado A R, para
descrever a maneira mais fcil (ou menos difcil) de Snn estar em A, vamos denotar
I(A) = inf I(a).
aA
Teorema 12.3 (Princpio dos Grandes Desvios de Cramr). Seja J um intervalo,

e denote por J e J o intervalos aberto e fechado correspondentes a J. Ento

eI(J )n+o(n) Sn
J 6 eI(J )n+o(n) .

6P n
Em particular, quando I(J ) = I(J ), temos a taxa exata de decaimento exponen-

cial para estas probabilidades:
Sn
J = eI(J)n+o(n) .

P n
Antes de provar o teorema acima, vamos discutir a relao entre M e I, e sua

interpretao geomtrica.
Proposio 12.4. As funes I e log M so convexas.
No vamos usar essa proposio, e daremos a demonstrao na pgina 178.

Vejamos como encontrar I(a) graficamente e algebricamente. No caso de o supremo
na definio de I(a) ser atingido em algum y R, temos
d
M 0 (y)
0= dy ay log M (y) = a ,
M (y)
assim
d M 0 (y)
a= dy log M (y) = M (y) ,
e resolvendo y em termos de a s vezes possvel calcular I explicitamente por
I(a) = a y log M (y), y = y(a).
Esse processo de encontrar y tal que (log M )0 (y) = a e expressar I(a) = ay

log M (y) est ilustrado na Figura 12.1 e nos exemplos abaixo.
log M (t) a2 a=
y=0
I() = 0
y1 t
y2
I(a1 )
a1
I(a2 )
Figura 12.1: Obteno de I(a) para distintos valores de a a partir da funo log M .
Se X N (, 1), temos
t2
log M (t) = + t,
2
assim
a = [log M (y)]0 = y + , y = a ,
e h i (a )2
(a)2
I(a) = a(a ) 2 + (a ) = , a R.
2
Se X Poisson(), temos
log M (t) = (et 1),
assim
a = [log M (y)]0 = ey , y = log a ,
12.2. PRINCPIO DOS GRANDES DESVIOS 173
e
I(a) = ay log M (y) = a log a a + .
De fato, (
a log a a + , a > 0,
I(a) =
+ a < 0.
Se X exp(1), temos
1
M (t) = , t < 1,
1t
assim
M 0 (y) (1 y)2 1 1
a= = = , y =1 ,
M (y) (1 y)1 1y a
e
I(a) = ay log M (y) = a(1 a1 ) log M (y) = a 1 log a.
De fato, (
a 1 log a, a > 0,
I(a) =
+ a 6 0.
Se X Bernoulli(p), temos
M (t) = pet + 1 p,
assim
M 0 (y) pey 1p
a= = y , y = log( ap 1a ),
M (y) pe + 1 p
e
I(a) = ay log M (y) = = a log ap + (1 a) log 1a
1p .
De fato,
a 1a
a log p + (1 a) log 1p , 0 < a < 1,

log 1 ,

a = 1,
p
I(a) = 1

log 1p , a = 0,

+ a < 0 ou a > 1.

Se X = constante, temos
log M (t) = t,
assim
a = [log M (t)]0 = , y pode ser qualquer nmero,
e
I(a) = ay log M (y) = 0.
De fato, (
0, a=
I(a) =
+ a 6= .
12.3 Prova da Cota Inferior
Teorema 12.5. Para qualquer a R e > 0,
Sn
[a , a + ] > eI(a)n+o(n) .

P n
O teorema vale tal como enunciado, sem suposies adicionais sobre a distribuio
de X. No entanto, vamos supor que o supremo em I(a) atingido, ou seja,
I(a) = a y log M (y)

+
para algum y (DM , DM ). Abandonar essa hiptese requer passos tcnicos e
complicados que no nos interessam.
+
Demonstrao. Como o supremo atingido no interior de (DM , DM ), temos
d h i M 0 (y)
0= at log M (t) =a ,
dt t=y
M (y)
e portanto
E[XeyX ]
= a.
E[eyX ]
A principal observao que a expresso do lado esquerdo corresponde esperana

de uma varivel aleatria Y cuja distribuio obtida a partir da distribuio de
X, distorcida por um fator da forma f (x) = eyx , x R. Ou seja, para uma varivel
12.3. PROVA DA COTA INFERIOR 175
aleatria Y cuja distribuio dada por

h i
E[1B (X)eyX ] eyX
P (Y B) = E[eyX ]
= E 1B (X) M (y) ,
temos EY = a. Portanto, para Y1 , Y2 , . . . i.i.d. distribudos como esta verso

distorcida de X, a ocorrncia de Y1 ++Y
n
n
a no um evento raro.
A prova ento consiste em controlar a razo de verossimilhana entre (X1 , . . . , Xn )
e (Y1 , . . . , Yn ) em um subconjunto de Rn que tpico para este ltimo vetor, de
forma tal que tal razo no fique menor que eI(a)no(n) .
Fixe (0, ], e defina o conjunto
Bn = (z1 , . . . , zn ) : z1 ++z a 6 Rn .

n
n
Ento
Sn

P n [a , a + ] = E 1Bn (X1 , . . . , Xn )
h i
(y)n eyX1 eyXn
= E ey(XM1 ++Xn )
1
Bn (X 1 , . . . , X )
n M (y) M (y)
n

M (y) eyX1 eyXn
> E ayn+|y|n 1Bn (X1 , . . . , Xn ) M (y) M (y)
e
= e[aylog M (y)|y|]n P (Y1 , . . . , Yn ) Bn

= e[aylog M (y)|y|]n P Y1 ++Yn

n [a , a + ] .
Esta ltima probabilidade converge para 1 pela Lei dos Grandes Nmeros, e
portanto
P Snn a 6 > P Snn a 6 > eI(a)n2|y|n

para todo n suficientemente grande. Como (0, ] arbitrrio, isso implica
P Snn a 6 > eI(a)n+o(n) ,

completando a prova.
Demonstrao da cota inferior no Teorema 12.3. Seja > 0. Tome a J tal

que I(a) 6 I(J ) + . Tome > 0 tal que [a , a + ] J. Ento, usando o
Teorema 12.5 temos

Sn Sn
[a , a + ] > eI(a)n+o(n) > eI(J )nn+o(n) .

P n J >P n

Sn
J > eI(J )n+o(n) , o que conclui a prova.

Como arbitrrio, P n
12.4 Prova da Cota Superior

Vejamos como a cota superior no Teorema 12.3 uma conseqncia direta do
Teorema 12.1. Comeamos com propriedades de monotonicidade da funo taxa.
Proposio 12.6. A funo taxa I no-crescente em (, ] e no-decrescente

em [, +). Alm disso, I() = 0,
I(a) = sup[at log M (t)] para a > e I(a) = sup[at log M (t)] para a 6 .
t>0 t60
Demonstrao. Tomando t = 0 temos [at log M (t)] = 0, logo I(a) > 0 para todo
a. Agora, pela desigualdade de Jensen, M (t) = EetX > eEtX = et , donde
t log M (t) 6 0.
Isso implica que I() = 0. Isso tambm implica que, para a > e t < 0, at
log M (t) < 0, assim I(a) = supt>0 [atlog M (t)]. Analogamente, para a < temos
I(a) = supt60 [at log M (t)].
Para provar monotonicidade em [, +), vejamos que, para a > c > ,
I(a) = sup[at log M (t)] > sup[ct log M (t)] = I(c) > 0 = I().
t>0 t>0
Monotonicidade em (, ] se prova da mesma forma.
Demonstrao da cota superior no Teorema 12.3. Escrevemos J = [c, a] R. Se

c 6 6 a, I(J ) = 0 e no h nada a provar. Podemos ento assumir que a < ,
pois o c > anlogo. Seja > 0. Pela Proposio 12.6, temos
I(J ) = I(a) = sup[at log M (t)],

t60
12.5. CONVEXIDADE 177
e podemos tomar t 6 0 tal que [at log M (t)] > I(J ) . Agora, usando a
estimativa (12.1) obtemos

Sn Sn
6 a 6 eI(J )n+n .

P n J 6P n

Sn
J 6 eI(J )n+o(n) , concluindo a demonstrao.

Como arbitrrio, P n
12.5 Convexidade
Esta seo pode ser omitida. Vamos enunciar e provar a Desigualdade de Young,
para ento enunciar e provar a Desigualdade de Hlder, e finalmente demonstrar a
Proposio 12.4.
Sejam p > 1, q > 1 tais que
1 1
+ = 1.
p q
Proposio 12.7 (Desigualdade de Young). Para a, b > 0,
ap bq
ab 6 + .
p q
Demonstrao. Primeiro veja que
1
p1= .
q1
Considere a curva s = rp1 , ou seja, r = sq1 , no quadrante {(r, s) [0, )2 }. A

desigualdade em
a b
ap bq
Z Z
p1
+ = r dr + sq1 ds > ab
p q 0 0
vale porque as integrais correspondem a reas disjuntas do quadrante cuja unio

contm o retngulo [0, a] [0, b].
Proposio 12.8 (Desigualdade de Hlder). Se X e Y tm momentos de ordem

p e q finitos, respectivamente, ento XY integrvel e E[XY ] 6 kXkp kY kq .
Demonstrao. Podemos supor que kXkp > 0 e kY kq > 0, caso contrrio XY = 0

q.c. e a desigualdade vale trivialmente. Tomemos
|X| |Y |
X = e Y =
kXkp kY kq
(observe que o numerador uma varivel aleatria e o denominador uma

constante). Usando a desigualdade de Young,
E[XY ] E|XY | E X p E X q 1 1
6 = E[X Y ] 6 + = + = 1.
kXkp kY kq kXkp kY kq p q p q
Demonstrao da Proposio 12.4. Comeamos com a convexidade de I. Sejam

0 < < 1 e = 1 . Para a1 e a2 R,

I(a1 + a2 ) = sup (a1 + a2 )t (1 + 2 )M (t)
tR

= sup (a1 t M (t)) + (a2 t M (t))
tR

6 sup (a1 t M (t)) + sup (a2 t M (t))
tR tR
= I(a1 ) + I(a2 ).
Passamos agora convexidade de M . Sejam t1 e t2 R. Usando a desigualdade

de Hlder,
log M (t1 + t2 ) = log E et1 X et2 X

1 i h 1 i
h
t1 X t2 X
6 log E e E e
= log Eet1 X + log Eet2 X

= log M (t1 ) + log M (t2 ).
Apndice A
Frmula de Stirling
Este captulo independente dos anteriores, e tem como objetivo demonstrar

Teorema A.1 (Frmula de Stirling). n! nn en 2n.
A.1 Obteno da Frmula e Demonstrao

Para entender como surge essa a frmula, observe que
n
X
log n! = log 1 + log 2 + + log n = log k
k=1
uma aproximao superior para

Z n
log x dx = n log n n = log(nn en ).
0
Com esse argumento de aproximao de soma por integral, pode-se mostrar que
r(n)
log n! = n log n n + r(n) com 0,
n
que suficiente em muitas aplicaes, mas queremos uma aproximao mais fina.
De fato, queremos aproximar assintoticamente n! e no apenas log n!.
179
180 APNDICE A. FRMULA DE STIRLING
Admitindo uma correo polinomial, busquemos aproximar n! por um mltiplo de

nn en n com R. Tomando
n n
n e n
cn = log ,
n!
temos
h i
n+1 n en1 n+1 n!

cn+1 cn = log (n + 1) n en n (n+1)!=
= n log(1 + n1 ) 1 + log(1 + n1 ).

Fazendo a expanso de Taylor de log(1 + x) para x [0, 1] temos
x2
log(1 + x) = x + r(x)
2
2 x3 x3
onde r(x) igual a (1+x)3 6 para algum x [0, x] e satisfaz 0 6 r(x) 6 3 .
Continuando o desenvolvimento de cn+1 cn , temos Temos que
1 1
+ r( n1 ) 1 + 1 1
+ r( n1 )

cn+1 cn = n n 2n2 n 2n2
1 1
= n 2n + n r( n ) 2n2 + r( n1 )
= n r( n1 ) + 12 r( n1 ) 4n1 2
1 1
se escolhemos = 2 para cancelar os termos de ordem n.
Finalmente, combinando a ltima identidade e expanso de Taylor temos
1
|cn+1 cn | 6 2n2 ,
que somvel, logo cn c para algum c R. Portanto,
n!
ec = 2
nn en n
para algum > 0, ou seja

n! nn en 2n.
Resta mostrar que a constante dada por = .
A.2. CLCULO DA CONSTANTE 181
A.2 Clculo da Constante
A frmula de Stirling foi provada primeiro por De Moivre, e Stirling encontrou o

valor da constante. Vamos provar que = de duas formas diferentes.
Usando a demonstrao do teorema de De Moivre A primeira prova supe

que o leitor viu a demonstrao do teorema de De Moivre-Laplace na Seo 7.1.
Pela desigualdade clssica de Tchebyshev,

np
1 m12 6 P m 6 Snnpq 6 +m 6 1.
Agora observe que a demonstrao do teorema de De Moivre-Laplace funciona

assumindo a frmula de Stirling com uma constante desconhecida no lugar de .
Assim, fazendo n ,
m x2
e 2
Z
1
1 m2 6 dx 6 1.
m 2
Fazendo agora m obtemos

x2
e 2
Z
dx = 1,
R 2
e portanto = .
Usando o produto de Wallis O produto de Wallis dado por

Y 2n 2n 2 2 4 4 6 6 2n 2n
= = lim ,
2 n=1
2n 1 2n + 1 n 1 3 3 5 5 7 2n 1 2n + 1
o que ser demonstrado mais abaixo.

2n
Tomando a raiz quadrada e usando que 2n+1 1 obtemos
2 4 6 (2n 2)
r

= lim 2n.
2 n 3 5 7 (2n 1)
182 APNDICE A. FRMULA DE STIRLING
Multiplicando pelo numerador chegamos a

r
2 2 4 4 6 6 (2n 2) (2n 2) 2n 2n 2n
= lim
2 n 2 3 4 5 6 7 (2n 2) (2n 1) 2n 2n

22n 12 22 32 n2 1 22n (n!)2
= lim = lim .
n (2n)! 2n n (2n)! 2n
Finalmente, substituindo na frmula de Stirling chegamos a

r
22n n2n e2n 2n
r

= lim 2n = ,
2 n (2n) e 2n 4n 2n 2
e portanto = .
Demonstrao do produto de Wallis Daremos a demonstrao em forma de

exerccio. Seja
Z /2
In = senn x dx, n > 0.
0
a) Mostre que para todo n > 2 vale
n1
In = In2 .
n
Sugesto: integrando senn x = senn1 x sen x por partes, mostre que

senn x dx = (n 1) (senn2 x)(cos2 x) dx = (n 1)[In2 In ].
R R
b) Verifique que para todo n > 1 vale
I2n2 2n 2n I2n
= .
I2n1 2n 1 2n + 1 I2n+1

c) Verifique que I0 = 2 e I1 = 1.
d) Mostre por induo que para todo n > 0 vale
2 2 4 4 6 6 2n 2n I2n
= .
2 1 3 3 5 5 7 2n 1 2n + 1 I2n+1
2n I2n+1 I2n+1 I2n

e) Mostre que 2n+1 = I2n1 6 I2n 6 1, e portanto I2n+1 1.
Lista de Figuras
2.1 Grfico de uma funo de distribuio acumulada. . . . . . . . . . . 37

2.2 Grfico de uma funo de distribuio acumulada. . . . . . . . . . . 37
3.1 Valores assumidos por FX (t1 , t2 ) para cada (t1 , t2 ) R2 . . . . . . . . 55
4.1 A esperana de X como o centro de massa de pX . . . . . . . . . . . 72

4.2 Esperana e integral. . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 Grfico de g2 (y) e aproximao de gk (x) % x para um x fixo. . . . . 84
4.4 Aproximao de X por g1 (X) e g2 (X). . . . . . . . . . . . . . . . . . 85
5.1 Diagrama de implicaes entre os tipos de convergncia. . . . . . . . 108
7.1 Aproximao de binomial a normal. . . . . . . . . . . . . . . . . . . 119
9.1 Ilustrao da definio de E(X|D). . . . . . . . . . . . . . . . . . . . 142

9.2 Diagrama de relaes para probabilidade e esperana condicionais. . 143
12.1 Obteno de I(a) para distintos valores de a a partir da funo log M .172
183
184 LISTA DE FIGURAS
Lista de Tabelas
2.1 (x + y), onde x so os valores das linhas e y os das colunas. . . . . 47
185
186 LISTA DE TABELAS
Notao
#A Cardinalidade de A, quantidade de elementos que pertencem a A . . . . . . 14
Ac Complementar de A: Ac = { :
/ A} . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
an
Assintoticamente equivalentes: an bn se bn 1 quando n . . . . 119
ab Mximo entre a e b, a b = max{a, b} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
ab Mnimo entre a e b, a b = min{a, b} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Bernoulli(p) Distribuio de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

n
Combinaes de n, k a k. nk = k!(nk)! n!

k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
b(n, p) Distribuio binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
exp() Distribuio exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .45
F (x+) Limite lateral pela direita, limyx+ F (y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
F (x) Limite lateral pela esquerda, limyx F (y) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Geom(p) Distribuio geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1A Funo indicadora, 1A () = 1 se A ou 0 caso contrrio . . . . . . . . . . . . 34
i.i.d. Independentes e identicamente distribudas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
N Nmeros naturais, N = {1, 2, 3, . . . } . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
N (, 2 ) Distribuio normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
187
188 APNDICE A. NOTAO
o(w)
o() ordem pequena; qualquer funo satisfazendo |w| 0 . . . . . . . . . . . . . . . 169
P() Conjunto das partes: P() = {A : A } . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Poisson() Distribuio de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
U [a, b] Distribuio uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Ud [I] Distribuio uniforme discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
X Vetor aleatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
x Um vetor com d coordenadas, x Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
X Y X e Y tm a mesma distribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
x 6 y Desigualdade de vetores, x1 6 y1 , . . . , xd 6 yd . . . . . . . . . . . . . . . . . . . . . . . . . . 54
X, Y Variveis aleatrias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
ndice Remissivo
tomo, 140 onal, veja esperana condicio-

nal
Bayes, veja frmula de Bayes conjunto das partes, 18
Bernoulli, veja distribuio de Bernoulli, conjunto pequeno, 43, 48, 58
veja lei dos grandes nmeros de contnua, veja varivel aleatria absolu-
Bernoulli tamente contnua
Borel, veja -lgebra de Borel, veja lema convergncia
de Borel-Cantelli, veja lei dos de variveis aleatrias, 99
grandes nmeros de Borel em Lp , 105
Borelianos, veja -lgebra de Borel em distribuio, veja tambm teo-
rema da continuidade de Lvy,
Cantelli, veja lema de Borel-Cantelli, 106, 134
veja lei dos grandes nmeros de em probabilidade, 102
Cantelli quase certa, 103
Cauchy, veja ver desigualdade de Cauchy- relaes de implicao, 108
Schwarz unicidade do limite, 106, 108
Cauchy-Schwarz, veja ver desigualdade convergncia da esperana, 157
de Cauchy-Schwarz convergncia dominada, 158
centro de massa, 71 convergncia montona, 157
Chebyshev, veja Tchebyshev lema de Fatou, 158
Chernoff, veja desigualdade de concen- convexa, veja funo convexa
trao covarincia, 89
coeficiente de correlao, 90 propriedades, 89
propriedades, 90, 91 Cramr, veja princpio dos grandes des-
cncava, veja funo cncava vios
condicional, veja probabilidade condici-
onal, veja distribuio condici- De Moivre, veja teorema central do li-
189
190 NDICE REMISSIVO
mite tabela, 47
densidade, veja funo de densidade singular, veja varivel aleatria sin-
desigualdade gular
bsica de Tchebyshev, 92 uniforme, 44
clssica de Tchebyshev, 93 contnua, 44
de Cauchy-Schwarz, 93 discreta, 40
de concentrao de Chernoff, 169
equiprovvel, 14, 40
de Hlder, 177
espao amostral, 15
de Jensen, 91
espao de probabilidade, 13, 19
de Markov, 93
induzido, 35, 54
de Young, 177
espao discreto, 14
desvio-padro, 88
esperana
propriedades, 88
caso contnuo, 80
determinante, veja mtodo do Jacobiano
caso discreto, 79
discreta, veja ver varivel aleatria dis-
condicional
creta
dada uma partio, 141
distribuio
dado um evento, 95
binomial, 41, 118, 135
iterada, 151
condicional propriedades, 141, 142, 151
dado um evento, 49 regular, 150
regular, 147 de variveis independentes, 75, 82
conjunta, veja funo de distribui- de varivel aleatria simples, 71
o conjunta propriedades, 73
de Bernoulli, 40 definio, 78
de Poisson, 42, 68, 79, 110, 128 linearidade, 81
130, 133135 momentos, veja momentos
de uma varivel aleatria, 35 monotonicidade, 81
exponencial, 45 mudana de varivel, 80
funo de, veja funo de distribui- propriedades, 81, 82
o unitariedade, 81
gama, 45 varincia, veja varincia
geomtrica, 41 Euler, veja frmula de Euler
hipergeomtrica, 41 evento
normal, 46, 117, 118, 122, 135, 137 aleatrio, 16
padro, 46 certo, 17
soma de, 65, 136 elementar, 17
NDICE REMISSIVO 191
impossvel, 17 grandes nmeros, veja lei dos grandes

incompatvel, 17 nmeros
independente, veja independncia
de eventos Hlder, veja desigualdade de Hlder
expanso de Taylor, 133
independncia
do logaritmo, 121, 180
de eventos, 26
coletiva, 28
frmula dois a dois, 27
de Bayes, 24 de variveis aleatrias, 60
de Euler, 131 caso contnuo, 62
de Stirling, 120, 179 caso discreto, 61
Fourier, veja transformada critrio, 60
funo esperana, veja esperana de vari-
caracterstica, 131, 132 veis independentes
cncava, 91 indicadora, veja funo indicadora
convexa, 91 infinitas vezes, 99
de densidade, 42 integrvel, veja varivel aleatria inte-
condicional, 50 grvel
conjunta, 58 integral de Lebesgue, 83
marginal, 58
de distribuio, 36 Jacobi, veja mtodo do Jacobiano
condicional, 49 Jacobiano, veja mtodo do Jacobiano
conjunta, 54 Jensen, veja desigualdade de Jensen
marginal, 56
Khintchine, veja lei dos grandes nmeros
propriedades, 37, 55
de Khintchine
de probabilidade, 39
Kolmogorov, veja lei dos grandes nme-
condicional, 50
ros de Kolmogorov
conjunta, 57
marginal, 57 Laplace, veja teorema central do limite,
geradora de momentos, 127 veja transformada
indicadora, 34 Lebesgue, veja integral de Lebesgue,
par, 44 veja convergncia da esperana
taxa, 171 lei
da probabilidade total, 23, 140
grandes desvios, veja princpio dos grande um vetor aleatrio, 54
des desvios de uma varivel aleatria, 35
192 NDICE REMISSIVO
lei dos grandes nmeros, 111 partio, 23, 139, veja tambm proba-
de Bernoulli, 111 bilidade condicional dada uma
de Borel, 113 partio
de Cantelli, 113 mais fina, 143
de Khintchine, 112 mensurabilidade de varivel aleat-
de Kolmogorov, 114 ria, 143
de Tchebyshev, 112 passeio aleatrio, 163
forte, 113 pequeno, veja conjunto pequeno
fraca, 111 Poisson, veja distribuio de Poisson
lema de Borel-Cantelli, 101 princpio da preservao das chances re-
Lvy, veja teorema da continuidade de lativas, 149
Lvy princpio da substituio, 150
Lyapunov, veja teorema central do li- princpio dos grandes desvios, 171
mite de Lyapunov probabilidade, 18
condicional, 20
marginal, veja funo de distribuio dada uma partio, 140
marginal, veja funo de pro- total, veja lei da probabilidade total
babilidade marginal, veja fun- produto de Wallis, 181
o de densidade marginal
Markov, veja desigualdade de Markov realizao do experimento, 15
recorrncia, 166
matriz
regra do produto, 21
Jacobiana, veja mtodo do Jacobi-
regularidade
ano
determinstica, 13
mdia, veja esperana
estatstica, 13
mdia amostral, 117
resultados possveis, 15
medida de probabilidade, veja probabi-
Riemann, veja soma de Riemann
lidade
mtodo do Jacobiano, 63 Schwarz, veja ver desigualdade de Cauchy-
modelo probabilstico, veja espao de Schwarz
probabilidade -lgebra, 18
momentos, 87 de Borel, 34, 54
mudana de varivel, veja mtodo do singular, veja varivel aleatria singular,
Jacobiano, veja esperana veja vetor aleatrio singular
soma de Riemann, 122
normal, veja distribuio normal Stirling, veja frmula de Stirling
partes, veja conjunto das partes tabela normal, veja distribuio normal
NDICE REMISSIVO 193
Taylor, veja expanso de Taylor esperana, veja esperana

Tchebyshev, veja desigualdade bsica momentos, veja momentos
de Tchebyshev, veja desigual- simples, 71
dade clssica de Tchebyshev, singular, 48
veja lei dos grandes nmeros de varincia, veja varincia
Tchebyshev varincia, 87
teorema central do limite, 117 propriedades, 87
de Lyapunov, 122 vetor aleatrio, 54
para variveis i.i.d., 122 absolutamente contnuo, 58
teorema de De Moivre-Laplace, 118 contnuo, 59
teorema da continuidade de Lvy, 134 discreto, 57
teorema da convergncia, veja conver- misto, 60
gncia da esperana
transformada, 127 Wallis, veja produto de Wallis
de Fourier, veja funo caracters-
Young, veja desigualdade de Young
tica
de Laplace, veja funo geradora de
momentos
transincia, 164
valor esperado, veja esperana

varivel aleatria, 33
absolutamente contnua, 42
esperana, veja esperana
complexa, 131
contnua, veja tambm varivel ale-
atria absolutamente contnua,
42
covarincia, veja covarincia
densidade, veja funo de densidade
desvio-padro, veja desvio-padro
discreta, 39
esperana, veja esperana
independente, veja independncia
de variveis aleatrias
integrvel, 81
mista, 48
194 NDICE REMISSIVO
Referncias Bibliogrficas
[CA03] K. L. Chung, F. AitSahlia. Elementary probability theory. Undergra-

duate Texts in Mathematics. Springer-Verlag, New York, 4 edn., 2003.
[Jam04] B. R. James. Probabilidade: Um Curso em Nvel Intermedirio. IMPA,

Rio de Janeiro, 3 edn., 2004.
[Shi96] A. N. Shiryaev. Probability, vol. 95 of Graduate Texts in Mathematics.

Springer-Verlag, New York, 2 edn., 1996.
195

Introdução À Probabilidade

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Introdução À Probabilidade

Hochgeladen von

Copyright:

Verfügbare Formate

Introduo Probabilidade

A qualquer pessoa que receba uma cpia deste trabalho,

Disponvel para download gratuito em .

Descrio e Interdependncia dos Captulos

independentes entre si, exceto que os Captulos 6, 7 e 8 que dependem em maior

A primeira parte auto-contida e matematicamente rigorosa, inclusive na constru-

Alguns tpicos importantes so omitidos, dentre eles: quantil de uma varivel

3.3 Independncia de Variveis Aleatrias . . . . . . . . . . . . . . . . . 60

5 Convergncia de Variveis Aleatrias 99

6 Lei dos Grandes Nmeros 111

7 Teorema Central do Limite 117

8 Funes Geradoras 127

8.2 Funo Caracterstica . . . . . . . . . . . . . . . . . . . . . . . . . . 131

9 Esperana Condicional 139

10 Convergncia da Esperana 157

11 O Passeio Aleatrio 163

12 Grandes Desvios 169

A Frmula de Stirling 179

Lista de Figuras 183

Lista de Tabelas 185

ndice Remissivo 189

Referncias Bibliogrficas 195

O objetivo deste texto introduzir o estudo formal dos Espaos de Probabilidade, as

1.1 Espao de Probabilidade

Um modelo probabilstico tem trs componentes bsicas:

1. Um conjunto formado por todos os resultados possveis do experimento,

chamado espao amostral.

2. Uma classe apropriada F de subconjuntos do espao amostral, chamada classe

Resultados equiprovveis Num modelo em que os resultados so equiprovveis,

onde #B denota a cardinalidade do conjunto B , isto , a quantidade de

Exemplo 1.1. Imagine o sorteio de uma carta em um baralho francs com 52

Exemplo 1.2. Imagine o lanamento de um dado em que um jogador precisa obter

Espao discreto Outro exemplo um pouco mais complicado quando o es-

A cada possvel resultado xn associada uma probabilidade p(xn ) de forma que

Para um subconjunto B definimos

Exemplo 1.3. Imagine que lanamos um dado em sequncia at obter o nmero 3,

Neste caso, p(n) = 61 ( 56 )n1 . Seja A = obter um 3 em no mximo 5 tentativas e

A seguir veremos uma formulao mais precisa desses conceitos.

Um conjunto no-vazio , cujos elementos representam todos os resultados possveis

Exemplo 1.4. Se o experimento consiste em lanar uma moeda, ento

onde 1 representa a face cara e 0 representa a face coroa.

Exemplo 1.5. Se o experimento consiste em lanar um dado e observar a face

Exemplo 1.6. Se o experimento consiste em lanar duas moedas, ento

onde a primeira coordenada representa o valor observado na primeira moeda, e a

Exemplo 1.7. Se o experimento consiste em lanar dois dados e observar as faces

= {1, 2, 3, 4, 5, 6}2 = = (1 , 2 ) : 1 , 2 {1, 2, 3, 4, 5, 6} .

Exemplo 1.8. Lanar uma moeda infinitas vezes em sequncia.

Exemplo 1.9. Se o experimento consiste em medir a durao de uma lmpada,

Exemplo 1.10. No lanamento de um dado ( = {1, 2, 3, 4, 5, 6}) considere os

B contm todos os resultados que sejam pares ou mltiplos de 3 (ou ambos!), e

Analogamente, a interseo A B, que dada por { : A e B},

Denotamos por Ac o complementar do conjunto A, dado por Ac = { : / A},

Dois eventos A e B so ditos mutuamente exclusivos ou incompatveis se AB = ,

Se , o evento {} dito elementar. A relao A B significa que todo A

subconjuntos de , dado por

e chamado o conjunto das partes. Porm h casos em que no enumervel,

Chamaremos de -lgebra a uma classe de subconjuntos de satisfazendo as trs

(P1) P (A) > 0 para todo A F.

A maneira usual de definir medida de probabilidade atravs das propriedades

Teorema 1.14. Toda medida de probabilidade P satisfaz:

5. Para todo A F, temos 0 6 P (A) 6 1.

Demonstrao. Feita em aula.

Uma medida de probabilidade P tambm tem a propriedade de ser contnua.