RÊGO, L. C. Notas de Aula Do Curso PGE950 - Probabilidade. 2013.

Notas de Aula do Curso
PGE950: Probabilidade
Leandro Chaves Rgo, Ph.D.
2013.1
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrcas
tendo em vista o contedo programtico da disciplina PGE950-Probabilidade do curso de
mestrado em Estatstica da Universidade Federal de Pernambuco. Em particular, elas no
contm nenhum material original e no substituem a consulta a livros textos. Seu principal
objetivo dispensar a necessidade dos alunos terem que copiar as aulas e, deste modo,
poderem se concentrar em entender o contedo das mesmas.
Recife, maro de 2013.
Leandro Chaves Rgo, Ph.D.
Contedo
Prefcio
1 Introduo Probabilidade
1.1 Experimento Aleatrio . . . . . . . . . . . . . . . . . . . . .
1.2 Espao Amostral . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Eventos e Coleo de Eventos . . . . . . . . . . . . . . . . .
1.3.1 Partio . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 lgebra de Eventos . . . . . . . . . . . . . . . . . . .
1.3.3 Funo Indicadora . . . . . . . . . . . . . . . . . . .
1.4 Fundamentos de Probabilidade . . . . . . . . . . . . . . . .
1.4.1 Hierarquia de Conceitos Estruturais de Probabilidade
1.4.2 Interpretaes de Probabilidade . . . . . . . . . . . .
1.5 Frequncias Relativas . . . . . . . . . . . . . . . . . . . . . .
1.6 Axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . .
1.6.1 Exemplos de Medidas de Probabilidade . . . . . . . .
1.6.2 Propriedades de uma Medida de Probabilidade . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
4
6
8
10
11
11
13
15
16
2 Probabilidade Condicional
2.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Independncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
29
3 Varivel Aleatria
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . .
3.2 Funo de Distribuio Acumulada . . . . . . . . .
3.3 Tipos de Varivel Aleatria . . . . . . . . . . . . .
3.3.1 Varivel Aleatria Discreta . . . . . . . . . .
3.3.2 Varivel Aleatria Contnua . . . . . . . . .
3.3.3 Varivel Aleatria Singular . . . . . . . . . .
3.3.4 Decomposio de uma Varivel Aleatria . .
3.4 Principais Distribuies de Probabilidade . . . . . .
3.5 Variveis Aleatrias Multidimensionais . . . . . . .
3.5.1 Funo de Distribuio Acumulada Conjunta
3.5.2 Independncia entre Variveis Aleatrias. . .
3.5.3 Exemplos de Distribuies Multivariadas . .
33
33
35
37
37
38
38
39
40
47
48
49
51
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.6
Funes de Variveis Aleatrias . . . . . . . . . . . . . . . . . . . . . . . . .
4 Esperana e Momentos de Variveis Aleatrias

4.1 O Conceito de Esperana . . . . . . . . . . . . . . . . . .
4.2 Denio da Esperana - Caso Discreto . . . . . . . . . .
4.3 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes
4.3.1 Propriedades da Integral de Lebesgue-Stieltjes . .
4.4 Denio da Esperana - Caso Geral . . . . . . . . . . .
4.4.1 Interpretao Geomtrica da Esperana . . . . . .
4.5 Esperana de Funes de Variveis Aleatrias . . . . . .
4.5.1 Caso Discreto . . . . . . . . . . . . . . . . . . . .
4.5.2 Caso Geral . . . . . . . . . . . . . . . . . . . . .
4.6 Propriedades da Esperana . . . . . . . . . . . . . . . . .
4.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7.1 Momentos Centrais . . . . . . . . . . . . . . . . .
4.8 Momentos Conjuntos . . . . . . . . . . . . . . . . . . . .
51
.
.
.
.
.
.
.
.
.
.
.
.
.
56
56
56
59
61
62
64
66
66
67
67
70
71
74
5 Distribuio e Esperana Condicionais

5.1 Distribuio condicional de X dada Y discreta . . . . . . . . . . . . . . . . .
5.2 Distribuio condicional de X dada Y : caso geral . . . . . . . . . . . . . . .
5.3 Esperana Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
79
83
6 Convergncia Estocstica
6.1 Seqncia de Eventos . . . . . . . . . . . . . . .
6.1.1 Borel-Canteli . . . . . . . . . . . . . . .
6.2 Covergncia de Variveis Aleatrias . . . . . . .
6.2.1 Tipos de Convergncia . . . . . . . . . .
6.2.2 Relao Entre os Tipos de Convergncia
6.3 Convergncia de Vetores Aleatrios . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
87
89
91
92
98
102
7 Funes Caractersticas
7.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Denio . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Propriedades . . . . . . . . . . . . . . . . . . .
7.2.2 Exemplos de Funes Caractersticas . . . . . .
7.3 Teorema da Continuidade de Levy . . . . . . . . . . . .
7.4 Soma de um Nmero Aleatrio de Variveis Aleatrias
7.5 Funo Caracterstica de um Vetor Aleatrio . . . . . .
7.6 Funes Geratrizes de Momento . . . . . . . . . . . . .
7.7 Teorema de Slutsky . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
104
105
105
110
111
115
117
120
120
8 Lei
8.1
8.2
8.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
dos Grandes Nmeros

123
Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Lei Fraca dos Grandes Nmeros . . . . . . . . . . . . . . . . . . . . . . . . . 125
Lei Forte dos Grandes Nmeros . . . . . . . . . . . . . . . . . . . . . . . . . 127
iii
8.4
Um Exemplo de Divergncia das Mdias . . . . . . . . . . . . . . . . . . . . 134
9 Teorema Central do Limite

9.1 Motivao . . . . . . . . . . . . . . . . . . . . .
9.2 Teoremas e provas . . . . . . . . . . . . . . . .
9.3 Teorema Central do Limite: Caso Multivariado
9.4 Mtodo Delta . . . . . . . . . . . . . . . . . . .
Referncias Bibliogrcas
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
136
136
145
145
149
iv
Captulo 1
Introduo Probabilidade
1.1
Experimento Aleatrio
Um dos maiores objetivos de um estatstico chegar a concluses sobre certa populao

de objetos atravs da realizao de um experimento. Um experimento qualquer processo
de observao. Em muitos experimentos de interesse, existe um elemento de incerteza, ou
chance, que no importa quanto ns sabemos sobre o passado de outras performances deste
experimento, ns essencialmente no somos capazes de predizer seu comportamento em futuras realizaes. As razes para nossa falta de habilidade para predizer so varias: ns
podemos no saber de todas as causas envolvidas; ns podemos no ter dados sucientes sobre as condies iniciais do experimento; as causas podem ser to complexas que o clculo do
seu efeito combinado no possvel; ou na verdade existe alguma aleatoriedade fundamental
no experimento. Estamos interessados em uma classe particular de experimentos, chamados
experimentos aleatrios. Os seguintes traos caracterizam um experimento aleatrio:
(a) Se for possvel repetir as mesmas condies do experimento, os resultados do experimento em diferentes realizaes podem ser diferentes. Por exemplo, jogar uma moeda
diversas vezes com bastante cuidado para que cada jogada seja realizada da mesma
maneira.
(b) Muito embora no sejamos capazes de armar que resultado particular ocorrer, seremos capazes de descrever o conjunto de todos os possveis resultados do experimento.1
(c) Quando o experimento for executado repetidamente, os resultados individuais parecero ocorrer de uma forma acidental. Contudo, quando o experimento for repetido
um grande nmero de vezes, uma congurao denida ou regularidade surgir.
esta regularidade que torna possvel construir um modelo probabilstico. Por exemplo,
1
importante ressaltar que frequentemente so encontradas situaes prticas onde no se consegue

descrever todos os possveis resultados de um experimento. Uma maneira de contornar este problema
assumir que um resultado possvel do experimento a no ocorrncia de qualquer dos resultados descritos,
contudo, em problemas prticos, tal suposio pode acarretar em diculdades quando se tenta elicitar ou
deduzir probabilidades.
1.2. ESPAO AMOSTRAL

2
pense nas repetidas jogadas de uma moeda, muito embora caras e coroas apaream sucessivamente, em uma maneira arbitrria, fato emprico conhecido que, depois de um
grande nmero de jogadas, a proporo de caras e de coroas sero aproximadamente
iguais (assumindo que a moeda simtrica).
Os resultados de um experimento aleatrio so caracterizados pelos seguintes componentes:
1. o conjunto de resultados possveis ;
2. a coleo de conjuntos de resultados de interesse A;
3. um valor numrico P da verossimilhana ou probabilidade de ocorrncia de cada um
dos conjuntos de resultados de interesse.
1.2
Espao Amostral
O conjunto de possveis resultados de um experimento aleatrio chamado de espao amostral. Existem quatro pontos que so desejveis da especicao de um espao amostral:
SS1. listar os possveis resultados do experimento;
SS2. faz-lo sem duplicao;
SS3. faz-lo em um nvel de detalhamento suciente para os interesses desejados;
SS4. especicar essa lista completamente em um sentido prtico, embora usualmente no
completa no que se refere a todos os resultados logicamente ou sicamente possveis.
Por exemplo, uma nica jogada de uma moeda pode ter o espao amostral tradicional
= {cara, coroa}, ou podemos considerar que a moeda pode sicamente car equilibrada na
borda = {cara, coroa, borda} (SS1). Uma outra possibilidade seria levar em considerao
as coordenadas (x, y) do centro da moeda quando ela para aps ser jogada no ar. Como
vemos muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples
resultados binrios tradicionais cara e coroa. Ns ignoramos est informao adicional (SS3)
usando uma hiptese no mencionada que existe uma aposta com pagamentos que dependem
apenas de qual lado da moeda cai para cima e no em outras informaes (SS4).
Podemos classicar espaos amostrais em dois tipos de acordo com o nmero de elementos que eles contem. Espaos amostrais podem ser enumerveis ou no enumerveis; se os
elementos do espao amostral podem ser colocados em uma correspondncia 1-1 com um
subconjunto dos inteiros, o espao amostral enumervel. Em um nvel losco, pode-se
argumentar que s existem espaos amostrais enumerveis, visto que medidas no podem
ser feitas com innita preciso. Enquanto na prtica isto verdadeiro, mtodos estatsticos e probabilsticos associados com espaos amostrais no enumerveis so, em geral,
menos complicados que aqueles para espaos amostrais enumerveis, e proporcionam uma
boa aproximao para a situao (enumervel) real.
Autor: Leandro Chaves Rgo
1.3. EVENTOS E COLEO DE EVENTOS
1.3
Eventos e Coleo de Eventos
Um evento um subconjunto do espao amostral, ou seja, um conjunto de resultados

possveis do experimento aleatrio. Se ao realizarmos um experimento aleatrio, o resultado
pertence a um dado evento A, dizemos que A ocorreu. Estaremos interessados no estudo da
ocorrncia de combinaes de eventos. Para tanto, utilizaremos as operaes Booleanas de
conjuntos (complementar, unio, interseco, diferena) para expressar eventos combinados
de interesse.
Denio 1.3.1: Os eventos A e B so disjuntos ou mutuamente excludentes ou mutuamente exclusivos se no puderem ocorrer juntos, ou, em linguagem de conjuntos, A B = .
Exemplo 1.3.2: Sejam A, B, e C eventos em um mesmo espao amostral . Expresse os
seguintes eventos em funo de A, B, e C e operaes Booleanas de conjuntos.
(a) Pelo menos um deles ocorre:
A B C.
(b) Exatamente um deles ocorre:
(A B c C c ) (Ac B C c ) (Ac B c C).
(c) Apenas A ocorre:
(A B c C c ).
(d) Pelo menos dois ocorrem:
(A B C c ) (A B c C) (Ac B C) (A B C).
(e) No mximo dois deles ocorrem:
(A B C)c .
(f ) Nenhum deles ocorre:
(Ac B c C c ).
(g) Ambos A e B ocorrem, mas C no ocorre:
(A B C c ).
1.3.1
Partio
Denio 1.3.3: Dado um espao amostral , uma partio = {A , I} de uma

coleo de eventos (subconjuntos de ) (neste caso, indexados por que toma valores no
conjunto de ndices I) e satisfaz:
P1. Para todo = , A A = ;
P2. I A = .
Deste modo os eventos de uma partio so mutuamente excludentes (ou disjuntos) e

cobrem todo o espao amostral. Portanto, cada elemento pertence a um, e somente
um, dos eventos A de uma partio.
Exemplo 1.3.4: Se = {1, 2, 3, 4}, ento {A1 , A2 }, onde A1 = {1, 2, 3} e A2 = {4}, uma
partio de .
Exemplo 1.3.5: A coleo de intervalos {(n, n + 1] : n Z} uma partio dos nmeros
reais IR.
1.3.2
lgebra de Eventos
Embora possa-se pensar que, dado um espao amostral, necessariamente de interesse analisar todos os seus subconjuntos (e isto eventualmente verdadeiro), temos trs razes para
esperar que estejamos apenas interessados em alguns subconjuntos do espao amostral. Primeiro, o espao amostral pode conter um grau de detalhamento superior ao que estamos
interessados no momento. Por exemplo, ele pode representar uma nica jogada de um dado
com 6 elementos, mas ns apenas estamos interessados em saber se o resultado par ou
mpar. Segundo, ns vamos querer associar cada evento A com uma probabilidade numrica
P (A). Como essas probabilidades esto baseadas em algum conhecimento sobre a tendncia
de ocorrer do evento, ou no grau de nossa crena que determinado evento ocorrer, nosso
conhecimento sobre P pode no estender para todos os subconjuntos de . A terceira (e
tcnica) razo para limitar a coleo de eventos de interesse que condies impostas em
P pelos axiomas de Kolmogorov, que estudaremos adiante, podem no permitir que P seja
denida em todos os subconjuntos de , em particular isto pode ocorrer quando for no
enumervel, mas no iremos demonstrar este fato que est fora do escopo deste curso.
Estaremos interessados em uma coleo especial A de subconjuntos do espao amostral
(note que A um conjunto cujos elementos tambm so conjuntos!) que so eventos de
interesse no que se refere ao experimento aleatrio E e os quais temos conhecimento sobre a
sua verossimilhana de ocorrncia. A chamado de uma lgebra de eventos.
Denio 1.3.6: Uma lgebra de eventos A uma coleo de subconjuntos do espao
amostral que satisfaz:
1. no vazia;
2. fechada com respeito a complementos (se A A, ento Ac A);
3. fechada com respeito a unies nitas (se A, B A, ento A B A).
Pelas Leis de De Morgan, vemos que A fechada com respeito a interseces nitas
tambm.
Exemplo 1.3.7:
1. A menor lgebra de eventos A = {, };
2. A maior lgebra de eventos o conjunto das partes de ;
3. Um exemplo intermedirio, temos:
= {1, 2, 3}, A = {, , {1}, {2, 3}}.
4. A lgebra de eventos nitos e co-nitos. Seja = IR e
A = {A IR : A nito} {A IR : Ac nito},
ou seja, A consiste dos subconjuntos de IR que ou so nitos ou tm complementos
nitos. A uma lgebra de eventos.
Lema 1.3.8: Se A uma lgebra, ento A
Prova: Como A no vazia, seja A um elemento qualquer seu. Pela segunda propriedade
de lgebras, temos que Ac A, e pela terceira propriedade temos que = A Ac A.
Teorema 1.3.9: Sejam A1 e A2 lgebras de subconjuntos de e seja A = A1 A2 a coleo
de subconjuntos comuns as duas lgebras. Ento, A uma lgebra.
Prova: Como A1 e A2 so lgebras, ambos contm . Ento, A. Se A A, ento A
est em ambos A1 e A2 . Logo, Ac est em ambos A1 e A2 , e portanto na sua interseco A.
Se A, B A, ento eles esto em ambos A1 e A2 . Consequentemente, A B est em ambos
A1 e A2 e, portanto, em A. Como A satisfaz as trs condies da denio de lgebra de
eventos, A uma lgebra de eventos.
fcil ver que a prova do Teorema 1.3.9 pode ser estendida para o caso de uma interseco
de um nmero arbitrrio de lgebras. O seguinte corolrio usa este fato para provar que
sempre existe uma menor lgebra contendo uma famlia qualquer de eventos.
Corolrio 1.3.10: Existe uma menor (no sentido de incluso) lgebra contendo qualquer
famlia dada de subconjuntos de .
Prova: Seja C uma coleo qualquer de subconjuntos de , dena A(C) como sendo o
conjunto que igual a intercesso de todas as lgebras de eventos que contm C, isto :
A(C) =
A.
AC:A uma lgebra de eventos
Pelo Teorema 1.3.9, A(C) uma lgebra de eventos, e consequentemente a menor lgebra
de eventos contendo C. A(C) conhecida como a lgebra de eventos gerada por C.
Teorema 1.3.11: Se A uma lgebra de eventos, ento

Ai A, i = 1, 2, . . . , n ni=1 Ai A
Prova: Para n = 1, o resultado bvio. Para n = 2, o resultado segue diretamente
da terceira propriedade na denio de lgebra de eventos. Vamos agora provar o passo
indutivo, suponha que
Ai A, i = 1, 2, . . . , k ki=1 Ai A.
Vamos agora provar que o caso n = k + 1 verdadeiro. Suponha que Ai , i = 1, 2, . . . , k + 1
A, ento como
k
k+1
i=1 Ai = (i=1 Ai ) Ak+1 ,
temos que utilizando o caso n = k, ki=1 Ai A. Como ki=1 Ai A e Ak+1 A, temos que
utilizando o caso n = 2, (ki=1 Ai ) Ak+1 A.
Observao 1.3.12: Uma maneira de construir uma lgebra de eventos, primeiro particionar em um nmero nito subconjuntos e depois considerar lgebra que consiste dos
eventos que so unies nitas dos subconjuntos da partio.
Exemplo 1.3.13: Por exemplo, = {a, b, c, d}. Considere a partio, {{a, c}, {b, d}},
ento considere a coleo de eventos que consiste de unies nitas dos eventos desta partio:
A = {, , {a, c}, {b, d}}. fcil ver que A uma lgebra de eventos.
Dada uma coleo nita eventos C = {A1 , A2 , . . . , An }, dene-se um tomo de C como
sendo qualquer evento B da seguinte forma: B = B1 B2 . . . Bn , onde Bi = Ai ou
Bi = Aci para i = 1, 2, . . . , n. Note que existem no mximo 2||C|| tomos diferentes e que
eles formam uma partio de (verique!). Quando C for uma coleo nita de eventos,
um evento pertencer a A(C), se e somente se, for igual a uma unio nita de tomos de C.
||C||
Note que A(C) ter no mximo 22
elementos (verique!).
Exemplo 1.3.14: Se = {a, b, c, d, e, f }, encontre a lgebra gerada por C = {{a, b, d}, {b, d, f }}.
Os tomos de C so {{a}, {f }, {c, e}, {b, d}}. Logo,
A(C) = {, , {a}, {f }, {c, e}, {b, d}, {a, f }, {a, c, e},
{a, b, d}, {c, e, f }, {b, d, f }, {b, c, d, e}, {a, f, c, e},
{a, f, b, d}, {a, b, c, d, e}, {b, c, e, d, f }}.
1.3.3
Funo Indicadora
sempre conveniente representar um evento A por uma funo IA tendo domnio (conjunto
dos argumentos da funo) e contra-domnio (conjunto dos possveis valores da funo)
binrio {0, 1}.
Denio 1.3.15 : Funo Indicadora. A funo indicadora IA : {0, 1} de um

evento A dada por
{
1 se A,
IA () =
0 se
/ A.
Note que podemos determinar A a partir de sua funo indicadora: A = { : IA () = 1}.
Exemplo 1.3.16: Se IA () for identicamente igual a 1, ou seja, IA () = 1, , ento
A igual ao espao amostral . Se IA () for identicamente igual a 0, ento A igual ao
conjunto vazio . Se IA () for igual a 1 somente quando = 0 , ento A o evento {0 }
que contm somente o elemento 0 .
Note que existe uma correspondncia 1-1 entre eventos e suas funes indicadoras:
A = B ( )IA () = IB ().
O fato que eventos so iguais se, e somente se, suas funes indicadoras forem idnticas nos
permitem explorar a aritmtica de funes indicadoras:
IAc = 1 IA ,
A B IA IB ,
IAB = min(IA , IB ) = IA IB ,
IAB = max(IA , IB ) = IA + IB IAB ,
IAB = max(IA IB , 0) = IA IB c ,
para construir argumentos rigorosos no que se refere a relao entre eventos. Ou seja, ns
transformamos proposies sobre eventos em proposies sobre funes indicadoras e podemos ento utilizar nossa familiaridade com lgebra para resolver perguntas menos familiares
sobre eventos.
Exemplo 1.3.17: Utilizando funes indicadoras, verique que A B B c Ac .
Soluo: Temos que
A B IA IB 1 IA 1 IB IAc IB c B c Ac .
Exemplo 1.3.18: As seguintes questes no esto relacionadas umas com as outras.

a. Se IA IB for identicamente igual a zero, o que sabemos a respeito da relao entre A e
B?
b. Se A B c = B Ac , o que sabemos a respeito da relao entre A e B?
c. Se IA2 + IB2 for identicamente igual a 1, o que podemos concluir sobre A e B?
1.4. FUNDAMENTOS DE PROBABILIDADE
d. Se IA IB for identicamente igual a 1, o que podemos concluir sobre A e B?

e. Se A B = B A, o que podemos concluir sobre A e B?
Soluo: Exerccio.
Exemplo 1.3.19 : Utilizando funes indicadoras, determine se (A C) (B C) =
(A B c C c ) (Ac B C c ). (Sugesto: Faa um Diagrama de Venn.)
Soluo: Seja A B C c . Ento, IA () = IB () = IC c () = 1. Portanto, temos
I(AC)(BC) = IAC + IBC IAC IBC = IA IC c + IB IC c IA IC c IB IC c .
De onde conclui-se que I(AC)(BC) () = 1. Por outro lado,
I(AB c C c )(Ac BC c ) = I(AB c C c ) + I(Ac BC c ) I(AB c C c ) I(Ac BC c )
= IA IB c IC c + IAc IB IC c IA IB c IC c IAc IB IC c
De onde conclui-se que I(AB c C c )(Ac BC c ) () = 0. Logo, I(AC)(BC) = I(AB c C c )(Ac BC c ) ,
o que implica que (A C) (B C) = (A B c C c ) (Ac B C c ).
1.4
Fundamentos de Probabilidade
Raciocnio probabilstico aparece em uma ampla variedade de fenmenos de chance e incerteza, ele lugar comum em nosso dia-a-dia. Ns expressamos julgamentos probabilsticos
tanto atravs da linguagem como atravs de nossas aes. Ultrapassar um carro em uma
estrada com outro carro vindo em direo oposta implica que calculamos as distncias e
velocidades, e calculamos os riscos de uma batida ocorrer e estamos conscientes das graves
consequncias de erros nos nossos julgamentos, mas os consideramos pequenos o suciente.
Raciocnio probabilstico no dia-a-dia enquanto no desenvolvido matematicamente precisa
ser levado seriamente em conta se desejamos tomar decises racionais.
Nota-se que, em geral, precisamos incorporar conhecimento probabilstico que seja tanto
qualitativo e expresso linguisticamente como tambm o conhecimento quantitativo que pode
ser expresso numericamente. Antes de focarmos em uma teoria probabilstica, vamos explorar
o espao de alternativas. Ns podemos classicar as formas de raciocnio probabilstico nas
seguintes dimenses:
grau de preciso: o conceito estrutural
o signicado, ou interpretao a ser dada a probabilidade
estrutura matemtica formal de probabilidade dada por um conjunto de axiomas
O conceito estrutural determina a preciso com que podemos esperar que probabilidade
represente fenmenos aleatrios. A interpretao proporciona a base com a qual probabilidade deve ser determinada e indica o que podemos esperar aprender com ela, ou seja, o
que uma armao probabilstica signica. O conceito estrutural e a interpretao guiam a
escolha dos axiomas. O conjunto de axiomas, contudo, pode somente capturar uma parte
do que entendemos da interpretao.
Compreenso de fundamentos de probabilidade importante, pois aplicaes de teoria
da probabilidade dependem fortemente de seus fundamentos. Por exemplo, os fundamentos
inuem na escolha dos mtodos estatsticos a serem utilizados (Frequentistas, Bayesianos,
. . . ) e na interpretao dos resultados obtidos. Os prximos exemplos ajudam a motivar um
pouco a importncia do estudo de fundamentos de probabilidade.
Exemplo 1.4.1: Suponha que Alice tenha uma moeda honesta e que ela e Bob saibam que
a moeda honesta. Alice joga a moeda e olha o resultado. Aps a moeda ser jogada, qual a
probabilidade de cara segundo Bob? Um argumento diria que a probabilidade ainda 1/2,
pois Bob no aprendeu nada sobre o resultado da jogada, ento ele no deve alterar o valor
de sua probabilidade. Um outro argumento, questiona se realmente faz sentido falar sobre
probabilidade de cara depois que a moeda foi jogada. Segundo este argumento, a moeda ou
caiu cara ou coroa, ento o melhor que Bob pode armar que a probabilidade de cara ou
0 ou 1, mas ele no sabe discernir entre esses valores.
Exemplo 1.4.2 : Suponha agora que Alice tenha duas moedas, uma honesta e outra
tendenciosa e duas vezes mais provvel dar cara que coroa com esta moeda. Alice escolhe
uma das moedas (suponha que ela sabe distinguir as moedas) e est prestes a jog-la. Bob
sabe que uma moeda honesta e que a outra tendenciosa e que duas vezes mais provvel
cair cara que coroa com a moeda tendenciosa, mas ele no sabe que moeda Alice escolheu nem
lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. Qual a probabilidade
de cara segundo Bob?
Exemplo 1.4.3: Paradoxo de Ellsbergue. Suponha que existam duas urnas cada uma
com 60 bolas. A urna 1 contm 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre
a urna 2 que ela contm bolas azuis e verdes, mas no sabe-se a distribuio das bolas.
Considere que existem duas loteria com prmios baseados no sorteio de bolas dessas urnas.
Loteria L1 paga R$1.000,00 se uma bola azul for sorteada na urna 1, e R$0,00 caso contrrio.
Loteria L2 paga R$1.000,00 se uma bola azul for sorteada na urna 2, e R$0,00 caso contrrio.
A maioria das pessoas quando questionada se prefere um bilhete da Loteria L1 ou L2 prefere
um bilhete da loteria L1 . Suponha agora que temos duas outras loterias L3 e L4 , onde a
primeira paga R$1.000,00 somente se uma bola verde for sorteada da urna 1, e a segunda
para R$1.000,00 somente se uma bola verde for sorteada da urna 2. Tambm, vericado que
a maioria das pessoas que preferiram a loteria L1 a loteria L2 preferem a loteria L3 a loteria
L4 . Com estas preferncias, no possvel que o decisor possua uma nica distribuio de
probabilidade subjetiva sobre as cores das bolas na urna 2, pois a primeira preferncia (L1
sobre L2 ) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2,
e a segunda (L3 sobre L4 ) indica que o decisor considera que existam mais bolas azuis que
verdes na urna 2. Esse fenmeno conhecido na literatura como averso a ambiguidade,
e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao
invs de uma nica medida de probabilidade.
10
Ns discutiremos uma variedade de conceitos estruturais e interpretaes de probabilidade. Depois ns focaremos na probabilidade numrica tradicional que satisfaz os famosos
axiomas de Kolmogorov e em uma interpretao baseada em frequncias de ocorrncia.
1.4.1
Hierarquia de Conceitos Estruturais de Probabilidade
Os seguintes so exemplos de uma variedade de conceitos estruturais de probabilidade:

Possivelmente. Possivelmente A o conceito mais rudimentar e menos preciso, e o usado
pelos antigos Gregos para distinguir entre o que era necessrio e o que era contingente.
Existe um nmero de conceitos de possibilidade que incluem os seguintes:
possibilidade lgica, no sentido que no se contradiz logicamente;
possibilidade epistmica, segundo a qual ocorrncia de A no contradiz nosso conhecimento, que inclui, mas estende mais que mera lgica;
possibilidade fsica, a ocorrncia de A compatvel com leis fsicas, contudo ela
pode ser extremamente improvvel por exemplo, uma moeda parando e cando
equilibrada na borda em uma superfcie rgida;
possibilidade prtica, a noo do dia-a-dia segundo a qual A praticamente possvel
se ele tem pelo menos uma verossimilhana no to pequena de ocorrer.
Provavelmente. Provavelmente A um fortalecimento da noo de possibilidade que signica mais que provvel que no. Enquanto ela pode corresponder ao caso que a
probabilidade numrica de A seja maior que 1/2, este conceito no requer nenhum
comprometimento com probabilidade numrica nem com o preciso estado de conhecimento que probabilidade numrica requer.
Probabilidade Comparativa. A pelo menos to provvel quanto B. A probabilidade
comparativa inclui provavelmente A atravs de A pelo menos to provvel quanto
Ac . Pode ser relacionada com probabilidade numrica atravs de P (A) P (B); embora como nos dois exemplos anteriores, probabilidade comparativa no requer nenhum
comprometimento com probabilidade numrica.
Probabilidade Intervalar. A tem probabilidade intervalar, ou probabilidade inferior e
superior (P (A), P (A)). Isto permite um grau de indeterminao varivel sem nenhum
comprometimento com que exista um verdadeiro valor no intervalo.
Probabilidade Numrica. A probabilidade de A o nmero real P (A). Este o conceito
usual com o qual nos ocuparemos neste curso. Enquanto este conceito absorveu quase
toda ateno de pessoas envolvidas com fenmenos de chance e incerteza e provou
ser frutfero na prtica cientca, este no o nico conceito utilizado em linguagem
ordinria e no raciocnio probabilstico do dia-a-dia. duvidoso que probabilidade
numrica seja adequada a todas as aplicaes que ela utilizada, e provvel que
ela tenha inibido o desenvolvimento de teorias matemticas apropriadas para outros
fenmenos aleatrios.
1.5. FREQUNCIAS RELATIVAS
11
De agora em diante focaremos no conceito estrutural mais utilizado e preciso que a

probabilidade numrica.
1.4.2
Interpretaes de Probabilidade
Parece no ser possvel reduzir probabilidade a outros conceitos; ela uma noo em si
mesma. O melhor que podemos fazer relacionar probabilidade a outros conceitos atravs
de uma interpretao. Os cinco mais comuns grupos de interpretao so os seguintes:
1. Lgica: grau de conrmao da hiptese de uma proposio que A ocorre dada uma
evidncia atravs da proposio que B ocorreu. Esta interpretao est ligada a um
sistema lgico formal e no, digamos, ao mundo fsico. Ela usada para tornar o raciocnio indutivo quantitativo. Quando as evidncias ou premissas so insucientes para
deduzir logicamente a hiptese ou concluso, podemos ainda medir quantitativamente
o grau de suporte que uma evidncia da a uma hiptese atravs de probabilidade lgica.
2. Subjetiva: se refere ao grau de crena pessoal na ocorrncia do evento A e medida
atravs da interpretao comportamental de disposio a apostar ou agir.
3. Frequentista: se refere ao limite da frequncia relativa de ocorrncia do evento A em
repetidas realizaes no relacionadas do experimento aleatrio E. Note que limites de
frequncia relativas so uma idealizao, pois no se pode repetir innitas vezes um
experimento.
4. Propensidade: tendncia, propensidade, ou disposio para um evento A ocorrer. Por
exemplo, consideraes de simetria, podem levar a concluso que um dado tem a mesma
propenso ou tendncia a cair em qualquer uma de suas faces.
5. Clssica: baseada em uma enumerao de casos igualmente provveis.
1.5
Frequncias Relativas
Resta-nos discutir o terceiro elemento para modelagem do raciocnio probabilstico, a associao de uma medida numrica a eventos que representam a verossimilhana com que
eles ocorrem. As propriedades desta associao so motivadas em grande parte pelas propriedades de frequncia relativas. Considere uma coleo de experimentos aleatrios Ei que
possuem a mesma lgebra de eventos A e tem resultados individuais no necessariamente
numricos {i }. Seja X() uma funo real dos resultados, com Xi =
X(i ) sendo o valor
1
associado com o resultado i do i-simo experimento. Seja Avn X = n ni=1 Xi a mdia dos
resultados dos n primeiros experimentos. Por simplicidade matemtica, assumiremos que a
funo X escolhida de uma famlia F de funes que podem assumir apenas um nmero
nito de valores numricos. Fixando uma dada sequncia de resultados {i }, fcil vericar
as seguintes propriedades de Avn :
Av0. Avn : F IR.
1.5. FREQUNCIAS RELATIVAS
12
Av1. Se para todo , X() 0, ento Avn 0.

Av2. Se X uma funo constante, ento Avn X = X.
Av3. Para todo X, Y F, para todo , IR,
Avn (X + Y ) = Avn X + Avn Y.
Em particular, se estamos interessados em um dado evento A e escolhemos X() = IA (),
uma funo binria, ento a mdia conhecida como a frequncia relativa de A.
Denio 1.5.1: A frequncia relativa de um evento A, determinada pelos resultados
{1 , . . . , n } de n experimentos aleatrios,
1
Nn (A)
rn (A) =
IA (i ) =
.
n i=1
n
n
Propriedades chaves da frequncia relativa so:

FR0. rn : A IR.
FR1. rn (A) 0.
FR2. rn () = 1.
FR3. Se A e B so disjuntos, ento rn (A B) = rn (A) + rn (B).
A1 , A2 , An , uma sequncia de eventos disjuntos dois a dois, ento rn (
FR4. Se
i=1 Ai ) =
r
(A
).
i
i=1 n
Pode-se expressar Avn em termos de rn . Dada uma funo X que assume valores no conjunto nito {x1 , x2 , . . . , xk }, considere os k eventos {Ai = { : X() = xi }, i = 1, 2, . . . , k}.
Podemos rearranjar os termos em Avn X e reescrev-la da seguinte forma:
Avn X =
xi rn (Ai ) =
i=1
xi rn (X = xi ).
i=1
Em particular, se para cada i, temos convergncia da sequncia r1 (X = xi ), r2 (X = xi ), . . . ,

rn (X = xi ) para um limite pi , ento tambm temos convergncia da mdia Avn X,
lim Avn X =
n
xi pi .
i=1
Este limite das mdias, quando existe, serve como interpretao para o conceito essencial de
esperana ou mdia de uma quantidade aleatria numrica X. Veremos mais sobre esperana
neste curso.
Ns prosseguiremos como se existisse alguma base emprica ou metafsica que garanta
que rn (A) P (A), embora que o sentido de convergncia quando n cresce s ser explicado
pela Lei dos Grandes Nmeros. Esta tendncia da frequncia relativa de estabilizar em um
certo valor conhecida como regularidade estatstica. Deste modo, P herdar propriedades
da frequncia relativa rn .
1.6. AXIOMAS DE KOLMOGOROV
1.6
13
Axiomas de Kolmogorov
Primeiro por razes tcnicas, fora do escopo deste curso, temos que o domnio da medida
formal de probabilidade uma lgebra de eventos que tambm fechada com relao a um
nmero enumervel de unies.
Denio 1.6.1: Uma -lgebra A uma lgebra de eventos que tambm fechada com
relao a uma unio enumervel de eventos,
(i Z)Ai A iZ Ai A.
Exemplo 1.6.2: A coleo de conjuntos de nmeros reais nitos e co-nitos uma lgebra
que no uma -lgebra.
Exemplo 1.6.3: A -lgebra de Borel B de subconjuntos reais , por denio, a menor lgebra contendo todos os intervalos e a -lgebra usual quando lidamos com quantidades
reais ou vetoriais. Em particular, temos que unies enumerveis de intervalos (por exemplo,
o conjunto dos nmeros racionais), seus complementos (por exemplo, o conjunto dos nmeros
irracionais), e muito mais est em B.
Os axiomas que descreveremos a seguir no descrevem um nico modelo probabilstico,
eles apenas determinam uma famlia de modelos probabilsticos, com os quais poderemos
utilizar mtodos matemticos para descobrir propriedades que sero verdadeiras em qualquer
modelo probabilstico. A escolha de um modelo especco satisfazendo os axiomas feito
pelo analista/estatstico familiar com o fenmeno aleatrio sendo modelado.
Motivados pelas propriedades de frequncia relativa, impe-se os primeiros quatro axiomas de Kolmogorov:
K0. Inicial. O experimento aleatrio descrito pelo espao de probabilidade (, A, P ) que
consiste do espao amostral , de uma -lgebra A, e de uma funo de valores reais
P : A IR.
K1. No-negatividade. A A, P (A) 0.
K2. Normalizao Unitria. P () = 1.
K3. Aditividade Finita. Se A, B so disjuntos, ento P (A B) = P (A) + P (B).
fcil provar (tente!) utilizando induo matemtica que K3 vlida para qualquer
coleo nita de eventos disjuntos par
a par, ou seja, se Ai , i = 1, 2, . . . , n, so eventos
disjuntos par a par, ento P (ni=1 Ai ) = ni=1 P (Ai ).
Um quinto axioma, embora no tenha signicado em espaos amostrais nitos, foi proposto por Kolmogorov para garantir um certo grau de continuidade da medida de probabilidade.
14
K4. Continuidade Monotnica. Se para todo i > 0, Ai+1 Ai e i Ai = , ento

lim P (Ai ) = 0.2
Um forma equivalente de K4 a seguinte:

K4 . -aditividade. Se {Ai } uma coleo enumervel de eventos disjuntos dois a dois,
ento
P (i=1 Ai ) =
P (Ai ).
i=1
Teorema 1.6.4: Se P satisfaz K0-K3, ento P satisfaz K4 se, e somente se, ela satisfaz
K4.
Prova: Primeiro, vamos provar que K0-K4 implicam o axioma da -aditividade K4 . Seja
{Ai } qualquer sequncia enumervel de eventos disjuntos par a par, e dena para todo n
Bn = i>n Ai ,
n
i=1 Ai = Bn (i=1 Ai ).
Claramente, para todo i n, temos que Ai e Bn so disjuntos. Por K3, temos

P (
i=1 Ai ) = P (Bn ) +
P (Ai ).
i=1
Por denio de srie numrica,

lim
n
i=1
P (Ai ) =
P (Ai ).
i=1
K4 segue se conseguirmos mostrar que limn P (Bn ) = 0. Note que Bn+1 Bn , e que
n=1 Bn = . Ento por K4, temos que o limite acima zero e K4 verdadeiro.
Agora, vamos provar que K0-K3, K4 implicam o axioma da continuidade monotnica

K4. Seja {Bn } qualquer coleo enumervel de eventos satisfazendo as hipteses do axioma
K4: Bn+1 Bn e
n=1 Bn = . Dena, An = Bn Bn+1 e observe que {An } uma coleo
enumervel de eventos disjuntos par a par. Note que
Bn = jn Aj .
K4 (ou equivalentemente K4 ) uma idealizao que no aceita por alguns tratamentos subjetivistas
de probabilidade, em especial no aceita por uma escola de estatsticos liderados por deFinetti (1972).
Assumir apenas aditividade nita, embora parea mais plausvel, pode levar a complicaes inesperadas em
teoria estatstica. Portanto, ns prosseguiremos sobre a suposio que o axioma da continuidade (K4)
vlido.
2
15
Ento, por K4 temos que

P (Bn ) = P (jn Aj ) =
P (Aj ).
jn
Como por K4 ,
P (Aj ) = P (
j=1 Aj ) 1,
j=1
temos que
lim P (Bn ) = lim
n
P (Aj ) = 0,
jn
logo K4 verdadeiro.
Denio 1.6.5: Uma funo que satisfaz K0-K4 chamada de uma medida de probabilidade.
A terna (, A, P ) chamada de espao de probabilidade. Intuitivamente quando se
modela uma problema atravs de probabilidade, basicamente, o que se faz especicar cada
uma das componentes da terna acima.
Eventos so os elementos de A, aos quais se pode atribuir probabilidade. Probabilidade
uma funo cujo argumento um conjunto. Portanto, no somente conjuntos, como tambm
as operaes sobre eles, tm uma importncia fundamental em teoria da probabilidade.
1.6.1
Exemplos de Medidas de Probabilidade
Exemplo 1.6.6: Se for um conjunto nito, ento temos que a probabilidade clssica que
assume que todos os resultados so igualmente provveis, um exemplo de uma medida de
probabilidade. Neste caso, temos que
P (A) =
||A||
||||
denido para qualquer subconjunto A de . O fato que 0 ||A|| |||| e que

||A B|| = ||A|| + ||B|| ||A B||,
permitem que veriquemos que P satisfaz os axiomas de Kolmogorov.
Exemplo 1.6.7:
, n } um conjunto nito, e seja P ({i }) = pi , onde
n Se = {1 , 2 , . . .
pi 0, i 1 e i=1 pi = 1, e P (A) = i A P ({i }). Neste caso, tambm fcil vericar
que P uma medida de probabilidade vericando os axiomas.
Exemplo 1.6.8: Seja = [0, 1] e B0 a -lgebra de Borel restrita a eventos contidos em
[0, 1]. Pode-se provar que existe uma medida de probabilidade em (, B0 ) tal que para
todo intervalo I em [0, 1] (I) igual ao comprimento de I. Esta medida de probabilidade
conhecida como medida de Lebesgue.
1.6.2
16
Propriedades de uma Medida de Probabilidade
Teorema 1.6.9: Se P uma medida de probabilidade, ento

1. P (Ac ) = 1 P (A).
2. P () = 0.
3. P (A) 1.
Prova: Parte 1, segue do fato que = A Ac , K2, e K3, pois
1 = P () = P (A) + P (Ac ).
Parte 2, segue da Parte 1, do fato que c = , e K2, K3, pois
P () = 1 P () = 0.
Parte 3, segue do fato que 1 = P () = P (A) + P (Ac ) P (A), j que P (Ac ) 0 por K1.
Teorema 1.6.10: Monotonicidade. Se A B, ento P (A) P (B).
Prova: Note que B = A (B A), onde A e B A so disjuntos. Ento K3 implica que
P (B) = P (A) + P (B A). O resultado segue do fato que P (B A) 0.
Corolrio 1.6.11: P (A B) max(P (A), P (B)) min(P (A), P (B)) P (A B).
Teorema 1.6.12: Uma expresso exata para a probabilidade de uma unio no-disjunta
dada por
P (A B) = P (A) + P (B) P (A B).
Prova: Como A B = A (B A), e A e B A so disjuntos, K3 implica que P (A B) =
P (A) + P (B A). E como B = (A B) (B A), A B e B A so disjuntos, K3 implica
que P (B) = P (A B) + P (B A). Logo,
P (A B) = P (A) + P (B) P (A B).
Teorema 1.6.13: Probabilidade de Parties. Se {Ai } uma partio enumervel de

feita de conjuntos em A, ento para todo B A
P (B) =
P (B Ai ).
i
17
Prova: Como {Ai } uma partio, segue que

B = B = B (i Ai ) = i (B Ai ).
O resultado segue ento por K4 .
Teorema 1.6.14: Desigualdade de Boole. Para n eventos arbitrrios {A1 , . . . , An }, a
desigualdade de Boole
n
n
P (Ai ).
P (i=1 Ai )
i=1
Prova: Provaremos por induo matemtica em n. A desigualdade trivialmente verdadeira

para n = 1 e verdadeira para n = 2, pois uma consequncia imediata do Teorema 1.6.12.
Assuma que a desigualdade vlida para n = k e vamos provar que ela vlida para n = k+1.
k
Para ver isto, escrevemos k+1
i=1 Ai = Ak+1 i=1 Ai .
Pela desigualdade para n = 2,
k
P (k+1
i=1 Ai ) P (Ak+1 ) + P (i=1 Ai ).
Pela hiptese do passo indutivo, para n = k,

P (ki=1 Ai )
P (Ai ),
i=1
portanto, a desigualdade de Boole verdadeira.

Corolrio 1.6.15: Para n eventos arbitrrios {A1 , . . . , An },
P (Ai )
P (Ai ) (n 1).
i=1
Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac1 , . . . , Acn },
temos
n
n
n
c
c
P (i=1 Ai ) = 1 P (Ai )
P (Ai ) =
(1 P (Ai )).
i=1
Logo,
P (Ai )
i=1
P (Ai ) (n 1).
i=1
O prximo teorema permite que possamos calcular de maneira exata a probabilidade

P (ni=1 Ai ) para n eventos arbitrrios.
18
Teorema 1.6.16 : Princpio da Incluso-Excluso. Seja I um conjunto genrico de

ndices que um subconjunto no-vazio qualquer de {1, 2, . . . , n}. Para eventos arbitrrios
{A1 , . . . , An },
P (ni=1 Ai ) =
(1)||I||+1 P (iI Ai ),
=I{1,...,n}
onde o somatrio sobre todos os 2 1 conjuntos de ndices excluindo apenas o conjunto

vazio.
n
No caso particular de n = 3, o princpio de incluso-excluso arma que

P (A1 A2 A3 ) = P (A1 )+P (A2 )+P (A3 )P (A1 A2 )P (A1 A3 )P (A2 A3 )+P (A1 A2 A3 ).
Prova: A prova por induo matemtica em n. O resultado trivialmente verdadeiro
para n = 1 e j foi provado para n = 2 no Teorema1.6.12. Assuma que o resultado vale para
n = k e vamos provar que ele verdadeiro para n = k + 1. Como na prova da desigualdade
k
de Boole, k+1
i=1 Ai = Ak+1 i=1 Ai . Usando o resultado para n = 2, temos
k
k
P (k+1
i=1 Ai ) = P (Ak+1 ) + P (i=1 Ai ) P (Ak+1 i=1 A1 ).
Reescrevendo o ltimo termo como P (ki=1 (Ak+1 Ai )), nos d uma expresso que contm
uma unio de exatamente k conjuntos. Ento, usando a hiptese do passo indutivo para os
dois ltimos termos
||I||+1
P (k+1
A
)
=
P
(A
)+
(1)
P
(
A
)
(1)||I||+1 P (iI (Ak+1 Ai )).
k+1
iI i
i=1 i
=I{1,...,k}
=I{1,...,k}
O resultado segue ao rearranjarmos os termos destes somatrios.

Exemplo 1.6.17: Professor Lenidas est tentando calcular a probabilidade p = P (A) do
evento A, e determinou que ela uma raiz do seguinte polinmio de grau cinco:
(p 3)(p 3 1)(p + 3 1)(p + 0.3)(p 0.3) = 0.

Baseado nesta fato, qual o valor de p?
Exemplo 1.6.18: Se = {a, b, c}, e a lgebra A o conjunto das partes de , e a medida
de probabilidade P parcialmente denida por
P ({a, b}) = 0.5, P ({b, c}) = 0.8, P ({a, c}) = 0.7,
ento complete a especicao de P para todos os eventos em A.
Exemplo 1.6.19: Se {Ai } for uma partio enumervel de e P (Ai ) = abi , i 1, ento
quais as condies que a e b devem satisfazer para que P seja uma medida de probabilidade?
19
Exemplo 1.6.20: Em um grupo de r pessoas qual a probabilidade de haver pelo menos duas
pessoas que faam aniversrio no mesmo dia, assumindo que a distribuio de aniversrios
uniforme ao longo do ano e desprezando a existncia de anos bissextos?
Soluo: Para determinar esta probabilidade, vamos utilizar a probabilidade clssica. O
nmero de resultados possveis para os aniversrios de r pessoas 365r . O nmero de casos
possveis onde todas as pessoas fazem aniversrio em dias diferentes dado por 365 364
(365 (r 1)). Portanto, o nmero de casos possveis onde pelo menos duas pessoas
fazem aniversrio no mesmo dia a diferena entre o nmero total de aniversrios possveis
e o nmero de casos onde as pessoas tm aniversrios em datas diferentes, ou seja, igual a
365r 365 364 (365 (r 1)).
Logo, a probabilidade deste evento :
1
365 364 (365 (r 1))

.
365r
Para r = 23, temos que essa probabilidade aproximadamente igual a 0, 51. E para r = 50,
essa probabilidade igual a 0, 97.
Exemplo 1.6.21: Em uma loteria de N nmeros h um s prmio. Salvador compra n
(1 < n < N ) bilhetes para uma s extrao e Slvio compra n bilhetes, um para cada uma
de n extraes. Qual dos dois jogadores tm mais chances de ganhar algum prmio?
Soluo: A probabilidade de Salvador ganhar algum prmio Nn . O nmero total de
n extraes possveis N n . O nmero de casos onde Slvio no ganha nenhum prmio
(N 1)n , logo o nmero de casos onde Slvio ganha algum prmio igual a N n (N 1)n .
n
.
Logo, a probabilidade de Slvio ganhar algum prmio 1 (NN1)
n
Vamos provar por induo que Salvador tem mais chance de ganhar, ou seja, Nn > 1
(N 1)n
, que equivale a
Nn
(N 1)n
n
>1 .
n
N
N
Para n = 2, temos:
(N 1)2
2
1
2
=1
+ 2 >1 .
2
N
N
N
N
Suponha que para n = k, temos que
k
(N 1)k
>1 .
k
N
N
Multiplicando esta expresso por
N 1
,
N
obtemos:
(N 1)k+1
N 1
k
1
k
k
k+1
>(
)(1 ) = 1
+ 2 >1
.
k+1
N
N
N
N
N
N
N
Exemplo 1.6.22: Doze pessoas so divididas em trs grupos de 4. Qual a probabilidade
de duas determinadas dessas pessoas carem no mesmo grupo?
20
Soluo:
O nmero total de divises de doze pessoas em 3 grupos de 4 igual a
(12)(
)( )
8 4
.
Vamos
agora contar o nmero de casos favorveis ao nosso evento. Existem
4
4 4
3 opes de escolhermos em qual grupo as duas pessoas determinadas podem car. Das 10
pessoas restantes,
temos que escolher mais (duas
( )
)( )para estarem neste grupo, o que podemos
8 4
fazer de 10
maneiras
diferentes.
E
temos
maneiras diferentes de dividir as outras 8
2
4 4
pessoas nos dois grupos restantes. Portanto, a probabilidade de duas determinadas pessoas
carem no mesmo grupo :
( )(8)(4)
3 10
3
(122)(84)(44) = .
11
4
4 4
Exemplo 1.6.23 : Suponha que temos em uma sala n mes cada uma com um lho.
Suponha formemos duplas aleatoriamente, onde cada dupla contm uma me e um lho,
qual a probabilidade de que pelo menos uma me forme uma dupla com seu prprio lho?
Soluo: Seja Ai o evento que a i-sima me forma dupla com seu lho. Queremos
determinar
P (ni=1 Ai ).
Vamos calcular esta probabilidade utilizando a frmula da incluso excluso. Note que:
(n 1)!
1
= para todo i {1, 2, . . . , n}
n!
n
(n 2)!
1
P (Ai Aj ) =
=
para i = j
n!
n(n 1)
P (Ai ) =
e em geral, para um grupo I {1, 2, . . . , n} de mes temos que

P (iI Ai ) =
Como existem
n
||I||
(n ||I||)!
.
n!
grupos de mes com cardinalidade ||I||, temos que

P (ni=1 Ai )
i=1
i=1
(1)i+1
i+1
(1)
( )
n (n i)!
i
n!
1
i!
Note que quando n , temos que esta probabilidade tende a 1 1e .

Exemplo 1.6.24: Demonstre que se P (Ai ) = 1 para i = 1, 2, . . ., ento P (
i=1 Ai ) = 1.
c
)
=
1P
(A
)
=
0.
Logo,
pela
desigualdade
Soluo: Como P (Ai ) = 1,
temos
que
P
(A
i
i
c
c
de Boole, temos P (i=1 Ai ) i=1 P (Ai ) = 0. Logo, P (i=1 Ai ) = 0. Portanto, como pela
c
c c
Lei de DeMorgan,
i=1 Ai = (i=1 Ai ) , temos que P (i=1 Ai ) = 1 P (i=1 Ai ) = 1.
Exemplo 1.6.25: Demonstre: se A1 , A2 , . . . e B1 , B2 , . . . so eventos aleatrios do mesmo
espao de probabilidade tais que P (An ) 1 e P (Bn ) p, ento P (An Bn ) p.
21
Soluo: Note que

P (An Bn ) = 1 P ((An Bn )c ) = 1 P (Acn Bnc )
1 P (Acn ) P (Bnc ) = P (An ) + P (Bn ) 1.
(1.1)
Como P (Bn ) P (An Bn ) P (An ) + P (Bn ) 1, P (An ) + P (Bn ) 1 p e P (Bn ) p,

pelo teorema do confronto (ou sanduche), temos que P (An Bn ) p.
Captulo 2
Probabilidade Condicional
2.1
Probabilidade Condicional
Como vimos no captulo anterior, existem vrias possveis interpretaes de probabilidade.

Por exemplo, pode-se interpretar probabilidade de um evento A como um limite das freqncias relativas de ocorrncia do evento A em realizaes independentes de um experimento.
Por outro lado, a interpretao subjetiva de probabilidade associa a probabilidade de um
evento A com o grau de crena pessoal que o evento A ocorrer. Em ambos os casos, probabilidade baseada em informao e conhecimento. Reviso desta base de informao ou
conhecimento pode levar a reviso do valor da probabilidade. Em particular, conhecimento
que determinado evento ocorreu pode inuenciar na probabilidade dos demais eventos.
Considerando-se a interpretao freqentista de probabilidade, suponha que estejamos
interessados em saber qual a probabilidade de um dado evento A, visto que sabe-se que um
dado evento B ocorreu. Suponha que realizasse um experimento n vezes das quais o evento
A (resp., B e A B) ocorre NA (resp., NB > 0 e NAB ) vezes. Seja rA = NA /n a freqncia
relativa do evento A nestas n realizaes do experimento. A probabilidade condicional de
A dado que sabe-se que B ocorreu segundo esta interpretao freqentista, sugere que ela
deve ser igual ao limite das freqncias relativas condicionais do evento A dado o evento B,
isto , ela deve ser o limite da razo NAB /NB quando n tende ao innito. fcil provar
que esta razo igual a rAB /rB , que por sua vez segundo a interpretao freqentista de
probabilidade aproximadamente igual a P (A B)/P (B) para valores grandes de n.
Considerando-se uma interpretao mais subjetiva suponha que a incerteza de um agente
descrita por uma probabilidade P em (, A) e que o agente observa ou ca sabendo que
o evento B ocorreu. Como o agente deve atualizar sua probabilidade P (|B) de modo a
incorporar esta nova informao? Claramente, se o agente acredita que B verdadeiro,
ento parece razovel requerer que
P (B c |B) = 0
(2.1)
Em relao aos eventos contidos em B, razovel assumir que sua chance relativa permanea inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se
22
2.1. PROBABILIDADE CONDICIONAL
23
A1 , A2 B com P (A2 ) > 0, ento

P (A1 )
P (A1 |B)
=
P (A2 )
P (A2 |B)
(2.2)
Segue que (2.1) e (2.2) determinam completamente P (|B) se P (B) > 0.

Teorema 2.1.1: Se P (B > 0) e P (|B) uma medida de probabilidade em que satisfaz
(2.1) e (2.2), ento
P (A B)
P (A|B) =
.
P (B)
Prova: Como P (|B) uma medida de probabilidade e satisfaz P (B c |B) = 0, ns temos
que P (B|B) = 1 P (B c |B) = 1. Considerando A1 = A e A2 = B em (2.2), temos
(A)
ento P (A|B) = PP (B)
para A B. Se A no um subconjunto de B, temos que A =
c
(A B) (A B ). Como (A B) e (A B c ) so eventos disjuntos, temos P (A|B) =
P (A B|B) + P (A B c |B). Como A B c B c e P (B c |B) = 0, temos que P (A B c |B) = 0.
Como A B B, usando o caso anterior
P (A B)
P (A|B) = P (A B|B) =
.
P (B)
Deste modo as interpretaes freqentista e subjetivista de probabilidade justicam a
seguinte denio.
Denio 2.1.2: Seja (, A, P ) um espao de probabilidade. Se A, B A e P (B) > 0 a
probabilidade condicional de A dado B denida por
P (A|B) =
P (A B)
P (B)
Vamos provar que para um evento xo B que satisfaz P (B) > 0, P (|B) satisfaz os
axiomas K1-K4 acima e realmente uma medida de probabilidade. Para provar K1, note
que para todo A A, como P (A B) 0, ns temos
P (A B)
0.
P (B)
Para provar K2, note que B = B, ento
P ( B)
P (B)
P (|B) =
=
= 1.
P (B)
P (B)
P (A|B) =
Finalmente, para provar K4 (que implica K3), note que se A1 , A2 , . . . so mutuamente

exclusivos A1 B, A2 B, . . . tambm o so, ento
P (i (Ai B))
P ((i Ai ) B)
=
P (i Ai |B) =
P (B)
P (B)
P (Ai B)
= i
=
P (Ai |B).
P (B)
i
A probabilidade condicional tambm satisfaz as seguintes propriedades:
24
1. P (B|B) = 1;
2. P (A|B) = P (A B|B);
3. se A B, ento P (A|B) = 1;
4. P (A B|C) = P (A|B C)P (B|C).
Fazendo C = na propriedade 4 acima, temos que:
P (A B) = P (A|B)P (B).
Utilizando induo matemtica, pode-se facilmente provar que
P (A1 A2 . . . An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 . . . An1 ).
Um mtodo de se obter uma probabilidade (incondicional) de uma probabilidade condicional utilizando o Teorema da Probabilidade Total. Antes de enunciar este teorema
precisamos relembrar o que uma partio do espao amostral. Uma seqncia de eventos A1 , A2 , A3 , . . . uma partio do espao amostral se estes eventos so mutuamente
exclusivos e contm todos os elementos de (i Ai = ).
Teorema 2.1.3:
todo A A
Seja a seqncia de eventos B1 , B2 , . . . uma partio de , ento para
P (A|Bi )P (Bi )
P (A) =
i:P (Bi )=0
Prova:
Como B1 , B2 , . . . uma partio de , temos que
A = A = A (i Bi ) = i (A Bi ).
Como os eventos Bi s so mutuamente exclusivos, os eventos (A Bi )s tambm so
mutuamente exclusivos. Ento axioma K3 implica que
P (A) = P (i (A Bi )) =
=
i:P (Bi )=0
P (A Bi )
P (A Bi ) =
P (A|Bi )P (Bi ).
i:P (Bi )=0
Se ns interpretarmos a partio B1 , B2 , . . . como possveis causas e o evento A corresponda a um efeito particular associado a uma causa, P (A|Bi ) especica a relao estocstica
entre a causa Bi e o efeito A.
Por exemplo, seja {D, Dc } uma partio do espao amostral, onde o evento D signica
que um dado indivduo possui uma certa doena. Seja A o evento que determinado teste para
25
o diagnstico da doena deu positivo. Ento, P (A|Dc ) descreve a probabilidade do exame d

positivo mesmo que o paciente esteja saudvel, a chamada probabilidade de falso positivo.
P (Ac |D) a probabilidade do exame d negativo mesmo que o paciente esteja doente, a
chamada probabilidade de falso negativo. Estas probabilidades determinam a qualidade do
teste, quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade
do teste. Caso as probabilidades P (D), P (A|D), P (A|Dc ) sejam conhecidas pode-se usando o
Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame
dar positivo P (A). Porm geralmente, o que se busca saber que dado que o resultado de
um exame deu positivo qual a probabilidade de que o indivduo esteja doente. Pode-se obter
esta probabilidade utilizando a famosa frmula de Bayes:
P (D|A) =
P (A D)
P (A|D)P (D)
=
.
c
P (A D) + P (A D )
P (A|D)P (D) + P (A|Dc )P (Dc )
Para outro exemplo, suponha que os eventos B1 , B2 , . . . formam uma partio do espao amostral, e os eventos Bi s descrevem diferentes mensagens emitidas em um sistema
de comunicaes e A descreve uma mensagem recebida pelo sistema. P (A|Bi ) determina
a probabilidade que a mensagem Bi seja emitida e a mensagem A seja recebida por este
sistema. Essas probabilidades condicionais especicam o modelo do canal de comunicaes.
Caso, as probabilidades P (Bi )s de cada mensagem ser enviada e as probabilidades condicionais que descrevem o canal de comunicao sejam conhecidas pode-se usando o Teorema
da Probabilidade Total obter a probabilidade incondicional que determinada mensagem A
seja recebida. Porm geralmente, o que se busca saber que dado uma certa mensagem foi
recebida (efeito) A qual a probabilidade de cada uma das mensagens Bi terem sido as mensagens enviadas. Podem-se obter estas probabilidades utilizando a forma geral da famosa
frmula de Bayes:
P (A Bi )
P (A Bi )
P (Bi |A) =
=
j P (A Bj )
j:P (Bj )=0 P (A Bj )
=
P (A|Bi )P (Bi )
.
j:P (Bj )=0 P (A|Bj )P (Bj )
fcil de provar esta frmula usando o Teorema da Probabilidade Total. As probabilidades P (Bi ) so usualmente chamadas de probabilidades a priori e as probabilidades
condicionais P (Bi |A) so chamadas de probabilidades a posteriori. O seguinte exemplo
ilustra uma aplicao da frmula de Bayes.
Exemplo 2.1.4: Considere uma imagem formada por n m pixels com a k-sima linha
contendo dk ( m) pixels defeituosos. No primeiro estgio do experimento uma linha
escolhida ao acaso e ns no sabemos qual foi a escolha. Ns ento examinamos um pixel
selecionada ao acaso nesta linha e descobrimos que o pixel defectivo (chamamos este evento
de D). Qual a probabilidade de que este pixel defeituoso esteja na linha k? Seja R = k o
evento que este pixel pertencia a k-sima linha da imagem. A frmula de Bayes nos permite
determinar que dado que
dk
1
e P (D|R = k) = ,
P (R = k) =
n
m
26
ns temos que
P (R = k|D) =
1 dk
nm
n 1 d i
i=1 n m
dk
= n
i=1
di
Ento, mesmo que a linha tenha inicialmente sido escolhida ao acaso, dado o evento que
encontramos ao acaso um pixel defectivo nesta linha, agora mais provvel que seja uma
linha contendo um nmero grande de pixels defectivos dk .
Exemplo 2.1.5: Uma urna contm 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposio, duas bolas dessa urna. Determine a probabilidade da primeira bola
ser branca sabendo que a segunda bola branca.
Soluo: Sejam B1 e B2 os eventos a primeira bola branca e a segunda bola branca,
respectivamente. Queremos calcular P (B1 |B2 ). Utilizando a frmula de Bayes, temos
P (B1 |B2 ) =
P (B2 |B1 )P (B1 )

.
P (B2 |B1 )P (B1 ) + P (B2 |B1c )P (B1c )
Mas P (B2 |B1 ) = 39 , P (B2 |B1c ) = 94 , P (B1 ) =

P (B1 |B2 ) =
3
9
3
9
4
10
4
10
e P (B1c ) =
4
10
+ 49
6
10
2
15
2
5
6
.
10
Logo,
1
= .
3
Exemplo 2.1.6: Se P (C|D) = 0, 4 e P (D|C) = 0, 5, que evento mais provvel C ou D?

Soluo:
Exemplo 2.1.7: Se P (E) = 0, 4 e P (F ) = 0, 7, o que pode-se concluir sobre P (E|F )?
Soluo: Por denio, temos que:
P (E|F ) =
P (E F )
.
P (F )
Porm, sabemos que max(P (E) + P (F ) 1, 0) P (E F ) min(P (E), P (F )). Logo,

0, 1 P (E F ) 0, 4, portanto
0, 1
0, 4
P (E|F )
.
0, 7
0, 7
Exemplo 2.1.8: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador de
programa de jogos em TV cujo jogo comeava mostrando ao participante 3 portas fechadas
d1 , d2 , d3 , e atrs de apenas uma delas havia um prmio valioso. O participante selecionava
uma porta, por exemplo, d1 , mas antes que a porta fosse aberta, Monty Hall, que sabia em
que porta estava o prmio, por exemplo, d2 , abria a porta restante d3 , que no continha
o prmio. O participante tinha ento permisso para car com sua porta original, d1 , ou
escolher a outra porta fechada. A pergunta se melhor car com a porta original ou trocar
de porta. Vamos agora utilizar a frmula de Bayes para analisar este problema. Seja G uma
porta escolhida aleatoriamente para conter o prmio; Y a porta que o participante escolhe
primeiro; e M a porta que Monty Hall abre. O participante no tem nenhum conhecimento
27
a priori sobre a localizao do prmio, ou seja ele considera todas as portas equiprovveis, e
isto pode ser modelado por:
1
P (G = di |Y = dj ) = ;
3
todas as portas tem a mesma probabilidade de conter o prmio no importa qual porta o
participante escolhe. Se o participante escolher uma porta que no contm o prmio, Monty
Hall necessariamente ter de abrir a porta que no contm o prmio, isto pode ser modelado
por:
P (M = di1 |Y = di2 , G = di3 ) = 1,
onde i1 , i2 , i3 {1, 2, 3} e so distintos. Se o participante escolher corretamente, por exemplo,
Y = G = di2 , ento assumimos que Monty Hall escolhe aleatoriamente entre as outras duas
outras portas:
1
P (M = di1 |Y = G = di2 ) = , para di1 = di2 .1
2
Para determinar se o participante deve trocar de porta, devemos calcular
P (G = d1 , Y = d2 , M = d3 )
P (G = d1 |Y = d2 , M = d3 ) =
P (Y = d2 , M = d3 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (M = d3 |Y = d2 )P (Y = d2 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )
=
P (M = d3 |Y = d2 )
1/3
=
P (M = d3 |Y = d2 )
Para determinar o valor de P (M = d3 |Y = d2 ) utilizamos o Teorema da Probabilidade Total
e a denio de probabilidade condicional:
P (Y = d2 , M = d3 )
P (M = d3 |Y = d2 ) =
P (Y = d2 )
P (Y = d2 , M = d3 , G = d1 ) + P (Y = d2 , M = d3 , G = d2 ) + P (Y = d2 , M = d3 , G = d3 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (Y = d2 )
+
P (Y = d2 )
+
P (Y = d2 )
= P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )
+P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )
+P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )
1 1 1
1
=1 + +0= .
3 2 3
2
1
A soluo depende como resolvemos este caso.
28
Logo, P (G = d1 |Y = d2 , M = d3 ) = 23 , e o participante deve trocar de porta de sua escolha

original d2 para d1 !
Exemplo 2.1.9: Seja D o evento que um indivduo selecionado ao acaso de uma populao tem uma doena particular, Dc seu complemento. A probabilidade que um indivduo
selecionado ao acaso nesta populao tenha determinada dena pd . Existe um teste para
diagnstico desta doena que sempre acusa presena da doena quando o indivduo tem a
doena. Contudo, quando o indivduo no tem a doena, o teste reporta falsamente que
o indivduo tem a doena com probabilidade pt . Seja T P o evento que o teste reporta
positivamente que o indivduo tem a doena. Formalmente, temos:
P (D) = pd , P (T P |D) = 1, P (T P |Dc ) = pt .
Um indivduo deve estar interessado em saber a probabilidade P (D|T P ) que ele tenha a
doena dado que o teste deu positivo. Se, por exemplo, a doena for rara e pd = 0, 001, e o
teste reportar falsamente com probabilidade pequena pt = 0, 05, veremos que apesar desta
pequena probabilidade do teste da um resultado errado, a probabilidade do indivduo ter a
doena pequena. Pela frmula de Bayes
P (D|T P ) =
P (T P |D)P (D)
pd
=
= 0, 02.
c
c
P (T P |D)P (D) + P (T P |D )P (D )
pd + pt (1 pd )
Embora probabilidade condicional seja bastante til, ela sofre de alguns problemas, em
particular quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se
P (B) = 0, ento P (A|B) no denida. Isto leva a um nmero de diculdades loscas em relao a eventos com probabilidade zero. So eles realmente impossveis? Caso
contrrio, quo improvvel um evento precisa ser antes de ele ser atribudo probabilidade
zero? Deve um evento em algum caso ser atribudo probabilidade zero? Se existem eventos
com probabilidade zero que no so realmente impossveis, ento o que signica condicionar em eventos de probabilidade zero? Por exemplo, considere o espao de probabilidade
([0, 1], B, ) onde B a -lgebra de Borel restrita a eventos contidos em [0, 1] e uma
medida de probabilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu
comprimento. Seja B = {1/4, 3/4} e A = {1/4}. Como (B) = 0, (A|B) no denida.
Porm parece razovel assumir que neste caso (A|B) = 1/2 j que intuitivamente implica
que todos os estados so equiprovveis, mas a denio formal de probabilidade condicional
no nos permite obter esta concluso.
Uma maneira de contornar alguns destes problemas utilizar probabilidades no-padro,
que envolve conceitos de anlise matemtica no-padro, que utiliza noes de innitesimais.
Outro modo considerar probabilidades condicionais (e no incondicionais) como a noo
fundamental. Uma medida de probabilidade condicional tem pares de eventos A, B como
argumentos. Formalmente, a medida de probabilidade condicional denida em uma lgebra
de Popper.
Denio 2.1.10: Uma lgebra de Popper sobre um conjunto A A de subconjuntos
de tal que (a) A uma lgebra sobre , (b) A um subconjunto no-vazio de A,
e (c) A fechado em relao a superconjuntos em A, ou seja, se B A , B B , B A,
ento B A .
2.2. INDEPENDNCIA
29
Pode-se ento denir uma medida de probabilidade condicional da seguinte maneira:

Denio 2.1.11: Uma espao de probabilidade condicional uma tupla (, A, A , ) tal
que A A uma lgebra de Popper sobre e : A A [0, 1] satisfaz as seguintes
condies:
CP1. (A|A) = 1 se A A .
CP2. (A1 A2 |B) = (A1 |B) + (A2 |B) se A1 A2 = , A1 , A2 A e B A .
CP3. (A1 A2 |A3 ) = (A1 |A2 A3 ) (A2 |A3 ) se A2 A3 A e A1 A.
2.2
Independncia
O que exatamente signica que dois eventos so independentes? Intuitivamente, isto signica que eles no tm nada haver um com o outro, eles so totalmente no relacionados; a
ocorrncia de um no tem nenhuma inuncia sobre o outro. Por exemplo, suponha que duas
diferentes moedas so lanadas. A maioria das pessoas viria os resultados desses lanamentos
como independentes. Portanto, a intuio por trs da frase o evento A independente do
evento B que nosso conhecimento sobre a tendncia para A ocorrer dado que sabemos que
B ocorreu no alterada quando camos sabendo que B ocorreu. Ento, usando probabilidades condicionais podemos formalizar esta intuio da seguinte forma, A independente
de B se P (A|B) = P (A). Mas usando a denio de probabilidade condicional, chega-se a
seguinte concluso A independente de B se P (A B) = P (A)P (B). Como esta ltima
expresso denida inclusive para o caso de P (B) = 0, ela a expresso adotada como a
denio de independncia entre eventos.
Denio 2.2.1: O evento A independente do evento B se P (A B) = P (A)P (B).
Note que esta denio de independncia implica que independncia um conceito simtrico em teoria da probabilidade, isto , A independente de B se e somente se B
independente de A. Note que esta denio tambm implica que eventos A e B so independentes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas concluses no intuitivas se
de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, ento A independente dele
mesmo, porm A certamente no no relacionado consigo mesmo. Similarmente, fcil
provar que se P (A) = 1, A independente dele mesmo. O seguinte teorema prova que estes
so os nicos casos em que um evento independente dele mesmo.
Teorema 2.2.2: A independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1.
Prova:
P (A A) = P (A) = P (A)P (A) P (A) = 0 ou P (A) = 1.
Intuitivamente, se A independente de B o fato que B no ocorreu, ou seja que B c
ocorreu, no deve alterar a probabilidade de A. Portanto, de se esperar que se A e B so
independentes, ento A e B c tambm so. O seguinte teorema prova que esta intuio
verdadeira.
2.2. INDEPENDNCIA
Teorema 2.2.3:
tambm o so.
30
Se A e B so eventos independentes, A e B c (resp., Ac e B, Ac e B c )
Prova: Note que

A = A = A (B B c ) = (A B) (A B c ).
Ento, como A B e A B c so mutuamente exclusivos, axioma K3 implica que
P (A) = P (A B) + P (A B c ).
Como A e B so independentes, ns temos
P (A) = P (A)P (B) + P (A B c ).
Rearrajando os termos e utilizando o fato que P (B c ) = 1 P (B), temos P (A B c ) =
P (A)P (B c ), como queramos demonstrar.
O conceito de independncia tambm se aplica a uma coleo arbitrria de eventos
{Ai }iI , onde I um conjunto de ndices. Neste caso, tm-se duas denies.
Denio 2.2.4: Uma coleo de eventos {Ai }iI independente par a par se para todo
i = j I, Ai e Aj so eventos independentes.
Denio 2.2.5: Uma seqncia nita de eventos A1 , A2 , . . . , An , n 1, mutuamente
independente se para todo I {1, . . . , n},
P (iI Ai ) =
P (Ai )
iI
E uma coleo de eventos {Ai }iI mutuamente independente se para todo J I nito,
{Ai }iJ mutuamente independente.
Considere os seguintes exemplos que ilustram o conceito de independncia.
Exemplo 2.2.6: Se = {1, 2, 3, 4} e P ({w}) = 1/4, ento A = {1, 2}, B = {1, 3}, e
C = {2, 3} so eventos independentes par a par. Pode-se vericar isto pelo fato que
P (A B) = P ({1}) =
1
11
=
= P (A)P (B).
4
22
Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo, a probabilidade
1
P (A B C) = P () = 0 = P (A)P (B)P (C) = .
8
Ento, A, B, e C no so mutuamente independentes.
Exemplo 2.2.7: Certo experimento consiste em lanar um dado equilibrado duas vezes,
independentemente. Dado que os dois nmeros sejam diferentes, qual a probabilidade
condicional de
2.2. INDEPENDNCIA
31
(a) pelo menos um dos nmeros ser 6,

(b) a soma dos nmeros ser 8?
Soluo: Para parte (a), note que existem 30 resultados possveis para os lanamentos
do dado de modo que o mesmo nmero no se repita, dos quais 10 o nmero 6 ocorre.
Portanto, esta probabilidade igual a 1/3.
Para parte (b), note que existem 4 resultados possveis que somam 8 dado que os nmeros
so diferentes, logo esta probabilidade igual a 4/30.
Exemplo 2.2.8: Suponha que um determinado experimento realizado repetidas vezes de
forma independente e observa-se a ocorrncia de determinado evento A que tem probabilidade
p. Qual a probabilidade que A occorra n vezes antes de Ac ocorrer m vezes?
Soluo: Note que o evento A ocorra n vezes antes de Ac ocorrer m vezes equivalente
ao evento A ocorrer pelo menos n vezes nas primeiras n + m 1 repeties do experimento.
Como a ordem de ocorrncia do evento A nas repeties no importante e as repeti es so
independentes, temos que o evento A ocorre k vezes em n + m 1 repeties do experimento
tem probabilidade igual a:
(
)
n+m1 k
P (k ocorrncias de A em n + m 1 repeties) =
p (1 p)n+m1k .
k
e, ento,
c
P (n ocorrncias de A antes de m ocorrncias de A ) =
n+m1
(
)
n+m1 k
p (1p)n+m1k .
k
k=n
Exemplo 2.2.9: Assuma que A1 , . . . , An so eventos mutuamente independentes e que

P (Ai ) = pi . Ns calculamos as probabilidades dos seguintes eventos:
O evento A o evento que todos estes eventos ocorrem, ento
P (A) =
P (ni=1 Ai )
P (Ai ) =
i=1
pi
i=1
O evento B o evento que nenhum desses eventos ocorre, ento

P (B) =
P (ni=1 Aci )
P (Aci )
i=1
(1 pi )
i=1
O evento C o evento que pelo menos um desses eventos ocorre, ento C = B c

P (C) = P (B ) = 1 P (B) = 1
c
(1 pi )
i=1
2.2. INDEPENDNCIA
32
Exemplo 2.2.10 : Joo e Jos disputam um jogo com uma moeda equilibrada. Cada
jogador lana a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados
iguais. Joo comea jogando e se no vencer passa a moeda para Jos e continuam alternando
jogadas. Qual a probabilidade de Joo vencer o Jogo?
Soluo: Seja Ak o evento dois resultados iguais so obtidos na k-sima tentativa. Note
que P (Ak ) = 12 . Seja Bk o evento Joo ganha na sua k-sima jogada. Ento,
B1 = A1 ; B2 = Ac1 Ac2 A3 ; B3 = Ac1 Ac2 Ac3 Ac4 A5 ,
em geral,
Bk = Ac1 Ac2 Ac2k2 A2k1 .
Portanto,
1
P (Bk ) = P (Ac1 Ac2 Ac2k2 A2k1 ) = P (Ac1 )P (Ac2 ) P (Ac2k2 )P (A2k1 ) = ( )2k1 ,
2
onde a penltima igualdade se deve ao fato dos lanamentos serem independentes. Logo,
P (Joo vencer) =
P (
k=1 Bk )
1
2
( )2k1 = .
P (Bk ) =
=
2
3
k=1
k=1
Captulo 3
Varivel Aleatria
3.1
Introduo
Suponha que uma moeda lanada cinco vezes. Qual o nmero de caras? Esta quantidade
o que tradicionalmente tem sido chamada de varivel aleatria. Intuitivamente, uma
varivel porque seus valores variam, dependendo da sequncia de lanamentos da moeda
realizada; o adjetivo aleatria usado para enfatizar que o seu valor de certo modo
incerto. Formalmente, contudo, uma varivel aleatria no nem aleatria nem uma
varivel.
Denio 3.1.1: Seja (, A, P ) um espao de probabilidade. Uma funo X : R
chamada de varivel aleatria se para todo evento Boreliano B, X 1 (B) A.
Por denio, temos que X 1 (B) = { : X() B} o conjunto de elementos
do espao amostral cuja imagem segundo X est em B. Ns recordamos que um evento
Boreliano qualquer evento pertencente -lgebra de Borel, onde a -lgebra de Borel a
menor -lgebra contendo todos os intervalos.
Para determinar se uma dada funo X de para os reais uma varivel aleatria
usando a denio, precisa-se checar se para todo evento Boreliano B, a imagem inversa de
B de acordo com X faz parte da -lgebra A. O prximo teorema prova que na verdade, s
precisamos checar que a imagem inversa de intervalos da forma (, x] pertence -lgebra
A.
Teorema 3.1.2: Seja (, A) um espao mensurvel. Uma funo real X : R uma
varivel aleatria se e somente se
X 1 ((, ]) = {w : X(w) } A, R.
Prova:
Para provar este teorema, ns precisamos de uma srie de Lemas.
Lema 3.1.3: Seja B a -lgebra de Borel, ento X 1 (B) = {X 1 (B) : B B} uma
-lgebra de eventos de .
33
3.1. INTRODUO
34
Prova: Ns vericamos os trs postulados para uma -lgebra:

(i) X 1 (B).
Como R B, ns temos X 1 (R) = X 1 (B).
(ii) Se A X 1 (B), ento Ac X 1 (B).
Suponha que A X 1 (B), ento existe A B tal que A = X 1 (A ). Como B uma
-lgebra, temos que (A )c B. Logo, X 1 ((A )c ) X 1 (B). Como
X 1 ((A )c ) = (X 1 (A ))c ,
temos que Ac X 1 (B).
1
(iii) Se A1 , A2 , . . . X 1 (B), ento
(B).
i=1 Ai X
Suponha que A1 , A2 , . . . X 1 (B), ento existem A1 , A2 , . . . B tais que Ai =
X 1 (Ai ) para i 1. Como B uma -lgebra, temos que

i=1 Ai B. Logo,
1
1
X (i=1 Ai ) X (B). Como
1
(Ai ) = X 1 (
i=1 X
i=1 Ai ),
1
temos que
(B).
i=1 Ai X
Dado qualquer classe de conjuntos C, denotamos por (C) a menor -lgebra contendo
C. Desta forma se B = {(, ] : R}, ento B = (B ). O prximo lema prova um
resultado semelhante ao do lema anterior, porm mais forte.
Lema 3.1.4: X 1 (B) = (X 1 (B )), isto , a imagem inversa de eventos Borelianos
igual a menor -lgebra contendo as imagens inversas dos eventos Borelianos.
Prova: De acordo com Lema 3.1.3, X 1 (B) uma -lgebra. Como B B, temos que
X 1 (B ) X 1 (B). Ento, por denio de menor -lgebra, temos que (X 1 (B ))
X 1 (B).
Para provar igualdade, denimos
F = {B R : X 1 (B ) (X 1 (B ))}.
fcil provar que F uma -lgebra; ns omitimos os detalhes. Por denio, temos
que X 1 (F) (X 1 (B )) e B F . Como F uma -lgebra, B = (B ) F . Portanto,
X 1 (B) X 1 (F) (X 1 (B )).
3.2. FUNO DE DISTRIBUIO ACUMULADA
35
Agora ns podemos provar o teorema. Suponha que X 1 (B ) A. Por denio de

menor -lgebra, (X 1 (B )) A. Ento, pelo Lema 3.1.4, X 1 (B) A, o que implica que
X uma varivel aleatria.
Dada uma varivel aleatria X, pode-se denir uma probabilidade induzida PX no espao
mensurvel (R, B) da seguinte maneira: para todo A B, denimos PX (A) = P (X 1 (A)).
Por denio de varivel aleatria, tem-se que X 1 (A) A, ento PX est bem denida.
Resta provar que PX satisfaz os axiomas K1, K2, e K4 de probabilidade:
K1. PX (A) = P (X 1 (A)) 0.
K2. PX (R) = P (X 1 (R)) = P () = 1.
K4 . Suponha que A1 , A2 , . . . so eventos Borelianos disjuntos. Ento,
PX (i Ai ) = P (X 1 (i Ai )) = P (i X 1 (Ai )) =
P (X 1 (Ai )) =
PX (Ai ).
i
3.2
Funo de Distribuio Acumulada
Para uma varivel aleatria X, uma maneira simples e bsica de descrever a probabilidade
induzida PX utilizando sua funo de distribuio acumulada.
Denio 3.2.1: A funo de distribuio acumulada de uma varivel aleatria X, representada por FX , denida por
FX (x) = PX ((, x]), x R.
A funo de distribuio acumulada FX satisfaz as seguintes propriedades:
F1. Se x y, ento FX (x) FX (y).
x y (, x] (, y] PX ((, x]) PX ((, y]) FX (x) FX (y).
F2. Se xn x, ento FX (xn ) FX (x).
Se xn x, ento os eventos (, xn ] so decrescentes e n (, xn ] = (, x].
Logo, pela continuidade da medida de probabilidade, tem-se que PX ((, xn ])
P ((, x]), ou seja, FX (xn ) FX (x).
F3. Se xn , ento FX (xn ) 0, e se xn , ento FX (xn ) 1.
Se xn , ento os eventos (, xn ] so decrescentes e n (, xn ] = . Logo,
pela continuidade da medida de probabilidade, tem-se que PX ((, xn ]) P (), ou
seja, FX (xn ) 0. Similarmente, se xn , ento os eventos (, xn ] so crescentes
e n (, xn ] = IR. Logo, pela continuidade da medida de probabilidade, tem-se que
PX ((, xn ]) P (), ou seja, FX (xn ) 1.
3.2. FUNO DE DISTRIBUIO ACUMULADA
36
Teorema 3.2.2: Uma funo real G satisfaz F1F3 se e somente se G uma distribuio
de probabilidade acumulada.
Prova: A prova de que se G for uma distribuio de probabilidade acumulada, ento G
satisfaz F1-F3 foi dada acima. A prova de que toda funo real que satisfaz F1-F3 uma
funo de probabilidade acumulada complexa envolvendo o Teorema da Extenso de Carathodory. Ns apresentamos aqui um esquema de como a prova feita. Primeiro dene-se
PX ((, x]) = FX (x), PX ((x, )) = 1 FX (x), e PX ((a, b]) = FX (b) FX (a). Com esta
denio, considera-se a lgebra formada por unio nita de intervalos e prova-se que PX
-aditiva nesta lgebra. Finalmente, aplica-se o Teorema da Extenso de Carathodory
para provar que PX pode ser estendida para todo evento Boreliano.
Observao 3.2.3: Uma funo de distribuio pode corresponder a vrias variveis aleatrias no mesmo espao de probabilidade (, A, P ). Por exemplo, se X tem uma distribuio normal com parmetros 0 e 1, ento por simetria fcil ver que X tambm
distribuio normal com parmetros 0 e 1. Consequentemente, FX = FX . No entanto,
P (X = X) = P (X = 0) = 0.
Condio F2 signica que toda funo distribuio de probabilidade acumulada FX
continua direita. Ainda mais, como FX no-decrescente e possui valores entre 0 e 1,
pode-se provar que ela tem um nmero enumervel de descontinuidades do tipo salto. Pela
continuidade direita , o salto no ponto x igual a
FX (x) FX (x ) = FX (x) lim F (x
n
= PX ((, x]) lim PX ((, x

n
1
)
n
1
])
n
1
= lim PX ((x , x]).
n
n
Como a sequncia de eventos (x n1 , x] decrescente e n (x n1 , x] = {x}. Temos que
{x} Boreliano e
PX (x) = FX (x) FX (x ).
Ou seja, a probabilidade da varivel aleatria X assumir o valor x igual ao salto da
funo de distribuio acumulada FX no ponto x. O prximo teorema indica que o conjunto
de pontos de descontinuidade de F enumervel.
Teorema 3.2.4: Seja D o conjunto de pontos de descontinuidade da funo de distribuio
F . Ento, D enumervel.
Prova: Pela monotonicidade, temos que para todo x IR, F (x ) F (x) F (x+ ). Logo,
x D se, e somente se, F (x+ ) > F (x ). Para n = 1, 2, 3, . . . seja
An = {x : F (x+ ) F (x ) >
1
}.
n
3.3. TIPOS DE VARIVEL ALEATRIA
37
Ento, D =
n=1 An . Vamos vericar que todo An contm menos que n pontos e, portanto,
nito. Dessa forma, D ser enumervel.
Por absurdo, suponha que exista An que contm n pontos. Assim, An = {x1 , x2 , . . . , xn },
onde x1 < x2 < xn e
+
+
0 F (x
1 ) F (x1 ) F (x2 ) F (x2 ) F (xn ) F (xn ) 1.
Ento, temos nk=1 [F (x+

denio do conjunto An , temos que
k ) F (xk )] 1. Mas por
1
1
F (xi ) F (xi ) > n para todo xi An . Portanto, nk=1 [F (x+
k ) F (xk )] > n n > 1,
absurdo. Logo, An contm menos que n pontos.
3.3
Tipos de Varivel Aleatria
Denio 3.3.1: Existem trs tipos de variveis aleatrias:

Discreta. Uma varivel aleatria X discreta se assume um nmero enumervel de
valores, ou seja, se existe um conjunto enumervel {x1 , x2 , . . .} R tal que X(w)
{x1 , x2 , . . .}, w . A funo p(xi ) denida por p(xi ) = PX ({xi }), i = 1, 2, . . . e
p(x) = 0 para x
/ {x1 , x2 , . . .}, chamada de funo probabilidade de X. Note que
neste caso, temos
FX (x) =
p(xi ).
i:xi x
Contnua. Uma varivel aleatria X contnua se existe uma funo fX (x) 0 tal
que
x
FX (x) =
fX (t)dt, x R.
Neste caso, a funo fX chamada de funo densidade de probabilidade de X.

Singular. Uma varivel aleatria X singular se FX uma funo contnua cujos
pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue)
nulo.
Pode-se provar que toda funo de distribuio de probabilidade acumulada FX pode ser
decomposta na soma de no mximo trs funes de distribuio de probabilidade acumuladas,
sendo uma discreta, uma contnua e outra singular. Na prxima seo analisaremos as
variveis aleatrias discretas.
3.3.1
Varivel Aleatria Discreta
Vamos considerar agora o caso das variveis aleatrias discretas. Ns vimos na seo anterior
que se uma varivel aleatria discreta, ento ns podemos denir uma funo de probabilidade p de modo que p(xi ) = PX ({xi }), i = 1, 2, . . ., onde X {x1 , x2 , . . .} e p(x) = 0
para x
/ {x1 , x2 , . . .}. Note que toda funo de probabilidade uma funo dos reais R e
38
assume valores entre 0 e1, sendo positiva para um nmero enumervel de pontos e satisfaz
a seguinte propriedade i p(xi ) = 1.
Por outro lado, dada uma funo p : R
[0, 1], onde p positiva para um nmero
enumervel de pontos {x1 , x2 , . . .} e satisfaz
i p(xi ) = 1, uma funo P denida nos eventos
Borelianos de modo que P (A) =

p(x
i ), A B uma medida de probabilidade
xi A
em (R, B) ( fcil vericar que P satisfaz os axiomas de Kolmogorov e portanto uma
medida de probabilidade). Logo, a distribuio de uma varivel aleatria discreta X pode
ser determinada tanto pela funo de distribuio acumulada FX ou pela sua funo de
probabilidade p.
3.3.2
Varivel Aleatria Contnua
Vamos considerar agora o caso das variveis aleatrias contnuas. Ns vimos na seo anterior
que se uma varivel
xaleatria (absolutamente) contnua, ento existe uma funo fX (x) 0
tal que FX (x) = fX (t)dt. Deste modo, FX contnua e fX (x) = FX (x), exceto num
conjunto de medida de Lebesgue
nula. Uma funo f (x) 0 densidade de alguma varivel
aleatria se e somente se, f (x)dx = 1, j que neste caso fcil provar que a funo F
x
denida por f (t)dt satisfaz as condies F1, F2, e F3. Portanto, pelo Teorema 3.2.2
F uma funo de distribuio acumulada. Logo, a distribuio de uma varivel aleatria
contnua X pode ser determinada tanto pela funo de distribuio acumulada FX ou pela
sua funo de densidade fX .
Uma varivel aleatria X tem densidade se FX a integral (de Lebesgue) de sua derivada;
sendo neste caso a derivada de FX uma funo densidade para X. Este fato pode ser provado
utilizando argumentos de Teoria da Medida, mas omitimos os detalhes aqui. Sem recorrer a
argumentos envolvendo Teoria da Medida, em quase todos os casos encontrados na prtica,
uma varivel aleatria X tem densidade se FX (i) contnua e (ii) derivvel por partes, ou
seja, se FX derivvel no interior de um nmero nito ou enumervel de intervalos fechados
cuja unio a reta R.
Por exemplo, considere
0 se x < 0,
x se 0 x < 1,
FX (x) =
1 se x 1.
Ento X tem densidade pois FX contnua e derivvel em todos os pontos da reta exceto
em {0, 1}.
3.3.3
Varivel Aleatria Singular
Vamos nesta seo dar o exemplo de uma funo de distribuio de uma varivel aleatria
singular conhecida como funo de Cantor. Esta funo contnua, derivvel em todo ponto
exceto em um conjunto de medida de Lebesgue nula, mas no absolutamente contnua.
Seja F (x) = 0 se x < 0 e F (x) = 1 se x > 1. Continuemos por etapas:
Etapa 1: Seja F (x) = 12 para x (1/3, 2/3). Ento, o valor de F neste intervalo igual a
mdia dos valores de F nos intervalos vizinhos em que F j est denida: (, 0) e
39
(1, ). F continua sem denio em dois intervalos: [0, 1/3] e [2/3, 1] de comprimento
total 2/3.
Etapa n + 1: No tero central de cada um dos 2n intervalos restantes aps a etapa n, seja
F (x) igual mdia dos valores nos dois intervalos vizinhos onde F j est denida.
Por exemplo, na etapa 2 dena F (x) = 1/4 para x (1/9, 2/9) e F (x) = 3/4 para
x (7/9, 8/9). Restaro ento 2n+1 intervalos (o dobro do nmero restante aps a
etapa n), de comprimento total (2/3)n+1 , em que F ainda no estar denida.
Ento denimos F por induo em um nmero enumervel de intervalos abertos, cujo
complementar (ou seja, o conjunto onde F ainda no est denida) o conjunto de Cantor,
um conjunto de comprimento 0. Podemos estender a denio de F at o conjunto de Cantor
C por continuidade: se x C, a diferena entre os valores de F nos dois intervalos vizinhos
aps a etapa n 1/2n . Note que F montona no decrescente em C c . Se an o valor de
F no intervalo vizinho esquerdo aps a etapa n, e bn o valor no intervalo vizinho direito
aps a etapa n, ento, an , bn e bn an 0. Seja F (x) o limite comum de an e bn . Deste
modo F est denida em toda reta e de fato uma funo de distribuio (verique!).
Seja X uma varivel aleatria cuja funo de distribuio F , a funo de Cantor.
Ento
X no discreta e nem contnua pois X no tem densidade F (x) = 0 em C c e
x
F (t)dt = 0, ou seja, F no a integral de sua derivada, ou melhor, no absolutamente
contnua. Como F contnua e F (x) = 0 para x C c e C tem comprimento nulo, temos

que X uma varivel aleatria singular.
3.3.4
Decomposio de uma Varivel Aleatria
Vamos ver agora que toda varivel aleatria uma mistura dos trs tipos: discreto, contnuo
e singular. Seja X uma varivel aleatria qualquer e seja F sua funo de distribuio. Se
J = {x1 , x2 , . . .} o conjunto dos pontos de salto de F (se F for contnua J = ), indiquemos
com pi o salto no ponto xi , ou seja,
pi = F (xi ) F (x
i ).
Denimos Fd (x) = i:xi x pi . Fd uma funo degrau no-decrescente: a parte discreta de

F . Como uma funo montona possui derivada em quase toda parte, seja
{
F (x) se F diferencivel em x,
f (x) =
0
se F no diferencivel em x.
x
Seja Fac (x) = f (t)dt. Fac no-decrescente, pois a integral indenida de uma funo
nao-negativa (f 0 porque F no-decrescente). A sua derivada igual a f em quase toda
parte, de modo que Fac absolutamente contnua: Fac a parte absolutamente contnua de
F.
Seja Fs (x) = F (x) Fd (x) Fac (x). Fs contnua pois a diferena de duas funes
contnuas. A derivada de Fs igual a zero em quase toda parte, porque F e Fac tm a mesma
derivada f , e Fd possui derivada zero em quase toda parte. Pode-se provar que Fs tambm
no-decrescente, mas est fora do escopo deste curso. Fs a parte singular de F .
3.4. PRINCIPAIS DISTRIBUIES DE PROBABILIDADE
40
Esta discusso nos d um mtodo de decompor F em suas partes discreta, absolutamente

contnua e singular. Considere o seguinte exemplo:
Exemplo 3.3.2: Suponha que X U [0, 1]
0
x
FY (x) =
e Y = min(X, 1/2). Note que

se x < 0,
se 0 x < 1/2,
se x 1/2.
FY tem apenas um salto em x = 1/2 e p1 = 1/2. Logo, Fd (x) = 0 se x < 1/2 e

Fd (x) = 1/2 se x 1/2. Diferenciando FY , temos
{
0 se x < 0 ou x > 1/2,
FY (x) =
1 se 0 < x < 1/2.
Logo, por denio,
{
f (x) =
Portanto,
0 se x 0 ou x 1/2,
1 se 0 < x < 1/2.
se x < 0,
0
x
se 0 x 1/2,
Fac (x) =
f (t)dt =
1/2 se x > 1/2.
Como Fd + Fac = FY , temos que Fs (x) = 0, x IR e no h parte singular. Uma varivel

aleatria que possui apenas partes discreta e absolutamente contnua conhecida como uma
varivel aleatria mista. Na prtica, pouco provvel que surja uma varivel aleatria
singular. Portanto, quase todas as variveis aleatrias so discretas, contnuas ou mistas. A
seguir veremos os principais tipos de distribuies.
3.4
Principais Distribuies de Probabilidade
Vamos primeiro explorar alguns exemplos importantes de variveis aleatrias discretas.

Aleatria.
Dizemos que X tem uma distribuio aleatria com parmetro n, onde n um nmero
inteiro, se X(w) {x1 , x2 , . . . , xn } e p(xi ) = n1 , para i {1, . . . , n}.
A funo de probabilidade aleatria pode ser utilizada para modelar mecanismos de
jogos (por exemplo, dados e moedas balanceados, cartas bem embaralhadas). Utilizando
a propriedade de aditividade da probabilidade, fcil ver que para qualquer evento A
.
{x1 , x2 , . . . , xn }, temos que P (X A) = ||A||
n
41
Bernoulli.
Dizemos que X tem uma distribuio Bernoulli com parmetro p, onde 0 p 1, se
X(w) {x0 , x1 } e p(x1 ) = p = 1 p(x0 ).
A funo de probabilidade Bernoulli pode ser utilizada para modelar a probabilidade de
sucesso em uma nica realizao de um experimento. Em geral, qualquer varivel aleatria
dicotmica, ou seja que assume somente dois valores, pode ser modelada por uma distribuio
Bernoulli.
Binomial.
Dizemos que X tem uma distribuio Binomial com parmetros
n e p, onde n um nmero
( )
inteiro e 0 p 1, se X(w) {0, 1, . . . , n} e p(k) = nk pk (1 p)1k , para k {0, 1, . . . , n}.
Note que utilizando o Teorema Binomial, temos que
n
n ( )
n k
p(k) =
p (1 p)nk = (p + 1 p)n = 1.
k
k=0
k=0
Logo, esta uma legtima funo probabilidade de massa.
A funo de probabilidade Binomial pode ser utilizada para modelar a quantidade de erros
em um texto de n smbolos quando os erros entre smbolos so assumidos independentes e a
probabilidade de erro em um smbolo do texto igual a p. Tambm pode ser utilizada para
modelar o nmero de caras em n lanamentos de uma moeda que possui probabilidade p de
cair cara em cada lanamento. Se p = 1/2, temos um modelo para o nmero de 1s em uma
sequncia binria de comprimento n escolhida aleatoriamente ou o nmero de caras em n
lanamentos de uma moeda justa.
Geomtrica.
Dizemos que X tem uma distribuio Geomtrica com parmetro , onde 0 < 1, se
X(w) {0, 1, . . .} e p(k) = (1 ) k , para k {0, 1, . . .}.
Utilizando o resultado de uma soma innita de uma Progresso Geomtrica, temos que
k
p(k) =
(1 ) = (1 )
k = 1.
k=0
k=0
k=0

A funo de probabilidade Geomtrica pode ser utilizada para modelar o tempo de espera
medido em unidades de tempo inteira at a chegada do prximo consumidor em uma la,
at a prxima emisso de um fton, ou at a primeira ocorrncia de cara numa sequncia de
lanamentos de uma moeda.
Binomial Negativa ou Pascal.
Esta distribuio uma generalizao bvia da distribuio geomtrica. Suponha que ao
invs de estarmos interessados no tempo de espera at a primeira ocorrncia de um evento,
42
estejamos interessados em calcular o tempo de espera at a r-sima ocorrncia de um evento.

Seja Y o tempo de espera necessrio a m de que um evento A possa ocorrer exatamente
r vezes. Temos que Y = k se, e somente se, A ocorrer na (k + 1)-sima repetio e A
tiver ocorrido r 1 vezes nas k repeties
Assumindo independncia entre os
( kanteriores.
) r1
experimentos, esta probabilidade igual p r1
p (1 p)kr+1 . Portanto,
(
)
k
P (Y = k) =
pr (1 p)kr+1 , onde k r 1.
r1
Note que se r = 1, temos que Y tem uma distribuio geomtrica com parmetro = 1 p.
No caso geral, dizemos que Y tem uma distribuio Binomial Negativa ou Pascal.
Relao entre as Distribuies Binomial e Binomial Negativa. Suponhamos que X
tenha distribuio binomial com parmetros n e p, ou seja, X igual ao nmero de sucessos
em n ensaios repetidos de Bernoulli com probabilidade de sucesso p. Suponhamos que Y
tenha uma distribuio Binomial Negativa com parmetros r e p, ou seja, Y + 1 o nmero
de ensaios de Bernoulli necessrios para se obter r sucessos com probabilidade de sucesso p.
Ento, temos que {X r} = Y + 1 n, ou seja, o nmero de sucessos em n ensaios maior
ou igual a r se, e somente se, o tempo de espera para o r-simo sucesso for menor ou igual
a n 1. Portanto,
P (X r) = P (Y n 1).
Observe que estas duas distribuies tratam de ensaios de Bernoulli repetidos. A distribuio binomial surge quando lidamos com um nmero xo de ensaios e estamos interessados
no nmero de sucessos que venham a ocorrer. A distribuio binomial negativa encontrada
quando xamos o nmero de sucessos e ento registramos o tempo de espera necessrio.
Zeta ou Zipf.
Dizemos que X tem uma distribuio Zeta ou Zipf com parmetro , onde > 1, se
X(w) {1, 2, . . .} e
k
, k = 1, 2, . . . ,
p(k) =
()
onde () =
conhecida como a funo Zeta de Riemann.
k=1 k
A funo de probabilidade Zeta ou Zipf um exemplo de uma distribuio de cauda
pesada cuja importncia cresceu bastante desde meados dos anos 1990. As aplicaes desta
funo de probabilidade incluem: nmero de consumidores afetados por um blackout, tamanhos de arquivos solicitados em transferncia via Web e atraso de pacotes na internet.
Hipergeomtrica.
A distribuio hipergeomtrica descreve o nmero de sucessos em uma sequncia de n amostras de uma populao nita sem reposio.
Por exemplo, considere que tem-se uma carga com N objetos dos quais D tm defeito. A
distribuio hipergeomtrica descreve a probabilidade de que em uma amostra de n objetos
distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos.
43
Em geral, se uma varivel aleatria X segue uma distribuio hipergeomtrica com parmetros N, D, e n, ento a probabilidade de termos exatamente k sucessos dada por
(D)(N D)
(Nnk
) .
p(k) =
Esta probabilidade positiva se: N D n k, ou seja k max(0, D + n N ), e

k min(n, D).
( )
Esta frmula pode ser entendida assim: existem Nn possveis amostras sem reposio.
( )
( D)
Existem Dk maneiras de escolher k objetos defeituosos e existem Nnk
maneiras de preencher o resto da amostra com objetos sem defeito.
Quando a populao grande quando comparada ao tamanho da amostra (ou seja, N for
muito maior que n) a distribuio hipergeomtrica aproximada razoavelmente bem por uma
distribuio binomial com parmetros n (tamanho da amostra) e p = D/N (probabilidade
de sucesso em um nico ensaio).
Poisson.
Dizemos que X tem uma distribuio Poisson com parmetro , onde 0, se X(w)
k
{0, 1, . . .} e p(k) = e k! , para k {0, 1, . . .}.
Por denio, temos que para todo x real,
x
e =
xk
k=0
k!
Utilizando este fato, temos que
k=0
p(k) =
e k
k=0
k!
=e
k
k=0
k!
= e e = 1.

A funo de probabilidade Poisson utilizada para modelar a contagem do nmero de
ocorrncias de eventos aleatrios em um certo tempo T : nmero de ftons emitidos por
uma fonte de luz de intensidade I ftons/seg em T segundos ( = IT ), nmero de clientes
chegando em uma la no tempo T ( = CT ), nmero de ocorrncias de eventos raros no
tempo T ( = CT ).
Poisson como um Limite de Eventos Raros de Binomial Suponhamos que chamadas
telefnicas cheguem em uma grande central, e que em um perodo particular de trs horas
(180 minutos), um total de 270 chamadas tenham sido recebidas, ou seja, 1,5 chamadas por
minuto. Suponhamos que queiramos calcular a probabilidade de serem recebidas k chamadas
durante os prximos trs minutos.
Ao considerar o fenmeno da chegada de chamadas, poderemos chegar concluso de que,
a qualquer instante, uma chamada telefnica to provvel de ocorrer como em qualquer
44
outro instante. Como em qualquer intervalo de tempo, temos um nmero innito de pontos,
vamos fazer uma srie de aproximaes para este clculo.
Para comear, pode-se dividir o intervalo de 3 minutos em nove intervalos de 20 segundos cada um. Poderemos ento tratar cada um desses nove intervalos como um ensaio de
Bernoulli, durante o qual observaremos uma chamada (sucesso) ou nenhuma chamada (fa20
= 0, 5. Desse
poderemos
lha), com probabilidade de sucesso igual a p = 1, 5 60
(9) modo,
9
9
ser tentados a armar que a probabilidade de 2 chamadas igual a 2 (0, 5) = 128
. Porm, este clculo ignora a possibilidade de que mais de uma chamada possa ocorrer em um
nico intervalo. Ento, queremos aumentar o nmero n de subintervalos de tempo de modo
que cada subintervalo corresponde a 180
segundos e ento a probabilidade de ocorrncia
n
180
de uma chamada em um subintervalo igual a p = 1, 5 60n
. Desta maneira temos que
np = 4, 5 permanece constante ao crescermos o nmero de subintervalos. Utilizando novamente
binomial, temos que a probabilidade de ocorrerem k chamadas dada por:
(n) 4,5 ok modelo
4,5 nk
( n ) (1 n ) . Queremos saber ento o que acontece com esta probabilidade quando
k
n . A resposta como veremos a seguir que esta distribuio tende a distribuio de
Poisson e este resultado conhecido como limite de eventos raros.
Consideremos a expresso geral da probabilidade binomial,
( )
n k
n!
n(n 1) (n k + 1) k
p(k) =
p (1 p)nk =
pk (1 p)nk =
p (1 p)nk .
k
k!(n k)!
k!
Como queremos estudar o caso em que np constante, faamos np = , ou seja, p = /n
. Ento,
e 1 p = n
n
n(n 1) (n k + 1) k n nk
( ) (
)
k!
n
n
k
1
k1
=
[(1)(1 ) (1
)][1 ]nk
k!
n
n
n
p(k) =
Fazendo n , temos que os termos da forma (1 nj ), para 1 j k 1, tendem

para 1 e como existe um nmero xo k deles, o seu produto tambm tende a 1. O mesmo
ocorre com (1 n )k . Finalmente, por denio do nmero e, temos que (1 n )n e
quando n . Portanto,
k
lim p(k) = e ,
n
k!
ou seja obtemos a expresso de Poisson.
Mais geralmente, pode-se provar o seguinte teorema:
Teorema 3.4.1: Se limn npn = > 0, ento
( )
k
n k
nk

.
lim
pn (1 pn )
=e
n k
k!
Prova: Ns utilizamos os seguintes fatos:
( )
k
1. limn nk = limn nk! .
45
2. limn np2n = 0.
3. (1 x)n enx , para x 0.
4. (1 x)n enxnx , para 0 x 12 .
2
Usando fatos 2, 3, e 4, ns obtemos limn (1 pn )nk = limn e(nk)pn .

Logo, usando fato 1,
( )
(npn )k (nk)pn
n k
k
pn (1 pn )nk = lim
lim
e
= e .
n
n k
k!
k!
Vamos agora explorar alguns exemplos importantes de variveis aleatrias contnuas.
Uniforme.
Dizemos que X tem uma distribuio uniforme com parmetros a e b, onde a e b so nmeros
reais e a < b, se a funo densidade de X igual a
fX (x) =
1
U (x a)U (b x).
ba
Este modelo frequentemente usado impropriamente para representar completa ignorncia sobre valores de um parmetro aleatrio sobre o qual apenas sabe-se estar no intervalo
nito [a, b]. Esta distribuio tambm frequentemente utilizada a fase de osciladores e fase
de sinais recebidos em comunicaes incoerentes.
Exponencial.
Dizemos que X tem uma distribuio Exponencial com parmetro , onde > 0 um
nmero real, se a funo densidade de X igual a
fX (x) = ex U (x).
A densidade exponencial pode ser utilizada para modelar os seguintes fenmenos: tempo
de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas
chegadas de ftons, emisses de eltrons de um ctodo, ou chegadas de consumidores; e
durao de chamadas telefnicas.
Qui-quadrado.
Dizemos que X tem uma distribuio Qui-quadrado com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
fX (x) =
xn/21 ex/2
U (x),
2n/2 (n/2)
46
onde (p) = 0 xp1 ex dx para p > 0 a funo gama. n conhecido como nmero de
graus de liberdade da distribuio Qui-quadrado.
Pode-se provar que a soma dos quadrados de n variveis aleatrias independentes com
distribuio normal padro possui uma distribuio Qui-quadrado com n graus de liberdade.
A distribuio Qui-quadrado tem inmeras aplicaes em inferncia estatstica. Por exemplo,
em testes qui-quadrados e na estimao de varincias.
Gama.
Dizemos que X tem uma distribuio Gama com parmetros e , onde > 0 e > 0 so
nmeros reais, se a funo densidade de X igual a
1 x
fX (x) =
x e U (x).
()
Pode-se provar que a soma de variveis aleatrias exponenciais com mdia 1/ tem
uma distribuio Gama. fcil ver que se = 1, temos uma distribuio exponencial com
parmetro , e se = n/2 e = 1/2 temos uma distribuio Qui-quadrado com n graus de
liberdade.
Beta.
Dizemos que X tem uma distribuio Beta com parmetros e , onde > 0 e > 0 so
nmeros reais, se a funo densidade de X igual a
fX (x) = 1
0
x1 (1 x)1
u1 (1
u)1 du
U (x)U (1 x) =
1
x1 (1 x)1 U (x)U (1 x),
B(, )
onde B(, ), para > 0, > 0, a funo beta que o fator de normalizao que garante
que fX uma densidade.
Distribuies Beta so usadas exaustivamente em Estatstica Bayesiana, pois elas so
uma famlia de distribuies a priori conjugadas para distribuies binomiais e geomtricas.
A distribuio beta pode ser utilizada para modelar eventos que tem restrio de estar em
um intervalo nito.
t de Student.
Dizemos que X tem uma distribuio t de Student com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
[(n + 1)/2]
x2 (n+1)
fX (x) =
(1 + ) 2 ,
n
[n/2] n
onde n conhecido como nmero de graus de liberdade da distribuio t de Student.
Pode-se provar que se Z tem uma distribuio normal padro, V tem uma distribuio
qui-quadrado com n graus de liberdade e Z e V forem independentes, ento Z tem uma
V /n
distribuio t de Student com n graus de liberdade. A distribuio t de Student bastante

utilizada em inferncia estatstica. Por exemplo, pode-se utiliz-la para calcular intervalos de
conana para a mdia de uma amostra quando a varincia da populao no conhecida.
3.5. VARIVEIS ALEATRIAS MULTIDIMENSIONAIS
47
Pareto.
Dizemos que X tem uma distribuio Pareto com parmetros e , onde e so nmeros
reais positivos, se a funo densidade de X igual a
fX (x) = x1 U (x ).
A distribuio de Pareto o exemplo mais fundamental de uma distribuio de cauda
pesada. Ela pode ser utilizada para modelar distribuio de riquezas; atrasos em transmisso
de pacotes; e durao sesses de Internet.
Normal ou Gaussiana.
Dizemos que X tem uma distribuio Normal (ou Gaussiana) com parmetros m e , onde
m e > 0 so nmeros reais, se a funo densidade de X igual a
(xm)2
1
fX (x) = e 22 .
2
Historicamente, esta distribuio foi chamada de normal porque ela era amplamente
aplicada em fenmenos biolgicos e sociais que era sempre tida como a distribuio antecipada ou normal. Se m = 0 e = 1, diz-se que X tem uma distribuio normal padro ou
normal reduzida. Aplicaes da distribuio normal incluem rudo trmico em resistores e em
outros sistemas fsicos que possuem um componente dissipativo; rudos de baixa-frequncia
como os em encontrados em amplicadores de baixa frequncia; e variabilidade em parmetros de componentes manufaturados e de organismos biolgicos (por exemplo, altura, peso,
inteligncia).
Cauchy.
Dizemos que X tem uma distribuio Cauchy com parmetro a > 0, se a funo densidade
de X igual a
1
a
fX (x) = 2
.
a + x2
A razo entre duas variveis aleatrias com distribuio Normal padro independentes
tem uma distribuio Cauchy com parmetro 1.
3.5
Variveis Aleatrias Multidimensionais
Muitas vezes estamos interessados na descrio probabilstica de mais de um caracterstico

numrico de um experimento aleatrio. Por exemplo, podemos estar interessados na distribuio de alturas e pesos de indivduos de uma certa classe. Para tanto precisamos estender
a denio de varivel aleatria para o caso multidimensional.
: Rn
Denio 3.5.1: Seja (, A, P ) um espao de probabilidade. Uma funo X
1 (B) A.
chamada de um vetor aleatrio se para todo evento B Boreliano de IRn , X
48
Onde um evento Boreliano em IRn se pertence a menor -lgebra que contem todas regies
da seguinte forma: Ca = {(X1 , X2 , . . . , Xn ) : Xi ai , 1 i n}.
pode-se denir uma probabilidade induzida P no esDado um vetor aleatrio X,
X
n
n
pao mensurvel (IR , B ) da seguinte maneira: para todo A B n , denimos PX (A) =
1 (A)). Por denio de vetor aleatrio, tem-se que X
1 (A) A, ento P est bem
P (X
X
denida.
3.5.1
Funo de Distribuio Acumulada Conjunta
uma maneira simples e bsica de descrever a probabilidade

Para um vetor aleatrio X,
induzida PX utilizando sua funo de distribuio acumulada conjunta.
Denio 3.5.2: A funo de distribuio acumulada conjunta de um vetor aleatrio X,

representada por FX ou simplesmente por F , denida por
FX (x) = P (Cx ) = P (X1 x1 , X2 x2 , . . . , Xn xn ), x IRn .
A funo de distribuio acumulada FX satisfaz as seguintes propriedades:
F1. Se xi yi , i n, ento FX (x) FX (y ).
xi yi i n Cx Cy P (Cx ) P (Cy ) FX (x) FX (y ).
F2. F (x1 , x2 , . . . , xn ) contnua a direita em cada uma das variveis. Por exemplo, se
ym x1 , ento
F (ym , x2 , . . . , xn ) F (x1 , x2 , . . . , xn ), quando m .
F3a. Se para algum i n xi , ento Cx decresce monotonicamente para o conjunto
vazio . Logo, pela continuidade monotnica de probabilidade, temos que
lim FX (x) = 0.
xi
F3b. Se xi , ento Cx cresce monotonicamente para o conjunto {X1 x1 , . . . Xi1

xi1 , Xi+1 xi+1 , . . . , Xn xn }, ou seja a restrio em Xi removida. Ento, podemos
escrever
lim FX (x) = FX1 ,...,Xi1 ,Xi+1 ,...,Xn (x1 , . . . , xi1 , xi+1 , . . . , xn ).
xi
Portanto, a funo de distribuio acumulada conjunta de X1 , . . . , Xn1 pode ser facilmente determinada da funo de distribuio acumulada conjunta de X1 , . . . , Xn
fazendo xn . Observe que funes de distribuio acumuladas conjuntas de ordem
maiores determinam as de ordem menores, mas o contrrio no verdadeiro. Em
particular, temos que
lim FX (x) = 1.
A funo de distribuio acumulada de Xi que se obtm a partir da funo acumulada

conjunta de X1 , . . . , Xn fazendo xj para j = i conhecida como funo de
distribuio marginal de Xi .
49
O prximo exemplo mostra que para n 2 as propriedades F1, F2, e F3 no so sucientes para que F seja uma funo de distribuio.
Exemplo 3.5.3: Seja F0 : IR2 IR uma funo denida no plano tal que F0 (x, y) = 1
se x 0, y 0, e x + y 1, e F0 (x, y) = 0, caso contrrio. claro que F1, F2, e F3 so
satisfeitas, mas F0 no funo de distribuio de nenhum vetor aleatrio (X, Y ). Se fosse,
teramos uma contradio
0 P (0 < X 1, 0 < Y 1)
= F0 (1, 1) F0 (1, 0) F0 (0, 1) + F0 (0, 0) = 1 1 1 + 0 = 1
Os tipos discretos e contnuos de variveis aleatrias tm os seguintes anlogos no caso
for um vetor aleatrio discreto, ou seja assumir um nmero enumermultivariado. (a) Se X
vel de valores {x1 , x2 . . . , }, podemos denir uma funo de probabilidade de massa conjunta,
p tal que
p(xi ) 0.
xi ) = 1.
i=1 p(
Neste caso, pode-se denir a funo probabilidade de massa marginal de Xi como sendo

pXi (xi ) =
p(x1 , . . . , xi1 , xi+1 , . . . , xn ).

x1
xi1 xi+1
xn
= (X1 , . . . , Xn ) um vetor aleatrio e F sua funo de distribuio. Se existe

(b) Seja X
uma funo f (x1 , . . . , xn ) 0 tal que
xn
x1
F (x1 , . . . , xn ) =
f (t1 , . . . , tn )dt1 . . . dtn , (x1 , . . . , xn ) IRn ,
ento f chamada de densidade conjunta das variveis aleatrias X1 , . . . , Xn , e neste caso,

(absolutamente) contnuo. Neste caso, dene-se a densidade marginal de
dizemos que X
Xi como sendo

fXi (xi ) =
f (x1 , . . . , xi1 , xi+1 , . . . , xn )dx1 . . . dxi1 dxi+1 . . . dxn .
3.5.2
Independncia entre Variveis Aleatrias.
Sejam X1 , X2 , . . . , Xn variveis aleatrias denidas no mesmo espao de probabilidade (, A, P ).

Informalmente, as variveis aleatrias Xi s so independentes se, e somente se, quaisquer
eventos determinados por qualquer grupo de variveis aleatrias distintas so independentes. Por exemplo, [X1 < 5], [X2 > 9], e 0 < X5 3 so independentes. Formalmente,
Denio 3.5.4: Dizemos que um conjunto de variveis aleatrias {X1 , . . . , Xn } mutuamente independente se, e somente se, para quaisquer eventos borelianos A1 , . . . , An ,
P (X1 A1 , . . . , Xn An ) =
P (Xi Ai ).
i=1
50
O prximo teorema estabelece trs critrios para provar que um conjunto de variveis
aleatrias mutuamente independente.
Teorema 3.5.5 : As seguintes condies so necessrias e sucientes para testar se um
conjunto {X1 , . . . , Xn } de variveis aleatrias mutuamente independente:
(a) FX (x) = ni=1 FXi (xi ).

for um vetor aleatrio discreto,
(b) Se X
pX (x) =
pXi (xi ).
i=1
for um vetor aleatrio contnuo,

(c) Se X
fX (x) =
fXi (xi ), (x1 , . . . , xn ) IRn .
i=1
Prova: Para parte (a), note que se {X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 x1 , . . . , Xn xn )
n
n
=
P (Xi xi ) =
FXi (xi ), (x1 , . . . , xn )
i=1
i=1
A prova da sucincia da parte (a) ser omitida pois envolve argumentos de teoria da
medida.
Para parte (b), se {X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento
pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
n
n
=
P (Xi = xi ) =
pXi (xi ), (x1 , . . . , xn )
i=1
i=1
Reciprocamente, se a funo de probabilidade de massa conjunta fatora e se {xi1 , xi2 , . . . , xin , . . .}

so os possiveis valores assumidos pela varivel aleatria Xi , temos que
P (X1 B1 , X2 B2 , . . . , Xn Bn ) =
P (X1 = x1i , . . . , Xn = xni )

=
i:x1i B1
i:x1i B1
i:x1i B1
i:xni Bn
pX1 ,...,Xn (x1i , . . . , xni )
i:xni Bn
n

i:xni Bn j=1
pXj (xji ) =
P (Xj Bj )
j=1
3.6. FUNES DE VARIVEIS ALEATRIAS
51
A parte (c) uma consequncia direta da parte (a) e da denio de funo de densidade.
Omitimos os detalhes.
fcil observar que utilizando, a denio de probabilidade condicional que se X e Y
so independentes, ento para todo A e B boreliano tal que P (Y B) > 0:
P (X A|Y B) = P (X A),
ou seja, se X e Y so independentes o conhecimento do valor de Y no altera a descrio
probabilstica de X.
3.5.3
Exemplos de Distribuies Multivariadas
A Distribuio Multinomial
Vamos dar o exemplo de uma distribuio conjunta de variveis aleatrias, que pode ser
considerada como uma generalizao da distribuio binomial. Considere um experimento
aleatrio qualquer e suponha que o espao amostral deste experimento particionado em k
eventos {A1 , A2 , . . . , Ak }, onde o evento Ai tem probabilidade pi . Suponha que se repita este
experimento n vezes de maneira independente e seja Xi o nmero de vezes que o evento Ai
ocorreu nestas n repeties. Ento,
P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) =
n!
pn1 1 pn2 2 pnk k ,
n1 !n2 ! nk !
onde ki=1 ni = n. (Relembre que o nmero de maneiras de arranjar n objetos, n1 dos quais
de uma espcie, n2 dos quais de uma segunda espcie, . . ., nk dos quais so de uma
k-sima espcie dado pelo coeciente multinomial n1 !n2n!!nk ! .)
A Distribuio Normal Bivariada
Dizemos que o vetor aleatrio (X, Y ) possui distribuio normal bivariada quando tem densidade dada por
f (x, y) =
21 2
1 2
exp{
1
x 1 2
x 1 y 2
y 2 2
[(
)
2(
)(
)
+
(
) ]},
2(1 2 )
1
1
2
2
onde 1 > 0, 2 > 0, 1 < < 1, 1 IR, 2 IR.

Se = 0, esta densidade fatora e temos que X e Y so independentes. Se = 0, esta
densidade no fatora e X e Y no so independentes.
3.6
Funes de Variveis Aleatrias
Muitas vezes sabemos a distribuio de probabilidade que descreve o comportamento de

uma varivel aleatria X denida no espao mensurvel (, A), mas estamos interessados
na descrio de uma funo Y = H(X). Por exemplo, X pode ser uma mensagem enviada em um canal de telecomunicaes e Y ser a mensagem recebida. Nosso problema
52
determinar P (Y A), onde A um evento Boreliano, dado PX . Para determinarmos esta

probabilidade, estaremos interessados na imagem inversas a funo H, ou seja, a probabilidade do evento {Y A} ser por denio igual a probabilidade do evento {X H 1 (A)},
onde H 1 (A) = {x IR : H(x) A}. Para que esta probabilidade esteja bem denida,
precisamos restringir H tal que H 1 (A) seja um evento boreliano para todo A boreliano,
caso contrrio no poderemos determinar P ({X H 1 (A)}); uma funo que satisfaz esta
condio conhecida como mensurvel com respeito a A e B. Note que Y tambm pode ser
vista como uma funo do espao amostral , Y () = H(X()) para todo . Visto
dessa maneira Y uma varivel aleatria denida em (, A), pois para todo boreliano A
Y 1 (A) = X 1 (H 1 (A)) e como por suposio H 1 (A) boreliano e X uma varivel
aleatria, temos que X 1 (H 1 (A)) A e portanto satisfaz a denio de uma varivel aleatria. Nesses problemas sempre til fazer um esboo do grco da transformao H para
determinarmos quais so as regies inversas H 1 (A).
Vamos primeiro tratar este problema no caso de variveis aleatrias discretas. Neste caso
para qualquer funo H, temos que Y = H(X) uma varivel aleatria discreta.
Suponha que X assuma os valores x1 , x2 , . . . e seja H uma funo real tal que Y = H(X)
assuma os valores y1 , y2 , . . .. Vamos agrupar os valores que X assume de acordo os valores de
suas imagens quando se aplica a funo H, ou seja, denotemos por xi1 , xi2 , xi3 , . . . os valores
de X tal que H(xij ) = yi para todo j. Ento, temos que
P (Y = yi ) = P (X {xi1 , xi2 , xi3 , . . .}) =
P (X = xij ) =
j=1
pX (xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente

em termos de X, isto , todos os valores xij de X tal que H(xij ) = yi e somam-se as
probabilidades de X assumir cada um desses valores.
Exemplo 3.6.1: Admita-se que X tenha os valores possveis 1, 2, 3, . . . e suponha que
P (X = n) = (1/2)n . Seja Y = 1 se X for par e Y = 1 se X for mpar. Ento, temos que
P (Y = 1) =
n=1
(1/2)2n =
(1/4)n =
n=1
1/4
= 1/3.
1 1/4
Consequentemente,
P (Y = 1) = 1 P (Y = 1) = 2/3.
de forma
Podemos estender este resultado para uma funo de um vetor aleatrio X
denotemos por xi1 , xi2 , xi3 , . . . os valores de X
tal que
anloga. Neste caso se Y = H(X),
H(xij ) = yi para todo j. Ento, temos que
{xi1 , xi2 , xi3 , . . .}) =
P (Y = yi ) = P (X
j=1
= xij ) =
P (X
pX (xij ),
j=1
ou seja, para calcular a probabilidade do evento {Y = yi }, acha-se o evento equivalente

isto , todos os valores xij de X
tal que H(xij ) = yi e somam-se as
em termos de X,
assumir cada um desses valores.
probabilidades de X
contnuo.
Vamos ver agora um exemplo no caso em que X
53
Exemplo 3.6.2: Se X U [0, 1], qual a distribuio de Y = log(X)? Como

0<Y <0<X<1
e P (0 < X < 1) = 1, temos FY (y) = 0, y 0. Se y > 0, ento
P (Y y) = P ( log(X) y) = P (X ey ) = 1 ey ,
ou seja, Y Exp(1).
Antes de prosseguirmos ao caso geral, vamos abrir um parnteses relembrar o que o
Jacobiano de uma funo.
Jacobiano de uma Funo
Dado um conjunto de n equaes em n variveis x1 , . . . , xn ,
y1 = f1 (x1 , ..., xn ), . . . , yn = fn (x1 , ..., xn ),
a matriz Jacobiana denida por
..
.
y1
x1
J = ...
yn
x1
y1
xn
..
.
yn
xn
O determinante de J chamado de Jacobiano. Pode-se provar que o mdulo Jacobiano nos

d a razo entre volumes n-dimensionais em y e x quando a maior dimenso xi tende a zero.
Deste modo, temos que o mdulo do Jacobiano aparece quando queremos mudar as varives
de integrao em integrais mltiplas, ou seja, existe um teorema do clculo que arma que
se f : G0 G for uma bijeo entre G0 e G, f e as derivadas parcias que aparecem na
matriz Jacobiana forem funes contnuas em G0 , e o Jacobiano for diferente de zero para
todo x G0
g(y1 , . . . , yn )dy1 dyn = g(f1 (x1 , ..., xn ), . . . , fn (x1 , ..., xn ))|J|dx1 dxn ,
A
f 1 (A)
para qualquer funo g integrvel em A G.

Vamos agora utilizar mudana de variveis para resolver o seguinte exemplo da soma de
duas variveis aleatrias.
Exemplo 3.6.3: Suponha que (X, Y ) tenha densidade conjunta f (x, y) e seja Z = X + Y .
Neste caso,
FZ (z) = P (Z z) = P (X + Y z) = P ((X, Y ) Bz ),
onde Bz = {(x, y) : x + y z}. Portanto,

FZ (z) =
zy
f (x, y)dxdy.
54
Fazendo a mudana de variveis s = x + y, t = y, que tem jacobiano igual a 1, temos

z
z
FZ (z) =
f (s t, t)dsdt =
f (s t, t)dtds.
Logo,
f (s t, t)dt a densidade da soma Z = X + Y , ou seja,
fZ (z) =
f (z t, t)dt =
f (s, z s)ds,
onde zemos a troca de variveis s = z t para obter a ltima expresso.

Se X e Y forem variveis aleatrias independentes com densidades fX e fY , temos que
f (x, y) = fX (x)fY (y), ento,

fX (z t)fY (t)dt =
fX (t)fY (z t)dt = fX fY ,
fZ (z) =
onde fX fY conhecida como a convoluo das densidades fX e fY .

Vamos agora descrever o mtodo do Jacobiano para funes mais gerais H. Suponha que
G0 IRn , G IRn sejam regies abertas, e que H : G0 G seja uma bijeo entre G0 e G.
= H 1 Y . Suponha ainda que f
Logo, existe a funo inversa H 1 em G, de modo que X
e que P (X
G0 ) = 1. Se as derivadas parciais de H 1 existirem
a densidade conjunta de X
e o Jacobiano J de H 1 for diferente de zero para todo y G, podemos utilizar o teorema
da mudana de variveis e obter que para B G, B boreliano, temos
P (Y B) = P (X H (B)) = f (x1 , . . . , xn )dx1 dxn
H 1 (B)
f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J|dy1 dyn .
H 1 (G)) = P (X
G0 ) = 1, temos que para todo boreliano
Como P (Y G) = P (X
n
B no IR ,
P (Y B) = P (Y B G) = f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J|dy1 dyn .

BG
Esta ltima integral igual a integral sobre o conjunto B da funo que toma o valor
f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J| para y G, e zero no caso contrrio. Portanto,
pela denio de densidade temos que
{
f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J|, se y G,
fY (y1 , . . . , yn ) =
0,
caso contrrio.
Observao 3.6.4:
55
(a) Note que J o Jacobiano da funo inversa H 1 , em alguns casos pode ser til obter
J a partir do Jacobiano J da funo H atravs da relao J = J1 |x=H 1 (y) .
quando a dimenso de Y menor que a
(b) Para obter a distribuio de Y = H(X)
muitas vezes possvel denir outras variveis aleatrias Y , . . . , Y ,
dimenso de X
1
m
utilizar o mtodo do Jacobiano para determinar a densidade conjunta de Y , Y1 , . . . , Ym
e, nalmente, obter a densidade marginal conjunta de Y . Considere o seguinte exemplo:
Exemplo 3.6.5: Suponha que X1 , X2 tem densidade conjunta dada por f (x, y) e
que estamos interessados na distribuio de Y1 = X12 + X2 . Como esta no uma
transformao 1-1, ela no possui inversa. Vamos denir uma nova varivel Y2 = X1
de modo que a funo (Y1 , Y2 ) = H(X1 , X2 ) = (X12 + X2 , X1 ) possua uma funo
inversa diferencivel, (X1 , X2 ) = H 1 (Y1 , Y2 ) = (Y2 , Y1 Y22 ). Deste modo temos que
(
) (
)
x1
x1
0
1
y1
y2
J = det x2 x2
=
= 1
1 2y2
y1
y2
Ento temos que, fY1 ,Y2 (y1 , y2 ) = f (y2 , y1 y22 ). Finalmente, para encontrarmos fY1
integramos sobre todos os possveis valores da varivel Y2 que introduzimos:

fY1 =
f (y2 , y1 y22 )dy2 .
(c) Podemos utilizar o mtodo do Jacobiano em outros casos em que a funo H no

1-1. Para tanto, suponha que G, G1 , . . . , Gk sejam subregies abertas do IRn tais que
ki=1 Gi ) = 1, tais que a funo H|G , a restrio
G1 , . . . , Gk sejam disjuntas e P (X
l
de H a Gl , seja um correspondncia 1-1 entre Gl e G, para l = 1, . . . , k. Suponha que
para todo l, a funo inversa de H|Gl satisfa as hipteses do caso anterior, e seja Jl o
Jacobiano da inversa de H|Gl . Pode-se provar que
{ k
1
y G,
l=1 f (H|Gl (y1 , . . . , yn ))|Jl |, se
fY (y1 , . . . , yn ) =
0,
caso contrrio.
Captulo 4
Esperana e Momentos de Variveis
Aleatrias
4.1
O Conceito de Esperana
O conceito de Esperana ou Valor Esperado de uma varivel aleatria X, ou a mdia

to antigo quanto o prprio conceito de probabilidade. Na verdade, at possvel denir
probabilidade em termos de esperana, mas esta no uma maneira comum de se apresentar
a teoria. Existem quatro tipos de interpretaes da Esperana:
1. Parmetro m de uma medida de probabilidade, funo de distribuio, ou funo
probabilidade de massa, tambm conhecido como mdia.
2. Um operador linear em um conjunto de variveis aleatrias que retorna um valor tpico
da varivel aleatria interpretado como uma medida de localizao da varivel aleatria.
3. mdia do resultado de repetidos experimentos independentes no longo prazo.
4. preo justo de um jogo com pagamentos descritos por X.
4.2
Denio da Esperana - Caso Discreto
Vamos motivar a denio de esperana considerando o clculo do resultado mdio de 1000

lanamentos de um dado. Uma maneira de calcular este resultado mdio seria somar todos
os resultados e dividir por 1000. Uma maneira alternativa seria calcular a frao p(k) de
todos os lanamentos que tiveram resultado igual a k e calcular o resultado mdio atravs
da soma ponderada:
1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6).
Quando o nmero de lanamentos se torna grande as fraes de ocorrncia dos resultados
tendem a probabilidade de cada resultado. Portanto, em geral denimos a esperana de
uma varivel discreta como uma soma ponderada onde as probabilidades so os pesos de
ponderao.
56
4.2. DEFINIO DA ESPERANA - CASO DISCRETO
57
Denio 4.2.1: Se X uma varivel aleatria discreta assumindo valores {x1 , x2 , x3 , . . .}

com probabilidade {p1 , p2 , p3 , . . .}, respectivamente, ento sua esperana dada pela frmula
EX =
xi pi +
xi pi ,
i:xi <0
i:xi 0
desde que pelo menos um dos somatrios seja nito. Em caso os dois somatrios no sejam
nitos, a esperana no existe.
Exemplo 4.2.2: Considere uma varivel aleatria X tal que: P (X = 1) = 0.25, P (X =
0) = 0.5 e P (X = 2) = 0.25. Ento,
EX = 1(0.25) + 0(0.5) + 2(0.25) = 0.25.
Exemplo 4.2.3: Considere uma varivel aleatria X tal que: P (X = a) = P (X = a) =
1/2. Ento,
EX = a(0.5) + a(0.5) = 0.
Note ento que muitas variveis aleatrias diferentes podem ter o mesmo valor esperado
ou esperana. ( s variar o valor de a no exemplo anterior.)
Exemplo 4.2.4: Aleatria. Se X {1, 2, . . . , n} for uma varivel aleatria com distribuio de probabilidade aleatria com parmetro n, temos que sua esperana dada por:
EX =
k=1
kp(k) =
n
n
1
1 n(n + 1)
1
n+1
k =
k=
=
.
n
n
n
2
2
k
k
Onde utilizamos a frmula da soma dos primeiros n termos de uma progresso aritmtica.
Exemplo 4.2.5: Bernoulli. Se X {0, 1} for uma varivel aleatria com distribuio de
probabilidade Bernoulli com parmetro p, temos que sua esperana dada por:
EX = 0(1 p) + 1(p) = p.
Exemplo 4.2.6: Binomial. Se X for uma varivel aleatria com distribuio de probabilidade Binomial com parmetros n e p, temos que sua esperana dada por:
( )
n
n
n k
n!
nk
pk (1 p)nk
EX =
k
p (1 p)
=
k
k
k!(n k)!
k=0
k=1
)
n
n (
(n 1)!
n 1 k1
k
nk
n
p (1 p)
= np
p (1 p)nk = np.
k
1
(k
1)!(n
k)!
k=1
k=1
Onde utilizamos o Teorema Binomial na ltima igualdade.
4.2. DEFINIO DA ESPERANA - CASO DISCRETO
58
Exemplo 4.2.7 : Geomtrica. Se X for uma varivel aleatria com distribuio de

probabilidade Geomtrica com parmetro , temos que sua esperana dada por:
EX =
k(1 ) k =
k=0
= (1 )
j=1 k=j
k =
k=1
k(1 ) k =
j =
j=1
(1 ) k
k=1 j=1
Onde utilizamos a frmula da soma innita de uma progresso geomtrica com razo .
Exemplo 4.2.8: Binomial Negativa. Se X for uma varivel aleatria com distribuio
de probabilidade Binomial Negativa com parmetros r e p, temos que sua esperana dada
por:
(
)
(
)
k
k
r
kr+1
EX =
k
p (1 p)
=(
(k + 1)
pr (1 p)kr+1 ) 1
r
1
r
1
k=r1
k=r1
=(
(k + 1)k!
pr (1 p)kr+1 ) 1
(r
1)!(k
r
+
1)!
k=r1
(k + 1)!
r
= (
pr+1 (1 p)k+1r ) 1
p k=r1 r!(k + 1 r)!
Substituindo j = k + 1 e s = r + 1 no somatrio, temos
(j)!
r
r
EX = (
ps (1 p)js+1 ) 1 = 1
p j=s1 (s 1)!(j s + 1)!
p
Onde utilizamos o fato que o somatrio igual soma da funo probabilidade de massa
de uma varivel aleatria Binomial Negativa para todos os valores que tem probabilidade
positiva, e portanto, igual a 1.
Exemplo 4.2.9: Poisson. Se X for uma varivel aleatria com distribuio de probabilidade Poisson com parmetros , temos que sua esperana dada por:
e k e k
e k1
EX =
k
=
k
=
= .
k!
k!
(k
1)!
k=0
k=1
k=1
Exemplo 4.2.10: Zeta. Se X for uma varivel aleatria com distribuio de probabilidade
Zeta com parmetro > 2, temos que sua esperana dada por:
1 (1) ( 1)
k
=
,
k
=
EX =
k
()
()
()
k=1
k=1
onde () =
k=1
k .
4.3. AS INTEGRAIS DE RIEMMAN-STIELTJES E DE LEBESGUE-STIELTJES
59
Exemplo 4.2.11: Hipergeomtrica. Se X for uma varivel aleatria com distribuio

de probabilidade Hipergeomtrica com parmetro N, D, n, temos que sua esperana dada
por:
(D)(N D)
n
n
D!(N D)!(N n)!n!

k
nk
EX =
k (N )
=
k!(D k)!(n k)!(N D n + k)!N !
n
k=0
k=1
(D1)(N D)
n
n
nD
(D 1)!(N D)!(N n)!(n 1)!
nD k1 nk
(N 1)
=
=
N k=1 (k 1)!(D k)!(n k)!(N D n + k)!(N 1)!
N k=1
n1
Substituindo no somatrio D = D 1, k = k 1, n = n 1 e N = N 1, temos
(D )(N D )
n
nD k n k
nD
(N )
=
EX =
.
N k =0
N
n
Onde utilizamos o fato que o somatrio igual soma da funo probabilidade de massa de
uma varivel aleatria Hipergeomtrica para todos os valores que tem probabilidade positiva,
e portanto, igual a 1.
Antes de introduzirmos a denio geral da Esperana de uma varivel aleatria qualquer,
vamos estudar um pouco sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes.
4.3
As integrais de Riemman-Stieltjes e de LebesgueStieltjes
Antes de darmos as denies das integrais de Riemman-Stieltjes e Lebesgue-Stieltjes, vamos

relembrar a denio da integral de Riemann. Uma partio P do intervalo [a, b] uma
seqncia de pontos {x1 , . . . , xn } tal que a = x1 < x2 < < xn = b; a norma da partio P
denida como sendo max1in1 xi+1 xi . Suponha que seja uma funo real qualquer
denida no intervalo [a, b]. Diz-se que esta funo Riemann integrvel se as somas de
Riemann
n1
(yi )(xi+1 xi ),
i=1
onde yi [xi , xi+1 ], convergem quando a norma de P tende a zero e este limite independente
b
da escolha dos yi s e da partio P . Se esta integral existe denota-se o limite por a (x)dx.
A integral de Riemann-Stieltjes uma generalizao de integral de Riemann. Se
uma funo contnua denida no intervalo [a, b] e F uma funo de distribuio, dene-se
a integral de Riemann-Stieltjes de em [a, b], em relao a F , como o limite de somas de
Riemann da forma
n1
(yi )[F (xi+1 ) F (xi )],

i=1
60
onde a = x1 < x2 < < xn = b, yi um ponto arbitrrio de [xi , xi+1 ], e toma-se o limite
quando a norma de partio P tende a zero. Tal limite existe e nito sob as condies
descritas, e representado por
(x)dF (x).
a
A funo chamada de integrando e F de integrador. O limite acima existe mesmo que

F no seja uma funo de distribuio basta que ela seja de variao limitada.
Denio 4.3.1: Dene-se variao total de uma funo f em [a, b] pelo funcional:
V (f, [a, b]) = sup
|f (xi+1 ) f (xi )|,
i=1
onde o supremo tomado sobre todas as possveis parties do intervalo fechado [a, b]. Uma
funo de variao limitada se V (f, [a, b]) < .
A integral de Rieman-Stieltjes sobre a reta uma integral imprpria denida da mesma
maneira que a integral imprpria de Riemann:

b
(x)dF (x) =
lim
(x)dF (x),
a,b
se o limite existe. Esta denio da integral de Riemann-Stietjes pode ser estendida a outras
b
funes alm das contnuas. Para uma funo qualquer , dene-se a (x)dF (x) como
sendo o limite das somas de Riemann descritas acima quando a norma da partio tende a
zero, se este limite existe e independente das escolhas dos yi s e da partio P . O problema
que mesmo para funes bem simples este limite pode no existir como mostra o prximo
exemplo:
Exemplo 4.3.2: Seja F0 (x) = 1 se x 0, e F0 (x) = 0, caso contrrio. Consideremos a
integral de Riemann-Stieltjes de F0 em [1, 1] em relao a F0 . Note que se zero no um
dos pontos da partio, de modo que xi < 0 < xi+1 para algum i, com F0 (xi+1 ) F0 (xi ) = 1,
ento o somatrio assume como valor escolhido para yi ser maior que 0, ou no.
Uma integral mais robusta que no sofre desta decincia a integral de LebesgueStieltjes. A idia da integral de Lebesgue-Stieltjes particionar a imagem da funo ao
invs de particionar o seu domnio. Diz-se que uma partio P um renamento de P
se P P , ou seja, quando os intervalos da partio P so particionados na partio P .
Suponha que seja no negativa e mensurvel em relao a -lgebra de Borel. Seja for
uma medida nos reais, ou seja, uma funo cujo domnio a -lgebra de Borel que tem como
imagem do conjunto vazio zero, no-negativa e -aditiva. Dada uma seqncia {P1 , P2 , . . .}
de parties de [0, ) onde Pn = {y1 , y2 , . . . , yn }, yn , Pi+i um renamento de Pi ,
e a norma de Pn tende a zero quando n , dene-se a soma de Lebesgue em relao a
partio Pn como sendo,
n1
yi ({x : yi (x) < yi+1 }) + yn ({x : (x) yn }).
i=1
61
A integral de Lebesgue-Stieltjes de em relao a denida como sendo igual ao limite

das somas de Lebesgue, quando n . Dadas as condies acima este limite sempre existe
(pode ser +) e denotado por d.
Para uma funo mensurvel qualquer, podemos escrever = + , onde + =
max(, 0), a parte positiva de , e = min(, 0), o mdulo da parte negativa de , so
funes no-negativas e portanto possuem integral de Lebesgue-Stieltjes. Se + ou possui
integral de Lebesgue-Stieltjes nita em relao a , dene-se a integral de Lebesgue-Stieltjes
de em relao a como sendo
+
d = d d.
Se for uma medida de probabilidade em (IR, B) e F for a distribuio de probabilidade acumulada associada
a varivel aleatria
X() = , ento escreve-se (x)dF (x)
(ou simplesmente, dF ) para denotar d. Em geral, usa-se a notao (x)dF (x)

no somente para funes de distribuio, mas para qualquer funo F que pode ser escrita como a diferena de duas funes montonas no-decrescentes, limitadas e contnuas
direita. Se G for uma funo montona no-decrescente, limitada e contnua direita,
ento dado
um intervalo qualquer I = [x1 , x2], dena (I) = G(x2 ) G(x1 ), ento usa-se a
notao (x)dG(x) para denotar a integral (x)d, onde a nica medida que satisfaz
(I) = G(x2 ) G(x1 ) para todo intervalo I. Desta forma, se F = G1 G2 , onde
G1 e G2
so funes montonas no-decrescentes,
limitadas e contnuas direita, ento (x)dF (x)

utilizado para denotar (x)dG1 (x) (x)dG2 (x).
Dada um intervalo qualquer [a, b], dene-se a integral de Lebesgue-Stieltjes de em
b
relao a no intervalo [a, b] como sendo I[a,b] d e denota-se por a d.
4.3.1
Propriedades da Integral de Lebesgue-Stieltjes
P1. Quando o integrando contnuo, a integral de Lebesgue-Stieltjes torna-se uma integral

de Riemman-Stieltjes.
b
b
P2. a dF = F (b) F (a). Anloga ao teorema fundamental do clculo: a (x)dx =
(b) (a), onde (x) a derivada de .
P3. Linearidade no integrando e no integrador. Se (x) = f (x) + g(x), temos
dF = f dF + gdF,
e para H(x) = F (x) + G(x), temos
dH = dF + dG.
P4. Aditividade. Se a < b < c , ento
c
b
c
dF =
dF +
dF.
a
4.4. DEFINIO DA ESPERANA - CASO GERAL
62
P5. Se F for a funo de distribuio de uma varivel aleatria discreta, ou seja, se

F (x) =
pi U (x xi ),
i=1
onde P (X = xi ) = pi e
i=1
pi = 1, ento
dF =
pi (xi ).
i=1
P6. Se F for a funo de distribuio de uma varivel aleatria contnua, tendo densidade
f , temos dFdx(x) = f (x) em quase toda parte, e conseqentemente,
(x)dF (x) = (x)f (x)dx.

P7. No caso de uma distribuio geral F , vimos que F pode ser decomposta em suas partes
discreta, contnua e singular da seguinte forma F = Fd +Fac +Fs , ento por linearidade
do integrador:
(x)dF (x) = (x)dFd (x) + (x)dFac (x) + (x)dFs (x).

Se a parte singular for nula, Fs (x) = 0, x, ento:
(x)dF (x) =
(xi )pi + (x)f (x)dx,
i
onde pi o salto de F em xi e f a derivada de F .
4.4
Denio da Esperana - Caso Geral
Vamos agora motivar a denio da Esperana no caso geral. Consideremos uma seqncia
{P1 , P2 , . . .} de parties de [0, ) onde Pn = {y1 , y2 , . . . , yn }, yn , Pi+i um renamento de Pi , e a norma de Pn tende a zero quando n . Dada uma varivel aleatria
no-negativa qualquer X e uma partio Pn desta seqncia, denamos uma outra varivel
aleatria Y discreta que aproxima
X assumindo o valor yi quando yi X < yi+1 e Y = yn
y
I
se X yn , ou seja, Y = n1
i=1 i [yi X<yi+1 ] + yn I[Xyn ] . Como Y discreta temos que sua
esperana dada por
EY =
i=1
yi P (Y = yi ) =
n1
yi P (yi X < yi+1 ) + yn P (X yn ).
i=1
Note que esta esperana uma soma de Lebesgue em relao a partio Pn com integrando X
e funo integradora dada pela medida de probabilidade P . Note que a medida que pegamos
63
parties mais renadas na seqncia, Y se torna cada vez uma melhor aproximao para
X. J que os valores de X e Y cam cada vez mais prximos intuitivo requerer que nossa
denio de esperana (mdia) EX seja igual ao limite de EY quando n , ou seja
EX = lim
i=1
yi P (Y = yi ) = lim
n1
yi P (yi X < yi+1 ) + yn P (X yn ) =
XdP.
i=1
Logo, EX denida como sendo a integral de Lebesgue-Stieltjes

de X em relao a medida
de probabilidade P , ou similarmente, EX = XdF , onde F a funo de distribuio

acumulada de X. No caso geral, temos a seguinte denio
Denio 4.4.1: Se X uma varivel aleatria com funo de distribuio F , ento sua
esperana dada pela frmula

0
XdF,
XdF +
EX = XdF =
desde que pelo menos uma das integrais seja nita. Em caso as duas integrais no sejam
nitas, a esperana no existe. Caso EX seja nita, diz-se que X integrvel.
Pela Propriedade P7 da integral de Lebesgue-Stieltjes, temos que se F = Fd + Fac + Fs ,
ento
EX = XdF =
xi pi + xf (x)dx + xdFs (x),
i
onde pi o salto de F em xi e f a derivada de F . Como a parte singular costuma ser

nula, na prtica a esperana reduz-se a uma srie e/ou uma integral imprpria, usualmente
de Riemann se f for integrvel a Riemann.
Exemplo 4.4.2: Considere uma varivel aleatria Y com funo de distribuio F , tal que
0 , se x < 0
x , se 0 x < 1/2
F (x) =
1 , se x 1/2.
Decompondo em parte discreta e contnua tem-se
{
0
, se x < 1/2
Fd (x) =
1/2 , se x 1/2,
e
, se x < 0
0
x
, se 0 x < 1/2
Fac (x) =
1/2 , se x 1/2.
Portanto,
1
1
EY = P (Y = ) +
2
2
1/2
ydy =
0
1 1
3
+ = .
4 8
8
64
Exemplo 4.4.3: Uniforme. Se X U (a, b), ento X possui densidade igual a f (x) =
se x (a, b), e f (x) = 0, caso contrrio. Logo, temos que sua esperana dada por:
b
x
a+b
EX =
dx =
.
2
a ba
1
ba
Exemplo 4.4.4 : Exponencial. Se X Exp(), ento X possui densidade igual a

fX (x) = ex U (x). Logo, temos que sua esperana dada por:

ex 1
x
x
EX =
xe dx = xe |0 +
ex dx =
| = .
0
0
0
Normal. Se X N (m, ), ento X possui densidade igual a fX (x) =
Exemplo 4.4.5:
1 e
2
(xm)2
2 2
. Logo, temos que sua esperana dada por:
EX =
(xm)2
1
x e 22 dx.
2
Fazendo a mudana de varivel y = xm

, temos

y + m y2
y y2
m y2
2
2
e dy +
e 2 dy = 0 + m = m.
EX =
e dy =
2
2
2
Exemplo 4.4.6: Cauchy. Se X Cauchy(a), ento X possui densidade igual a fX (x) =

1
a . Neste caso X no integrvel, ou seja EX no est denida, pois:
a2 +x2
4.4.1
x
a
2
dx = , e
a + x2
x
a
2
dx = .
a + x2
Interpretao Geomtrica da Esperana
Por denio, EX = xdF (x), ou seja, EX a integral da diferencial xdF . Mas xdF
uma diferencial de rea. Para x > 0, xdF uma diferencial da rea da regio compreendida
entre
as curvas x = 0, y = 1, e y = F (x) no plano Euclideano, cuja rea total dada por
(1 F (x))dx. Para x < 0, xdF uma diferencial da rea da regio compreendida
0
entre
(x) no plano Euclideano,
cuja rea total dada por
0 as curvas x = 0, y = 0, e y = F
0
F (x)dx. Logo, temos que EX = 0 (1F (x))dx F (x)dx. Formalmente, podemos
provar isso da seguinte maneira. A prova ser dividida em duas etapas: (a) 0 xdF (x) =
0
0
(1 F (x))dx e (b) xdF (x) = F (x)dx. Comecemos provando (b). Utilizando
0
integrao por partes, temos que a < 0,
0
0
0
xdF (x) = aF (a)
F (x)dx =
[F (a) F (x)]dx.
a

Como F (a) 0 e a < 0, temos
xdF (x)
a
65
F (x)dx.
a
Como a desigualdade vlida para todo a < 0, temos que tomando o limite quando a
0
0
xdF (x)
F (x)dx.
Por outro lado, seja < 0. Se a < , ento
0
0
[F (a) F (x)]dx = F (a)()
[F (a) F (x)]dx
F (x)dx,
e portanto, tomando o limite quando a , temos que

0
0
xdF (x)
F (x)dx.
Como isto vlido para todo < 0, tomando o limite quando , temos
0
0
xdF (x)
F (x)dx,
como queramos demonstrar.

Para parte (a), utilizando integrao por partes, temos que b > 0,
b
b
b
xdF (x) = bF (b)
F (x)dx =
[F (b) F (x)]dx.
0
Como F (b) 1 e 1 F (x) 0, temos

b
b
xdF (x) =
[F (b) F (x)]dx
0
[1 F (x)]dx.
Como a desigualdade vlida para todo b > 0, temos que tomando o limite quando b

xdF (x)
[1 F (x)]dx.
0
Por outro lado, seja > 0. Se b > , ento

b

[F (b) F (x)]dx
[F (b) F (x)]dx =
[F (b) 1]dx +
[1 F (x)]dx
0
0
0
0

= [F (b) 1] +
[1 F (x)]dx,
0
e portanto, tomando o limite quando b , temos que

xdF (x)
[1 F (x)]dx.
0
Como isto vlido para todo > 0, tomando o limite quando , temos

xdF (x)
[1 F (x)]dx,
0
como queramos demonstrar.

4.5. ESPERANA DE FUNES DE VARIVEIS ALEATRIAS
4.5
66
Esperana de Funes de Variveis Aleatrias
Vamos iniciar considerando o caso discreto.
4.5.1
Caso Discreto
Como vimos anteriormente, se X for uma varivel aleatria discreta e se Y = H(X), ento
Y tambm ser uma varivel aleatria discreta. Conseqentemente, pode-se calcular EY .
Existem duas maneiras de calcular EY que so equivalentes.
Denio 4.5.1: Seja X uma varivel aleatria discreta e seja Y = H(X). Se Y assumir
os seguintes valores y1 , y2 , . . . e se p(yi ) = P (Y = yi ), denimos:
EY =
yi p(yi ).
i=1
Conforme vimos no captulo anterior podemos determinar as probabilidades p(yi ) dado

que sabemos a distribuio de X. No entanto, podemos encontrar EY sem preliminarmente
encontrarmos a distribuio de probabilidade de Y , partindo-se apenas do conhecimento da
distribuio de probabilidade de X, conforme mostra o seguinte teorema.
Teorema 4.5.2: Seja X uma varivel aleatria discreta assumindo os valores x1 , x2 , . . . e
seja Y = H(X). Se p(xi ) = P (X = xi ), temos
EY = E(H(X)) =
H(xi )p(xi ).
i=1
Prova: Vamos re-ordenar o somatrio i=1 H(xi )p(xi ), agrupando os termos onde xi tem
a mesma imagem de acordo com a funo H, ou seja, sejam xi1 , xi2 , . . ., todos os valores xi
tal que H(xij ) = yi para j 1, onde y1 , y2 , . . . so os possveis valores de Y . Desse modo
podemos reescrever
H(xi )p(xi ) =
i=1
H(xij )p(xij ) =
i=1 j=1
yi
i=1
p(xij ) =
j=1
yi p(yi ) = EY.
i=1
Exemplo 4.5.3: Suponha que X uma varivel aleatria Poisson com parmetro . Seja
Y = X 2 , vamos calcular EY . Utilizando o Teorema 4.5.2, temos
EY =
=
k
2
k e
k=0
k=2
k!
k=1
k e
k!
k=1
k(k 1)e
k!
k=1
ke
k
k!
k2
+ = 2 + .
(k 2)!
Tambm podemos estender este resultado para o caso

de uma funo real de um vetor
temos que EY = H(
aleatrio. Neste caso, se Y = H(X),
xi )pX (
xi ), onde os xi so os
i
valores assumidos pelo vetor aleatrio X.

4.6. PROPRIEDADES DA ESPERANA
4.5.2
67
Caso Geral
No caso de uma varivel aleatria qualquer X tambm podemos calcular a esperana de uma
funo Y = (X) de forma similar.
Teorema 4.5.4: Seja X uma varivel aleatria qualquer, Y = (X) uma outra varivel
aleatria, ento
EY = ydFY (y) = (x)dFX (x),

desde que estas integrais existam.
Prova: A prova no caso geral envolve Teoria da Medida e ser omitida.
Uma frmula anloga tambm vlida quando consideramos funes de vetores aleatrios.
um vetor aleatrio e Y = (X)
uma varivel aleatria. Ento,
Teorema 4.5.5: Seja X
EY = ydFY (y) = dFX .
4.6
Propriedades da Esperana
As seguintes propriedades so aplicaes imediatas da denio de esperana:

1. P (X = c) = 1 EX = c.
2. P (X 0) = 1 EX 0.
3. E(aX) = aEX, onde a um nmero real qualquer. Esta propriedade segue facilmente
da expresso da esperana de uma funo de varivel aleatria.
4. E(X + Y ) = EX + EY . No caso discreto, note que
E(X + Y ) =
(xi + yj )p(xi , yj ) =
xi
p(xi , yj ) +
yj p(xi , yj )
=
xi p(xi ) +
yj
p(xi , yj ) = EX +
yj p(yj ) = EX + EY.
No caso geral, temos que

E(X + Y ) = E((X, Y )) =
(x + y)dFX,Y (x, y),
e pela linearidade da integral obtemos

E(X + Y ) =
xdFX,Y (x, y) +
ydFX,Y (x, y) = EX + EY.

Corolrio 4.6.1: E(
n
i
ai Xi ) =
n
i
68
ai EXi .
Prova: Aplicao das duas propriedades anteriores e induo matemtica.

5. P (X Y ) = 1 EX EY . Propriedade 5 segue da propriedades 2 e do corolrio
anterior, pois
P (X Y ) = P (X Y 0),
o que, pela propriedade 2, implica que E(X Y ) 0. Pelo corolrio, temos que
E(X Y ) = EX EY , ou seja podemos concluir que EX EY 0.
n
6. Se
n{X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento E( i=1 Xi ) =
i=1 EXi . Provaremos esta propriedade nos casos discreto e contnuo. No caso discreto, note que
n

E( Xi ) =
xi1 xin p(xi1 , . . . , xin )

i=1
i1
i1
in
xi1 xin
in
p(xij ) =
j=1
xi1 p(Xi1 )
i1
No caso contnuo, temos que fX (x) =
n
i=1
xin p(xin ) =
in
EXi .
i=1
fXi (xi ), logo
E( Xi ) = x1 xn fX (x)dx1 dxn
i=1
xi fXi (xi )dx1 dxn =
i=1
xi fXi (xi )dxi =
EXi .
i=1
i=1
De maneira anloga, pode-se provar a seguinte generalizao deste

se {X1 , . . . , Xn }
n resultado:
so variveis aleatrias mutuamente independentes, ento E( i=1 G(Xi )) = ni=1 EG(Xi ).
7. Se Y for uma varivel aleatria que assume valores inteiros no-negativos, temos que
EY =
kP (Y = k) =
k=1
P (Y = k),
k=1 j=1
trocando a ordem dos somatrios:

EY =
j=1 k=j
P (Y = k) =
P (Y j).
j=1
8. (Desigualdade de Jensen) Seja uma funo mensurvel e convexa denida na reta.

Se X integrvel, ento E(X) (EX).
69
Prova: Pela convexidade de , dado algum ponto (x0 , (x0 ) do grco de , existe
uma reta que passa por esse ponto e ca sempre abaixo do grco de , ou seja, existe
algum tal que
(x) (x0 ) + (x x0 ), x.
Logo, pela monotonicidade e linearidade da esperana, temos
E(X) (x0 ) + (EX x0 ).
Em particular, para x0 = EX, temos E(X) (EX).
O prximo Lema estabelece um critrio para integrabilidade de variveis aleatrias.
Lema 4.6.2: Seja X uma varivel aleatria qualquer. Ento,
P (|X| n) E|X| 1 +
n=1
e, portanto, X integrvel se, e somente se,
n=1
P (|X| n),
n=1
P (|X| n) < .
Prova: Se x 0, seja x a parte inteira de x. Ento, a varivel aleatria |X| assume o

valor k quando k |X| < k + 1 e 0 |X| |X| |X| + 1, ento pela monotonicidade
e linearidade da esperana temos:
0 E|X| E|X| 1 + E|X|.
Como |X| uma varivel aleatria que s assume valores inteiros no-negativos, temos
E|X| =
P (|X| n) =
n=1
logo
n=1
P (|X| n) E|X| 1 +
P (|X| n),
n=1
P (|X| n).
n=1
Se X + = max(X, 0) e X = min(X, 0), temos que X = X + X e |X| = X + + X .

Por denio, temos que EX < se, e somente se, EX + < e EX < . Portanto,
vemos que EX < se, e somente se, E|X| < . De forma anloga, pode-se concluir que
E(X) < se, e somente se, E|(X)| < para qualquer funo mensurvel . O prximo
teorema nos d um outro critrio para integrabilidade de uma varivel aleatria.
Teorema 4.6.3 : Sejam X e Y variveis aleatrias tais que Y 0, Y integrvel, e
|X| < Y . Ento, X integrvel.
Prova: Note que 0 |X| Y implica que 0 E|X| EY . Portanto, se EY < , temos
que E|X| < , o que por sua vez implica que EX < .
4.7. MOMENTOS
4.7
70
Momentos
Momentos do informaes parciais sobre a medida de probabilidade P , a funo de distribuio acumulada, ou a funo probabilidade de massa de uma varivel aleatria X. Momentos
de X so esperanas de potncias de X.
Denio 4.7.1: Para qualquer inteiro no-negativo n, o n-simo momento da varivel
aleatria X EX n , se esta esperana existe.
Na seo anterior, vimos que o segundo momento de uma varivel aleatria Poisson com
parmetro dado por: 2 + . Vamos agora calcular o segundo momento de uma varivel
aleatria X Binomial com parmetros n e p:
( )
n
n
n!
2
2 n
k
nk
EX =
k
p (1 p)
=
k2
pk (1 p)nk =
k
k!(n
k)!
k=0
k=1
n
n!
n!
pk (1 p)nk +
k
pk (1 p)nk
k!(n k)!
k!(n k)!
k=1
k(k 1)
k=1
n(n 1)p
k=2
= n(n 1)p
(n 2)!
pk2 (1 p)nk + np
(k 2)!(n k)!
j=0
(m)!
pj (1 p)mj + np = n(n 1)p2 + np.
(j)!(m j)!
Teorema 4.7.2: Se o k-simo momento de uma varivel aleatria existir, ento todos os
momentos de ordem menores do que k tambm existem.
Prova: Por hiptese, temos que E|X k | < , logo E(1 + |X k |) < . Como para qualquer
j tal que 0 < j < k, |X j | 1 + |X k |, e 1 + |X k | integrvel, temos que |X j | tambm
integrvel.
Vamos agora enunciar dois teoremas importantes que tratam da convergncia de esperanas de variveis aleatrias. Neste caso, estaremos tratando de convergncia pontual de
variveis aleatrias, ou seja, Xn X se, e somente se, Xn (w) X(w) para todo w .
No prximo captulo, veremos outras noes de convergncia de variveis aleatrias.
Teorema 4.7.3: Teorema da Convergncia Montona. Sejam X, X1 , X2 , . . . variveis
aleatrias. Se 0 Xn X, ento, EXn EX.
Teorema 4.7.4: Teorema da Convergncia Dominada. Sejam Y, X, X1 , X2 , . . . variveis aleatrias. Considere que Y seja integrvel, |Xn | Y e Xn X. Assim X e Xn so
integrveis e EXn EX.
O prximo exemplo mostra que nem sempre Xn X EXn EX.
Exemplo 4.7.5: Seja Y U (0, 1). Considere a seguinte seqncia {X1 , X2 , . . .} de variveis aleatrias: Xn () = n se Y () (0, 1/n) e Xn () = 0 em caso contrrio. Ento, temos
que Xn () 0, . Mas, EXn = 1 = 0 = E0, ou seja, EXn 9 0.
4.7. MOMENTOS
4.7.1
71
Momentos Centrais
Denio 4.7.6: Se X uma varivel aleatria seu n-simo momento central : E(X
EX)n , se esta esperana existir.
Note que o primeiro momento central zero, pois E(X EX) = EX EEX = EX
EX = 0. O segundo momento central conhecido como varincia e denota-se por V arX.
A varincia pode ser tambm calculada por:
V arX = E(X EX)2 = E(X 2 2XEX + (EX)2 ) = EX 2 2E(XEX) + E((EX)2 )
= EX 2 2(EX)2 + (EX)2 = EX 2 (EX)2 .
Do Teorema Binomial e da linearidade da esperana, temos
n ( )
n
E(X EX) =
(EX)nk EX k
k
k=0
n
e
EX = E(X EX + EX) =
n
n ( )
n
k=0
(EX)nk E(X EX)k .
Como um corolrio, temos que o n-simo momento central existe se, e somente se, o
n-simo momento existe.
Exemplo 4.7.7: Considere uma varivel aleatria X tal que
P (X = m a) = P (X = m + a) =
1
1
EX k = [(m a)k + (m + a)k ].
2
2
1
EX = m, EX 2 = [2m2 + 2a2 ] = m2 + a2 , V arX = a2 .
2
Este exemplo, mostra que podemos encontrar uma varivel aleatria bem simples possuindo
qualquer esperana e varincia predeterminadas.
O desvio-padro de uma varivel aleatria X denido como a raiz quadrada da
varincia, (X) = V arX.
Propriedades da Varincia e de outros Momentos
As seguintes propriedades da varincia so conseqncias imediatas de sua denio.
1. V arX 0.
2. Se X = c, V ar(X) = 0.
Prova: Temos que EX = c, logo V ar(X) = E(X c)2 = E(0) = 0.
4.7. MOMENTOS
72
3. V ar(X + a) = V arX, onde a uma constante real.

Prova:
V ar(X + a) = E(X + a)2 (E(X + a))2
= EX 2 + 2aEX + a2 (EX)2 2aEX a2 = EX 2 (EX)2 = V arX.
4. V ar(aX) = a2 V arX
Prova:
V ar(aX) = E(aX)2 (E(aX))2 = a2 EX 2 a2 (EX)2 = a2 V arX.
5. Se X e Y forem variveis aleatrias mutuamente independentes, ento V ax(X + Y ) =

V arX + V arY .
Prova:
V ar(X + Y ) = E(X + Y )2 [E(X + Y )]2
= E(X 2 + 2XY + Y 2 ) (EX)2 2EXEY (EY )2
= EX 2 + EY 2 (EX)2 (EY )2 + 2E(XY ) 2EXEY = V arX + V arY
6. Se X1 , . . . , Xn so variveis aleatrias independentes, ento V ar(X1 + Xn ) = V arX1 +

+ V arXn . Esta propriedade segue da propriedade anterior e de uma aplicao de
induo matemtica.
7. Desigualdade de Chebyshev Generalizada. Dado um conjunto A e uma funo
g(x) tal que x g(x) IA (x), tem-se que P (X A) min(1, Eg(X)).
Prova: Pela monotonicidade da Esperana, temos que Eg(X) EIA (X) = P (X
A). Mas, como a cota superior pode exceder 1, temos que min(1, Eg(X)) P (X A).
Corolrio 4.7.8: Seja X uma varivel aleatria, ento para todo > 0, P (|X| )
E|X|
.
Prova: Escolha A = {x : |x| } e g(x) =

P (|X| ) E|X|
.
|x|
.
Note que g(x) IA (x), ento
Corolrio 4.7.9: Se Z 0 e EZ = 0, ento P (Z = 0) = 1.

4.7. MOMENTOS
73
Prova: P (Z n1 ) nEZ = 0. Como [Z > 0] = n [Z n1 ], temos que

P (Z > 0) = P (n [Z
1
1
])
P (Z ) = 0.
n
n
n
Portanto, P (Z = 0) = 1 P (Z > 0) = 1.
Note que este ltimo corolrio implica que, quando V ar(X) = 0, ou seja E(XEX)2 =
0, temos que P (X = EX) = 1, ou seja X constante com probabilidade 1.
Corolrio 4.7.10: Desigualdade (Original) de Chebyshev. Seja X uma varivel
aleatria, ento P (|X EX| ) V arX
.
2
2
Prova: Escolha A = {x : |x| } e g(x) = x2 . Note que g(x) IA (x), ento pelo
2
teorema anterior, P (X A) = P (|X| ) EX
. Substituindo X por X EX,
2
V arX
temos P (|X EX| ) 2 .
Note que a desigualdade de Chebyshev converte conhecimento sobre um momento de
segunda ordem ou uma varincia numa cota superior para a probabilidade da cauda
de uma varivel aleatria.
8. Se X e Y so variveis aleatrias em (, A, P ) tais que E|X t | < e E|Y t | < , ento
E|X + Y |t < . Prova: |X + Y | |X| + |Y | 2 max(|X|, |Y |). Portanto, |X + Y |t
2t max(|X|t , |Y |t ) 2t (|X|t + |Y |t ). Logo, E|X + Y |t 2t (E|X|t + E|Y |t ) < .
Como E|X|t < obviamente implica E|aX|t < , a IR, esta propriedade diz que
a classe de variveis aleatrias em (, A, P ) possuidoras do t-simo momento nito
um espao vetorial ou espao linear.
9. V arX = E(X )2 = mincIR E(X c)2 .
Prova:
(X c)2 = (X + c)2 = (X )2 + 2( c)(X ) + ( c)2 ,
logo
E(X c)2 = E(X )2 + 2( c)(EX ) + ( c)2
= V arX + ( c)2 .
Portanto, E(X c)2 E(X )2 , c IR.
4.8. MOMENTOS CONJUNTOS
4.8
74
Momentos Conjuntos
Podemos denir a noo de momento quando lidamos com vetores aleatrios.

= (X1 , X2 , . . . , Xk ) um vetor aleatrio k-dimensional. Ento, os
Denio 4.8.1: Seja X
so da forma E(k X ji ), onde ji s so inteiros positivos, se
momentos conjuntos de X
i
i=1
esta esperana existir. De forma anloga ao caso unidimensional pode-se denir tambm
momentos conjuntos centrais.
No caso bidimensional, temos que a correlao e a covarincia so momentos conjuntos
que so medidas do grau de dependncia linear entre duas variveis.
Denio 4.8.2: A correlao entre duas variveis aleatrias X e Y dada por EXY se
esta esperana existe. A covarincia entre elas dada por Cov(X, Y ) = E[(X EX)(Y
EY )] = EXY (EX)(EY ).
Note que Cov(X, X) = V arX. Pela prova da propriedade 5 de varincia, vemos que a
seguinte relao vlida:
V ar(X + Y ) = V arX + V arY + 2Cov(X, Y ).
Diz-se que duas varveis so no-correlacionadas se Cov(X, Y ) = 0. Como j provamos
que se X e Y so independentes, ento EXY = EXEY . Temos que se X e Y so independentes, elas necessariamente so no-correlacionadas. O contrrio nem sempre verdadeiro
como o prximo exemplo ilustra.
Exemplo 4.8.3: Se X uma varivel aleatria tal que P (X = a) = P (X = a) = 1/2 e
Y = X 2 , temos que EXY = a3 (1/2) + a3 (1/2) = 0 e EX = a(1/2) + a(1/2) = 0. Logo,
EXY = EXEY = 0, ou seja, Cov(X, Y ) = 0. Porm, X e Y no so independentes, pois
Y uma funo de X.
Vejamos agora uma expresso para a varincia da soma de n variveis aleatrias.
Teorema 4.8.4: Sejam X1 , X2 , . . . , Xn variveis aleatrias tais que V ar(Xi ) < , ento
V ar(X1 + + Xn ) =
V arXi + 2
i=1
Cov(Xi , Xj ).
i<j
Prova:
V ar(X1 + + Xn ) = E(X1 + + Xn E(X1 + + Xn ))2
n
n
2
= E( (Xi EXi )) = E[ (Xi EXi )2 + 2
(Xi EXi )(Xj EXj )]
=
i=1
n
i=1
i<j
V ar(Xi ) + 2
i=1
i<j
Cov(Xi , Xj ).
75
Corolrio 4.8.5 : Sejam X1 , X2 , . . . , Xn variveis aleatrias tais que V ar(Xi ) < e

Cov(Xi , Xj ) = 0 para i = j, ento
V ar(X1 + + Xn ) =
V arXi .
i=1
O prximo teorema trata de uma importante desigualdade em teoria da probabilidade:

Teorema 4.8.6: (E(XY ))2 EX 2 EY 2 e (Cov(X, Y ))2 V arXV arY .
Prova: (aX + Y )2 0 E(aX + Y )2 0 a2 EX 2 + 2aEXY + EY 2 0. Observe
que esta equao do segundo grau em a no pode ter duas razes reais diferentes, pois caso
contrrio essa expresso seria negativa para os valores entre as razes. Ento, utilizando a
regra do discriminante, temos que
4(EXY )2 4EX 2 EY 2 0,
e temos a primeira desigualdade. A segunda desigualdade segue da primeira trocando X por
X EX e Y por Y EY na expresso da primeira desigualdade.
O coeciente de correlao entre duas variveis aleatrias X e Y dado por
(X, Y ) =
Cov(X, Y )
V ar(X)V ar(Y )
O teorema anterior provou que |(X, Y )| 1. O prximo teorema mostra que o mdulo do
coeeciente de correlao entre duas variveis igual a 1 se, e somente se, as variveis so
linearmente dependentes.
Teorema 4.8.7: Sejam X e Y variveis aleatrias com varincias nitas e positivas. Ento,
(a) (X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a > 0 e b IR.
(b) (X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a < 0 e b IR.
Prova: Parte (a). Como ( XEX Y EY )2 0, temos que
V ar(X)
V ar(Y )
X EX
Y EY 2
0 E(
)
V ar(X)
V ar(Y )
X EX 2
Y EY 2
2
= E(
) + E(
)
E((X EX)(Y EY ))
V ar(X)
V ar(Y )
V ar(X)V ar(Y )
V arX V arY
2Cov(X, Y )
=
+
= 2 2(X, Y ).
V arX V arY
V ar(X)var(Y )
Se (X, Y ) = 1, ento
X EX
Y EY 2
E(
) = 0,
V ar(X)
V ar(Y )
76
o que por sua vez implica que

X EX
Y EY
P (
=
) = 1,
V ar(X)
V ar(Y )
em outras palavras,
V arY
P (Y = EY +
(X EX)) = 1.
V arX
A prova da parte (b) anloga, substituindo o sinal + por - na expresso acima.
Deixamos para o leitor vericar os detalhes.
O prximo teorema apresenta uma nova relao entre momentos conjuntos de variveis
aleatrias. Ele conhecido como Desigualdade de Hlder.
Teorema 4.8.8: Suponha que p e q satisfazem: p > 1, q > 1, e
E(|X|p ) < e E(|X|q ) < , temos que
1
p
1
q
= 1. Ento, se
E(|XY |) (E|X|p )1/p (E|Y |q )1/q .

Prova: A prova da desigualdade de Hlder utiliza um argumento de convexidade. Como
|X|p 0 (resp., |X|q 0), j vimos que se E|X|p = 0, ento P (X = 0) = 1. Portanto, em
ambos os casos E(|XY |) = 0 e a desigualdade de Hlder vlida. Considere ento o caso
em que o lado direito da desigualdade de Hlder estritamente positivo.
Note que para a > 0 e b > 0, existe s, t IR tal que
t
s
a = exp( ) e b = exp( ).
p
q
Como a funo exponencial convexa e p1 + q 1 = 1, temos por convexidade que
s t
exp( + ) p1 exp(s) + q 1 exp(t),
p q
ou pela denio de s, t
Agora substituindo a por
ab p1 ap + q 1 bq .
|X|
(E(|X|p ))1/p
e b por
|Y |
,
(E(|Y |q ))1/q
temos
|XY |
|X|
|Y |
1
p
1
p
(
)
+
q
(
)q .
p
1/p
q
1/q
p
1/p
q
1/q
(E(|X| )) (E(|Y | ))
(E(|X| ))
(E(|Y | ))
Finalmente, tomando o valor esperado, temos
E|XY |
(E(|X|p ))1/p (E(|Y |q ))1/q
E|X|p p
E|Y |q q
1
)
+
q
(
)
(E(|X|p ))
(E(|Y |q ))
= p1 + q 1 = 1.
p1 (
Captulo 5
Distribuio e Esperana Condicionais
5.1
Distribuio condicional de X dada Y discreta
Seja X uma varivel aleatria no espao de probabilidade (, A, P ), e seja A um evento

aleatrio tal que P (A) > 0. Usando o conceito de probabilidade condicional, podemos
denir a distribuio condicional de X dado o evento A por
P (X B|A) =
P ([X B] A)
,
P (A)
para B boreliano. Pode-se vericar facilmente que isto dene uma probabilidade nos borelianos vericando-se os axiomas. Podemos interpretar a distribuio condicional de X dado
A como a nova distribuio que se atribui a X quando sabe-se da ocorrncia do evento A.
A funo de distribuio associada distribuio condicional chamada funo distribuio
condicional de X dado A:
FX (x|A) = P (X x|A).
A esperana condicional de X dado A a esperana da distribuio condicional, denida
por
E(X|A) = xdFX (x|A),

se esta esperana existe.
Agora suponhamos que os eventos aleatrios A1 , A2 , . . . formem uma partio (nita ou
enumervel) de . Pelo Teorema da Probabilidade Total, temos
P (X B) =
P (An )P (X B|An ), B B,
n
e
FX (x) = P (X x) =
=
P (An )P (X x|An )
P (An )FX (x|An ), x,
77
5.1. DISTRIBUIO CONDICIONAL DE X DADA Y DISCRETA
78
e se a esperana de X existe,
EX = xdFX (x) = xd(

P (An )FX (x|An ))
=
P (An )
xdFX (x|An ) =
P (An )E(X|An ).
Em outras palavras, a distribuio de X (resp., funo de distribuio, esperana de X)

uma mdia ponderada da distribuio condicional (resp., funo de distribuio condicional,
esperana condicional de X) dado An , onde os pesos so as probabilidades dos membros An
da partio.
Consideremos agora o caso em que a partio do espao amostral gerada por uma
varivel aleatria discreta. Para tanto, seja Y uma varivel aleatria discreta em (, A, P ),
tomando somente os valores y1 , y2 , . . .. Ento, os eventos An = [Y = yn ] formam uma
partio de . Neste caso, a distribuio
P (X B|Y = yn ) = P (X B|An ),
para B boreliano, chamada de distribuio condicional de X dado que Y = yn , e valem as
frmulas
P (X B) =
P (Y = yn )P (X B|Y = yn ), B boreliano
FX (x) =
EX =
P (Y = yn )FX (x|Y = yn )
P (Y = yn )E(X|Y = yn ),
onde vale a ltima frmula se EX existe; em particular, se X integrvel.

Notemos que para B xo, P (X B|Y = yn ) funo de yn , digamos g(yn ). Se denirmos
g(y) = P (X B|Y = y) arbitrariamente para y
/ {yn : n 1}, por exemplo, g(y) = P (X
B), ento teremos
P (X B) = P (X B|Y = y)dFY (y) = g(y)dFY (y),

pelas propriedades da integral de Lebesgue no caso de Y discreto. As outras frmulas
possuem interpretaes anlogas, logo teremos
P (X B) = P (X B|Y = y)dFY (y), B boreliano
FX (x) = FX (x|Y = y)dFY (y)
EX = E(X|Y = y)dFY (y).
5.2. DISTRIBUIO CONDICIONAL DE X DADA Y : CASO GERAL
79
Essas frmulas valem tambm no caso geral, como veremos adiante. Salientamos que a
esperana precisa existir para que a ltima frmula valha. De fato, quando X for integrvel,
(y) = E(X|Y = y) ser nito. Nesse caso, a varivel aleatria (Y ) ser chamada de
esperana condicional de X dada Y e ser indicada por (Y ) = E(X|Y ). Notemos que
E(X|Y = y) um valor particular da varivel aleatria E(X|Y ): o valor quando Y = y.
Portanto, a ltima frmula pode ser reescrita assim
EX = E(Y ) = E(E(X|Y )).
Em outras palavras, a esperana de X igual esperana da esperana condicional de X
dada Y .
Exemplo 5.1.1: Consideremos o seguinte experimento em que participam dois jogadores,
I e II. Suponhamos que o jogador I lance uma moeda honesta n vezes, obtendo k caras, onde
0 k n, e que depois disso o jogador II lance a mesma moeda k vezes. Seja X o nmero
de caras obtidas pelo jogador II. Qual a esperana de X supondo independncia de todos os
lanamentos?
Seja Y o nmero de caras nos n lanamentos do jogador I. Decorre das condies do
experimento que Y b(n, 12 ) e que X|Y = k b(k, 21 ). Por isso, a esperana condicional
de X dado que Y = k a esperana da distribuio b(k, 21 ): E(X|Y = k) = k2 , ou seja,
E(X|Y ) = Y2 . Utilizando a frmula, temos
Y
n
EX = E(E(X|Y )) = E( ) = .
2
4
Exemplo 5.1.2: Consideremos outro jogo que conta com a participao de dois jogadores
I e II. Neste jogo, o jogador I vai fazer uma seqncia de lanamentos independentes de uma
moeda que tem probabilidade p de dar cara, onde 0 < p < 1. Antes do jogador I comear,
o jogador II observa uma varivel aleatria N tendo distribuio P oisson(), onde > 0.
Supomos que N seja independente da seqncia de lanamentos do jogador I. Se o jogador
II observar N = n, ele vai parar o jogador I depois de ter feito n lanamentos (se N = 0, o
jogador II no permite nenhum lanamento). Se S for o nmero de caras observadas at o
jogador I parar, qual a esperana de S?
Soluo: Como a seqncia de lanamentos independente de N , a distribuio condicional de S dado que N = n binomial(n, p). Portanto, E(S|N = n) = np, ou seja,
E(S|N ) = N p. Logo,
ES = E(N p) = pEN = p.
5.2
Distribuio condicional de X dada Y : caso geral
Nosso objetivo nesta seo denir a distribuio condicional de X dado que Y = y para todo
y R e todo par de variveis aleatrias X e Y denidas no mesmo espao de probabilidade
(, A, P ). Na seo anterior denimos a distribuio condicional dado que Y = y quando
P (Y = y) > 0; portanto nosso problema agora como denir distribuio condicional
quando P (Y = y) = 0. No caso discreto essa denio era arbitrria, pois o conjunto
80
B0 = {yn : n = 1, 2, . . .}c tambm tinha probabilidade zero. Mas evidente que essa soluo
no serve no caso geral, j que no caso continuo P (Y = y) = 0 para todo y R.
Para termos uma intuio sobre a denio formal da distribuio condicional no caso
geral, consideremos novamente o caso discreto. Pelas frmulas obtidas na seo anterior a
distribuio (resp., funo de distribuio, esperana) de X determinada pela distribuio
Y e a distribuio (resp., funo de distribuio, esperana) condicional de X dada Y . De
fato, o Teorema da Probabilidade Total nos d um resultado muito mais forte: a distribuio
conjunta de X e Y determinada pela distribuio de Y e a distribuio condicional de X
dada Y . Para ver isto, basta notar que para todo x e y,
FX,Y (x, y) = P (X x, Y y) =
P (X x, Y = yn )
=
n:yn y
P (Y = yn )P (X x|Y = yn ) =
n:yn y
y
P (Y = yn )FX (x|Y = yn )
n:yn y
FX (x|Y = t)dFY (t).
Vemos ento que no caso discreto a funo de distribuio conjunta uma espcie de
composta da funo de distribuio marginal de Y com a funo de distribuio condicional
de X dada Y . E pode-se provar que para todo par de variveis aleatrias X e Y , denidas
no mesmo espao de probabilidade, existe uma, e somente uma, famlia de funes de distribuio condicional satisfazendo a condio acima. Isto justica a seguinte denio formal
para a distribuio condicional de X dada Y :
Denio 5.2.1: Sejam X e Y variveis aleatrias denidas no mesmo espao de probabilidade (, A, P ). Uma funo P (X B|Y = y), denida para B boreliano e y R, ser
chamada uma distribuio condicional (regular) para X dada Y se
(i) para todo y R xo, P (X B|Y = y) dene uma probabilidade na -lgebra de
Borel; e
(ii) para todo B boreliano xo, P (X B|Y = y) funo mensurvel de y e para todo
(x, y) R2 ,
y
FX (x|Y = t)dFY (t) = FX,Y (x, y).
O prximo teorema prova que esta denio determina uma nica distribuio condicional
quase certamente.
Teorema 5.2.2: Sejam X e Y variveis aleatrias em (, A, P ). Ento existe uma distribuio condicional regular para X dada Y . Existe apenas uma, no sentido de que duas distribuies condicionais so iguais quase certamente: se P1 (X B|Y = y) e P2 (X B|Y = y)
so ambas distribuies condicionais para X dada Y , ento existe um boreliano B0 tal que
P (Y B0 ) = 1 e P1 (X B|Y = y) = P2 (X B|Y = y), para todo B boreliano e y B0 .
81
Prova: Omitida.
Existe uma outra alternativa para se calcular a distribuio condicional de X dada Y
que utiliza uma aproximao da denio do caso discreto. Para tanto, seja I um intervalo
pequeno de comprimento y e que contm o ponto y. Tomemos como aproximao para a
probabilidade condicional de X pertencer a B dado que Y = y, a probabilidade condicional
do mesmo evento dado que Y I, ou seja,
P (X B|Y = y) P (X B|Y I) =
P (X B, Y I)
.
P (Y I)
O seguinte teorema prova que esta maneira alternativa de calcular a distribuio condicional de X dado Y quase sempre coincide com a Denio 5.2.1.
Teorema 5.2.3: Para cada B boreliano xo, o limite na denio 4.2 existe quase certamente, i.e., P (Y {y : limite existe em y}) = 1. Alm disso, para cada B xo, o
limite igual a P (X B|Y = y) como denido na Denio 5.2.1, quase certamente, ou
seja, o conjunto dos ys para os quais o limite converge para P (X B|Y = y) conforme a
Denio 5.2.1 tem probabilidade 1.
Tanto a Denio 5.2.1 quanto o mtodo da aproximao por limites no so teis para
encontrar a distribuio condicional. Para tanto deve-se tentar adivinhar um candidato.
Consideremos alguns casos simples em que a soluo vem de imediato:
Caso I: Y discreta. Considere a soluo que obtivemos quando analisamos o caso
discreto. Portanto, se Y assume os valores y1 , y2 , . . . tais que P (Y = yn ) > 0, ento
P (X B|Y = yn ) =
P (X B, Y = yn )
, B B,
P (Y = yn )
e P (X B|Y = y) = P (X B) se P (Y = y) = 0. Note que esta distribuio satisfaz as

duas condies da Denio 5.2.1 e portanto uma distribuio condicional de acordo com
a denio do caso geral.
Caso II: X e Y independentes. Intuitivamente, a distribuio condicional de X dado
que Y = y no deveria depender de y. Portanto, nosso candidato :
P (X B|Y = y) = P (X B), B B, y IR.
Portanto, a primeira condio da Denio 5.2.1 satisfeita e nosso candidato para FX (x|Y =
y) FX (x), logo
y
y
FX (x)dFY (t) = FX (x)
dFY (t) = FX (x)FY (y) = FX,Y (x, y),
ou seja, a segunda condio da denio tambm satisfeita.

Caso III: X e Y possuem densidade conjunta f (x, y). Neste caso nosso candidato
ser
f (x, y)
f (x|y) =
, x R,
f (y)
82
se f (y) > 0, e f (x|y) = f (x) se f (y) = 0. Esta funo chamada de densidade condicional
de X dado que Y = y. Note que f (x|y) preserva as chances relativas e realmente uma
densidade. Agora, vamos mostrar que ela satisfaz a Denio 5.2.1. Parte (i), segue do fato
que f (x|y) uma densidade de probabilidade e portanto P (X B|Y = y) = XB f (x|y)dx
uma probabilidade para todo boreliano
x B. Para vericar (ii), note que a funo de distribuio condicional FX (x|Y = t) = f (s|t)ds. Logo
f (s|t)ds)dFY (t) =
x
f (s, t)
ds)fY (t)dt
fY (t)
(5.1)
f (s, t)dsdt = FX,Y (x, y).
Caso IV: X discreta e Y com densidade fY . De acordo com a denio de distribuio condicional, ela deve satisfazer neste caso:
y
P (X = xi |Y = t)fY (t)dt = P (X = xi , Y y).
Note que se denirmos

1 P (X = xi , Y t)
fY (t)
t
1 P (Y t|X = xi )P (X = xi )
=
fY (t)
t
P (X = xi )
=
fY |X (t|xi ),
fY (t)
P (X = xi |Y = t) =
obtemos o resultado desejado.

Em casos mais complexos, no processo de escolha da distribuio condicional, ajuda
observar os seguintes princpios:
Princpio da preservao das chances relativas. Este princpio diz que condicionalmente, dada a ocorrncia de um evento A, os resultados possveis (ou seja, w A)
mantm as mesmas chances relativas que tinham antes da realizao do experimento.
Princpio da substituio. Este princpio diz que condicionalmente, dado que Y =
y, a varivel aleatria Y pode ser substituda pelo valor y sempre que Y aparecer em
uma probabilidade (ou esperana) condicional. Mais geralmente, diz que para obter a
distribuio condicional de (X, Y ) dado que Y = y, basta substituir Y pelo valor y.
Exemplo 5.2.4: Seja X uma varivel aleatria simtrica em torno de zero, de modo que
P (X x) = P (X x), x IR. Qual a distribuio condicional de X dado |X|?
Utilizando o princpio da preservao das chances relativas e a simetria da varivel X,
temos que nosso candidato para distribuio condicional deve ser: P (X = y||X| = y) =
P (X = y||X| = y) = 1/2 se y > 0 e P (X = 0||X| = 0) = 1.
5.3. ESPERANA CONDICIONAL

Como
83
P (X x||X| = t)dF|X| (t)
0dF|X| (t)
, se x < y
y 1
|x|
0dF|X| (t) + |x| 2 dF|X| (t) , se y x < 0
0
y
=
x
1dF|X| (t) + x 12 dF|X| (t)

, se 0 x < y
1dF|X| (t)
, se x y 0
0
0
, se x < y
1/2(F|X| (y) F|X| (|x| )) , se y x < 0

=
1/2(F|X| (y) + F|X| (x))
, se 0 x < y
F|X| (y)
, se x y 0
0
, se x < y
FX (x) FX (y ) , se y x < 0
=
FX (x) FX (y ) , se 0 x < y
F|X| (y)
, se x y 0
0
Mas esta ltima expresso igual a FX,|X| (x, y). Portanto, nosso candidato satisfaz a denio de distribuio condicional.
Exemplo 5.2.5 : Se fY |X (y|x) = |x + 1|e|x+1|y U (y) e X Binomial(2, 1/2), qual a
densidade de Y ? Dado que Y = y, qual a distribuio de X para y > 0?
Soluo:
fY (y) =
|i+1|y
|i + 1|e
i=0
( )
2
U (y)
(1/2)2
i
1
= U (y)(ey + 4e2y + 3e3y )
4
Utilizando o resultado do Caso IV acima temos que
P (X = i)
P (X = i|Y = y) =
fY |X (t|i)
fY (y)
(2)
|i + 1|e|i+1|y
i
, i = 0, 1, 2.
= y
(e + 4e2y + 3e3y )
5.3
Esperana Condicional
Denio 5.3.1: Sejam X e Y variveis aleatrias em (, A, P ). A esperana condicional

de X dado que Y = y, a esperana da distribuio condicional de X dado que Y = y, se
esta esperana existir. Ou seja,
E(X|Y = y) = xdFX (x|Y = y).

84
Pode-se provar que:

Teorema 5.3.2: Se X integrvel, ento E(X|Y = y) existe e nita quase certamente,
i.e., existe um boreliano B0 tal que P (Y B0 ) = 1 e E(X|Y = y) nita para todo y B0 .
Se denirmos (y) = E(X|Y = y), a varivel aleatria (Y ) = E(X|Y ) chama-se esperana condicional de X dada Y . A esperana condicional, sendo a esperana da distribuio
condicional, possui todas as propriedades da esperana ordinria (por exemplo, linearidade,
desigualdade de Jensen, convergncia montona, convergncia dominada), mais a propriedade importante de que E(E(X|Y )) = EX, ou seja
EX = E(X|Y = y)dFY (y).

J demonstramos esta equao no caso discreto, vamos veric-las quando X e Y tm
densidade conjunta f (x, y):

f (x, y)
E(X|Y = y) = xdFX (x|Y = y) =
dx,
xf (x|y)dx =
x
fY (y)
se fY (y) > 0. Logo, quando X integrvel,

f (x, y)
E(E(X|Y )) = E(X|Y = y)dFY (y) =
(
x
dxfY (y)dy)
fY (y)

=
xf (x, y)dxdy =
(
f (x, y)dy)xdx

=
xfX (x)dx = EX.
Como A = [IA = 1], temos

E(IA |Y = y) = 1 P (IA = 1|Y = y) + 0 P (IA = 0|Y = y)
= P (IA = 1|Y = y) = P (A|Y = y).
De fato, como IA integrvel, ns temos
P (A) = E(IA ) = E(E(IA |Y )) = E(P (A|Y )),
ou seja, a probabilidade de um evento a esperana de sua probabilidade condicional dada
Y , para qualquer Y .
A seguir enumeramos algumas propriedades da esperana condicional, que so generalizaes de propriedades da esperana incondicional.
EC1. E(E(X|Y )) = EX.
EC2. Se X = c, para alguma constante c, ento E(X|Y ) = c.
85
EC3. Se X1 X2 , ento E(X1 |Y ) E(X2 |Y ).

EC4. E(aX1 + bX2 |Y ) = aE(X1 |Y ) + bE(X2 |Y ).
EC5. Seja uma funo convexa. Ento, (E(X|Y )) E((X)|Y ).
EC6. Se Xn 0 e Xn X, ento E(Xn |Y ) E(X|Y ).
EC7. Se Xn X e se existe X0 integrvel tal que |Xn | X0 , ento limn E(Xn |Y ) =
E(X|Y ).
EC8. Se (X, Y ) integrvel, ento
E((X, Y )|Y = y) = E((X, y)|Y = y) =
(x, y)dFX (x|Y = y).
Assim como no caso incondicional podemos denir momentos condicionais de ordem mais
elevada de maneira anloga. O k-simo momento de X dado Y dado por E(X k |Y ). E
o k-simo momento central dado por E((X E(X|Y ))k |Y ). Em particular, o segundo
momento central conhecido como varincia condicional de X dado Y e pode ser reescrito
como:
V ar(X|Y ) = E((X E(X|Y ))2 |Y ) = E(X 2 |Y ) (E(X|Y ))2 .
Exemplo 5.3.3: Sejam X e Y variveis aleatrias independentes e identicamente distribudas, com X U [0, 1], e sejam U = min(X, Y ) e V = max(X, Y ). Encontre E(U |V ).
Soluo:
FU,V (x, y) = P (U x, V y) = P (V y) P (U > x, V y)
{
P (X y, Y y) P (x < X y, x < Y y) , se x < y
=
P (X y, Y y)
, se x y.
Portanto, como X e Y so independentes, temos
0
, se x 0 ou y 0
, se 0 < x < y < 1

y 2 (y x)2
2
y
, se 0 < y x e y < 1
FU,V (x, y) =
(1
x)
, se y 1 e 0 < x < 1
1
, se y 1 e x 1.
Logo,
{
2 FU,V (x, y)
2 , se 0 < x < y < 1
fU,V (x, y) =
=
0
, caso contrrio.
xy
y
Como fV (y) = fU,V (x, y)dx = 0 2dx = 2y, se 0 < y < 1, e fV (y) = 0 caso contrrio,
temos que
{ 1
fU,V (x, y)
, se 0 < x < y < 1
y
=
fU |V (x|y) =
0 , caso contrrio.
fV (y)

Ento,
86
E(U |V = y) =
xfU |V (x|y)dx =
0
x
y
dx = ,
y
2
se 0 < y < 1, e E(U |V = y) = 0, caso contrrio. Portanto,

{ V
, se 0 < V < 1
2
E(U |V ) =
0 , caso contrrio.
Exemplo 5.3.4: Sejam X1 , . . . , Xn independentes, identicamente distribudas e integrveis,
e seja S = X1 + + Xn . Demonstre que E(Xi |S) = Sn , para i = 1, 2, . . . , n.
Soluo: Note que os vetores (X1 , . . . , Xn ) e (Xi , X2 , . . . , Xi1 , X1 , Xi+1 , . . . , Xn ) tm
a mesma distribuio. Isto implica que (X1 , S) e (Xi , S) possuem a mesma distribuio.
Como a distribuio conjunta determina a distribuio condicional, temos que X1 e Xi
tm a mesma distribuio condicional dado que S = s, e consequentemente tem a mesma
esperana condicional dado S = s. Portanto,
E(X1 |S = s) = E(X2 |S = s) = . . . = E(Xn |S = s).
Utilizando a linearidade da esperana, temos
nE(Xi |S = s) =
E(Xi |S = s)
i=1
n
= E(
Xi |S = s) = E(S|S = s) = s.
i=1
Ento, podemos concluir que E(Xi |S = s) = ns , ou seja, E(Xi |S) = Sn .

Exemplo 5.3.5: Sejam X e Y duas variveis aleatrias. Calculemos a distribuio de
Z = X + Y . Temos
P (X + Y z) = E(P (X + Y z|Y )) = P (X + Y z|Y = y)dFY (y)
P (X z y|Y = y)dFY (y) = FX (z y|Y = y)dFY (y).

(5.2)
Se X e Y so independentes, ento FX (z y|Y = y) = FX (z y) e temos
FZ (z) = P (X + Y z) = FX (z y)dFY (y).
(5.3)
Esta distribuio a convoluo das distribuies de X e Y .
Captulo 6
Convergncia Estocstica
6.1
Seqncia de Eventos
A denio de conceitos de convergncia de variveis aleatrias depende de manipulaes de

seqncias de eventos. Seja An , dene-se:
inf Ak =
k=n Ak , sup Ak = k=n Ak
kn
kn
lim inf An =
n=1 k=n Ak
n
lim sup An =
n=1 k=n Ak .
n
O limite de uma seqncia de eventos denido da seguinte maneira: se para alguma

seqncia (Bn ) de eventos lim inf n Bn = lim supn Bn = B, ento B chamado de limite de
(Bn ) e ns escrevemos limn Bn = B ou Bn B.
n
n
Exemplo 6.1.1: lim inf[0, n+1
) = lim sup[0, n+1
) = [0, 1)
Teorema 6.1.2: Seja (An ) uma seqncia de eventos de .

(a) lim sup An se, e somente se, Ak para um nmero innito de ndices k.
(b) lim inf An se, e somente se,
/ Ak para um nmero nito de ndices k.
Prova: Para parte (a), note que lim sup An , se, e somente se, para todo n,
k=n Ak ,
ou seja, se, e somente se, para todo n existe n n tal que An . Como isto vlido para
todo n, temos que isto equivalente a existncia de um nmero innito de ndices k tais que
Ak .
A prova da parte (b) similar.
A seguir descreveremos algumas propriedades do lim inf e lim sup de uma seqncia de
eventos.
1. lim inf An lim sup An
Este fato uma simples conseqncia do Teorema 6.1.2, pois se lim inf An , no
pertence apenas a um nmero nito de eventos Ak s, e conseqentemente pertence a
um nmero innito deles. Logo, lim sup An .
87
6.1. SEQNCIA DE EVENTOS
88
2. (lim inf An )c = lim sup Acn

Este fato decorre aplicando a Lei de De Morgan duas vezes:
c
(
n=1 k=n Ak ) = n=1 (k=n Ak ) = n=1 (k=n Ak ).
Seqncias Monotnicas
Uma seqncia de eventos (An ) monotnica no-decrescente (resp., no-crescente) se A1
A2 . . . (resp, A1 A2 . . .). Denotaremos por An (resp., An ) uma seqncia
no-decrescente (resp. no-crescente) de eventos.
Teorema 6.1.3: Suponha que (An ) uma seqncia monotnica de eventos. Ento,
1. Se An , ento limn An =
n=1 An .
2. Se An , ento limn An =
n=1 An .
Conseqentemente, como para qualquer seqncia Bn , temos inf kn Bk e supkn Bk ,
segue que:
lim inf Bn = lim(inf Bk ), lim sup Bn = lim(sup Bk )
n
kn
kn
Prova: Para provar (1), precisamos mostrar que lim inf An = lim sup An =
n=1 An . Como
Aj Aj+1 , temos kn Ak = An , e portanto,
lim inf An =
n=1 (kn Ak ) = n=1 An .
Por outro lado, temos,
lim sup An =
n=1 (kn Ak ) k=1 Ak
= lim inf An lim sup An .
Logo, temos igualdade acima, ou seja, lim sup An =

k=1 Ak .
A prova de (2) similar.
Exemplo 6.1.4:
1
1. limn [0, 1 n1 ] =
n=1 [0, 1 n ] = [0, 1).
1
2. limn [0, 1 + n1 ) =
n=1 [0, 1 + n ) = [0, 1].
n
n
n
n
3. limn ( n+1
, n1
) =
n=1 ( n+1 , n1 ) = {1}.
Exemplo 6.1.5: Sejam An , A, Bn , B eventos em . Mostre que:

1. se limn An = A, ento limn Acn = Ac .
Soluo: lim inf Acn = (lim sup An )c = Ac e lim sup Acn = (lim inf An )c = Ac .
89
2. lim sup(An Bn ) = lim sup An lim sup Bn .

Soluo: Se lim sup(An Bn ), ento (Ak Bk ) para innitos ndices k. Logo,
temos que Ak para innitos ndices k, ou Bk para innitos ndices k. Portanto,
temos lim sup An ou lim sup Bn , ou seja, lim sup An lim sup Bn .
Reciprocamente, se lim sup An lim sup Bn , ento lim sup An ou lim sup Bn .
Logo, temos que Ak para innitos ndices k, ou Bk para innitos ndices k,
ou seja, (Ak Bk ) para innitos ndices k. Portanto, lim sup(An Bn ).
3. No verdade que lim inf(An Bn ) = lim inf An lim inf Bn .
Soluo: Vamos construir um contra-exemplo: Suponha que A B = , An = A =
e Bn = B = para n par; e An = B e Bn = A para n mpar. Como An Bn = A B
para todo n, fcil ver que lim inf(An Bn ) = A B. Tambm fcil ver que
lim inf An = lim inf Bn = A B = , pois somente os s em A B no ocorrem para
um nmero nito de ndices n tanto na seqncia An quanto na seqncia Bn . Ento,
A B = lim inf(An Bn ) = = lim inf An lim inf Bn .
4. se An A e Bn B, ento An Bn A B e An Bn A B.
Soluo: Pela parte (2), temos que
lim sup An Bn = lim sup An lim sup Bn = A B,
e pela propriedade (1) de lim inf e lim sup, temos
lim inf An Bn lim sup An Bn = A B.
Resta-nos provar que A B lim inf An Bn . Suponha que A B, ento
lim inf An ou lim inf Bn , ou seja, no pertence a um nmero nito de Ak s,
ou no pertence a um nmero nito de Bk s. Logo, no pertence a um nmero
nito de Ak Bk s. Portanto, lim inf An Bn . Ento, An Bn A B.
Utilizando os tens anteriores e a Lei de De Morgan, temos:
A B = (Ac B c )c = (lim Acn lim Bnc )c =
= (lim Acn Bnc )c = lim(Acn Bnc )c = lim An Bn .
6.1.1
Borel-Canteli
A seguir vamos enunciar e provar um importante Lema, conhecido como Lema de BorelCantelli, que trata da probabilidade da ocorrncia de um nmero innito de eventos.
Lema 6.1.6: Sejam A1 , A2 , . . . eventos aleatrios em (, A, P ), ou seja, An A, n.
(a) Se
n=1 P (An ) < , ento P (An innitas vezes ) = 0.
(b) Se
n=1 P (An ) = e os eventos An s so independentes, ento
P (An innitas vezes ) = 1.
90
Obervao: O tem (b) no vale necessariamente

sem independncia. Por exemplo,
seja An = A, n, onde 0 < P (A) < 1. Ento,

P (An ) = mas o evento [An innitas
vezes] = A e P (An innitasvezes) = P (A) < 1.
Prova: Para parte (a), se
P (An ) < , ento
k=j P (Ak ) 0 quando j . Mas
[An innitas vezes]
k=j Ak , j,
logo
P (An innitas vezes)
P (
k=j Ak )
P (Ak ) 0.
k=j
Portanto, P (An innitas vezes) = 0.

Para parte (b), basta provar que
P (
k=n Ak ) = 1, n
(pois sendo [An innitas vezes] =

n=1 k=n Ak a interseco de um nmero enumervel de
eventos de probabilidade 1, tambm de probabilidade 1). Para tanto, seja Bn =
k=n Ak .
n+m
Ento Bn contm k=n Ak para todo m, e
n+m c
c
Bnc (n+m
k=n Ak ) = k=n Ak .
Logo para todo m,

1 P (Bn ) =
P (Bnc )
c
P (n+m
k=n Ak )
n+m
P (Ack )
n+m
(1 P (Ak )).
k=n
k=n
Como 1 p ep para 0 p 1, temos

1 P (Bn )
n+m
k=n
quando m , pois
n+m
k=n
P (Ak )
= exp(
n+m
P (Ak )) 0
k=n
P (Ak ) quando m . Logo P (Bn ) = 1, n.
Exemplo 6.1.7: Se sabemos que para uma dada coleo de eventos {Ak }, as suas probabilidades individuais satisfazem P (Ak ) k12 , ento podemos concluir que intos desses vezes
ocorrem com probabilidade zero ou, que apenas um nmero nito deles ocorrem com probabilidade 1. Podemos reesecrever isso da seguinte forma: existe um instante aleatrio N tal
que, com probabilidade 1, nenhum dos Ak ocorrem para k > N . importante ressaltar que
ns podemos chegar a essa concluso sem saber nada sobre as interaes entre esses eventos
como as que so expressas por probabilidades de pares de eventos P (Ai Aj ). Contudo, se
apenas sabemos que P (Ak ) > 1/k, ento no podemos concluir nada baseados no Lema de
Borel-Cantelli. Se soubermos que os eventos so mutuamente independentes, ento sabendo
que P (Ak ) > 1/k, podemos concluir que innitos Ak ocorrem com probabilidade 1.
6.2. COVERGNCIA DE VARIVEIS ALEATRIAS
91
Exemplo 6.1.8: Considere uma seqncia de variveis aleatrias X1 , X2 , X3 , . . .. Podemos

usar o Lema de Borel-Cantelli para determinar a probabilidade que Xk > bk innitas vezes
para qualquer seqncia de nmeros reais {bk }. Note que P (Xk > bk ) = 1 FXk (bk ). Logo,
se
P (Xk > bk ) =
1 FXk (bk ) < ,
k=1
k=1
ento, no importa qual a distribuio conjunta das variveis aleatrias {Xk }, temos que o
evento {Xk > bk } s ocorrer para um nmero nito de ndices k. Por outro lado, se
P (Xk > bk ) =
k=1
1 FXk (bk ) = ,
k=1
ento precisaramos de informao adicional sobre a distribuio conjunta das variveis aleatrias {Xk } para determinar se os eventos {Xk > bk } ocorrem um nmero nito ou innito
de vezes.
Exemplo 6.1.9: Considere uma moeda no necessariamente honesta com probabilidade
de cara igual a p, onde 0 < p < 1. Se esta moeda for jogada um nmero innito de vezes de
maneira independente, qual a probabilidade da seqncia (cara, cara, coroa, coroa) aparecer
um nmero innito de vezes? Justique sua resposta.
Soluo: Seja Xi o resultado do i-simo lanamento da moeda. Dena o evento Ai =
{Xi = cara, Xi+1 = cara, Xi+2 = coroa, Xi+3 = coroa}, queremos calcular P (Ai innitas vezes).
Note que para todo i, temos P (Ai ) = p2 (1 p)2 > 0. No podemos aplicar diretamente o
lema de Borel Cantelli, pois os eventos Ai s no so independentes, visto que, por exemplo,
ambos A1 e A2 dependem de X2 , X3 , X4 . Considere a seguinte subseqncia da seqncia
de eventos (Ai ) tal que Bi = A4i3 . Como os eventos Bi s dependem de famlias disjuntas de variveis aleatrias independentes,
eles so independentes. Alm disso temos que
2
2
P (Bi ) = p (1 p) > 0. Logo,
i P (Bi ) = . Portanto, Borel-Cantelli implica que
P (Bi innitas vezes) = 1. Como (Bi ) uma subseqncia de (Ai ), temos que
[Bi intas vezes] [Ai innitas vezes].
Portanto, P (Ai innitas vezes) = 1.
6.2
Covergncia de Variveis Aleatrias
Seguindo uma interpretao freqentista, probabilidade est relacionada com a freqncia

relativa de eventos no longo prazo. A matemtica para estudar o longo prazo a dos limites.
Mas quando se trata de funes, existem vrios tipos de limites (por exemplo, pontual,
uniforme, em quase todo lugar). O mesmo ocorre quando consideramos limites de variveis
aleatrias denidas em um mesmo espao de probabilidade (, A, P ), visto que variveis
aleatrias so funes reais cujo domnio .
Relembrando: Seja (, A) um espao mensurvel. Uma funo X : R chamada
de varivel aleatria se para todo evento Boreliano B, X 1 (B) A. Ns recordamos que
um evento Boreliano qualquer evento pertencente -lgebra de Borel, onde a -lgebra
de Borel a menor -lgebra contendo intervalos da forma (, x] para todo x R.
6.2.1
92
Tipos de Convergncia
Vamos a seguir descrever vrios tipos de convergncia estocstica, ilustrando com exemplos
cada tipo de convergncia, e depois provaremos algumas relaes entre os vrios tipos de
convergncia. Sejam Y, Y1 , Y2 , . . . variveis aleatrias denidas em um mesmo espao de
probabilidade (, A, P ).
Convergncia Quase Certa
Denio 6.2.1: A seqncia de variveis aleatrias Y1 , Y2 , . . . converge quase certamente
(ou com probabilidade 1) para a varivel aleatria Y se
P ({w : lim Yn (w) = Y (w)}) = 1.
n
Notao: Yn Y cp1.
Ento se uma seqncia de variveis aleatrias Y1 , Y2 , . . . converge quase certamente para
Y no signica que para todo w , Yn (w) Y (w), apenas o que se sabe que a
probabilidade do evento D = {w : Yn (w) 9 Y (w)} nula. D chamado de conjunto de
exceo.
Exemplo 6.2.2: Considere uma varivel aleatria Z tal que P ({w : 0 |Z(w)| < 1}) = 1.
Seja Xn (w) = Z n (w), ento Xn (w) 0 cp1; note que o conjunto de exceo D = {w
: |Z(w)| 1} e que P (D) = 0.
Podemos obter uma denio alternativa para convergncia quase-certa, observando que,
pela denio de limite de sequncias de nmeros reais, para um dado w xo, temos que
limn Yn (w) = Y (w) se, e somente se, para todo k IN , existir N tal que para todo n N ,
temos |Yn (w) Y (w)| < k1 . Portanto:
{w : lim Yn (w) = Y (w)} = {w :

k=1 N =1 n=N |Yn (w) Y (w)| <
n
1
}.
k
Ento, Yn Y cp1 se, e somente se,
P ({w :
k=1 N =1 n=N |Yn (w) Y (w)| <
1
}) = 1.
k
P ({w :
k=1 N =1 n=N |Yn (w) Y (w)|
1
}) = 0.
k
Isto equivalente a:
Dena An,k = {w : |Yn (w) Y (w)| k1 }. Ento para cada k xo, temos que
lim sup An,k =

N =1 n=N An,k .
n
Logo, Yn Y cp1 se, e somente se, para todo k IN ,

P (lim sup An,k ) = 0.
n
93
Exemplo 6.2.3: Seja {Xn }n3 uma seqncia de variveis aleatrias independentes com
distribuio de probabilidade dada por:
P (Xn = 0) = 1
1
1
e P (Xn = n) =
, n 3.
log n
log n
Mostre que Xn 9 0 cp1.

Soluo: Para qualquer tal que 0 < < 1, temos que
P (|Xn | > ) = P (Xn = n) =
1
.
log n
Logo,
n P (|Xn | > ) =
n log n = . Ento, o Lema de Borel-Cantelli implica que
P (|Xn | > innitas vezes) = 1, portanto com probabilidade 1, Xn 9 0.
Exemplo 6.2.4 : Considere {Xn : n 1} uma seqncia de variveis aleatrias i.i.d.
com funo de distribuio F. Suponha que F (x) < 1, para todo x < . Dena Yn =
max(X1 , X2 , . . . , Xn ). Vamos vericar que Yn cp1.
Inicialmente, observe que para cada , as variveis Yn formam uma seqncia nodecrescente de nmeros reais. Seja M um nmero real, temos
P (Yn M : n = 1, 2, . . .) P (Yn M : n = 1, 2, . . . , k) = P (Yk M )
= P (max(X1 , X2 , . . . , Xk ) M ) = P (X1 M, X2 M, . . . Xk M )
k
=
P (Xn M ) = F k (M ), k 1.
n=1
Fazendo k , temos que para todo M nito,

P (lim Yn M ) = P (Yn M : n = 1, 2, . . .) = 0;
n
pois F k (M ) tende a zero, quando k . Dessa forma, o conjunto dos w , em que

limn Yn (w) nito, tem probabilidade zero e, portanto, Yn cp1.
Convergncia na r-sima Mdia
Denio 6.2.5: A seqncia de variveis aleatrias Y1 , Y2 , . . . converge na r-sima Mdia,
onde r > 0, para a varivel aleatria Y se
lim E|Yn Y |r = 0.
Notao: Yn r Y .
Se r = 2 este tipo de convergncia freqentemente chamado de convergncia em mdia
quadrtica.
94
Exemplo 6.2.6: Sejam Z, X1 , X2 , . . . variveis aleatrias tais que

Xn =
n
Z,
n+1
ento Xn 2 Z se EZ 2 < , mas no em caso contrrio.

Exemplo 6.2.7: Considere a seqncia de variveis aleatrias denidas no Exemplo 6.2.3.
Mostre que Xn 9r 0, para todo r > 0.
Soluo: Temos que
E|Xn |r = nr P (Xn = n) =
nr
.
log n
Logo, Xn 9r 0.
O prximo teorema arma que se Xn r X, ento Xn s X para s < r.
Teorema 6.2.8: Se Xn r X, ento Xn s X para 0 < s < r
Prova: Dena p =
r
s
>1eq=
r
.
rs
Ento,
1 1
s rs
+ = +
= 1.
p q
r
r
Seja Z = |X|s e Y = 1. Com estas denies, a desigualdade de Hlder implica que
E|ZY | (E|Z|p )1/p (E|Y |q )1/q ,
ou seja,
E(|X|s ) (E|X|ps )1/p 1 = (E|X|r )s/r .
Substituindo X por Xn X, temos
E(|Xn X|s ) (E|Xn X|r )s/r .
Portanto, se limn E|Xn X|r = 0, ento limn E|Xn X|s = 0.
Convergncia em Probabilidade
Denio 6.2.9: A seqncia de variveis aleatrias Y1 , Y2 , . . . converge em probabilidade
para a varivel aleatria Y se > 0
lim P ({w : |Yn (w) Y (w)| > }) = 0.
Notao: Yn P Y .
A intuio por trs desta denio que para n muito grande a probabilidade de que Yn
e Y sejam bem prximas bastante alta.
95
Exemplo 6.2.10: Considere a seqncia de variveis aleatrias denidas no Exemplo 6.2.3.

Mostre que Xn P 0. Soluo: Temos que para 0 < < 1, P (|Xn | > ) = P (Xn = n) e
para 1, P (|Xn | > ) P (Xn = n). Como P (Xn = n) = log1 n 0., temos que > 0,
lim P (|Xn | > ) = 0. Portanto, Xn P 0.
Exemplo 6.2.11: Considere X, X1 , X2 , . . . onde as varveis aleatrias tm distribuio
normal conjunta, todas com mdia 0 e matriz de covarincia parcialmente descrita por
1
.
n
Seja Yn = Xn X, como Yn uma combinao linear de variveis aleatrias com distribuio
normal, ela tambm possui distribuio normal. Precisamos determinar ento sua mdia e
sua varincia. Mas EY = E(Xn X) = EXn EX = 0 e
COV (X, X) = COV (Xn , Xn ) = 1, COV (X, Xn ) = 1
V arY = EY 2 = E(Xn X)2 = EXn2 2EXn X + EX 2 = 1 2(1

Portanto, Yn N (0, n2 ). Ento,
P (|Xn X| > ) = P (|Yn | > ) = 2P (Yn > ) = 2
1
2
)+1= .
n
n

x2
n ny2
1
e 4 dy = 2 e 2 dx.
4
2
n
2
Logo, > 0, limn P (|Xn X| > ) = 0, ou seja, Xn P X.

Convergncia em Distribuio
O ltimo tipo de convergncia estocstico que mencionamos no exatamente uma noo
de convergncia das variveis aleatrias propriamente ditas, mas uma noo de convergncia
de suas respectivas funes de distribuio acumuladas.
Denio 6.2.12: A seqncia de variveis aleatrias Y1 , Y2 , . . ., converge em distribuio
para a varivel aleatria Y se para todo ponto x de continuidade de FY
lim FYn (x) = FY (x).
Notao: Yn D Y .
Exemplo 6.2.13: Seja {Xn : n 1} uma seqncia de variveis aleatrias independentes
com distribuio Uniforme em (0, b), b > 0. Dena Yn = max(X1 , X2 , . . . , Xn ) e Y = b.
Vamos vericar que Yn D Y . Temos
se y < 0,
0
y n
n
( ) se 0 y < b,
FYn (y) = P (max(X1 , X2 , . . . , Xn ) y) = FX1 (y) =
b
1
se y b.
Fazendo n tender ao innito, temos que
lim FYn (y) =
n
0 se y < b,
1 se y b,
que corresponde funo de distribuio de Y e, portanto, Yn D Y .

96
Deve-se car atento que convergncia em distribuio no implica nada em relao aos
outros tipos de convergncia. Uma seqncia convergindo em distribuio para uma varivel
aleatria X tambm converge em distribuio para qualquer outra varivel aleatria Y tal
que FY = FX . O prximo exemplo serve para ilustrar melhor este fato.
Exemplo 6.2.14: Se uma seqncia de variveis aleatrias Y1 , Y2 , . . . independente e
identicamente distribuda de acordo com F , ento para todo n tem-se que FYn = F , logo
a seqncia converge em distribuio para qualquer varivel aleatria X tal que FX = F .
Claro, como a seqncia independente, os valores de termos sucessivos so independentes
e no exibem nenhum comportamento usual de convergncia.
O requisito de continuidade, mencionado na denio acima, se justica para evitar
algumas anomalias. Por exemplo, para n 1 seja Xn = n1 e X = 0, para todo . Parece
aceitvel que deveramos ter convergncia de Xn para X, qualquer que fosse o modo de
convergncia. Observe que
{
0 se x < n1 ,
Fn (x) =
1 se x n1 , e
{
0 se x < 0,
F (x) =
1 se x 0.
Portanto, como limn Fn (0) = 0 = F (0) = 1, no temos limn Fn (x) = F (x) para todo x IR.
Desse modo se houvesse a exigncia de convergncia em todos os pontos, no teramos
convergncia em distribuio. Entretanto, note que para x = 0, temos limn Fn (x) = F (x) e,
como o ponto 0 no de continuidade de F , conclumos que Xn D X.
Um exemplo mais complexo de convergncia em distribuio pode ser visto na anlise do
limite de
n
1
Sn =
(Xi EXi ),
n i=1
onde Xi s so variveis aleatrias independentes e identicamente distribudas. Neste, o Teorema Central do Limite arma que se V AR(Xi ) = 2 < , ento Sn converge em distribuio para qualquer varivel aleatria com distribuio N (0, 2 ).
O prximo teorema estabelece duas condies sucientes para que uma seqncia de
variveis aleatrias convirja em distribuio.
Teorema 6.2.15: Seja X, X1 , X2 , . . . uma seqncia de variveis aleatrias:
(a) Se X, X1 , X2 , . . . so variveis aleatrias discretas com P (Xn = xi ) = pn (i) e P (X =
xi ) = p(i), onde pn (i) p(i) quando n para todo i = 0, 1, 2, 3, . . ., ento
Xn D X.
(b) Se X, X1 , X2 , . . . so variveis aleatrias absolutamente contnuas com densidades dadas respectivamente por f, f1 , f2 , f3 , . . ., onde fn (x) f (x) quando n em quase
todo lugar, ento Xn D X.
97
Prova: Se pn (i) p(i) para todo i, ento
FXn (x) =
pn (i)
p(i) = FX (x).
i:xi x
i:xi x
Onde a convergncia acima segue do Teorema da Convergncia Dominada, visto que FXn (x)
1, x IR.
A prova da parte (b) usa conceitos de Teoria da Medida e ser omitida.
O prximo exemplo mostra que se uma seqncia de variveis aleatrias discretas converge
em distribuio, no necessariamente sua funo probabilidade de massa converge.
Exemplo 6.2.16 : Sejam X, X1 , X2 , . . . variveis aleatrias tais que P (X = 0) = 1 e
P (Xn = 1/n) = 1. Ento, temos FX (x) = 1 se x 0, e FX (x) = 0 caso contrrio; e
FXn (x) = 1 se x 1/n e FXn (x) = 0 caso contrrio. Logo, FXn (x) FX (x), x = 0, ou
seja, Xn D X. Porm, p(0) = 1 = 0 = limn pn (0).
O prximo exemplo mostra que se uma seqncia de variveis aleatrias absolutamente
contnuas converge em distribuio, no necessariamente sua funo densidade de probabilidade converge.
Exemplo 6.2.17 : Considere uma seqncia de variveis aleatrias X, X1 , X2 , . . . com
funo de distribuio acumuladas dadas respectivamente por F, F1 , F2 , F3 , . . ., onde
0
, se x 0
sen
2nx
x(1 2nx ) , se 0 < x 1
Fn (x) =
1
, se x > 1;
e
, se x 0
0
x , se 0 < x 1
F (x) =
1
, se x > 1.
Ento Fn e F so absolutamente contnuas com densidade dada por

{
1 cos 2nx , se 0 x 1
fn (x) =
0
, caso contrrio;
{
e
f (x) =
1 , se 0 < x 1
0 , caso contrrio.
fcil ver que Fn (x) F (x), x IR. Contudo, fn (x) 9 f (x).
6.2.2
98
Relao Entre os Tipos de Convergncia
A primeira relao que iremos provar que convergncia quase certa implica convergncia
em probabilidade.
Teorema 6.2.18: Xn X cp1 Xn P X.
Prova: Para provar que convergncia quase certa implica em convergncia em probabilidade,
considere a seguinte famlia de eventos
An, = {w : |Xn (w) X(w)| }.
Logo, pela interpretao de convergncia pontual,
C = {w : Xn (w) X(w)} = >0
N =1 nN An, .
Se Xn X cp1, ento P (C) = 1. Equivalentemente, pela Lei de De Morgan,
c
D = C c = >0 D , onde D =
N =1 nN An, ,
e
P (>0 D ) = 0.
Portanto, convergncia quase certa implica que > 0, P (D ) = 0. Seja FN = nN Bn .
Note que FN . Logo, limN FN =
N =1 nN Bn . Portanto, pelo axioma da continuidade
monotnica da probabilidade, tem-se que
P (
N =1 nN Bn ) = lim P (nN Bn ).
N
Ento,
0 = P (D ) = lim P (nN Acn, )
N
lim P (AcN, ) = lim P (|XN (w) X(w)| > ).
Portanto, Xn P X.
O prximo teorema prova que convergncia na r-sima mdia implica convergncia em
probabilidade.
Teorema 6.2.19: Xn r X Xn P X.
Prova: Primeiro note que
|Xn X|r
r
I{w:|Xn X|>} . Logo, tem-se que
|Xn X|r
E(
) E(I{w:|Xn X|>} ),
r
ou seja,
E(|Xn X|r )
P ({w : |Xn X| > }).
r
99
Se Xn r X, tem-se que limn E(|Xn x|r ) = 0. Ento, para todo > 0

lim P ({w : |Xn X| > }) = 0,
ou seja, Xn P X.
O prximo exemplo prova que nem convergncia em probabilidade, nem convergncia na
r-sima mdia implicam convergncia quase certa.
Exemplo 6.2.20: Seja X uma varivel aleatria com distribuio uniforme no intervalo
[0, 1], e considere a seqncia de intervalos denida por
I2m +i = [
i i+1
,
],
2m 2m
para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2m 1.
Note que tem-se 2m intervalos de comprimento 2m que cobrem todo o intervalo [0, 1], e
o comprimento dos intervalos ca cada vez menor tendendo a 0. Denamos
{
1 se X(w) In ,
Yn (w) =
0 se X(w)
/ In .
A seqncia Y1 , Y2 , . . . converge em probabilidade para 0, pois para 0 < 1,
P (|Yn | ) = P (Yn = 1) = P (X In ),
e esta probabilidade, que igual ao comprimento de In , converge para zero quando n .
Esta seqncia tambm converge na r-sima mdia para todo r > 0, visto que E(|Yn |r ) =
P (Yn = 1) 0 quando n . Logo, Yn converge na r-sima mdia para 0.
Porm para todo w , Yn (w) = 1 para um nmero innito de ns e Yn (w) = 0 para
um nmero innito de ns. Portanto, Yn (w) no converge para todo w, o que implica que Yn
no converge quase certamente.
O prximo teorema estabelece mais uma relao entre convergncia quase certa e convergncia em probabilidade.
Teorema 6.2.21: Xn P X se, e somente se, toda subseqncia {Xnk } possui uma outra
subseqncia {Xnk(i) } tal que Xnk(i) X cp1 para i .
Prova: Suponha que Xn P X, ento dada qualquer subseqncia {Xnk }, escolha uma
outra subseqncia {Xnk(i) } tal que j k(i) implica que P (|Xnj X| i1 ) < 2i . Em
particular, temos que P (|Xnk(i) X| i1 ) < 2i . Seja Ai = {|Xnk(i) X| i1 },
i
= 1 < . Logo, pelo Lema de Borel-Cantelli, temos que

ento
i=1 2
i=1 P (Ai ) <
P (Ai innitas vezes) = 0, ou seja, P (Ai nitas vezes) = 1. Portanto, |Xnk(i) X| < i1
exceto para um nmero nito de is com probabilidade 1. Portanto, Xnk(i) X cp1.
Se Xn no converge para X em probabilidade, existe um > 0 e uma subseqncia {Xnk }
tal que P (|Xnk X| > ) > . Logo nenhuma subseqncia de {Xnk } pode convergir para X
100
em probabilidade, logo pelo Teorema 6.2.18, nenhuma subseqncia converge para X quase
certamente.
O prximo exemplo mostra que convergncia em probabilidade no implica convergncia
na r-sima mdia
Exemplo 6.2.22: Seja X uma varivel aleatria com distribuio uniforme no intervalo
[0, 1]. Considere a seguinte seqncia de varveis aleatrias
{ n
2 se X(w) (0, n1 ),
Yn (w) =
0 se X(w)
/ (0, n1 ).
Ento, P (|Yn | > ) = P (X(w) (0, n1 )) =
1
n
0, mas E(|Yn |r ) = 2nr n1 .
O prximo exemplo mostra que convergncia quase-certa no implica convergncia na

r-sima mdia.
Exemplo 6.2.23: Seja {Yn , n 1} uma seqncia de variveis aleatrias onde
P (Yn = 0) = 1 n2 e P (Yn = en ) = n2 .
Portanto, para todo > 0,
P (|Yn | > ) = P (Yn > ) P (Yn = en ) = n2 .
Logo,
P (|Yn | > )
n=1
n2 < .
n=1
Ento, Borel-Cantelli implica que |Yn | > innitas vezes com probabilidade 0, o que por sua
vez implica que Yn 0 com probabilidade 1, ou seja, Yn 0 cp1. Porm,
enr
E|Yn | = 2 ,
n
r
para todo r > 0. Portanto, Yn 0 cp1, mas Yn 9r 0 para todo r > 0.

O prximo teorema trata da relao entre convergncia em distribuio e convergncia
em probabilidade.
Teorema 6.2.24: As seguintes relaes entre os tipos de convergncia so vlidas:
(a) Xn P X Xn D X
(b) Se Xn D c, onde c uma constante, ento Xn P c.
101
Prova: Para parte (a), suponha que Xn P X e seja x um ponto de continuidade de FX .

Queremos provar que FXn (x) FX (x) quando n .
Como para > 0, Xn x X x + ou |X Xn | > , temos {w : Xn (w) x} {w :
X(w) x + } {w : |Xn (w) X(w)| > }. Logo,
FXn (x) = P (Xn x) FX (x + ) + P (|Xn X| > ).
Por outro lado, X x Xn x ou |Xn X| > de modo que
FX (x ) FXn (x) + P (|Xn X| > ).
Juntando as duas desigualdades, temos que > 0, and n,
FX (x ) P (|Xn X| > ) FXn (x) FX (x + ) + P (|Xn X| > ).
Como Xn P X, para qualquer > 0, existe N tal que para n N , temos que
FX (x ) FXn (x) FX (x + ) + .
Finalmente, como x ponto de continuidade de FX , para sucientemente pequeno, temos
que
FX (x) 2 FX (x ) FXn (x) FX (x + ) + FX (x) + 2.
Ou seja, limn FXn (x) = FX (x).
Para parte (b), suponha que Xn D c. Note que a funo de distribuio de uma varivel
aleatria constante c :
{
1 se x c,
Fc (x) =
0 se x < c.
Pela convergncia em distribuio, tem-se que limn FXn (x) = 0, se x < c e limn FXn (x) =
1, se x > c. Logo, para > 0,
P (|Xn c| ) = P (c Xn c + ) P (c < Xn c + ) =
FXn (c + ) FXn (c ) 1 quando n .
Ou seja, > 0, limn P (|Xn c| > ) = 0.
A Figura 6.1 resume a relao entre os tipos de convergncia.
Exemplo 6.2.25: Para n 1, Xn U (0, 1) so variveis aleatrias i.i.d. Dena Yn =
min(X1 , X2 , . . . , Xn ) e Un = nYn . Mostre que
(a) Yn P 0,
(b) Un D U , sendo U Exp(1).
6.3. CONVERGNCIA DE VETORES ALEATRIOS
102
Figura 6.1: Relao entre os tipos de convergncia.

Soluo: Para parte (a), note que
P (|Yn | > ) = P (Yn > ) = P (X1 > , X2 > , . . . , Xn > ).
Como os Xn so independentes temos que a ltima expresso igual a
(P (X1 > ))n = (1 )n .
Como (1 )n 0 quando n , temos que Yn P 0.
Para parte (b), note que
FUn (x) = P (Un x) = 1 P (Un > x) = 1 P (nYn > x) = 1 P (Yn > x/n)
De acordo com a parte (a), esta expresso igual a 1 (1 x/n)n , que por sua vez converge
para 1 ex quando n , que igual a FU (x).
6.3
Convergncia de Vetores Aleatrios
Para o caso vetorial as denies de convergncia sofrem algumas adaptaes. Para as

convergncias quase certa e em probabilidade, precisamos avaliar a proximidade entre os
vetores aleatrios Xn e X pelo comportamento
da norma da diferena entre eles. Em geral,
essa norma calculada por ||Xn X|| = ( kj=1 (Xnj Xj )2 )1/2 , onde k a dimenso dos
vetores e Xnj a coordenada j do vetor Xn . Pode-se vericar que a convergncia do vetor
aleatrio, quase certamente ou em probabilidade, ocorre se, e somente se, existir a mesma
6.3. CONVERGNCIA DE VETORES ALEATRIOS
103
convergncia em cada uma das variveis que compe o vetor aleatrio. Dessa forma, o caso
multidimensional pode ser estudado a partir de repetidas aplicaes do caso univariado.
Para convergncia em distribuio de vetores aleatrios, requeremos que a funo de
distribuio conjunta Fn (x) convirja para F (x), em todos os pontos de continuidade da
funo F . Entretanto, lembremos que da funo de distribuio conjunta podemos obter as
marginais, mas o caminho inverso nem sempre possvel. Por essa razo, diferentemente das
convergncias quase certa e em probabilidade, no podemos reduzir o estudo da convergncia
em distribuio de vetores aleatrios, ao comportamento das suas respectivas coordenadas.
No temos equivalncia, mas apenas implicao, em uma das direes. Ou seja, se o vetor
converge em distribuio ento cada componente tambm converge em distribuio, para a
correspondente marginal da funo de distribuio limite. Entretanto a recproca no em
geral, verdadeira.
Captulo 7
Funes Caractersticas
7.1
Motivao
Em matemtica e suas aplicaes, sempre valioso ter maneiras alternativas de representar

o mesmo objeto matemtico. Uma analogia pode ser que um conjunto de vetores pode ser
representado em vrios sistemas de coordenadas. No nosso caso de probabilidade, o conceito
bsico o de uma medida de probabilidade P que d um valor real numrico a um conjunto
de eventos em uma -lgebra. Para X uma varivel aleatria, sabe-se que existem outras
maneiras de representar a probabilidade P , como por exemplo atravs de sua funo de distribuio acumulada FX . Se X for uma varivel aleatria discreta, pode-se equivalentemente
representar P pela funo de probabilidade de X, pX . Se X for absolutamente contnua,
ento P pode ser representada pela funo densidade de probabilidade de X, fX . Uma
funo caracterstica X de uma varivel aleatria X uma outra maneira de representar
P . Algumas vantagens do uso da funo caracterstica so: pode-se calcular os momentos
de uma varivel aleatria X diferenciando-se a funo caracterstica (o que geralmente
mais simples que usar diretamente as denies de momento que envolvem integrais), podese calcular mais facilmente a distribuio de soma de variveis aleatrias independentes, e
nalmente o uso de funes caractersticas ajuda na prova de uma famlia de Teoremas Centrais do Limite que ajudam a explicar a prevalncia de distribuies normal ou Gaussianas
na Natureza.
Uma funo geratriz de momento uma outra representao alternativa da distribuio
de uma varivel aleatria. As vantagens desta representao so as mesmas da funo
caracterstica, mas como a funo caracterstica mais robusta (no sentido que ela sempre
existe), ns focaremos no uso da mesma, e apenas no nal deste captulo mencionaremos a
denio de uma funo geratriz de momento.
At aqui, s tratamos com variveis reais, mas o caso complexo similar. Sem aprofundar
o assunto, diremos queuma varivel aleatria X complexa, se pode ser escrita como X =
X1 + iX2 , onde i = 1, e X1 e X2 so variveis aleatrias reais. Logo, para vericar
que uma funo complexa varivel aleatria, precisamos vericar propriedades da imagem
inversa nas suas duas partes. Para o valor esperado de X, exige-se que as duas partes sejam
nitas. Assim, temos: EX = EX1 + iEX2 , onde EX1 e EX2 so ambas nitas. Para
efeitos prticos, quando realizando integrao de funes complexas, podemos operar como
104
7.2. DEFINIO
105
se estivssemos com funes reais (trata-se i como se fosse uma constante real).
7.2
Denio
Denio 7.2.1: A funo caracterstica X de uma varivel aleatria X dada por:

.
X (t) = EeitX = E cos(tX) + iE sen(tX), onde i = 1.
Note que como cos(tX) e sen(tX) so variveis aleatrias limitadas, a esperana na
denio acima nita e, conseqentemente, a funo caracterstica de qualquer varivel
aleatria bem denida. Note tambm que de acordo com esta denio, a funo de
distribuio acumulada determina a funo caracterstica de uma varivel aleatria.
No caso particular de uma varivel aleatria discreta, temos:
X (t) =
eitxk p(xk ),
k
onde p(xk ) a funo probabilidade de X.

Analogamente, se X for uma varivel aleatria contnua, temos:

X (t) =
eitx fX (x)dx,
onde fX (x) a funo densidade de probabilidade de X.

Observao 7.2.2: A funo caracterstica de uma varivel aleatria contnua a transformada de Fourier da densidade de probabilidade de X.
7.2.1
Propriedades
A seguir listamos algumas propriedades da funo caracterstica.

P1. A funo caracterstica limitada por 1: |X (t)| 1, t R.
Prova: Como pela desigualdade de Jensen, E 2 cos(tx) E cos2 (tx) e E 2 sen(tx)
E sen2 (tx), temos
|X (t)| = E 2 cos(tX) + E 2 sen(tX) E(cos2 (tX) + sen2 (tX)) = E1 = 1.
P2. A funo caracterstica assume o valor 1 no ponto 0: X (0) = 1.

Prova: X (0) = Eei0X = E1 = 1.
7.2. DEFINIO
106
P3. X (t) = X (t), onde c o complexo conjugado de c. (Se c = x + iy, o seu complexo
conjugado c = x iy.)
Prova: X (t) = E cos(tX) + iE sen(tX) = E cos(tX) iE sen(tX) = X (t).
P4. X uniformemente contnua na reta.
Prova: Uma funo uniformemente contnua, se para todo > 0 existe > 0 tal
que para todo t, s R |(t) (s)| < quando |t s| < . Logo,
|(t) (s)| = |E(eitx eisx )| E|eisx (ei(ts)x 1)| = E|ei(ts)x 1|.
Seja h(u) = |eiux 1|. Como 0 |eiux 1| 2, 2 integrvel, e limu0 h(u) = 0, pelo
teorema da convergncia dominada, temos que limu0 Eh(u) = 0. Ento, para todo
> 0 existe > 0 tal que |u| < implica que Eh(u) < , ou seja, para todo > 0
existe > 0 tal que |t s| < implica que |(t) (s)| E|ei(ts)x 1| < .
P5. Se X e Y so independentes, ento X+Y (t) = X (t) Y (t), t R.
Prova: X+Y (t) = Eeit(X+Y ) = E(eitX eitY ) = E(eitX )E(eitY ) = X (t) Y (t).
fcil provar por induo
n que se X1 , . . . , Xn so variveis aleatrias independentes,
ento X1 +...+Xn (t) = k=1 Xk (t), t R.
P6. A varivel aleatria X tem distribuio simtrica em torno de 0 se, e somente se, X (t)
real para todo t R.
Prova: X simtrica em torno de 0 se e somente se P (X x) = P (X x), x R.
Como X x X x, ns temos que FX = FX , ou seja, X = X . Como
X (t) = Eeit(X) = Eei(t)X = X (t) = X (t).
Ento, X simtrica em torno de 0 se e somente se X (t) = X (t), ou seja, se X (t)
real para todo t R.
(k)
P7. Se E|X|n < , ento X (0) = ik EX k para k {1, . . . , n}, de modo que a funo
caracterstica uma espcie de funo geradora de momentos.
Prova: Suponhamos que X seja integrvel; queremos provar que X (t) = E(iXeitX ).
X (t)
Note que para h = 0, temos X (t+h)
= E(eitX (e h 1) ). Como (e h1) ix
h
quando h 0 (regra de LHopital), x R, temos que o resultado decorre se pudermos
trocar a ordem do limite e da esperana. Mas como para todo x,
h
h isx
isx
ixe
ds
e ds
eihx 1
|=| 0
| = |x| | 0
| |x|.
|
h
h
h
ihX
ihx
Portanto, como |eitX | = 1, temos

|eitX
(eihX 1)
| |X|.
h
7.2. DEFINIO
107
Como X integrvel, o Teorema da Convergncia Dominada implica que

X (t + h) X (t)
h0
h
ihX
(e
1)
(eihX 1)
= lim E(eitX
) = E(lim eitX
) = E(iXeitX ).
h0
h0
h
h
X (t) = lim
Logo, X (0) = iEX. O restante da prova segue por induo em n.

P8. Se Y = aX + b, onde a e b so nmeros reais constantes, Y (t) = eitb X (at).
Prova: Y (t) = EeitY = Eeit(aX+b) = Eeitb eitaX = eitb Eei(at)X = eitb X (at).
P9. X (t) positiva denida. Isto , para todo n = 1, 2, . . ., tem-se
n
n
X (tj tk )zj zk 0,
j=1 k=1
para quaisquer nmeros reais t1 , t2 , . . . , tn e complexos z1 , z2 , . . . , zn .

Prova:
n
n
X (tj tk )zj zk
j=1 k=1
n
n
=
=
j=1 k=1
n
n
E(eiX(tj tk ) )zj zk
E(zj eiX(tj ) zk eiXtk )
j=1 k=1
n
n
zj eiX(tj ) zk eiXtk )
= E(
j=1 k=1
n
= E[(
iX(tj )
zj e
j=1
zk eiXtk )]
)(
k=1
n
n
iX(tj )
zk eiXtk )]
= E[(
zj e
)(
= E(|
j=1
n
k=1
zj eiX(tj ) |2 ) 0
j=1
Portanto, X positiva denida.

Os resultados a seguir conhecidos como Frmula de Inverso e Teorema da Unicidade
garantem que a funo caracterstica determina a funo de distribuio de uma varivel
aleatria.
7.2. DEFINIO
108
Teorema 7.2.3: Seja X uma varivel aleatria qualquer, ento sua funo caracterstica
X (t) determina a funo de distribuio de X, atravs da seguinte Frmula de Inverso:
c iat
1
e
eibt
F (b) F (a) = lim

X (t)dt;
c 2 c
it
onde F (w) = 12 (F (w+ ) + F (w )), w IR e a, b, c so nmeros reais tais que c > 0 e a < b.
iat
ibt
Prova: Note que se F for contnua em w, ento F (w) = F (w). A funo e ite
denida
para ser igual a b a, quando t = 0, coincidindo com seu limite quando t 0. Logo, ela
ser contnua para todo t real e limitada, pois:
i(a+b)t
eiat eibt
eiat eibt
| = |e 2 | |
|
it
it
1
1
2 sen[ (ba)t
]
e 2 i(ba)t e 2 i(ab)t
2
|=|
| b a,
=|
it
t
onde a ltima desigualdade decorre do fato que | senw| w, w IR.

Denotando por Int(c) a integral da frmula da inverso, temos
c iat
e
eibt
1
Int(c) =
X (t)dt
2 c
it
c iat
1
e
eibt
=
E(eiXt )dt
2 c
it
c
1
ei(aX)t ei(bX)t
=
E(
)dt
2 c
it
c i(aX)t
1
e
ei(bX)t
= E[
dt],
2 c
it
onde a ltima igualdade decorre da troca da ordem de integrao que justicada tendo em
vista que o integrando limitado conforme provamos acima. Portanto, trabalhando o termo
entre colchetes, temos
ei(aX)t ei(bX)t
dt
it
c
c
1
1
=
[cos((X a)t) + i sen((X a)t) cos((X b)t) i sen((X b)t)]dt
2 c it
1 c sen((X a)t) sen((X b)t)

(
)dt
=
0
t
1 c sen((X a)t)
1 c sen((X b)t)
=
dt
dt
0
t
0
t
1 c(Xb) sen(u)
1 c(Xa) sen(u)
du
du
=
0
u
0
u
= g(c(X a)) g(c(X b)),
1
2
7.2. DEFINIO
109
onde g a funo dada por g(w) =
w sen(u)
du, w IR. Logo, temos
u
0
Int(c) = E[g(c(X a)) g(c(X b))].

Como vamos passar ao limite para c , precisamos vericar se ser possvel trocar a
ordem entre limite e esperana. Como g contnua e limw g(w) = 21 , temos que g
limitada. Ento a troca de ordem do limite e da esperana justicada pelo Teorema da
Convergncia Dominada. Seja Y = 21 IaX<b + 12 Ia<Xb . Temos que
lim g(c(X a)) g(c(X b)) = Y.
Ento,
lim Int(c) = E[ lim g(c(X a)) g(c(X b))] = EY.
Mas o valor esperado de Y dado por:

1
1
EY = P (X = a) + P (X = b) + P (a < X < b)
2
2
1
1
= (F (a) F (a )) + (F (b) F (b )) + (F (b ) F (a))
2
2
1
1
= (F (b) + F (b )) (F (a) + F (a )) = F (b) F (a).
2
2
Portanto, limc Int(c) = F (b) F (a), como queramos demonstrar.
Agora podemos utilizar a frmula da inverso para provar o Teorema da Unicidade.
Teorema 7.2.4: Teorema da Unicidade. Se as variveis aleatrias X e Y tm a mesma
funo caracterstica, ento elas tm a mesma distribuio.
Prova: Por hiptese, X e Y tm a mesma funo caracterstica e, como conseqncia da
Frmula da Inverso, temos que para quaisquer a, b reais e a < b,
FX (b) FX (a) = FY (b) FY (a).
Tomando o limite quando a , temos que FX (a) 0 e FY (a) 0. Portanto,
FX (b) = FY (b), b IR. Seja c < b, pela monotonicidade de FX e FY e pela denio de F ,
temos
FX (c) FX (b) FX (b) e FY (c) FY (b) FY (b).
Ento pela continuidade direita da funo de distribuio, temos que
lim FX (b) = FX (c) e lim FY (b) = FY (c).
bc
bc
Logo, FX (c) = FY (c), c IR como queramos demonstrar.

Note que o Teorema da Unicidade junto com a denio de funo caracterstica implicam
que existe uma correspondncia 1-1 entre funes caractersticas e funes de distribuies.
7.2. DEFINIO
110
1
Exemplo 7.2.5: Se X (t) = 1+t
2 , calcule V arX.
Soluo: Diferenciando X , temos X (t) =
2(1+t2 )2 +2t(2(1+t2 )2t)
.
(1+t2 )4
2
2
X (t) =
Portanto, EX =
Logo, V arX = EX (EX) = 2.
2t
.
(1+t2 )2
X (0)
i
Diferenciando mais uma vez,
= 0 e EX 2 =
X (0)
i2
= (2) = 2.
Exemplo 7.2.6: Seja (t) = cos(at), onde a > 0. Mostraremos que funo caracterstica, achando a distribuio correspondente. J que assume valores reais, se fosse
funo caracterstica de alguma varivel aleatria X, ento por P6, X possuiria distribuio
simtrica em torno de zero. Com efeito teramos cos(at) = (t) = E cos(tX), pois a parte
imaginria seria nula. Como cos(at) = cos(at), evidente que uma distribuio simtrica
concentrada nos dois pontos a e a corresponderia a funo caracterstica . Portanto,
funo caracterstica de X, se, e somente se, P (X = a) = 1/2 = P (X = a).
Exemplo 7.2.7: Sejam X1 e X2 duas variveis aleatrias i.i.d. e seja Y = X1 X2 . Qual
a funo caracterstica de Y ?
Soluo: Seja a funo caracterstica de X1 e X2 . Por P8 e P3, temos que X2 (t) =
(t) = (t). Ento, como X1 e X2 so independentes, por P5, temos que
Y (t) = (t)X2 (t) = |(t)|2 .
Teorema 7.2.8: Uma funo contnua : R C com (0) = 1 funo caracterstica de
alguma varivel aleatria se, e somente se, ela for positiva denida.
Prova: Conforme propriedades j demonstradas, se for funo caracterstica, contnua,
positiva denida e aplicada em 0, resulta o valor 1. A prova da recproca ser omitida.
7.2.2
Exemplos de Funes Caractersticas
Bernoulli. Suponhamos que X Bernoulli(p), onde P (X = 1) = p = 1 P (X = 0).

Ento,
X (t) = EeitX = peit + (1 p).
Poisson. Suponhamos que X P oisson(). Ento,
X (t) = EeitX =
n=0
eitn e
n
(eit )n
it
= e
= e(e 1) .
n!
n!
n=0
1
Uniforme. Suponhamos que X U nif orme(a, a). Ento, fX (x) = 2a
para a < x < a,
e fX (x) = 0 caso contrrio. Logo, se t = 0, ento X (0) = 1, e para t = 0,
a itx
1 eita eita
sen(ta)
e
itX
dx = (
)=
.
X (t) = Ee =
2a
it
ta
a 2a
7.3. TEOREMA DA CONTINUIDADE DE LEVY
111
Normal. Suponhamos que X N (0, 1). Ento,
2
(xit)2
t2
t2
1
1
itx x
2
2
X (t) =
e e dx = e
e 2 dx = e 2 ,
2
2
onde esta ltima integral pode ser calculada utilizando o Teorema de Cauchy tendo em vista
z 2
que e 2 uma funo analtica no plano complexo.
Exponencial. Suponhamos que X Exp(). Ento,

itx
x
X (t) =
e e dx =
ex(+it) dx = [
0
ex(+it) ]
.
0 =
+ it
it
Exemplo 7.2.9: Sejam X1 , X2 , . . . , Xn variveis aleatrias independentes e identicamente

distribudas, seguindo o modelo de Poisson com parmetro . Queremos obter a distribuio
de X1 + X2 + . . . + Xn .
Soluo: Temos
it(X1 +...+Xn )
X1 +...+Xn (t) = E(e
)=
E(eitXj ) = en(e
it 1)
j=1
Portanto, X1 + X2 + . . . + Xn tem uma distribuio Poisson com parmetro n.
7.3
Teorema da Continuidade de Levy
Nosso objetivo nesta seo provar que Xn D X se, e somente se, Xn (t) X (t), t
R. Antes de provarmos a necessidade desta armao, considere a seguinte denio de
convergncia de funes de distribuio.
Denio 7.3.1: Seja X, X1 , X2 , . . . uma seqncia de variveis aleatrias com funes de
distribuio acumuladas dadas respectivamente por F, F1 , F2 , . . .. Diz-se que Fn converge
fracamente para F , se Xn D X.
Teorema 7.3.2: Teorema de Helly-Bray. Sejam F, F1 , F2 , . . . funes de distribuio.
Se Fn converge fracamente para F , ento
g(x)dFn (x) g(x)dF (x)

para toda funo g : R R contnua e limitada.
Prova: Para < a < b < , onde a e b so pontos de continuidade de F ,
b
b
b
b
| gdFn gdF | | gdFn

gdFn |+|
gdFn
gdF |+|
gdF gdF | = I+II+III.
a
112
Seja c = supxR |g(x)| < e seja > 0. Ento,

b
a

a

III = |
gdF gdF | = |
gdF +
gdF | |
gdF | + |
gdF |
a
b
a

a

|g|dF +
|g|dF
cdF +
cdF = c(F (a) + 1 F (b))
Logo, para qualquer > 0, podemos escolher a sucientemente pequeno e b sucientemente grande tal que III < , pois limx F (x) = 0 e limx F (x) = 1. Para esses valores
de a e b, e para n sucientemente grande, como a e b so pontos de continuidade de F , e
como Fn converge fracamente para F , temos que I c(Fn (a) + 1 Fn (b)) < 2.
Consideremos agora II. Sejam a e b os pontos j escolhidos. J que g uniformemente
contnua em [a, b],1 podemos escolher x0 , x1 , . . . , xN tais que a = x0 < x1 < . . . < xN = b,
onde xi so pontos de continuidade de F e |g(x) g(xi )| < para todo x [xi , xi+1 ],
i {0, . . . , N 1}. Ento,
xi+1
g(x)dFn (x) (g(xi )+)(Fn (xi+1 )Fn (xi )) = Mni
mni = (g(xi ))(Fn (xi+1 )Fn (xi ))
xi
mi = (g(xi ) )(F (xi+1 ) F (xi ))
xi+1
g(x)dF (x) (g(xi ) + )(F (xi+1 ) F (xi )) = Mi .
xi
Portanto,
mni Mi
xi+1
xi+1
g(x)dFn (x)
xi
g(x)dF (x) Mni mi ,
xi
para i {0, . . . , N 1}. Somando, temos

N
1
(mni Mi )
g(x)dFn (x)
a
i=0
g(x)dF (x)
a
N
1
(Mni mi ).
i=0
Quando n , temos que mni mi e Mni Mi , logo,

N
1
(mni Mi )
i=0
N
1
i=0
N
1
(mi Mi ) = 2(F (b) F (a)) 2
i=0
(Mni mi )
N
1
(Mi mi ) = 2(F (b) F (a)) 2
i=0
N 1
1
(mi Mi )| <
(mni Mi ) i=0
Como para n sucientemente grande temos que | N
N 1
i=0
N 1
N 1
N 1
(Mni
e | i=0 (Mni mi ) i=0 (Mi mi )| < , segue que i=0 (mni Mi ) 3 e i=0
1
Uma funo g uniformemente contnua em [a, b] se para todo > 0, existe > 0 tal que para todo
x, y [a, b] se |x y| < , ento |g(x) g(y)| < . fcil provar que toda funo contnua em um intervalo
fechado uniformemente contnua neste intervalo.
113
m
i ) 3. Ento, para n sucientemente grande, temos que II 3. Portanto, |
gdF | 6 para n grande o suciente.
gdFn
Como cos(tx) e sen(tx) so funes contnuas e limitadas, tem-se que para t xo

E(cos(tXn )) E(cos(tX))
e
E(sen(tXn )) E(sen(tX))
Logo, Xn (t) X (t).
fcil denir a funo caracterstica dada uma funo de distribuio F : (t) =
itx
e dF (x), t R. O prximo teorema implica a sucincia do nosso objetivo nesta seo,
ou seja, se Xn X , ento Xn D X.
Teorema 7.3.3: Sejam F1 , F2 , . . . funes de distribuies e 1 , 2 , . . . suas funes caractersticas. Se n converge pontualmente para um limite e se contnua no ponto zero,
ento
(a) existe uma funo de distribuio F tal que Fn F fracamente; e
(b) a funo caracterstica de F .
Prova: Note que o teorema anterior implica que, sob as hipteses, (a) implica (b). Para
provar que Fn converge fracamente para alguma funo de distribuio, vamos primeiro
provar que para toda seqncia de funes de distribuio satisfazendo as condies do
teorema, existem uma subseqncia Fn1 , Fn2 , . . . e uma funo de distribuio F tais que
Fnj F fracamente, quando j . Provaremos isso em duas etapas:
(i) existem uma subseqncia Fn1 , Fn2 , . . . e uma funo F : R [0, 1] tais que F nodecrescente e contnua direita e Fnj (x) F (x), quando j , para todo x ponto
de continuidade de F ; e
(ii) F () = 1 e F () = 0.
Para provar (i), usaremos o mtodo da diagonalizao. Sejam r1 , r2 , . . ., uma enumerao
dos racionais da reta. Considere a seguinte matriz:
F1
F11
F12
F13
..
.
F2
F21
F22
F23
..
.
F3
F31
F32
F33
..
.
F4
F41
F42
F43
..
.
..
.
Nesta matriz temos que a seqncia (F1j , F2j , F3j , . . .) contida na (j + 1)-sima linha da
matriz uma subseqncia da seqncia contida na j-sima linha que converge no racional
rj , para j 1. Note que como a seqncia (F1j1 (rj ), F2j1 (rj ), F3j1 (rj ), . . .) uma seqncia
limitada de nmeros reais, ela possui uma subseqncia convergente; logo pode-se escolher a
114
seqncia (F1j , F2j , F3j , . . .) indutivamente conforme descrito acima. Seja Fnj = Fjj , para j
1, ento temos que a subseqncia (Fnj )j converge em todos os racionais da reta. Chamemos
o limite de F (rk ), de modo que Fnj (rk ) F (rk ), k. bvio que 0 F (rk ) 1 e que F no
decrescente nos racionais. Denamos F em x irracional por F (x) = limrx,r rational F (r).
F assim denida no-decrescente, mas no necessariamente contnua direita. Vamos
provar que Fnj (x) F (x) para todo ponto x de continuidade de F . Suponha que x um
ponto de continuidade de F e sejam r e r racionais tais que r < x < r e F (r ) <
F (x) < F (r ) + . Ento,
F (x) < F (r ) = lim Fnj (r ) lim inf Fnj (x)
j
lim sup Fnj (x) lim Fnj (r ) = F (r ) < F (x) +

j
Como arbitrrio, temos Fnj (x) F (x) quando j . Finalmente, podemos

redenir F nos seus pontos de descontinuidade de modo que F seja contnua direita.
Para provar (ii), note que
t
t
nj (s)ds =
eisx dFnj (x)ds.
0
Mas como o integrando limitado podemos trocar a ordem de integrao, logo

t
t
itx
e 1
isx
nj (s)ds =
e dsdFnj (x) =
dFnj (x)
ix
0
0
Considere a funo, h(x) = e ix1 para x = 0 e h(0) = t. h limitada e contnua e um

argumento similar ao utilizado na prova do teorema anterior, pode ser utilizado para provar
que quando j
itx

e 1
dFnj (x) =
h(x)dFnj (x)
h(x)dF (x) =
ix
t
itx
e 1
dF (x) =
eisx dF (x)ds
ix
itx
Como nj (t) (t), contnua em zero, implica que limitada e mensurvel, ento
pelo teorema da convergncia dominada, tem-se que
t
t
nj (s)ds
(s)ds.
0
Igualando-se os limites iguais e dividindo-se por t, temos

1 t isx
1 t
e dF (x)ds, t = 0.
(s)ds =
t 0
t 0
Fazendo t 0 e usando a continuidade em s = 0 das duas funes (s) e
tem-se

(0) =
1dF (x) = F () F ().
eisx dF (x),
7.4. SOMA DE UM NMERO ALEATRIO DE VARIVEIS ALEATRIAS
115
Como (0) = limn n (0) = 1, temos que F () F () = 1, ou seja, o que implica

que F () = 1 e F () = 0.
Para terminar a prova suponha por contradio que Fn no convirja fracamente para
F , onde Fnj F fracamente. Ento, existiro x, ponto de continuidade de F e uma
subseqncia F1 , F2 , . . . tais que Fn (x) a = F (x). Como essa subseqncia tambm
satisfaz as condies do teorema, (i) e (ii) implicam que existe uma subseqncia F1 , F2 , . . .
e uma funo de distribuio G tais que Fn G fracamente. Como F e G possuem a
mesma funo caracterstica (), temos que F = G, ou seja Fn (x) a = G(x) = F (x),
uma contradio.
Exemplo 7.3.4: Suponha que Xn e Yn so independentes para cada n 0 e que Xn D X0
e Yn D Y0 . Prove que Xn + Yn D X0 + Y0 .
Soluo: Pelo Teorema da Continuidade sabemos que Xn (t) X0 (t) e que Yn (t)
Y0 (t). Como Xn e Yn so independentes temos que Xn +Yn (t) = Xn (t)Yn (t). Portanto,
lim Xn +Yn (t) = lim(Xn (t)Yn (t)) = X0 (t)Y0 (t) = X0 +Y0 (t).
n
Logo, pelo Teorema da Continudade, temos que Xn + Yn D X0 + Y0 .

Exemplo 7.3.5: Suponha que a varivel aleatria Xn tenha distribuio Binomial, ou seja,
( )
n k
P (Xn = k) =
pn (1 pn )nk , k = 0, 1, 2, . . . , n.
k
Se pn 0 quando n de tal modo que npn > 0, ento
Xn D Y,
onde Y P oisson(). Para vericar isto relembre que podemos representar uma varivel
aleatria Binomial como a soma de variveis aleatrias Bernoulli i.i.d., ento
Xn (t) = EeitXn = (1 pn + eit pn )n = (1 + pn (eit 1))n = (1 +
npn (eit 1) n
it
) e(e 1) ,
n
onde a expresso nal a funo caracterstica de uma varivel aleatria P oisson(). Portanto, pelo Teorema da Continuidade, Xn D Y .
7.4
Soma de um Nmero Aleatrio de Variveis Aleatrias
Nesta seo, ns estudaremos somas de um nmero aleatrio de variveis aleatrias, ou seja,

S=
Xi ,
i=0
7.4. SOMA DE UM NMERO ALEATRIO DE VARIVEIS ALEATRIAS
116
onde N uma varivel aleatria inteira e no negativa, e assume-se que ela independente das
parcelas Xi . Por exemplo, N pode ser o nmero de clientes, pacotes ou trabalhos chegando
em uma la em um dado intervalo de tempo e Xi pode ser o tempo necessrio para nalizar o
i-simo trabalho. S ento seria o tempo total do servio. Em nossas aplicaes assumiremos
que N = 0 signica que S = 0, ou seja, X0 = 0 com funo caracterstica X0 (u) = 1.
Sabemos que ES = E[E(S|N )] e que
E(S|N = n) =
E(Xi |N = n).
i=0
Como assumimos que N independente de Xi , temos

E(S|N = n) =
EXi .
i=0
Se as variveis aleatrias {Xi , i > 0} tm esperana igual a m, ento E(S|N = n) = nm e

ES = mEN .
Para informaes mais detalhadas sobre S, vamos calcular sua funo caracterstica S
assumindo que as variveis aleatrias {N, X1 , X2 , . . .} so independentes:
S (t) = EeitS = E(E(eitS |N )).
Por outro lado, utilizando a hiptese de independncia, podemos calcular,
itS
E(e
n
n
itXi
|N = n) = E( e |N = n) =
Xi (t).
i=0
Logo,
S (t) =
i=0
P (N = n)
n=0
Xi (t).
i=0
Se as parcelas {X1 , X2 , . . .} forem tambm identicamente distribudas com funo caracterstica X , ento
S (t) =
P (N = n)nX (t),
n=0
onde utilizamos o fato que
0X
N (t) =
= 1 = X0 (t). Note que a funo caracterstica de N :
P (N = n)eitn =
n=0
P (N = n)[eit ]n .
n=0
Comparando as expresses de S e N , ns vemos que escolhendo t em N (t) de forma que

eit = X , ns podemos reescrever:
S (t) = N (i log X (t)).
Portanto, ns provamos o seguinte teorema:
7.5. FUNO CARACTERSTICA DE UM VETOR ALEATRIO
117
Teorema 7.4.1: Se N uma varivel aleatria inteira no-negativa, S = N

i=0 Xi , X0 = 0,
onde {Xi , i 1} so i.i.d. com funo caracterstica comum X , e elas so independentes
de N que descrita pela funo caracterstica N , ento
S (t) = N (i log X (t)).
Exemplo 7.4.2 : Suponha que N P oisson() representa o nmero de clientes que
so atendidos em um dado tempo T . Suponha ainda que com probabilidade p o i-simo
cliente ca satisfeito com o atendimento. Assuma que os clientes cam satisfeitos com o
servio de maneira independente e que N , independente da probabilidade que clientes
cam satisfeitos. Determine a distribuio de probabilidade de S o nmero total de clientes
satisfeitos no tempo T .
Soluo: Seja Xi Bernoulli(p), i 1, a varivel aleatria que descreve se o i-simo
cliente cou ou no satisfeito com o atendimento. Ento temos,
S=
Xi ,
i=0
onde X0 = 0. Desta forma, sabemos que

S (t) = N (i log X (t)),
onde X (t) = peit + (1 p) e N (t) = e(e
S (t) = e(e
it 1)
i(i log(peit +(1p))) 1)
. Substituindo temos:
it +(1p)1)
= e(pe
= ep(e
it 1)
Pela unicidade da funo caracterstica, temos que S P oisson(p).
7.5
Funo Caracterstica de um Vetor Aleatrio
= (X1 , . . . , Xk ) um vetor aleatrio k-dimensional. A funo

Denio 7.5.1: Seja X
a funo : IRk C denida por
caracterstica de X
X

X (t) = EeitX = Eexp(i
tj Xj ).
j=1
X tambm chamada de funo caracterstica conjunta de X1 , . . . , Xk .

A funo caracterstica multivariada tem propriedades anlogas a todas as propriedades
enunciadas para a funo caracterstica de uma varivel aleatria. As propriedades P1P4 e
P6 so vlidas com as bvias modicaes (a reta substituda por IRk ). Para P5, supe-se
e Y sejam vetores de mesma dimenso. Sob esta condio, a independncia de X
e
que X
Y implica que
X+
t) = X (t)Y (t).
Y
(
Quanto ao Teorema da Unicidade, tambm existe uma frmula da inverso para a funo caracterstica multidimensional que pode ser usada para provar a unicidade da funo
caracterstica:
118
e Y forem vetores aleatrios k-dimensionais

Teorema 7.5.2: Teorema da Unicidade. Se X
k
e Y tm a mesma distribuio. Em outras patais que X (t) = Y (t), t IR , ento X
lavras, a funo caracterstica determina a distribuio, e podemos escrever: X = Y
FX = FY .
Analogamente a P7, correlaes de ordem maiores podem ser facilmente calculadas
diferenciando-se
a funo caracterstica conjunta repetidamente. Formalmente, seja p =
n
k=1 pk para nmeros naturais quaisquer pk , temos
E(
Xkpk )
1 p X (t)
= p p1
| .
i t1 tpnn t=0
= (X1 , X2 ), temos que

No caso particular de X
EX1 X2 =
2 X1 ,X2 (t1 , t2 )
|t1 =t2 =0 .
t1 t2
Tambm fcil analisar o comportamento da funo caracterstica multivariada de transformaes lineares de vetores aleatrios em analogia a propriedade P8. (Assumiremos que um
k-dimensional uma matriz coluna com dimenso k 1. Deste modo t X
= (t)T X.)
vetor X
+ b, ento
Por exemplo, seja Y = AX

T
T
Y (t) = Eei(t) Y = Eei(t) (AX+b)
T
= E(ei(t) b ei(A
t)T X
) = ei(t) b X (AT t),

T
onde utilizamos o fato que (AB)T = BT AT e que ei(t) b no aleatrio e pode sair fora da
operao de esperana.
Assim como fcil obter a distribuio marginal dada uma distribuio conjunta de
variveis aleatrias, tambm fcil obter a funo caracterstica de qualquer distribuio
marginal. Para isso basta fazer todos os termos extras iguais a zero na funo caracterstica
multivariada. Por exemplo, para as variveis aleatrias X, Y, e Z, temos Eei(xX+yY ) =
Eei(xX+yY +0Z) , ou seja, X,Y (x, y) = X,Y,Z (x, y, 0), (x, y) IR2 .
Como no caso unidimensional, temos convergncia em distribuio se, e somente se, as
funes caractersticas convergem.
n D X
se, e somente se, (t) (t), t IRk .
Teorema 7.5.3: X
Xn
X
Prova: Omitida.
O prximo teorema mostra que convergncia em distribuio de vetores aleatrios
equivalente convergncia em distribuio de todas as combinaes lineares das coordenadas.
n = (Xn1 , Xn2 , . . . , Xnk ) e X
= (X1 , . . . , Xn )
Teorema 7.5.4: Cramr-Wold. Sejam X
n X
se, e somente se, k tj Xnj D
vetores aleatrios k-dimensionais. Ento, X
j=1
k
k
t
X
,
para
todo
(t
,
.
.
.
,
t
)
I
R
.
1
k
j=1 j j

Prova: Suponhamos primeiro que
j=1 tj Xnj
119
j=1 tj Xj , (t1 , . . . , tk ).
Ento,
X n (t1 , . . . , tk ) = Eei j=1 tj Xnj

= k tj Xnj (1) k tj Xj (1) = X (t1 , . . . , tk ),
j=1
j=1
onde utilizamos o Teorema da Continuidade de Levy. Tambm pelo Teorema da Continui n D X.
dade de Levy no caso multidimensional, temos que como X n X , X
n D X.
Para (t1 , . . . , tk ) IRk , queremos provar que k tj Xnj D
Agora suponha que X
j=1
k
k
k
(t),
t
IR. Mas,
(t)
t
X
.
Para
tanto,
basta
provarmos
que
j=1 j j
j=1 tj Xj
j=1 tj Xnj
utilizando novamente o Teorema da Continuidade de Levy, temos que
k
(t)
j=1 tj Xnj
= Eeit
j=1 tj Xnj
= Eei
j=1 (ttj )Xnj
X n (tt1 , . . . , ttk ) X (tt1 , . . . , ttk ) = k
j=1 tj Xj
(t)
Terminaremos nossa discusso de funes caractersticas multidimensionais considerando

um critrio para independncia de vetores aleatrios.
= (X1 , . . . , Xm ) e Y = (Y1 , . . . , Yn ) vetores aleatrios, onde
Teorema 7.5.5 : Sejam X
e Y so independentes se, e somente se,
m 1, n 1. X
X1 ,...,Xm ,Y1 ,...,Yn (x1 , . . . , xm , y1 , . . . , yn ) = X (x1 , . . . , xm )Y (y1 , . . . , yn ),
para todo (x1 , . . . , xm ) IRm e (y1 , . . . , yn ) IRn .
e Y sejam variveis aleatrias X e Y (m = 1, n = 1),
Prova: Suponhamos primeiro que X
com X e Y independentes. Ento temos,
X,Y (x, y) = Eei(xX+yY ) = EeixX eiyY = EeixX EeiyY = X (x)Y (y), (x, y) IR2 .
Reciprocamente, suponha que X,Y (x, y) = X (x)Y (y) para todo (x, y) IR2 . Ento
a independncia de X e Y conseqncia do Teorema da Unicidade: se X e Y fossem
independentes, elas teriam funo caracterstica conjunta X,Y (x, y) = X (x)Y (y) pela
parte inicial desta demonstrao. Se no fossem independentes, elas teriam uma funo
caracterstica diferente, o que contraria a hiptese. Logo, so independentes.
A prova no caso geral anloga e omitida.
Um resultado semelhante vale para um nmero nito qualquer de vetores aleatrios.
Consideremos o caso mais simples em que X1 , . . . , Xn so variveis aleatrias. Ento, temos
X1 , . . . , Xn independentes se, e somente se,
X1 ,...,Xn (t1 , . . . , tn ) =
Xj (tj ), (t1 , . . . , tn ) IRn .
j=1
7.6. FUNES GERATRIZES DE MOMENTO
7.6
120
Funes Geratrizes de Momento
Denio 7.6.1: Uma funo geratriz de momento FX (t) de uma varivel aleatria X com
funo de distribuio FX existe se,
FX (t) := EetX < , t I,
onde I um intervalo contendo 0 no seu interior.
O problema de utilizar funes geratrizes de momento que elas nem sempre existem. Por
exemplo, a funo geratriz de momento de uma varivel aleatria com distribuio de Cauchy
no existe. Pode-se provar que a existncia da funo geratriz de momento equivalente a
cauda da distribuio de X ser limitada exponencialmente, ou seja, P (|X| > x) Kecx ,
para algum K > 0 e c > 0. Se a funo geratriz de momento existe, pode-se provar que ela
tambm determina a funo de distribuio.
7.7
Teorema de Slutsky
Nesta seo, estudaremos o Teorema de Slutsky que trata do comportamento da soma e do

produto de variveis aleatrias, uma convergindo em distribuio e outra em probabilidade.
Antes disso, iremos provar que funes contnuas preservam convergncia.
Teorema 7.7.1: Sejam {Xn : n 1} e X variveis aleatrias com funes de distribuio
{Fn : n 1} e F , respectivamente. Seja g : IR IR uma funo contnua. Ento, se Xn
converge para X quase certamente, em probabilidade ou em distribuio, o mesmo ocorre
com g(Xn ) para g(X), no mesmo modo de convergncia.
Prova: Suponha que Xn X cp1. Ento, existe um conjunto A F tal que P (A) = 0
e Xn (w) X(w) para w Ac . Como g contnua, g(Xn (w)) g(X(w)) para w Ac e,
portanto, g(Xn ) g(X) cp1.
Considere que Xn P X e vamos vericar que g(Xn ) P g(X). Dado > 0 arbitrrio,
xemos m grande o suciente tal que P (|X| > m/2) < . A funo g sendo contnua em IR,
ser uniformemente contnua no intervalo fechado [m, m], logo para > 0 arbitrrio existe
tal que 0 < m/2 e se x, y [m, m] e |x y| < , ento |g(x) g(y)| < .
Observe que se P (An ) 1, ento P (An A) P (A), pois P (An ) + P (A) 1
P (An A) P (A) e P (An ) + P (A) 1 P (A). Portanto, como P (|Xn X| < ) 1,
temos que P (|X| m/2, |Xn X| < ) P (|X| m/2) > 1 . Mas
[|X| m/2, |Xn X| < ] [|X| m, |Xn | m, |Xn X| < ] [|g(Xn ) g(X)| < ],
logo P (|g(Xn ) g(X)| < ) > 1 2 para n sucientemente grande. Como arbitrrio,
temos que P (|g(Xn ) g(X)| < ) 1 quando n , ou seja g(Xn ) P g(X).
Finalmente, considere que Xn D X. Pelo Teorema da Continuidade de Levy, para que
g(Xn ) D g(X), basta a convergncia das respectivas funes caractersticas. Por denio,
g(Xn ) (t) = Eeitg(Xn ) = E cos(tg(Xn )) + iE sen(tg(Xn )).
7.7. TEOREMA DE SLUTSKY
121
Como as funes cos(tg(x)) e sen(tg(x)) so contnuas e limitadas na reta, para t xo,

decorre do Teorema de Helly-Bray que
g(Xn ) (t) E cos(tg(X)) + iE sen(tg(X)) = g(X) (t), t IR.
Teorema 7.7.2: Considere {Xn : n 1}, {Yn : n 1} e X variveis aleatrias tais que
valem as convergncias Xn D X e Yn P c, com c constante. Ento,
(i) Xn + Yn D X + c;
(ii) Xn Yn D cX;
(iii) Se c = 0,
Xn
Yn
X
,
c
desde que P (Yn = 0) = 1.
Prova: Prova de (i): Temos

Xn +Yn (t) = E(eit(Xn +Yn ) ) = E(eit(Xn +c) ) + E[(eitXn )(eitYn eitc )].
Por hiptese temos,
lim E(eit(Xn +c) ) = lim eitc E(eitXn ) = eitc E(eitX ) = E(eit(X+c) ).
n
Observe que |eitXn | = 1 e, assim, vem

|E[(eitXn )(eitYn eitc )]| E[|(eitXn )(eitYn eitc )|] = E[|(eitYn eitc )|].
Seja Zn = |(eitYn eitc )|, temos 0 Zn 2. Logo, para > 0, temos
E[|(eitYn eitc )|] = EZn = E(Zn IZn ) + E(Zn IZn > )
+ 2E(IZn > ) + 2P (Zn > ).
Como Zn uma funo contnua de Yn e lembrando que funes contnuas preservam convergncia em probabilidade, temos que Zn P 0, pois Yn P c. Nessas condies, para n
grande o suciente,
|E[(eitXn )(eitYn eitc )]| E[|(eitYn eitc )|] < 2.
Logo, tomando o limite de Xn +Yn (t) quando n , conclumos a demonstrao da parte
(i).
Prova de (ii): Inicialmente consideramos c = 0 e vamos vericar que Xn Yn P 0, e
conseqentemente, Xn Yn D 0. Sejam , > 0 e x < 0 < y pontos de continuidade de FX
tais que FX (y) FX (x) = P (x < X y) > 1 . Como Xn D X, temos P (x < Xn
y) = FXn (y) FXn (x) > 1 2 para n sucientemente grande. Denamos M = max(y, x),
ento a convergncia em probabilidade de Yn para zero implica que P (|Yn | < M ) > 1
para n sucientemente grande. Logo para n sucientemente grande, temos
P (x < Xn y, |Yn | <
) > 1 3.
M
7.7. TEOREMA DE SLUTSKY
122
Como x < Xn y e |Yn | < M implicam |Xn Yn | < , temos P (|Xn Yn | < ) > 1 3 para
n grande o suciente. Portanto, para todo > 0, P (|Xn Yn | < ) 1, ou seja, Xn Yn P 0.
Agora consideremos o caso c geral. Como Xn Yn = cXn + (Yn c)Xn e Yn c P 0. Pelo
caso c = 0, temos que (Yn c)Xn P 0. Alm disso como cx uma funo contnua, temos
cXn D cX. Como Xn Yn a soma de dois termos, o primeiro dos quais converge para
cX em distribuio, e o segundo para zero em probabilidade, o resultado conseqncia da
parte (i).
Prova de (iii): Como 1/x contnua para x = 0, temos que 1/Yn P 1/c. Agora, basta
aplicar o tem (ii).
Captulo 8
Lei dos Grandes Nmeros
8.1
Motivao
Entre outras coisas, a Lei dos grandes Nmeros nos permite formalizar a idia que medida
que o nmero de repeties de um experimento cresce, a freqncia relativa fA de algum
evento A converge (quase certamente) para a probabilidade terica P (A). este fato que nos
permite estimar o valor da probabilidade de um evento A, baseado na freqncia relativa de
A em um grande nmero de repeties de um experimento. tambm este fato que justica
a intuio que temos que eventos com probabilidade prximas de 1, quase sempre ocorrem;
e que eventos com probabilidade prximas de 0 quase sempre no ocorrem.
Por exemplo, se uma nova pea for produzida e no tivermos conhecimento anterior
sobre quo provvel ser que a pea seja defeituosa, poderemos proceder inspeo de um
grande nmero dessas peas, digamos N , contarmos o nmero de peas defeituosas dentre
elas, por exemplo n, e depois empregarmos n/N com uma aproximao da probabilidade de
que uma pea seja defeituosa. O nmero n/N uma varivel aleatria, e seu valor depende
essencialmente de duas coisas. Primeira, o valor de n/N depende da probabilidade bsica,
mas desconhecida, p de que uma pea seja defeituosa. Segunda, depende daquelas N peas
que tenham sido inspecionadas. O que a Lei dos Grandes Nmeros mostra que se a tcnica
de selecionar as N peas for aleatria, ento o quociente n/N convergir quase certamente
para p. (Evidentemente, a seleo das N peas importante. Se fssemos escolher somente
aquelas peas que exibissem algum defeito fsico externo, por exemplo, poderamos prejudicar
seriamente nossos clculos.)
Mais formalmente, considere um experimento bsico, com a varivel aleatria X representando o valor de um caracterstico numrico do resultado (no caso anterior, temos que
X seria a funo indicadora do evento A). Pensemos na realizao deste experimento N
vezes (N grande), de tal maneira que as realizaes sejam independentes. Suponhamos que
depois de cada realizao do experimento registre-se o valor do caracterstico numrico do
resultado; chamemos este um valor observado. A Lei dos Grandes Nmeros arma que a
mdia aritmtica dos n valores observados converge, em certo sentido, para a mdia EX,
quando N .
Vamos agora construir um modelo para o experimento repetido que apresentamos acima.
Para experimentos dessa natureza, um resultado possvel uma seqncia de N resultados
123
8.1. MOTIVAO
124
possveis do experimento bsico. Como estamos interessados em analisar a convergncia

para N grande, se 0 o espao amostral do experimento bsico, o espao amostral do
experimento global consiste nas seqncias innitas de elementos de 0 , ou seja,
= {(w1 , w2 , . . .) : wi 0 , i = 1, 2, . . .} = 0 0 . . . = ,
onde wi o resultado do i-simo ensaio do experimento bsico. Podemos completar o modelo
utilizando a -lgebra produto para A e a probabilidade produto para P ,1 pois os ensaios
so independentes.
J que vamos registrar um certo caracterstico do i-simo resultado para todo i, estaremos
registrando os valores de uma seqncia de variveis aleatrias. Intuitivamente, X(w0 ) representa o valor do caracterstico numrico do experimento bsico (w0 0 ), ento, quando
o resultado da seqncia de realizaes for w = (w1 , w2 , . . .), os valores observados sero
X(w1 ), X(w2 ), . . . conveniente representar por Xn o resultado observado na n-sima realizao. Assim, Xn funo do resultado w do experimento global, com Xn (w) = X(wn ),
e no decorrer sero registrados os valores das variveis aleatrias X1 , X2 , . . . Notemos que
Xn tem a mesma distribuio de X, pois trata-se de uma seqncia de repeties do mesmo
experimento. Como as Xn dependem de realizaes independentes, elas so independentes,
onde X1 , X2 , . . . so independentes se para todo n 2, X1 , . . . , Xn so independentes.
Uma verso da Lei dos Grandes Nmeros diz que se X1 , X2 , . . . so i.i.d. e integrveis,
ento
X1 + . . . + Xn
EX1 .
n
Quando o tipo de convergncia convergncia em probabilidade, chamamos de Lei Fraca
dos Grandes Nmeros, e quando temos convergncia quase certa, chamamos de Lei Forte
dos Grandes Nmeros. Como vimos em captulo anterior, convergncia quase-certa implica
convergncia em probabilidade, portanto se uma seqncia de variveis aleatrias satisfaz a
Lei Forte dos Grandes Nmeros, ento ela tambm satisfaz a Lei Fraca.
Para esclarecer as diferenas entre as Leis Fraca e Leis Fortes, considere o caso em que
Xi Bernoulli(p) a funo indicadora de certo evento A e nA o nmero de vezes que o
evento A ocorre em n realizaes do experimento. Ento, a Lei Fraca arma que nnA P p,
o que equivalente a dizer que para todo > 0 podemos encontrar um n sucientemente
grande tal que, a probabilidade de nnA estar entre p e p+, maior que 1 para qualquer
> 0 especicado. Em outras palavras, se realizarmos muitas seqncias Bernoulli(p) de
tamanho n, espera-se que apenas em uma frao delas menor que , temos que nnA est fora
do intervalo (p, p+). Note que a Lei Fraca no d nenhuma informao sobre a existncia
ou o valor do limite de nnA . Em contraste, a Lei Forte garante que o conjunto de todas as
realizaes do experimento, para as quais limn nnA = p, um evento com probabilidade 1. Se
xarmos > 0, o conjunto das realizaes dos experimentos para os quais p < nnA < p + ,
para n sucientemente grande um evento com probabilidade 1. A Lei Forte assegura que
dado > 0, com probabilidade 1, os termos da seqncia de freqncia relativas de uma
particular realizao do experimento realmente estaro no intervalo (p , p + ).
Formalmente, dados uma seqncia de espaos de probabilidade (i , Ai , Pi ), a -lgebra produto A em
i i denida como sendo a menor -lgebra contendo eventos
da forma A1 A2 , onde Ai Ai para
todo i; e a probabilidade produto tal que P (A1 A2 ) = i=1 Pi (Ai ); pode-se provar que existe uma
nica medida de probabilidade em A que satisfaz esta condio.
1
8.2. LEI FRACA DOS GRANDES NMEROS
8.2
125
Lei Fraca dos Grandes Nmeros
Na seo anterior, motivamos o resultado da Leis dos Grandes Nmeros para variveis aleatrias independentes e identicamente distribudas. Nesta seo, analisaremos duas verses
da Lei Fraca dos Grandes Nmeros, na primeira delas no necessrio assumir que as variveis aleatrias so identicamente distribudas. Vamos usar a desigualdade de Chebyshev
para provar a Lei Fraca dos Grandes Nmeros de Chebyshev.
Teorema 8.2.1: Lei Fraca de Chebyshev Sejam X1 , X2 , . . . variveis aleatrias independentes 2 a 2 com varincias nitas e uniformemente limitadas (ou seja, existe c nito
tal que para todo n, V arXn c). Ento, X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes
Nmeros:
Sn ESn P
0.
n
Prova: Precisamos provar que para todo > 0,
P(
|Sn ESn |
) 0 quando n .
n
Como as variveis aleatrias so independentes 2 a 2, temos que

V ar(Sn ) =
V ar(Xi ) nc.
i=1
Pela desigualdade de Chebyshev, temos que

P (|Sn ESn | n)
V ar(Sn )
c
2 0.
2
2
n
n
Corolrio 8.2.2: Lei Fraca dos Grandes Nmeros de Bernoulli. Consideremos uma
seqncia de ensaios binomiais independentes, tendo a mesma probabilidade p de sucesso
em cada ensaio. Se Sn o nmero de sucessos nos primeiros n ensaios, ento
Sn P
p
n
Prova: Seja Xn = 1 se o n-simo ensaio sucesso, Xn = 0 caso contrrio. Ento, X1 , X2 , . . .
so i.i.d. e integrveis com mdia = p. Como V arXn = p(1 p), a Lei Fraca de Chebyshev
implica que Sn np
P 0, ou, equivalentemente, Snn P p.
n
Podemos utilizar a Lei Fraca dos Grandes Nmeros para responder a seguinte questo:
quantas repeties de um experimento devemos realizar a m de termos uma probabilidade
ao menos 0, 95 para que a freqncia relativa dira de p = P (A) por menos do que, digamos,
8.2. LEI FRACA DOS GRANDES NMEROS
126
0,01? Utilizando a equao (8.1), onde Sn o nmero de ocorrncias do evento A em n

realizaes do experimento temos que Sn /n = fA , ESn = np, V arSn = np(1 p), e:
P (|fA p| 0, 01)
p(1 p)
,
n(0, 01)2
p(1p)
p(1p)
ou seja, queremos que n(0,01)
2 0, 05, o que equivalente a n 0,05(0,01)2 . Substituindo os
valores especcos de 0, 05 e 0, 01 por e , respectivamente, teremos
P (|fA p| < ) 1 sempre que n
p(1 p)
.
()2
Em muitos problemas, no conhecemos o valor de p = P (A) e, por isso, no poderemos

empregar o limite acima. Nesse caso, poderemos empregar o fato de que p(1 p) toma
seu valor mximo quando p = 1/2, e esse valor mximo igual a 1/4. Conseqentemente,
estamos certamente seguros se armamos que para n 412 teremos
P (|fA p| < ) 1 .
Exemplo 8.2.3: Peas so produzidas de tal maneira que a probabilidade de uma pea
ser defeituosa p (admitida desconhecida). Um grande nmero de peas, digamos n, so
classicadas como defeituosas ou perfeitas. Que valor dever ter n de maneira que possamos
estar 99% certos de que a freqncia relativa de defeituosas difere de p por menos de 0, 05?
Soluo: Porque no conhecemos o valor de p, deveremos aplicar a ltima frmula com
= 0, 05, = 0, 01. Deste modo encontraremos que se n 4(0,05)1 2 0,01 = 10.000, a condio
exigida ser satisfeita.
A hiptese de varincias nitas pode ser eliminada e o prximo teorema prova uma verso
da Lei Fraca dos Grandes Nmeros para variveis aleatrias i.i.d. e integrveis.
Teorema 8.2.4: Lei Fraca de Khintchin. Se X1 , X2 , . . . so i.i.d. e integrveis com
mdia comum , ento
Sn P
.
n
Prova: conseqncia da Lei Forte de Kolmogorov e do fato que convergncia quase certa
implica convergncia em probabilidade.
Exemplo 8.2.5: Sejam
i.i.d. com mdia e varincia 2 , ambas
n {Xn : n 2 1}P variveis
1
nitas. Prove que n i=1 (Xi X) 2 .
Soluo:
1 2
1
2
(Xi X)2 =
(Xi 2Xi X + X )
n i=1
n i=1
n
1 2
1
1 2
X
Xi 2X
Xi +
n i=1
n i=1
n i=1
n
1 2
2
=
Xi X
n i=1
n
8.3. LEI FORTE DOS GRANDES NMEROS
127
Pela Lei Fraca de Kintchin, temos que

1 2 P
X E(Xi2 ) = 2 + 2
n i=1 i
n
e
X P E(Xi ) = .
Como funes contnuas preservam convergncia, temos que
2
X P 2 .
Logo, temos que
1 2 2
(
X , X ) P ( 2 + 2 , 2 ).
n i=1 i
n
Finalmente, como funes contnuas preservam convergncia

1 2
2
Xi X P 2 .
n i=1
n
8.3
Lei Forte dos Grandes Nmeros
Antes de iniciarmos a prova da Lei Forte dos Grandes Nmeros, vamos provar uma extenso
da desigualdade de Chebyshev.
Lema 8.3.1: Sejam X1 , . . . , Xn variveis aleatrias independentes tais que EXk = 0 e
V arXk < , k = 1, . . . , n. Ento, para todo > 0,
n
1
1
P ( max |Sk | ) 2 V arSn = 2
V arXk ,
1kn
k=1
onde Sk = X1 + . . . + Xk .
Prova: Queremos uma cota superior para P (max1kn Sk2 2 ). Para tanto, seja A =
[max1kn Sk2 2 ]. Vamos decompor A conforme a primeira vez que Sk2 2 , denamos:
A1 = [S12 2 ],
A2 = [S12 < 2 , S22 2 ],
2
Ak = [S12 < 2 , . . . , Sk1
< 2 , Sk2 2 ], para 2 k n.
Ento os Ak so disjuntos e A = nk=1 Ak . Logo, IA = nk=1 IAk e

Sn2
Sn2 IA
k=1
Sn2 IAk
ESn2
ESn2 IAk .
k=1
128
Queremos substituir Sn2 por Sk2 no somatrio (pois Sk2 2 em Ak , e no vale necessariamente Sn2 2 ); o truque escrever
Sn2 = (Sn Sk )2 + Sk2 + 2(Sn Sk )Sk Sk2 + 2(Sn Sk )Sk .
Portanto,
ESn2 IAk ESk2 IAk + 2E((Sn Sk )Sk IAk ).
Como Sn Sk = Xk+1 + . . . + Xn e Sk IAk depende s de X1 , . . . , Xk , as duas so funes de
famlias disjuntas de variveis independentes, logo so independentes e a esperana fatora:
E((Sn Sk )Sk IAk ) = E(Sn Sk )E(Sk IAk ).
Como E(Sn Sk ) = 0, temos
ESn2 IAk ESk2 IAk E2 IAk = 2 P (Ak ).
Portanto,
ESn2
2 P (Ak ) = 2 P (A),
k=1
logo
P (A)
1
1
ESn2 = 2 V arSn .
2
O prximo teorema conhecido como Primeira Lei Forte de Kolmogorov.

Teorema 8.3.2:
ponha que
Sejam X1 , X2 , . . . variveis aleatrias independentes e integrveis, e su
V arXn
n=1
n2
< .
Ento, as Xn satisfazem a Lei Forte dos Grandes Nmeros, ou seja,

X1 + . . . + Xn (EX1 + . . . + EXn )
0 quase certamente.
n
n
Prova: Suponhamos sem perda de generalidade que EXn = 0, n. Queremos mostrar que
Sn
0 cp1, onde Sn = X1 + . . . + Xn . Para tanto, basta mostrar que
n
Mn =
maxn+1
n
2 <k2
|Sk |
0 cp1 quando n .
k
Provaremos isto em duas etapas:
1
(i)
n=1 P (Mn m ) < , m = 1, 2, . . .; e
(ii) Mn 0 cp1.
129
Para (i), considere m xo. Ento, para todo n,

1
2n
) P ( n maxn+1 |Sk | )
2 <k2
m
m
n+1
2
2n
m2
P ( maxn+1 |Sk | ) n
V ar(Xk ),
1<k2
m
4 k=1
P (Mn
onde vale a ltima passagem pelo lema anterior. Seja An = [Mn
1
2
P (An ) m
V ar(Xk )) = m
( n
4 k=1
n=1
n=1
k=1
= m2
V ar(Xk )
1
n:2n+1 k ( 4n )
n:2n+1 k
k=1
Como
n+1
16
,
3k2
n:2n+1 k
1
],
m
ento
1
V ar(Xk )) =
4n
1
).
4n
temos
16m2 V ar(Xk )
P (An )
< .
3 k=1
k2
n=1
Para (ii), note que por Borel-Cantelli, tem-se P (An inntas vezes) = 0. Logo, para todo
m, a probabilidade 1 de que Mn assuma um valor m1 para somente um nmero nito
de ns. Seja Bm o evento Mn assuma um valor m1 para somente um nmero nito de
ns, ento P (Bm ) = 1, m, o que implica que P (
m=1 Bm ) = 1, e (ii) resulta da equivalncia
entre os eventos m=1 Bm e [Mn 0].

O prximo exemplo ilustra uma aplicao da Primeira Lei Forte de Kolmogorov.
Exemplo8.3.3 :
Sejam X1 , X2 , . . . , Xn variveis aleatrias independentes com Xn
P oisson( n), para cada n 1.Calcule o limite quase-certo de X.
Soluo: Como V arXn = n, temos que
V arXn n
=
< .
n2
n2
n=1
n=1
Logo, a primeira Lei Forte de Kolmogorov implica que
EX1 + + EXn
0 cp1, ou seja
n
1 + 2 + + n
0 cp1.
X
n
Pelo teste da integral, pode-se vericar que
X
1+
2n3/2
2 + + n
.
3

Portanto,
130
1 + 2 + + n
2n1/2
.
n
3
Logo, X cp1.
Antes de enunciarmos e provarmos a Segunda Lei Forte de Kolmogorov, considere o
seguinte lema:
Lema 8.3.4 :
Ento,
Seja X uma varivel aleatria integrvel com funo de distribuio F .

n
1
( 2
x2 dF (x)) < .
n n
n=1
Prova: Vamos utilizar o seguinte fato:
2
j
n
2
x dF (x) =
n
1
n=j n2
para j = 1, 2, . . .. Como
j
x2 dF (x),
j1
j=n+1
temos
n
j
1
1
2
( 2
x dF (x)) =
( 2
x2 dF (x)) =
n
n
n
j1
n=1
n=1 j=n+1
j
j

n
1
1
2
=
( 2
x dF (x)) +
( 2
x2 dF (x))
n j1
n j1
n=1 j=1
n=1 j=n+1
j
j

1
1
2
=
( 2
( 2
x dF (x)) +
x2 dF (x))
n
n
j1
j1
j=1 n=j
j=
2
j=1
Como
x2
j
j1
x2
dF (x) + 2
j
j=
x em (j 1, j], para j 1, e
n=|j|+1
j1
x2
|j|+1
x2
dF (x).
|j| + 1
|x| em (j 1, j], para j 0, temos
n
j
j
0
1
2
( 2
x dF (x)) 2
xdF (x) + 2
|x|dF (x) =
n
n
j1
j1
n=1
j=1
j=

j
=2
|x|dF (x) = 2
|x|dF (x) = 2E|X| < .
j=
j1
A seguir enunciamos e provamos a Segunda Lei Forte de Kolmogorov.
131
Teorema 8.3.5: Sejam X1 , X2 , . . . variveis aleatrias independentes, identicamente distribudas e integrveis, com EXn = . Ento,
X1 + . . . + Xn
quase certamente.
n
Prova: Suponhamos sem perda de generalidade que = 0. Vamos truncar as variveis Xn ,
denamos Yn = Xn I[n<Xn n] . Seja Zn = Xn Yn , de modo que
X1 + . . . + Xn
Y1 + . . . + Yn Z1 + . . . + Zn
=
+
.
n
n
n
A prova ter trs partes:
(a)
(b)
(c)
Z1 +...+Zn
n
0 quase certamente (usaremos Borel-Cantelli);
n
EY1 +...+EY
0 quase certamente (usaremos a Primeira Lei Forte e o
n
Lema 8.3.4); e
Y1 +...+Yn
n
EY1 +...+EYn
n
0 (usaremos o Teorema da Convergncia Dominada).
fcil ver que (a), (b), e (c) implicam o teorema. Para provar (a), note que Zn = 0
Yn = Xn Xn
/ (n, n]. Logo,
P (Zn = 0) = P (Xn
/ (n, n]) P (|Xn | n).
Mas os eventos An = [Zn = 0] satisfazem
n=1
P (An )
n=1
P (|Xn | n) =
P (|X1 | n) E|X1 | < .
n=1
Portanto, Borel-Cantelli implica que P (An innitas vezes) = 0, ou seja

P (Zn = 0 innitas vezes) = 0.
Isso signica que
P (Zn = 0 para todo n sucientemente grande) = 1.
Mas se Zn = 0 para n sucientemente grande, ento Zn 0 e
Z1 + . . . + Zn
Z1 + . . . + Zn
0, logo P (
0) = 1.
n
n
Para provar (b), seja F a funo de distribuio comum, F = FXn . Veriquemos a
condio da primeira Lei Forte de Kolmogorov para as variveis aleatrias Yn . Como Yn =
Xn I[n<Xn n] , temos
n
2
2
x2 dF (x).
V ar(Yn ) E(Yn ) = E(Xn I[n<Xn n] ) =
n

Portanto,
V ar(Yn )
n=1
n2
132
x2 dF (x) < ,
2
n n
n=1
onde a ltima desigualdade decorre do Lema 8.3.4. Portanto, (b) decorre da primeira Lei
Forte de Kolmogorov.
Para provar (c), suciente mostrar que EYn 0. Mas,
EYn = E(Xn I[n<Xn n] ) = E(X1 I[n<X1 n] ) EX1 = 0,
pelo teorema da convergncia dominada que se aplica pois |X1 | domina X1 I[nX1 n] s e
integrvel.
Exemplo 8.3.6 : As variveis Xn , n 1, so independentes e todas tm distribuio
Exponencial de parmetro . Mostre que a seqncia {Xn2 : n 1} satisfaz a Lei Forte dos
Grandes Nmeros.
Soluo: De acordo com a Segunda Lei Forte de Kolmogorov, precisamos mostrar que
EXn2 nita para todo n. Como EXn2 = V arXn + (EXn )2 = 22 < , temos que a seqncia
{Xn2 : n 1} satisfaz a Lei Forte dos Grandes Nmeros.
i.i.d., seguindo o
Exemplo 8.3.7: Seja {Xn : n 1} uma seqncia de variveis aleatrias
1
modelo Uniforme contnuo em (0, 1). Calcule o limite, quase certo, para n nk=1 ( log(Xk ))
quando n .
Soluo: Vamos tentar usar a Lei Forte dos Grandes Nmeros. Para isso, precisamos
calcular E( log Xk ).
1
1
1
E( log Xk ) =
log xdx = x log x|0 +
dx = 1.
0
Portanto, temos que
1
n
k=1 ( log(Xk ))
1 cp1.
A seguir veremos uma importante conseqncia da Lei Forte dos Grandes Nmeros para
a rea de Estatstica Aplicada. Sejam X1 , X2 , , . . . , Xn variveis aleatrias em (, A, P )
independentes e identicamente distribudas com funo de distribuio F . Essas variveis
podem representar a amostra observada de uma certa quantidade de interesse. A funo de
distribuio emprica ou amostral, denotada por Fne , denida para todo x IR e w
por:
1
Fne (x, w) = [nmero de is tais que Xi (w) x, i = 1, 2, . . . , n].
n
Para uma particular trajetria w0 , obtemos o conjunto de valores xados X1 (w0 ) =
x1 , . . . , Xn (w0 ) = xn . Se os xi s so todos diferentes, ento Fne (x, w0 ) uma funo de
distribuio com saltos 1/n em cada um desses valores.
uma funo
Considere um x0 IR xo. Ento Fne (x0 , w) uma varivel aleatria, pois
1
e
das variveis X1 , X2 , . . . , Xn . Se Yi = IXi x0 , i = 1, 2, . . . , n, ento Fn (x0 , w) = n ni=1 Yi (w).
Como as variveis aleatrias Yi so funes de famlias disjuntas de variveis aleatrias
133
independentes, elas tambm so independentes. Alm disso, temos que Yi Bernoulli(p)

com
p = P (Yi = 1) = P (Xi x0 ) = F (x0 ).
Portanto, conclumos que pela Lei Forte de Kolmogorov, para cada valor x0 IR xo, temos
Fne (x0 , w) F (x0 ) cp1. O Teorema de Glivenko-Cantelli tambm conhecido como Teorema
Fundamental da Estatstica arma que a funo de distribuio emprica converge para a
funo de distribuio populacional, quase certamente em e uniformemente em IR.
Teorema 8.3.8: Sejam X1 , X2 , . . . , Xn variveis aleatrias em (, A, P ), independentes e
identicamente distribudas com funo de distribuio F . Seja Fne a correspondente funo
de distribuio emprica, ento:
P (lim sup |Fne (x, w) F (x)| = 0) = 1.
n
xIR
Prova: Para cada x xo, os argumentos anteriores garantem convergncia quase certa. A
prova de que este resultado pode ser estendido, usa tcnicas de Anlise Matemtica e ser
omitida.
Por m ns enunciaremos e provaremos a Recproca da Lei Forte de Kolmogorov.
A Lei Forte arma que se as variveis aleatrias Xn so integrveis, ento Snn converge para
um limite nito (= EX1 ) com probabilidade 1. A recproca diz que se as Xn no forem
integrveis, ento com probabilidade 1, Snn no convergir para um limite nito.
Teorema 8.3.9: Sejam X1 , X2 , . . . variveis aleatrias independentes e identicamente distribudas. Se E|X1 | = , ento, com probabilidade 1, a seqncia |Snn | no limitada.
Prova: Se E|X1 | = , ento E( |Xk1 | ) = , para k = 1, 2, . . .. De acordo com Lema 4.6.2,
temos que
|X1 |
P(
n) = , k.
k
n=1
Como as variveis Xn so identicamente distribudas, temos
|Xn |
|Xn |
|X1 |
P(
n) =
P(
n) =
P(
k).
k
k
n
n=1
n=1
n=1
Por independncia dos Xn , os eventos An = [ |Xnn | k] so independentes, e Borel-Cantelli

implica
|Xn |
k innitas vezes) = 1, k.
P(
n
Fazendo Bk = [ |Xnn | k innitas vezes], temos P (
k=1 Bk ) = 1, pois a interseco de um
nmero enumervel de eventos de probabilidade 1 tambm tem probabilidade 1. Mas o
|Xn |
evento
k=1 Bk o evento n > k para um nmero innito de n, para todo k, ou seja,
8.4. UM EXEMPLO DE DIVERGNCIA DAS MDIAS
134
o evento a seqncia |Xnn | ilimitada. Para terminar a prova, basta mostrar que se
ilimitada, ento |Snn | tambm ilimitada. Agora, com S0 = 0, temos
|Xn |
n
|Xn |
|Sn Sn1 |
|Sn | |Sn1 |
=
+
,
n
n
n
n
para n = 1, 2, . . .. Portanto, se
Mas,
ento
8.4
|Sn1 |
n
|Xn |
n
ilimitada, ento
|Sn |
n
ilimitada ou
|Sn1 |
n
ilimitada.
|Sn1 |
|Sn1 | (n 1)
=
,
n
(n 1)
n
ilimitada se, e somente se,
|Sn |
n
tambm for.
Um Exemplo de Divergncia das Mdias
Uma varivel aleatria tem distribuio de Cauchy de parmetro a se, para a > 0
fX (x) =
1
a
2
.
a + x2
Assuma
n que Xn so i.i.d. segundo uma distribuio de Cauchy de parmetro a. Seja Sn =
1
i=1 Xn . Utilizando a denio e as propriedades da funo caracterstica pode-se provar
n
que
Xn (u) = ea|u| , e Sn (u) = ea|u| .
Ento, as mdias Sn so distribudas exatamente como uma das parcelas da soma. Para
n m, aps alguma manipulao algbrica, temos que
m
)([Zn,m ] [Yn,m ]),
n
n
m
1
1
onde Zn,m = nm
i=m+1 Xi e Yn,m = m
i=1 Xi . Observe que como Zn,m e Yn,m so
mdias de conjuntos disjuntos de variveis aleatrias independentes, elas so independentes
uma da outra. Ainda mais, pelo resultado para Sn , o caso que elas so identicamente
distribudas com funo caracterstica igual a ea|u| . Seja Wn,m = Zn,m Yn,m , ns vemos
que Sn Sm = (1 m
)Wn,m . Contudo,
n
Sn Sm = (1
Wn,m (u) = Zn,m (u)Yn,m (u) = e2a|u| .

Ento, Wn,m tem uma distribuio xa, no degenerada que independente de n e m.
Fixando, n = 2m, temos que
S2m Sm (u) = ea|u| .
Portanto, quando m , S2m Sm no converge para zero, mas para todo m, tem uma
distribuio Cauchy de parmetro a. Portanto, Sn no satisfaz o critrio de convergncia de
Cauchy e no convergente.
8.4. UM EXEMPLO DE DIVERGNCIA DAS MDIAS
135
Observe que isto no um contra-exemplo a Lei Forte de Kolmogorov, tendo em vista

que uma varivel aleatria que tem distribuio de acordo com uma Cauchy no tem valor
esperado denido, ou seja
0

1 a|x|
1 ax
EX =
dx
+
dx,
2
2
a2 + x2
a + x
0
indenido, visto que ambas as integrais so innitas. Este exemplo serve para ilustrar que
a suposio da existncia de EX necessria para a Lei Forte dos Grandes Nmeros.
Captulo 9
Teorema Central do Limite
9.1
Motivao
Consideremos uma seqncia de variveis aleatrias independentes, X1 , X2 , . . ., denidas no

mesmo espao de probabilidade (, A, P ), e seja S1 , S2 , . . . a seqncia de somas parciais,
denidas por Sn = X1 + X2 + . . . + Xn . A Lei dos Grandes Nmeros trata da convergncia
de n1 (Sn ESn ) para 0, quando n , supondo que as variveis aleatrias Xi s sejam
integrveis. Quando a seqncia obedece lei dos grandes nmeros, existe uma tendncia
da varivel aleatria Snn , a mdia amostral no caso de variveis aleatrias independentes e
identicamente distribudas, para concentrar-se em torno de sua mdia. O Teorema Central do
Limite prova que sob certas hipteses gerais, a distribuio da mdia amostral padronizada
tende normal. O problema consiste em achar condies sob as quais
Sn ESn D
N (0, 1).
V arSn
Resumidamente, estas condies exigem que cada parcela da soma contribua com um valor
sem importncia para a variao da soma, ou seja muito improvvel que qualquer parcela
isolada d uma contribuio muito grande para a soma.
O Teorema Central do Limite d apoio ao uso da normal como distribuio de erros, pois
em muitas situaes reais possvel interpretar o erro de uma observao como resultante de
muitos erros pequenos e independentes. H tambm outras situaes que o Teorema Central
do Limite pode justicar o uso da normal. Por exemplo, a distribuio de alturas de homens
adultos de certa idade pode ser considerada aproximadamente normal, pois a altura pode
ser pensada como soma de muitos efeitos pequenos e independentes.
9.2
Teoremas e provas
Existem vrios Teoremas Centrais do Limite que variam de acordo com as hipteses sobre
as distribuies das variveis aleatrias Xi s na seqncia. Como teoremas centrais do limite
tratam de convergncia em distribuio e como, pelo Teorema da Continuidade de Levy,
sabe-se que uma seqncia de variveis aleatrias Yn D Y se, e somente se, Yn Y ,
136
9.2. TEOREMAS E PROVAS
137
t2
n
a idia ser provar que a funo caracterstica de SnVES
converge para e 2 que a funarSn
o caracterstica da N (0, 1). Ns iremos agora enunciar e provar alguns desses teoremas,
comeando pelo caso de variveis aleatrias independentes e identicamente distribudas.
Teorema 9.2.1: Sejam X1 , X2 , . . . variveis aleatrias iid com E(Xn ) = e V ar(Xn ) =

2 . Suponha que N uma varivel aleatria com distribuio N (0, 1). Se Sn = X1 + X2 +
. . . + Xn , ento
Sn n D
N.
n
Prova: Sem perda de generalidade, seja E(Xn ) = 0 e E(Xn2 ) = 1 (caso este no seja o caso,
pode-se provar o resultado para
Xi
Xi =
,
j que E(Xi ) = 0 e E(Xi )2 = 1).

Sn
it
Seja n (t) = E(e n ) e (t) = E(eitX1 ). Como a funo caracterstica de uma soma de
variveis aleatrias independentes igual ao produto das funes caractersticas das variveis
aleatrias, tem-se que
X
it 1
n (t) = (E(e n ))n = n (t/ n).
Como os dois primeiros momentos existem, possui duas derivadas contnuas. Ento,
utilizando a expanso de Taylor de e o fato que (k) (0) = ik E(X1k ), temos que
t2
((t)),
2
onde |(t)| |t|. Logo, como contnua em 0, temos que ((t)) (0) 0 quando
t 0. Ento, tem-se
t2 t2
(t) = 1 + e(t),
2
2
onde e(t) = ((t)) + 1 e limt0 e(t) = 0. Ento, para t xo
(t) = 1 + t (0) +
t2
t2
t2
t
t2
t
t
n ( ) = [1
+ e( )]n = [1 +
[1 e( )]]n e 2 ,
2n 2n
2n
n
n
n
quando n , pois [1 e( tn )] 1 e para nmeros complexos cn c (1 +

(Esse limite conhecido como limite de Euler e sua prova ser omitida).
cn n
)
n
ec
Um caso especial do Teorema Central do Limite para variveis aleatrias independentes

e identicamente distribudas quando estas variveis so distribudas de acordo com a distribuio de Bernoulli, este caso conhecido como Teorema Central do Limite de De Moivre
e Laplace.
Corolrio 9.2.2: Seja X1 , X2 , . . . uma seqncia de variveis aleatrias independentes e
distribudas de acordo com a distribuio de Bernoulli com parmetro p, ou seja, P (Xi =
1) = p = 1 P (Xi = 0) para 0 < p < 1. Ento, se Sn = X1 + . . . Xn ,
S np
n
D N (0, 1).
np(1 p)
138
Prova: imediata dado o teorema anterior, j que E(Xi ) = p e E(Xi2 ) = p.

Exemplo 9.2.3 : Suponha que temos algumas voltagens de rudos independentes, por
exemplo Vi , i = 1, 2, . . . , n, as quais so recebidas naquilo que se denomina um somador.
Seja V a soma das voltagens recebidas. Suponha tambm que cada varivel aleatria Vi
seja uniformemente distribuda sobre o intervalo [0,10]. Da, EVi = 5 volts e V arVi = 100
.
12
De acordo com o Teorema Central do Limite, se n for sucientemente grande, a varivel
aleatria
(V 5n) 12
S=
10 n
ter aproximadamente a distribuio N (0, 1). Portanto, se n = 20, podemos calcular que a
probabilidade de que a voltagem total na entrada exceda 105 volts da seguinte maneira:
(V 100) 12
(105 100) 12
P (V > 105) = P (
>
) w 1 (0, 388) = 0, 352.
10 20
10 20
Agora analisaremos um resultado mais forte que d condies gerais que garantem convergncia da mdia amostral padronizada para normal: o Teorema Central do Limite de
Lindeberg.
Teorema 9.2.4: Sejam X1 , X2 , . . . variveis aleatrias independentes tais que E(Xn ) = n
e V ar(Xn ) =
n2 < , onde pelo menos um i2 > 0. Sejam Sn = X1 + . . . + Xn e sn =
V ar(Sn ) = 12 + . . . + n2 . Considere a seguinte condio, conhecida como condio de

Lindeberg,
n
1
(x k )2 dFk (x) = 0.
> 0, lim 2
n sn
k=1 |xk |>sn
Ento, se a condio de Lindeberg satisfeita
Sn ESn D
N (0, 1).
sn
Antes de provarmos este teorema, vamos primeiro dar alguma intuio sobre a condio
de Lindeberg. Esta condio diz que, para n grande, a parcela da varincia devida s caudas
das Xk desprezvel.
A condio de Lindeberg implica que as parcelas Xk da soma tm varincias uniformemente pequenas para n grande, em outras palavras nenhuma parcela tem muito peso na
2
soma. Formalmente, a condio de Lindeberg implica que max1kn s2k 0 quando n .
n
Para ver isto, observe que para todo k,
1
1
k2
2
= 2
(x k ) dFk (x) + 2
(x k )2 dFk (x)
2
sn
sn |xk | sn
sn |xk |> sn
n
1
1
2
(
s
)
dF
(x)
+
(x j )2 dFj (x)
n
k
2
2
sn |xk | sn
sn j=1 |xj |> sn
n
1 2
1
( sn ) dFk (x) + 2
(x j )2 dFj (x).
2
sn
sn j=1 |xj |> sn
139
Este ltimo termo no depende de k, pois a primeira parcela igual a ( )2 . Portanto,

temos
n
k2
1
2
max
(x k )2 dFk (x),
( ) + 2
1kn s2
sn k=1 |xk |> sn
n
que converge para ( )2 , pela condio de Lindeberg. Como isto vale para todo , temos
2
max1kn s2k 0.
n
Portanto, o Teorema Central do Limite de Lindeberg pode ser aplicado para justicar o
seguinte raciocnio: a soma de um grande nmero de pequenas quantidades independentes
tem aproximadamente uma distribuio normal.
Exemplo 9.2.5: Vamos vericar neste exemplo que uma seqncia X1 , X2 , . . . de variveis
2
aleatrias
i.i.d. com
EXi = e V arXi = satisfaz a condio de Lindeberg. Note que
sn = V arSn = n. Ento para > 0, e F a distribuio comum das variveis aleatrias:
n
n
1
1
2
(x k ) dFk (x) =
(x )2 dF (x)
2
2
sn k=1 |xk |>sn

n k=1 |x|> n
1
=
n
(x )2 dF (x).
2
n
|x|> n
Ento, nalmente,
1
lim 2
n
|x|> n
(x )2 dF (x) = 0.
Agora iremos provar o Teorema Central do Limite de Lindeberg.

Prova: Assim como no caso de variveis aleatrias i.i.d., mostraremos que a funo caract2
n
2 .
terstica de Sn ES
converge
para
e
sn
Para tanto, xemos t R. Usaremos duas verses da frmula de Taylor aplicada funo
g(x) = eitx :
t2 x2
eitx = 1 + itx + 1 (x)
, onde |1 (x)| 1
2
e
t3 x 3
t2 x2
+ 2 (x)
, onde |2 (x)| 1.
eitx = 1 + itx
2
6
Seja > 0. Usando a primeira frmula para |x| > e a segunda para |x| , podemos
escrever eitx da seguinte forma geral:
eitx = 1 + itx
{
onde
r (x) =
t2 x2
+ r (x),
2
2 2
(1 + 1 (x)) t 2x
3 3
2 (x) t 6x
se |x| > ,
se |x| .
Portanto,
140
2 x 2
x k t ( sn k )
E(e
)= e
dFk (x) = (1 + it
+
sn
2
x k
Xk k
t2
Xk k 2
+r (
))dFk (x) = 1 + itE(
) E((
) )+
sn
sn
2
sn
t2
x k x k 2
+
(1 + 1 (
))(
) dFk (x) +
2 |xk |>sn
sn
sn
x k x k 3
t3
)(
) dFk (x).
2 (
6 |xk |sn
sn
sn
it
Xk k
sn
it
xk
sn
Como EXk = k e V ar(Xk ) = k2 , temos

E(eit
Xk k
sn
)=1
t2 k2
+ en,k ,
2s2n
onde o resto en,k satisfaz
2
|en,k | t
x k 2
|t3 |
x k 2
(
) dFk (x) +
(
) dFk (x)
sn
6 |xk |sn
sn
|xk |>sn
|t3 |
t2
2
(x k ) dFk (x) + 2
(x k )2 dFk (x).
2
sn |xk |>sn
6sn
Temos ento,
n
t2
|t3 |
|en,k | 2
(x k )2 dFk (x) +
.
s
6
|x
|>s
n
n
k
k=1
k=1
Pela condio de Lindeberg, a primeira parcela do termo direita tende a zero quando
n . Logo, para n sucientemente grande,
n
k=1
|en,k |
|t|3
.
3
Vamos ento escolher uma seqncia de s que converge para zero. Para =
nm tal que para n nm ,
n
|t3 |
,
|en,k |
3m
k=1
1
,
m
existe
(9.1)
onde os restos en,k so os determinados pela frmula baseada em = m1 . Portanto, existe uma
seqncia de inteiros positivos n1 < n2 < . . . tal que (9.1) satisfeita para nm n < nm+1 ,
onde para estes valores de n os restos so baseados em = m1 . importante lembrar durante
o restante da prova que o valor de que determina o resto en,k depende da posio de n em
relao aos nm . Temos, ento,
n
|en,k | 0 quando n .
k=1
141
Como Xi s so independentes,
Sn ESn (t) =
sn
it
E(e
k=1
Xk k
sn
t2 k2
)=
(1 2 + en,k ).
2sn
k=1
Para provar que o termo direita converge para e

nmeros complexos.
t2
2
Lema 9.2.6: Sejam cn,k nmeros complexos tais que
, usaremos o seguinte Lema sobre
k=1 cn,k
c quando n . Se
max |cn,k | 0 quando n
1kn
|cn,k | M < ,
k=1
onde M uma constante que no depende de n, ento

n
(1 + cn,k ) ec quando n .
k=1
Prova: Ns omitimos a prova deste lema que pode ser encontrada no livro do Chung seo
7.1.
t2 2
Em nosso caso, sejam cn,k = 2s2k + en,k e c =

n
t2
.
2
Temos que
t2
t2
|cn,k | +
|en,k | ,
2
2
k=1
k=1
logo existe M < tal que n,

condio sobre o mximo
n
k=1
|cn,k | < M . Para aplicar o lema resta vericar a
t2 k2
t2 k2
+
max
|e
|
max
+ max |en,k |
n,k
1kn 2s2
1kn
1kn 2 s2
1kn
n
n
max |cn,k | max
1kn
Como j provamos que os dois termos acima tendem a zero, a prova est terminada.
Exemplo 9.2.7: Seja {Xn : n 1} uma sequncia de variveis i.i.d. com mdia 0 e varincia
1. Tambm, seja {Yn : n 1} uma sequncia de variveis independentes com
1
1
e P (Yn = 0) = 1 2 , n 1.
2
2n
n
D
Sendo Xn e Yn independentes para n 1, temos 1n nk=1 (Xk + Yk )
N (0, 1), mas a
condio de Lindeberg no est satisfeita.
P (Yn = n) =
142
D
Soluo: Pelo TCL para variveis i.i.d., temos que 1n nk=1 Xk
N (0, 1), vamos
P
provar que 1n nk=1 Yk
0. Deste modo o resultado segue por Slutsky. Pela desigualdade
de Markov, temos
n
n
n
E| nk=1 Yk |
1/k n
1
k=1 E|Yk |
P (|
Yk | > )
= k=1
0,
n k=1
n
n
n
(onde o ltimo limite pode ser visto pelo fato de que usando o teste da integral para sries
n
P
pode-se provar que log1 n nk=1 1/k 1). Logo, 1n nk=1 Yk
0.
Como V ar(Xk + Yk ) = V ar(Xk ) + V ar(Yk ) = 2, temos que se a condio de Lindeberg
D
fosse satisfeita, teramos 1n nk=1 (Xk + Yk )
N (0, 2). Logo, a condio de Lindeberg no
satisfeita, caso contrrio teramos uma contradio.
Corolrio 9.2.8: Teorema Central do Limite de Liapunov. Sejam X1 , X2 , . . . variveis
aleatrias independentes tais que EXn = n e V arXn = n2 < com pelo menos um j2 > 0.
Seja Sn = X1 + . . . + Xn e s2n = V arSn . Se existir m > 0 tal que
ento,
s2+m
n
k=1
E(|Xk k |2+m ) 0 quando n ,
Sn ESn D
N (0, 1).
sn
Prova: Para provar este teorema, suciente vericar que as condies do Teorema de Liapunov implicam as condies do Teorema de Lindeberg. A condio de Lindeberg estabelece
k|
uma integral na regio |x k | > sn , > 0. Nessa regio, temos que |x
> 1, o que por
sn
|xk |m
sua vez implica m sm > 1. Desse modo, temos que:
n
n
n
m
1
1
2
2 |x k |
(x
)
dF
(x)
(x
)
dFk (x)
k
k
k
s2n k=1 |xk |>sn
s2n k=1 |xk |>sn
m sm
n
n
n
1
1
2+m
|x k |
dFk (x) m 2+m
|x k |2+m dFk (x)
= m 2+m
sn k=1 |xk |>sn
sn k=1
n
1
= m 2+m
E|Xk k |2+m .
sn k=1
Mas a condio de Liapunov implica que o ltimo termo tende a zero quando n .
Portanto, a condio de Lindeberg est satisfeita.
Antes de vercarmos um exemplo do Teorema Central do Limite de Liapunov, vamos
considerar o seguinte Lema.
143
Lema 9.2.9: Para > 0,
n
1
n+1
quando n , de maneira que
n
k=1
k=1
1
,
+1
k da ordem de n+1 .
Prova: Como x k se k 1 x k, e k x se k x k + 1, segue-se que

k+1
k+1
k
k
x dx,
k dx
k dx = k =
x dx
k
k1
k1
somando-se em k de 1 at n, temos
n
x dx
k
0
n+1
x dx.
k=1
Logo,
n+1
(n + 1)+1 1
(n + 1)+1
k
,
+1
+1
+1
k=1
n
o que eqivalente a
n
1
1
1
n + 1 +1
k
+1
(
) .
+1
n
+1
n
k=1
)+1 1 quando n , o lema est provado.

Como ( n+1
n
n
Exemplo 9.2.10: Sejam X1 , X2 , . . . , independentes, Xn U [n, n]. Prove que Sn ES
D
sn
N (0, 1).
Soluo: Vamos vericar a condio de Liapunov para = 1. Temos
k
1 k 3
k3
1
3
3
3
|x| dx =
x dx = .
E|Xk k | = E|Xk | =
2k k
k 0
4
Logo, o Lema anterior implica que nk=1 E|Xk k |3 da ordem de n4 . Vamos determinar
a ordem de s3n . Como k = EXk = 0 e
k
1
k2
2
2
k = V ar(Xk ) = EXk =
x2 dx = , temos
2k k
3
s2n =
k2
k=1
Portanto, aplicando o resultado do Lema, temos:

1
s2n
.
3
n
9
144
Ento,
n
n
3
n9/2
1
1
3
k=1 E|Xk k |
lim
E|Xk k | = lim ( 3
1/2 )
4
n
n s3
sn
n
n
n k=1
= 93/2
1
1
lim 1/2 = 0.
16 n n
Exemplo 9.2.11:
Sejam Xn , n 1, variveis independentes com
1
P (Xn = 2n ) = 2n1 e P (Xn = 1) = (1 2n ), n 1.
2
D
N (0, 1).
Verique que 1n ni=1 Xi
Soluo: Dena Yn = Xn I[|Xn |n] . Deste modo, P (Yn = 1) = 21 (1 2n ) e P (Yn =
0) = 2n . Vamos vericar que Yn satisfaz a condio de Liapunov para m = 1. Temos
que EYn = 0, V ar(Yn ) = EYn2 = (1 2n ), e E|Yn |3 = (1 2n ) = V ar(Yn ). Logo,
1
( 1 )n+1
s2n = nk=1 V ar(Yk ) = nk=1 (1 2k ) = n 2 21
. Portanto,
2
n
n
1
1
1
1
n
3
E|Yk | = 3
V ar(Yk ) =
0.
=
1
1 n+1
3
(
)
sn k=1
sn k=1
sn
n 2 21
2
O Teorema Central do Limite de Liapunov implica que,
n
Portanto,
1 ( 1 )n+1
2
2
1
2
1
( 21 )n+1
2
1
2
Como
Yk
N (0, 1).
k=1
1
D
Yk
N (0, 1).
n k=1
n
1
( 12 )n+1
2
1
2
1, temos que
1
D
N (0, 1).
Yk
n k=1
n
Seja Zn = Xn Yn . Ento,
1
1
1
Xk =
Yk +
Zk .
n k=1
n k=1
n k=1
n
9.3. TEOREMA CENTRAL DO LIMITE: CASO MULTIVARIADO
145
P
Se conseguirmos provar que 1n nk=1 Zk
0, ento o resultado segue por Slustky. Mas
P (Zn = 2n ) = 2n1 e P (Zn = 0) = 1 2n . Como P (|Zn | > k1 ) = P (|Zn | = 2n ) = 2n ,
temos que
1
P (|Zn | > ) =
2n < , k 1.
k
n=1
n=1
Portanto, Zn 0 cp1, ou seja, P ({w : limn Zn (w) = 0}) = 1. Como
lim Zn (w) = 0 > 0, N tal que |Zn (w)| < , n N
N tal que |Zn (w)| < 1, n N

N tal que |Zn (w)| = 0, n N
|
Zi (w)| <
i=1
1
lim
Zi (w) = 0,
n
n i=1
n
temos que {w : limn Zn (w) = 0} {w : limn 1n ni=1 Zi (w) = 0}. Logo,
P ({w : limn 1n ni=1 Zi (w) = 0}) = 1, o que por sua vez implica que, 1n nk=1 Zk
0.
9.3
Teorema Central do Limite: Caso Multivariado
Conclumos dizendo que o Teorema Central do Limite tambm pode ser estendido ao caso
de vetores aleatrios. Neste caso, tem-se que a distribuio da mdia amostral centrada
converge para uma distriuio normal multivariada. A seguir, ns enunciamos formalmente
o teorema sem prov-lo.
1, X
2 , . . . uma seqncia de vetores aleatrios k-dimensionais,
Teorema 9.3.1 : Seja X
1 tenha varincia nita, e sejam
independentes e identicamente distribudos. Suponha que X
1 . Seja X n a mdia amostral, denida como a
a mdia e a matriz de covarincia de X
1, . . . , X
n . Ento,
mdia aritmtica dos vetores X
n(X n ) D N (0, ), quando n .
9.4
Mtodo Delta
O mtodo Delta um resultado que aumenta signicativamente a relevncia do Teorema

Central do Limite. Antes de enunciarmos o teorema, vamos provar dois lemas. Dizemos que
uma seqncia de variveis aleatrias {Yn } limitada em probabilidade se para todo > 0,
existir K e n0 tal que P (|Yn | K) > 1 para todo n > n0 .
9.4. MTODO DELTA
146
Lema 9.4.1: Se {Yn } converge em distribuio para uma varivel aleatria com funo de
distribuio H, ento a seqncia limitada em probabilidade.
Prova: Fixemos K1 e K2 pontos de continuidade de H tal que H(K1 ) > 1/4 e H(K2 ) <
/4. Escolhamos n0 tal que, n > n0 ,
Hn (K1 ) > H(K1 ) /4 > 1 /2
e
Hn (K2 ) < H(K2 ) + /4 < /2.
Ento,
P (K2 Yn K1 ) Hn (K1 ) Hn (K2 ) > 1 .
O resultado est provado se escolhermos K = max(|K1 |, |K2 |).
Lema 9.4.2: Se {Yn } limitada em probabilidade e Xn = o(Yn ), ento Xn P 0.
Prova: Dados quaisquer > 0 e > 0, precisamos mostrar que existe N tal que P (|Xn | >
) < para todo n N . Como {Yn } limitada em probabilidade, existe K e n1 tal
que P (|Yn | K) > 1 para todo n n1 . Como Xn = o(Yn ), sabemos que existe
n|
n2 tal que |X
< K para todo n n2 . Faamos N = max(n1 , n2 ), ento para n N ,
|Yn |
|Xn | > |Yn | > K. Logo
P (|Xn | > ) P (|Yn | > K) < .
Teorema 9.4.3: Se
n(Tn ) D N (0, 2 ), ento
n[f (Tn ) f ()] D N (0, 2 [f ()]2 ),
(9.2)
desde que f () exista e no seja zero.

Prova: Utilizaremos a verso da srie de Taylor em torno de Tn = que diz que:
f (Tn ) = f () + (Tn )f () + o(Tn ),
e ento
n[f (Tn ) f ()] =
n(Tn )f () + o( n(Tn )).
O primeiro termo
do lado direito converge em distribuio para N (0, 2 [f ()]2 ). Por outro
Lema 9.4.1, temos que n(Tn )

lado, como n(Tn ) converge em distribuio, pelo
limitada em probabilidade. Ento pelo Lema 9.4.2, o( n(Tn )) converge para zero em
probabilidade. O resultado portanto uma conseqncia do Teorema de Slutsky.
Este teorema pode parecer uma surpresa, j que se X distribudo normalmente, a
distribuio de f (X), por exemplo, 1/X, log X, ou eX no ser tipicamente normal. A
explicao para este paradoxo aparente pode ser encontrada na prova. Como o(Tn ) P 0,
ns estamos quase certos que quando n for grande, Tn aproximadamente linear, e uma
funo linear de uma varivel normal tambm normal. O processo de aproximar a diferena
f (Tn ) f () pela funo linear (Tn )f () e o limite em (9.2) chamado de mtodo delta.
9.4. MTODO DELTA
147
Exemplo 9.4.4: Para estimar p2 , suponha que temos a escolha entre

(a) n ensaios binomiais com probabilidade p2 de sucesso; ou
(b) n ensaios binomiais com probabilidade p de sucesso.
Sejam X e Y o nmero de sucessos no primeiro e segundo tipo de ensaios, e suponha que
como estimadores de p2 nos dois casos, ns usaramos X/n e (Y /n)2 , respectivamente. Ento
ns temos:
X
n( p2 ) D N (0, p2 (1 p2 ))
n
e
Y 2
n(( ) p2 ) D N (0, p(1 p)4p2 ).
n
Ento, pelo menos para n grande, X/n ser mais acurado que (Y /n)2 , desde que
p2 (1 p2 ) < p(1 p)4p2 .
Dividindo ambos os lados por p2 (1 p), podemos ver que
X
Y2
ou 2 prefervel se p > 1/3 ou p < 1/3, respectivamente.
n
n
O mtodo delta proporciona a base para derivar transformaes que estabilizam a varincia, ou seja, transformaes que levem a uma varincia assinttica que independente do
parmetro. Suponha, por exemplo, que X1 , . . . , Xn so variveis Poisson com parmetro .
Segue do Teorema Central do Limite que
n(X ) N (0, ).
Para problemas de inferncia que se referem a , quase sempre inconveniente que
ocorre no somente na esperana mas tambm na
varincia da distribuio limite. portanto
de interesse achar uma funo f para a qual n[f (Tn ) f ()]tende em distribuio para
N (0, c2 ), onde c2 no depende de . Em geral, suponha que n(Tn ) D N (0, 2 ()).
Ento, pelo mtodo delta:
n[f (X) f ()] D N (0, 2 ()(f )2 ()),

desde que a derivada de f exista em e seja diferente de 0. A distribuio limite do lado
c
direito ter portanto varincia constante c2 se f () = ()
. A transformao resultante
dita ser estabilizadora de varincia.
Exemplo 9.4.5: Poisson. No caso de Poisson, temos = e () = . Logo,
c
f () = ou f () = 2c .
Fazendo c = 1, temos que

2 n( X ) D N (0, 1).
9.4. MTODO DELTA
148
Exemplo 9.4.6: Chi-Quadrado. Seja Yi = Xi2 , onde as Xi s so i.i.d. N (0, 2 ). Ento,

EYi = 2 e V arYi = 2 4 e pelo Teorema Central do Limite, temos
n(Y 2 ) D N (0, 2 4 ),
ou seja, Tn = Y , = 2 , e 2 () = 22 . Logo,
c
c
f () = ou f () = log .
2
2
Fazendo c = 1, vemos que
n
Y
log( 2 ) D N (0, 1).
2
Referncias Bibliogrcas
1. James, B. (1981), Probabilidade: um curso em nvel intermedirio - Projeto Euclides
2. Magalhes, Marcos M. (2006), "Probabilidade e Variveis Aleatrias", 2a. edio,
edusp.
3. Lima, E. (1976), Curso de Anlise, vol.1 - Projeto Euclides
4. Resnick, S. I., "A Probability Path", Birkhauser, 2005.
5. Halpern, Joseph Y. (2003), "Reasoning About Uncertainty", The MIT press.
6. Davenport Jr., W. (1970), "Probability and Random Processes", McGraw-Hill Book
Company Inc.
7. deFinetti, B. (1972), "Probability, Induction, and Statistics", New York: Willey.
8. Fine, T. (2006), Probability and Probabilistic Reasoning for Electrical Engineering,
Prentice Hall.
149

RÊGO, L. C. Notas de Aula Do Curso PGE950 - Probabilidade. 2013.

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

RÊGO, L. C. Notas de Aula Do Curso PGE950 - Probabilidade. 2013.

Hochgeladen von

Copyright:

Verfügbare Formate

Notas de Aula do Curso

Funes de Variveis Aleatrias . . . . . . . . . . . . . . . . . . . . . . . . .

4 Esperana e Momentos de Variveis Aleatrias

5 Distribuio e Esperana Condicionais

dos Grandes Nmeros

Um Exemplo de Divergncia das Mdias . . . . . . . . . . . . . . . . . . . . 134

9 Teorema Central do Limite

Um dos maiores objetivos de um estatstico chegar a concluses sobre certa populao

importante ressaltar que frequentemente so encontradas situaes prticas onde no se consegue

1.2. ESPAO AMOSTRAL

1.3. EVENTOS E COLEO DE EVENTOS

Eventos e Coleo de Eventos

Um evento um subconjunto do espao amostral, ou seja, um conjunto de resultados

Denio 1.3.3: Dado um espao amostral , uma partio = {A , I} de uma

1.3. EVENTOS E COLEO DE EVENTOS

Deste modo os eventos de uma partio so mutuamente excludentes (ou disjuntos) e

1.3. EVENTOS E COLEO DE EVENTOS

1.3. EVENTOS E COLEO DE EVENTOS

Teorema 1.3.11: Se A uma lgebra de eventos, ento

Autor: Leandro Chaves Rgo

1.3. EVENTOS E COLEO DE EVENTOS

Denio 1.3.15 : Funo Indicadora. A funo indicadora IA : {0, 1} de um

Exemplo 1.3.18: As seguintes questes no esto relacionadas umas com as outras.

1.4. FUNDAMENTOS DE PROBABILIDADE

d. Se IA IB for identicamente igual a 1, o que podemos concluir sobre A e B?

1.4. FUNDAMENTOS DE PROBABILIDADE

Autor: Leandro Chaves Rgo

1.4. FUNDAMENTOS DE PROBABILIDADE

Hierarquia de Conceitos Estruturais de Probabilidade

Os seguintes so exemplos de uma variedade de conceitos estruturais de probabilidade:

1.5. FREQUNCIAS RELATIVAS

De agora em diante focaremos no conceito estrutural mais utilizado e preciso que a

1.5. FREQUNCIAS RELATIVAS

Av1. Se para todo , X() 0, ento Avn 0.

Propriedades chaves da frequncia relativa so:

Em particular, se para cada i, temos convergncia da sequncia r1 (X = xi ), r2 (X = xi ), . . . ,

1.6. AXIOMAS DE KOLMOGOROV

Autor: Leandro Chaves Rgo

1.6. AXIOMAS DE KOLMOGOROV

K4. Continuidade Monotnica. Se para todo i > 0, Ai+1 Ai e i Ai = , ento

Um forma equivalente de K4 a seguinte:

Claramente, para todo i n, temos que Ai e Bn so disjuntos. Por K3, temos

Por denio de srie numrica,

Agora, vamos provar que K0-K3, K4 implicam o axioma da continuidade monotnica

Autor: Leandro Chaves Rgo

1.6. AXIOMAS DE KOLMOGOROV

Ento, por K4 temos que

Exemplos de Medidas de Probabilidade

denido para qualquer subconjunto A de . O fato que 0 ||A|| |||| e que

1.6. AXIOMAS DE KOLMOGOROV

Propriedades de uma Medida de Probabilidade

Teorema 1.6.9: Se P uma medida de probabilidade, ento

Teorema 1.6.13: Probabilidade de Parties. Se {Ai } uma partio enumervel de

Autor: Leandro Chaves Rgo

1.6. AXIOMAS DE KOLMOGOROV

Prova: Como {Ai } uma partio, segue que

Prova: Provaremos por induo matemtica em n. A desigualdade trivialmente verdadeira

Pela hiptese do passo indutivo, para n = k,

portanto, a desigualdade de Boole verdadeira.

O prximo teorema permite que possamos calcular de maneira exata a probabilidade

Autor: Leandro Chaves Rgo

1.6. AXIOMAS DE KOLMOGOROV

Teorema 1.6.16 : Princpio da Incluso-Excluso. Seja I um conjunto genrico de