Sie sind auf Seite 1von 29

Notas sobre Probabilidade Discreta

por

Roberto Imbuzeiro M. F. de Oliveira

IMPA

i
Indice

1 Introducao 1
1.1 Andamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 20 de marco de 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Definicoes basicas do caso discreto 2


2.1 Conceitos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Particoes e probabilidades condicionais . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Variaveis aleatorias 11
3.1 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 Distribuicao de uma variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Distribuicoes novas a partir de antigas . . . . . . . . . . . . . . . . . . . . . . . 12
3.4 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5 Somas de variaveis aleatorias independentes . . . . . . . . . . . . . . . . . . . . 14

4 Valores esperados, momentos e desigualdades 16


4.1 Valores esperados e momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1.1 A desigualdade de Jansen e as normas Lp . . . . . . . . . . . . . . . . . 18
4.2 Variancia e covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.3 A desigualdade de Chebyshev e concentracao . . . . . . . . . . . . . . . . . . . 21
4.4 Aplicacao a aproximacoes por polinomios . . . . . . . . . . . . . . . . . . . . . 23

5 Interpretacao das probabilidades condicionais 25


5.1 Probabilidades e esperancas condicionais . . . . . . . . . . . . . . . . . . . . . . 25
5.1.1 Informacao e aproximacao: definindo probabilidades condicionais . . . . 25
5.1.2 Informacao e aproximacao: o caso geral . . . . . . . . . . . . . . . . . . 27

ii
Captulo 1: Introducao

Muitos dos conceitos relevantes em Probabilidade e ja sao interessantes no caso discreto,


em que as tecnicalicades de Teoria da Medida sao desnecessarias e as ideias envolvidas se
tornam transparentes. Alem disso, as distribuicoes discretas sao frequentemente encontradas
em aplicacoes de Probabilidade.
Estas duas razoes sugerem que um curso introdutorio de Probabilidade dispense especial
atencao a este caso particular da teoria. No entanto, a duracao do curso de mestrado em
Probabilidade do IMPA exige que se cumpra a parte difcildo programa sem muita demora.
Estas notas sucintas se propoem a complementar este curso atraves de um estudo paralelo
da Probabilidade discreta atraves de exerccios. Apresentaremos uma boa parte do curso
neste caso particular, indicaremos a correspondencia natural que existe entre conceitos de
Probabilidade discreta e de Medida e, por fim, exibiremos as limitacoes do caso discreto e a
forma pela qual elas sao superadas pela teoria axiomatica de Kolmogorov.
Sugestoes e correcoes devem ser enviadas para rimfo@impa.br.

1.1 Andamento

Estas notas sao um trabalho em andamento que sera constantemente atualizado. Manter-
emos aqui uma lista das modificacoes mais relevantes e das secoes ja prontas.

1.1.1 20 de marco de 2007


So os Captulos 2 e 3 estao razoavelmente prontos (mas ainda nao revistos). O Captulo 4
ja esta algo legvel e pode ser estudado preliminarmente. O Captulo 5 ainda esta totalmente
caotico.

1.2 Referencias

As principais referencias destas notas sao:


1. Kai Lai Chung, A Course in Probability Theory Revised;
2. William Feller, An Introduction to Probability Theory and Its Applications, Volume1;
3. Barry James. Probabilidade: um curso em nvel intermediario.

1
Captulo 2: Definicoes basicas do caso discreto

2.1 Conceitos basicos

Aproximadamente um sexto dos lancamentos de um dado resulta no numero 4. As


brasileiras tem em media 2, 5 filhos. Ha uma chance de 22% de que a economia chilena cresca
mais do que a indiana no ano de 2007. Cada uma destas afirmacoes pode ser vagamente
interpretada de uma das seguintes duas maneiras:

Avaliacao de risco: Ha um conjunto de possibilidades para o que pode vir a acontecer.


A cada possibilidade atribui-se uma medida numerica do risco de sua ocorrencia.
Frequencia: Olhamos para uma serie de circunstancias repetidas. Para cada repeticao,
observamos a ocorrencia de um dado evento e calculamos a fracao de vezes em que o
evento acontece.

Grosso modo, a definicao de probabilidade que veremos a seguir captura a primeira inter-
pretacao acima. Um teorema fundamental chamado de Lei dos Grandes Numeros nos permi-
tira dizer que, ao menos em alguma situacoes, podemos recuperar a segunda interpretacao de
forma precisa.
Nossa definicao (provisoria) de probabilidade tem dois ingredientes.
Definicao 2.1. Um espaco de probabilidade discreto e um par (, P) cujos dois elementos
sao:
1. Um espaco amostral , que e o conjunto de possveis acontecimentos, e que e um
conjunto finito ou enumeravel.
2. Uma medida de probabilidade (ou distribuicao) P (), que atribui a cada elemento
uma probabilidade (valor de risco) P () [0, 1]. Exigiremos sempre que a soma das
probabilidades seja 1, isto e: X
P () = 1.

Hipotese 2.2. Todos os espacos de probabilidade neste captulo sao espacos discretos.
A definicao acima induz uma funcao sobre os subconjuntos de (isto e, o conjunto P()
das partes de ). Esta nova funcao tambem sera chamada de P.

P : P() [0,
P1]
(2.1)
A 7 P (A) = A P ()

Note que, com esta definicao, P ({}) e o valor de P () definido anteriormente.


Exerccio 2.1. Prove que a funcao P sobre P() satisfaz as seguintes propriedades:
1. P () = 0
2. P () = 1

2
P+
3. se A1 , A2 , sao conjuntos disjuntos 2 a 2, P +

n=1 An = n=1 P (An ). (A
probabilidade da uniao de conjuntos disjuntos e a soma das probabilidades dos conjuntos
individuais.)
Mostre a seguinte recproca: se P : P() [0, 1] satisfaz estas tres propriedades, entao
P () = P ({}) e uma medida de probabilidade no sentido da Definicao 2.1.
Observacao 2.3. Os elementos A P() sao ocasionalmente chamados de eventos.
Exerccio 2.2. Prove tambem as seguintes propriedades.
1. Se A B , P (A) P (B);
2. Se A1 , A2 , P (A1 ) = P (A1 A2 ) + P (A1 \A2 );
3. para todo A P(), P (Ac ) = 1 P (A), onde Ac e o complementar de A em .
4. Inclusao-exclusao: Para quaisquer conjuntos A1 , A2 :

P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) .

5. Inclusao-exclusao generalizada: Para quaisquer conjuntos A1 , A2 , . . . , An :


n
X X
P (ni=1 Ai ) = (1)k+1 P (iS Ai ) ,
k=1 S{1,...,n}:|S|=k

onde |S| e a cardinalidade de S. [Este e um item mais difcil. Uma estrategia para
resolve-lo e usar inducao em n. O caso n = 2 e o item anterior. Para n 3, considere
P (Bn1 An ) onde Bn1 = n1 i=1 Ai . Note que pelo item anterior:

0

P (Bn1 An ) = P (An ) + P (Bn1 ) P Bn1 ,
0
onde Bn1 = n1
i=1 (Ai An ). Agora aplique a hipotese indutiva.]

2.2 Exemplos

Alguns exemplos basicos de espacos de probabilidade sao apresentados a seguir. O leitor


deve certificar-se de que cada um corresponde de fato a um espaco de probabilidade.
Exerccio 2.3 (Espacos produto). Para 1 i n, sejam (i , Pi ) espacos de probabilidade
(discretos). Defina um novo espaco (, P) mediante o produto cartesiano

= 1 2 . . . n

e tomando

(2.2) P () = P1 (1 ) P1 (2 ) . . . Pn (n ) , = (1 , . . . , n ) .

Mostre que (, P) e um espaco de probabilidade (o espaco produto) e que (2.2) e equivalente


a
P (A1 An ) = P1 (A1 ) P1 (A2 ) . . . Pn (An ) , A1 , . . . , An .

3
Exemplo 2.4 (Bernoulli). Neste caso = {0, 1} correspondendo ao cara/coroa de uma
moeda. Fixamos um numero p [0, 1] e dizemos que P (1) = p, P (0) = 1p. Esta distribuicao
e chamada de Bernoulli com parametro p (Bep )
n
Exerccio 2.4 (Produto de Bernoullis).
|| n||
PnEscolha p [0, 1] e n N. Seja = {0, 1} e
P () = p (1 p) , onde || = i=1 i . Mostre que este espaco e o produto de n
espacos i = {0, 1} com medida Pi = Bep .
Exemplo 2.5 (Um dado). Neste caso = {1, 2, 3, 4, 5, 6} correspondendo as faces de um
dado. Definimos P () = 1/6 para cada .

Exemplo 2.6 (Distribuicao uniforme). Generalizando o exemplo anterior, e um conjunto


discreto dado e P () = 1/|| para cada , onde || e a cardinalidade do conjunto .
Esta e a distribuicao uniforme sobre (U nif )
Exerccio 2.5. Mostre que neste caso A , P (A) = |A|/||.
Exerccio 2.6 (Produtos de distribuicoes uniformes sao uniformes). O produto de n espacos
finitos (i , Pi = U nifi ) e (, P = U nif ).
Exemplo 2.7 (Distribuicao geometrica). A tecnica de datacao por carbono 14 e baseada no
chamado decaimento: cada atomo transforma-se espontaneamente em outro tipo de atomo
ao longo do tempo1 . Nosso espaco correspondera ao numero de segundos que um atomo
escolhido de carbono 14 demora para decair: = N = {1, 2, 3, . . . }. A probabilidade P tera a
forma de decaimento exponencial discretodeterminada pela seguinte formula:

(2.3) P ({k, k + 1, k + 2, . . . }) = (1 p)k1 ,

onde p [0, 1) e um parametro que depende das propriedades do carbono-14 2 . De modo geral,
a distribuicao determinada pela formual acima e chamada de geometrica com parametro p
(Geop ).
Exerccio 2.7. Mostre que ha uma unica funcao P : [0, 1] compatvel com (2.3) e que
ela e dada por P () = p(1 p)1 . Calcule tambem a meia-vida H, isto e, o menor k tal que

P ({k, k + 1, k + 2, . . . }) 1/2.
n

Exemplo 2.8 (Binomial). Recordamos a definicao do coeficiente binomial k :
 
n n!
(k, n N, 0 k n).
k k!(n k)!

A distribuicao binomial com parametros n N, p [0, 1] (Binn,p ) e a probabilidade sobre


= {0, 1, 2, . . . , n} dada por  
n k
p (1 p)nk , k .
k
1 Ver http://en.wikipedia.org/wiki/Carbon-14.
2 Por que nao podemos tomar p 1?

4
Exerccio 2.8 (Produto de Bernoullis e Binomial.). Volte ao Exerccio 2.4. Considere os
eventos Ek { : || = k}. Prove que cada Ek e a uniao disjunta de nk eventos

FS { : 1 i k, i = 1 se i S ou 0 se i 6 S}.

Mostre que P (FS ) = pk (1 p)nk e que P (Ek ) = Binn,p (k). Esta conexao entre o produto de
Bernoullis e a distribuicao Binomial sera elucidada quando falarmos de variaveis aleatorias.
Exerccio 2.9 (Apresentando a distribuicao Poisson). Fixe > 0 e considere (para n ) a
distribuicao Pn = Binn,pn , com pn = /n. Note que Pn (k) esta definido para todo 0 k n
inteiro. Prove o seguinte limite para todo k N

k
lim Pn (k) P o (k) = e .
n+ k!
P o e uma probabilidade sobre N conhecida como Poisson com parametro > 0. Este ex-
erccio mostra que binomiais convergem para Poisson; um resultado mais forte sera provado
bem mais adiante.
Exemplo 2.9 (Retirando bolas de urnas com ou sem reposicao). Imagine uma urna com
bolas numeradas de 1 a n das quais k n bolas a1 , . . . , ak sao retiradas sucessivamente.
Para definirmos as distribuicoes abaixo, seja [b] = {1, dots, b} (b natural). S R e o conjunto
R
de funcoes de S em R e Sinj e o subconjunto de funcoes injetivas. Descrevemos duas situacoes
possveis.
1. Cada bola retirada e reposta. Se definimos : [k] [n] via (i) = ai , entao e um
elemento do espaco = [n][k] . Se P = U nif[n][k] , este caso e conhecido como retirada
de bolas com reposicao.
2. Cada vez que uma bola e retirada, ela nao e reposta na urna, de modo que na -esima
retirada restam na urna as bolas {1, . . . , n}\{a1 , . . . , ai1 }. Se definimos : [k] [n]
[k]
via (i) = ai , entao e um elemento do espaco = [n]inj Se P = U nif[n][k] , temos o
inj
que se chama de retirada de bolas com reposicao.
Exerccio 2.10. Prove que [n][k] e [n]k tem uma bijecao natural onde cada [n][k] corre-
sponde ao vetor ((1), . . . , (n)). Logo U nif[n][k] corresponde naturalmente a medida produto
sobre [n]k (Exerccio 2.6).
Exerccio 2.11. Considere o caso de uma urna com n bolas da qual k = n bolas sao tiradas
sem reposicao. Mostre que neste caso = Sn , o conjunto das permutacoes de [n]. Agora
considere o conjunto das permutacoes com pontos fixos, isto e, que mapeiam algum i [n]
nele mesmo.
Fn = { Sn : i [n], (i) = i}.
Seja Pn = U nif . Seguindo os passos abaixo, provaremos que
n
X (1)k+1
Pn (Fn ) = 1 e1 .
k!
k=1

1. Defina Ei = { Sn : (i) = i}. Mostre que Fn = i Ei .

5
2. Mostre que para todos 1 i1 < < ik n P (Ei1 Eik ) = (n k)!/n! = 1/k! nk


[Dica: seja uma permutacao de [n]\{i1 , . . . , ik } (que tem n k elementos). Defina


= com a permutaca com (ij ) = ij e (u) = (u) para u [n]\{i1 , . . . , ik }. Prove
que a cada Ei1 Eik corresponde um como acima e vice-versa. Isto permite
contar os elementos da interseccao.]
3. Aplique a formula da Inclusao-Exclusao Generalizada aos Ei s.

2.3 Probabilidades condicionais

Suponha que temos um espaco de probabilidade (, P) correspondendo por exemplo a uma


carta de um baralho com disribuicao uniforme. Estas cartas estao particionadas em quatro
conjuntos correspondendo aos naipes e queremos saber se a carta escolhida e de copas
. De incio, tudo o que podemos dizer e que, se C e o evento copas,
1
P (C) = .
4
Equivalentemente, o riscoatribudo a C e de 25%. Suponha, no entanto, que recebemos a
informacao de que a carta escolhida e preta, isto e, P . Neste caso, e necessario atualizar
nossa medida de risco: como todas as cartas de copas sao vermelhas, devemos passar a atribuir
risco 0 ao dado evento. Isto e, cndicionado ao evento P , o evento C em probabilidade 0. Por
outro lado, se descobrimos que e vermelha ( V = P c ), entao continua existindo um
risco de que C; como metade das cartas vermelhas pertence a V , parece natural dizer
que condicionado a V , a probabilidade de C e 1/2.
A probabilidade condicional pode ser vista como uma formalizacao da ideia de que proba-
bilidades devem ser atualizadas cada vez que informacao nova e recebida. Mostraremos mais
adiante que as formulas abaixo representam uma atualizacao otima das medidas de risco de
acordo com uma certa medida natural de qualidade. Segue que as formulas abaixo nao sao
arbitrarias; pelo contrario, sua escolha e bem motivada.
Definicao 2.10. Seja (, P) um espaco de probabilidade discreto e A um evento com
P (A) > 0. A probabilidade condicional de dado A e definida pela formula.
(
P()
(2.4) P ( | A) = P(A) , A;
0, Ac .

Observacao 2.11. Note que para todo evento B, P (B | A) = P (B A) /P (A) [Exerccio].


Ocasionalmente falaremos de P (B | A) para P (A) = 0; neste caso, a probabilidade condicional
pode ser definida de maneira arbitraria, pois seu valor quase nunca fara diferenca.
Exerccio 2.12. Formalize o problema do baralho descrito acima e mostre que P (C | P ) = 0,
P (C | V ) = 1/2.
Exerccio 2.13 (Regra da probabilidade total.). Se A1 , A2 , . . . e uma particao de ,
X
B , P (B) = P (B | Ai ) .
i

6
Exerccio 2.14 (Regra de Bayes.). Se P (A) , P (B) > 0,
P (B | A) P (A)
P (A | B) = .
P (B)
Exerccio 2.15. Considere = [n] = {1, . . . , n} com a medida uniforme. Suponha que n e
divisvel por 4. Seja P [n] o sub-conjunto dos pares e I = P c o sub-conjunto dos mpares e
Q o sub-conjunto dos numeros divisveis por 4. Calcule P (Q) , P (Q | P ) , P (Q | I) , P (P | Q).
Exerccio 2.16 (Falta de memoria da distribuicao geometrica). Consideramos agora (, P) =
(N, Geop ) como no Exemplo 2.7. Considere um evento Mk {k, k + 1, k + 2, . . . }. Mostre
que a distribuicao condicional de P ( | Mk ) e dada por
P (i + k 1 | Mk ) = p(1 p)i1 , i N e P (j | Mk ) = 0, j < k.
Em particular, mostre que a meia-vida da distribuicao condicional e k 1 + H, onde H e a
meia-vida de Geop . Intuitivamente, isto quer dizer que se o atomo nao decaiu ate o tempo
k, o tempo que falta para o decaimento tem a mesma distribuicao que tinha originalmente: o
atomo nao se lembra de quanto tempo ja passou.
Em muitos casos usa-se probabilidades condicionais para definir uma medida P implicita-
mente. Abaixo vemos alguns exemplos.
Exemplo 2.12. Tem-se um saco com n moedas. Uma moeda e escolhida aleatoriamente
e joga-se cara/coroa com ela, obtendo 1 ou 0. Nosso espaco amostral sera dado por =
[n]{0, 1}, correspondendo ao par moeda/resultado, e cada elemento de e um par = (k, b).
Considere os eventos Ek = {k} {0, 1} correspondentes a escolha da k-esima moeda.
Sejam Fb = [n] {b} os eventos correspondentes ao valor cara/coroa. Nossa regra para
definir probabilidades em e a seguinte.
1. P (Ek ) = 1/n para cada k [n] (ou seja, as moedas sao equiprovaveis);
2. P (F1 | Ek ) = 1 P (F0 | K = k) = pk , onde pk (0, 1) (a k-esima moeda tem probabil-
idade pk de dar cara).
Isto define unicamente uma medida sobre dada por
pk b + (1 pk )(1 b)
P ((k, b)) = .
n
[Exerccio.]
Exerccio 2.17. Suponha que p1 > > pn . Calcule P (Fb ) e P (Ek | Fb ) e mostre que
P (Ek | F1 ) decresce com k.
Ou seja: se o resultado do lancamento e cara, as moedas com proabilidade alta de cara sao
as mais provaveis (segundo a probabilidade condicional).
Exemplo 2.13. Voltamos ao cenario do Exemplo 2.7. Agora temos dois tipos de atomo e
observamos o decaimento de um deles. Formalmente,
= {0, 1} N
correspondendo a pares (atomo,tempo do atomo). Se Ab = {b} N e Dk {0, 1} {k},
definimos:

7
1. P (Ai ) = 1/2 (os atomos sao equiprovaveis);
2. P (Dk | Ai ) = pi (1 pi )k1 , onde pi (0, 1) (o decamento do i-esimo atomo tem dis-
tribuicao Geopi ).

Isto tambem define uma probabilidade sobre [Exerccio].


Exerccio 2.18. Calcule P (Dk ) e P (Ai | Dk ). Se p1 = 1/2 e p0 = 1/3, para quais k a
probabilidade de A0 condicionada a Dk e maior (isto e, quando o atomo 0 tem probabilidade
condicional maior)?
[Outros exerccios: os das secoes 1.1 e 1.2 do Barry James que nao envolvem explicitamente
-algebras ou conjuntos nao discretos.]

2.4 Particoes e probabilidades condicionais

Acima falamos que probabilidades condicionais podem ser vistas como uma forma geral de
atualizar a medida de risco de acordo com alguma informacao nova recebida. De modo geral,
receber informacao sobre significa saber que esta em algum subconjunto A .
Se F = {A1 , . . . , An } e uma particao de , podemos imaginar que a informacao recebida e
F() = Ai a que pertence. Isto leva a uma definicao de probabilidade condicionada a F
como uma funcao.
Definicao 2.14. Se e um conjunto com particao F e P e uma distribuicao sobre ,

P ( | F) : (, B) F 7 P (B | F())

e a probabilidade condicional sobre F. Aqui F() e o (unico) elemento de F a que pertence.


A funcao P ( | F) condensatodas as probabilidades condicionais P (B | Ai ) em um unico
objeto. Veremos mais adiante de que forma isto e util.
P
Exerccio 2.19. Reformule a regra no Exerccio 2.13 como P (B) = P () P (B | F()).

Exerccio 2.20. Se F = {A, Ac }, P (B | F) () = P (B | A) se A e P (B | Ac ) em caso


contrario.

2.5 Independencia

Se probabilidades condicionais representam atualizacoes na avaliacao de risco, independencia


significa que saber se A ocorreu nao altera a avaliacao de risco de B. Isto sugere que A
e B sao independentes quando P (B | A) = P (B), o que equivale pela regra de Bayes a
P (A | B) = P (A) quando P (B) , P (A) > 0. Para evitar esta ulima condicao, toma-se em
geral uma definicao ligeiramente diferente (porem equivalente).
Definicao 2.15. Dizemos que eventos A, B sao independentes quanto P (A B) = P (A) P (B).
Em geral, n 2 eventos A1 , . . . , An sao ditos independentes se para todas as escolhas de
1 i1 < i2 < < ik n,

P (Ai1 Aik ) = P (Ai1 ) . . . P (Aik ) .

8
Exerccio 2.21. A1 , . . . , An sao independentes sse B1 , . . . , Bn o sao, onde cada Bi e Ai ou
Aci .
Uma definicao um pouco mais geral e dada por

Definicao 2.16. Dizemos que n 2 particoes F1 , . . . , Fn sao independentes se para toda


escolha de Fi Fi ,
P (F1 Fn ) = P (F1 ) . . . P (Fn ) .
Exerccio 2.22. Se cada Fi = {Ai , Aci }, a definicao acima equivale a independencia de
A1 , . . . , An .

Exerccio 2.23. Qualquer subconjunto de uma famlia de eventos/particoes independentes e


ele proprio independente.
Exerccio 2.24. F1 e F2 sao independentes sse P (F2 | F1 ) () P (F2 ) para todo F2 F2
e com P () > 0.
Exerccio 2.25. Os Fi sao independentes sse o seguinte ocorre: sempre que Ai e a uniao de
eventos em Fi para cada i, entao A1 , . . . , An sao independentes. Mostre que isto implica que
se G1 e outra particao de e F1 refina G1 3 , entao G1 , F2 , . . . , Fn sao independentes. [Dica:
cada G sG1 e a uniao de elementos de F1 .]
Exerccio 2.26. Seja {Fi,j : 1 i n, 1 j mi } uma famlia de particoes independentes.
Defina
m
j=1 Fi,j {Fi,1 . . . Fi,mi : 1 j mi Fi,j Fi,j } (1 i n).
i

Mostre que as m
j=1 Fi,j s tambem sao particoes independentes.
i

O exemplo mais simples de particoes independentes e o dado por espacos produto (Ex-
erccio 2.3). Seja = 1 . . . n com uma medida produto P. Para cada 1 i n, considere
a particao Fi de onde elementos sao separados pela i-esima coordenada.

Fi {Fi,i { = (j )nj=1 : i = i } : i i }.

As particoes assim construdas sao independentes [Exerccio]. Grosso modo, qualquer outra
famlia de particoes independentes tem comportamento semelhante a este exemplo. Ressalta-
mos, no entanto, que nem sempre eventos independentes vem de espacos produto. Veja por
exemplo o exerccio a seguir.

Exerccio 2.27. Tome = [n] com medida P = U nif[n] . Determine os valores de n para os
quais os seguintes eventos sao independentes:

P = {k [n] : k par},

M = {k [n] : k n/2}.

O exerccio seguinte faz outra ressalva importante.


3 Isto e, todo F F1 esta contido em algum G G1 .

9
Exerccio 2.28. Sejam = 1 2 3 com i = {0, 1}. Seja P dada por
 1
P ((1 , 2 , 3 )) = 4 , 3 = 1 + 2 mod 2;
0 3 6= 1 + 2 mod 2

Cheque que isto e de fato uma medida de probabilidade. Agora construa F1 , F2 , F3 como no
caso de espacos produto. Prove que F1 , F2 , F3 nao sao independentes, mas que qualquer par
delas e. Isto mostra que a independencia de tres eventos nao e consequencia da independencia
dois-a-dois.
Exerccio 2.29. Sejam A1 , A2 independentes com probabilidades p1 , p2 (resp.). Prove
que P (A1 A2 ) = p1 +p2 p1 p2 . Generalize este resultado via Inclusao-Exclusao generalizada
para A1 , . . . , An independentes.
Exerccio 2.30. Seja = {0, 1}n com a medida produto Bep (Exerccio 2.4). Use o exerccio
acima para calcular a probabilidade dos com exatamente uma coordenada igual a 1.
[Resposta: np(1 p)n1 .]

10
Captulo 3: Variaveis aleatorias

3.1 Definicao

Quase todos os problemas interessantes em Probabilidade envolvem o conceito de variavel


aleatoria.
Definicao 3.1. Seja (, P) um espaco de probabilidade discreto. Uma funcao X :
(onde e algum outro conjunto) e chamada de variavel aleatoria (ou v.a.).

Intuitivamente1 , uma variavel aleatoria corresponde a algum tipo de informacao obtido


ou desejado sobre o elemento . Se por exemplo (, P) corresponde aos valores de acoes
numa bolsa de valores ou seja, cada e um vetor com precos de acoes diferentes em
momentos diferentes X = X() pode ser o preco das acoes de uma dada empresa ao final
do pregao de um dia fixo. Podemos imaginar duas situacoes: ou queremos estimar X, ou
pretendemos usar X como base para estimar uma outra quantidade Y = Y () (por exemplo,
o preco da mesma acao em outro dia).
A maior parte dos exemplos de variaveis aleatorias que consideraremos tera valores em N,
Z, R ou Rd ; neste ultimo caso, elas tambem serao chamadas de vetores aleatorios.

3.2 Distribuicao de uma variavel aleatoria

Note que a definicao de v.a. nao envolve a medida de probabilidade P. A probabilidade


entra em cena quando percebemos que P e X induzem uma medida de probabilidade no
contradomnio .
Definicao 3.2. Sejam (, P) e X como acima. Considere o conjunto (enumeravel) dado por

X() {X() : } .

A distribuicao de X e a probabilidade PX sobre X() dada por

PX () P X 1 () ( ).


Os conjuntos X 1 () e X 1 (A) (A X()) sao normalmente representados pelas expressoes


{X = } e {X A}, respectivamente. A probabilidade PX pode ser estendida para todo E
pela formula
X
PX (E) = P (X E) P (X X() E) = P () .
:X()E

A ultima parte da definicao e um abuso da definicao de proabilidade discreta, ja que


pode nao ser enumeravel. No entanto, como X() e sempre enumera vel, isto nao causara
problemas.
1 Esta intuicao sera esclarecida na Secao ??

11
Exerccio 3.1. Seja um conjunto finito ou enumeravel e uma medida de probabilidade
sobre . Prove que existe uma v.a. X : e uma distribuicao P sobre tal que PX = .
[Dica: o exerccio e trivial!]
Observacao 3.3. Podemos definir distribuicoes condicionais: PY (y | A) = P (Y = y | A).
Exerccio 3.2 (Falta de memoria de v.a.s geometricas). Reformule o Exerccio 2.16 da
seguinte maneira: se X tem distribuicao Geop , entao para todo k a distribuicao de X k + 1
condicionada a X k tambem e Geop . Em outras palavras:

P (X = x + k 1 | X k) = p(1 p)x1 .

3.3 Distribuicoes novas a partir de antigas

Apresentaremos agora alguns resultados gerais e especficos sobre distribuicoes de v.a.s.


Como em muitos problemas trataremos de variaveis aleatorias definidas a partir de outras
v.a.s, e conveniente comecar por um resultado para esta situacao.
Exerccio 3.3. Seja X : 1 uma v.a. e f : 1 2 uma funcao. Defina a composicao
f (X) f X. Mostre que f (X) e uma v.a. e que

A 2 , Pf (X) (A) = PX f 1 (A) .




Um caso particular especialmente importante e o de soma de variaveis aleatorias.


Exerccio 3.4 (Soma de variaveis aleatorias). Pn Seja X = (X1 , X2 , . . . , Xn ) uma v.a. com
valores em Rd e defina f (x1 , x2 , . . . , xn ) = i=1 xi . Mostre que Sn f (X) = X1 + X2 +
+ Xn e deduza do exerccio anterior que

[
P (Sn = z) = P ({X1 = z1 } {X2 = z2 } {Xn = zn }) .
(z1 ,z2 ,...,zn )X() : z1 ++zn =z

Mostre que os eventos nesta uniao sao disjuntos e deduza:


n
!
X \
P (Sn = z) = P {Xi = zi } .
(z1 ,z2 ,...,zn )X() : z1 ++zn =z i=1

Os proximos exerccios consideram outras situacoes que nao as de soma.


Exerccio 3.5. Suponha que (, P) e um espaco finito com P uniforme (Exemplo 2.6). Seja
X : tal que para um certo inteiro s, todo tem exatamente s pre-imagens por X.
Prove que PX = U nif .
Exerccio 3.6. Seja [n] = {1, . . . , n}. Definamos a quantidade nk como o numero de sub-


conjuntos de [n] com cardinalidade k. Definamos tambem n!  como o numero de permutacoes


de [n]. Nosso objetivo e provar sem usar as formulas de nk e n! que
 
n n!
0 k n, = .
k (n k)!k!
Para isso devemos seguir os seguintes passos.

12
1. Seja = Sn o conjunto de permutacoes de [n] e = {S P([n]) : |S| = k}.
2. Ponha medida P = U nifSn sobre Sn .
3. Defina a v.a. X : Sn 7 {(1), . . . , (k)}.
4. Fixe S . Escolha X 1 (S). Prove que qualquer outro X 1 (S) e da forma

= 1 2 ,

onde 1 e permutacao de [k] (estendida a i > k via 1 (i) = i) e 2 e permutacao de


[n]\[k] (estendida a j k via 2 (j) = j).
5. Prove agora que para cada par (1 , 2 ) deste tipo ha exatamente um como acima.
Mostre que ha k!(n k)! destes pares e deduza que
k!(n k)!
P (X = S) = .
n!

6. Por outro lado, use o exerccio anterior para mostrar que P (X = S) = 1/|| e conclua
a prova.
Exerccio 3.7. Dados 1 k n, considere = [n] [n 1] [n k + 2] [n k + 1]
com a medida uniforme. Defina X1 () = 1 e para cada 2 i k:

Xi () = o i -esimo elemento de [n]\{X1 (), . . . , Xi1 ()}.

Tome P = U nif , considere a funcao aleatoriaX : [n][k] que para cada e dada
por
X() : [k] [n]
.
t 7 Xt ()
Mostre que X tem a distribuicao de k bolas retiradas sem reposicao de uma urna com n
[k]
bolas(Exemplo 2.9), isto e, X e uniformemente distribuda sobre as funcoes injetivas [n]inj .
[Dica: use o Exerccio 2.6 para mostrar que P e uma distribuicao produto.]
Exerccio 3.8. Considere novamente k bolas retiradas sem reposicao de uma urna com n
[k]
bolas(Exemplo 2.9), isto e: = [n]inj e P = U nif . Seja S [k] um conjunto com s
elementos e tome X como a restricao a S:
[k]
X : [n]inj 700 |S : i S 7 (i).

Mostre que PX = U nif[n]Sinj . Este fato tem a seguinte interpretacao: se so olhamos para s
das k bolas retiradas , a distribuicao observada e a mesma de s bolas tiradas sem reposicao
de uma urna com n bolas.

3.4 Independencia

Grosso modo, eventos sao independentes quando qualquer subgrupo deles nao da in-
formacao alguma a respeito dos eventos restantes. A definicao de independencia de variaveis
aleatorias significa algo semelhante e de fato e equivalente a independencia das particoes
correspodentes a cada v.a., conforme o exerccio abaixo.

13
Exerccio 3.9. Cada v.a. X : gera uma particao FX de :

FX = {X 1 (x) : x X()}.

Por outro lado, se F e uma particao, existe uma v.a. X com FX = F.

Definicao 3.4. Sejam Xi : i , 1 i n v.a.s. Elas sao independentes se alguma das


seguintes condicoes equivalentes e satisfeita:
1. A distribuicao do vetor (X1 , . . . , Xn ) sobre = ni=1 Xi (i ) e uma medida produto.
2. Para todos xi Xi (i ),
n
Y n
Y
P(X1 ,...,Xn ) ((x1 , . . . , xn )) = P (i {Xi = xi }) = PXi (xi ) = P (Xi = xi ) ;
i=1 i=1

3. Para todos Ai P(Xi (i )),


n
Y
P(X1 ,...,Xn ) (A1 An ) = PXi (Ai ) ;
i=1

4. As particoes FXi sao independentes.


Exerccio 3.10. Prove a equivaencia.
Os dois proximos exerccios podem ou ser resolvidos diretamente, ou via os resultados
sobre particoes independentes (p. ex. Exerccio 2.25,Exerccio 2.26).
Exerccio 3.11 (Agrupar v.a.s nao destroi a independencia). Sejam {Xi,j : 1 i n, 1
j mi } v.a.s independentes. Considere os vetores Yi = (Xi,j )mj=1 . Mostre que eles tambem
i

sao independentes. [Dica/obs: na notacao do Exerccio 2.26, FYi = mj=1 FXi,j .]


i

Exerccio 3.12 (Tomar funcoes das v.a.s nao destroi a independencia). Sejam Xi : i ,
1 i n v.a.s independentes e fi funcoes definidas nos espacos apropriados. Entao as v.a.s
Yi = fi (Xi ) sao independentes.[Dica/obs: na notacao do Exerccio 2.25, cada FYi e refinada
por FXi .]

3.5 Somas de variaveis aleatorias independentes

Exerccio 3.13 (Somas de v.a.s produto; convolucoes discretas). Se as Xi : Rd (1


i n) sao independentes,
n
Y
x = (x1 , . . . , xn ) (Rd )n P(X1 ,...,Xn ) (x) = PXi (xi ) .
i=1

Aplique este resultado junto com o Exerccio 3.4para mostrar que neste caso:
X
P (Sn = z) = P (X1 = z1 ) P (X2 = z2 ) . . . P (Xn = zn ) .
(z1 ,z2 ,...,zn ) : z1 ++zn =z

14
Em particular, se X1 , X2 , . . . , Xn tomam valores em Z:
X
z Z, P (Sn = z) = (P (X1 = z1 ) P (X2 = z2 )
(z1 ,z2 ,...,zn1 )Zn1

P (Xn1 = zn1 ) P (Zn = z z1 z2 zn1 )).

No caso n = 2, a operacao que leva os vetores infinitos (P (Xi = zi ))zi Z em (P (S2 = z))zZ
e chamada de convolucao discreta. Para n > 2, temos convoluc oes iteradas.
Exerccio 3.14 (A soma de Bernoullis produto e Binomial). Considere o espaco-produto
n ||
de BePp s discutido no Exerccio 2.4: isto e, = {0, 1} e P () = p (1 p)n|| , onde
|| = i i . Defina i : 7 i como a funcao que leva na sua i-esima coordenada. Note
que a soma das i s e
Xn
S() = i () = ||.
i=1

Use o resultado anterior para mostrar que


 n k nk
PS (z) = P (S = z) = k p (1 p) , k {0, . . . , n};
0 caso contrario.

Isto e, S tem distribuicao Binn,p (Exemplo 2.8). [Obs: de que forma isto elucida o Ex-
erccio 2.8.]
Exerccio 3.15 (A soma de Poissons produto e Poisson). Considere 1 , 2 , . . . , n = N onde
cada i recebe medida
P P oi . Construa o produto (, P), defina i como no exerccio anterior
e considere Sj = ij i . Mostre por inducao que cada Sj tem distribuicao P oPij i .

15
Captulo 4: Valores esperados, momentos e desigualdades

4.1 Valores esperados e momentos

Nesta secao definiremos o valor esperado de uma variavel aleatoria com valores reais e
algumas outras quantidades da derivadas. Primeiro comecamos com v.a.s especialmente
simples.
Definicao 4.1. Seja X : R uma v.a. . Dizemos que X e a funcao indicadora (ou
caracterstica) de A se X() = 1 quando A e X() = 0 quando Ac . Neste caso
escreveremos X como X = IA .
Exerccio 4.1. Se X : R, PX = Bep para algum p [0, 1] (cf. Exemplo 2.4) se e
somente se existe A com P (X = IA ) = 1. Neste caso, p = P (A).
Exerccio 4.2. Mostre que toda X : R {} e uma combinacao linear de funcoes
simples. Mais exatamente, X
X= x IX 1 (x) .
xX()

A definicao de valor esperado E [X] pode ser escrita da seguinte maneira: se X = IA ,


E [X] = P (A); para outras X, a definicao se estende por linearidade:
+
X +
X
X= cj IAj E [X] = cj P (Aj ) .
j=1 j=1

No entanto, esta extensao pode apresentar problemas de convergencia quando e infinito.


Evitamos esta dificuldade com uma definicao em duas partes. Comecamos com v.a.s com
valores nao-negativos.
Definicao 4.2. Seja X : [0, +] uma v.a. com valores nao negativos. O valor esperado
(ou esperanca) de X, simbolizado por E [X], e dado por
X
E [X] X()P () ,

com a convencao de que 0. = 0. O valor esperado tambem pertence a [0, +]. Ocasion-
almente representaremos E [X] como uma integral:
Z
E [X] = X dP.

Observacao 4.3. Suponha que = {0, 1}, P = Bep (cf. Exemplo 2.4) e X = +. I{1} , i.e.
X(0) = 0 e X(1) = +. Entao E [X] = 0 se p = 0 e E [X] = + em caso contrario.
Observacao 4.4. Se e finito e X 0, E [X] < + se e somente se P (X = +) = 0.
Quando e infinito ainda e verdade que E [X] < + P (X = +) = 0, mas a recproca
e falsa (ex: = N, PX = Geo1/2 como em Exemplo 2.7 e X() = 3 para N).

16
Exerccio 4.3. Mostre que, na situacao acima:
X X
E [X] = x P (X = x) = x PX (x) .
xX() xX()

Deduza que se (, Q) e outro espaco de probabilidade discreto e Y : [0, +] com QY =


PX (isto e, X e Y tem a mesma distribuicao), entao E [X] = E [Y ].
Exerccio 4.4. Se X, Y : R {} e X Y sempre, E [X] E [Y ].
Agora definiremos E [X] para X qualquer.

Definicao 4.5. Seja X : [, +] uma v.a. com valores reais (possivelmente diver-
gentes). X e dita integravel se E [|X|] < + segundo a Definicao 4.2. Se X e integravel, o
valor esperado (ou esperanca) de X, simbolizado por E [X], e dado por

E [X] E [max{X, 0}] E [max{X, 0}] ,

onde os dois valores esperados do lado direito sao definidos como antes.
Exerccio 4.5. Use o Exerccio 4.4 para mostrar que E [|X|] < + implica que E [max{X, 0}] <
+, E [max{X, 0}] < +. Mais ainda, mostre que neste caso
X
E [X] = X()P ()

onde a serie e absolutamente convergente. Por fim, prove que os fatos no Exerccio 4.3
pernamecem validos sob a definicao geral sempre que X for integravel (o que e equivalente a
Y integravel).
P+
Exerccio 4.6. Se X toma valores em N {0}, E [X] = n=1 P (X n).
Exerccio 4.7. Mostre que
1. PX = Bep (cf. Exemplo 2.4) E [X] = p;
2. PX = Geop (cf. Exemplo 2.7) E [X] = 1/p;
3. PX = Binn,p (cf. Exemplo 2.8) E [X] = pn [Dica: Escreva
n  
X n
G(a, b) = (a + b)n = ak bnk .
k
k=0

Derivando termo a termo em a, mostre que



G
E [X] = a (a, b)
a (a,b)=(p,1p)

e calcule E [X] da.];

4. PX = P o (cf. Exerccio 2.9) E [X] = .

17
Exerccio 4.8. Seja L1 = L1 (, P) o espaco vetorial cujos elementos sao as v.a.s integraveis
X : R. Mostre que E [] e um operador linear sobre este espaco. Isto e, se R e X,
Y L1 , entao X + Y L1 e E [X + Y ] = E [X] + E [Y ]. [Se X, Y, 0, o requerimento
de estar em L1 pode ser eliminado.]

Observacao 4.6. Todas as definicoes acima tem analogos para X = (X1 , . . . , Xd ) :


Rd . E [X] e o vetor cujas coordenadas sao os E [Xi ] (se estes valores estao definidos). Se
E [|Xi |] < + para cada i, dizemos que X e integravel.
Definiremos agora os momentos de X.

Definicao 4.7. Para p [0, +) com E [|X|q ] < +, o q-esimo momento de X e dado por
E [X q ]. Se p [1, +), a norma Lp de X e kXkp (E [|X|p ])1/p .
Exerccio 4.9. Mostre que kXkp = 0 sse P (X = 0) = 1.

4.1.1 A desigualdade de Jansen e as normas Lp


Definicao 4.8. Seja K Rd convexo. Dizemos que a funcao : K R e convexa se para
todos x, y K e [0, 1]:

(x + (1 )y) (x) + (1 )(y).

Lema 4.9 (Desigualdade de Jansen). Se K Rd e convexo, X : K e integravel e


: K R e convexa e contnua,

(E [X]) E [(X)] .

Pn O primeiro passo e provar que n N, x1 , . . . , xn K e 1 , . . . , n


Prova: [Esboco.]
[0, +) com i=1 i = 1,
X n n
X
( i xi ) i (xi ).
i=1 i=1
Pn1
i=1 i xi
De fato, se tomamos x = xn , y = P n1 e = n , deduzimos que
i=1 i

n
!
X
i xi = (x + (1 )y)
i=1
(x) + (1 )(y)
n1
! Pn1 !
X i xi
= n (xn ) + i Pi=1
n1
i=1 i=1 i

e o resto do resultado segue por inducao. Suponha agora que a imagem de X : Rd


contem finitos pontos x1 , . . . , xn , isto e
n
X
X= xi I{X=xi } .
i=1

18
Aplicando o resultado de convexidade acima com i = P (X = xi ), deduzimos que

Xn
(E [X]) = ( xi P (X = xi ))
i=1
n
X
P (X = xi ) (xi )
i=1
= E [(X)] .

Em geral, a imagem de X e um conjunto enumeravel {xi }+


i=1 . Mas este caso e um limite do
primeiro [Exerccio.] 2

Exerccio 4.10. Aplicando Jansen a (x) = |x| (norma euclideana), mostre que para toda
X : Rd |E [X] | E [|X|].
Exerccio 4.11. Sejam q > p > 0. Aplicando Jansen a (x)
 = xq/p (x 0), mostre que
para toda X : R kXkp kXkq . Em particular, E X (E [|X|])2 (E [X])2 .
2

Exerccio 4.12. O exerccio anterior mostra que kXkp e funcao crescente de p. Em partic-
ular, existe o limite
kXk lim kXkp [0, +].
p+

Prove que
kXk = sup{|X()| : , P () > 0}.
Observacao 4.10. A chamada desigualdade de Holder implica que, se X e Y sao v.a.s sobre
o mesmo espaco e 1 p, q + satisfazem p1 + q 1 = 1,

kXY k1 kXkp kY kq .

Em particular, se p = q = 2 temos a desigualdade de Cauchy-Schwartz:

kXY k1 kXk2 kY k2

4.2 Variancia e covariancia

Apresentamos agora duas quantidades essenciais: a variancia e a covariancia.

Definicao 4.11. Seja X : R dada com X 2 integravel (logo, pelo Exerccio 4.11 X e
integravel). A quantidade
V (X) E (X E [X])2
 
 
e chamada a variancia de X. Ela pode ser equivalentemente escrita como V (X) = E X 2
(E [X])2 [Exerccio.].
Observacao 4.12. A variancia e sempre nao negativa (Exerccio 4.11). V (X) = 0 sse
X = E [X] com probabilidade 1 (Exerccio 4.9).

19
Definicao 4.13. Sejam X, Y : R com X 2 , Y 2 integraveis. A covariancia de X e Y e a
quantidade dada por:
C (X, Y ) E [(X E [X])(Y E [Y ])] .
Equivalentemente, C (X, Y ) = E [XY ] E [X] E [Y ] [Exerccio].
Observacao 4.14. V (X) = C (X, X).
Exerccio 4.13. Usando os resultados do Exerccio 4.7, mostre que:

1. PX = Bep (cf. Exemplo 2.4) V (X) = p(1 p);


2. PX = Geop (cf. Exemplo 2.7) V (X) = 1/p2 1/p [Dica: calcule = E [X(X 1)]
e determine V (X) a partir de . Note que
+
X
= p k(k 1)(1 p)k1
k=2
+
!
d2 X
k
= p(1 p) 2 (1 p)
dp
k=0
d2
 
1 2 2p
= p(1 p) 2 = .
dp p p2

];
3. PX = Binn,p (cf. Exemplo 2.8) V (X) = p(1 p)n [Dica: Como antes, e melhor
calcular = E [X(X 1)] antes. Escreva
n  
X n
G(a, b) = (a + b)n = ak bnk .
k
k=0

Derivando termo a termo em a, mostre que


2

G 2
E [X(X 1)] = a (a, b)
a2 (a,b)=(p,1p)

e calcule = E [X(X 1)] da.];


4. PX = P o (cf. Exerccio 2.9) V (X) = [Dica: mais uma vez vale a pena comecar
calculando = E [X(X 1)]. Neste caso,
X k X k2
= e k(k 1) = 2 e .
k! (k 2)!
k0 k2

.]
 
Exerccio 4.14. V (X) = V (X c) para qualquer c R. Se E [X] = 0 V (X) = E X 2 . Do
mesmo modo, C (X, Y ) = C (X cX , Y cY ) e C (X, Y ) = E [XY ] se E [X] = E [Y ] = 0

20
4.3 A desigualdade de Chebyshev e concentracao

Variancias sao frequentemente mais faceis de se calcular do que probabilidades exatas de


eventos. A desigualdade abaixo mostra que em alguns casos importantes, pode-se estimar
probabilidades a partir de variancias:
 
Proposicao 4.15 (Desigualdade de Chebyshev). Se E |X|2 < +,

V (X)
> 0, P (|X E [X]| ) .
2
Prova: Suponha sem preda de generalidade que V (X) > 0. Seja A {|X E [X]| }. Se
: R [0, +) e uma funcao crescente com () > 0, temos que
(|X E [X]|)
, |X() E [X]| (|X E [X]|) () 1.
()

Tomando (x) = x2 , podemos reescrever:

(X() E [X])2
(4.1) A{ 1}.
2
Mas entao temos:
(X() E [X])2
, IA ().
2
De fato, a desigualdade vale para A por conta de (4.1) e para Ac porque lado esquerdo
e sempre 0. Tomando valores esperados, vemos que:
(X() E [X])2
Z   Z
V (X)
= dP () IA () dP () = P (A) .
2 2
2
De que forma se utiliza este resultado? Consideremos o caso em que PX = Binn,p . Neste
caso, vimos acima que E [X] = np, V (X) = p(1 p)n. Suponha que queremos estimar uma
probabilidade do tipo

Binn,p ({k : |k np| np}) = P (|X np| np) .

Usando Chebyshev com = np, temos


p(1 p)n 1
(4.2) Binn,p ({k : |k np| np}) 2 .
2 n2 p2  pn
Equivalentemente,
Binn,p ({k : |k np| < np}) 1 (2 pn)2 .
Isto quer dizer que se pn e grande, a maior parte da massada distribuicao Binn,p se
concentra no intervalo ((1 )np, (1 + )np). Em outras palavras, Yn X/np 1 esta
quase sempre no intervalo (, ). Esta propriedade e um exemplo simples do que se chama
de concentracao de medida: a distribuicao PYn esta quase toda concentrada num pequeno
intervalo ao redor de um valor determinstico 0 cujo tamanho tende a 0 quando n +.
2
Um resultado semelhante vale sempre que V (X)  E [X] :

21
Definicao 4.16 (Concentracao). Considere uma sequencia de distribuicoes n sobre Rd1 .
Dizemos que {n } se concentra em c Rd se para toda bola aberta B centrada em c temos

lim n (B) = 1.
n+

Uma sequencia de v.a.s se concentra em c quando suas distribuicoes se concentram em c.

Exerccio 4.15. Se pn [0, 1] satisfaz pn n +, e PXn Binn,pn , entao Yn = Xn /pn 1


se concentra em 0. Se n + e PXn P on , Yn = Xn /n se concentra em 1.
Uma pergunta importante e: quando as condicoes de concentracao acima descritas sao
satisfeitas? Um caso particular e dado por variaveis aleatorias sem covariancia, que discutimos
a seguir.
Definicao 4.17. {Xn : R}+
n=1 sao v.a.s sem covariancia se para todos i, j N distintos
C (Xi , Xj ) = 0.
Proposicao 4.18. Para quaisquer v.a.s X1 , . . . , Xn ,
n
! n
X X X
V Xi = V (Xi ) + 2 C (Xi , Xj ) .
i=1 i=1 1i<jn

Em particular, se as Xi s nao tem covariancia, a variancia da soma e a soma das variancias.


Prova: [Exerccio.] 2

Teorema 4.19 (Lei fraca dos grandes numeros.). Seja {Xn : R}+ n=1 uma sequencia de
v.a.s sem covariancia e cujas variancias sao limitadas por 2 < + e tais que Entao as
medias empricas centradas: Pn
(Xi E [Xi ])
Cn i=1
n
se concentram ao redor de 0. De fato,

2
P (|Cn | ) .
2 n
Prova: Basta aplicar a Desigualdade de Chebyshev a nCn : como nao ha correlacoes entre os
(Xi E [Xi ])s
Xn n
X
V (nCn ) = V ((Xi E [Xi ])) = V (Xi ) 2 n.
i=1 i=1

Logo
2 n
P (|Cn | ) = P (|nCn E [nCn ] | n)
2 n2
e a concentracao segue do fato que o lado direito tende a 0 quando n + para todo  fixo.
2
1 Mais exatamente, existe S d
n R finito ou enumeravel tal que n e medida sobre P Sn . Neste caso,
estendemos n a todo A Rd como fizemos no caso de v.a.s (Definicao 3.2): n (A) ASn n ().

22
Pn
P 4.16. No teorema acima, se limn+
Exerccio i=1 E [Xi ] /n existe, entao as medias
Fn in Xi /n se concentram ao redor de .
No caso Xi = IAi para uma sequencia Ai de eventos, podemos interpretar a Lei Fraca
da seguinte forma (cf. a introducao do captulo). As probabilidades P (Ai ) oferecem nossa
avaliacao dos riscosde cada evento Ai . Supondo-se que

(4.3) C IAi , IAj = P (Ai Aj ) P (Ai ) P (Aj ) = 0
para todo par i 6= j, vemos temos 2 1 e que portanto a Lei Fraca dos Grandes Numeros
nos diz que
Pn Pn
i=1 IAi P (Ai )
para n grande, i=1 com probabilidade 1.
n n
Em outras palavras: sob a hipotese (4.3), ha um baixo riscode que as frequencias com que
os Ai s ocorrem se desvie muito do valor esperado, quando olhamos para um numero grande
de eventos.
A condicao (4.3) e chamada de independencia. O captulo seguinte contem muitos exem-
plos de independencia; por hora, notamos apenas o seguinte resultado.
Definicao 4.20. Dois eventos A, B sao ditos independentes quando P (A B) = P (A) P (B).
Corolario 4.21 (Lei Fraca dos Grandes Numeros para Eventos Independentes). Seja {Ai }+
i=1
uma sequencia de evento independentes dois-a-dois. Considere
Pn
(IA P (Ai ))
Cn i=1 i .
n
Entao Cn se concentra em 0 quando n +. Mais exatamente,
( n n
)!
X X 1
 > 0, P : IAi () P (Ai ) > n 2 .


i=1 i=1
 n

4.4 Aplicacao a aproximacoes por polinomios

Conclumos esta secao com um bonus: uma prova probabilstica do conhecido Teorema
de Weierstrass sobre aproximacoes por polinomios.
Teorema 4.22 (Weierstrass). Para toda funcao contnua f : [0, 1] R, existe uma sequencia
Pn [f ] de polinomios tas que limn+ (supx[0,1] |f (x) Pn [f ](x)|) = 0.
A prova que daremos da uma expressao explcita para cada Pn [f ] e uma cota de aprox-
imacao para cada n finito (como veremos num Exerccio). A demonstracao se baseia em duas
observacoes simples:
1. Binn,p se concentra quando n + (cf. (4.2)); e
2. para qualquer f : [0, 1] R,
Z n  
X n
Pn [f ](x) = f (k/n) dBinn,x (k) = f (k/n)xk (1 x)nk
k
k=0

e um polinomio na variavel x [Exerccio].

23
Prova: [Bernstein] Seja f : [0, 1] R contnua. E sabido que qualquer f deste tipo e uni-
formemente contnua, isto e, o modulo de continuidade

m() sup{|f (x) f (y)| : x, y [0, 1], |x y| } ( > 0)

satisfaz lim0 m() = 0. Sabemos tambem que kf k = supx[0,1] |f (x)| < +. A desigual-
dade de Jansen implica que
Z
|f (x) Pn [f ](x)| |f (k/n) f (x)| dBinn,x (k).

Fixamos um > 0 e dividimos a integral do lado direito em dois termos.


Z Z
|f (k/n) f (x)| dBinn,x (k) = |f (k/n) f (x)| dBinn,x (k)
{k : |knx|n}
Z
+ |f (s/n) f (x)| dBinn,x (s).
{s : |snx|>n}

Na primeira integral, |k/n x| , logo |f (k/n) f (x)| m(). Na segunda usamos a cota
mais fraca (e sempre valida) |f (s/n) f (x)| 2 supt[0,1] |f (t)| = 2kf k . Deduzimos que
Z
|f (x) Pn [f ](x)| m() dBinn,x (k)
{k : |knx|n}
Z
+ 2kf k dBinn,x (k)
{s : |snx|>x}

m() + 2kf k Binn,x {s : |s nx| > n}


2kf k x(1 x)
((4.2) com p = x,  = /x) m() +
2 n
kf k
(0 x 1, x(1 x) 1/4) m() + .
2 2 n
Esta ultima cota e uniforme em x e vale para > 0 arbitrario, logo
kf k
> 0, kf Pn [f ]k m() + .
2 2 n
A prova se encerra tomando limites em n + e 0 (nesta ordem!). 2

Exerccio 4.17. A prova acima da uma cota quantitativa para a qualidade da aproximacao
por Pn [f ]. Quanto menor o modulo de continuidade m(), melhor a cota. Mostre que se f e
Lipschitz com constante kf kLip ,

kf k
kf Pn [f ]k kf kLip +
2 2 n
e otimize a escolha de = n para obter uma cota explcita para cada n N.

24
Captulo 5: Interpretacao das probabilidades condicionais

5.1 Probabilidades e esperancas condicionais

Dissemos no incio do captulo que uma medida de probabilidade corresponde a uma


avaliacao de risco. Tambem foi dito que uma variavel aleatoria corresponde a informacao
recebida a respeito de um dado espaco amostral. Nesta secao discutiremos de que maneira a
informacao recebida nos permite calibrar a nossa medida de risco de modo a fazer previsoes
mais precisas. Isto nos levara a deduzir as regras das chamadas probabilidades condicionais.

5.1.1 Informacao e aproximacao: definindo probabilidades condicionais


Nosso problema nesta  e prever o valor de uma variavel aleatoria X : R que
 secao
suporemos satisfazer E |X|2 < +, com base em alguma informacao I : que
dispomos sobre . Para isto, escolheremos uma funcao f : R de modo a minimizar
o erro medio quadratico:
(X, f (I)) E (X f (I))2 .
 

No caso trivial I =constante; a informacao que obtemos e inutil. e nosso problem e equivalente
a achar c R tal que
E (X c)2 = min E (X c)2 .
   
xR

Proposicao 5.1. Para qualquer x R temos


E (X x)2 = V (X) + (E [X] x)2 .
 

Logo o problema acima tem uma unica solucao c = E [X].


Prova:
E (X x)2 = E X 2 + x2 2xX
   

= E X 2 + x2 2xE [X]
 

2
= E X 2 + (x E [X])2 E [X]
 

= V (X) + (x E [X])2 .
2
Consideraremos a seguir o caso I = IA para algum A . Isto e, toda a informacao que
temos sobre e se A ou nao. Suporemos que 0 < P (A) < 1, de modo que A nao e
nem impossvelnem certo1 . Procuramos entao uma func ao f : {0, 1} R tal que
E (X f (I))2 = E (X g(I))2 .
   
(5.1) inf
g:{0,1}R

Este e um problema geomeetrico no espaco L2 = L2 (, P). Este espaco e Hilbert com o


produto interno hU, V i E [U V ], ao menos quando identificamos quaisquer U, U 0 L2 com
P (U = U 0 ) = 1 [Exerccio]. De agora em diante faremos esta identificacao tacitamente.
1 Intuitivamente, se um evento sempre ocorre (ou nunca ocorre), ele nao nos da informacao alguma sobre a

situacao em questao.

25
Lema 5.2. O subconjunto
EI {g(I) : g : {0, 1} R}
e o subespaco linear de L2 gerado por {IA , IAc }.
Prova: De fato,
g(I) = g(0)IA + g(1)IAc
sempre esta neste espaco, e inversamente qualquer v.a.
U = a1 IA + a0 IAc span{IA , IAc }
e dada por g(I) com g(0) = a0 , g(1) = a1 . 2
Segue-se que queremos achar , R que minimizem
E (X IA IAc )2 = E (X )2 IA + (X )2 IAc .
   

Afirmamos que ha uma unica escolha possvel para e :


E [XIA ]
= E [X | A]
P (A)
E [XIA ]
= E [X | Ac ] .
P (Ac )
De fato, temos o seguinte resultado:
Proposicao 5.3. Para qualquer R temos
E (X )2 IA = P (A) E (X E [X | A])2 + P (A) (E [X | A] x)2
   

e analogamente para Ac .
Prova: Basta seguir os passos da prova de Proposicao 5.1. 2

Exerccio 5.1 (Apresentando a probabilidade condicional). Mostre que E [X | A] como definido


acima satisfaz Z
E [X | A] = X() dP ( | A) ,

onde para todo E
P (E | A)
P (E | A) = E [IE | A] =
P (A)
ou equivalentemente
P () IA ()
P ( | A) = ( ).
P (A)
A distribuicao P ( | A) e a distribuicao condicionada a A. P (E | A) e a probabilidade condi-
cional de E dado A.
Juntando todos os resultados anteriores, vemos ha uma unica funcao f : {0, 1} R que
satisfaz
E (X f (I))2 = E (X g(I))2 .
   
inf
g:{0,1}R

e ela e dada por 


E [X | A] , x = 1;
f (x)
E [X | Ac ] , x = 0.

26
5.1.2 Informacao e aproximacao: o caso geral
Suponha agora que I : e geral. Provaremos que existe uma f : R tal que

E (X f (I))2 = inf E (X g(I))2 .


   
(5.2)
g:R

Primeiro notamos o seguinte resultado.

Proposicao 5.4. Considere a particao PI de induzida pelas imagens inversas dos valores
de I:
PI {I 1 () : I()}.
Entao para toda Y : R, Y = f (I) para algum f : R se e somente se
X
Y = cE IE ,
EPI

com cE R para cada E PI . Alem disso, para cada particao P de existe um conjunto
e uma funcao I : tal que P = PI
Prova: Exerccio. Para a ultima afirmacao, basta tomar = P e I() = E P tal que
E. 2
Esta proposicao mostra que particoes e v.a.s sao em certo sentido equivalentes. Podemos
verificar que isto faz sentido quando notamos que a informacao que i = I() da a respeito
de e justamente que I 1 (i). Optamos por lidar com particoes a seguir. Se P e uma
particao e
L2 (, P, P) = span{IE : E P},
entao a otimizacao descrita em (5.2) se torna a busca por U L2 (, P, P) tal que

E (X U )2 = E (X V )2 .
   
(5.3) inf
V L2 (,P,P)

Provaremos o seguinte teorema geral:


 
Teorema 5.5. Sejam X : R com E X 2 < + e P uma particao de . Entao ha uma
solucao U L2 (, P, P) que e equivalentemente descrita pelas seguintes propriedades:
1. U e solucao de (5.3);
2. para todo E P, E [U IE ] = E [XIE ].
U e a unica solucao de cada um destes dois problemas, no sentido de que qualquer outra
solucao V satisfaz P (U = V ) = 1.

27

Das könnte Ihnen auch gefallen