Beruflich Dokumente
Kultur Dokumente
PGE950: Probabilidade
Leandro Chaves Rgo, Ph.D.
2013.1
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrcas
tendo em vista o contedo programtico da disciplina PGE950-Probabilidade do curso de
mestrado em Estatstica da Universidade Federal de Pernambuco. Em particular, elas no
contm nenhum material original e no substituem a consulta a livros textos. Seu principal
objetivo dispensar a necessidade dos alunos terem que copiar as aulas e, deste modo,
poderem se concentrar em entender o contedo das mesmas.
Recife, maro de 2013.
Leandro Chaves Rgo, Ph.D.
Contedo
Prefcio
1 Introduo Probabilidade
1.1 Experimento Aleatrio . . . . . . . . . . . . . . . . . . . . .
1.2 Espao Amostral . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Eventos e Coleo de Eventos . . . . . . . . . . . . . . . . .
1.3.1 Partio . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 lgebra de Eventos . . . . . . . . . . . . . . . . . . .
1.3.3 Funo Indicadora . . . . . . . . . . . . . . . . . . .
1.4 Fundamentos de Probabilidade . . . . . . . . . . . . . . . .
1.4.1 Hierarquia de Conceitos Estruturais de Probabilidade
1.4.2 Interpretaes de Probabilidade . . . . . . . . . . . .
1.5 Frequncias Relativas . . . . . . . . . . . . . . . . . . . . . .
1.6 Axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . .
1.6.1 Exemplos de Medidas de Probabilidade . . . . . . . .
1.6.2 Propriedades de uma Medida de Probabilidade . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
4
6
8
10
11
11
13
15
16
2 Probabilidade Condicional
2.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Independncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
29
3 Varivel Aleatria
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . .
3.2 Funo de Distribuio Acumulada . . . . . . . . .
3.3 Tipos de Varivel Aleatria . . . . . . . . . . . . .
3.3.1 Varivel Aleatria Discreta . . . . . . . . . .
3.3.2 Varivel Aleatria Contnua . . . . . . . . .
3.3.3 Varivel Aleatria Singular . . . . . . . . . .
3.3.4 Decomposio de uma Varivel Aleatria . .
3.4 Principais Distribuies de Probabilidade . . . . . .
3.5 Variveis Aleatrias Multidimensionais . . . . . . .
3.5.1 Funo de Distribuio Acumulada Conjunta
3.5.2 Independncia entre Variveis Aleatrias. . .
3.5.3 Exemplos de Distribuies Multivariadas . .
33
33
35
37
37
38
38
39
40
47
48
49
51
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.6
51
.
.
.
.
.
.
.
.
.
.
.
.
.
56
56
56
59
61
62
64
66
66
67
67
70
71
74
77
77
79
83
6 Convergncia Estocstica
6.1 Seqncia de Eventos . . . . . . . . . . . . . . .
6.1.1 Borel-Canteli . . . . . . . . . . . . . . .
6.2 Covergncia de Variveis Aleatrias . . . . . . .
6.2.1 Tipos de Convergncia . . . . . . . . . .
6.2.2 Relao Entre os Tipos de Convergncia
6.3 Convergncia de Vetores Aleatrios . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
87
87
89
91
92
98
102
7 Funes Caractersticas
7.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Denio . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Propriedades . . . . . . . . . . . . . . . . . . .
7.2.2 Exemplos de Funes Caractersticas . . . . . .
7.3 Teorema da Continuidade de Levy . . . . . . . . . . . .
7.4 Soma de um Nmero Aleatrio de Variveis Aleatrias
7.5 Funo Caracterstica de um Vetor Aleatrio . . . . . .
7.6 Funes Geratrizes de Momento . . . . . . . . . . . . .
7.7 Teorema de Slutsky . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
104
105
105
110
111
115
117
120
120
8 Lei
8.1
8.2
8.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
136
136
136
145
145
149
iv
Captulo 1
Introduo Probabilidade
1.1
Experimento Aleatrio
1.2
Espao Amostral
O conjunto de possveis resultados de um experimento aleatrio chamado de espao amostral. Existem quatro pontos que so desejveis da especicao de um espao amostral:
SS1. listar os possveis resultados do experimento;
SS2. faz-lo sem duplicao;
SS3. faz-lo em um nvel de detalhamento suciente para os interesses desejados;
SS4. especicar essa lista completamente em um sentido prtico, embora usualmente no
completa no que se refere a todos os resultados logicamente ou sicamente possveis.
Por exemplo, uma nica jogada de uma moeda pode ter o espao amostral tradicional
= {cara, coroa}, ou podemos considerar que a moeda pode sicamente car equilibrada na
borda = {cara, coroa, borda} (SS1). Uma outra possibilidade seria levar em considerao
as coordenadas (x, y) do centro da moeda quando ela para aps ser jogada no ar. Como
vemos muito mais se sabe sobre o resultado de uma jogada de uma moeda que os simples
resultados binrios tradicionais cara e coroa. Ns ignoramos est informao adicional (SS3)
usando uma hiptese no mencionada que existe uma aposta com pagamentos que dependem
apenas de qual lado da moeda cai para cima e no em outras informaes (SS4).
Podemos classicar espaos amostrais em dois tipos de acordo com o nmero de elementos que eles contem. Espaos amostrais podem ser enumerveis ou no enumerveis; se os
elementos do espao amostral podem ser colocados em uma correspondncia 1-1 com um
subconjunto dos inteiros, o espao amostral enumervel. Em um nvel losco, pode-se
argumentar que s existem espaos amostrais enumerveis, visto que medidas no podem
ser feitas com innita preciso. Enquanto na prtica isto verdadeiro, mtodos estatsticos e probabilsticos associados com espaos amostrais no enumerveis so, em geral,
menos complicados que aqueles para espaos amostrais enumerveis, e proporcionam uma
boa aproximao para a situao (enumervel) real.
Autor: Leandro Chaves Rgo
1.3
1.3.1
Partio
P2. I A = .
1.3.2
lgebra de Eventos
Embora possa-se pensar que, dado um espao amostral, necessariamente de interesse analisar todos os seus subconjuntos (e isto eventualmente verdadeiro), temos trs razes para
esperar que estejamos apenas interessados em alguns subconjuntos do espao amostral. Primeiro, o espao amostral pode conter um grau de detalhamento superior ao que estamos
interessados no momento. Por exemplo, ele pode representar uma nica jogada de um dado
com 6 elementos, mas ns apenas estamos interessados em saber se o resultado par ou
mpar. Segundo, ns vamos querer associar cada evento A com uma probabilidade numrica
P (A). Como essas probabilidades esto baseadas em algum conhecimento sobre a tendncia
de ocorrer do evento, ou no grau de nossa crena que determinado evento ocorrer, nosso
conhecimento sobre P pode no estender para todos os subconjuntos de . A terceira (e
tcnica) razo para limitar a coleo de eventos de interesse que condies impostas em
P pelos axiomas de Kolmogorov, que estudaremos adiante, podem no permitir que P seja
denida em todos os subconjuntos de , em particular isto pode ocorrer quando for no
enumervel, mas no iremos demonstrar este fato que est fora do escopo deste curso.
Estaremos interessados em uma coleo especial A de subconjuntos do espao amostral
(note que A um conjunto cujos elementos tambm so conjuntos!) que so eventos de
interesse no que se refere ao experimento aleatrio E e os quais temos conhecimento sobre a
sua verossimilhana de ocorrncia. A chamado de uma lgebra de eventos.
Denio 1.3.6: Uma lgebra de eventos A uma coleo de subconjuntos do espao
amostral que satisfaz:
1. no vazia;
2. fechada com respeito a complementos (se A A, ento Ac A);
3. fechada com respeito a unies nitas (se A, B A, ento A B A).
Pelas Leis de De Morgan, vemos que A fechada com respeito a interseces nitas
tambm.
Autor: Leandro Chaves Rgo
Exemplo 1.3.7:
1. A menor lgebra de eventos A = {, };
2. A maior lgebra de eventos o conjunto das partes de ;
3. Um exemplo intermedirio, temos:
= {1, 2, 3}, A = {, , {1}, {2, 3}}.
4. A lgebra de eventos nitos e co-nitos. Seja = IR e
A = {A IR : A nito} {A IR : Ac nito},
ou seja, A consiste dos subconjuntos de IR que ou so nitos ou tm complementos
nitos. A uma lgebra de eventos.
Lema 1.3.8: Se A uma lgebra, ento A
Prova: Como A no vazia, seja A um elemento qualquer seu. Pela segunda propriedade
de lgebras, temos que Ac A, e pela terceira propriedade temos que = A Ac A.
Teorema 1.3.9: Sejam A1 e A2 lgebras de subconjuntos de e seja A = A1 A2 a coleo
de subconjuntos comuns as duas lgebras. Ento, A uma lgebra.
Prova: Como A1 e A2 so lgebras, ambos contm . Ento, A. Se A A, ento A
est em ambos A1 e A2 . Logo, Ac est em ambos A1 e A2 , e portanto na sua interseco A.
Se A, B A, ento eles esto em ambos A1 e A2 . Consequentemente, A B est em ambos
A1 e A2 e, portanto, em A. Como A satisfaz as trs condies da denio de lgebra de
eventos, A uma lgebra de eventos.
fcil ver que a prova do Teorema 1.3.9 pode ser estendida para o caso de uma interseco
de um nmero arbitrrio de lgebras. O seguinte corolrio usa este fato para provar que
sempre existe uma menor lgebra contendo uma famlia qualquer de eventos.
Corolrio 1.3.10: Existe uma menor (no sentido de incluso) lgebra contendo qualquer
famlia dada de subconjuntos de .
Prova: Seja C uma coleo qualquer de subconjuntos de , dena A(C) como sendo o
conjunto que igual a intercesso de todas as lgebras de eventos que contm C, isto :
A(C) =
A.
AC:A uma lgebra de eventos
Pelo Teorema 1.3.9, A(C) uma lgebra de eventos, e consequentemente a menor lgebra
de eventos contendo C. A(C) conhecida como a lgebra de eventos gerada por C.
Autor: Leandro Chaves Rgo
1.3.3
Funo Indicadora
sempre conveniente representar um evento A por uma funo IA tendo domnio (conjunto
dos argumentos da funo) e contra-domnio (conjunto dos possveis valores da funo)
binrio {0, 1}.
1.4
Fundamentos de Probabilidade
Raciocnio probabilstico aparece em uma ampla variedade de fenmenos de chance e incerteza, ele lugar comum em nosso dia-a-dia. Ns expressamos julgamentos probabilsticos
tanto atravs da linguagem como atravs de nossas aes. Ultrapassar um carro em uma
estrada com outro carro vindo em direo oposta implica que calculamos as distncias e
velocidades, e calculamos os riscos de uma batida ocorrer e estamos conscientes das graves
consequncias de erros nos nossos julgamentos, mas os consideramos pequenos o suciente.
Raciocnio probabilstico no dia-a-dia enquanto no desenvolvido matematicamente precisa
ser levado seriamente em conta se desejamos tomar decises racionais.
Nota-se que, em geral, precisamos incorporar conhecimento probabilstico que seja tanto
qualitativo e expresso linguisticamente como tambm o conhecimento quantitativo que pode
ser expresso numericamente. Antes de focarmos em uma teoria probabilstica, vamos explorar
o espao de alternativas. Ns podemos classicar as formas de raciocnio probabilstico nas
seguintes dimenses:
grau de preciso: o conceito estrutural
o signicado, ou interpretao a ser dada a probabilidade
estrutura matemtica formal de probabilidade dada por um conjunto de axiomas
O conceito estrutural determina a preciso com que podemos esperar que probabilidade
represente fenmenos aleatrios. A interpretao proporciona a base com a qual probabilidade deve ser determinada e indica o que podemos esperar aprender com ela, ou seja, o
que uma armao probabilstica signica. O conceito estrutural e a interpretao guiam a
Autor: Leandro Chaves Rgo
escolha dos axiomas. O conjunto de axiomas, contudo, pode somente capturar uma parte
do que entendemos da interpretao.
Compreenso de fundamentos de probabilidade importante, pois aplicaes de teoria
da probabilidade dependem fortemente de seus fundamentos. Por exemplo, os fundamentos
inuem na escolha dos mtodos estatsticos a serem utilizados (Frequentistas, Bayesianos,
. . . ) e na interpretao dos resultados obtidos. Os prximos exemplos ajudam a motivar um
pouco a importncia do estudo de fundamentos de probabilidade.
Exemplo 1.4.1: Suponha que Alice tenha uma moeda honesta e que ela e Bob saibam que
a moeda honesta. Alice joga a moeda e olha o resultado. Aps a moeda ser jogada, qual a
probabilidade de cara segundo Bob? Um argumento diria que a probabilidade ainda 1/2,
pois Bob no aprendeu nada sobre o resultado da jogada, ento ele no deve alterar o valor
de sua probabilidade. Um outro argumento, questiona se realmente faz sentido falar sobre
probabilidade de cara depois que a moeda foi jogada. Segundo este argumento, a moeda ou
caiu cara ou coroa, ento o melhor que Bob pode armar que a probabilidade de cara ou
0 ou 1, mas ele no sabe discernir entre esses valores.
Exemplo 1.4.2 : Suponha agora que Alice tenha duas moedas, uma honesta e outra
tendenciosa e duas vezes mais provvel dar cara que coroa com esta moeda. Alice escolhe
uma das moedas (suponha que ela sabe distinguir as moedas) e est prestes a jog-la. Bob
sabe que uma moeda honesta e que a outra tendenciosa e que duas vezes mais provvel
cair cara que coroa com a moeda tendenciosa, mas ele no sabe que moeda Alice escolheu nem
lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. Qual a probabilidade
de cara segundo Bob?
Exemplo 1.4.3: Paradoxo de Ellsbergue. Suponha que existam duas urnas cada uma
com 60 bolas. A urna 1 contm 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre
a urna 2 que ela contm bolas azuis e verdes, mas no sabe-se a distribuio das bolas.
Considere que existem duas loteria com prmios baseados no sorteio de bolas dessas urnas.
Loteria L1 paga R$1.000,00 se uma bola azul for sorteada na urna 1, e R$0,00 caso contrrio.
Loteria L2 paga R$1.000,00 se uma bola azul for sorteada na urna 2, e R$0,00 caso contrrio.
A maioria das pessoas quando questionada se prefere um bilhete da Loteria L1 ou L2 prefere
um bilhete da loteria L1 . Suponha agora que temos duas outras loterias L3 e L4 , onde a
primeira paga R$1.000,00 somente se uma bola verde for sorteada da urna 1, e a segunda
para R$1.000,00 somente se uma bola verde for sorteada da urna 2. Tambm, vericado que
a maioria das pessoas que preferiram a loteria L1 a loteria L2 preferem a loteria L3 a loteria
L4 . Com estas preferncias, no possvel que o decisor possua uma nica distribuio de
probabilidade subjetiva sobre as cores das bolas na urna 2, pois a primeira preferncia (L1
sobre L2 ) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2,
e a segunda (L3 sobre L4 ) indica que o decisor considera que existam mais bolas azuis que
verdes na urna 2. Esse fenmeno conhecido na literatura como averso a ambiguidade,
e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao
invs de uma nica medida de probabilidade.
10
Ns discutiremos uma variedade de conceitos estruturais e interpretaes de probabilidade. Depois ns focaremos na probabilidade numrica tradicional que satisfaz os famosos
axiomas de Kolmogorov e em uma interpretao baseada em frequncias de ocorrncia.
1.4.1
11
1.4.2
Interpretaes de Probabilidade
Parece no ser possvel reduzir probabilidade a outros conceitos; ela uma noo em si
mesma. O melhor que podemos fazer relacionar probabilidade a outros conceitos atravs
de uma interpretao. Os cinco mais comuns grupos de interpretao so os seguintes:
1. Lgica: grau de conrmao da hiptese de uma proposio que A ocorre dada uma
evidncia atravs da proposio que B ocorreu. Esta interpretao est ligada a um
sistema lgico formal e no, digamos, ao mundo fsico. Ela usada para tornar o raciocnio indutivo quantitativo. Quando as evidncias ou premissas so insucientes para
deduzir logicamente a hiptese ou concluso, podemos ainda medir quantitativamente
o grau de suporte que uma evidncia da a uma hiptese atravs de probabilidade lgica.
2. Subjetiva: se refere ao grau de crena pessoal na ocorrncia do evento A e medida
atravs da interpretao comportamental de disposio a apostar ou agir.
3. Frequentista: se refere ao limite da frequncia relativa de ocorrncia do evento A em
repetidas realizaes no relacionadas do experimento aleatrio E. Note que limites de
frequncia relativas so uma idealizao, pois no se pode repetir innitas vezes um
experimento.
4. Propensidade: tendncia, propensidade, ou disposio para um evento A ocorrer. Por
exemplo, consideraes de simetria, podem levar a concluso que um dado tem a mesma
propenso ou tendncia a cair em qualquer uma de suas faces.
5. Clssica: baseada em uma enumerao de casos igualmente provveis.
1.5
Frequncias Relativas
Resta-nos discutir o terceiro elemento para modelagem do raciocnio probabilstico, a associao de uma medida numrica a eventos que representam a verossimilhana com que
eles ocorrem. As propriedades desta associao so motivadas em grande parte pelas propriedades de frequncia relativas. Considere uma coleo de experimentos aleatrios Ei que
possuem a mesma lgebra de eventos A e tem resultados individuais no necessariamente
numricos {i }. Seja X() uma funo real dos resultados, com Xi =
X(i ) sendo o valor
1
associado com o resultado i do i-simo experimento. Seja Avn X = n ni=1 Xi a mdia dos
resultados dos n primeiros experimentos. Por simplicidade matemtica, assumiremos que a
funo X escolhida de uma famlia F de funes que podem assumir apenas um nmero
nito de valores numricos. Fixando uma dada sequncia de resultados {i }, fcil vericar
as seguintes propriedades de Avn :
Av0. Avn : F IR.
Autor: Leandro Chaves Rgo
12
r
(A
).
i
i=1 n
Pode-se expressar Avn em termos de rn . Dada uma funo X que assume valores no conjunto nito {x1 , x2 , . . . , xk }, considere os k eventos {Ai = { : X() = xi }, i = 1, 2, . . . , k}.
Podemos rearranjar os termos em Avn X e reescrev-la da seguinte forma:
Avn X =
xi rn (Ai ) =
i=1
xi rn (X = xi ).
i=1
xi pi .
i=1
Este limite das mdias, quando existe, serve como interpretao para o conceito essencial de
esperana ou mdia de uma quantidade aleatria numrica X. Veremos mais sobre esperana
neste curso.
Ns prosseguiremos como se existisse alguma base emprica ou metafsica que garanta
que rn (A) P (A), embora que o sentido de convergncia quando n cresce s ser explicado
pela Lei dos Grandes Nmeros. Esta tendncia da frequncia relativa de estabilizar em um
certo valor conhecida como regularidade estatstica. Deste modo, P herdar propriedades
da frequncia relativa rn .
Autor: Leandro Chaves Rgo
1.6
13
Axiomas de Kolmogorov
Primeiro por razes tcnicas, fora do escopo deste curso, temos que o domnio da medida
formal de probabilidade uma lgebra de eventos que tambm fechada com relao a um
nmero enumervel de unies.
Denio 1.6.1: Uma -lgebra A uma lgebra de eventos que tambm fechada com
relao a uma unio enumervel de eventos,
(i Z)Ai A iZ Ai A.
Exemplo 1.6.2: A coleo de conjuntos de nmeros reais nitos e co-nitos uma lgebra
que no uma -lgebra.
Exemplo 1.6.3: A -lgebra de Borel B de subconjuntos reais , por denio, a menor lgebra contendo todos os intervalos e a -lgebra usual quando lidamos com quantidades
reais ou vetoriais. Em particular, temos que unies enumerveis de intervalos (por exemplo,
o conjunto dos nmeros racionais), seus complementos (por exemplo, o conjunto dos nmeros
irracionais), e muito mais est em B.
Os axiomas que descreveremos a seguir no descrevem um nico modelo probabilstico,
eles apenas determinam uma famlia de modelos probabilsticos, com os quais poderemos
utilizar mtodos matemticos para descobrir propriedades que sero verdadeiras em qualquer
modelo probabilstico. A escolha de um modelo especco satisfazendo os axiomas feito
pelo analista/estatstico familiar com o fenmeno aleatrio sendo modelado.
Motivados pelas propriedades de frequncia relativa, impe-se os primeiros quatro axiomas de Kolmogorov:
K0. Inicial. O experimento aleatrio descrito pelo espao de probabilidade (, A, P ) que
consiste do espao amostral , de uma -lgebra A, e de uma funo de valores reais
P : A IR.
K1. No-negatividade. A A, P (A) 0.
K2. Normalizao Unitria. P () = 1.
K3. Aditividade Finita. Se A, B so disjuntos, ento P (A B) = P (A) + P (B).
fcil provar (tente!) utilizando induo matemtica que K3 vlida para qualquer
coleo nita de eventos disjuntos par
a par, ou seja, se Ai , i = 1, 2, . . . , n, so eventos
disjuntos par a par, ento P (ni=1 Ai ) = ni=1 P (Ai ).
Um quinto axioma, embora no tenha signicado em espaos amostrais nitos, foi proposto por Kolmogorov para garantir um certo grau de continuidade da medida de probabilidade.
14
P (i=1 Ai ) =
P (Ai ).
i=1
Teorema 1.6.4: Se P satisfaz K0-K3, ento P satisfaz K4 se, e somente se, ela satisfaz
K4.
Prova: Primeiro, vamos provar que K0-K4 implicam o axioma da -aditividade K4 . Seja
{Ai } qualquer sequncia enumervel de eventos disjuntos par a par, e dena para todo n
Bn = i>n Ai ,
n
i=1 Ai = Bn (i=1 Ai ).
P (Ai ).
i=1
i=1
P (Ai ) =
P (Ai ).
i=1
K4 segue se conseguirmos mostrar que limn P (Bn ) = 0. Note que Bn+1 Bn , e que
n=1 Bn = . Ento por K4, temos que o limite acima zero e K4 verdadeiro.
15
P (Aj ).
jn
Como por K4 ,
P (Aj ) = P (
j=1 Aj ) 1,
j=1
temos que
lim P (Bn ) = lim
n
P (Aj ) = 0,
jn
logo K4 verdadeiro.
Denio 1.6.5: Uma funo que satisfaz K0-K4 chamada de uma medida de probabilidade.
A terna (, A, P ) chamada de espao de probabilidade. Intuitivamente quando se
modela uma problema atravs de probabilidade, basicamente, o que se faz especicar cada
uma das componentes da terna acima.
Eventos so os elementos de A, aos quais se pode atribuir probabilidade. Probabilidade
uma funo cujo argumento um conjunto. Portanto, no somente conjuntos, como tambm
as operaes sobre eles, tm uma importncia fundamental em teoria da probabilidade.
1.6.1
Exemplo 1.6.6: Se for um conjunto nito, ento temos que a probabilidade clssica que
assume que todos os resultados so igualmente provveis, um exemplo de uma medida de
probabilidade. Neste caso, temos que
P (A) =
||A||
||||
1.6.2
16
P (B) =
P (B Ai ).
i
17
n
P (Ai ).
P (i=1 Ai )
i=1
P (Ai ),
i=1
P (Ai ) (n 1).
i=1
Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac1 , . . . , Acn },
temos
n
n
n
c
c
P (i=1 Ai ) = 1 P (Ai )
P (Ai ) =
(1 P (Ai )).
i=1
Logo,
P (Ai )
i=1
P (Ai ) (n 1).
i=1
18
P (ni=1 Ai ) =
(1)||I||+1 P (iI Ai ),
=I{1,...,n}
Reescrevendo o ltimo termo como P (ki=1 (Ak+1 Ai )), nos d uma expresso que contm
uma unio de exatamente k conjuntos. Ento, usando a hiptese do passo indutivo para os
dois ltimos termos
||I||+1
P (k+1
A
)
=
P
(A
)+
(1)
P
(
A
)
(1)||I||+1 P (iI (Ak+1 Ai )).
k+1
iI i
i=1 i
=I{1,...,k}
=I{1,...,k}
19
Exemplo 1.6.20: Em um grupo de r pessoas qual a probabilidade de haver pelo menos duas
pessoas que faam aniversrio no mesmo dia, assumindo que a distribuio de aniversrios
uniforme ao longo do ano e desprezando a existncia de anos bissextos?
Soluo: Para determinar esta probabilidade, vamos utilizar a probabilidade clssica. O
nmero de resultados possveis para os aniversrios de r pessoas 365r . O nmero de casos
possveis onde todas as pessoas fazem aniversrio em dias diferentes dado por 365 364
(365 (r 1)). Portanto, o nmero de casos possveis onde pelo menos duas pessoas
fazem aniversrio no mesmo dia a diferena entre o nmero total de aniversrios possveis
e o nmero de casos onde as pessoas tm aniversrios em datas diferentes, ou seja, igual a
365r 365 364 (365 (r 1)).
Logo, a probabilidade deste evento :
1
Para r = 23, temos que essa probabilidade aproximadamente igual a 0, 51. E para r = 50,
essa probabilidade igual a 0, 97.
Exemplo 1.6.21: Em uma loteria de N nmeros h um s prmio. Salvador compra n
(1 < n < N ) bilhetes para uma s extrao e Slvio compra n bilhetes, um para cada uma
de n extraes. Qual dos dois jogadores tm mais chances de ganhar algum prmio?
Soluo: A probabilidade de Salvador ganhar algum prmio Nn . O nmero total de
n extraes possveis N n . O nmero de casos onde Slvio no ganha nenhum prmio
(N 1)n , logo o nmero de casos onde Slvio ganha algum prmio igual a N n (N 1)n .
n
.
Logo, a probabilidade de Slvio ganhar algum prmio 1 (NN1)
n
Vamos provar por induo que Salvador tem mais chance de ganhar, ou seja, Nn > 1
(N 1)n
, que equivale a
Nn
(N 1)n
n
>1 .
n
N
N
Para n = 2, temos:
(N 1)2
2
1
2
=1
+ 2 >1 .
2
N
N
N
N
Suponha que para n = k, temos que
k
(N 1)k
>1 .
k
N
N
Multiplicando esta expresso por
N 1
,
N
obtemos:
(N 1)k+1
N 1
k
1
k
k
k+1
>(
)(1 ) = 1
+ 2 >1
.
k+1
N
N
N
N
N
N
N
Exemplo 1.6.22: Doze pessoas so divididas em trs grupos de 4. Qual a probabilidade
de duas determinadas dessas pessoas carem no mesmo grupo?
Autor: Leandro Chaves Rgo
20
Soluo:
O nmero total de divises de doze pessoas em 3 grupos de 4 igual a
(12)(
)( )
8 4
.
Vamos
agora contar o nmero de casos favorveis ao nosso evento. Existem
4
4 4
3 opes de escolhermos em qual grupo as duas pessoas determinadas podem car. Das 10
pessoas restantes,
temos que escolher mais (duas
( )
)( )para estarem neste grupo, o que podemos
8 4
fazer de 10
maneiras
diferentes.
E
temos
maneiras diferentes de dividir as outras 8
2
4 4
pessoas nos dois grupos restantes. Portanto, a probabilidade de duas determinadas pessoas
carem no mesmo grupo :
( )(8)(4)
3 10
3
(122)(84)(44) = .
11
4
4 4
Exemplo 1.6.23 : Suponha que temos em uma sala n mes cada uma com um lho.
Suponha formemos duplas aleatoriamente, onde cada dupla contm uma me e um lho,
qual a probabilidade de que pelo menos uma me forme uma dupla com seu prprio lho?
Soluo: Seja Ai o evento que a i-sima me forma dupla com seu lho. Queremos
determinar
P (ni=1 Ai ).
Vamos calcular esta probabilidade utilizando a frmula da incluso excluso. Note que:
(n 1)!
1
= para todo i {1, 2, . . . , n}
n!
n
(n 2)!
1
P (Ai Aj ) =
=
para i = j
n!
n(n 1)
P (Ai ) =
n
||I||
(n ||I||)!
.
n!
i=1
i=1
(1)i+1
i+1
(1)
( )
n (n i)!
i
n!
1
i!
c
c
de Boole, temos P (i=1 Ai ) i=1 P (Ai ) = 0. Logo, P (i=1 Ai ) = 0. Portanto, como pela
c
c c
Lei de DeMorgan,
i=1 Ai = (i=1 Ai ) , temos que P (i=1 Ai ) = 1 P (i=1 Ai ) = 1.
Exemplo 1.6.25: Demonstre: se A1 , A2 , . . . e B1 , B2 , . . . so eventos aleatrios do mesmo
espao de probabilidade tais que P (An ) 1 e P (Bn ) p, ento P (An Bn ) p.
Autor: Leandro Chaves Rgo
21
(1.1)
Captulo 2
Probabilidade Condicional
2.1
Probabilidade Condicional
(2.1)
Em relao aos eventos contidos em B, razovel assumir que sua chance relativa permanea inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se
22
23
(2.2)
P (A B)
P (B)
Vamos provar que para um evento xo B que satisfaz P (B) > 0, P (|B) satisfaz os
axiomas K1-K4 acima e realmente uma medida de probabilidade. Para provar K1, note
que para todo A A, como P (A B) 0, ns temos
P (A B)
0.
P (B)
Para provar K2, note que B = B, ento
P ( B)
P (B)
P (|B) =
=
= 1.
P (B)
P (B)
P (A|B) =
P (Ai B)
= i
=
P (Ai |B).
P (B)
i
A probabilidade condicional tambm satisfaz as seguintes propriedades:
Autor: Leandro Chaves Rgo
24
1. P (B|B) = 1;
2. P (A|B) = P (A B|B);
3. se A B, ento P (A|B) = 1;
4. P (A B|C) = P (A|B C)P (B|C).
Fazendo C = na propriedade 4 acima, temos que:
P (A B) = P (A|B)P (B).
Utilizando induo matemtica, pode-se facilmente provar que
P (A1 A2 . . . An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 . . . An1 ).
Um mtodo de se obter uma probabilidade (incondicional) de uma probabilidade condicional utilizando o Teorema da Probabilidade Total. Antes de enunciar este teorema
precisamos relembrar o que uma partio do espao amostral. Uma seqncia de eventos A1 , A2 , A3 , . . . uma partio do espao amostral se estes eventos so mutuamente
exclusivos e contm todos os elementos de (i Ai = ).
Teorema 2.1.3:
todo A A
P (A|Bi )P (Bi )
P (A) =
i:P (Bi )=0
Prova:
Como B1 , B2 , . . . uma partio de , temos que
A = A = A (i Bi ) = i (A Bi ).
Como os eventos Bi s so mutuamente exclusivos, os eventos (A Bi )s tambm so
mutuamente exclusivos. Ento axioma K3 implica que
P (A) = P (i (A Bi )) =
=
P (A Bi )
P (A Bi ) =
P (A|Bi )P (Bi ).
Se ns interpretarmos a partio B1 , B2 , . . . como possveis causas e o evento A corresponda a um efeito particular associado a uma causa, P (A|Bi ) especica a relao estocstica
entre a causa Bi e o efeito A.
Por exemplo, seja {D, Dc } uma partio do espao amostral, onde o evento D signica
que um dado indivduo possui uma certa doena. Seja A o evento que determinado teste para
Autor: Leandro Chaves Rgo
25
P (A D)
P (A|D)P (D)
=
.
c
P (A D) + P (A D )
P (A|D)P (D) + P (A|Dc )P (Dc )
Para outro exemplo, suponha que os eventos B1 , B2 , . . . formam uma partio do espao amostral, e os eventos Bi s descrevem diferentes mensagens emitidas em um sistema
de comunicaes e A descreve uma mensagem recebida pelo sistema. P (A|Bi ) determina
a probabilidade que a mensagem Bi seja emitida e a mensagem A seja recebida por este
sistema. Essas probabilidades condicionais especicam o modelo do canal de comunicaes.
Caso, as probabilidades P (Bi )s de cada mensagem ser enviada e as probabilidades condicionais que descrevem o canal de comunicao sejam conhecidas pode-se usando o Teorema
da Probabilidade Total obter a probabilidade incondicional que determinada mensagem A
seja recebida. Porm geralmente, o que se busca saber que dado uma certa mensagem foi
recebida (efeito) A qual a probabilidade de cada uma das mensagens Bi terem sido as mensagens enviadas. Podem-se obter estas probabilidades utilizando a forma geral da famosa
frmula de Bayes:
P (A Bi )
P (A Bi )
P (Bi |A) =
=
j P (A Bj )
j:P (Bj )=0 P (A Bj )
=
P (A|Bi )P (Bi )
.
j:P (Bj )=0 P (A|Bj )P (Bj )
fcil de provar esta frmula usando o Teorema da Probabilidade Total. As probabilidades P (Bi ) so usualmente chamadas de probabilidades a priori e as probabilidades
condicionais P (Bi |A) so chamadas de probabilidades a posteriori. O seguinte exemplo
ilustra uma aplicao da frmula de Bayes.
Exemplo 2.1.4: Considere uma imagem formada por n m pixels com a k-sima linha
contendo dk ( m) pixels defeituosos. No primeiro estgio do experimento uma linha
escolhida ao acaso e ns no sabemos qual foi a escolha. Ns ento examinamos um pixel
selecionada ao acaso nesta linha e descobrimos que o pixel defectivo (chamamos este evento
de D). Qual a probabilidade de que este pixel defeituoso esteja na linha k? Seja R = k o
evento que este pixel pertencia a k-sima linha da imagem. A frmula de Bayes nos permite
determinar que dado que
dk
1
e P (D|R = k) = ,
P (R = k) =
n
m
Autor: Leandro Chaves Rgo
26
ns temos que
P (R = k|D) =
1 dk
nm
n 1 d i
i=1 n m
dk
= n
i=1
di
Ento, mesmo que a linha tenha inicialmente sido escolhida ao acaso, dado o evento que
encontramos ao acaso um pixel defectivo nesta linha, agora mais provvel que seja uma
linha contendo um nmero grande de pixels defectivos dk .
Exemplo 2.1.5: Uma urna contm 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposio, duas bolas dessa urna. Determine a probabilidade da primeira bola
ser branca sabendo que a segunda bola branca.
Soluo: Sejam B1 e B2 os eventos a primeira bola branca e a segunda bola branca,
respectivamente. Queremos calcular P (B1 |B2 ). Utilizando a frmula de Bayes, temos
P (B1 |B2 ) =
3
9
3
9
4
10
4
10
e P (B1c ) =
4
10
+ 49
6
10
2
15
2
5
6
.
10
Logo,
1
= .
3
P (E F )
.
P (F )
27
a priori sobre a localizao do prmio, ou seja ele considera todas as portas equiprovveis, e
isto pode ser modelado por:
1
P (G = di |Y = dj ) = ;
3
todas as portas tem a mesma probabilidade de conter o prmio no importa qual porta o
participante escolhe. Se o participante escolher uma porta que no contm o prmio, Monty
Hall necessariamente ter de abrir a porta que no contm o prmio, isto pode ser modelado
por:
P (M = di1 |Y = di2 , G = di3 ) = 1,
onde i1 , i2 , i3 {1, 2, 3} e so distintos. Se o participante escolher corretamente, por exemplo,
Y = G = di2 , ento assumimos que Monty Hall escolhe aleatoriamente entre as outras duas
outras portas:
1
P (M = di1 |Y = G = di2 ) = , para di1 = di2 .1
2
Para determinar se o participante deve trocar de porta, devemos calcular
P (G = d1 , Y = d2 , M = d3 )
P (G = d1 |Y = d2 , M = d3 ) =
P (Y = d2 , M = d3 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (M = d3 |Y = d2 )P (Y = d2 )
P (M = d3 |G = d1 , Y = d2 )P (G = d1 |Y = d2 )
=
P (M = d3 |Y = d2 )
1/3
=
P (M = d3 |Y = d2 )
Para determinar o valor de P (M = d3 |Y = d2 ) utilizamos o Teorema da Probabilidade Total
e a denio de probabilidade condicional:
P (Y = d2 , M = d3 )
P (M = d3 |Y = d2 ) =
P (Y = d2 )
P (Y = d2 , M = d3 , G = d1 ) + P (Y = d2 , M = d3 , G = d2 ) + P (Y = d2 , M = d3 , G = d3 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )P (Y = d2 )
=
P (Y = d2 )
P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )P (Y = d2 )
+
P (Y = d2 )
P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )P (Y = d2 )
+
P (Y = d2 )
= P (M = d3 |Y = d2 , G = d1 )P (G = d1 |Y = d2 )
+P (M = d3 |Y = d2 , G = d2 )P (G = d2 |Y = d2 )
+P (M = d3 |Y = d2 , G = d3 )P (G = d3 |Y = d2 )
1 1 1
1
=1 + +0= .
3 2 3
2
1
28
P (T P |D)P (D)
pd
=
= 0, 02.
c
c
P (T P |D)P (D) + P (T P |D )P (D )
pd + pt (1 pd )
Embora probabilidade condicional seja bastante til, ela sofre de alguns problemas, em
particular quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se
P (B) = 0, ento P (A|B) no denida. Isto leva a um nmero de diculdades loscas em relao a eventos com probabilidade zero. So eles realmente impossveis? Caso
contrrio, quo improvvel um evento precisa ser antes de ele ser atribudo probabilidade
zero? Deve um evento em algum caso ser atribudo probabilidade zero? Se existem eventos
com probabilidade zero que no so realmente impossveis, ento o que signica condicionar em eventos de probabilidade zero? Por exemplo, considere o espao de probabilidade
([0, 1], B, ) onde B a -lgebra de Borel restrita a eventos contidos em [0, 1] e uma
medida de probabilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu
comprimento. Seja B = {1/4, 3/4} e A = {1/4}. Como (B) = 0, (A|B) no denida.
Porm parece razovel assumir que neste caso (A|B) = 1/2 j que intuitivamente implica
que todos os estados so equiprovveis, mas a denio formal de probabilidade condicional
no nos permite obter esta concluso.
Uma maneira de contornar alguns destes problemas utilizar probabilidades no-padro,
que envolve conceitos de anlise matemtica no-padro, que utiliza noes de innitesimais.
Outro modo considerar probabilidades condicionais (e no incondicionais) como a noo
fundamental. Uma medida de probabilidade condicional tem pares de eventos A, B como
argumentos. Formalmente, a medida de probabilidade condicional denida em uma lgebra
de Popper.
Denio 2.1.10: Uma lgebra de Popper sobre um conjunto A A de subconjuntos
de tal que (a) A uma lgebra sobre , (b) A um subconjunto no-vazio de A,
e (c) A fechado em relao a superconjuntos em A, ou seja, se B A , B B , B A,
ento B A .
Autor: Leandro Chaves Rgo
2.2. INDEPENDNCIA
29
2.2
Independncia
O que exatamente signica que dois eventos so independentes? Intuitivamente, isto signica que eles no tm nada haver um com o outro, eles so totalmente no relacionados; a
ocorrncia de um no tem nenhuma inuncia sobre o outro. Por exemplo, suponha que duas
diferentes moedas so lanadas. A maioria das pessoas viria os resultados desses lanamentos
como independentes. Portanto, a intuio por trs da frase o evento A independente do
evento B que nosso conhecimento sobre a tendncia para A ocorrer dado que sabemos que
B ocorreu no alterada quando camos sabendo que B ocorreu. Ento, usando probabilidades condicionais podemos formalizar esta intuio da seguinte forma, A independente
de B se P (A|B) = P (A). Mas usando a denio de probabilidade condicional, chega-se a
seguinte concluso A independente de B se P (A B) = P (A)P (B). Como esta ltima
expresso denida inclusive para o caso de P (B) = 0, ela a expresso adotada como a
denio de independncia entre eventos.
Denio 2.2.1: O evento A independente do evento B se P (A B) = P (A)P (B).
Note que esta denio de independncia implica que independncia um conceito simtrico em teoria da probabilidade, isto , A independente de B se e somente se B
independente de A. Note que esta denio tambm implica que eventos A e B so independentes se P (A) = 0 ou P (B) = 0, o que pode gerar algumas concluses no intuitivas se
de fato P (A) = 0 ou P (B) = 0. Por exemplo, se P (A) = 0, ento A independente dele
mesmo, porm A certamente no no relacionado consigo mesmo. Similarmente, fcil
provar que se P (A) = 1, A independente dele mesmo. O seguinte teorema prova que estes
so os nicos casos em que um evento independente dele mesmo.
Teorema 2.2.2: A independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1.
Prova:
P (A A) = P (A) = P (A)P (A) P (A) = 0 ou P (A) = 1.
Intuitivamente, se A independente de B o fato que B no ocorreu, ou seja que B c
ocorreu, no deve alterar a probabilidade de A. Portanto, de se esperar que se A e B so
independentes, ento A e B c tambm so. O seguinte teorema prova que esta intuio
verdadeira.
Autor: Leandro Chaves Rgo
2.2. INDEPENDNCIA
Teorema 2.2.3:
tambm o so.
30
P (iI Ai ) =
P (Ai )
iI
E uma coleo de eventos {Ai }iI mutuamente independente se para todo J I nito,
{Ai }iJ mutuamente independente.
Considere os seguintes exemplos que ilustram o conceito de independncia.
Exemplo 2.2.6: Se = {1, 2, 3, 4} e P ({w}) = 1/4, ento A = {1, 2}, B = {1, 3}, e
C = {2, 3} so eventos independentes par a par. Pode-se vericar isto pelo fato que
P (A B) = P ({1}) =
1
11
=
= P (A)P (B).
4
22
Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo, a probabilidade
1
P (A B C) = P () = 0 = P (A)P (B)P (C) = .
8
Ento, A, B, e C no so mutuamente independentes.
Exemplo 2.2.7: Certo experimento consiste em lanar um dado equilibrado duas vezes,
independentemente. Dado que os dois nmeros sejam diferentes, qual a probabilidade
condicional de
Autor: Leandro Chaves Rgo
2.2. INDEPENDNCIA
31
n+m1
(
)
n+m1 k
p (1p)n+m1k .
k
k=n
P (ni=1 Ai )
P (Ai ) =
i=1
pi
i=1
P (ni=1 Aci )
P (Aci )
i=1
(1 pi )
i=1
(1 pi )
i=1
2.2. INDEPENDNCIA
32
Exemplo 2.2.10 : Joo e Jos disputam um jogo com uma moeda equilibrada. Cada
jogador lana a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados
iguais. Joo comea jogando e se no vencer passa a moeda para Jos e continuam alternando
jogadas. Qual a probabilidade de Joo vencer o Jogo?
Soluo: Seja Ak o evento dois resultados iguais so obtidos na k-sima tentativa. Note
que P (Ak ) = 12 . Seja Bk o evento Joo ganha na sua k-sima jogada. Ento,
B1 = A1 ; B2 = Ac1 Ac2 A3 ; B3 = Ac1 Ac2 Ac3 Ac4 A5 ,
em geral,
Bk = Ac1 Ac2 Ac2k2 A2k1 .
Portanto,
1
P (Bk ) = P (Ac1 Ac2 Ac2k2 A2k1 ) = P (Ac1 )P (Ac2 ) P (Ac2k2 )P (A2k1 ) = ( )2k1 ,
2
onde a penltima igualdade se deve ao fato dos lanamentos serem independentes. Logo,
P (Joo vencer) =
P (
k=1 Bk )
1
2
( )2k1 = .
P (Bk ) =
=
2
3
k=1
k=1
Captulo 3
Varivel Aleatria
3.1
Introduo
Suponha que uma moeda lanada cinco vezes. Qual o nmero de caras? Esta quantidade
o que tradicionalmente tem sido chamada de varivel aleatria. Intuitivamente, uma
varivel porque seus valores variam, dependendo da sequncia de lanamentos da moeda
realizada; o adjetivo aleatria usado para enfatizar que o seu valor de certo modo
incerto. Formalmente, contudo, uma varivel aleatria no nem aleatria nem uma
varivel.
Denio 3.1.1: Seja (, A, P ) um espao de probabilidade. Uma funo X : R
chamada de varivel aleatria se para todo evento Boreliano B, X 1 (B) A.
Por denio, temos que X 1 (B) = { : X() B} o conjunto de elementos
do espao amostral cuja imagem segundo X est em B. Ns recordamos que um evento
Boreliano qualquer evento pertencente -lgebra de Borel, onde a -lgebra de Borel a
menor -lgebra contendo todos os intervalos.
Para determinar se uma dada funo X de para os reais uma varivel aleatria
usando a denio, precisa-se checar se para todo evento Boreliano B, a imagem inversa de
B de acordo com X faz parte da -lgebra A. O prximo teorema prova que na verdade, s
precisamos checar que a imagem inversa de intervalos da forma (, x] pertence -lgebra
A.
Teorema 3.1.2: Seja (, A) um espao mensurvel. Uma funo real X : R uma
varivel aleatria se e somente se
X 1 ((, ]) = {w : X(w) } A, R.
Prova:
Para provar este teorema, ns precisamos de uma srie de Lemas.
Lema 3.1.3: Seja B a -lgebra de Borel, ento X 1 (B) = {X 1 (B) : B B} uma
-lgebra de eventos de .
33
3.1. INTRODUO
34
1
X (i=1 Ai ) X (B). Como
1
(Ai ) = X 1 (
i=1 X
i=1 Ai ),
1
temos que
(B).
i=1 Ai X
Dado qualquer classe de conjuntos C, denotamos por (C) a menor -lgebra contendo
C. Desta forma se B = {(, ] : R}, ento B = (B ). O prximo lema prova um
resultado semelhante ao do lema anterior, porm mais forte.
Lema 3.1.4: X 1 (B) = (X 1 (B )), isto , a imagem inversa de eventos Borelianos
igual a menor -lgebra contendo as imagens inversas dos eventos Borelianos.
Prova: De acordo com Lema 3.1.3, X 1 (B) uma -lgebra. Como B B, temos que
X 1 (B ) X 1 (B). Ento, por denio de menor -lgebra, temos que (X 1 (B ))
X 1 (B).
Para provar igualdade, denimos
F = {B R : X 1 (B ) (X 1 (B ))}.
fcil provar que F uma -lgebra; ns omitimos os detalhes. Por denio, temos
que X 1 (F) (X 1 (B )) e B F . Como F uma -lgebra, B = (B ) F . Portanto,
X 1 (B) X 1 (F) (X 1 (B )).
35
PX (i Ai ) = P (X 1 (i Ai )) = P (i X 1 (Ai )) =
P (X 1 (Ai )) =
PX (Ai ).
i
3.2
Para uma varivel aleatria X, uma maneira simples e bsica de descrever a probabilidade
induzida PX utilizando sua funo de distribuio acumulada.
Denio 3.2.1: A funo de distribuio acumulada de uma varivel aleatria X, representada por FX , denida por
FX (x) = PX ((, x]), x R.
A funo de distribuio acumulada FX satisfaz as seguintes propriedades:
F1. Se x y, ento FX (x) FX (y).
x y (, x] (, y] PX ((, x]) PX ((, y]) FX (x) FX (y).
F2. Se xn x, ento FX (xn ) FX (x).
Se xn x, ento os eventos (, xn ] so decrescentes e n (, xn ] = (, x].
Logo, pela continuidade da medida de probabilidade, tem-se que PX ((, xn ])
P ((, x]), ou seja, FX (xn ) FX (x).
F3. Se xn , ento FX (xn ) 0, e se xn , ento FX (xn ) 1.
Se xn , ento os eventos (, xn ] so decrescentes e n (, xn ] = . Logo,
pela continuidade da medida de probabilidade, tem-se que PX ((, xn ]) P (), ou
seja, FX (xn ) 0. Similarmente, se xn , ento os eventos (, xn ] so crescentes
e n (, xn ] = IR. Logo, pela continuidade da medida de probabilidade, tem-se que
PX ((, xn ]) P (), ou seja, FX (xn ) 1.
Autor: Leandro Chaves Rgo
36
Teorema 3.2.2: Uma funo real G satisfaz F1F3 se e somente se G uma distribuio
de probabilidade acumulada.
Prova: A prova de que se G for uma distribuio de probabilidade acumulada, ento G
satisfaz F1-F3 foi dada acima. A prova de que toda funo real que satisfaz F1-F3 uma
funo de probabilidade acumulada complexa envolvendo o Teorema da Extenso de Carathodory. Ns apresentamos aqui um esquema de como a prova feita. Primeiro dene-se
PX ((, x]) = FX (x), PX ((x, )) = 1 FX (x), e PX ((a, b]) = FX (b) FX (a). Com esta
denio, considera-se a lgebra formada por unio nita de intervalos e prova-se que PX
-aditiva nesta lgebra. Finalmente, aplica-se o Teorema da Extenso de Carathodory
para provar que PX pode ser estendida para todo evento Boreliano.
Observao 3.2.3: Uma funo de distribuio pode corresponder a vrias variveis aleatrias no mesmo espao de probabilidade (, A, P ). Por exemplo, se X tem uma distribuio normal com parmetros 0 e 1, ento por simetria fcil ver que X tambm
distribuio normal com parmetros 0 e 1. Consequentemente, FX = FX . No entanto,
P (X = X) = P (X = 0) = 0.
Condio F2 signica que toda funo distribuio de probabilidade acumulada FX
continua direita. Ainda mais, como FX no-decrescente e possui valores entre 0 e 1,
pode-se provar que ela tem um nmero enumervel de descontinuidades do tipo salto. Pela
continuidade direita , o salto no ponto x igual a
FX (x) FX (x ) = FX (x) lim F (x
n
1
)
n
1
])
n
1
= lim PX ((x , x]).
n
n
Como a sequncia de eventos (x n1 , x] decrescente e n (x n1 , x] = {x}. Temos que
{x} Boreliano e
PX (x) = FX (x) FX (x ).
Ou seja, a probabilidade da varivel aleatria X assumir o valor x igual ao salto da
funo de distribuio acumulada FX no ponto x. O prximo teorema indica que o conjunto
de pontos de descontinuidade de F enumervel.
Teorema 3.2.4: Seja D o conjunto de pontos de descontinuidade da funo de distribuio
F . Ento, D enumervel.
Prova: Pela monotonicidade, temos que para todo x IR, F (x ) F (x) F (x+ ). Logo,
x D se, e somente se, F (x+ ) > F (x ). Para n = 1, 2, 3, . . . seja
An = {x : F (x+ ) F (x ) >
1
}.
n
Autor: Leandro Chaves Rgo
37
Ento, D =
n=1 An . Vamos vericar que todo An contm menos que n pontos e, portanto,
nito. Dessa forma, D ser enumervel.
Por absurdo, suponha que exista An que contm n pontos. Assim, An = {x1 , x2 , . . . , xn },
onde x1 < x2 < xn e
+
+
0 F (x
1 ) F (x1 ) F (x2 ) F (x2 ) F (xn ) F (xn ) 1.
1
1
F (xi ) F (xi ) > n para todo xi An . Portanto, nk=1 [F (x+
k ) F (xk )] > n n > 1,
absurdo. Logo, An contm menos que n pontos.
3.3
FX (x) =
p(xi ).
i:xi x
Contnua. Uma varivel aleatria X contnua se existe uma funo fX (x) 0 tal
que
x
FX (x) =
fX (t)dt, x R.
3.3.1
Vamos considerar agora o caso das variveis aleatrias discretas. Ns vimos na seo anterior
que se uma varivel aleatria discreta, ento ns podemos denir uma funo de probabilidade p de modo que p(xi ) = PX ({xi }), i = 1, 2, . . ., onde X {x1 , x2 , . . .} e p(x) = 0
para x
/ {x1 , x2 , . . .}. Note que toda funo de probabilidade uma funo dos reais R e
Autor: Leandro Chaves Rgo
38
assume valores entre 0 e1, sendo positiva para um nmero enumervel de pontos e satisfaz
a seguinte propriedade i p(xi ) = 1.
Por outro lado, dada uma funo p : R
[0, 1], onde p positiva para um nmero
enumervel de pontos {x1 , x2 , . . .} e satisfaz
i p(xi ) = 1, uma funo P denida nos eventos
3.3.2
Vamos considerar agora o caso das variveis aleatrias contnuas. Ns vimos na seo anterior
que se uma varivel
xaleatria (absolutamente) contnua, ento existe uma funo fX (x) 0
tal que FX (x) = fX (t)dt. Deste modo, FX contnua e fX (x) = FX (x), exceto num
conjunto de medida de Lebesgue
nula. Uma funo f (x) 0 densidade de alguma varivel
aleatria se e somente se, f (x)dx = 1, j que neste caso fcil provar que a funo F
x
denida por f (t)dt satisfaz as condies F1, F2, e F3. Portanto, pelo Teorema 3.2.2
F uma funo de distribuio acumulada. Logo, a distribuio de uma varivel aleatria
contnua X pode ser determinada tanto pela funo de distribuio acumulada FX ou pela
sua funo de densidade fX .
Uma varivel aleatria X tem densidade se FX a integral (de Lebesgue) de sua derivada;
sendo neste caso a derivada de FX uma funo densidade para X. Este fato pode ser provado
utilizando argumentos de Teoria da Medida, mas omitimos os detalhes aqui. Sem recorrer a
argumentos envolvendo Teoria da Medida, em quase todos os casos encontrados na prtica,
uma varivel aleatria X tem densidade se FX (i) contnua e (ii) derivvel por partes, ou
seja, se FX derivvel no interior de um nmero nito ou enumervel de intervalos fechados
cuja unio a reta R.
Por exemplo, considere
0 se x < 0,
x se 0 x < 1,
FX (x) =
1 se x 1.
Ento X tem densidade pois FX contnua e derivvel em todos os pontos da reta exceto
em {0, 1}.
3.3.3
Vamos nesta seo dar o exemplo de uma funo de distribuio de uma varivel aleatria
singular conhecida como funo de Cantor. Esta funo contnua, derivvel em todo ponto
exceto em um conjunto de medida de Lebesgue nula, mas no absolutamente contnua.
Seja F (x) = 0 se x < 0 e F (x) = 1 se x > 1. Continuemos por etapas:
Etapa 1: Seja F (x) = 12 para x (1/3, 2/3). Ento, o valor de F neste intervalo igual a
mdia dos valores de F nos intervalos vizinhos em que F j est denida: (, 0) e
Autor: Leandro Chaves Rgo
39
(1, ). F continua sem denio em dois intervalos: [0, 1/3] e [2/3, 1] de comprimento
total 2/3.
Etapa n + 1: No tero central de cada um dos 2n intervalos restantes aps a etapa n, seja
F (x) igual mdia dos valores nos dois intervalos vizinhos onde F j est denida.
Por exemplo, na etapa 2 dena F (x) = 1/4 para x (1/9, 2/9) e F (x) = 3/4 para
x (7/9, 8/9). Restaro ento 2n+1 intervalos (o dobro do nmero restante aps a
etapa n), de comprimento total (2/3)n+1 , em que F ainda no estar denida.
Ento denimos F por induo em um nmero enumervel de intervalos abertos, cujo
complementar (ou seja, o conjunto onde F ainda no est denida) o conjunto de Cantor,
um conjunto de comprimento 0. Podemos estender a denio de F at o conjunto de Cantor
C por continuidade: se x C, a diferena entre os valores de F nos dois intervalos vizinhos
aps a etapa n 1/2n . Note que F montona no decrescente em C c . Se an o valor de
F no intervalo vizinho esquerdo aps a etapa n, e bn o valor no intervalo vizinho direito
aps a etapa n, ento, an , bn e bn an 0. Seja F (x) o limite comum de an e bn . Deste
modo F est denida em toda reta e de fato uma funo de distribuio (verique!).
Seja X uma varivel aleatria cuja funo de distribuio F , a funo de Cantor.
Ento
X no discreta e nem contnua pois X no tem densidade F (x) = 0 em C c e
x
3.3.4
Vamos ver agora que toda varivel aleatria uma mistura dos trs tipos: discreto, contnuo
e singular. Seja X uma varivel aleatria qualquer e seja F sua funo de distribuio. Se
J = {x1 , x2 , . . .} o conjunto dos pontos de salto de F (se F for contnua J = ), indiquemos
com pi o salto no ponto xi , ou seja,
pi = F (xi ) F (x
i ).
40
0
x
FY (x) =
FY (x) =
1 se 0 < x < 1/2.
Logo, por denio,
{
f (x) =
Portanto,
0 se x 0 ou x 1/2,
1 se 0 < x < 1/2.
se x < 0,
0
x
se 0 x 1/2,
Fac (x) =
f (t)dt =
3.4
41
Bernoulli.
Dizemos que X tem uma distribuio Bernoulli com parmetro p, onde 0 p 1, se
X(w) {x0 , x1 } e p(x1 ) = p = 1 p(x0 ).
A funo de probabilidade Bernoulli pode ser utilizada para modelar a probabilidade de
sucesso em uma nica realizao de um experimento. Em geral, qualquer varivel aleatria
dicotmica, ou seja que assume somente dois valores, pode ser modelada por uma distribuio
Bernoulli.
Binomial.
Dizemos que X tem uma distribuio Binomial com parmetros
n e p, onde n um nmero
( )
inteiro e 0 p 1, se X(w) {0, 1, . . . , n} e p(k) = nk pk (1 p)1k , para k {0, 1, . . . , n}.
Note que utilizando o Teorema Binomial, temos que
n
n ( )
n k
p(k) =
p (1 p)nk = (p + 1 p)n = 1.
k
k=0
k=0
Logo, esta uma legtima funo probabilidade de massa.
A funo de probabilidade Binomial pode ser utilizada para modelar a quantidade de erros
em um texto de n smbolos quando os erros entre smbolos so assumidos independentes e a
probabilidade de erro em um smbolo do texto igual a p. Tambm pode ser utilizada para
modelar o nmero de caras em n lanamentos de uma moeda que possui probabilidade p de
cair cara em cada lanamento. Se p = 1/2, temos um modelo para o nmero de 1s em uma
sequncia binria de comprimento n escolhida aleatoriamente ou o nmero de caras em n
lanamentos de uma moeda justa.
Geomtrica.
Dizemos que X tem uma distribuio Geomtrica com parmetro , onde 0 < 1, se
X(w) {0, 1, . . .} e p(k) = (1 ) k , para k {0, 1, . . .}.
Utilizando o resultado de uma soma innita de uma Progresso Geomtrica, temos que
k
p(k) =
(1 ) = (1 )
k = 1.
k=0
k=0
k=0
42
onde () =
conhecida como a funo Zeta de Riemann.
k=1 k
A funo de probabilidade Zeta ou Zipf um exemplo de uma distribuio de cauda
pesada cuja importncia cresceu bastante desde meados dos anos 1990. As aplicaes desta
funo de probabilidade incluem: nmero de consumidores afetados por um blackout, tamanhos de arquivos solicitados em transferncia via Web e atraso de pacotes na internet.
Hipergeomtrica.
A distribuio hipergeomtrica descreve o nmero de sucessos em uma sequncia de n amostras de uma populao nita sem reposio.
Por exemplo, considere que tem-se uma carga com N objetos dos quais D tm defeito. A
distribuio hipergeomtrica descreve a probabilidade de que em uma amostra de n objetos
distintos escolhidos da carga aleatoriamente exatamente k objetos sejam defeituosos.
Autor: Leandro Chaves Rgo
43
Em geral, se uma varivel aleatria X segue uma distribuio hipergeomtrica com parmetros N, D, e n, ento a probabilidade de termos exatamente k sucessos dada por
(D)(N D)
(Nnk
) .
p(k) =
e =
xk
k=0
k!
k=0
p(k) =
e k
k=0
k!
=e
k
k=0
k!
= e e = 1.
44
outro instante. Como em qualquer intervalo de tempo, temos um nmero innito de pontos,
vamos fazer uma srie de aproximaes para este clculo.
Para comear, pode-se dividir o intervalo de 3 minutos em nove intervalos de 20 segundos cada um. Poderemos ento tratar cada um desses nove intervalos como um ensaio de
Bernoulli, durante o qual observaremos uma chamada (sucesso) ou nenhuma chamada (fa20
= 0, 5. Desse
poderemos
lha), com probabilidade de sucesso igual a p = 1, 5 60
(9) modo,
9
9
ser tentados a armar que a probabilidade de 2 chamadas igual a 2 (0, 5) = 128
. Porm, este clculo ignora a possibilidade de que mais de uma chamada possa ocorrer em um
nico intervalo. Ento, queremos aumentar o nmero n de subintervalos de tempo de modo
que cada subintervalo corresponde a 180
segundos e ento a probabilidade de ocorrncia
n
180
de uma chamada em um subintervalo igual a p = 1, 5 60n
. Desta maneira temos que
np = 4, 5 permanece constante ao crescermos o nmero de subintervalos. Utilizando novamente
binomial, temos que a probabilidade de ocorrerem k chamadas dada por:
(n) 4,5 ok modelo
4,5 nk
( n ) (1 n ) . Queremos saber ento o que acontece com esta probabilidade quando
k
n . A resposta como veremos a seguir que esta distribuio tende a distribuio de
Poisson e este resultado conhecido como limite de eventos raros.
Consideremos a expresso geral da probabilidade binomial,
( )
n k
n!
n(n 1) (n k + 1) k
p(k) =
p (1 p)nk =
pk (1 p)nk =
p (1 p)nk .
k
k!(n k)!
k!
Como queremos estudar o caso em que np constante, faamos np = , ou seja, p = /n
. Ento,
e 1 p = n
n
n(n 1) (n k + 1) k n nk
( ) (
)
k!
n
n
k
1
k1
=
[(1)(1 ) (1
)][1 ]nk
k!
n
n
n
p(k) =
45
2. limn np2n = 0.
3. (1 x)n enx , para x 0.
4. (1 x)n enxnx , para 0 x 12 .
2
1
U (x a)U (b x).
ba
Este modelo frequentemente usado impropriamente para representar completa ignorncia sobre valores de um parmetro aleatrio sobre o qual apenas sabe-se estar no intervalo
nito [a, b]. Esta distribuio tambm frequentemente utilizada a fase de osciladores e fase
de sinais recebidos em comunicaes incoerentes.
Exponencial.
Dizemos que X tem uma distribuio Exponencial com parmetro , onde > 0 um
nmero real, se a funo densidade de X igual a
fX (x) = ex U (x).
A densidade exponencial pode ser utilizada para modelar os seguintes fenmenos: tempo
de vida de componentes que falham sem efeito de idade; tempo de espera entre sucessivas
chegadas de ftons, emisses de eltrons de um ctodo, ou chegadas de consumidores; e
durao de chamadas telefnicas.
Qui-quadrado.
Dizemos que X tem uma distribuio Qui-quadrado com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
fX (x) =
xn/21 ex/2
U (x),
2n/2 (n/2)
Autor: Leandro Chaves Rgo
46
onde (p) = 0 xp1 ex dx para p > 0 a funo gama. n conhecido como nmero de
graus de liberdade da distribuio Qui-quadrado.
Pode-se provar que a soma dos quadrados de n variveis aleatrias independentes com
distribuio normal padro possui uma distribuio Qui-quadrado com n graus de liberdade.
A distribuio Qui-quadrado tem inmeras aplicaes em inferncia estatstica. Por exemplo,
em testes qui-quadrados e na estimao de varincias.
Gama.
Dizemos que X tem uma distribuio Gama com parmetros e , onde > 0 e > 0 so
nmeros reais, se a funo densidade de X igual a
1 x
fX (x) =
x e U (x).
()
Pode-se provar que a soma de variveis aleatrias exponenciais com mdia 1/ tem
uma distribuio Gama. fcil ver que se = 1, temos uma distribuio exponencial com
parmetro , e se = n/2 e = 1/2 temos uma distribuio Qui-quadrado com n graus de
liberdade.
Beta.
Dizemos que X tem uma distribuio Beta com parmetros e , onde > 0 e > 0 so
nmeros reais, se a funo densidade de X igual a
fX (x) = 1
0
x1 (1 x)1
u1 (1
u)1 du
U (x)U (1 x) =
1
x1 (1 x)1 U (x)U (1 x),
B(, )
onde B(, ), para > 0, > 0, a funo beta que o fator de normalizao que garante
que fX uma densidade.
Distribuies Beta so usadas exaustivamente em Estatstica Bayesiana, pois elas so
uma famlia de distribuies a priori conjugadas para distribuies binomiais e geomtricas.
A distribuio beta pode ser utilizada para modelar eventos que tem restrio de estar em
um intervalo nito.
t de Student.
Dizemos que X tem uma distribuio t de Student com parmetro n, onde n nmero
natural, se a funo densidade de X igual a
[(n + 1)/2]
x2 (n+1)
fX (x) =
(1 + ) 2 ,
n
[n/2] n
onde n conhecido como nmero de graus de liberdade da distribuio t de Student.
Pode-se provar que se Z tem uma distribuio normal padro, V tem uma distribuio
qui-quadrado com n graus de liberdade e Z e V forem independentes, ento Z tem uma
V /n
47
Pareto.
Dizemos que X tem uma distribuio Pareto com parmetros e , onde e so nmeros
reais positivos, se a funo densidade de X igual a
fX (x) = x1 U (x ).
A distribuio de Pareto o exemplo mais fundamental de uma distribuio de cauda
pesada. Ela pode ser utilizada para modelar distribuio de riquezas; atrasos em transmisso
de pacotes; e durao sesses de Internet.
Normal ou Gaussiana.
Dizemos que X tem uma distribuio Normal (ou Gaussiana) com parmetros m e , onde
m e > 0 so nmeros reais, se a funo densidade de X igual a
(xm)2
1
fX (x) = e 22 .
2
Historicamente, esta distribuio foi chamada de normal porque ela era amplamente
aplicada em fenmenos biolgicos e sociais que era sempre tida como a distribuio antecipada ou normal. Se m = 0 e = 1, diz-se que X tem uma distribuio normal padro ou
normal reduzida. Aplicaes da distribuio normal incluem rudo trmico em resistores e em
outros sistemas fsicos que possuem um componente dissipativo; rudos de baixa-frequncia
como os em encontrados em amplicadores de baixa frequncia; e variabilidade em parmetros de componentes manufaturados e de organismos biolgicos (por exemplo, altura, peso,
inteligncia).
Cauchy.
Dizemos que X tem uma distribuio Cauchy com parmetro a > 0, se a funo densidade
de X igual a
1
a
fX (x) = 2
.
a + x2
A razo entre duas variveis aleatrias com distribuio Normal padro independentes
tem uma distribuio Cauchy com parmetro 1.
3.5
48
Onde um evento Boreliano em IRn se pertence a menor -lgebra que contem todas regies
da seguinte forma: Ca = {(X1 , X2 , . . . , Xn ) : Xi ai , 1 i n}.
pode-se denir uma probabilidade induzida P no esDado um vetor aleatrio X,
X
n
n
pao mensurvel (IR , B ) da seguinte maneira: para todo A B n , denimos PX (A) =
1 (A)). Por denio de vetor aleatrio, tem-se que X
1 (A) A, ento P est bem
P (X
X
denida.
3.5.1
xi
Portanto, a funo de distribuio acumulada conjunta de X1 , . . . , Xn1 pode ser facilmente determinada da funo de distribuio acumulada conjunta de X1 , . . . , Xn
fazendo xn . Observe que funes de distribuio acumuladas conjuntas de ordem
maiores determinam as de ordem menores, mas o contrrio no verdadeiro. Em
particular, temos que
lim FX (x) = 1.
49
O prximo exemplo mostra que para n 2 as propriedades F1, F2, e F3 no so sucientes para que F seja uma funo de distribuio.
Exemplo 3.5.3: Seja F0 : IR2 IR uma funo denida no plano tal que F0 (x, y) = 1
se x 0, y 0, e x + y 1, e F0 (x, y) = 0, caso contrrio. claro que F1, F2, e F3 so
satisfeitas, mas F0 no funo de distribuio de nenhum vetor aleatrio (X, Y ). Se fosse,
teramos uma contradio
0 P (0 < X 1, 0 < Y 1)
= F0 (1, 1) F0 (1, 0) F0 (0, 1) + F0 (0, 0) = 1 1 1 + 0 = 1
Os tipos discretos e contnuos de variveis aleatrias tm os seguintes anlogos no caso
for um vetor aleatrio discreto, ou seja assumir um nmero enumermultivariado. (a) Se X
vel de valores {x1 , x2 . . . , }, podemos denir uma funo de probabilidade de massa conjunta,
p tal que
p(xi ) 0.
xi ) = 1.
i=1 p(
Neste caso, pode-se denir a funo probabilidade de massa marginal de Xi como sendo
pXi (xi ) =
xi1 xi+1
xn
3.5.2
P (Xi Ai ).
i=1
50
O prximo teorema estabelece trs critrios para provar que um conjunto de variveis
aleatrias mutuamente independente.
Teorema 3.5.5 : As seguintes condies so necessrias e sucientes para testar se um
conjunto {X1 , . . . , Xn } de variveis aleatrias mutuamente independente:
pXi (xi ).
i=1
i=1
Prova: Para parte (a), note que se {X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 x1 , . . . , Xn xn )
n
n
=
P (Xi xi ) =
FXi (xi ), (x1 , . . . , xn )
i=1
i=1
A prova da sucincia da parte (a) ser omitida pois envolve argumentos de teoria da
medida.
Para parte (b), se {X1 , . . . , Xn } so variveis aleatrias mutuamente independentes, ento
pX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
n
n
=
P (Xi = xi ) =
pXi (xi ), (x1 , . . . , xn )
i=1
i=1
P (X1 B1 , X2 B2 , . . . , Xn Bn ) =
i:x1i B1
i:x1i B1
i:x1i B1
i:xni Bn
i:xni Bn
n
i:xni Bn j=1
pXj (xji ) =
P (Xj Bj )
j=1
51
A parte (c) uma consequncia direta da parte (a) e da denio de funo de densidade.
Omitimos os detalhes.
fcil observar que utilizando, a denio de probabilidade condicional que se X e Y
so independentes, ento para todo A e B boreliano tal que P (Y B) > 0:
P (X A|Y B) = P (X A),
ou seja, se X e Y so independentes o conhecimento do valor de Y no altera a descrio
probabilstica de X.
3.5.3
A Distribuio Multinomial
Vamos dar o exemplo de uma distribuio conjunta de variveis aleatrias, que pode ser
considerada como uma generalizao da distribuio binomial. Considere um experimento
aleatrio qualquer e suponha que o espao amostral deste experimento particionado em k
eventos {A1 , A2 , . . . , Ak }, onde o evento Ai tem probabilidade pi . Suponha que se repita este
experimento n vezes de maneira independente e seja Xi o nmero de vezes que o evento Ai
ocorreu nestas n repeties. Ento,
P (X1 = n1 , X2 = n2 , . . . , Xk = nk ) =
n!
pn1 1 pn2 2 pnk k ,
n1 !n2 ! nk !
onde ki=1 ni = n. (Relembre que o nmero de maneiras de arranjar n objetos, n1 dos quais
de uma espcie, n2 dos quais de uma segunda espcie, . . ., nk dos quais so de uma
k-sima espcie dado pelo coeciente multinomial n1 !n2n!!nk ! .)
A Distribuio Normal Bivariada
Dizemos que o vetor aleatrio (X, Y ) possui distribuio normal bivariada quando tem densidade dada por
f (x, y) =
21 2
1 2
exp{
1
x 1 2
x 1 y 2
y 2 2
[(
)
2(
)(
)
+
(
) ]},
2(1 2 )
1
1
2
2
3.6
52
P (X = xij ) =
j=1
pX (xij ),
j=1
n=1
(1/2)2n =
(1/4)n =
n=1
1/4
= 1/3.
1 1/4
Consequentemente,
P (Y = 1) = 1 P (Y = 1) = 2/3.
de forma
Podemos estender este resultado para uma funo de um vetor aleatrio X
denotemos por xi1 , xi2 , xi3 , . . . os valores de X
tal que
anloga. Neste caso se Y = H(X),
H(xij ) = yi para todo j. Ento, temos que
{xi1 , xi2 , xi3 , . . .}) =
P (Y = yi ) = P (X
j=1
= xij ) =
P (X
pX (xij ),
j=1
53
..
.
y1
x1
J = ...
yn
x1
y1
xn
..
.
yn
xn
g(y1 , . . . , yn )dy1 dyn = g(f1 (x1 , ..., xn ), . . . , fn (x1 , ..., xn ))|J|dx1 dxn ,
A
f 1 (A)
zy
f (x, y)dxdy.
54
fZ (z) =
f (z t, t)dt =
f (s, z s)ds,
H 1 (B)
H 1 (G)) = P (X
G0 ) = 1, temos que para todo boreliano
Como P (Y G) = P (X
n
B no IR ,
Esta ltima integral igual a integral sobre o conjunto B da funo que toma o valor
f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J| para y G, e zero no caso contrrio. Portanto,
pela denio de densidade temos que
{
f (H11 (y1 , . . . , yn ), . . . , Hn1 (y1 , . . . , yn ))|J|, se y G,
fY (y1 , . . . , yn ) =
0,
caso contrrio.
Observao 3.6.4:
Autor: Leandro Chaves Rgo
55
(a) Note que J o Jacobiano da funo inversa H 1 , em alguns casos pode ser til obter
J a partir do Jacobiano J da funo H atravs da relao J = J1 |x=H 1 (y) .
quando a dimenso de Y menor que a
(b) Para obter a distribuio de Y = H(X)
muitas vezes possvel denir outras variveis aleatrias Y , . . . , Y ,
dimenso de X
1
m
utilizar o mtodo do Jacobiano para determinar a densidade conjunta de Y , Y1 , . . . , Ym
e, nalmente, obter a densidade marginal conjunta de Y . Considere o seguinte exemplo:
Exemplo 3.6.5: Suponha que X1 , X2 tem densidade conjunta dada por f (x, y) e
que estamos interessados na distribuio de Y1 = X12 + X2 . Como esta no uma
transformao 1-1, ela no possui inversa. Vamos denir uma nova varivel Y2 = X1
de modo que a funo (Y1 , Y2 ) = H(X1 , X2 ) = (X12 + X2 , X1 ) possua uma funo
inversa diferencivel, (X1 , X2 ) = H 1 (Y1 , Y2 ) = (Y2 , Y1 Y22 ). Deste modo temos que
(
) (
)
x1
x1
0
1
y1
y2
J = det x2 x2
=
= 1
1 2y2
y1
y2
Ento temos que, fY1 ,Y2 (y1 , y2 ) = f (y2 , y1 y22 ). Finalmente, para encontrarmos fY1
integramos sobre todos os possveis valores da varivel Y2 que introduzimos:
fY1 =
f (y2 , y1 y22 )dy2 .
Captulo 4
Esperana e Momentos de Variveis
Aleatrias
4.1
O Conceito de Esperana
4.2
57
EX =
xi pi +
xi pi ,
i:xi <0
i:xi 0
desde que pelo menos um dos somatrios seja nito. Em caso os dois somatrios no sejam
nitos, a esperana no existe.
Exemplo 4.2.2: Considere uma varivel aleatria X tal que: P (X = 1) = 0.25, P (X =
0) = 0.5 e P (X = 2) = 0.25. Ento,
EX = 1(0.25) + 0(0.5) + 2(0.25) = 0.25.
Exemplo 4.2.3: Considere uma varivel aleatria X tal que: P (X = a) = P (X = a) =
1/2. Ento,
EX = a(0.5) + a(0.5) = 0.
Note ento que muitas variveis aleatrias diferentes podem ter o mesmo valor esperado
ou esperana. ( s variar o valor de a no exemplo anterior.)
Exemplo 4.2.4: Aleatria. Se X {1, 2, . . . , n} for uma varivel aleatria com distribuio de probabilidade aleatria com parmetro n, temos que sua esperana dada por:
EX =
k=1
kp(k) =
n
n
1
1 n(n + 1)
1
n+1
k =
k=
=
.
n
n
n
2
2
k
k
Onde utilizamos a frmula da soma dos primeiros n termos de uma progresso aritmtica.
Exemplo 4.2.5: Bernoulli. Se X {0, 1} for uma varivel aleatria com distribuio de
probabilidade Bernoulli com parmetro p, temos que sua esperana dada por:
EX = 0(1 p) + 1(p) = p.
Exemplo 4.2.6: Binomial. Se X for uma varivel aleatria com distribuio de probabilidade Binomial com parmetros n e p, temos que sua esperana dada por:
( )
n
n
n k
n!
nk
pk (1 p)nk
EX =
k
p (1 p)
=
k
k
k!(n k)!
k=0
k=1
)
n
n (
(n 1)!
n 1 k1
k
nk
n
p (1 p)
= np
p (1 p)nk = np.
k
1
(k
1)!(n
k)!
k=1
k=1
Onde utilizamos o Teorema Binomial na ltima igualdade.
58
k(1 ) k =
k=0
= (1 )
j=1 k=j
k =
k=1
k(1 ) k =
j =
j=1
(1 ) k
k=1 j=1
Onde utilizamos a frmula da soma innita de uma progresso geomtrica com razo .
Exemplo 4.2.8: Binomial Negativa. Se X for uma varivel aleatria com distribuio
de probabilidade Binomial Negativa com parmetros r e p, temos que sua esperana dada
por:
(
)
(
)
k
k
r
kr+1
EX =
k
p (1 p)
=(
(k + 1)
pr (1 p)kr+1 ) 1
r
1
r
1
k=r1
k=r1
=(
(k + 1)k!
pr (1 p)kr+1 ) 1
(r
1)!(k
r
+
1)!
k=r1
(k + 1)!
r
= (
pr+1 (1 p)k+1r ) 1
p k=r1 r!(k + 1 r)!
(j)!
r
r
EX = (
ps (1 p)js+1 ) 1 = 1
p j=s1 (s 1)!(j s + 1)!
p
Onde utilizamos o fato que o somatrio igual soma da funo probabilidade de massa
de uma varivel aleatria Binomial Negativa para todos os valores que tem probabilidade
positiva, e portanto, igual a 1.
Exemplo 4.2.9: Poisson. Se X for uma varivel aleatria com distribuio de probabilidade Poisson com parmetros , temos que sua esperana dada por:
e k e k
e k1
EX =
k
=
k
=
= .
k!
k!
(k
1)!
k=0
k=1
k=1
Exemplo 4.2.10: Zeta. Se X for uma varivel aleatria com distribuio de probabilidade
Zeta com parmetro > 2, temos que sua esperana dada por:
1 (1) ( 1)
k
=
,
k
=
EX =
k
()
()
()
k=1
k=1
onde () =
k=1
k .
Autor: Leandro Chaves Rgo
59
n
Onde utilizamos o fato que o somatrio igual soma da funo probabilidade de massa de
uma varivel aleatria Hipergeomtrica para todos os valores que tem probabilidade positiva,
e portanto, igual a 1.
Antes de introduzirmos a denio geral da Esperana de uma varivel aleatria qualquer,
vamos estudar um pouco sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes.
4.3
(yi )(xi+1 xi ),
i=1
onde yi [xi , xi+1 ], convergem quando a norma de P tende a zero e este limite independente
b
da escolha dos yi s e da partio P . Se esta integral existe denota-se o limite por a (x)dx.
A integral de Riemann-Stieltjes uma generalizao de integral de Riemann. Se
uma funo contnua denida no intervalo [a, b] e F uma funo de distribuio, dene-se
a integral de Riemann-Stieltjes de em [a, b], em relao a F , como o limite de somas de
Riemann da forma
n1
60
onde a = x1 < x2 < < xn = b, yi um ponto arbitrrio de [xi , xi+1 ], e toma-se o limite
quando a norma de partio P tende a zero. Tal limite existe e nito sob as condies
descritas, e representado por
(x)dF (x).
a
i=1
onde o supremo tomado sobre todas as possveis parties do intervalo fechado [a, b]. Uma
funo de variao limitada se V (f, [a, b]) < .
A integral de Rieman-Stieltjes sobre a reta uma integral imprpria denida da mesma
maneira que a integral imprpria de Riemann:
b
(x)dF (x) =
lim
(x)dF (x),
a,b
se o limite existe. Esta denio da integral de Riemann-Stietjes pode ser estendida a outras
b
funes alm das contnuas. Para uma funo qualquer , dene-se a (x)dF (x) como
sendo o limite das somas de Riemann descritas acima quando a norma da partio tende a
zero, se este limite existe e independente das escolhas dos yi s e da partio P . O problema
que mesmo para funes bem simples este limite pode no existir como mostra o prximo
exemplo:
Exemplo 4.3.2: Seja F0 (x) = 1 se x 0, e F0 (x) = 0, caso contrrio. Consideremos a
integral de Riemann-Stieltjes de F0 em [1, 1] em relao a F0 . Note que se zero no um
dos pontos da partio, de modo que xi < 0 < xi+1 para algum i, com F0 (xi+1 ) F0 (xi ) = 1,
ento o somatrio assume como valor escolhido para yi ser maior que 0, ou no.
Uma integral mais robusta que no sofre desta decincia a integral de LebesgueStieltjes. A idia da integral de Lebesgue-Stieltjes particionar a imagem da funo ao
invs de particionar o seu domnio. Diz-se que uma partio P um renamento de P
se P P , ou seja, quando os intervalos da partio P so particionados na partio P .
Suponha que seja no negativa e mensurvel em relao a -lgebra de Borel. Seja for
uma medida nos reais, ou seja, uma funo cujo domnio a -lgebra de Borel que tem como
imagem do conjunto vazio zero, no-negativa e -aditiva. Dada uma seqncia {P1 , P2 , . . .}
de parties de [0, ) onde Pn = {y1 , y2 , . . . , yn }, yn , Pi+i um renamento de Pi ,
e a norma de Pn tende a zero quando n , dene-se a soma de Lebesgue em relao a
partio Pn como sendo,
n1
i=1
61
+
d = d d.
Se for uma medida de probabilidade em (IR, B) e F for a distribuio de probabilidade acumulada associada
a varivel aleatria
X() = , ento escreve-se (x)dF (x)
b
relao a no intervalo [a, b] como sendo I[a,b] d e denota-se por a d.
4.3.1
dF = f dF + gdF,
e para H(x) = F (x) + G(x), temos
dH = dF + dG.
P4. Aditividade. Se a < b < c , ento
c
b
c
dF =
dF +
dF.
a
62
pi U (x xi ),
i=1
onde P (X = xi ) = pi e
i=1
pi = 1, ento
dF =
pi (xi ).
i=1
P6. Se F for a funo de distribuio de uma varivel aleatria contnua, tendo densidade
f , temos dFdx(x) = f (x) em quase toda parte, e conseqentemente,
(x)dF (x) =
(xi )pi + (x)f (x)dx,
i
4.4
Vamos agora motivar a denio da Esperana no caso geral. Consideremos uma seqncia
{P1 , P2 , . . .} de parties de [0, ) onde Pn = {y1 , y2 , . . . , yn }, yn , Pi+i um renamento de Pi , e a norma de Pn tende a zero quando n . Dada uma varivel aleatria
no-negativa qualquer X e uma partio Pn desta seqncia, denamos uma outra varivel
aleatria Y discreta que aproxima
X assumindo o valor yi quando yi X < yi+1 e Y = yn
y
I
se X yn , ou seja, Y = n1
i=1 i [yi X<yi+1 ] + yn I[Xyn ] . Como Y discreta temos que sua
esperana dada por
EY =
i=1
yi P (Y = yi ) =
n1
i=1
Note que esta esperana uma soma de Lebesgue em relao a partio Pn com integrando X
e funo integradora dada pela medida de probabilidade P . Note que a medida que pegamos
Autor: Leandro Chaves Rgo
63
parties mais renadas na seqncia, Y se torna cada vez uma melhor aproximao para
X. J que os valores de X e Y cam cada vez mais prximos intuitivo requerer que nossa
denio de esperana (mdia) EX seja igual ao limite de EY quando n , ou seja
EX = lim
i=1
yi P (Y = yi ) = lim
n1
XdP.
i=1
0
XdF,
XdF +
EX = XdF =
desde que pelo menos uma das integrais seja nita. Em caso as duas integrais no sejam
nitas, a esperana no existe. Caso EX seja nita, diz-se que X integrvel.
Pela Propriedade P7 da integral de Lebesgue-Stieltjes, temos que se F = Fd + Fac + Fs ,
ento
EX = XdF =
xi pi + xf (x)dx + xdFs (x),
i
0 , se x < 0
x , se 0 x < 1/2
F (x) =
1 , se x 1/2.
Decompondo em parte discreta e contnua tem-se
{
0
, se x < 1/2
Fd (x) =
1/2 , se x 1/2,
e
, se x < 0
0
x
, se 0 x < 1/2
Fac (x) =
1/2 , se x 1/2.
Portanto,
1
1
EY = P (Y = ) +
2
2
1/2
ydy =
0
1 1
3
+ = .
4 8
8
Autor: Leandro Chaves Rgo
64
Exemplo 4.4.3: Uniforme. Se X U (a, b), ento X possui densidade igual a f (x) =
se x (a, b), e f (x) = 0, caso contrrio. Logo, temos que sua esperana dada por:
b
x
a+b
EX =
dx =
.
2
a ba
1
ba
0
0
Normal. Se X N (m, ), ento X possui densidade igual a fX (x) =
Exemplo 4.4.5:
1 e
2
(xm)2
2 2
EX =
(xm)2
1
x e 22 dx.
2
y + m y2
y y2
m y2
2
2
e dy +
e 2 dy = 0 + m = m.
EX =
e dy =
2
2
2
4.4.1
x
a
2
dx = , e
a + x2
x
a
2
dx = .
a + x2
Por denio, EX = xdF (x), ou seja, EX a integral da diferencial xdF . Mas xdF
uma diferencial de rea. Para x > 0, xdF uma diferencial da rea da regio compreendida
entre
as curvas x = 0, y = 1, e y = F (x) no plano Euclideano, cuja rea total dada por
(1 F (x))dx. Para x < 0, xdF uma diferencial da rea da regio compreendida
0
entre
(x) no plano Euclideano,
cuja rea total dada por
0 as curvas x = 0, y = 0, e y = F
0
F (x)dx. Logo, temos que EX = 0 (1F (x))dx F (x)dx. Formalmente, podemos
provar isso da seguinte maneira. A prova ser dividida em duas etapas: (a) 0 xdF (x) =
0
0
(1 F (x))dx e (b) xdF (x) = F (x)dx. Comecemos provando (b). Utilizando
0
integrao por partes, temos que a < 0,
0
0
0
xdF (x) = aF (a)
F (x)dx =
[F (a) F (x)]dx.
a
xdF (x)
a
65
F (x)dx.
a
Como a desigualdade vlida para todo a < 0, temos que tomando o limite quando a
0
0
xdF (x)
F (x)dx.
0
0
[F (a) F (x)]dx = F (a)()
[F (a) F (x)]dx
F (x)dx,
Como isto vlido para todo < 0, tomando o limite quando , temos
0
0
xdF (x)
F (x)dx,
xdF (x) =
[F (b) F (x)]dx
0
[1 F (x)]dx.
Como a desigualdade vlida para todo b > 0, temos que tomando o limite quando b
xdF (x)
[1 F (x)]dx.
0
Como isto vlido para todo > 0, tomando o limite quando , temos
xdF (x)
[1 F (x)]dx,
0
4.5
66
4.5.1
Caso Discreto
Como vimos anteriormente, se X for uma varivel aleatria discreta e se Y = H(X), ento
Y tambm ser uma varivel aleatria discreta. Conseqentemente, pode-se calcular EY .
Existem duas maneiras de calcular EY que so equivalentes.
Denio 4.5.1: Seja X uma varivel aleatria discreta e seja Y = H(X). Se Y assumir
os seguintes valores y1 , y2 , . . . e se p(yi ) = P (Y = yi ), denimos:
EY =
yi p(yi ).
i=1
H(xi )p(xi ).
i=1
Prova: Vamos re-ordenar o somatrio i=1 H(xi )p(xi ), agrupando os termos onde xi tem
a mesma imagem de acordo com a funo H, ou seja, sejam xi1 , xi2 , . . ., todos os valores xi
tal que H(xij ) = yi para j 1, onde y1 , y2 , . . . so os possveis valores de Y . Desse modo
podemos reescrever
H(xi )p(xi ) =
i=1
H(xij )p(xij ) =
i=1 j=1
yi
i=1
p(xij ) =
j=1
yi p(yi ) = EY.
i=1
Exemplo 4.5.3: Suponha que X uma varivel aleatria Poisson com parmetro . Seja
Y = X 2 , vamos calcular EY . Utilizando o Teorema 4.5.2, temos
EY =
=
k
2
k e
k=0
k=2
k!
k=1
k e
k!
k=1
k(k 1)e
k!
k=1
ke
k
k!
k2
+ = 2 + .
(k 2)!
4.5.2
67
Caso Geral
No caso de uma varivel aleatria qualquer X tambm podemos calcular a esperana de uma
funo Y = (X) de forma similar.
Teorema 4.5.4: Seja X uma varivel aleatria qualquer, Y = (X) uma outra varivel
aleatria, ento
4.6
Propriedades da Esperana
E(X + Y ) =
(xi + yj )p(xi , yj ) =
xi
p(xi , yj ) +
yj p(xi , yj )
=
xi p(xi ) +
yj
p(xi , yj ) = EX +
yj p(yj ) = EX + EY.
n
i
ai Xi ) =
n
i
68
ai EXi .
E( Xi ) =
i1
i1
in
xi1 xin
in
p(xij ) =
j=1
xi1 p(Xi1 )
i1
n
i=1
xin p(xin ) =
in
EXi .
i=1
E( Xi ) = x1 xn fX (x)dx1 dxn
i=1
i=1
EXi .
i=1
i=1
kP (Y = k) =
k=1
P (Y = k),
k=1 j=1
j=1 k=j
P (Y = k) =
P (Y j).
j=1
69
Prova: Pela convexidade de , dado algum ponto (x0 , (x0 ) do grco de , existe
uma reta que passa por esse ponto e ca sempre abaixo do grco de , ou seja, existe
algum tal que
(x) (x0 ) + (x x0 ), x.
Logo, pela monotonicidade e linearidade da esperana, temos
E(X) (x0 ) + (EX x0 ).
Em particular, para x0 = EX, temos E(X) (EX).
O prximo Lema estabelece um critrio para integrabilidade de variveis aleatrias.
Lema 4.6.2: Seja X uma varivel aleatria qualquer. Ento,
P (|X| n) E|X| 1 +
n=1
n=1
P (|X| n),
n=1
P (|X| n) < .
P (|X| n) =
n=1
logo
n=1
P (|X| n) E|X| 1 +
P (|X| n),
n=1
P (|X| n).
n=1
4.7. MOMENTOS
4.7
70
Momentos
Momentos do informaes parciais sobre a medida de probabilidade P , a funo de distribuio acumulada, ou a funo probabilidade de massa de uma varivel aleatria X. Momentos
de X so esperanas de potncias de X.
Denio 4.7.1: Para qualquer inteiro no-negativo n, o n-simo momento da varivel
aleatria X EX n , se esta esperana existe.
Na seo anterior, vimos que o segundo momento de uma varivel aleatria Poisson com
parmetro dado por: 2 + . Vamos agora calcular o segundo momento de uma varivel
aleatria X Binomial com parmetros n e p:
( )
n
n
n!
2
2 n
k
nk
EX =
k
p (1 p)
=
k2
pk (1 p)nk =
k
k!(n
k)!
k=0
k=1
n
n!
n!
pk (1 p)nk +
k
pk (1 p)nk
k!(n k)!
k!(n k)!
k=1
k(k 1)
k=1
n(n 1)p
k=2
= n(n 1)p
(n 2)!
pk2 (1 p)nk + np
(k 2)!(n k)!
j=0
(m)!
pj (1 p)mj + np = n(n 1)p2 + np.
(j)!(m j)!
Teorema 4.7.2: Se o k-simo momento de uma varivel aleatria existir, ento todos os
momentos de ordem menores do que k tambm existem.
Prova: Por hiptese, temos que E|X k | < , logo E(1 + |X k |) < . Como para qualquer
j tal que 0 < j < k, |X j | 1 + |X k |, e 1 + |X k | integrvel, temos que |X j | tambm
integrvel.
Vamos agora enunciar dois teoremas importantes que tratam da convergncia de esperanas de variveis aleatrias. Neste caso, estaremos tratando de convergncia pontual de
variveis aleatrias, ou seja, Xn X se, e somente se, Xn (w) X(w) para todo w .
No prximo captulo, veremos outras noes de convergncia de variveis aleatrias.
Teorema 4.7.3: Teorema da Convergncia Montona. Sejam X, X1 , X2 , . . . variveis
aleatrias. Se 0 Xn X, ento, EXn EX.
Teorema 4.7.4: Teorema da Convergncia Dominada. Sejam Y, X, X1 , X2 , . . . variveis aleatrias. Considere que Y seja integrvel, |Xn | Y e Xn X. Assim X e Xn so
integrveis e EXn EX.
O prximo exemplo mostra que nem sempre Xn X EXn EX.
Exemplo 4.7.5: Seja Y U (0, 1). Considere a seguinte seqncia {X1 , X2 , . . .} de variveis aleatrias: Xn () = n se Y () (0, 1/n) e Xn () = 0 em caso contrrio. Ento, temos
que Xn () 0, . Mas, EXn = 1 = 0 = E0, ou seja, EXn 9 0.
Autor: Leandro Chaves Rgo
4.7. MOMENTOS
4.7.1
71
Momentos Centrais
Denio 4.7.6: Se X uma varivel aleatria seu n-simo momento central : E(X
EX)n , se esta esperana existir.
Note que o primeiro momento central zero, pois E(X EX) = EX EEX = EX
EX = 0. O segundo momento central conhecido como varincia e denota-se por V arX.
A varincia pode ser tambm calculada por:
V arX = E(X EX)2 = E(X 2 2XEX + (EX)2 ) = EX 2 2E(XEX) + E((EX)2 )
= EX 2 2(EX)2 + (EX)2 = EX 2 (EX)2 .
Do Teorema Binomial e da linearidade da esperana, temos
n ( )
n
E(X EX) =
(EX)nk EX k
k
k=0
n
e
EX = E(X EX + EX) =
n
n ( )
n
k=0
Como um corolrio, temos que o n-simo momento central existe se, e somente se, o
n-simo momento existe.
Exemplo 4.7.7: Considere uma varivel aleatria X tal que
P (X = m a) = P (X = m + a) =
1
1
EX k = [(m a)k + (m + a)k ].
2
2
1
EX = m, EX 2 = [2m2 + 2a2 ] = m2 + a2 , V arX = a2 .
2
Este exemplo, mostra que podemos encontrar uma varivel aleatria bem simples possuindo
qualquer esperana e varincia predeterminadas.
O desvio-padro de uma varivel aleatria X denido como a raiz quadrada da
varincia, (X) = V arX.
Propriedades da Varincia e de outros Momentos
As seguintes propriedades da varincia so conseqncias imediatas de sua denio.
1. V arX 0.
2. Se X = c, V ar(X) = 0.
Prova: Temos que EX = c, logo V ar(X) = E(X c)2 = E(0) = 0.
4.7. MOMENTOS
72
4. V ar(aX) = a2 V arX
Prova:
V ar(aX) = E(aX)2 (E(aX))2 = a2 EX 2 a2 (EX)2 = a2 V arX.
Corolrio 4.7.8: Seja X uma varivel aleatria, ento para todo > 0, P (|X| )
E|X|
.
|x|
.
4.7. MOMENTOS
73
1
1
])
P (Z ) = 0.
n
n
n
Portanto, P (Z = 0) = 1 P (Z > 0) = 1.
Note que este ltimo corolrio implica que, quando V ar(X) = 0, ou seja E(XEX)2 =
0, temos que P (X = EX) = 1, ou seja X constante com probabilidade 1.
Corolrio 4.7.10: Desigualdade (Original) de Chebyshev. Seja X uma varivel
aleatria, ento P (|X EX| ) V arX
.
2
2
Prova: Escolha A = {x : |x| } e g(x) = x2 . Note que g(x) IA (x), ento pelo
2
teorema anterior, P (X A) = P (|X| ) EX
. Substituindo X por X EX,
2
V arX
temos P (|X EX| ) 2 .
Note que a desigualdade de Chebyshev converte conhecimento sobre um momento de
segunda ordem ou uma varincia numa cota superior para a probabilidade da cauda
de uma varivel aleatria.
8. Se X e Y so variveis aleatrias em (, A, P ) tais que E|X t | < e E|Y t | < , ento
E|X + Y |t < . Prova: |X + Y | |X| + |Y | 2 max(|X|, |Y |). Portanto, |X + Y |t
2t max(|X|t , |Y |t ) 2t (|X|t + |Y |t ). Logo, E|X + Y |t 2t (E|X|t + E|Y |t ) < .
Como E|X|t < obviamente implica E|aX|t < , a IR, esta propriedade diz que
a classe de variveis aleatrias em (, A, P ) possuidoras do t-simo momento nito
um espao vetorial ou espao linear.
9. V arX = E(X )2 = mincIR E(X c)2 .
Prova:
(X c)2 = (X + c)2 = (X )2 + 2( c)(X ) + ( c)2 ,
logo
E(X c)2 = E(X )2 + 2( c)(EX ) + ( c)2
= V arX + ( c)2 .
Portanto, E(X c)2 E(X )2 , c IR.
4.8
74
Momentos Conjuntos
V arXi + 2
i=1
Cov(Xi , Xj ).
i<j
Prova:
V ar(X1 + + Xn ) = E(X1 + + Xn E(X1 + + Xn ))2
n
n
2
= E( (Xi EXi )) = E[ (Xi EXi )2 + 2
(Xi EXi )(Xj EXj )]
=
i=1
n
i=1
i<j
V ar(Xi ) + 2
i=1
i<j
Cov(Xi , Xj ).
75
V arXi .
i=1
Cov(X, Y )
V ar(X)V ar(Y )
O teorema anterior provou que |(X, Y )| 1. O prximo teorema mostra que o mdulo do
coeeciente de correlao entre duas variveis igual a 1 se, e somente se, as variveis so
linearmente dependentes.
Teorema 4.8.7: Sejam X e Y variveis aleatrias com varincias nitas e positivas. Ento,
(a) (X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a > 0 e b IR.
(b) (X, Y ) = 1 se, e somente se, P (Y = aX + b) = 1 para algum a < 0 e b IR.
Prova: Parte (a). Como ( XEX Y EY )2 0, temos que
V ar(X)
V ar(Y )
X EX
Y EY 2
0 E(
)
V ar(X)
V ar(Y )
X EX 2
Y EY 2
2
= E(
) + E(
)
E((X EX)(Y EY ))
V ar(X)
V ar(Y )
V ar(X)V ar(Y )
V arX V arY
2Cov(X, Y )
=
+
= 2 2(X, Y ).
V arX V arY
V ar(X)var(Y )
Se (X, Y ) = 1, ento
X EX
Y EY 2
E(
) = 0,
V ar(X)
V ar(Y )
Autor: Leandro Chaves Rgo
76
V arY
P (Y = EY +
(X EX)) = 1.
V arX
A prova da parte (b) anloga, substituindo o sinal + por - na expresso acima.
Deixamos para o leitor vericar os detalhes.
O prximo teorema apresenta uma nova relao entre momentos conjuntos de variveis
aleatrias. Ele conhecido como Desigualdade de Hlder.
Teorema 4.8.8: Suponha que p e q satisfazem: p > 1, q > 1, e
E(|X|p ) < e E(|X|q ) < , temos que
1
p
1
q
= 1. Ento, se
ab p1 ap + q 1 bq .
|X|
(E(|X|p ))1/p
e b por
|Y |
,
(E(|Y |q ))1/q
temos
|XY |
|X|
|Y |
1
p
1
p
(
)
+
q
(
)q .
p
1/p
q
1/q
p
1/p
q
1/q
(E(|X| )) (E(|Y | ))
(E(|X| ))
(E(|Y | ))
Finalmente, tomando o valor esperado, temos
E|XY |
(E(|X|p ))1/p (E(|Y |q ))1/q
E|X|p p
E|Y |q q
1
)
+
q
(
)
(E(|X|p ))
(E(|Y |q ))
= p1 + q 1 = 1.
p1 (
Captulo 5
Distribuio e Esperana Condicionais
5.1
P ([X B] A)
,
P (A)
para B boreliano. Pode-se vericar facilmente que isto dene uma probabilidade nos borelianos vericando-se os axiomas. Podemos interpretar a distribuio condicional de X dado
A como a nova distribuio que se atribui a X quando sabe-se da ocorrncia do evento A.
A funo de distribuio associada distribuio condicional chamada funo distribuio
condicional de X dado A:
FX (x|A) = P (X x|A).
A esperana condicional de X dado A a esperana da distribuio condicional, denida
por
P (X B) =
P (An )P (X B|An ), B B,
n
e
FX (x) = P (X x) =
=
P (An )P (X x|An )
77
78
e se a esperana de X existe,
P (An )
xdFX (x|An ) =
P (An )E(X|An ).
P (X B) =
P (Y = yn )P (X B|Y = yn ), B boreliano
FX (x) =
EX =
P (Y = yn )FX (x|Y = yn )
P (Y = yn )E(X|Y = yn ),
79
Essas frmulas valem tambm no caso geral, como veremos adiante. Salientamos que a
esperana precisa existir para que a ltima frmula valha. De fato, quando X for integrvel,
(y) = E(X|Y = y) ser nito. Nesse caso, a varivel aleatria (Y ) ser chamada de
esperana condicional de X dada Y e ser indicada por (Y ) = E(X|Y ). Notemos que
E(X|Y = y) um valor particular da varivel aleatria E(X|Y ): o valor quando Y = y.
Portanto, a ltima frmula pode ser reescrita assim
EX = E(Y ) = E(E(X|Y )).
Em outras palavras, a esperana de X igual esperana da esperana condicional de X
dada Y .
Exemplo 5.1.1: Consideremos o seguinte experimento em que participam dois jogadores,
I e II. Suponhamos que o jogador I lance uma moeda honesta n vezes, obtendo k caras, onde
0 k n, e que depois disso o jogador II lance a mesma moeda k vezes. Seja X o nmero
de caras obtidas pelo jogador II. Qual a esperana de X supondo independncia de todos os
lanamentos?
Seja Y o nmero de caras nos n lanamentos do jogador I. Decorre das condies do
experimento que Y b(n, 12 ) e que X|Y = k b(k, 21 ). Por isso, a esperana condicional
de X dado que Y = k a esperana da distribuio b(k, 21 ): E(X|Y = k) = k2 , ou seja,
E(X|Y ) = Y2 . Utilizando a frmula, temos
Y
n
EX = E(E(X|Y )) = E( ) = .
2
4
Exemplo 5.1.2: Consideremos outro jogo que conta com a participao de dois jogadores
I e II. Neste jogo, o jogador I vai fazer uma seqncia de lanamentos independentes de uma
moeda que tem probabilidade p de dar cara, onde 0 < p < 1. Antes do jogador I comear,
o jogador II observa uma varivel aleatria N tendo distribuio P oisson(), onde > 0.
Supomos que N seja independente da seqncia de lanamentos do jogador I. Se o jogador
II observar N = n, ele vai parar o jogador I depois de ter feito n lanamentos (se N = 0, o
jogador II no permite nenhum lanamento). Se S for o nmero de caras observadas at o
jogador I parar, qual a esperana de S?
Soluo: Como a seqncia de lanamentos independente de N , a distribuio condicional de S dado que N = n binomial(n, p). Portanto, E(S|N = n) = np, ou seja,
E(S|N ) = N p. Logo,
ES = E(N p) = pEN = p.
5.2
Nosso objetivo nesta seo denir a distribuio condicional de X dado que Y = y para todo
y R e todo par de variveis aleatrias X e Y denidas no mesmo espao de probabilidade
(, A, P ). Na seo anterior denimos a distribuio condicional dado que Y = y quando
P (Y = y) > 0; portanto nosso problema agora como denir distribuio condicional
quando P (Y = y) = 0. No caso discreto essa denio era arbitrria, pois o conjunto
Autor: Leandro Chaves Rgo
80
B0 = {yn : n = 1, 2, . . .}c tambm tinha probabilidade zero. Mas evidente que essa soluo
no serve no caso geral, j que no caso continuo P (Y = y) = 0 para todo y R.
Para termos uma intuio sobre a denio formal da distribuio condicional no caso
geral, consideremos novamente o caso discreto. Pelas frmulas obtidas na seo anterior a
distribuio (resp., funo de distribuio, esperana) de X determinada pela distribuio
Y e a distribuio (resp., funo de distribuio, esperana) condicional de X dada Y . De
fato, o Teorema da Probabilidade Total nos d um resultado muito mais forte: a distribuio
conjunta de X e Y determinada pela distribuio de Y e a distribuio condicional de X
dada Y . Para ver isto, basta notar que para todo x e y,
FX,Y (x, y) = P (X x, Y y) =
P (X x, Y = yn )
=
n:yn y
P (Y = yn )P (X x|Y = yn ) =
n:yn y
y
P (Y = yn )FX (x|Y = yn )
n:yn y
Vemos ento que no caso discreto a funo de distribuio conjunta uma espcie de
composta da funo de distribuio marginal de Y com a funo de distribuio condicional
de X dada Y . E pode-se provar que para todo par de variveis aleatrias X e Y , denidas
no mesmo espao de probabilidade, existe uma, e somente uma, famlia de funes de distribuio condicional satisfazendo a condio acima. Isto justica a seguinte denio formal
para a distribuio condicional de X dada Y :
Denio 5.2.1: Sejam X e Y variveis aleatrias denidas no mesmo espao de probabilidade (, A, P ). Uma funo P (X B|Y = y), denida para B boreliano e y R, ser
chamada uma distribuio condicional (regular) para X dada Y se
(i) para todo y R xo, P (X B|Y = y) dene uma probabilidade na -lgebra de
Borel; e
(ii) para todo B boreliano xo, P (X B|Y = y) funo mensurvel de y e para todo
(x, y) R2 ,
y
FX (x|Y = t)dFY (t) = FX,Y (x, y).
O prximo teorema prova que esta denio determina uma nica distribuio condicional
quase certamente.
Teorema 5.2.2: Sejam X e Y variveis aleatrias em (, A, P ). Ento existe uma distribuio condicional regular para X dada Y . Existe apenas uma, no sentido de que duas distribuies condicionais so iguais quase certamente: se P1 (X B|Y = y) e P2 (X B|Y = y)
so ambas distribuies condicionais para X dada Y , ento existe um boreliano B0 tal que
P (Y B0 ) = 1 e P1 (X B|Y = y) = P2 (X B|Y = y), para todo B boreliano e y B0 .
81
Prova: Omitida.
Existe uma outra alternativa para se calcular a distribuio condicional de X dada Y
que utiliza uma aproximao da denio do caso discreto. Para tanto, seja I um intervalo
pequeno de comprimento y e que contm o ponto y. Tomemos como aproximao para a
probabilidade condicional de X pertencer a B dado que Y = y, a probabilidade condicional
do mesmo evento dado que Y I, ou seja,
P (X B|Y = y) P (X B|Y I) =
P (X B, Y I)
.
P (Y I)
O seguinte teorema prova que esta maneira alternativa de calcular a distribuio condicional de X dado Y quase sempre coincide com a Denio 5.2.1.
Teorema 5.2.3: Para cada B boreliano xo, o limite na denio 4.2 existe quase certamente, i.e., P (Y {y : limite existe em y}) = 1. Alm disso, para cada B xo, o
limite igual a P (X B|Y = y) como denido na Denio 5.2.1, quase certamente, ou
seja, o conjunto dos ys para os quais o limite converge para P (X B|Y = y) conforme a
Denio 5.2.1 tem probabilidade 1.
Tanto a Denio 5.2.1 quanto o mtodo da aproximao por limites no so teis para
encontrar a distribuio condicional. Para tanto deve-se tentar adivinhar um candidato.
Consideremos alguns casos simples em que a soluo vem de imediato:
Caso I: Y discreta. Considere a soluo que obtivemos quando analisamos o caso
discreto. Portanto, se Y assume os valores y1 , y2 , . . . tais que P (Y = yn ) > 0, ento
P (X B|Y = yn ) =
P (X B, Y = yn )
, B B,
P (Y = yn )
82
se f (y) > 0, e f (x|y) = f (x) se f (y) = 0. Esta funo chamada de densidade condicional
de X dado que Y = y. Note que f (x|y) preserva as chances relativas e realmente uma
densidade. Agora, vamos mostrar que ela satisfaz a Denio 5.2.1. Parte (i), segue do fato
que f (x|y) uma densidade de probabilidade e portanto P (X B|Y = y) = XB f (x|y)dx
uma probabilidade para todo boreliano
x B. Para vericar (ii), note que a funo de distribuio condicional FX (x|Y = t) = f (s|t)ds. Logo
f (s|t)ds)dFY (t) =
x
f (s, t)
ds)fY (t)dt
fY (t)
(5.1)
Caso IV: X discreta e Y com densidade fY . De acordo com a denio de distribuio condicional, ela deve satisfazer neste caso:
y
P (X = xi |Y = t)fY (t)dt = P (X = xi , Y y).
83
0dF|X| (t)
, se x < y
y 1
|x|
0dF|X| (t) + |x| 2 dF|X| (t) , se y x < 0
0
y
=
x
1dF|X| (t)
, se x y 0
0
0
, se x < y
F|X| (y)
, se x y 0
0
, se x < y
FX (x) FX (y ) , se y x < 0
=
FX (x) FX (y ) , se 0 x < y
F|X| (y)
, se x y 0
0
Mas esta ltima expresso igual a FX,|X| (x, y). Portanto, nosso candidato satisfaz a denio de distribuio condicional.
Exemplo 5.2.5 : Se fY |X (y|x) = |x + 1|e|x+1|y U (y) e X Binomial(2, 1/2), qual a
densidade de Y ? Dado que Y = y, qual a distribuio de X para y > 0?
Soluo:
fY (y) =
|i+1|y
|i + 1|e
i=0
( )
2
U (y)
(1/2)2
i
1
= U (y)(ey + 4e2y + 3e3y )
4
Utilizando o resultado do Caso IV acima temos que
P (X = i)
P (X = i|Y = y) =
fY |X (t|i)
fY (y)
(2)
|i + 1|e|i+1|y
i
, i = 0, 1, 2.
= y
(e + 4e2y + 3e3y )
5.3
Esperana Condicional
84
f (x, y)
E(X|Y = y) = xdFX (x|Y = y) =
dx,
xf (x|y)dx =
x
fY (y)
f (x, y)
E(E(X|Y )) = E(X|Y = y)dFY (y) =
(
x
dxfY (y)dy)
fY (y)
=
xf (x, y)dxdy =
(
f (x, y)dy)xdx
=
xfX (x)dx = EX.
85
Assim como no caso incondicional podemos denir momentos condicionais de ordem mais
elevada de maneira anloga. O k-simo momento de X dado Y dado por E(X k |Y ). E
o k-simo momento central dado por E((X E(X|Y ))k |Y ). Em particular, o segundo
momento central conhecido como varincia condicional de X dado Y e pode ser reescrito
como:
V ar(X|Y ) = E((X E(X|Y ))2 |Y ) = E(X 2 |Y ) (E(X|Y ))2 .
Exemplo 5.3.3: Sejam X e Y variveis aleatrias independentes e identicamente distribudas, com X U [0, 1], e sejam U = min(X, Y ) e V = max(X, Y ). Encontre E(U |V ).
Soluo:
FU,V (x, y) = P (U x, V y) = P (V y) P (U > x, V y)
{
P (X y, Y y) P (x < X y, x < Y y) , se x < y
=
P (X y, Y y)
, se x y.
Portanto, como X e Y so independentes, temos
0
, se x 0 ou y 0
(1
x)
, se y 1 e 0 < x < 1
1
, se y 1 e x 1.
Logo,
{
2 FU,V (x, y)
2 , se 0 < x < y < 1
fU,V (x, y) =
=
0
, caso contrrio.
xy
y
Como fV (y) = fU,V (x, y)dx = 0 2dx = 2y, se 0 < y < 1, e fV (y) = 0 caso contrrio,
temos que
{ 1
fU,V (x, y)
, se 0 < x < y < 1
y
=
fU |V (x|y) =
0 , caso contrrio.
fV (y)
Autor: Leandro Chaves Rgo
86
E(U |V = y) =
xfU |V (x|y)dx =
0
x
y
dx = ,
y
2
E(Xi |S = s)
i=1
n
= E(
Xi |S = s) = E(S|S = s) = s.
i=1
(5.3)
Captulo 6
Convergncia Estocstica
6.1
Seqncia de Eventos
inf Ak =
k=n Ak , sup Ak = k=n Ak
kn
kn
lim inf An =
n=1 k=n Ak
n
lim sup An =
n=1 k=n Ak .
n
88
c
(
n=1 k=n Ak ) = n=1 (k=n Ak ) = n=1 (k=n Ak ).
Seqncias Monotnicas
Uma seqncia de eventos (An ) monotnica no-decrescente (resp., no-crescente) se A1
A2 . . . (resp, A1 A2 . . .). Denotaremos por An (resp., An ) uma seqncia
no-decrescente (resp. no-crescente) de eventos.
Teorema 6.1.3: Suponha que (An ) uma seqncia monotnica de eventos. Ento,
1. Se An , ento limn An =
n=1 An .
2. Se An , ento limn An =
n=1 An .
Conseqentemente, como para qualquer seqncia Bn , temos inf kn Bk e supkn Bk ,
segue que:
lim inf Bn = lim(inf Bk ), lim sup Bn = lim(sup Bk )
n
kn
kn
Prova: Para provar (1), precisamos mostrar que lim inf An = lim sup An =
n=1 An . Como
Aj Aj+1 , temos kn Ak = An , e portanto,
lim inf An =
n=1 (kn Ak ) = n=1 An .
lim sup An =
n=1 (kn Ak ) k=1 Ak
= lim inf An lim sup An .
89
6.1.1
Borel-Canteli
A seguir vamos enunciar e provar um importante Lema, conhecido como Lema de BorelCantelli, que trata da probabilidade da ocorrncia de um nmero innito de eventos.
Lema 6.1.6: Sejam A1 , A2 , . . . eventos aleatrios em (, A, P ), ou seja, An A, n.
(a) Se
n=1 P (An ) < , ento P (An innitas vezes ) = 0.
(b) Se
n=1 P (An ) = e os eventos An s so independentes, ento
P (An innitas vezes ) = 1.
Autor: Leandro Chaves Rgo
90
P (
k=j Ak )
P (Ak ) 0.
k=j
P (Bnc )
c
P (n+m
k=n Ak )
n+m
P (Ack )
n+m
(1 P (Ak )).
k=n
k=n
n+m
k=n
quando m , pois
n+m
k=n
P (Ak )
= exp(
n+m
P (Ak )) 0
k=n
Exemplo 6.1.7: Se sabemos que para uma dada coleo de eventos {Ak }, as suas probabilidades individuais satisfazem P (Ak ) k12 , ento podemos concluir que intos desses vezes
ocorrem com probabilidade zero ou, que apenas um nmero nito deles ocorrem com probabilidade 1. Podemos reesecrever isso da seguinte forma: existe um instante aleatrio N tal
que, com probabilidade 1, nenhum dos Ak ocorrem para k > N . importante ressaltar que
ns podemos chegar a essa concluso sem saber nada sobre as interaes entre esses eventos
como as que so expressas por probabilidades de pares de eventos P (Ai Aj ). Contudo, se
apenas sabemos que P (Ak ) > 1/k, ento no podemos concluir nada baseados no Lema de
Borel-Cantelli. Se soubermos que os eventos so mutuamente independentes, ento sabendo
que P (Ak ) > 1/k, podemos concluir que innitos Ak ocorrem com probabilidade 1.
Autor: Leandro Chaves Rgo
91
P (Xk > bk ) =
1 FXk (bk ) < ,
k=1
k=1
ento, no importa qual a distribuio conjunta das variveis aleatrias {Xk }, temos que o
evento {Xk > bk } s ocorrer para um nmero nito de ndices k. Por outro lado, se
P (Xk > bk ) =
k=1
1 FXk (bk ) = ,
k=1
ento precisaramos de informao adicional sobre a distribuio conjunta das variveis aleatrias {Xk } para determinar se os eventos {Xk > bk } ocorrem um nmero nito ou innito
de vezes.
Exemplo 6.1.9: Considere uma moeda no necessariamente honesta com probabilidade
de cara igual a p, onde 0 < p < 1. Se esta moeda for jogada um nmero innito de vezes de
maneira independente, qual a probabilidade da seqncia (cara, cara, coroa, coroa) aparecer
um nmero innito de vezes? Justique sua resposta.
Soluo: Seja Xi o resultado do i-simo lanamento da moeda. Dena o evento Ai =
{Xi = cara, Xi+1 = cara, Xi+2 = coroa, Xi+3 = coroa}, queremos calcular P (Ai innitas vezes).
Note que para todo i, temos P (Ai ) = p2 (1 p)2 > 0. No podemos aplicar diretamente o
lema de Borel Cantelli, pois os eventos Ai s no so independentes, visto que, por exemplo,
ambos A1 e A2 dependem de X2 , X3 , X4 . Considere a seguinte subseqncia da seqncia
de eventos (Ai ) tal que Bi = A4i3 . Como os eventos Bi s dependem de famlias disjuntas de variveis aleatrias independentes,
eles so independentes. Alm disso temos que
2
2
P (Bi ) = p (1 p) > 0. Logo,
i P (Bi ) = . Portanto, Borel-Cantelli implica que
P (Bi innitas vezes) = 1. Como (Bi ) uma subseqncia de (Ai ), temos que
[Bi intas vezes] [Ai innitas vezes].
Portanto, P (Ai innitas vezes) = 1.
6.2
6.2.1
92
Tipos de Convergncia
Vamos a seguir descrever vrios tipos de convergncia estocstica, ilustrando com exemplos
cada tipo de convergncia, e depois provaremos algumas relaes entre os vrios tipos de
convergncia. Sejam Y, Y1 , Y2 , . . . variveis aleatrias denidas em um mesmo espao de
probabilidade (, A, P ).
Convergncia Quase Certa
Denio 6.2.1: A seqncia de variveis aleatrias Y1 , Y2 , . . . converge quase certamente
(ou com probabilidade 1) para a varivel aleatria Y se
P ({w : lim Yn (w) = Y (w)}) = 1.
n
Notao: Yn Y cp1.
Ento se uma seqncia de variveis aleatrias Y1 , Y2 , . . . converge quase certamente para
Y no signica que para todo w , Yn (w) Y (w), apenas o que se sabe que a
probabilidade do evento D = {w : Yn (w) 9 Y (w)} nula. D chamado de conjunto de
exceo.
Exemplo 6.2.2: Considere uma varivel aleatria Z tal que P ({w : 0 |Z(w)| < 1}) = 1.
Seja Xn (w) = Z n (w), ento Xn (w) 0 cp1; note que o conjunto de exceo D = {w
: |Z(w)| 1} e que P (D) = 0.
Podemos obter uma denio alternativa para convergncia quase-certa, observando que,
pela denio de limite de sequncias de nmeros reais, para um dado w xo, temos que
limn Yn (w) = Y (w) se, e somente se, para todo k IN , existir N tal que para todo n N ,
temos |Yn (w) Y (w)| < k1 . Portanto:
1
}.
k
P ({w :
k=1 N =1 n=N |Yn (w) Y (w)| <
1
}) = 1.
k
P ({w :
k=1 N =1 n=N |Yn (w) Y (w)|
1
}) = 0.
k
Isto equivalente a:
Dena An,k = {w : |Yn (w) Y (w)| k1 }. Ento para cada k xo, temos que
93
Exemplo 6.2.3: Seja {Xn }n3 uma seqncia de variveis aleatrias independentes com
distribuio de probabilidade dada por:
P (Xn = 0) = 1
1
1
e P (Xn = n) =
, n 3.
log n
log n
1
.
log n
Logo,
n P (|Xn | > ) =
n log n = . Ento, o Lema de Borel-Cantelli implica que
P (|Xn | > innitas vezes) = 1, portanto com probabilidade 1, Xn 9 0.
Exemplo 6.2.4 : Considere {Xn : n 1} uma seqncia de variveis aleatrias i.i.d.
com funo de distribuio F. Suponha que F (x) < 1, para todo x < . Dena Yn =
max(X1 , X2 , . . . , Xn ). Vamos vericar que Yn cp1.
Inicialmente, observe que para cada , as variveis Yn formam uma seqncia nodecrescente de nmeros reais. Seja M um nmero real, temos
P (Yn M : n = 1, 2, . . .) P (Yn M : n = 1, 2, . . . , k) = P (Yk M )
= P (max(X1 , X2 , . . . , Xk ) M ) = P (X1 M, X2 M, . . . Xk M )
k
=
P (Xn M ) = F k (M ), k 1.
n=1
Notao: Yn r Y .
Se r = 2 este tipo de convergncia freqentemente chamado de convergncia em mdia
quadrtica.
94
n
Z,
n+1
nr
.
log n
Logo, Xn 9r 0.
O prximo teorema arma que se Xn r X, ento Xn s X para s < r.
Teorema 6.2.8: Se Xn r X, ento Xn s X para 0 < s < r
Prova: Dena p =
r
s
>1eq=
r
.
rs
Ento,
1 1
s rs
+ = +
= 1.
p q
r
r
Seja Z = |X|s e Y = 1. Com estas denies, a desigualdade de Hlder implica que
E|ZY | (E|Z|p )1/p (E|Y |q )1/q ,
ou seja,
E(|X|s ) (E|X|ps )1/p 1 = (E|X|r )s/r .
Substituindo X por Xn X, temos
E(|Xn X|s ) (E|Xn X|r )s/r .
Portanto, se limn E|Xn X|r = 0, ento limn E|Xn X|s = 0.
Convergncia em Probabilidade
Denio 6.2.9: A seqncia de variveis aleatrias Y1 , Y2 , . . . converge em probabilidade
para a varivel aleatria Y se > 0
lim P ({w : |Yn (w) Y (w)| > }) = 0.
Notao: Yn P Y .
A intuio por trs desta denio que para n muito grande a probabilidade de que Yn
e Y sejam bem prximas bastante alta.
Autor: Leandro Chaves Rgo
95
1
2
)+1= .
n
n
x2
n ny2
1
e 4 dy = 2 e 2 dx.
4
2
n
2
Notao: Yn D Y .
Exemplo 6.2.13: Seja {Xn : n 1} uma seqncia de variveis aleatrias independentes
com distribuio Uniforme em (0, b), b > 0. Dena Yn = max(X1 , X2 , . . . , Xn ) e Y = b.
Vamos vericar que Yn D Y . Temos
se y < 0,
0
y n
n
( ) se 0 y < b,
FYn (y) = P (max(X1 , X2 , . . . , Xn ) y) = FX1 (y) =
b
1
se y b.
Fazendo n tender ao innito, temos que
lim FYn (y) =
n
0 se y < b,
1 se y b,
96
Deve-se car atento que convergncia em distribuio no implica nada em relao aos
outros tipos de convergncia. Uma seqncia convergindo em distribuio para uma varivel
aleatria X tambm converge em distribuio para qualquer outra varivel aleatria Y tal
que FY = FX . O prximo exemplo serve para ilustrar melhor este fato.
Exemplo 6.2.14: Se uma seqncia de variveis aleatrias Y1 , Y2 , . . . independente e
identicamente distribuda de acordo com F , ento para todo n tem-se que FYn = F , logo
a seqncia converge em distribuio para qualquer varivel aleatria X tal que FX = F .
Claro, como a seqncia independente, os valores de termos sucessivos so independentes
e no exibem nenhum comportamento usual de convergncia.
O requisito de continuidade, mencionado na denio acima, se justica para evitar
algumas anomalias. Por exemplo, para n 1 seja Xn = n1 e X = 0, para todo . Parece
aceitvel que deveramos ter convergncia de Xn para X, qualquer que fosse o modo de
convergncia. Observe que
{
0 se x < n1 ,
Fn (x) =
1 se x n1 , e
{
0 se x < 0,
F (x) =
1 se x 0.
Portanto, como limn Fn (0) = 0 = F (0) = 1, no temos limn Fn (x) = F (x) para todo x IR.
Desse modo se houvesse a exigncia de convergncia em todos os pontos, no teramos
convergncia em distribuio. Entretanto, note que para x = 0, temos limn Fn (x) = F (x) e,
como o ponto 0 no de continuidade de F , conclumos que Xn D X.
Um exemplo mais complexo de convergncia em distribuio pode ser visto na anlise do
limite de
n
1
Sn =
(Xi EXi ),
n i=1
onde Xi s so variveis aleatrias independentes e identicamente distribudas. Neste, o Teorema Central do Limite arma que se V AR(Xi ) = 2 < , ento Sn converge em distribuio para qualquer varivel aleatria com distribuio N (0, 2 ).
O prximo teorema estabelece duas condies sucientes para que uma seqncia de
variveis aleatrias convirja em distribuio.
Teorema 6.2.15: Seja X, X1 , X2 , . . . uma seqncia de variveis aleatrias:
(a) Se X, X1 , X2 , . . . so variveis aleatrias discretas com P (Xn = xi ) = pn (i) e P (X =
xi ) = p(i), onde pn (i) p(i) quando n para todo i = 0, 1, 2, 3, . . ., ento
Xn D X.
(b) Se X, X1 , X2 , . . . so variveis aleatrias absolutamente contnuas com densidades dadas respectivamente por f, f1 , f2 , f3 , . . ., onde fn (x) f (x) quando n em quase
todo lugar, ento Xn D X.
97
FXn (x) =
pn (i)
p(i) = FX (x).
i:xi x
i:xi x
Onde a convergncia acima segue do Teorema da Convergncia Dominada, visto que FXn (x)
1, x IR.
A prova da parte (b) usa conceitos de Teoria da Medida e ser omitida.
O prximo exemplo mostra que se uma seqncia de variveis aleatrias discretas converge
em distribuio, no necessariamente sua funo probabilidade de massa converge.
Exemplo 6.2.16 : Sejam X, X1 , X2 , . . . variveis aleatrias tais que P (X = 0) = 1 e
P (Xn = 1/n) = 1. Ento, temos FX (x) = 1 se x 0, e FX (x) = 0 caso contrrio; e
FXn (x) = 1 se x 1/n e FXn (x) = 0 caso contrrio. Logo, FXn (x) FX (x), x = 0, ou
seja, Xn D X. Porm, p(0) = 1 = 0 = limn pn (0).
O prximo exemplo mostra que se uma seqncia de variveis aleatrias absolutamente
contnuas converge em distribuio, no necessariamente sua funo densidade de probabilidade converge.
Exemplo 6.2.17 : Considere uma seqncia de variveis aleatrias X, X1 , X2 , . . . com
funo de distribuio acumuladas dadas respectivamente por F, F1 , F2 , F3 , . . ., onde
0
, se x 0
sen
2nx
x(1 2nx ) , se 0 < x 1
Fn (x) =
1
, se x > 1;
e
, se x 0
0
x , se 0 < x 1
F (x) =
1
, se x > 1.
e
f (x) =
1 , se 0 < x 1
0 , caso contrrio.
6.2.2
98
A primeira relao que iremos provar que convergncia quase certa implica convergncia
em probabilidade.
Teorema 6.2.18: Xn X cp1 Xn P X.
Prova: Para provar que convergncia quase certa implica em convergncia em probabilidade,
considere a seguinte famlia de eventos
An, = {w : |Xn (w) X(w)| }.
Logo, pela interpretao de convergncia pontual,
C = {w : Xn (w) X(w)} = >0
N =1 nN An, .
Se Xn X cp1, ento P (C) = 1. Equivalentemente, pela Lei de De Morgan,
c
D = C c = >0 D , onde D =
N =1 nN An, ,
e
P (>0 D ) = 0.
Portanto, convergncia quase certa implica que > 0, P (D ) = 0. Seja FN = nN Bn .
Note que FN . Logo, limN FN =
N =1 nN Bn . Portanto, pelo axioma da continuidade
monotnica da probabilidade, tem-se que
P (
N =1 nN Bn ) = lim P (nN Bn ).
N
Ento,
0 = P (D ) = lim P (nN Acn, )
N
Portanto, Xn P X.
O prximo teorema prova que convergncia na r-sima mdia implica convergncia em
probabilidade.
Teorema 6.2.19: Xn r X Xn P X.
Prova: Primeiro note que
|Xn X|r
r
|Xn X|r
E(
) E(I{w:|Xn X|>} ),
r
ou seja,
E(|Xn X|r )
P ({w : |Xn X| > }).
r
Autor: Leandro Chaves Rgo
99
ou seja, Xn P X.
O prximo exemplo prova que nem convergncia em probabilidade, nem convergncia na
r-sima mdia implicam convergncia quase certa.
Exemplo 6.2.20: Seja X uma varivel aleatria com distribuio uniforme no intervalo
[0, 1], e considere a seqncia de intervalos denida por
I2m +i = [
i i+1
,
],
2m 2m
para m = 0, 1, 2, . . . e i = 0, 1, . . . , 2m 1.
Note que tem-se 2m intervalos de comprimento 2m que cobrem todo o intervalo [0, 1], e
o comprimento dos intervalos ca cada vez menor tendendo a 0. Denamos
{
1 se X(w) In ,
Yn (w) =
0 se X(w)
/ In .
A seqncia Y1 , Y2 , . . . converge em probabilidade para 0, pois para 0 < 1,
P (|Yn | ) = P (Yn = 1) = P (X In ),
e esta probabilidade, que igual ao comprimento de In , converge para zero quando n .
Esta seqncia tambm converge na r-sima mdia para todo r > 0, visto que E(|Yn |r ) =
P (Yn = 1) 0 quando n . Logo, Yn converge na r-sima mdia para 0.
Porm para todo w , Yn (w) = 1 para um nmero innito de ns e Yn (w) = 0 para
um nmero innito de ns. Portanto, Yn (w) no converge para todo w, o que implica que Yn
no converge quase certamente.
O prximo teorema estabelece mais uma relao entre convergncia quase certa e convergncia em probabilidade.
Teorema 6.2.21: Xn P X se, e somente se, toda subseqncia {Xnk } possui uma outra
subseqncia {Xnk(i) } tal que Xnk(i) X cp1 para i .
Prova: Suponha que Xn P X, ento dada qualquer subseqncia {Xnk }, escolha uma
outra subseqncia {Xnk(i) } tal que j k(i) implica que P (|Xnj X| i1 ) < 2i . Em
particular, temos que P (|Xnk(i) X| i1 ) < 2i . Seja Ai = {|Xnk(i) X| i1 },
i
100
em probabilidade, logo pelo Teorema 6.2.18, nenhuma subseqncia converge para X quase
certamente.
O prximo exemplo mostra que convergncia em probabilidade no implica convergncia
na r-sima mdia
Exemplo 6.2.22: Seja X uma varivel aleatria com distribuio uniforme no intervalo
[0, 1]. Considere a seguinte seqncia de varveis aleatrias
{ n
2 se X(w) (0, n1 ),
Yn (w) =
0 se X(w)
/ (0, n1 ).
Ento, P (|Yn | > ) = P (X(w) (0, n1 )) =
1
n
P (|Yn | > )
n=1
n2 < .
n=1
Ento, Borel-Cantelli implica que |Yn | > innitas vezes com probabilidade 0, o que por sua
vez implica que Yn 0 com probabilidade 1, ou seja, Yn 0 cp1. Porm,
enr
E|Yn | = 2 ,
n
r
101
102
6.3
103
convergncia em cada uma das variveis que compe o vetor aleatrio. Dessa forma, o caso
multidimensional pode ser estudado a partir de repetidas aplicaes do caso univariado.
Para convergncia em distribuio de vetores aleatrios, requeremos que a funo de
distribuio conjunta Fn (x) convirja para F (x), em todos os pontos de continuidade da
funo F . Entretanto, lembremos que da funo de distribuio conjunta podemos obter as
marginais, mas o caminho inverso nem sempre possvel. Por essa razo, diferentemente das
convergncias quase certa e em probabilidade, no podemos reduzir o estudo da convergncia
em distribuio de vetores aleatrios, ao comportamento das suas respectivas coordenadas.
No temos equivalncia, mas apenas implicao, em uma das direes. Ou seja, se o vetor
converge em distribuio ento cada componente tambm converge em distribuio, para a
correspondente marginal da funo de distribuio limite. Entretanto a recproca no em
geral, verdadeira.
Captulo 7
Funes Caractersticas
7.1
Motivao
7.2. DEFINIO
105
se estivssemos com funes reais (trata-se i como se fosse uma constante real).
7.2
Denio
X (t) =
eitxk p(xk ),
k
7.2.1
Propriedades
7.2. DEFINIO
106
P3. X (t) = X (t), onde c o complexo conjugado de c. (Se c = x + iy, o seu complexo
conjugado c = x iy.)
Prova: X (t) = E cos(tX) + iE sen(tX) = E cos(tX) iE sen(tX) = X (t).
P4. X uniformemente contnua na reta.
Prova: Uma funo uniformemente contnua, se para todo > 0 existe > 0 tal
que para todo t, s R |(t) (s)| < quando |t s| < . Logo,
|(t) (s)| = |E(eitx eisx )| E|eisx (ei(ts)x 1)| = E|ei(ts)x 1|.
Seja h(u) = |eiux 1|. Como 0 |eiux 1| 2, 2 integrvel, e limu0 h(u) = 0, pelo
teorema da convergncia dominada, temos que limu0 Eh(u) = 0. Ento, para todo
> 0 existe > 0 tal que |u| < implica que Eh(u) < , ou seja, para todo > 0
existe > 0 tal que |t s| < implica que |(t) (s)| E|ei(ts)x 1| < .
P5. Se X e Y so independentes, ento X+Y (t) = X (t) Y (t), t R.
Prova: X+Y (t) = Eeit(X+Y ) = E(eitX eitY ) = E(eitX )E(eitY ) = X (t) Y (t).
fcil provar por induo
n que se X1 , . . . , Xn so variveis aleatrias independentes,
ento X1 +...+Xn (t) = k=1 Xk (t), t R.
P6. A varivel aleatria X tem distribuio simtrica em torno de 0 se, e somente se, X (t)
real para todo t R.
Prova: X simtrica em torno de 0 se e somente se P (X x) = P (X x), x R.
Como X x X x, ns temos que FX = FX , ou seja, X = X . Como
X (t) = Eeit(X) = Eei(t)X = X (t) = X (t).
Ento, X simtrica em torno de 0 se e somente se X (t) = X (t), ou seja, se X (t)
real para todo t R.
(k)
P7. Se E|X|n < , ento X (0) = ik EX k para k {1, . . . , n}, de modo que a funo
caracterstica uma espcie de funo geradora de momentos.
Prova: Suponhamos que X seja integrvel; queremos provar que X (t) = E(iXeitX ).
X (t)
Note que para h = 0, temos X (t+h)
= E(eitX (e h 1) ). Como (e h1) ix
h
quando h 0 (regra de LHopital), x R, temos que o resultado decorre se pudermos
trocar a ordem do limite e da esperana. Mas como para todo x,
h
h isx
isx
ixe
ds
e ds
eihx 1
|=| 0
| = |x| | 0
| |x|.
|
h
h
h
ihX
ihx
(eihX 1)
| |X|.
h
Autor: Leandro Chaves Rgo
7.2. DEFINIO
107
X (t) = lim
X (tj tk )zj zk 0,
j=1 k=1
X (tj tk )zj zk
j=1 k=1
n
n
=
=
j=1 k=1
n
n
E(eiX(tj tk ) )zj zk
E(zj eiX(tj ) zk eiXtk )
j=1 k=1
n
n
zj eiX(tj ) zk eiXtk )
= E(
j=1 k=1
n
= E[(
iX(tj )
zj e
j=1
zk eiXtk )]
)(
k=1
n
n
iX(tj )
zk eiXtk )]
= E[(
zj e
)(
= E(|
j=1
n
k=1
zj eiX(tj ) |2 ) 0
j=1
7.2. DEFINIO
108
Teorema 7.2.3: Seja X uma varivel aleatria qualquer, ento sua funo caracterstica
X (t) determina a funo de distribuio de X, atravs da seguinte Frmula de Inverso:
c iat
1
e
eibt
ei(aX)t ei(bX)t
dt
it
c
c
1
1
=
[cos((X a)t) + i sen((X a)t) cos((X b)t) i sen((X b)t)]dt
2 c it
1 c sen((X a)t)
1 c sen((X b)t)
=
dt
dt
0
t
0
t
1 c(Xb) sen(u)
1 c(Xa) sen(u)
du
du
=
0
u
0
u
= g(c(X a)) g(c(X b)),
1
2
7.2. DEFINIO
109
w sen(u)
du, w IR. Logo, temos
u
0
Ento,
lim Int(c) = E[ lim g(c(X a)) g(c(X b))] = EY.
bc
7.2. DEFINIO
110
1
Exemplo 7.2.5: Se X (t) = 1+t
2 , calcule V arX.
Soluo: Diferenciando X , temos X (t) =
2(1+t2 )2 +2t(2(1+t2 )2t)
.
(1+t2 )4
2
2
X (t) =
Portanto, EX =
Logo, V arX = EX (EX) = 2.
2t
.
(1+t2 )2
X (0)
i
= 0 e EX 2 =
X (0)
i2
= (2) = 2.
Exemplo 7.2.6: Seja (t) = cos(at), onde a > 0. Mostraremos que funo caracterstica, achando a distribuio correspondente. J que assume valores reais, se fosse
funo caracterstica de alguma varivel aleatria X, ento por P6, X possuiria distribuio
simtrica em torno de zero. Com efeito teramos cos(at) = (t) = E cos(tX), pois a parte
imaginria seria nula. Como cos(at) = cos(at), evidente que uma distribuio simtrica
concentrada nos dois pontos a e a corresponderia a funo caracterstica . Portanto,
funo caracterstica de X, se, e somente se, P (X = a) = 1/2 = P (X = a).
Exemplo 7.2.7: Sejam X1 e X2 duas variveis aleatrias i.i.d. e seja Y = X1 X2 . Qual
a funo caracterstica de Y ?
Soluo: Seja a funo caracterstica de X1 e X2 . Por P8 e P3, temos que X2 (t) =
(t) = (t). Ento, como X1 e X2 so independentes, por P5, temos que
Y (t) = (t)X2 (t) = |(t)|2 .
Teorema 7.2.8: Uma funo contnua : R C com (0) = 1 funo caracterstica de
alguma varivel aleatria se, e somente se, ela for positiva denida.
Prova: Conforme propriedades j demonstradas, se for funo caracterstica, contnua,
positiva denida e aplicada em 0, resulta o valor 1. A prova da recproca ser omitida.
7.2.2
n=0
eitn e
n
(eit )n
it
= e
= e(e 1) .
n!
n!
n=0
1
Uniforme. Suponhamos que X U nif orme(a, a). Ento, fX (x) = 2a
para a < x < a,
e fX (x) = 0 caso contrrio. Logo, se t = 0, ento X (0) = 1, e para t = 0,
a itx
1 eita eita
sen(ta)
e
itX
dx = (
)=
.
X (t) = Ee =
2a
it
ta
a 2a
111
2
(xit)2
t2
t2
1
1
itx x
2
2
X (t) =
e e dx = e
e 2 dx = e 2 ,
2
2
onde esta ltima integral pode ser calculada utilizando o Teorema de Cauchy tendo em vista
z 2
que e 2 uma funo analtica no plano complexo.
Exponencial. Suponhamos que X Exp(). Ento,
itx
x
X (t) =
e e dx =
ex(+it) dx = [
0
ex(+it) ]
.
0 =
+ it
it
)=
E(eitXj ) = en(e
it 1)
j=1
7.3
Nosso objetivo nesta seo provar que Xn D X se, e somente se, Xn (t) X (t), t
R. Antes de provarmos a necessidade desta armao, considere a seguinte denio de
convergncia de funes de distribuio.
Denio 7.3.1: Seja X, X1 , X2 , . . . uma seqncia de variveis aleatrias com funes de
distribuio acumuladas dadas respectivamente por F, F1 , F2 , . . .. Diz-se que Fn converge
fracamente para F , se Xn D X.
Teorema 7.3.2: Teorema de Helly-Bray. Sejam F, F1 , F2 , . . . funes de distribuio.
Se Fn converge fracamente para F , ento
b
b
b
b
112
a
a
III = |
gdF gdF | = |
gdF +
gdF | |
gdF | + |
gdF |
a
b
a
a
|g|dF +
|g|dF
cdF +
cdF = c(F (a) + 1 F (b))
Logo, para qualquer > 0, podemos escolher a sucientemente pequeno e b sucientemente grande tal que III < , pois limx F (x) = 0 e limx F (x) = 1. Para esses valores
de a e b, e para n sucientemente grande, como a e b so pontos de continuidade de F , e
como Fn converge fracamente para F , temos que I c(Fn (a) + 1 Fn (b)) < 2.
Consideremos agora II. Sejam a e b os pontos j escolhidos. J que g uniformemente
contnua em [a, b],1 podemos escolher x0 , x1 , . . . , xN tais que a = x0 < x1 < . . . < xN = b,
onde xi so pontos de continuidade de F e |g(x) g(xi )| < para todo x [xi , xi+1 ],
i {0, . . . , N 1}. Ento,
xi+1
g(x)dFn (x) (g(xi )+)(Fn (xi+1 )Fn (xi )) = Mni
mni = (g(xi ))(Fn (xi+1 )Fn (xi ))
xi
xi+1
xi
Portanto,
mni Mi
xi+1
xi+1
g(x)dFn (x)
xi
xi
(mni Mi )
g(x)dFn (x)
a
i=0
g(x)dF (x)
a
N
1
(Mni mi ).
i=0
(mni Mi )
i=0
N
1
i=0
N
1
i=0
(Mni mi )
N
1
i=0
N 1
1
(mi Mi )| <
(mni Mi ) i=0
Como para n sucientemente grande temos que | N
N 1
i=0
N 1
N 1
N 1
(Mni
e | i=0 (Mni mi ) i=0 (Mi mi )| < , segue que i=0 (mni Mi ) 3 e i=0
1
Uma funo g uniformemente contnua em [a, b] se para todo > 0, existe > 0 tal que para todo
x, y [a, b] se |x y| < , ento |g(x) g(y)| < . fcil provar que toda funo contnua em um intervalo
fechado uniformemente contnua neste intervalo.
113
m
i ) 3. Ento, para n sucientemente grande, temos que II 3. Portanto, |
gdF | 6 para n grande o suciente.
gdFn
F2
F21
F22
F23
..
.
F3
F31
F32
F33
..
.
F4
F41
F42
F43
..
.
..
.
Nesta matriz temos que a seqncia (F1j , F2j , F3j , . . .) contida na (j + 1)-sima linha da
matriz uma subseqncia da seqncia contida na j-sima linha que converge no racional
rj , para j 1. Note que como a seqncia (F1j1 (rj ), F2j1 (rj ), F3j1 (rj ), . . .) uma seqncia
limitada de nmeros reais, ela possui uma subseqncia convergente; logo pode-se escolher a
Autor: Leandro Chaves Rgo
114
seqncia (F1j , F2j , F3j , . . .) indutivamente conforme descrito acima. Seja Fnj = Fjj , para j
1, ento temos que a subseqncia (Fnj )j converge em todos os racionais da reta. Chamemos
o limite de F (rk ), de modo que Fnj (rk ) F (rk ), k. bvio que 0 F (rk ) 1 e que F no
decrescente nos racionais. Denamos F em x irracional por F (x) = limrx,r rational F (r).
F assim denida no-decrescente, mas no necessariamente contnua direita. Vamos
provar que Fnj (x) F (x) para todo ponto x de continuidade de F . Suponha que x um
ponto de continuidade de F e sejam r e r racionais tais que r < x < r e F (r ) <
F (x) < F (r ) + . Ento,
F (x) < F (r ) = lim Fnj (r ) lim inf Fnj (x)
j
t
itx
e 1
dF (x) =
eisx dF (x)ds
ix
itx
Como nj (t) (t), contnua em zero, implica que limitada e mensurvel, ento
pelo teorema da convergncia dominada, tem-se que
t
t
nj (s)ds
(s)ds.
0
1 t isx
1 t
e dF (x)ds, t = 0.
(s)ds =
t 0
t 0
Fazendo t 0 e usando a continuidade em s = 0 das duas funes (s) e
tem-se
(0) =
1dF (x) = F () F ().
eisx dF (x),
115
npn (eit 1) n
it
) e(e 1) ,
n
onde a expresso nal a funo caracterstica de uma varivel aleatria P oisson(). Portanto, pelo Teorema da Continuidade, Xn D Y .
7.4
Xi ,
i=0
116
onde N uma varivel aleatria inteira e no negativa, e assume-se que ela independente das
parcelas Xi . Por exemplo, N pode ser o nmero de clientes, pacotes ou trabalhos chegando
em uma la em um dado intervalo de tempo e Xi pode ser o tempo necessrio para nalizar o
i-simo trabalho. S ento seria o tempo total do servio. Em nossas aplicaes assumiremos
que N = 0 signica que S = 0, ou seja, X0 = 0 com funo caracterstica X0 (u) = 1.
Sabemos que ES = E[E(S|N )] e que
E(S|N = n) =
E(Xi |N = n).
i=0
EXi .
i=0
E(e
n
n
itXi
|N = n) = E( e |N = n) =
Xi (t).
i=0
Logo,
S (t) =
i=0
P (N = n)
n=0
Xi (t).
i=0
Se as parcelas {X1 , X2 , . . .} forem tambm identicamente distribudas com funo caracterstica X , ento
S (t) =
P (N = n)nX (t),
n=0
0X
N (t) =
P (N = n)eitn =
n=0
P (N = n)[eit ]n .
n=0
117
Xi ,
i=0
it 1)
. Substituindo temos:
it +(1p)1)
= e(pe
= ep(e
it 1)
7.5
tj Xj ).
j=1
118
Xkpk )
1 p X (t)
= p p1
| .
i t1 tpnn t=0
2 X1 ,X2 (t1 , t2 )
|t1 =t2 =0 .
t1 t2
Tambm fcil analisar o comportamento da funo caracterstica multivariada de transformaes lineares de vetores aleatrios em analogia a propriedade P8. (Assumiremos que um
k-dimensional uma matriz coluna com dimenso k 1. Deste modo t X
= (t)T X.)
vetor X
+ b, ento
Por exemplo, seja Y = AX
T
T
Y (t) = Eei(t) Y = Eei(t) (AX+b)
T
= E(ei(t) b ei(A
t)T X
onde utilizamos o fato que (AB)T = BT AT e que ei(t) b no aleatrio e pode sair fora da
operao de esperana.
Assim como fcil obter a distribuio marginal dada uma distribuio conjunta de
variveis aleatrias, tambm fcil obter a funo caracterstica de qualquer distribuio
marginal. Para isso basta fazer todos os termos extras iguais a zero na funo caracterstica
multivariada. Por exemplo, para as variveis aleatrias X, Y, e Z, temos Eei(xX+yY ) =
Eei(xX+yY +0Z) , ou seja, X,Y (x, y) = X,Y,Z (x, y, 0), (x, y) IR2 .
Como no caso unidimensional, temos convergncia em distribuio se, e somente se, as
funes caractersticas convergem.
n D X
se, e somente se, (t) (t), t IRk .
Teorema 7.5.3: X
Xn
X
Prova: Omitida.
O prximo teorema mostra que convergncia em distribuio de vetores aleatrios
equivalente convergncia em distribuio de todas as combinaes lineares das coordenadas.
n = (Xn1 , Xn2 , . . . , Xnk ) e X
= (X1 , . . . , Xn )
Teorema 7.5.4: Cramr-Wold. Sejam X
n X
se, e somente se, k tj Xnj D
vetores aleatrios k-dimensionais. Ento, X
j=1
k
k
t
X
,
para
todo
(t
,
.
.
.
,
t
)
I
R
.
1
k
j=1 j j
Autor: Leandro Chaves Rgo
j=1 tj Xnj
119
j=1 tj Xj , (t1 , . . . , tk ).
Ento,
j=1
n D X.
Para (t1 , . . . , tk ) IRk , queremos provar que k tj Xnj D
Agora suponha que X
j=1
k
k
k
(t),
t
IR. Mas,
(t)
t
X
.
Para
tanto,
basta
provarmos
que
j=1 j j
j=1 tj Xj
j=1 tj Xnj
utilizando novamente o Teorema da Continuidade de Levy, temos que
k
(t)
j=1 tj Xnj
= Eeit
j=1 tj Xnj
= Eei
j=1 tj Xj
(t)
j=1
7.6
120
Denio 7.6.1: Uma funo geratriz de momento FX (t) de uma varivel aleatria X com
funo de distribuio FX existe se,
FX (t) := EetX < , t I,
onde I um intervalo contendo 0 no seu interior.
O problema de utilizar funes geratrizes de momento que elas nem sempre existem. Por
exemplo, a funo geratriz de momento de uma varivel aleatria com distribuio de Cauchy
no existe. Pode-se provar que a existncia da funo geratriz de momento equivalente a
cauda da distribuio de X ser limitada exponencialmente, ou seja, P (|X| > x) Kecx ,
para algum K > 0 e c > 0. Se a funo geratriz de momento existe, pode-se provar que ela
tambm determina a funo de distribuio.
7.7
Teorema de Slutsky
121
Teorema 7.7.2: Considere {Xn : n 1}, {Yn : n 1} e X variveis aleatrias tais que
valem as convergncias Xn D X e Yn P c, com c constante. Ento,
(i) Xn + Yn D X + c;
(ii) Xn Yn D cX;
(iii) Se c = 0,
Xn
Yn
X
,
c
) > 1 3.
M
Autor: Leandro Chaves Rgo
122
Como x < Xn y e |Yn | < M implicam |Xn Yn | < , temos P (|Xn Yn | < ) > 1 3 para
n grande o suciente. Portanto, para todo > 0, P (|Xn Yn | < ) 1, ou seja, Xn Yn P 0.
Agora consideremos o caso c geral. Como Xn Yn = cXn + (Yn c)Xn e Yn c P 0. Pelo
caso c = 0, temos que (Yn c)Xn P 0. Alm disso como cx uma funo contnua, temos
cXn D cX. Como Xn Yn a soma de dois termos, o primeiro dos quais converge para
cX em distribuio, e o segundo para zero em probabilidade, o resultado conseqncia da
parte (i).
Prova de (iii): Como 1/x contnua para x = 0, temos que 1/Yn P 1/c. Agora, basta
aplicar o tem (ii).
Captulo 8
Lei dos Grandes Nmeros
8.1
Motivao
Entre outras coisas, a Lei dos grandes Nmeros nos permite formalizar a idia que medida
que o nmero de repeties de um experimento cresce, a freqncia relativa fA de algum
evento A converge (quase certamente) para a probabilidade terica P (A). este fato que nos
permite estimar o valor da probabilidade de um evento A, baseado na freqncia relativa de
A em um grande nmero de repeties de um experimento. tambm este fato que justica
a intuio que temos que eventos com probabilidade prximas de 1, quase sempre ocorrem;
e que eventos com probabilidade prximas de 0 quase sempre no ocorrem.
Por exemplo, se uma nova pea for produzida e no tivermos conhecimento anterior
sobre quo provvel ser que a pea seja defeituosa, poderemos proceder inspeo de um
grande nmero dessas peas, digamos N , contarmos o nmero de peas defeituosas dentre
elas, por exemplo n, e depois empregarmos n/N com uma aproximao da probabilidade de
que uma pea seja defeituosa. O nmero n/N uma varivel aleatria, e seu valor depende
essencialmente de duas coisas. Primeira, o valor de n/N depende da probabilidade bsica,
mas desconhecida, p de que uma pea seja defeituosa. Segunda, depende daquelas N peas
que tenham sido inspecionadas. O que a Lei dos Grandes Nmeros mostra que se a tcnica
de selecionar as N peas for aleatria, ento o quociente n/N convergir quase certamente
para p. (Evidentemente, a seleo das N peas importante. Se fssemos escolher somente
aquelas peas que exibissem algum defeito fsico externo, por exemplo, poderamos prejudicar
seriamente nossos clculos.)
Mais formalmente, considere um experimento bsico, com a varivel aleatria X representando o valor de um caracterstico numrico do resultado (no caso anterior, temos que
X seria a funo indicadora do evento A). Pensemos na realizao deste experimento N
vezes (N grande), de tal maneira que as realizaes sejam independentes. Suponhamos que
depois de cada realizao do experimento registre-se o valor do caracterstico numrico do
resultado; chamemos este um valor observado. A Lei dos Grandes Nmeros arma que a
mdia aritmtica dos n valores observados converge, em certo sentido, para a mdia EX,
quando N .
Vamos agora construir um modelo para o experimento repetido que apresentamos acima.
Para experimentos dessa natureza, um resultado possvel uma seqncia de N resultados
123
8.1. MOTIVAO
124
todo i; e a probabilidade produto tal que P (A1 A2 ) = i=1 Pi (Ai ); pode-se provar que existe uma
nica medida de probabilidade em A que satisfaz esta condio.
1
8.2
125
Na seo anterior, motivamos o resultado da Leis dos Grandes Nmeros para variveis aleatrias independentes e identicamente distribudas. Nesta seo, analisaremos duas verses
da Lei Fraca dos Grandes Nmeros, na primeira delas no necessrio assumir que as variveis aleatrias so identicamente distribudas. Vamos usar a desigualdade de Chebyshev
para provar a Lei Fraca dos Grandes Nmeros de Chebyshev.
Teorema 8.2.1: Lei Fraca de Chebyshev Sejam X1 , X2 , . . . variveis aleatrias independentes 2 a 2 com varincias nitas e uniformemente limitadas (ou seja, existe c nito
tal que para todo n, V arXn c). Ento, X1 , X2 , . . . satisfazem a Lei Fraca dos Grandes
Nmeros:
Sn ESn P
0.
n
Prova: Precisamos provar que para todo > 0,
P(
|Sn ESn |
) 0 quando n .
n
V ar(Xi ) nc.
i=1
V ar(Sn )
c
2 0.
2
2
n
n
Corolrio 8.2.2: Lei Fraca dos Grandes Nmeros de Bernoulli. Consideremos uma
seqncia de ensaios binomiais independentes, tendo a mesma probabilidade p de sucesso
em cada ensaio. Se Sn o nmero de sucessos nos primeiros n ensaios, ento
Sn P
p
n
Prova: Seja Xn = 1 se o n-simo ensaio sucesso, Xn = 0 caso contrrio. Ento, X1 , X2 , . . .
so i.i.d. e integrveis com mdia = p. Como V arXn = p(1 p), a Lei Fraca de Chebyshev
implica que Sn np
P 0, ou, equivalentemente, Snn P p.
n
Podemos utilizar a Lei Fraca dos Grandes Nmeros para responder a seguinte questo:
quantas repeties de um experimento devemos realizar a m de termos uma probabilidade
ao menos 0, 95 para que a freqncia relativa dira de p = P (A) por menos do que, digamos,
126
p(1 p)
,
n(0, 01)2
p(1p)
p(1p)
ou seja, queremos que n(0,01)
2 0, 05, o que equivalente a n 0,05(0,01)2 . Substituindo os
valores especcos de 0, 05 e 0, 01 por e , respectivamente, teremos
p(1 p)
.
()2
1 2
1
1 2
X
Xi 2X
Xi +
n i=1
n i=1
n i=1
n
1 2
2
=
Xi X
n i=1
n
127
e
X P E(Xi ) = .
Como funes contnuas preservam convergncia, temos que
2
X P 2 .
Logo, temos que
1 2 2
(
X , X ) P ( 2 + 2 , 2 ).
n i=1 i
n
8.3
Antes de iniciarmos a prova da Lei Forte dos Grandes Nmeros, vamos provar uma extenso
da desigualdade de Chebyshev.
Lema 8.3.1: Sejam X1 , . . . , Xn variveis aleatrias independentes tais que EXk = 0 e
V arXk < , k = 1, . . . , n. Ento, para todo > 0,
n
1
1
P ( max |Sk | ) 2 V arSn = 2
V arXk ,
1kn
k=1
onde Sk = X1 + . . . + Xk .
Prova: Queremos uma cota superior para P (max1kn Sk2 2 ). Para tanto, seja A =
[max1kn Sk2 2 ]. Vamos decompor A conforme a primeira vez que Sk2 2 , denamos:
A1 = [S12 2 ],
A2 = [S12 < 2 , S22 2 ],
2
Ak = [S12 < 2 , . . . , Sk1
< 2 , Sk2 2 ], para 2 k n.
Sn2 IA
k=1
Sn2 IAk
ESn2
ESn2 IAk .
k=1
128
Queremos substituir Sn2 por Sk2 no somatrio (pois Sk2 2 em Ak , e no vale necessariamente Sn2 2 ); o truque escrever
Sn2 = (Sn Sk )2 + Sk2 + 2(Sn Sk )Sk Sk2 + 2(Sn Sk )Sk .
Portanto,
ESn2 IAk ESk2 IAk + 2E((Sn Sk )Sk IAk ).
Como Sn Sk = Xk+1 + . . . + Xn e Sk IAk depende s de X1 , . . . , Xk , as duas so funes de
famlias disjuntas de variveis independentes, logo so independentes e a esperana fatora:
E((Sn Sk )Sk IAk ) = E(Sn Sk )E(Sk IAk ).
Como E(Sn Sk ) = 0, temos
ESn2 IAk ESk2 IAk E2 IAk = 2 P (Ak ).
Portanto,
ESn2
2 P (Ak ) = 2 P (A),
k=1
logo
P (A)
1
1
ESn2 = 2 V arSn .
2
V arXn
n=1
n2
< .
0 quase certamente.
n
n
Prova: Suponhamos sem perda de generalidade que EXn = 0, n. Queremos mostrar que
Sn
0 cp1, onde Sn = X1 + . . . + Xn . Para tanto, basta mostrar que
n
Mn =
maxn+1
n
2 <k2
|Sk |
0 cp1 quando n .
k
1
(i)
n=1 P (Mn m ) < , m = 1, 2, . . .; e
(ii) Mn 0 cp1.
Autor: Leandro Chaves Rgo
129
1
2
P (An ) m
V ar(Xk )) = m
( n
4 k=1
n=1
n=1
k=1
= m2
V ar(Xk )
1
n:2n+1 k ( 4n )
n:2n+1 k
k=1
Como
n+1
16
,
3k2
n:2n+1 k
1
],
m
ento
1
V ar(Xk )) =
4n
1
).
4n
temos
16m2 V ar(Xk )
P (An )
< .
3 k=1
k2
n=1
Para (ii), note que por Borel-Cantelli, tem-se P (An inntas vezes) = 0. Logo, para todo
m, a probabilidade 1 de que Mn assuma um valor m1 para somente um nmero nito
de ns. Seja Bm o evento Mn assuma um valor m1 para somente um nmero nito de
ns, ento P (Bm ) = 1, m, o que implica que P (
m=1 Bm ) = 1, e (ii) resulta da equivalncia
V arXn n
=
< .
n2
n2
n=1
n=1
Logo, a primeira Lei Forte de Kolmogorov implica que
EX1 + + EXn
0 cp1, ou seja
n
1 + 2 + + n
0 cp1.
X
n
Pelo teste da integral, pode-se vericar que
X
1+
2n3/2
2 + + n
.
3
Autor: Leandro Chaves Rgo
130
1 + 2 + + n
2n1/2
.
n
3
Logo, X cp1.
Antes de enunciarmos e provarmos a Segunda Lei Forte de Kolmogorov, considere o
seguinte lema:
Lema 8.3.4 :
Ento,
1
( 2
x2 dF (x)) < .
n n
n=1
2
j
n
2
x dF (x) =
n
1
n=j n2
para j = 1, 2, . . .. Como
j
x2 dF (x),
j1
j=n+1
temos
n
j
1
1
2
( 2
x dF (x)) =
( 2
x2 dF (x)) =
n
n
n
j1
n=1
n=1 j=n+1
j
j
n
1
1
2
=
( 2
x dF (x)) +
( 2
x2 dF (x))
n j1
n j1
n=1 j=1
n=1 j=n+1
j
j
1
1
2
=
( 2
( 2
x dF (x)) +
x2 dF (x))
n
n
j1
j1
j=1 n=j
j=
2
j=1
Como
x2
j
j1
x2
dF (x) + 2
j
j=
x em (j 1, j], para j 1, e
n=|j|+1
j1
x2
|j|+1
x2
dF (x).
|j| + 1
n
j
j
0
1
2
( 2
x dF (x)) 2
xdF (x) + 2
|x|dF (x) =
n
n
j1
j1
n=1
j=1
j=
j
=2
|x|dF (x) = 2
|x|dF (x) = 2E|X| < .
j=
j1
131
Teorema 8.3.5: Sejam X1 , X2 , . . . variveis aleatrias independentes, identicamente distribudas e integrveis, com EXn = . Ento,
X1 + . . . + Xn
quase certamente.
n
Prova: Suponhamos sem perda de generalidade que = 0. Vamos truncar as variveis Xn ,
denamos Yn = Xn I[n<Xn n] . Seja Zn = Xn Yn , de modo que
X1 + . . . + Xn
Y1 + . . . + Yn Z1 + . . . + Zn
=
+
.
n
n
n
A prova ter trs partes:
(a)
(b)
(c)
Z1 +...+Zn
n
n
EY1 +...+EY
0 quase certamente (usaremos a Primeira Lei Forte e o
n
Lema 8.3.4); e
Y1 +...+Yn
n
EY1 +...+EYn
n
fcil ver que (a), (b), e (c) implicam o teorema. Para provar (a), note que Zn = 0
Yn = Xn Xn
/ (n, n]. Logo,
P (Zn = 0) = P (Xn
/ (n, n]) P (|Xn | n).
Mas os eventos An = [Zn = 0] satisfazem
n=1
P (An )
n=1
P (|Xn | n) =
n=1
V ar(Yn )
n=1
n2
132
x2 dF (x) < ,
2
n n
n=1
onde a ltima desigualdade decorre do Lema 8.3.4. Portanto, (b) decorre da primeira Lei
Forte de Kolmogorov.
Para provar (c), suciente mostrar que EYn 0. Mas,
EYn = E(Xn I[n<Xn n] ) = E(X1 I[n<X1 n] ) EX1 = 0,
pelo teorema da convergncia dominada que se aplica pois |X1 | domina X1 I[nX1 n] s e
integrvel.
Exemplo 8.3.6 : As variveis Xn , n 1, so independentes e todas tm distribuio
Exponencial de parmetro . Mostre que a seqncia {Xn2 : n 1} satisfaz a Lei Forte dos
Grandes Nmeros.
Soluo: De acordo com a Segunda Lei Forte de Kolmogorov, precisamos mostrar que
EXn2 nita para todo n. Como EXn2 = V arXn + (EXn )2 = 22 < , temos que a seqncia
{Xn2 : n 1} satisfaz a Lei Forte dos Grandes Nmeros.
i.i.d., seguindo o
Exemplo 8.3.7: Seja {Xn : n 1} uma seqncia de variveis aleatrias
1
modelo Uniforme contnuo em (0, 1). Calcule o limite, quase certo, para n nk=1 ( log(Xk ))
quando n .
Soluo: Vamos tentar usar a Lei Forte dos Grandes Nmeros. Para isso, precisamos
calcular E( log Xk ).
1
1
1
E( log Xk ) =
log xdx = x log x|0 +
dx = 1.
0
1
n
k=1 ( log(Xk ))
1 cp1.
A seguir veremos uma importante conseqncia da Lei Forte dos Grandes Nmeros para
a rea de Estatstica Aplicada. Sejam X1 , X2 , , . . . , Xn variveis aleatrias em (, A, P )
independentes e identicamente distribudas com funo de distribuio F . Essas variveis
podem representar a amostra observada de uma certa quantidade de interesse. A funo de
distribuio emprica ou amostral, denotada por Fne , denida para todo x IR e w
por:
1
Fne (x, w) = [nmero de is tais que Xi (w) x, i = 1, 2, . . . , n].
n
Para uma particular trajetria w0 , obtemos o conjunto de valores xados X1 (w0 ) =
x1 , . . . , Xn (w0 ) = xn . Se os xi s so todos diferentes, ento Fne (x, w0 ) uma funo de
distribuio com saltos 1/n em cada um desses valores.
uma funo
Considere um x0 IR xo. Ento Fne (x0 , w) uma varivel aleatria, pois
1
e
das variveis X1 , X2 , . . . , Xn . Se Yi = IXi x0 , i = 1, 2, . . . , n, ento Fn (x0 , w) = n ni=1 Yi (w).
Como as variveis aleatrias Yi so funes de famlias disjuntas de variveis aleatrias
Autor: Leandro Chaves Rgo
133
|X1 |
P(
n) = , k.
k
n=1
Como as variveis Xn so identicamente distribudas, temos
|Xn |
|Xn |
|X1 |
P(
n) =
P(
n) =
P(
k).
k
k
n
n=1
n=1
n=1
134
o evento a seqncia |Xnn | ilimitada. Para terminar a prova, basta mostrar que se
ilimitada, ento |Snn | tambm ilimitada. Agora, com S0 = 0, temos
|Xn |
n
|Xn |
|Sn Sn1 |
|Sn | |Sn1 |
=
+
,
n
n
n
n
para n = 1, 2, . . .. Portanto, se
Mas,
ento
8.4
|Sn1 |
n
|Xn |
n
ilimitada, ento
|Sn |
n
ilimitada ou
|Sn1 |
n
ilimitada.
|Sn1 |
|Sn1 | (n 1)
=
,
n
(n 1)
n
|Sn |
n
tambm for.
Uma varivel aleatria tem distribuio de Cauchy de parmetro a se, para a > 0
fX (x) =
1
a
2
.
a + x2
Assuma
n que Xn so i.i.d. segundo uma distribuio de Cauchy de parmetro a. Seja Sn =
1
i=1 Xn . Utilizando a denio e as propriedades da funo caracterstica pode-se provar
n
que
Xn (u) = ea|u| , e Sn (u) = ea|u| .
Ento, as mdias Sn so distribudas exatamente como uma das parcelas da soma. Para
n m, aps alguma manipulao algbrica, temos que
m
)([Zn,m ] [Yn,m ]),
n
n
m
1
1
onde Zn,m = nm
i=m+1 Xi e Yn,m = m
i=1 Xi . Observe que como Zn,m e Yn,m so
mdias de conjuntos disjuntos de variveis aleatrias independentes, elas so independentes
uma da outra. Ainda mais, pelo resultado para Sn , o caso que elas so identicamente
distribudas com funo caracterstica igual a ea|u| . Seja Wn,m = Zn,m Yn,m , ns vemos
que Sn Sm = (1 m
)Wn,m . Contudo,
n
Sn Sm = (1
135
Captulo 9
Teorema Central do Limite
9.1
Motivao
N (0, 1).
V arSn
Resumidamente, estas condies exigem que cada parcela da soma contribua com um valor
sem importncia para a variao da soma, ou seja muito improvvel que qualquer parcela
isolada d uma contribuio muito grande para a soma.
O Teorema Central do Limite d apoio ao uso da normal como distribuio de erros, pois
em muitas situaes reais possvel interpretar o erro de uma observao como resultante de
muitos erros pequenos e independentes. H tambm outras situaes que o Teorema Central
do Limite pode justicar o uso da normal. Por exemplo, a distribuio de alturas de homens
adultos de certa idade pode ser considerada aproximadamente normal, pois a altura pode
ser pensada como soma de muitos efeitos pequenos e independentes.
9.2
Teoremas e provas
Existem vrios Teoremas Centrais do Limite que variam de acordo com as hipteses sobre
as distribuies das variveis aleatrias Xi s na seqncia. Como teoremas centrais do limite
tratam de convergncia em distribuio e como, pelo Teorema da Continuidade de Levy,
sabe-se que uma seqncia de variveis aleatrias Yn D Y se, e somente se, Yn Y ,
136
137
t2
n
a idia ser provar que a funo caracterstica de SnVES
converge para e 2 que a funarSn
o caracterstica da N (0, 1). Ns iremos agora enunciar e provar alguns desses teoremas,
comeando pelo caso de variveis aleatrias independentes e identicamente distribudas.
N.
n
Prova: Sem perda de generalidade, seja E(Xn ) = 0 e E(Xn2 ) = 1 (caso este no seja o caso,
pode-se provar o resultado para
Xi
Xi =
,
it 1
n (t) = (E(e n ))n = n (t/ n).
Como os dois primeiros momentos existem, possui duas derivadas contnuas. Ento,
utilizando a expanso de Taylor de e o fato que (k) (0) = ik E(X1k ), temos que
t2
((t)),
2
onde |(t)| |t|. Logo, como contnua em 0, temos que ((t)) (0) 0 quando
t 0. Ento, tem-se
t2 t2
(t) = 1 + e(t),
2
2
onde e(t) = ((t)) + 1 e limt0 e(t) = 0. Ento, para t xo
(t) = 1 + t (0) +
t2
t2
t2
t
t2
t
t
n ( ) = [1
+ e( )]n = [1 +
[1 e( )]]n e 2 ,
2n 2n
2n
n
n
n
cn n
)
n
ec
138
(V 5n) 12
S=
10 n
ter aproximadamente a distribuio N (0, 1). Portanto, se n = 20, podemos calcular que a
probabilidade de que a voltagem total na entrada exceda 105 volts da seguinte maneira:
(V 100) 12
(105 100) 12
P (V > 105) = P (
>
) w 1 (0, 388) = 0, 352.
10 20
10 20
Agora analisaremos um resultado mais forte que d condies gerais que garantem convergncia da mdia amostral padronizada para normal: o Teorema Central do Limite de
Lindeberg.
Teorema 9.2.4: Sejam X1 , X2 , . . . variveis aleatrias independentes tais que E(Xn ) = n
e V ar(Xn ) =
n2 < , onde pelo menos um i2 > 0. Sejam Sn = X1 + . . . + Xn e sn =
1
1
k2
2
= 2
(x k ) dFk (x) + 2
(x k )2 dFk (x)
2
sn
sn |xk | sn
sn |xk |> sn
n
1
1
2
(
s
)
dF
(x)
+
(x j )2 dFj (x)
n
k
2
2
sn |xk | sn
sn j=1 |xj |> sn
n
1 2
1
( sn ) dFk (x) + 2
(x j )2 dFj (x).
2
sn
sn j=1 |xj |> sn
Autor: Leandro Chaves Rgo
139
1
=
n
(x )2 dF (x).
2
n
|x|> n
Ento, nalmente,
1
lim 2
n
|x|> n
(x )2 dF (x) = 0.
onde
r (x) =
t2 x2
+ r (x),
2
2 2
(1 + 1 (x)) t 2x
3 3
2 (x) t 6x
se |x| > ,
se |x| .
Portanto,
140
2 x 2
x k t ( sn k )
E(e
)= e
dFk (x) = (1 + it
+
sn
2
x k
Xk k
t2
Xk k 2
+r (
))dFk (x) = 1 + itE(
) E((
) )+
sn
sn
2
sn
t2
x k x k 2
+
(1 + 1 (
))(
) dFk (x) +
2 |xk |>sn
sn
sn
x k x k 3
t3
)(
) dFk (x).
2 (
6 |xk |sn
sn
sn
it
Xk k
sn
it
xk
sn
Xk k
sn
)=1
t2 k2
+ en,k ,
2s2n
2
|en,k | t
x k 2
|t3 |
x k 2
(
) dFk (x) +
(
) dFk (x)
sn
6 |xk |sn
sn
|xk |>sn
|t3 |
t2
2
(x k ) dFk (x) + 2
(x k )2 dFk (x).
2
sn |xk |>sn
6sn
Temos ento,
n
t2
|t3 |
|en,k | 2
(x k )2 dFk (x) +
.
s
6
|x
|>s
n
n
k
k=1
k=1
Pela condio de Lindeberg, a primeira parcela do termo direita tende a zero quando
n . Logo, para n sucientemente grande,
n
k=1
|en,k |
|t|3
.
3
Vamos ento escolher uma seqncia de s que converge para zero. Para =
nm tal que para n nm ,
n
|t3 |
,
|en,k |
3m
k=1
1
,
m
existe
(9.1)
onde os restos en,k so os determinados pela frmula baseada em = m1 . Portanto, existe uma
seqncia de inteiros positivos n1 < n2 < . . . tal que (9.1) satisfeita para nm n < nm+1 ,
onde para estes valores de n os restos so baseados em = m1 . importante lembrar durante
o restante da prova que o valor de que determina o resto en,k depende da posio de n em
relao aos nm . Temos, ento,
n
|en,k | 0 quando n .
k=1
141
Como Xi s so independentes,
Sn ESn (t) =
sn
it
E(e
k=1
Xk k
sn
t2 k2
)=
(1 2 + en,k ).
2sn
k=1
t2
2
k=1 cn,k
c quando n . Se
1kn
|cn,k | M < ,
k=1
(1 + cn,k ) ec quando n .
k=1
Prova: Ns omitimos a prova deste lema que pode ser encontrada no livro do Chung seo
7.1.
t2 2
t2
.
2
Temos que
t2
t2
|cn,k | +
|en,k | ,
2
2
k=1
k=1
n
k=1
t2 k2
t2 k2
+
max
|e
|
max
+ max |en,k |
n,k
1kn 2s2
1kn
1kn 2 s2
1kn
n
n
1kn
Como j provamos que os dois termos acima tendem a zero, a prova est terminada.
Exemplo 9.2.7: Seja {Xn : n 1} uma sequncia de variveis i.i.d. com mdia 0 e varincia
1. Tambm, seja {Yn : n 1} uma sequncia de variveis independentes com
1
1
e P (Yn = 0) = 1 2 , n 1.
2
2n
n
D
Sendo Xn e Yn independentes para n 1, temos 1n nk=1 (Xk + Yk )
N (0, 1), mas a
condio de Lindeberg no est satisfeita.
P (Yn = n) =
142
D
Soluo: Pelo TCL para variveis i.i.d., temos que 1n nk=1 Xk
N (0, 1), vamos
P
provar que 1n nk=1 Yk
0. Deste modo o resultado segue por Slutsky. Pela desigualdade
de Markov, temos
n
n
n
E| nk=1 Yk |
1/k n
1
k=1 E|Yk |
P (|
Yk | > )
= k=1
0,
n k=1
n
n
n
(onde o ltimo limite pode ser visto pelo fato de que usando o teste da integral para sries
n
P
pode-se provar que log1 n nk=1 1/k 1). Logo, 1n nk=1 Yk
0.
Como V ar(Xk + Yk ) = V ar(Xk ) + V ar(Yk ) = 2, temos que se a condio de Lindeberg
D
fosse satisfeita, teramos 1n nk=1 (Xk + Yk )
N (0, 2). Logo, a condio de Lindeberg no
satisfeita, caso contrrio teramos uma contradio.
Corolrio 9.2.8: Teorema Central do Limite de Liapunov. Sejam X1 , X2 , . . . variveis
aleatrias independentes tais que EXn = n e V arXn = n2 < com pelo menos um j2 > 0.
Seja Sn = X1 + . . . + Xn e s2n = V arSn . Se existir m > 0 tal que
ento,
s2+m
n
k=1
Sn ESn D
N (0, 1).
sn
Prova: Para provar este teorema, suciente vericar que as condies do Teorema de Liapunov implicam as condies do Teorema de Lindeberg. A condio de Lindeberg estabelece
k|
uma integral na regio |x k | > sn , > 0. Nessa regio, temos que |x
> 1, o que por
sn
|xk |m
sua vez implica m sm > 1. Desse modo, temos que:
n
n
n
m
1
1
2
2 |x k |
(x
)
dF
(x)
(x
)
dFk (x)
k
k
k
s2n k=1 |xk |>sn
s2n k=1 |xk |>sn
m sm
n
n
n
1
1
2+m
|x k |
dFk (x) m 2+m
|x k |2+m dFk (x)
= m 2+m
sn k=1 |xk |>sn
sn k=1
n
1
= m 2+m
E|Xk k |2+m .
sn k=1
Mas a condio de Liapunov implica que o ltimo termo tende a zero quando n .
Portanto, a condio de Lindeberg est satisfeita.
Antes de vercarmos um exemplo do Teorema Central do Limite de Liapunov, vamos
considerar o seguinte Lema.
143
n
1
n+1
quando n , de maneira que
n
k=1
k=1
1
,
+1
k da ordem de n+1 .
x dx,
k dx
k dx = k =
x dx
k
k1
k1
somando-se em k de 1 at n, temos
n
x dx
k
0
n+1
x dx.
k=1
Logo,
n+1
(n + 1)+1 1
(n + 1)+1
k
,
+1
+1
+1
k=1
n
o que eqivalente a
n
1
1
1
n + 1 +1
k
+1
(
) .
+1
n
+1
n
k=1
1 k 3
k3
1
3
3
3
|x| dx =
x dx = .
E|Xk k | = E|Xk | =
2k k
k 0
4
Logo, o Lema anterior implica que nk=1 E|Xk k |3 da ordem de n4 . Vamos determinar
a ordem de s3n . Como k = EXk = 0 e
k
1
k2
2
2
k = V ar(Xk ) = EXk =
x2 dx = , temos
2k k
3
s2n =
k2
k=1
144
Ento,
n
n
3
n9/2
1
1
3
k=1 E|Xk k |
lim
E|Xk k | = lim ( 3
1/2 )
4
n
n s3
sn
n
n
n k=1
= 93/2
1
1
lim 1/2 = 0.
16 n n
Exemplo 9.2.11:
Sejam Xn , n 1, variveis independentes com
1
P (Xn = 2n ) = 2n1 e P (Xn = 1) = (1 2n ), n 1.
2
D
N (0, 1).
Verique que 1n ni=1 Xi
Soluo: Dena Yn = Xn I[|Xn |n] . Deste modo, P (Yn = 1) = 21 (1 2n ) e P (Yn =
0) = 2n . Vamos vericar que Yn satisfaz a condio de Liapunov para m = 1. Temos
que EYn = 0, V ar(Yn ) = EYn2 = (1 2n ), e E|Yn |3 = (1 2n ) = V ar(Yn ). Logo,
1
( 1 )n+1
s2n = nk=1 V ar(Yk ) = nk=1 (1 2k ) = n 2 21
. Portanto,
2
n
n
1
1
1
1
n
3
E|Yk | = 3
V ar(Yk ) =
0.
=
1
1 n+1
3
(
)
sn k=1
sn k=1
sn
n 2 21
2
n
Portanto,
1 ( 1 )n+1
2
2
1
2
1
( 21 )n+1
2
1
2
Como
Yk
N (0, 1).
k=1
1
D
Yk
N (0, 1).
n k=1
n
1
( 12 )n+1
2
1
2
1, temos que
1
D
N (0, 1).
Yk
n k=1
n
Seja Zn = Xn Yn . Ento,
1
1
1
Xk =
Yk +
Zk .
n k=1
n k=1
n k=1
n
145
P
Se conseguirmos provar que 1n nk=1 Zk
0, ento o resultado segue por Slustky. Mas
P (Zn = 2n ) = 2n1 e P (Zn = 0) = 1 2n . Como P (|Zn | > k1 ) = P (|Zn | = 2n ) = 2n ,
temos que
1
P (|Zn | > ) =
2n < , k 1.
k
n=1
n=1
Portanto, Zn 0 cp1, ou seja, P ({w : limn Zn (w) = 0}) = 1. Como
lim Zn (w) = 0 > 0, N tal que |Zn (w)| < , n N
|
Zi (w)| <
i=1
1
lim
Zi (w) = 0,
n
n i=1
n
P ({w : limn 1n ni=1 Zi (w) = 0}) = 1, o que por sua vez implica que, 1n nk=1 Zk
0.
9.3
Conclumos dizendo que o Teorema Central do Limite tambm pode ser estendido ao caso
de vetores aleatrios. Neste caso, tem-se que a distribuio da mdia amostral centrada
converge para uma distriuio normal multivariada. A seguir, ns enunciamos formalmente
o teorema sem prov-lo.
1, X
2 , . . . uma seqncia de vetores aleatrios k-dimensionais,
Teorema 9.3.1 : Seja X
1 tenha varincia nita, e sejam
independentes e identicamente distribudos. Suponha que X
1 . Seja X n a mdia amostral, denida como a
a mdia e a matriz de covarincia de X
1, . . . , X
n . Ento,
mdia aritmtica dos vetores X
9.4
Mtodo Delta
146
Lema 9.4.1: Se {Yn } converge em distribuio para uma varivel aleatria com funo de
distribuio H, ento a seqncia limitada em probabilidade.
Prova: Fixemos K1 e K2 pontos de continuidade de H tal que H(K1 ) > 1/4 e H(K2 ) <
/4. Escolhamos n0 tal que, n > n0 ,
Hn (K1 ) > H(K1 ) /4 > 1 /2
e
Hn (K2 ) < H(K2 ) + /4 < /2.
Ento,
P (K2 Yn K1 ) Hn (K1 ) Hn (K2 ) > 1 .
O resultado est provado se escolhermos K = max(|K1 |, |K2 |).
Lema 9.4.2: Se {Yn } limitada em probabilidade e Xn = o(Yn ), ento Xn P 0.
Prova: Dados quaisquer > 0 e > 0, precisamos mostrar que existe N tal que P (|Xn | >
) < para todo n N . Como {Yn } limitada em probabilidade, existe K e n1 tal
que P (|Yn | K) > 1 para todo n n1 . Como Xn = o(Yn ), sabemos que existe
n|
n2 tal que |X
< K para todo n n2 . Faamos N = max(n1 , n2 ), ento para n N ,
|Yn |
|Xn | > |Yn | > K. Logo
P (|Xn | > ) P (|Yn | > K) < .
Teorema 9.4.3: Se
(9.2)
O primeiro termo
do lado direito converge em distribuio para N (0, 2 [f ()]2 ). Por outro
147
n(X ) N (0, ).
Para problemas de inferncia que se referem a , quase sempre inconveniente que
ocorre no somente na esperana mas tambm na
varincia da distribuio limite. portanto
de interesse achar uma funo f para a qual n[f (Tn ) f ()]tende em distribuio para
N (0, c2 ), onde c2 no depende de . Em geral, suponha que n(Tn ) D N (0, 2 ()).
Ento, pelo mtodo delta:
c
f () = ou f () = 2c .
2 n( X ) D N (0, 1).
Autor: Leandro Chaves Rgo
148
n(Y 2 ) D N (0, 2 4 ),
ou seja, Tn = Y , = 2 , e 2 () = 22 . Logo,
c
c
f () = ou f () = log .
2
2
Fazendo c = 1, vemos que
n
Y
log( 2 ) D N (0, 1).
2
Referncias Bibliogrcas
1. James, B. (1981), Probabilidade: um curso em nvel intermedirio - Projeto Euclides
2. Magalhes, Marcos M. (2006), "Probabilidade e Variveis Aleatrias", 2a. edio,
edusp.
3. Lima, E. (1976), Curso de Anlise, vol.1 - Projeto Euclides
4. Resnick, S. I., "A Probability Path", Birkhauser, 2005.
5. Halpern, Joseph Y. (2003), "Reasoning About Uncertainty", The MIT press.
6. Davenport Jr., W. (1970), "Probability and Random Processes", McGraw-Hill Book
Company Inc.
7. deFinetti, B. (1972), "Probability, Induction, and Statistics", New York: Willey.
8. Fine, T. (2006), Probability and Probabilistic Reasoning for Electrical Engineering,
Prentice Hall.
149