Probayestadistica

Notas de Probabilidad y Estadstica
(en construccion- version 0.6.4)

c
2006-12
- Pablo L. De Napoli
4 de diciembre de 2012
c
Notas de Probabilidad y Estadstica - 2006-2012
Pablo L. De Napoli
Pr
ologo a la versi
on 2012:
Actualmente estoy actualizando las notas, preparandolas para la version
2012. Estoy corrigiendoles algunos errores que me reportaron varios estudiantes y agregandole paulatinamente los temas faltantes.
Por otra parte, como se decidio que Analisis Real sea correlativa de
Probabilidad y Estadstica (para matematicos), el enfoque en esta cursada sera (a
un) mas elemental que en las anteriores. Por dicha razon, algunos
temas como las leyes fuertes de Kolmogorov (que usan conceptos de analisis
real) pasaron a los apendices (cuyo contenido NO formara parte del programa
del curso).
Pr
ologo a la versi
on 2010:
Estas son las notas del curso de Probabilidades y Estadstica (para matematicos) que di en 2006. Mi intencion es irlas completando a lo largo de la
presente cursada del primer cuatrimestre de 2010.
Seguramente tambien, introducire algunas modificaciones al desarrollo de
los temas, teniendo en cuenta la experiencia de aquella cursada. Sin embargo,
espero que las presentes notas sigan siendo de utilidad.
Pr
ologo a la versi
on 2006:
El objetivo de estas notas es ser una ayuda para facilitar el seguimiento
y la comprension de las clases teoricas de Probabilidad y Estadstica (para
matematicos).
Sin embargo se advierte que no contienen todos los temas vistos en clase
(sino solamente algunos, en la medida que he podido ir escribiendolas; algunas
demostraciones estan incompletas), ni los ejemplos vistos en las praticas; y
que su lectura no sustituye la consulta de la bibliografa de la materia.
En particular, los siguientes temas no estan desarrollados en estas notas:
Teorema Central del Lmite.
Distribucion Normal Multivariada.
Estadstica: estimadores de maxima verosimilitud e intervalos de confianza.
y algunas partes (probabilidad y esperanza condicionales, convergenceia
de variables aleatorias, ley fuerte de los grandes n
umeros) estan incompletas.
c
Pablo L. De Napoli
As mismo se advierte que estas notas a

un estan en contruccion, por
lo que seguramente contienen algunos errores de tipeo o de redaccion (que
procurare ir corrigiendo).
Una aclaracion: Las demostraciones de los teoremas de analisis real que se
incluyen en los apendices no seran tomadas en el final (ya que forman parte
del contenido de dicha materia). Sin embrargo, los teoremas de convergencia
monotona y mayorada estan en el programa de Probabilidad y Estadstica,
y son necesarios para poder realizar algunas demostraciones de los teoremas
sobre convergencia de variables aleatorias (ley fuerte de los grandes n
umeros,
etc.), por lo que s es necesario conocer al menos los enunciados, para poder
comprender dichas demostraciones.
Agradecimientos: a
un a riesgo de olvidarme de alguien, no quiero dejar de
agradecer a todos los que de alguna manera me ayudaron a dar la materia,
y a redactar este apunte. A N. Fava y V. Yohai (con quienes en su momento
curse esta materia, dado que el curso etuvo inspirado en gran parte en lo
que aprend de ellos); a G. Boente Boente (quien generosamente me presto el
material de sus clases, y me reemplazo durante algunas clases que estuve de
licencia); a M. Svarc, S. Laplagne y J. Molina (que fueron mis ayudantes
durante el curso, y me brindaron en todo momento una inestimable colaboracion), tambien a M. A. Garca Alvarez (por regalarme su excelente libro);
y finalmente, a todos mis alumnos, quienes en muchas veces han aportado
correcciones u observaciones que han contribuido a mejorar este apunte.
Pablo L. De Napoli
Indice general
1. El Espacio Muestral
1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . .
1.2. La definicion clasica de Laplace . . . . . . . . . . . .
1.3. Definicion axiomatica de la probabilidad (provisional)
1.4. Probabilidad Condicional . . . . . . . . . . . . . . . .
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . .
1.6. El marco de Kolmogorov . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Variables Aleatorias Discretas

2.1. La Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Esperanzas infinitas . . . . . . . . . . . . . . . . . . . .
2.1.2. Propiedades de la esperanza . . . . . . . . . . . . . . .
2.1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . .
2.1.4. Desigualdad de Jensen . . . . . . . . . . . . . . . . . .
2.2. Momentos - Varianza . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Desigualdades de Tchesbychev y de Markov . . . . . .
2.2.2. Covariancia . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Ensayos de Bernoulli - La distribucion binomial . . . . . . . .
2.4. El metodo de las funciones generatrices . . . . . . . . . . . . .
2.4.1. El teorema de Bernoulli . . . . . . . . . . . . . . . . .
2.5. Ley debil de los grandes n
umeros: caso general . . . . . . . . .
2.6. Polinomios de Bernstein: Una prueba del teorema de Weierstrass
2.7. La aproximacion de Poisson a la distribucion binomial . . . . .
2.8. Otras distribuciones relacionadas con los ensayos de Bernoulli
6
6
7
9
11
14
14
18
18
22
22
25
26
28
30
31
32
34
37
40
43
45
48
3. Distribuciones Continuas
52
3.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . 52
3.1.1. Propiedades de las funciones de distibucion . . . . . . . 55
3
c
Pablo L. De Napoli
3.2. La integral de Riemman-Stieltjes y la definicion de esperanza
3.3. La definicion de Esperanza . . . . . . . . . . . . . . . . . . .
3.4. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Densidades y distribuciones marginales . . . . . . . .
3.4.2. Esperanza de funciones de vectores aleatorios. Covariancia . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3. Independencia . . . . . . . . . . . . . . . . . . . . . .
3.4.4. Vectores aleatorios n-dimensionales . . . . . . . . . .
3.5. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Cambios de variables unidimensionales . . . . . . . .
3.5.2. Cambios de variables n-dimensionales . . . . . . . . .
3.6. Suma de variables aleatorias independientes . . . . . . . . .
3.7. Las Distribuciones Gama . . . . . . . . . . . . . . . . . . . .
3.8. Un ejemplo: La Distribucion Exponencial . . . . . . . . . . .
3.9. Tiempos de espera y procesos de Poisson . . . . . . . . . . .
3.10. Algunas densidades u
tiles en estadstica . . . . . . . . . . . .
3.10.1. Las densidades 2 . . . . . . . . . . . . . . . . . . . .
3.10.2. Densidad del cociente de dos variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . .
3.10.3. La densidad t de Student . . . . . . . . . . . . . . . .
3.11. Distribucion Normal Multivariada . . . . . . . . . . . . . . .
4
.
.
.
.
58
61
68
71
.
.
.
.
.
.
.
.
.
.
.
.
72
74
76
78
78
78
79
80
82
84
86
86
. 87
. 87
. 89
4. Convergencia de Variables Aleatorias, y Ley Fuerte de los

Grandes N
umeros
90
4.1. Los diferentes tipos de convergencia . . . . . . . . . . . . . . . 90
4.2. Relacion entre los modos de convergencia . . . . . . . . . . . . 94
4.3. El lema de Borel-Cantelli y la Ley fuerte de los Grandes N
umeros 95
4.3.1. Una primera version de la ley fuerte de los grandes
n
umeros . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.4. Teorema de Helly . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.5. Recproco del tereorema de Helly . . . . . . . . . . . . . . . . 101
4.6. El principio de seleccion de Helly . . . . . . . . . . . . . . . . 103
4.7. Funciones Caractersticas . . . . . . . . . . . . . . . . . . . . . 105
4.8. El teorema de continuidad de Paul Levy . . . . . . . . . . . . 105
5. El teorema central del Lmite
107
5.1. El teorema de De Moivre-Laplace . . . . . . . . . . . . . . . . 107
5.2. Una aplicacion a la estadstica . . . . . . . . . . . . . . . . . . 114
c
Pablo L. De Napoli
5.3. Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . 117

6. Esperanza Condicional
6.1. Esperanza condicional respecto de un evento . . . . . . . . .
6.2. Esperanzas condicionales en el caso discreto . . . . . . . . .
6.3. Esperanzas condicionales en el caso continuo . . . . . . . . .
118
. 118
. 119
. 121
A. La F
ormula de Stirling
123
A.1. La formula de Wallis para . . . . . . . . . . . . . . . . . . . 123
A.1.1. Otra formula de la f
normula de Wallis . . . . . . . . . 125
A.2. Prueba de la formula de Stirling . . . . . . . . . . . . . . . . . 126
B. Construcci
on de la Integral de Lebesgue, y equivalencia de
las distintas definiciones de esperanza
129
B.1. Funciones Medibles . . . . . . . . . . . . . . . . . . . . . . . . 130
B.1.1. Funciones Simples . . . . . . . . . . . . . . . . . . . . . 134
B.2. Integral de Funciones Simples . . . . . . . . . . . . . . . . . . 135
B.3. Integral de funciones no negativas . . . . . . . . . . . . . . . . 136
B.4. Funciones Integrables . . . . . . . . . . . . . . . . . . . . . . . 141
B.5. Equivalencia de las distintas definiciones de Esperanza . . . . 145
B.5.1. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . 149
C. Independencia
151
C.1. El teorema de Dynkin . . . . . . . . . . . . . . . . . . . 151
C.2. Variables independientes . . . . . . . . . . . . . . . . . . . . . 153
C.3. Esperanza del producto de variables independientes . . . . . . 156
D. Existencia de las Integrales de Riemann-Stieltjes
E. Las leyes fuertes de Kolmogorov
E.0.1. La desigualdad de Kolmogorov . . .
E.1. La ley fuerte de los grandes n
umeros . . . .
E.1.1. La primera ley fuerte de Kolmogorov
E.1.2. Algunos lemas preparatorios . . . . .
E.1.3. La segunda ley fuerte de Kolmogorov
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
158
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
163
165
165
168
172
Captulo 1
El Espacio Muestral
1.1.
Experimentos Aleatorios
La teora de probabilidades trata con experimentos aleatorios, es decir

con experimentos cuyo resultado no resulta posible prever de antemano. Denominamos espacio muestral al conjunto de los posibles resultados de un
experimento aleatorio, y lo simbolizamos con la letra .
Historicamente, la teora de probabilidades se desarrollo para estudiar los
juegos de azar, pero posteriormente encontro otras innumerables aplicaciones.
En estos casos el espacio muestral es usualmente finito:
Ejemplos de experimentos aleatorios:
Se arroja una moneda. Hay dos resultados posibles:
= {cara, ceca}
Se arroja un dado. Hay seis resultados posibles:
= {1, 2, 3, 4, 5, 6}
Sin embargo, en otras aplicaciones del calculo de probabilidades, aparecen espacios muestrales de naturaleza mas compleja. Veamos algunos
ejemplos:
Se elije un individuo al azar de una poblacion humana y se mide su
altura. El resultado es un n
umero real positivo (dentro de un cierto
6
c
Pablo L. De Napoli
rango). Podemos por lo tanto pensar que el espacio muestral es un

intervalo de la recta real.
Se observa la trayectoria de una partcula que se mueve sobre la superficie de un lquido siguiendo una trayectoria de apariencia caotica
durante un cierto intervalo de tiempo [0, T ] (movimiento Browniano).
En este caso, cada posible resultado del experimento es una curva continua. Por ello el espacio muestral podra tomarse como el espacio de
funciones continuas C([0, T ], R2 ).
Un evento o suceso es algo que puede ocurrir o no ocurrir en cada realizacion del experimento aleatorio. Los eventos corresponden a subconjuntos
del espacio muestral. Por ejemplo: si el experimento consiste en arrojar un
dado, el evento sale un n
umero par esta representado por el subconjunto
A = {2, 4, 6} del espacio muestral.
1.2.
La definici
on cl
asica de Laplace
La idea basica del calculo de probabilidades sera asignar a cada evento

A , un n
umero real entre 0 y 1 que llamaremos su probabilidad y simbolizaremos por P (A). Este n
umero medira que tan probable es que ocurra el
evento A.
El matematico frances Pierre-Simon Laplace (17491827) propuso la siguiente definicion del concepto de probabilidad: consideremos un experimento
aleatorio que tiene un n
umero finito de resultados posibles
= {1 , 2 , . . . , n }
y supongamos que dichos resultados son equiprobables (es decir que consideramos que cada uno de ellos tiene las mismas chances de ocurrir o no que
los demas), entonces la probabilidad de un evento A se define por
P (A) =
#(A)
casos favorables
=
casos posibles
#()
Por ejemplo, supongamos que nos preguntamos cual es la probabilidad

de obtener un n
umero par al arrojar un dado?. En este caso hay 6 casos
posibles, que corresponden a los elementos del espacio muestral
c
Pablo L. De Napoli
= {1, 2, 3, 4, 5, 6}
y 3 casos posibles, que corresponden a los elementos del evento
A = {2, 4, 6}
Si suponemos que el dado no esta cargado (de modo que asumimos que
los seis resultados posibles del experimento son equiprobables), entonces
1
3
=
6
2
Cual es el significado intuitivo de esta probabilidad?. Intuitivamente,
esperamos que si repetimos el experimento muchas veces, observemos que
aproximadamente la mitad de las veces sale un n
umero par (y la otra mitad
de las veces sale un n
umero impar).
Notemos algunas propiedades de la nocion de probabilidad, introducida
por la definicion de Laplace:
P (A) =
1. La probabilidad de un evento es un n
umero real entre 0 y 1.
0 P (A) 1
2. La probabilidad de un evento imposible es 0:
P () = 0
mientras que la probabilidad de un evento que ocurre siempre es 1:
P () = 1
Por ejemplo; al tirar un dado, la probabilidad de sacar un 7 es cero
mientras que la probabilidad de sacar un n
umero menor que 10 es uno
(Los eventos imposibles corresponden como conjuntos al conjunto vaco,
y los que ocurren siempre corresponden a todo el espacio muestral ).
Notemos que para el concepto de probabilidad introducido por la definicion clasica de Laplace, es cierta la recproca de esta afirmacion: si
P (A) = 0, el suceso A es imposible, mientras que si P (A) = 1 el suceso
ocurre siempre. Sin embargo, esto no sera cierto para otras extensiones
del concepto de probabilidad que introduciremos mas adelante.
c
Pablo L. De Napoli
3. Si A y B son dos eventos que no pueden ocurrir simultaneamente, entonces la probabilidad de que ocurra A u ocurra B (lo que corresponde
como conjunto a A B), es cero
A B = 0 P (A B) = P (A) + P (B)
1.3.
Definici
on axiom
atica de la probabilidad
(provisional)
La definicion clasica de Laplace, aunque tiene un claro significado intuitivo presenta algunas limitaciones. En primer lugar, su aplicacion esta limitada
a problemas donde el espacio muestral es finito. Sin embargo como hemos
mencionado al comienzo, en muchas aplicaciones importantes del calculo de
probabilidades, nos encontramos con espacios muestrales que no lo son.
Por otra parte, la definicion clasica de Laplace hace la suposicion de
que los posibles resultados del experimento aleatorio (los puntos del espacio muestral) son equiprobables, pero es facil imaginar experimentos en los
que esta suposicion no se verifica, por ejemplo si arrojamos un dado que no
esta equilibrado (esta cargado).
Por los motivos expresados, sera conveniente generalizar la nocion de probabilidad. Por ello, introduciremos la siguiente definicion axiomatica (provisional).
Definici
on 1.3.1 Sea un espacio muestral, por una probabilidad definida
en entenderemos una funcion P que a cada parte de (evento) le asigna
un n
umero real de modo que se cumplen las propiedades enunciadas en la
seccion anterior:
1. La probabilidad de un evento A es un n
umero real entre 0 y 1:
0 P (A) 1
2. La probabilidad del evento imposible es 0:
P () = 0
mientras que la probabilidad de un evento que ocurre siempre es 1:
c
Pablo L. De Napoli
10
P () = 1
3. La probabilidad es finitamente aditiva:
A B = 0 P (A B) = P (A) + P (B)
Mas adelante, nos veremos obligados a modificar esta definicion, ya que
en muchos ejemplos no es posible asignar probabilidades a todas las posibles
partes de (por lo que deberemos restringir la nocion de evento).
Veamos algunos ejemplos:
Supongamos que tenemos un espacio muestral finito
= {1 , 2 , . . . , n }
pero que no queremos asumir que los posibles resultados de nuestro experimento aleatorio son equiprobables. Entonces supondremos que cada uno de
ellos tiene una probabilidad pi [0, 1]:
P ({ri }) = pi
Entonces dado un evento A , le asignamos la probabilidad
X
P (A) =
pi
ri A
Si suponemos que
n
X
pi = 1
i=1
entonces la probabilidad as definida, verifica los axiomas de nuestra definicion axiomatica de probabilidad.
Notemos que en particular, si los resultados ri (1 i n) son equiprobables:
p1 = p2 = . . . = pn
entonces pi =
place:
1
n
para todo i, y recuperamos la definicion clasica de La-
c
Pablo L. De Napoli
11
#(A)
n
El ejemplo anterior, facilmente puede generalizarse al caso de un espacio
muestral numerable
= {1 , 2 , . . . , n , . . .}
P (A) =
Nuevamente supongamos que a cada resultado ri (con i N) le hemos asignado una probabilidad pi [0, 1], de modo que
pi = 1
i=1
entonces si definimos
P (A) =
pi
ri A
obtenemos una probabilidad definida en .

Es importante notar, que para esta nueva nocion de probabilidad que
hemos definido ya no se verifica en general que P (A) = 0 implique que A sea
un evento imposible, o que si P (A) = 1 entonces A es un evento que ocurre
siempre.
Veamos algunas consecuencias de estas definiciones:
Proposici
on 1.3.1 Si A es un evento y Ac = A su complemento, entonces
P (Ac ) = 1 P (A)
En efecto: = AAc (union disjunta), en consecuencia 1 = P (A)+P (Ac ),
luego P (Ac ) = 1 P (A).
Proposici
on 1.3.2 Si A y B son dos eventos, entonces
P (A B) = P (A) + P (B) P (A B)
1.4.
Probabilidad Condicional
En muchas situaciones tendremos que estimar la probabilidad de un evento pero disponemos de alguna informacion adicional sobre su resultado.
c
Pablo L. De Napoli
12
Por ejemplo supongamos que arrojamos un dado (equilibrado) y nos preguntamos Que probabilidad le asignaramos a sacar un dos, si supieramos
de antemano que el resultado sera un n
umero par?. Para formalizar esta
pregunta consideramos en el espacio muestral
= {1, 2, 3, 4, 5, 6}
los eventos
A = sale un 2 = {2}
B = sale un n
umero par = {2, 4, 6}
Entonces vamos a definir la probabilidad condicional de que ocurra el
evento A sabiendo que ocurre el evento B que notaremos P (A/B).
Si estamos en una situacion como la anterior donde la definicion clasica
de Laplace se aplica podemos pensarlo del siguiente modo: los resultados
posibles de nuestro experimento son ahora solo los elementos de B (es decir: hemos restringido nuestro espacio muestral a B), mientras que los casos
favorables son ahora los elementos de A B luego
P (A/B) =
#(A B)
#(B)
Si dividimos numerador y denominador por #(), tenemos:

P (A/B) =
#(AB)
#()
#(B)
#()
P (A B)
P (B)
Aunque hemos deducido esta formula de la definicion clasica de Laplace,

la misma tiene sentido en general siempre que P (B) > 0. Adoptamos pues
la siguiente definicion:
Definici
on 1.4.1 La probabilidad condicional P (A/B) de un evento A suponiendo que ocurre el evento B se define por:
P (A/B) =
P (A B)
P (B)
(1.1)
siempre que P (B) > 0.

Otra manera de comprender esta definicion es la siguiente: para definir
la probabilidad condicional P (A/B) queremos reasignar probabilidades a los
eventos A de modo que se cumplan tres condiciones:
c
Pablo L. De Napoli
13
1. La funcion A 7 P (A/B) debe ser una probabilidad (o sea satisfacer

los requisitos de nuestra definicion axiomatica).
2. P (A B/B) = P (A/B) (Esta formula dice que la probabilidad condicional de que ocurran los eventos A y B simultaneamente sabiendo que
ocurre B debe ser igual a la probabilidad condicional de A sabiendo
que ocurre B).
3. Si A B la probabilidad condicional P (A/B) debe ser proporcional a
la probabilidad de A de modo que
P (A/B) = kP (A) si A B
siendo k una constante de proporcionalidad fija.
Entonces a partir de estas dos condiciones tenemos:
P (A/B) = P (A B/B) = kP (A B)
y como queremos que P (A/B) sea una probabilidad debe ser P (/A) = 1,
luego
1 = kP ( B) = kP (B)
con lo que:
1
P (B)
y vemos que la definicion (1.1) es la u
nica que satisface estas condiciones.
k=
Si ahora consideramos una particion del espacio muestral en eventos

disjuntos B1 , B2 , . . . Bn con P (Bk ) > 0 para todo k tenemos que:
P (A) =
n
X
P (A Bk )
k=1
por la aditividad de la probabilidad, y como

P (A Bk ) = P (Bk )P (A/Bk )
en virtud de la definicion de probabilidad condicional, deducimos la siguiente
formula:
n
X
P (A) =
P (Bk )P (A/Bk )
k=1
(formula de la probabilidad total)
c
Pablo L. De Napoli
1.5.
14
Independencia
Definici
on 1.5.1 Decimos que el evento A es independiente del evento B
con P (B) > 0 si
P (A/B) = P (A)
Intuitivamente este concepto significa que saber si el evento B ocurre o
no, no nos dara una mejor estimacion de la probabilidad de que ocurre el
evento B que si no lo supieramos.
Teniendo en cuenta la definicion de la probabilidad condicional, vemos
que la condicion para que el evento A sea independiente de B es que:
P (A B) = P (A)P (B)
Esta manera de escribir la definicion tiene dos ventajas: se ve que tiene sentido
a
un si P (B) = 0, y muestra que los roles de los eventos A y B son simetricos.
Reescribimos pues la definicion en la siguiente forma:
Definici
on 1.5.2 Decimos que los eventos A y B son (estocasticamente)
independientes si
P (A B) = P (A)P (B)
Esta definicion admite la siguiente generalizacion:
Definici
on 1.5.3 Decimos que una familia cualquiera de eventos (Ai )iI es
independiente si
P (Ai1 Ai2 Ain ) = P (Ai1 )P (Ai2 ) P (Ain )
para cualquier eleccion de una cantidad finita Ai1 , . . . , Ain de eventos distintos de la familia.
1.6.
El marco de Kolmogorov
Como hemos dicho, en muchas situaciones importantes, no es posible

asignar probabilidades a todos los subconjuntos del espacio muestral.
El ejemplo mas sencillo de esta situacion es el siguiente: supongamos que
realizamos el experimento de elegir un n
umero real del intervalo [0, 1] con
c
Pablo L. De Napoli
15
distribucion uniforme. Con esto queremos decir que si I [0, 1] es un

intervalo, queremos que:
P (I) = |I|
(1.2)
donde I designa la longitud del intervalo I.

Un experimento equivalente es el siguiente (ruleta continua): imaginemos
que tenemos una rueda y la hacemos girar. Nos interesa medir cual es la posicion de la rueda. Dado que esta esta determinada por un angulo [0, 2)
respecto de la posicion inicial, podemos pensar este experimento como elegir
un n
umero al azar en el intervalo [0, 2). La distribucion uniforme, corresponde a postular que todas las posiciones finales de la rueda son igualmente
probables.
Se demuestra en analisis real que no es posible definir una medida (probabilidad) -aditiva, que este definida para todos los posibles subconjuntos
del intervalo [0, 1] de modo que se verifique la relacion (1.2) para cada subintervalo I [0, 1].
Lebesgue propuso la siguiente solucion a este problema: restringir la clase
de los conjuntos a los que asignaremos medida (probabilidad) a lo que se
llama una -algebra.
Definici
on 1.6.1 Sea un conjunto (espacio muestral). Una -algebra de
partes de , es una coleccion de partes de con las siguientes propiedades:
1. E.
2. Si A esta en E, entonces su complemento Ac = A E.
3. Si (An )nN es una familia numerable de conjuntos de entonces
E.
nN
An
Obviamente, el conjunto de todas las partes de , P() es una -algebra,

pero existen -algebras mas peque
nas.
Algunas observaciones importantes:
Si E es una -algebra de partes de , entonces
1. E.
c
Pablo L. De Napoli
16
2. T
Si (An )nN es una familia numerable de subconjuntos de entonces
ormula de De Morgan
nN An E Prueba: por la f
!c
\
[
An =
Acn
nN
nN
3. Si A, B E entonces A B E.
Definici
on 1.6.2 Observemos que la interseccion de una familia cualquiera
de -algebras de partes de , tambien es una -algebra. Deducimos que para
cualquier A P(), existe una menor -algebra que la contiene. Dicha algebra se denomina la -algebra generada por A.
Definimos la -algebra de Borel de R, como la -algebra generada por los
intervalos abiertos de R. Notaci
on: B(R)
Definici
on 1.6.3 Sean un conjunto y E P(). Una medida sobre E es
una funcion : E [0, +]. con las siguientes propiedades:
1.
() = 0
2. Si (An )nN es una familia disjunta numerable de conjuntos de E, entonces:
!
[
X
An =
(An )
nN
nN
Si ademas se verifica que () = 1, se denomina una medida de probabilidad sobre .

Definici
on 1.6.4 Un espacio de probabilidad es una terna (, E, P ) donde
es un conjunto (espacio muestral), E es una -algebra de partes de (la
-algebra de los eventos) y P es una medida de probabilidad sobre .
El siguiente es un resultado fundamental de analisis real:
Teorema 1.6.1 (Existencia de la medida de Lebesgue) Existen una u
nica
-algebra M de partes de R y una u
nica medida m : M [0, +) con las
siguientes propiedades:
c
Pablo L. De Napoli
17
1. M contiene a los intervalos abiertos (por lo tanto M contiene a la

-algebra de Borel).
2. m(I) = |I| para cualquier intervalo de la recta.
3. Para cualquier conjunto A M, la medida de A es el supremo de las
medidas de los compactos contenidos en A:
m(A) = sup{m(K) : Kcompacto, K A}
y es el nfimo de las medidas de los abiertos que contienen a A:
m(A) = nf{m(U ) : U abierto, U A}
(Se dice que la medida m es regular).
4. La medida m es invariante por traslaciones:
m(A + x) = m(A) A M
5. Si A M, m(A) = 0 y B A; entonces B M y m(B) = 0. (se dice
que la -algebra de Lebesgue es completa).
M se denomina la -algebra de Lebesgue y m se denomina la medida de
Lebesgue. Los conjuntos de la -algebra M se denominan conjuntos medibles
Lebesgue.
Corolario 1.6.1 Si consideramos la restriccion de la medida de Lebesgue y
de la -algebra de Lebesgue al intervalo [0, 1], entonces obtenemos un espacio
de probabilidad.
Captulo 2
Variables Aleatorias Discretas
2.1.
La Esperanza
En muchas situaciones, nos interesa un n

umero asociado al resultado de
un experimento aleatorio: por ejemplo, el resultado de una medicion.
Para evitar por el momento, algunas dificultades tecnicas, comenzaremos con el caso de variables aleatorias discretas, que resulta mas sencillo de
entender.
Definici
on 2.1.1 Sea (, E, P ) un espacio de probabilidad. Una variable
aleatoria discreta es una funcion X : R tal que la imagen de X es
un conjunto finito o numerable de R:
Im(X) = {x1 , x2 , . . . , xi , . . .}
(donde la sucesion (xi ) puede ser finita o infinita), y tal que X 1 ({xi }) E
sea un evento para cada xi Im(X).
Como X 1 ({xi }) = { : X() = xi } es un evento para cada i, esto
significa que estan definidas las probabilidades:
pi = P ({X = xi })
Dichas probabilidades se conocen como la distribucion de probabilidades
de la variable X.
Un concepto de fundamental importancia asociado a las variables aleatorias, es el de esperanza (o valor esperado). Para variables aleatorias discretas,
este concepto resulta sencillo de definir:
18
c
Pablo L. De Napoli
19
Definici
on 2.1.2 Sea X : R una variable aleatoria discreta. Diremos
que X es integrable (o que tiene esperanza finita) si la serie
X
p i xi
i
es absolutamente convergente, es decir si:

X
pi |xi | < +
i
En este caso definimos, la esperanza de X como el valor de dicha suma.

X
E[X] =
p i xi
i
Hagamos algunas observaciones sobre esta definicion:

Una variable aleatoria cuya imagen es finita siempre es integrable.
Una variable aleatoria discreta no negativa con imagen finita (o sea:
que tome solo un n
umero finito de valores) siempre es integrable.
Ejemplo: Supongamos que arrojamos un dado cual es la esperanza del
valor obtenido X ?
21
1+2+3+4+5+6
=
= 3, 5
6
6
Ejemplo: Supongamos que jugamos un peso a la ruleta y apostamos a un
color (por ej. negro). Sea X nuestra ganancia (o perdida) cuanto debemos
esperar ganar (o perder) ?
Aqu

1
si sale negro
(con probabilidad 18
)
37
X=
19
1 si sale rojo o cero (con probabilidad 37 )
E[X] =
En consecuencia:
18 19
1
=
= 0, 027 . . .
37 37
37
As pues, al jugar a la ruleta, debemos esperar perder un 27 por mil.
E[X] =
c
Pablo L. De Napoli
20
Ejemplo: Sea A un evento, consideramos la funcion IA : R definida

por

IA () =
1 si A
0 si 6 A
Intuitivamente IA vale 1 cuando el evento A ocurre, y 0 sino. Se denomina

el indicador del evento A. (En la teora de la medida, esta funcion se llama
la funcion caracterstica del conjunto A y se suele denotar por A , pero
en la teora de probabilidades la expresion funcion caracterstica tiene un
significado diferente).
IA es una variable aleatoria discreta pues su imagen consta de dos valores
(0 y 1) y sus pre-imagenes son X 1 (0) = A y X 1 (1) = A, que son
eventos.
La esperanza de IA es:
E[IA ] = 0 P ( A) + 1 P (A) = P (A)
Es decir, la esperanza del indicador de un evento, coincide con su probabilidad.
Ejemplo:(un ejemplo de una variable aleatoria que toma infinitos valores). Consideremos el experimento consistente en arrojar infinitas veces una
moneda (en forma independiente).
Como vimos anteriormente, podemos modelizar este experimento utilizando el espacio muestral = {0, 1}N de las sucesiones de ceros y unos, y
representando cada realizacion del experimento por la sucesion = (Xi )iN
donde

1 si en la i-esima realizacion del experimento sale cara
Xi =
0 si en la i-esima realizacion del experimento sale ceca
Notemos que las Xi son variables aleatorias. Estamos interesados ahora
en la siguiente variable aleatoria, T = cuantas tiradas tengo que esperar
hasta que salga una cara por primera vez. Formalmente
T () = mn i
xi =1
Hay un caso especial, que es cuando siempre sale ceca, esto es: que valor
de T le asignaremos a la sucesion = (0, 0, 0, . . . , 0, . . .) ? Lo razonable es
poner:
T ((0, 0, 0, . . . , 0, . . .)) = +
c
Pablo L. De Napoli
21
Esto muestra que a veces resulta conveniente admitir variables aleatorias que
pueden tomar el valor + (o tambien ).
Ahora debemos calcular cual es la distribucion de probabilidades de T ,
es decir cual es la probabilidad de que T tome cada valor.
P {T = k} = P {X1 = 0, X2 = 0, . . . , Xk1 = 0, Xk = 1}
y dado que los ensayos son independientes a este evento le asignamos la
probabilidad dada por el producto de las probabilidades:
P {T = k} = P {X1 = 0} P {X2 = 0} . . . P {Xk1 = 0} P {Xk = 1} =
1
2k
Mientras que al evento siempre sale ceca le asignamos probabilidad 0,

P {T = +} = P {T ((0, 0, 0, . . . , 0, . . .)} = 0
Entonces la esperanza de T se calculara por:
X
k
kP {T = k} + (+) P {T = +} =
E[T ] =
+ (+) 0
2k
k=1
k=1
Hacemos la convencion de que:

0 (+) = 0
Entonces la esperanza de T es:
X
k
E[T ] =
2k
k=1
Utilizando la formula,
X
k=1
kxk =
x
si |x| < 1
(1 x)2
que se deduce de derivar la serie geometrica, con x = 21 , deducimos que

E[T ] = 2.
As pues, en promedio, habra que esperar dos tiradas, para que salga cara.
c
Pablo L. De Napoli
2.1.1.
22
Esperanzas infinitas
A veces resulta conveniente admitir esperanzas infinitas. Si X 0 diremos

que E[X] = + si
X
xi P {X = xi }
i
diverge.
Si X es una variable aleatoria discreta cualquiera, escribimos
X = X+ X
donde
+
X =
X si X 0
0 si X < 0
X =
X si X < 0
0 si X 0
Notamos que X + y X son variables aleatorias no negativas.

Decimos que E[X] = + si E[X + ] = + y E[X ] < . Similarmente
diremos que E[X] = si E[X ] = + y E[X + ] < . Si E[X + ] y E[X ]
son ambas infinitas, E[X] no esta definida.
2.1.2.
Propiedades de la esperanza
Proposici
on 2.1.1 (linealidad de la esperanza)
1. Si X, Y : R
son variables aleatorias discretas con esperanza finita, entonces
E[X + Y ] = E[X] + E[Y ]
2. Si X : R es una variable aleatoria discreta con esperanza finita,
entonces:
E[X] = E[X]
Prueba: Sean (xi ) los valores que toma X, e (yj ) los valores que toma Y :
entonces
X
X
E[X] =
xi P {X = xi } =
xi P {X = xi , Y = yj }
i
i,j
c
Pablo L. De Napoli
23
ya que
{X = xi } =
{X = xi , Y = yj } (union disjunta)
y el reordenamiento de la serie esta justificado por la convergencia absoluta,

de la serie:
X
xi P {X = xi , Y = yj }
i,j
Similarmente,
E[Y ] =
yj P {X = xi } =
yj P {X = xi , Y = yj }
i,j
En consecuencia,
E[X] + E[Y ] =
(xi + yj )P {X = xi , Y = yj }
i,j
Sea Z = X + Y y sean z1 , z2 , . . . , zk , . . . los valores de Z. Entonces los

zk son exactamente los valores xi + yj (pero estos u
ltimos pueden repetirse).
Entonces,
X
X
X
E[Z] =
zk P {Z = zk } =
zk P {X = xi , Y = yj }
k
i,j:xi +yj =zk
pues
{Z = zk } =
{X = xi , Y = yj } (union disjunta)
i,j:xi +yj =zk
Deducimos que
E[Z] =
X
(xi + yj )P {X = xi , Y = yj } = E[X] + E[Y ]
k
Esto completa la prueba de la primera afirmacion. En cuanto a la segunda

afirmacion, X es una variable aleatoria discreta que toma los valores xi ,
por lo tanto:
E[X] =
X
i
xi P {X = xi } =
xi P {X = xi } = E[X]
c
Pablo L. De Napoli
24
Proposici
on 2.1.2 (Monotona de la esperanza)
1. Si X es una variable aleatoria con esperanza finita y X 0 con probabilidad 1, entonces E[X] 0.
2. Sean X e Y variables aleatorias con esperanza finita. Entonces, si X
Y con probabilidad 1, tenemos que E[X] E[Y ]
3. Si X es una variable aleatoria acotada, entonces:
nf X E[X] sup X
.
4. Si X es una variable aleatoria discreta con esperanza finita, entonces:
|E[X]| E[|X|]
Proposici
on 2.1.3 Sean X una variable aleatoria discreta y : R R.
Entonces
X
E[(X)] =
g(xi )P {X = xi }
i
siempre que esta serie sea absolutamente convergente.

Prueba: Sea Y = (X), y sean (yj ) los valores de Y , entonces:
X
X
X
X
P {X = xi } =
(xi )P {X = xi }
E[Y ] =
yj P {Y = yj } =
yj
j
i:(xi )=yj
(El reordenamiento se justifica usando la convergencia absoluta de la serie.)

Esta propiedad se puede generalizar a funciones de vectores aleatorios.
Este concepto es una generalizacion natural del de variable aleatoria discreta:
Definici
on 2.1.3 Un vector aleatorio discreto n-dimensional es una funcion
X : Rn tal que Im(X) sea finita o infinita numerable, y P {X = x} sea
un evento x Rn . Dar un vector aleatorio discreto X = (X1 , X2 , . . . , Xn ) es
equivalente a dar n variables aleatorias discretas x1 , x2 , . . . , xn
Con esta terminologa tenemos [con la misma demostracion de antes]:
c
Pablo L. De Napoli
25
Proposici
on 2.1.4 Sean X un vector aleatorio n-dimensional y : Rn
R, entonces
X
E[(X)] =
g(xi )P {X = xi }
i
donde xi recorre la imagen de X, siempre que esta serie sea absolutamente

convergente.
2.1.3.
Independencia
Definici
on 2.1.4 Sean X e Y dos variables aleatorias discretas definidas
en un mismo espacio muestral. Diremos que son independientes, si para
cada xi , yj los eventos {X = xi } e {Y = yj } son independientes, es decir de
acuerdo a la definicion de eventos independientes si,
P {X = xi , Y = yj } = P {X = xi } {Y = yj }
Observaci
on: Remarcamos que esta definicion solamente se aplica a variables discretas, cuando generalicemos esta nocion a variables aleatorias no
discretas, nos veremos en la necesidad de adoptar una definicion diferente.
Proposici
on 2.1.5 Si X e Y son variables aleatorias discretas independientes, y f, g : R R son funciones, entonces Z = f (X) y W = g(Y ) tambien
son variables aleatorias discretas independientes.
Prueba: Calculemos la distribucion conjunta de Z y W :
X
P {Z = z, W = w} =
P {X = x, Y = y}
x,y:f (x)=z,g(y)=w
P {X = x}P {Y = y}
x,y:f (x)=z,g(y)=w
X
x:f (x)=z
P {X = x}
P {Y = y} = P {Z = z}P {W = w}
y:g(y)=w

Proposici
on 2.1.6 Si X e Y son variables aleatorias discretas independientes con esperanza finita, entonces:
E(XY ) = E(X)E(Y )
c
Pablo L. De Napoli
26
Prueba:
E[XY ] =
xi yi P {X = xi , Y = yj } =
i,j
xi yi P {X = xi }P {Y = yj }
i,j
!
X
xi P {X = xi }
!
X
yj P {Y = yj }
= E[X]E[Y ]
Observaci
on: En el caso en que X e Y toman infinitos valores, la aplicacion
de la propiedad distributiva, esta justificada por el hecho de que las series
que intervienen son absolutamente convergentes, por hipotesis.
2.1.4.
Desigualdad de Jensen
Definici
on 2.1.5 Sea f : R R una funcion. Diremos que f es convexa,
si dados x, y R y [0, 1], se verifica que:
f (x + (1 )y) f (x) + (1 )f (y)
Observaci
on: Si f es de clase C 2 , entonces f es convexa, si y solo si
f (x) 0.
Observaci
on: Una funcion convexa en R es necesariamente continua.
Ademas es posible probar que su derivada f 0 (x) existe salvo quizas para un
conjunto a lo sumo numerable de valores de x, y que f 0 es creciente (ver [12],
teorema 7.40).
Ejercicio: Una combinaci
on convexa de los xi es una combinacion
lineal
n
X
i xi
00
i=1
Pn
en la que 0P i y i=1 i = 1. Probar que si f : R R es una funcion

convexa y ni=1 i xi es una combinacion convexa, entonces:
!
n
n
X
X
f
i xi
i f (xi )
i=1
i=1
Proposici
on 2.1.7 (Desigualdad de Jensen) Si g : R R es una funcion convexa, entonces:
g(E[X]) E[g(X)])
c
Pablo L. De Napoli
27
en los siguientes casos: si X es no negativa y g(x) 0 para x 0, o si X y

g son arbitrarias y E(|g(X)|) < .
Prueba: Hagamos la demostracion primero, en el caso que X toma solo
finitos valores. Sea pi = P {X = xi }. Entonces
E[X] =
n
X
p i xi
i=1
es una combinacion convexa de los valores de X. Como X es una funcion

convexa,
!
n
n
X
X
g(E[X]) = g
p i xi
pi g(xi ) = E[g(X)]
i=1
i=1
Si X toma un n
umero numerable de valores, xi con probabilidades pi , entonces hacemos lo siguiente: para cada n N definamos,
sn =
n
X
pi
i=1
y notamos que
n
X
pi
xi
s
n
i=1
es una combinacion convexa. Entonces, como g es convexa:

!
n
n
X
X
pi
pi
g
xi
g(xi )
s
s
i=1 n
i=1 n
Cuando n +, tenemos que sn 1. Entonces, utilizando la continuidad
de g, obtenemos que:
!
X
X
g(E[X]) = g
p i xi
pi g(xi ) = E[g(X)]
i=1
i=1

Ejemplo: f (x) = |x| es una funcion convexa si p 1. En consecuencia,
en este caso:
|E[X]|p E[|X|p ]
p
c
Pablo L. De Napoli
2.2.
28
Momentos - Varianza
Definici
on 2.2.1 Sea X una variable aleatoria (discreta). Definimos el kesimo momento de X entorno de b como E[(X b)k ]. El k-esimo momento
absoluto entorno de b se define como E[|X b|k ].
Algunas observaciones:
1. Si E[|X|t ] < y 0 s t, entonces E[|X|s ] < +. En efecto seg
un
la desigualdad de Jensen,
(E[|X|s ])p E[|X|t ]
donde p =
t
s
1. Es mas, vemos que:
2. E[|X|p ]1/p es una funcion creciente de p.

3. Si E[|X|p ] < + y E[|Y |p ] < + entonces E[|X + Y |p ]1/p < +
Prueba:
|X + Y |p (|X| + |Y |)p = (2 max |X|, |Y |)p
2p max(|X|p , |Y |p ) 2p (|X|p + |Y |p )
Por lo tanto,
E[|X + Y |p 2p (E[|X|p ] + E[|Y |p ]) < +

4. En consecuencia, el conjunto
Lpd (, E, P ) = {X : R variable aleatoria discreta : E[|X|p ] < +}
(siendo R = R {}) es un espacio vectorial.
5. Si p 1, es posible probar que
1
kXkp = E[|X|p ] p
es una norma en dicho espacio.
c
Pablo L. De Napoli
29
En lo sucesivo, nos van a interesar especialmente dos clases Lp :

L1d () = {X : R : variable aleatoria (discreta) con esperanza finita}
L2d () = {X : R : variable aleatoria (discreta) con segundo momento finito}

Ejemplo: Notemos que L2d L1d por lo anterior. Veamos un ejemplo de
una variable aleatoria que esta en L1d pero no en L2d : Consideramos un espacio
muestral numerable
= {1 , 2 , . . . , n , . . .}
en el que
1
n(n + 1)
Verifiquemos que esta asignacion efectivamente define una distribucion de
probabilidades en :

X
X
X
1
1
1
=
P {n } =
=1
n(n
+
1)
n
n
+
1
n=1
n=1
n=1
P {n } =
(serie telesc
opica). Definamos la variable aleatoria X : R, dada por
X(n ) = n. Entonces,
X
X
X
1
n
X(n )P {n } =
E(X) =
< +
n(n + 1) n=1 n3/2
n=1
n=1
pero
2
E(X ) =
X
n=1
X(n ) P {n } =
X
n=1
X 1
n
=
= +
n(n + 1) n=1 n + 1
Definici
on 2.2.2 El segundo momento de X entorno de su media se llama
la varianza de X, es decir:
Var(X) = E[(X E(X))2 ]
Por lo anterior Var(X) < + si y solo si el segundo momento de X es
finito, es decir si X L2d .
c
Pablo L. De Napoli
30
Ejemplo: Sea A un evento con probabilidad p, e IA su indicador. Calculemos su varianza. Ya vimos que:
E[IA ] = P (A) = p
En consecuencia:
Var(IA ) = E[(IA p)2 ]
La distribucion de probabilidades de (IA p)2 es:

(1 p)2
si ocurre A
(con probabilidad p)
2
(IA p) =
2
p si no ocurre A (con probabilidad q = 1 p)
En consecuencia,
Var(IA ) = (1 p)2 p + p2 (1 p) = p p2 = pq
Proposici
on 2.2.1
1. Si X = c es constante, entonces Var(X) = 0.
2. Var(aX + b) = a2 Var(X).
2.2.1.
Desigualdades de Tchesbychev y de Markov
Proposici
on 2.2.2 (Desigualdad b
asica) Sea X una variable aleatoria
no negativa, entonces
1
(2.1)
P (X ) E(X)
Prueba: Sea A = { : X() }. Entonces X IA , en consecuencia:

E[X] E[IA ] = P (A)

Proposici
on 2.2.3 (Desigualdad de Markov) Si X es una variable aleatoria (discreta) entonces
P {|X| }
1
E(|X|p )
p
Prueba: Si cambiamos X por |X|p en la desigualdad anterior tenemos que:

P {|X| } = P {|X|p > p }
1
E(|X|p )
p
c
Pablo L. De Napoli
31
Proposici
on 2.2.4 (desigualdad de Tchebyschev cl
asica) Sea X una
variable (discreta) entonces
Var(X)
2
Prueba: Usamos la desigualdad anterior con p = 2 y cambiamos X por
X E(X).

Intuitivamente, la desigualdad de Tchebschev dice que la varianza de la
variable X nos da una estimacion de la probabilidad de que X tome valores
alejados de su esperanza. Si Var(X) es peque
na, entonces es poco probable
que X tome un valor alejado de E(X).
P {|X E(X)| > }
2.2.2.
Covariancia
Definici
on 2.2.3 Sean X e Y dos variables aleatorias. Definimos la covariancia de X e Y por
Cov(X, Y ) = E[(X E(X))(Y E(Y )]
Observaci
on: Si X e Y son variables aleatorias independientes entonces
Cov(X,Y) = 0. La recproca no es cierta, como muestra el siguiente ejemplo:
Ejemplo (Barry James, pag. 130) Sean X e Y dos variables aleatorias
con valores 1, 0, 1 con la siguiente funcion de probabilidad conjunta:
1
0
1
1 0 1
1
0 51
5
0 51 0
1
0 15
5
entonces E[XY ] = E[X] = E[Y ] = 0, pero X e Y no son independientes

pues
1
1
11
6=
=
= P {X = 0}P {Y = 0}
5
25
55
Definici
on 2.2.4 Sean X1 , X2 , . . . , Xn variables aleatorias discretas. Diremos que no estan correlacionadas si Cov(Xi , Xj ) = 0 para i 6= j.
P {X = 0, Y = 0} =
Proposici
on 2.2.5 Si X e Y son variables aleatorias (discretas) con segundo momento finito:
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y )
c
Pablo L. De Napoli
32
Prueba:
V ar(X +Y ) = E[(X +Y E[X]E[Y ])2 ] = E[((X E(X)+(Y E(Y ))2 ] =
= E[(X E(X))2 ] + E[(Y E(Y ))2 ] + 2E[(X E(X))(Y E(Y ))] =
= Var(X) + Var(Y ) + 2Cov(X, Y )

Corolario 2.2.1 Si X1 , X2 , . . . , Xn son variables aleatorias (discretas) con
segundo momento finito, que no estan correlacionadas, entonces
Var(X1 + X2 + . . . + Xn ) =
n
X
Var(Xi )
i=1
Dem: Sale de la formula anterior por induccion.
2.3.
Ensayos de Bernoulli - La distribuci

on
binomial
En esta seccion presentaremos un esquema conceptual, que fue introducido por Bernoulli, y que es u
til para modelizar muchas situaciones.
El esquema de ensayos de Bernoulli consiste en lo siguiente: Consideramos un experimento aleatorio con dos resultados, que convencionalmente
llamamos exito y fracaso. Supongamos que la probabilidad de obtener
un exito en una realizacion del experimento es p [0, 1], y naturalmente la
de obtener un fracaso sera q = 1 p
Imaginemos que repetimos el experimento una cantidad n de veces, de
manera independiente. Para modelizar este experimento consideramos el espacio muestral = {0, 1}n compuesto por las n-uplas de n
umeros 0 y 1 con
la siguiente interpretacion: codificaremos una realizacion del experimento por
una n-upla = (x1 , x2 , . . . , xn ) de modo que:

xi =
1 si la i-esima realizacion del experimento fue un exito

0 si la i-esima realizacion del experimento fue un fracaso
Es un espacio muestral finito, con cardinal 2n . Notemos que las funciones

Xi : R (proyecciones) dadas por Xi () = xi son variables aleatorias.
c
Pablo L. De Napoli
33
De que modo asignaremos las probabilidades en este espacio?. Puesto

que consideramos que los ensayos son independientes, a una determinada
n-upla = (x1 , x2 , . . . , xn ) le asignamos la probabilidad
P = P {X1 = x1 , X2 = x2 , . . . , Xn = xn } =
n
Y
P {Xi = xi }
i=1
Ahora la probabilidad de que Xi = xi es p si xi = 1 (es un exito) y q si

xi = 0 (es un fracaso). De modo que
P {} = pk q nk
P
umero de exitos que ocurren en esa realizacion
donde k = ni=1 xi es el n
del experimento. Notemos que esta forma de asignar las probabilidades dice
precisamente que las Xi son variables aleatorias independientes.
Por otra parte, notemos que si definimos Sn : R como el n
umero de
exitos en los n ensayos de Bernoulli, es una variable aleatoria (en la notacion
anterior Sn () = k). Tenemos que:
S n = X 1 + X2 + . . . + X n
(2.2)
Nos interesa cual es la distribucion de probabilidades de Sn , es decir

queremos determinar para cada k (con 0 k n) cual es la probabilidad de
que Sn tome el valor k.
Observamos que el evento {Sn = k} = { : Sn () = k} se compone
de las n-uplas que tienen exactamente k exitos y n k fracasos, y que hay
exactamente

n!
n
=
k
k!(n k)!
de tales n-uplas, y cada una de ellas tiene probabilidad pk q nk . En consecuencia la probabilidad del evento Sn = k sera

n
P {Sn = k} =
pk q nk
k
Esta distribucion de probabilidades se conoce como la distribuci
on binomial, dado que viene dada por los terminos del desarrollo del binomio de
Newton:
c
Pablo L. De Napoli
34

n
X
n
(p + q) =
pk q nk
k
n
k=0
Definici
on 2.3.1 Sea X : N0 una variable aleatoria con valores enteros. Diremos que X tiene distribuci
on binomial si:

n
P {X = k} = b(k, n, p) =
pk q nk
k
y P {X = k} = 0 si k 6 {0, 1, . . . , n}. Notaci
on: X Bi(n, p)
Necesitamos calcular la esperanza y la varianza de Sn . Para ello utilizamos
la representacion (2.2) de Sn como suma de las variables Xi . Notamos que
cada Xi es de hecho el indicador del evento ocurre un exito en la i-esima
realizacion del experimento. En consecuencia:
E[Xi ] = p,
V ar(Xi ) = pq
Por la linealidad de la esperanza,

E[Sn ] = np
y por otro lado, como las Xi son variables aleatorias independientes, tambien
se verifica que
Var(Sn ) = npq
2.4.
El m
etodo de las funciones generatrices
En algunas situaciones, el metodo que expondremos a continuacion resulta de utilidad para operar con distribuciones de probabilidad discretas. Lo
usaremos para obtener de otro modo la distribucion binomial, y calcular su
esperanza y su varianza.
Definici
on 2.4.1 Sea X : N0 una variable aleatoria que toma valores
enteros. Llamamos funcion generatriz de la distribucion de probabilidades de
X a
gX (z) =
X
k=0
P {X = k}z k (z C)
c
Pablo L. De Napoli
35
suponiendo que esta serie tenga un radio de convergencia rX > 0 (entonces convergera absolutamente en |z| < rX ). Observaci
on: La notacion gX
que usaremos en estas notas, no es una notacion estandar. 1
Notemos que si 0 < |z| < rX ,
gX (z) = E[z X ]
(Cuando z = 0 esta formula es problematica si X toma el valor 0, pues 00
no esta definido. Se tiene que gX (0) = P {X = 0})
Observaci
on: En virtud de la unicidad del desarrollo en serie de potencias, la distribucion de probabilidades de una variable aleatoria entera
esta unvocamente determinada por su funcion generatriz.
Proposici
on 2.4.1 Si X e Y son variables aleatorias independientes, entonces:
gX+Y (z) = gX (z) gY (z)
para |z| < mn(rX , rY ).
Prueba: Como X e Y son independientes, z X y z Y son independientes. En
consecuencia, si 0 < |z| < rX :
gX+Y (z) = E[z X+Y ] = E[z X z Y ] = E[z X ] E[z Y ] = gX (z) gY (z)
Cuando z = 0,
gX+Y (0) = P {X + Y = 0} = P {X = 0, Y = 0}
= P {X = 0} P {Y = 0} = gX (0) gY (0)

Esta proposicion puede generalizarse sin dificultad a varias variables independientes: si X1 , X2 , . . . , Xn son independientes, entonces
gX1 +X2 +...+Xn (z) = gX1 (z) gX2 (z) gXn (z)
Aplicaci
on: Otra prueba de que el n
umero de exitos Sn en n ensayos de
Bernoulli tiene distribucion binomial.
1
En clase y en versiones anteriores de estas notas utilice la notacion fX , pero decid cambiarla por gX , ya que en la teora de probabilidades la notacion fX suele utilizarse para
la densidad de probabilidad para variables aleatorias absolutamente continuas.
c
Pablo L. De Napoli
36
Utilicemos la representacion (2.2) de Sn como suma de n variables independientes que valen 1 con probabilidad p y 0 con probabilidad q = 1 p.
La funcion generatriz de cada Xi es:
gXi (z) = pz + q
y como Sn es la suma de las Xi y son independientes:

n
X
n
gSn (z) = (pz + q) =
pk z k q nk
k
n
k=0
Notemos que la probabilidad de que Sn tome el valor k viene dado por el

coeficiente de z k en gSn . En consecuencia:

n
P {Sn = k} =
pk q nk (0 k n)
k
Las funciones generatrices pueden usarse para calcular esperanzas y varianzas (y mas generalmente momentos) de variables aleatorias enteras:
Proposici
on 2.4.2 Si la serie que define la funcion generatriz gX tiene radio
de convergencia rX > 1, entonces
0
E(X) = gX
(1)
00
0
0
Var(X) = gX
(1) + gX
(1) gX
(1)2
Prueba: Como las series de potencia pueden derivarse termino a termino en

el interior de su disco de convergencia, tenemos que:
0
(z)
gX
kP {X = k}z k1
k=1
con convergencia absoluta si |z| < rX . En particular si z = 1,

0
gX
(1)
X
k=1
kP {X = k} = E[X]
c
Pablo L. De Napoli
37
Volviendo a derivar tenemos que

00
gX
(z)
k(k 1)P {X = k}z k2
k=2
con convergencia absoluta si |z| < rX , y haciendo z = 1,

00
gX
(1)
k(k 1)P {X = k} = E[X(X 1)] = E[X 2 ] E[X]
k=2
Luego
00
0
0
(1) + gX
(1) gX
(1)2
V ar(X) = E[X 2 ] E[X]2 = gX

Aplicaci
on: Calculo de la esperanza y la varianza de la distribucion
binomial (de otra manera).
Sea como antes Sn el n
umero de exitos en n ensayos de Bernoulli. Como
vimos antes gSn (z) = (pz + q)n . En consecuencia, como
gS0 n (z) = n(pz + q)n1 p
gS00n (z) = n(n 1)(pz + q)n2 p2
deducimos que
E[Sn ] = np
y que:
Var(Sn ) = n(n 1)p2 + np n2 p2 = np2 + np = np(1 p) = npq
Ejercicio: Si X Bi(n, p) e Y Bi(m, p) y son independientes, entonces
X + Y Bi(n + m, p).
2.4.1.
El teorema de Bernoulli
Imaginemos que realizamos una sucesion ilimitada de ensayos de Bernoulli. Sea fn = Snn la frecuencia de exitos que obtenemos en los n primeros
ensayos. Es intuitivamente razonable que conforme n +, fn tienda a la
probabilidad p de obtener un exito.
Nos gustara transformar esta idea intuitiva en un teorema matematico.
El siguiente teorema debido a Jacques Bernoulli, y publicado en 1713 en su
libro Ars Conjectandi, constituye una formalizacion de esta idea:
c
Pablo L. De Napoli
38
Teorema 2.4.1 (Teorema de J. Bernoulli) Sea fn la frecuencia de exitos en los n primeros ensayos de una sucesion ilimitada de ensayos de Bernoulli. Entonces dado cualquier > 0,
P {|fn p| > } 0 conforme n
Prueba: Notemos que E[fn ] = p. Luego, por la desigualdad de Tchebyschev,
P {|fn p| > }
Var(fn )
2
pero

Var(fn ) = Var
Sn
n

=
pq
n
En consecuencia:
P {|fn p| > }
pq
0 cuando n +
n 2
(2.3)

Una generalizacion del teorema de Bernoulli (que se prueba con el mismo
argumento) es la siguiente, conocida (al igual que a veces el teorema de
Bernoulli) como la ley debil de los grandes n
umeros:
Teorema 2.4.2 (Ley d
ebil de los grandes n
umeros - caso de variancia finita)
Sean X1 , X2 , . . . , Xn , . . . una secuencia infinita de variables aleatorias independientes e identicamente distribuidas, con
E[Xi ] =
Var(Xi ) = 2 < +
Entonces si llamamos
Xn =
X 1 + X2 + . . . + X n
n
y tomamos cualquier > 0, tenemos que

P {|X n | > } 0 cuando n +
c
Pablo L. De Napoli
39
Prueba: Por linealidad de la esperanza, E[X n ] = , y por otro lado

Var(X n ) =
2
n
ya que las Xi son independientes. La desigualdad de Tchebyschev, dice entonces que:

P {|X n | > }
2
0 cuando n +
n 2
Algunas observaciones sobre el teorema de Bernoulli:

Si bien la prueba del teorema de Bernoulli, resulta muy sencilla hoy en
da, J. Bernoulli dice en su libro que estuvo pensando en este teorema
durante mas de 20 a
nos, lo cual muestra que el resultado no es para
nada trivial.
Como todo teorema matematico, el teorema de Bernoulli no afirma
nada sobre la realidad, es solamente una afirmacion sobre el modelo
matematico
(La cuestion de la validez practica de un modelo matematico solo se
puede decidir sobre bases empricas, es decir contrastandolo con la experiencia). Sin embargo, podemos interpretarlo como una muestra de
la consistencia interna de nuestro modelo matematico.
La ley debil de los grandes n
umeros recibe este nombre, porque, como
veremos mas adelante, existe otro teorema conocido como la ley fuerte
de los grandes n
umeros, que afirma que en realidad Sn p (o X n )
con probabilidad 1.
(Pero notemos que para darle sentido a la afirmacion de que Sn p
con probabilidad 1, debemos asignar probabilidades a secuencias de infinitos ensayos de Bernoulli, como en el experimento que consideramos
anteriormente de arrojar infinitas veces una moneda. Esto introduce
ciertas dificultades relacionadas con la teora de la medida, como por
ejemplo que ya no podremos asignarle probabilidad a cualquier parte
del espacio muestral , y que por lo tanto debemos restringir el dominio
de la funcion probabilidad a una -algebra de eventos.)
c
Pablo L. De Napoli
2.5.
40
Ley d
umeros: caso
general
La hipotesis de que las variables aleatorias Xi tengan varianza finita no

es realmente necesaria para la validez de la ley debil de los grandes n
umeros, pudiendose probar para variables que tengan solamente esperanza finita,
por medio de un metodo de truncamiento. Sin embargo, para fijar ideas, hemos optado por enunciarla y demostrarla primero en este caso en el que la
demostracion resulta mas sencilla. Veamos ahora el caso general:
Teorema 2.5.1 (Ley d
umeros - caso general) Sean
X1 , X2 , . . . , Xn , . . . una secuencia infinita de variables aleatorias independientes e identicamente distribuidas, con
E[Xi ] = < +
Entonces si llamamos
S n = X 1 + X2 + . . . + X n
y tomamos cualquier > 0, tenemos que

Sn
P > 0 cuando n +
n
Prueba: Para simplificar la notacion, notemos que podemos asumir sin
perdida de generalidad, que
E(Xi ) = 0 i
(cambiando si no Xi por Xi ).
La demostracion en el caso de variancia infinita, se basa en el m
etodo de
truncamiento, que consiste en descomponer Xi como suma de dos variables
aleatorias. Para cada k = 1, 2, . . . , n, escribimos:
Xk = Un,k + Vn,k (k = 1, 2, . . . , n)
donde

Un,k =
Xk si |Xk | n
0 si |Xk | > n
(2.4)
c
Pablo L. De Napoli
41
y

Vn,k =
0 si |Xk | n
Xk si |Xk | > n
donde > 0 es una constante que especificaremos despues. Y pongamos:

Un = Un,1 + Un,2 + . . . + Un,n
Vn = Vn,1 + Vn,2 + . . . + Vn,n
De la desigualdad triangular |Sn | |Un | + |Vn |, y de la subaditividad de la
probabilidad, deducimos que:
P {|Sn | > n}
P {|Un | > n/2} + P {|Vn | > n/2}
(2.5)
Entonces hemos de probar que cada una de las probabilidades del segundo
miembro tiende a cero cuando n +.
Comencemos acotando:
P {|Un | > n/2}
Observemos que las variables Un,k estan acotadas (|Un,k | n) y en consecuencia tienen segundo momento finito. Mas explcitamente, si llamemos
a = E(|Xi |), tenemos que
2
E(Un,k
) na
En consecuencia las Uk,n tienen variancia finita:
2
Var(Un,k ) E(Un.k
) na
Por otra parte las Un,k son variables independientes e identicamente distribuidas (pues Un,k es funcion de Xk , y las Xk eran independientes e identicamente
distribuidas). En consecuencia:
Var(Un ) = Var(Un,1 + Un,2 + . . . + Un,n ) =
n
X
Var(Un,k ) n2 a
k=1
Ademas de la definicion de las Un,k deducimos que

X
E(Un,k ) = E(Un,1 ) =
xi P {X1 = xi } E(X1 ) = 0
i:|xi |>n
c
Pablo L. De Napoli
42
conforme n +. En consecuencia para n n0 () sera:

E(Un2 ) = Var(Un ) + E(Un )2 < 2n2 a
y entonces por la desigualdad de Tchebyschev, tenemos que:
P {|Un | > n/2} <
8a
<
2
2
si elegimos suficientemente peque

no.
En cuanto al segundo termino: obviamente
P {|Vn | > n/2} P {Vn,1 + Vn,2 + . . . + Vn,n 6= 0}
y como
{Vn,1 + Vn,2 + . . . + Vn,n 6= 0}
n
[
{Vn,k 6= 0}
k=1
tenemos que:
P {|Vn | > n/2}
n
X
P {Vn,k 6= 0} = nP {V1 6= 0}
k=1
ya que las Vk tienen todas la misma distribucion de probabilidades. Pero por

definicion de V1 , esto dice que
X
P {|Vn | > n/2} nP {|X1 | > n} = n
P {X1 = xi }
i:|xi |>n
donde Im(X1 ) = {x1 , x2 , . . . , xn . . .}. Deducimos que:

1 X
P {|Vn | > n/2}
|xi |P {X1 = xi }
|xi |>n
Dado entonces cualquier > 0, como la esperanza de X1 es finita por

hipotesis, deducimos que si elegimos n suficientemente grande, digamos si
n n0 (), tendremos que:
P {|Vn | > n/2} <

2
(ya que las colas de una serie convergente tienden a cero).
Por (2.5), deducimos que:
P {|Sn | > n}
si n n0 ().
c
Pablo L. De Napoli
2.6.
43
Polinomios de Bernstein: Una prueba del

teorema de Weierstrass
En esta seccion expondremos una prueba del teorema de Weierstrass sobre

aproximacion a funciones continuas por polinomios, debida a S.N. Bernstein:
Teorema 2.6.1 (Weierstrass) Sea f C[0, 1] una funcion continua f :
[0, 1] R, entonces existe una sucesion de polinomios Pn (t) tal que Pn (t)
f (t) uniformemente para t [0, 1].
En un lenguaje mas moderno, el teorema de Weierstrass dice que los
polinomios son densos en el espacio C[0, 1] de las funciones continuas (con la
norma del supremo).
La prueba de S.N. Berstein (1912) de este teorema, consiste en utilizar la
distribucion binomial, para construir explcitamente una sucesion de polinomios que converge uniformemente a f .
Veamos primero la idea intuitiva de la demostracion: sea p [0, 1] y sea
como antes Sn el n
umero de exitos en n ensayos de Bernoulli con probabilidad
p. La ley de los grandes n
umeros afirma que:
Sn
p (en probabilidad)
n
y como f es continua es razonable esperar que:

Sn
f (p)
f
n
(De vuelta, esto no es estrictamente cierto para toda sucesion de ensayos de
Bernoulli, pero s vale en probabilidad.) Por lo que esperamos que:

Sn
E f
E[f (p)] = f (p)
n
Notemos que:
X

n
Sn
k
Bn (p) = E f
=
f
b(k, n, p)
n
n
k=0

n
X
k
n
=
f
pk (1 p)nk
k
n
k=0
c
Pablo L. De Napoli
44
es un polinomio en la variable p. Se lo denomina el n-esimo polinomio de

Bernstein.
La demostracion de S.N. Bernstein, consiste en probar que Bn (p) f (p)
uniformemente para p [0, 1] (Los argumentos anteriores no constituyen
una prueba rigurosa, pero explican intuitivamente por que esta afirmacion es
cierta).
De hecho, la demostracion de esta afirmacion se basa en argumentos muy
similares a los que nos llevaron a la prueba del teorema de Bernoulli
Para la prueba del teorema de Weierstrass utilizaremos, dos propiedades
claves de las funciones continuas en un intervalo cerrado de la recta, a saber:
1. Una funcion continua en un intervalo cerrado de la recta, es acotada:
existe una constante M > 0 tal que:
|f (p)| M p [0, 1]
2. Una funcion continua en un intervalo cerrado de la recta, es uniformemente continua: dado > 0 existe > 0 tal que si x, y [0, 1] y si
|x y| , entonces |f (x) f (y)| < .
Necesitaremos una acotacion de las colas de la distribucion binomial: de
acuerdo a la desigualdad (2.3):

Sn
pq
1

P p > 2
n
n
4n 2
ya que:
1
p [0, 1]
4
Mas explcitamente podemos escribir esto como:
pq = p(1 p)
b(k, n, p) =
|k/np|>
X
|k/np|>
P {Sn = k}
1
4n 2
Queremos acotar la diferencia:

n
n
X
X
k
k
b(k, n, p) f (p) =
f (p) b(k, n, p)
Bn (p)f (p) =
f
f
n
n
k=0
k=0
c
Pablo L. De Napoli
45
pues
n
X
b(k, n, p) = 1
k=0
(Es una distribucion de probabilidades!). En consecuencia,

n
X

k
f
b(k, n, p)
|Bn (p) f (p)|
f
(p)

n
k=0
En esta suma separamos dos partes, la suma sobre los k donde |k/n p|
(con el dado por la continuidad uniforme), y la parte donde |k/n p| > .
La primer parte la acotamos, facilmente:

X
X k

b(k, n, p)
f
f
(p)
b(k, n, p)

n
k:|k/np|
k:|k/np|
pues los b(k, n, p) suman 1.

La otra parte de la suma la acotamos usando nuestra estimacion de las
colas de la distribucion binomial:2

X k
X

2M
f
b(k, n, p) 2M
<
f
(p)
b(k, n, p) <

n
4n 2
k:|k/np|>
|k/np|>
si n n0 (). En consecuencia, |Bn (p) f (p)| < 2 si n n0 (), para todo

p [0, 1]. Esto concluye la prueba del teorema de Weierstrass.
2.7.
La aproximaci
on de Poisson a la distribuci
on binomial
La aproximacion de Poisson es una aproximacion de la distribucion binomial para el caso en que k es peque
no comparado con n y p es tambien
peque
no pero = np es moderado.
2
Si en lugar de utilizar la desigualdad de Tchebyschev, utilizamos otra herramienta de

probabilidades conocida como la teora de grandes desviaciones, es posible obtener una
acotaci
on m
as precisa del error de aproximar f por Bn . Ver el artculo [11] citado en la
bibliografa
c
Pablo L. De Napoli
46
Empecemos desarrollando el combinatorio que aparece en la distribucion

binomial:

n(n 1)(n 2) . . . (n k + 1) k
n
b(k, n, p) =
pk q nk =
p (1 p)nk =
k
k!
Notamos que en el desarrollo del combinatorio, hay k factores en el numerador. Multiplicando y dividiendo por nk queda:

1
2
k1
(np)k
b(k, n, p) = 1
1
1
(1 p)nk
n
n
n
k!
Pongamos = np, entonces

k
nk
1
2
k1
b(k, n, p) = 1
1
1
1
n
n
n
k!
n
Como

lm
n+
1
n
n
= e
deducimos que si k es peque

no en comparacion con n, entonces
b(k, n, p)
k
e
k!
Como formalizacion de esta idea, obtenemos el siguiente teorema:

Teorema 2.7.1 (Teorema de Poisson) Si k esta fijo, y n + de modo
que = np permanece fijo, entonces:
limn+ b(k, n, p) =
k
e
k!
Lo que obtuvimos en el lmite, es otra distribucion de probabilidades que

se utiliza con frecuencia y se conoce como distribuci
on de Poisson:
Definici
on 2.7.1 Sea X : N0 una variable aleatoria entera. Diremos
que X tiene distribucion de Poisson de parametro > 0, si
P {X = k} =
Notaci
on: X P().
k
e
k!
c
Pablo L. De Napoli
47
Hay que verificar que efectivamente tenemos una distribucion de probabilidades, es decir que:
P {X = k} =
k=0
k=0
k
=1
k!
pero esto es inmediato, considerando el desarrollo en serie de e .

Vamos a calcular ahora la esperanza y la varianza de la distribucion de
Poisson: para ello utilizaremos el metodo de las funciones generatrices, que
desarrollamos anteriormente: Si X tiene distribucion de Poisson de parametro
, la funcion generatriz de su distribucion de probabilidades es:
gX (z) =
k=0
k z k
= e ez = e(z1)
k!
Tenemos que
0
gX
(z) = e(z1)
00
gX
(z) = 2 e(z1)
En consecuencia por la proposicion 2.4.2, deducimos que:

0
E(X) = gX
(1) =
Var(X) = g 00 (1) + g 0 (1) g 0 (1)2 = 2 + 2 =

Otra consecuencia es la siguiente:
Proposici
on 2.7.1 Si X P(1 ), Y P(2 ) y son independientes, entonces X + Y P(1 + 2 ).
Prueba: Por la proposicion 2.4.1,
gX+Y (z) = gX (z) gY (z) = e1 (z1) e2 (z1) = e(1 +2 )(z1)
En consecuencia, X+Y P(1 +2 ), ya que la distribucion de probabilidades
de X + Y esta determinada por su funcion generatriz.
c
Pablo L. De Napoli
2.8.
48
Otras distribuciones relacionadas con los

ensayos de Bernoulli
Distribuci
on Geom
etrica
Supongamos que realizamos una secuencia infinita de ensayos de Bernoulli, con probabilidad de exito p. Sea T1 la cantidad de ensayos que tenemos
que realizar hasta obtener el primer exito (esto generaliza el ejemplo de la
pagina 20 que corresponde al caso p = 1/2.).
Entonces, si T1 = k significa que los primeros k1 ensayos fueron fracasos
y el k-esimo fue un exito, y como los ensayos son independientes obtenemos
como antes que:
P {T1 = k} = q k1 p = (1 p)k1 p
(y T1 = + con probabilidad cero). Esta distribucion se conoce con el
nombre de distribuci
on geom
etrica de parametro p.
Notaci
on: X G(p) significa que X se distribuye con la distribucion
geometrica de parametro p.
Con una cuenta analoga a la que hicimos antes para el caso p = 1/2
podemos probar que E[X] = p1 .
La funcion generatriz de la distribucion de probabilidades de X se obtiene
justamente sumando una serie geometrica:
gX (z) =
X
k=1
q k1 pz k =
1
pz
si |z| <
1 qz
q
Distribuci
on binomial negativa
Mas generalmente podemos considerar la variable Tr definida como el
n
umero de ensayos que tenemos que realizar hasta obtener r exitos. Queremos
calcular la distribucion de Tr :
Para ello notamos que,
Tr = E1 + E2 + . . . + Er
donde E1 = T1 y Ej = n
umero de ensayos que debemos realizar despues del
exito j 1 para obtener el siguiente exito. Notamos que las variables Ej son
independientes (ya que el tiempo que tenemos que esperar para obtener el
c
Pablo L. De Napoli
49
siguiente exito despues de obtener j1 exitos no depende de cuanto tardamos

en obtener j exitos) y que por la discusion anterior, cada Ej tiene distribucion
geometrica de parametro p.
Podemos entonces calcular la distribucion de Tr utilizando el metodo de
las funciones generatrices, ya que por la independencia de las Ej , la funcion
generatriz de la distribucion de probabilidades de Tr es:
r

pz
gTr (z) = gE1 (z)gE2 (z) gEr (z) =
1 qz
Por lo tanto, utilizando el desarrollo del binomio (1 qz)r y haciendo el
cambio de ndice k = j + r,

X
X
r
r
r
j
gTr (z) = (pz)
(qz) =
pr (q)kr z k
j
kr
j=0
k=r
En consecuencia,

P {Tr = k} =
r
kr
pr (q)kr (k = r, r + 1, . . .)
Notaci
on: X BN (r, p)
Falta: distribucion hipergeometrica
Distribuci
on Multinomial
Es una generalizacion de la distribucion binomial donde consideramos
experimentos con muchos varios posibles, en lugar de un experimento con
solo dos resultados.
Consideramos un experimento con N resultados posibles, y supongamos
que la probabilidad de que ocurra el i-esimo resultado en una realizacion del
experimento es pi , de modo que:
N
X
pi = 1
i=1
Supongamos que repetimos el experimento n veces en condiciones independientes, y llamemos Xi a la cantidad de veces que ocurre el i-esimo
resultado, de modo que:
c
Pablo L. De Napoli
50
X1 + X2 + . . . + X N = n
Entonces, la distribucion de probabilidades conjunta de las Xi viene dada
por:
P {X1 = k1 , X2 = k2 , . . . , XN = kN } =
n!
pk1 pk2 . . . pkNN
k1 !k2 . . . kN ! 1 2
(2.6)
si k1 + k2 + . . . + kN = N (y cero en caso contrario). Notamos que X =

(X1 , X2 , . . . , XN ) es un vector aleatorio N -dimensional.
Notaci
on: X M(n, p1 , p2 , . . . , pN )
Esta distribucion recibe este nombre, debido a su relacion con el desarrollo
multinomial:
(x1 + x2 + . . . + xN )n =
X
kN :k1 +k2 +...+kN
0ki n
n!
xk11 xk22 . . . xkNN
k
!k
.
.
.
k
!
1 2
N
=n
(Tomando xi = pi se ve que las probabilidades en (2.6) suman 1, por lo

que se trata efectivamente de una distribucion de probabilidades).
Una propiedad interesante de la distribucion multinomial es que las distribuciones de cada una de las Xi por separado (distribuciones marginales)
son binomiales:
Proposici
on 2.8.1 Si X M(n, p1 , p2 , . . . , pN ), entonces
Xi Bi(n, pi )
0iN
c
Pablo L. De Napoli
51
Prueba: Por simetra, basta verlo para la distribucion de X1 . Si 0 k1 n,

X
P {X1 = k1 } =
P {X1 = k1 , X2 = k2 , . . . , XN = kN }
kN :k2 +...+kN =nk1
0ki n
X
kN :k2 +...+kN =nk1
0ki n
n!
pk1 pk2 . . . pkNN
k1 !k2 . . . kN ! 1 2
n!
pk11
k1 !(n k1 )!
X
kN :k2 +...+kN =nk1
(n k1 )! k2
p2 . . . pkNN
k2 ! . . . kN !
0ki n
n!
pk1 (p2 + p3 + . . . + pN )nk1
k1 !(n k1 )! 1
n!
=
pk11 (1 p1 )nk1
k1 !(n k1 )!
luego
X1 Bi(n, p1 )
Captulo 3
Distribuciones Continuas
3.1.
Variables aleatorias continuas
En este captulo estudiaremos variables aleatorias no discretas, en particular variables continuas. La idea basica es la misma que antes: una variable
aleatoria es un n
umero asociado al resultado de un experimento aleatorio,
por lo que sera una funcion X definida sobre el espacio muestral . Nuevamente, hay un requerimiento tecnico, derivado del hecho de que en general
no resulta posible asignar probabilidades a todas las partes de ; a saber que
podamos calcular las probabilidades asociadas a dicha funcion. En el caso de
variables discretas, pedamos que estuvieran definidas las probabilidades de
que X tome un determinado valor. En el caso de variables no discretas, esto
no sera suficiente: requeriremos que podamos calcular la probabilidad de que
el valor de X caiga en un intervalo dado de la recta.
Definici
on 3.1.1 Sea (, E, P ) un espacio de probabilidad. Una variable
aleatoria sera una funcion X : R = R {}, con la siguiente propiedad: para cualquier intervalo de la recta (a, b] (a, b R) la preimagen
X 1 (a, b] = { : a < X() b} pertenece a E, es decir esta definida la
probabilidad P (X 1 (a, b]) = P {a < X b} de que X tome un valor entre a
y b.
Observaci
on: En analisis real, el concepto analogo es el de funcion medible (ver apendice B).
Definici
on 3.1.2 Diremos que la variable X es (absolutamente) continua si
52
c
Pablo L. De Napoli
53
existe una funcion integrable1 no negativa f : R R0 tal que

Z b
f (x) dx
P {a < X b} =
a
La funcion f debe verificar que:

Z
f (x) dx = 1
Se dice que f se distribuye seg

un la densidad de probabilidades f (x) (o
que f es la densidad de probabilidad de X). A veces se nota, X f (x).
Definici
on 3.1.3 Si X : R es una variable aleatoria, su funcion de
distribucion sera la funcion F : R R dada por:
FX (x) = P {X x}
Si X es absolutamente continua, y se distribuye seg
un la densidad f (x) tendremos:
Z x
FX (x) =
f (t) dt
Ejemplo 1: variables aleatorias discretas Sea X una variable aleatoria discreta que toma una sucesion a lo sumo numerable de valores (xi ).
Entonces, X es una variable aleatoria de acuerdo a nuestra nueva definicion
(es decir, realmente estamos extendiendo el concepto) ya que:
[
{ : X() = xi }
{ : a < X() b} =
a<xi b
Por definicion de variable aleatoria discreta, { : X() = xi } E,

y como siendo la clase E una -algebra, es cerrada por uniones numerables,
deducimos que { : a < X() b} E.
La funcion de distribucion de X viene dada por la funcion en escalera
X
FX (x) =
P {X = xi }
xi <x
1
Quiere decir que en alg

un sentido sea posible calcular la integral de f sobre un intervalo de la recta. Los que no conozcan la teora de la integral de Lebesgue pueden pensar
integrable Riemman, los que cursaron analisis real pueden pensar que es integrable Lebesgue
c
Pablo L. De Napoli
54
que tiene un salto de magnitud pi = P {X = xi } en el punto xi (y que es

constante en cada intervalo entre dos xi ).
Ejemplo 2: Volvamos a considerar el experimento de elegir un n
umero
real en el intervalo [0, 1] con distribucion uniforme. Sea X el n
umero obtenido.
Que lo elegimos con distribucion uniforme significa que para cualquier
intervalo I [0, 1], postulamos que
P {X I} = |I|
donde |I| representa la medida del intervalo.
Figura 3.1: La densidad funcion de distribucion de una variable aleatoria con

distribucion uniforme en el intervalor [0, 1].
Entonces la funcion de distribucion de X viene dada por:
0 si x < 0
x si 0 x 1
FX (x) =
1 si x > 1
X es una variable absolutamente continua con densidad,

1 si x [0, 1]
fX (x) =
0 si x 6 [0, 1]
c
Pablo L. De Napoli
55
Notaci
on: Notamos X se distribuye uniformemente en el intervalo [0, 1]
del siguiente modo: X U(0, 1).
Mas generalmente si [a, b] es un intervalo de la recta, decimos que X tiene
distribucion uniforme en el intervalo [a, b] (Notacion: X U(a, b)) si para
cualquier intervalo I [a, b] la probabilidad de que X pertenezca a I es
proporcional a la medida de I, es decir:
|I|
ba
En este caso, la funcion de distribucion es:
0 si x < a
(x a)/(b a) si a x b
FX (x) =
1 si x > b
P {X I} =
y la funcion de densidad es,

fX (x) =
1
ba
si x [a, b]
0 si x
6 [a, b]
Ejemplo 3: Decimos que X tiene distribuci

on normal, notada N (, 2 ),
si su funcion de densidad de probabilidad viene dada por:
1
2
2
fX (x) = e(x) /(2 )
2
donde , son dos parametros reales con > 0. El caso = 0, 1, es decir
N (0, 1), se conoce como distribuci
on normal est
andar.
La funcion de distribucion de X sera la funcion:
Z x
1
2
2
e(t) /(2 ) dt
(3.1)
FX (x) =
2
Veremos en el captulo 5 que la disttibucion normal resulta u
til por ejemplo
para aproximar la distribucion binomial, del n
umero Sn de exitos en n ensayos
de Bernoulli, cuando el n
umero de ensayos es grande.
3.1.1.
Propiedades de las funciones de distibuci

on
El siguiente lema nos dice que propiedades tienen las funciones de distribucion:
c
Pablo L. De Napoli
56
Figura 3.2: La densidad normal estandar
Figura 3.3: La funcion de distribucion de una variable con distribucion normal

estandar
Lema 3.1.1 Sea X : R una variable aleatoria y F = FX su funcion de
distribucion. Entonces F tiene las siguientes propiedades:
i) 0 F (x) 1 y F es creciente.
c
Pablo L. De Napoli
57
ii) F es continua por la derecha.

iii) F (x0 ) lmxx0 F (x) = P {X = x0 } En particular, F es continua en
x = x0 si y solo si P {X = x0 } = 0.
iv) Si X es finita con probabilidad 1 (o sea P {X = } = 0), entonces:
lm F (x) = 0
lm F (x) = 1
x+
Prueba: i) Que 0 F (x) 1 es obvio por ser F (x) una probablidad. Si

x1 x2 tenemos que: {X x1 } {X x2 }, y en consecuencia F (x1 )
F (x2 ).
ii) Sea x0 R y consideremos una sucesion decreciente (xn )nN > x0 que
converja a x0 . Entonces,
\
{X xn }
{X x0 } =
nN
Es la interseccion de una familia decreciente numerable de eventos. Entonces,

por las propiedades de continuidad de la probabilidad:
P {X x0 } = lm P {X xn }
n+
Es decir que:
F (x0 ) = lm F (xn )
n+
Y como esto vale para toda sucesion (xn ) > x0 decreciente, que converja a
x0 deducimos que:
F (x0 ) = lm+ F (x)
xx0
Es decir, que F es continua por la derecha.

iii) Analogamente, sea x0 R y tomemos una sucesion creciente (xn )nN <
x0 que converja a x0 . Ahora tenemos que,
[
{X < x0 } =
{X xn }
nN
c
Pablo L. De Napoli
58
Entonces, aplicando nuevamente las propiedades de continuidad de la probabilidad:

P {X < x0 } = lm P {X xn }
n+
Es decir que:
P {x < x0 } = lm F (xn )
n+
Como esto valle para toda sucesion (xn )nN < x0 que converja a x0 , deducimos que:
lm F (x) = P {X < x0 }
xx0
En consecuencia,
F (x0 ) lm F (x) = P {X x0 } P {X < x0 } = P {X = x0 }
xx0
En particular, F sera continua por la izquierda en x0 (y por lo tanto continua

en x0 ) si y solo si P {X = x0 } = 0.
iv) Es analoga tomando sucesiones crecientes (decrecientes) tales que
xn .
3.2.
La integral de Riemman-Stieltjes y la definici

on de esperanza
La integral de Riemman-Stieltjes es una generalizacion de la integral de

Riemman. Stieltjes observo que cualquier funcion creciente F : R R origina una nocion de medida de intervalos,
mF ((a, b]) = F (b) F (a)
Para las aplicaciones a la teora de probabilidades, nos interesa el caso en
que F es la funcion de distribucion de una variable aleatoria.
Stieltjes definio la integral
Z b
(x) dF (x)
(3.2)
a
generalizando la definicion de la integral de Riemman de la siguiente

manera: sea
c
Pablo L. De Napoli
59
: a = x0 < x1 < x2 < . . . < xn = b

una particion del intervalo [a, b] (Dar una particion no es otra cosa que
elegir finitos puntos del intervalo en orden creciente) y elijamos puntos intermedios i (xi , xi+1 ] en cada intervalito de la particion (En realidad, estamos
trabajando con particiones con puntos marcados, pero no lo haremos explcito en la notacion). Consideramos entonces las sumas de Riemman-Stieltjes
S (, F ) =
n1
X
()(F (xi+1 ) F (xi ))
i=0
Definici
on 3.2.1 Diremos que la integral (3.2) existe y toma el valor I R
si las sumas S (, F ) tienden al valor I cuando la norma
|| = max |xi+1 xi |
0in1
de la particion tiende a cero, es decir si dado > 0, existe > 0 tal

que |I S (, F )| < para toda particion con || < .
Observemos que si F (x) = x, la integral de Riemman-Stieltjes se reduce
a la integral de Riemman usual.
Algunas propiedades de la integral que son consecuencias mas o menos
inmediatas de las definiciones:
Rb
Rb
Lema 3.2.1 (Linealidad)
1. Si a 1 (x)dF (x) y a 2 (x)dF (x) existen,
Rb
y = 1 1 + 2 2 entonces, a (x) dF (x) tambien existe, y tenemos
que:
Z
Z
(x) dF (x) = 1
Z
1 (x) dF (x) + 2
2 (x) dF (x)
a
Rb
Rb
2. Si a (x) dF1 (x) y a (x) dF2 (x) existen, y F = 1 F1 + 2 F2 con
Rb
1 , 2 0, entonces a (x) dF existe, y vale que:
Z
Z
(x) dF (x) = 1
Z
(x) dF1 (x) + 2
(x) dF2 (x)

a
c
Pablo L. De Napoli
60
Rb
Lema 3.2.2 (Aditividad respecto al intervalo) Sea c [a, b]. Si a (x) dF (x)
Rc
Rb
existe, entonces tambien existen a (x) dF (x) y c (x) dF (x) y se verifica:
Z b
Z c
Z b
(x) dF (x)
(x) dF (x) +
(x) dF (x) =
c
El siguiente teorema nos da una condicion que permite garantizar la existencia de integrales de Riemman-Stieltjes:
Teorema 3.2.1 Si : [a, b] R es continua, y si F : [a, b] R es creciente, entonces la integral de Riemman-Stieltjes
Z b
(x) dF (x)
a
existe
Para la prueba, vease el apendice D.
El siguiente lema, nos dice como acotar una integral de Stieltjes:
Rb
Lema 3.2.3 Supongamos que a (x) dF (x) existe, siendo una funcion
acotada en [a, b] y F creciente en [a, b]. Entonces,
!

Z b

(x) dF (x) sup |(x)| (F (b) F (a))

x[a,b]
Obs: Mas generalmente se puede demostrar que la integral de RiemmanStieltjes

Z b
(x) dF (x)
a
existe si (x) es continua en [a, b] y F es de variacion acotada (ya que toda funcion de variacion acotada se puede escribir como diferencia de dos
funciones crecientes). En este caso, la integral se acota del siguiente modo:
!
Z b

(x) dF (x) sup |(x)| Vab (F )

a
x[a,b]
c
Pablo L. De Napoli
3.3.
61
La definici
on de Esperanza
Veamos como se aplican las integrales de Riemman-Stieltjes a la teora de

probabilidades. Para ello consideremos una variable aleatoria, X : R no
discreta y veamos como podramos definir la esperanza de X. Supongamos
por simplicidad primero que X toma valores en un cierto intervalo [a, b] de
la recta.
Entonces, si tomamos una particion del intervalo [a, b] (con puntos
marcados como antes), podemos considerar una variable aleatoria X que
aproxima a X del siguiente modo:
X = i si X (xi , xi+1 ]
Entonces:
E[X ] =
n1
X
i P {X = i } =
i=0
n1
X
i P {i < X i+1 }
i=0
n1
X
i (F (xi+1 ) F (xi ))
i=0
es exactamente la suma de Riemman-Stieltjes S (, F ) con (x) = x.

Entonces cuando la norma de la particion tiende a cero, E[X ] tiende a
la integral
Z b
x dF (x)
a
(que de acuerdo al teorema anterior siempre existe), y podemos aceptar

la siguiente definicion:
Definici
on 3.3.1 Sea X una variable aleatoria que tome valores en un intervalo [a, b] de la recta, entonces la esperanza de X es la integral de RiemmanStieltjes
Z b
E[X] =
xdF (x)
(3.3)
a
siendo F = FX su funcion de distribucion.
c
Pablo L. De Napoli
62
Mas generalmente podemos considerar la variable aleatoria (x) siendo

: R R una funcion continua, entonces:
E[(X )] =
n1
X
(i )P {X = i } =
i=0
n1
X
(i )P {i < X i+1 }
i=0
n1
X
(i )(F (xi+1 ) F (xi ))
i=0
Entonces, cuando la norma de la particion tiende a cero, estas sumas

convergen a la integral:
Z b
(x) dF (x)
a
y conjeturamos que
Z
E[(X)] =
(x) dF (x)
(3.4)
para toda funcion continua C[a, b] (aunque demostrar esto directamente

de la definicion es bastante complicado).
En particular,
Z b
2
(x )2 dF (x)
Var(X) = E[(X ) ] =
a
siendo = E[X].
Veamos algunos ejemplos, para familiarizarnos con esta idea:
Ejemplo 1: Variables aleatorias discretas Si X es una variable aleatoria discreta que solamente toma finitos valores v1 , v2 , . . . , vn y miramos la
suma S correspondiente a una particion vemos que solamente contribuyen a la suma aquellos terminos para los cuales vj (xi , xi+1 ] para alg
un j.
Refinando si es preciso la particion, podemos suponer que cada intervalito
(xi , xi+1 ] contiene un u
nico valor vj a lo sumo, y en ese caso elegimos i = vj
(sino la eleccion de i es irrelevante). Entonces la suma de Riemman-Stieltjes
para (3.3) es:
S =
X
i:vj (xi ,xi+1 ]
vj (F (xi+1 ) F (xi )) =
X
i:vj (xi ,xi+1 ]
vj P {X = vj }
c
Pablo L. De Napoli
63
que es el valor de E[X] conforme a la definicion de esperanza para variables aleatorias discretas.
Otra manera de pensar esta cuenta es la siguiente: para x0 R, definimos
la funcion de Heaviside:

0 si x < x0
Hx0 (x) =
1 si x x0
Hx0 es la funcion de distribucion de una variable aleatoria que toma el
valor x0 con probabilidad 1. Entonces tenemos:
Lema 3.3.1 Si x0 [a, b] y C[a, b], entones:
Z b
(x)dHx0 = (x0 )
a
Prueba: En S (, F ) el u
nico termino no nulo corresponde al intervalo
[xi , xi+1 ] que contiene a x0 , en consecuencia:
S (, F ) = (i )
y cuando || 0, (i ) (x0 ), por la continuidad de .

En consecuencia si X es una funcion de distribucion de una variable
discreta que toma finitos valores x1 , x2 , . . . , xn con probabilidad pi = P {X =
xi }, tenemos que:
F (x) =
n
X
pi Hxi (x)
i=1
En consecuencia, por la linealidad de la integral de Riemman-Stieltjes

respecto a F :
Z
E[(X)] =
(x)dF (x) =
a
n
X
i=0
Z
pi
(x)dHxi =
a
n
X
pi (xi )
i=1
(donde a xi b i). Este resultado coincide con la formula anteriormente vista para E[(X)] para variables discretas.
Ejemplo 2: Variables aleatorias absolutamente continuas Supongamos que X es una variable aleatoria continua, que tiene la densidad f (x).
Queremos calcular E[X]. Para ello, resultara u
til el siguiente lema:
c
Pablo L. De Napoli
64
Lema 3.3.2 Supongamos que F : [a, b] R es una funcion creciente con

derivada continua F 0 (x) = f (x), entonces
Z b
Z b
(x) dF (x) =
(x) f (x) dx
a
para toda funcion C[a, b].

Prueba: Por el teorema del valor medio, F (xi+1 ) F (xi ) = f (i )(xi+1
xi ) para cierto i (xi , xi+1 ). Entonces, con esta eleccion de los puntos
intermedios, la suma S se puede escribir como
S =
n1
X
(i )f (i )(xxi+1 xi )
i=0
y vemos que cuando la norma de la particion tiende a cero, tiende a la

integral de Riemman
Z b
(x) f (x) dx
a

En particular, podemos definir la esperanza de una variable aleatoria con
densidad continua f (x) por:
Z b
E[X] =
x f (x)dx
a
y mas generalmente,
Z
E[(X)] =
(x) f (x) dx
a
En particular:
2
Var(X) = E[(x ) ] =
(x )2 dx
siendo = E[X].
Un ejemplo: Si consideramos X una variable con distribucion uniforme
en el intervalo [a, b] entonces su densidad es:
f (x) =
1
ba
c
Pablo L. De Napoli
65
Con lo que
b
Z
= E(X) =
xf (x) dx =
a
a+b
2
y
Z b
VarX =
a
a+b
x
2
2
f (x) dx =
1
(b a)2
12
Que sucede si X no es una variable aleatoria acotada? En este caso

debemos considerar integrales de Riemman-Stieltjes impropias, de la forma:
Z
(x) dF (x)
Naturalmente definimos esta integral, de la siguiente manera:

Z
Z b
(x) dF (x) =
lm
(x) dF (x)
a,b+
El problema es que este lmite puede no existir. Si es no negativa,

podemos decir que siempre existe, pero puede valer +. Adoptaremos pues
la siguiente definicion.
Definici
on 3.3.2 Sea X : R una variable aleatoria, y sea F = FX su
funcion de distribucion. Diremos que X tiene esperanza finita, o que X es
integrable, si
Z
|x| dF (x) < +
En ese caso, definimos:

Z
E[X] =
x dF (x)
Mas generalmente, tenemos la formula:

Z
E[(X)] =
(x) dF (x)
valida si
|(x)| dF (x) < +
c
Pablo L. De Napoli
66
Y cuando X tiene una densidad continua,

Z
(x) f (x) dx
E[(X)] =
Ejemplo: Supongamos que X se distribuye seg

un la densidad normal
2
N (, ). Entonces, haciendo el cambio de variable y = x
, econtramos que
Z
Z
1
1
2
(x)2 /(2 2 )
E[X] =
xe
dx =
( + y) ey /2 dy
2
2

Z
Z
1
1
y 2 /2
y 2 /2
e
dy +
ye
dy =
=
2
2
[La segunda integral se anula, pues la densidad normal estandar es una funcion par]. Similarmente,
Z
Z
1
1
2
2 (x)2 /(2 2 )
Var(X) =
(x ) e
dx =
2 y 2 ey /2 dy
2
2
Para calcular esta integral, observamos que:
2 0
2
ey /2 = (y)ey /2
e integramos por partes, deducimos que:
Z
2
2 1
ey /2 dy = 2
Var(X) =
2
Este ejemplo aclara el significado de los parametros de la distribucion normal.
Ejercicio: Se dice que la variable aleatoria tiene distribucion exponencial
Exp() (donde > 0) cuando su densidad de probabilidad es
fX (x) = ex I(0,+) (x)
Demostrar que entonces
E(X) =
1
1
Var(X) = 2
(3.5)
c
Pablo L. De Napoli
67
Un ejemplo de una variable aleatoria que no es continua ni discreta: Sea X una variable aleatoria con distribucion uniforme en el intervalo
[0, 1] y consideramos Y = max(X, 1/2), entonces:

1/2 si X 1/2
Y =
X si X > 1/2
Calculemos la funcion de distribucion de Y :
FY (x) = P {Y x} = P {X x 1/2 x}
Deducimos que:
FY (x) =
P () = 0 si x < 1/2
P {X x} = x si 1/2 x 1
1 si x > 1
Figura 3.4: La funcion de distribucion FY en este ejemplo

Deducimos que Y no es una variable discreta ya que FY no es una funcion
escalera, y que tampoco Y es una variable absolutamente continua ya que
FY no es continua.
Calculemos la esperanza de Y , esto puede hacerse de varias formas, por
ejemplo usando la aditividad con respecto al intervalo de integracion:
Z 1
Z 1/2
Z 1
E[Y ] =
x dF (x) =
x dF +
x dF
0
1/2
c
Pablo L. De Napoli
68
En el intervalo cerrado [0, 1/2] la funcion F coincide con la funcion 21 H1/2 en

consecuencia:
Z 1/2
Z
1 1/2
1
x dF =
x dH1/2 =
2 0
4
0
mientras que:
Z
x dF (x) =
1/2
xdx =
1/2
1 1
3
=
2 8
8
pues en [1/2, 1] la funcion F (x) tiene derivada continua F 0 (x) = 1. Concluimos que:
1 3
5
E[Y ] = + =
4 8
8
Otra manera de hacer la cuenta es considerar la funcion de variable real
(x) = max(x, 1/2) y utilizar la formula para E[(X)]:
Z
1/2
x dx =
1/2 dx +
max(x, 1/2) dx =
E[(X)] =
1/2
1 3
5
+ =
4 8
8
Ejercicio: Supongamos que Z = mn(X, 1/2) donde X tiene distribucion

uniforme en [0, 1]. Determinar la funcion de distribucion FZ y la esperanza
E(Z).
3.4.
Vectores Aleatorios
Las ideas anteriores sobre variables aleatorias continuas, pueden generalizarse para considerar vectores aleatorios.
Definici
on 3.4.1 Sea (, E, P ) un espacio de probabilidad. Un vector aleatorio n-diemensional es una funcion X : Rn con la propiedad de
que si I = (a1 , b1 ] (a2 , b2 ] . . . (a2 , b2 ] es un intervalo de Rn entonces
X 1 (I) = { : X() } E, es decir esta definida la probabilidad
P {X I} de que X pertenezca a I.
Obsevaci
on: Dar un vector aleatorio n-dimensional es equivalente a dar
n variables aleatorias X1 , X2 , . . . , Xn .
Ejemplos de vectores aleatorios:
c
Pablo L. De Napoli
69
1. Un ejemplo de vector aleatorio discreto es el que consideramos al describir la distribucion multinomial (ver pagina 50).
2. Distribucion uniforme en un conjunto A Rn de medida positiva: si
A es un conjunto de Rn de medida positiva y X es un vector aleatorio
n-dimensional, decimos que X se distribuye uniformemente en A si X
pertenece a A con probabilidad 1, y si
P {X B} =
m(B)
m(A)
BA
En esta definicion A y B pueden ser conjuntos medibles Lebesgue cualesquiera, y m(A) denota la medida de Lebesgue de A (Quienes no
hayan cursado analisis real, pueden pensar que A y B son conjuntos
para los que tenga sentido calcular la medida de A, por ejemplo que A
y B son abiertos de R2 y m(A) representa el area de A).
3. Sea f : Rn R una funcion integrable tal que 0 f (x) 1, y
Z
f (x) dx = 1
Rn
Decimos que el vector X se distribuye seg

un la densidad conjunta
f (x) si para cualquier conjunto medible A Rn , tenemos que:
Z
P {X A} =
f (x) dx
A
(De nuevo, quienes no hayan cursado analisis real pueden pensar que
f es integrable en el sentido de Riemman, y A es cualquier abierto de
Rn ).
4. Por ejemplo, una posible generalizacion de la distribucion normal a dos
dimensiones (normal bi-variada), se obtiene especificando que el vector
(X, Y ) se distribuye seg
un la densidad conjunta:
f (x, y) =
1 (x2 +y2 )/2

e
2
c
Pablo L. De Napoli
70
Mas generalmente, decimos que el vector aleatorio X tiene distribuci

on normal multivariada si se distribuye seg
un una densidad de la
forma:
f (x) = ceq(x)
donde q(x) = xt Ax es una forma cuadratica definida positiva, y c es
una constante elegida de modo que la integral de f sobre todo Rn de 1.
Mas adelante volveremos sobre este concepto.
La nocion de funcion de distribucion puede generalizarse a vectores aleatorios.
Definici
on 3.4.2 Si X : Rn es un vector aleatorio, su funci
on de
n
distribuci
on conjunta es la funcion F : R R dada por:
F (x1 , x2 , . . . , xn ) = P {X1 x1 , X2 x2 , . . . , xn Xn }
Por ejemplo, si X es un vector aleatorio que se distribuye seg
un la densidad conjunta f (x), entonces su funcion de distribucion conjunta es:
Z
x1
x2
F (x1 , x2 , . . . , xn ) =
xn
f (
x1 , x2 , . . . , xn ) d
x1 d
x2 . . . d
xn
...
La nocion de funcion de distribucion resulta mas complicada que en el

caso de variables aleatorias unidimensionales. En el caso unidimensional, la
probabilidad de que la variable X tome un valor en el intervalo (a, b] viene
dada, en terminos de la funcion de distribucion FX , por:
P {X (a, b]} = P {X b} P {X a} = FX (b) FX (a)
En cambio si (X, Y ) es un vector aleatorio con funcion de distribucion
conjunta F , y R = (a, b] (c, d] es un rectangulo (semiabierto) en R2 , la probabilidad de que (X, Y ) tome un valor en R es (por la formula de inclusiones
y exclusiones):
P {(X, Y ) R} = P {X b, Y d} P {X a, Y d}
P {X b, Y c} + P {X a, Y c}
c
Pablo L. De Napoli
71
Es decir que:
P {(X, Y ) R} = F (b, d) F (a, d) F (b, c) + F (a, c)
(3.6)
(Esta cantidad es necesariamente no negativa, esta es la generalizacion

bidimensional del hecho de que en el caso unidimensional la funcion de distribucion es creciente.)
Una formula analoga (pero mas complicada!) es cierta para vectores aleatorios en mas dimensiones. Por ello, la nocion de funcion de distribucion no
resultara tan u
til como lo era en el caso unidimensional (y con frecuencia
resulta mas comodo pensar directamente en terminos de probabilidades asignadas a rectangulos, o subconjuntos mas generales de Rn ).
3.4.1.
Densidades y distribuciones marginales
Consideramos para simplificar la notacion, un vector aleatorio bidimensional (X, Y ). Investiguemos que relacion existe entre la funcion de distribucion
conjunta F del vector (X, Y ) y las funciones de distribucion FX y FY de cada
variable por separado:
Notemos que:
FX (x) = P {X x} = P {X x, Y +} = F (x, +) = lm F (x, y)
y+
Similarmente,
FY (y) = lm F (x, y)
x+
FX y FY se conocen como las funciones de distribuci

on marginales del
vector aleatorio (X, Y ).
Consideremos ahora el caso particular, en que el vector aleatorio (X, Y )
se distribuye seg
un la densidad conjunta f (x, y), su funcion de distribucion
sera entonces:
Z x0 Z y0
F (x0 , y0 ) = P {X x0 , Y y0 } =
f (x, y) dx dy
y en consecuencia sus funciones de distribucion marginales vendran dadas

por:
Z x0 Z
FX (x0 ) =
f (x, y) dx dy
c
Pablo L. De Napoli
Z
72
y0
f (x, y) dx dy
FY (y0 ) =
Utilizando el teorema de Fubini, podemos escribir FX como una integral

reiterada:

Z x0 Z
f (x, y) dy dx
FX (x0 ) =
Esta igualdad significa que el vector aleatorio X se distribuye seg

un la densidad:
Z
f (x, y) dy
(3.7)
fX (x) =
Similarmente, el vector aleatorio Y se distribuye seg

un la densidad:
Z
fY (x) =
f (x, y) dy
(3.8)
fX y fY se conocen como las densidades marginales de probabilidad del

vector aleatorio (X, Y ).
3.4.2.
Esperanza de funciones de vectores aleatorios.

Covariancia
Sea (X, Y ) un vector aleatorio bidimensional, y : R2 R una funcion

continua. La formula (3.4) para la esperanza de una funcion de una variable
aleatoria puede generalizarse a vectores aleatorios:
Z Z
E[(X, Y )] =
(x, y) dF (x, y)
(3.9)
donde la integral que aparece en el segundo miembro es una integral doble

de Riemman-Stieltjes.
Para definir este concepto puede procederse como en analisis II, considerando primero la integral
Z bZ d
(x, y) dF (x, y)
(3.10)
a
en un rectangulo R = [a, b] [c, d] de R2 . Consideramos una particion

del rectangulo R en rectangulos mas peque
nos Rij = (xi , xi+1 ] (yj , yj+1 ],
definida por una particion x del intervalo [a, b]:
a = x0 < x1 < . . . < xM = b
c
Pablo L. De Napoli
73
y otra particion y del intervalo [c, d]:

a = y0 < y1 < . . . < yN = b
Elegimos puntos intermedios i [xi , xi+1 ] y j [yj , yj+1 ], y consideramos sumas de Riemman-Stieltjes dobles:
S (, F ) =
M
1 N
1
X
X
(i , j )F (Ri j)
i=0 j=0
siendo
F (Rij ) = F (xi+1 , yj+1 ) F (xi , yj+1 ) F (xi+1 , yj ) + F (xi , yj )
que de acuerdo a la formula (3.6), representa la probabilidad de que el vector
(X, Y ) tome un valor en el rectangulo Rij .
Definamos la norma || de la particion como el maximo de las normas
de las particiones x y y . Entonces si, cuando la norma de la particion
tiende a cero, las sumas S(, F ) convergen a un n
umero I, diremos que la
integral (3.10) existe, y que toma el valor I. Analogamente a lo que sucede en
el caso unidimensional, podemos demostrar que esto sucede si F es la funcion
de distribucion de un vector aleatorio, y es continua.
La intergral impropia, sobre todo el plano, que aparece en la formula (3.9)
puede definirse como el lmite de integrales sobre rectangulos:
Z
Z bZ
(x, y) dF (x, y) =
(x, y) dF (x, y)
lm
a,c;b,d+
Para justificar intuitivamente la formula (3.9) podemos proceder como

en el caso discreto, definiendo variables aleatorias discretas X e Y que
aproximan a X e Y por:
X = i si X (xi , xi+1 ]
Y = i si Y (yj , yj+1 ]
y observando que:
E[(X , Y )] = S (, F )
c
Pablo L. De Napoli
74
Por lo que cuando la norma de la particion tiende a cero, obtenemos formalmente la formula (3.9).
El caso que mas nos va a interesar, es cuando el vector aleatorio (X, Y ) se
distribuye seg
un una densidad conjunta f (x, y). En este caso, como ocurra
en el caso unidimensional, la esperanza de (X, Y ) puede calcularse mediante
una integral de Riemman ordinaria, en lugar de una integral de RiemmanStieltjes:
Z Z
(x, y) f (x, y) dx dy
E[(X, Y )] =
Un caso importante de aplicacion de las formulas anteriores es cuando

queremos calcular la covariancia de dos variables aleatorias en el caso continuo. Recordamos que por definicion:
Cov(X, Y ) = E[(X X )(Y Y )]
siendo X = E[X], Y = E[Y ]. Entonces tomando (x, y) = (xX )(y
Y ) en las formulas anteriores, tenemos que:
Z Z
(x X )(y Y ) dF (x, y)
Cov(X, Y ) =
en el caso general, y
Z
(x X )(y Y ) f (x, y) dx dy
Cov(X, Y ) =
si el vector (X, Y ) admite una densidad conjunta.
3.4.3.
Independencia
Nuestro siguiente objetivo sera extender a variables no discretas la nocion

de independencia:
Definici
on 3.4.3 Dos variables aleatorias X e Y se dicen independientes,
cuando para todo a < b y todo c < d los eventos {X (a, b]} e {Y
(c, d]} son independientes. Es decir (en virtud de la definicion de eventos
independientes), si vale que:
P {a < X b, c < Y d} = P {a < X b}P {c < Y d}
c
Pablo L. De Napoli
75
Lema 3.4.1 Supongamos que el vector (X, Y ) admite una densidad conjunta
continua f (x, y). Entonces las variables X e Y son independientes, si y solo
si f se factoriza en la forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY las densidades marginales de probabilidad.
Prueba: Supongamos primero que X e Y son independientes, y que el vector (X, Y ) se distribuye seg
un la densidad conjunta f (x, y). Entonces X se
distribuye seg
un la densidad marginal fX dada por (3.7), y similarmente Y
se distribuye seg
un la densidad marginal dada por (3.8).
Entonces dado (x0 , y0 ) R2 y h, k > 0, tenemos que:
x0 +h
y0 +k
P {x0 < X x0 + h, y0 < Y y0 + k} =
f (x, y) dx dy (3.11)
x0
y0
x0 +h
P {x0 < X x0 + h} =
fX (x) dx
(3.12)
fX (y) dy
(3.13)
x0
y0 +k
P {y0 < Y y0 + k} =
y0
En virtud de la definicion (3.4.3), vemos que:

P {x0 < X x0 + h, y0 < Y y0 + k}
hk
P {x0 < X x0 + h} P {x0 < X x0 + k}
h
k
De la expresion (3.12) cuando h 0, deducimos que:
=
(3.14)
P {x0 < X x0 + h}
fX (x0 )
h
por el teorema fundamental del calculo (siendo fX continua en x0 ).
Similarmente, cuando k 0, (3.13) y el teorema fundamental del calculo
nos dicen que:
P {y0 < Y y0 + k}
fY (y0 )
h
c
Pablo L. De Napoli
76
Finalmente, de la expresion (3.11), por el teorema de diferenciacion para

integrales (generalizacion del teorema fundamental del calculo), deducimos
que:
P {x0 < X x0 + h, y0 < Y y0 + k}
f (x0 , y0 )
hk
cuando h, k 0, siempre que f sea continua en el punto (x0 , y0 ).
En consecuencia, cuando h, k 0, a partir de la relacion (3.14), obtenemos que:
f (x0 , y0 ) = fX (x0 )fY (y0 )
(3.15)
Esto prueba una de las implicaciones del teorema2
Para probar la afirmacion recproca, supongamos que la densidad conjunta f puede expresarse en la forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY dos densidades de probabilidad (Notemos que entonces, fX
y fY deben ser entonces necesariamente las densidades marginales dadas por
(3.7 - 3.8), como se deduce integrando respecto de x y de y).
Entonces, en virtud del teorema de Fubini,
Z bZ d
P {a < X b, c < Y d} =
f (x, y) dx dy =
a
b
Z
Z

fX (x) dx
fX (x) dx
= P {a < X b}P {c < Y d}
por lo que se deduce que X e Y son variables aleatorias independientes.

Notemos, que el significado de esta demostracion, es que la relacion (3.15),
es una expresion infinitesimal de la definicion de independencia.
3.4.4.
Vectores aleatorios n-dimensionales
Las ideas anteriores se generalizan sin dificultad a vectores aleatorios

multidimensionales, pero la notacion resulta mas complicada. As pues si
X : Rn es un vector aleatorio n-dimensional, que se distribuye seg
un una
2
Para evitar complicaciones tecnicas, hemos supuesto que la densidad conjunta f es

continua. No obstante, si f fuera solamente integrable, repitiendo el mismo argumento y
usando el teorema de diferenciaci
on de integrales que se ve en analisis real, obtendramos
que la relaci
on (3.15) se verifica en casi todo punto.
c
Pablo L. De Napoli
77
densidad conjunta f (x) = f (x1 , x2 , . . . , xn ) que supongremos por simplicidad

continua, tendremos que:
La esperanza de una funcion (X) del vector X, donde : X R es
una funcion continua, se puede calcular mediante la formula:
Z
(x)f (x) dx
E[(X)] =
Rn
La k-esima componente Xk del vector X (1 k n) se distribuye

seg
un la densidad marginal:
Z
f (x1 , x2 , . . . , xk1 , x, xk+1 , . . . , xn )dx1 dx2 . . . dxk1 dxk+1 . . . dxn
fXk (x) =
Rn1
Las componentes X1 , X2 , . . . Xn del vector X se diran mutuamente

independientes si para cualquier rectangulo n-dimensional (producto
de intervalos)
I=
n
Y
(ak , bn ]
k=1
se verifica que:
P {X I} =
n
Y
P {ak < Xk bk }
k=1
En terminos de la funcion de distribucion conjunta, X1 , X2 , . . . , Xn son

mutuamente independientes si y solo si f (x) se factoriza en la forma:
f (x) = fX1 (x1 )fX2 (x2 ) . . . fXn (xn )
c
Pablo L. De Napoli
3.5.
3.5.1.
78
Cambio de variable
Cambios de variables unidimensionales
Consideremos primero un cambio de variable de la forma Y = (X)

donde : R R es una funcion biyectiva y estrictamente creciente.
Entonces podemos facilmente relacionar las funciones de distribucion de
X eY
FY (y) = P {Y y} = P {(X) y} = P {X 1 (Y )(y)} = FX (1 (y))
En particular (derivando con la regla de la cadena), se deduce que si
X admite una densidad de probabilidad fX de clase C 1 , vemos que Y se
distribuye seg
un la densidad:
fY (y) = fX (1 (y))[1 ]0 (y)
La situacion es bastante mas compleja si admitimos cambios de variables
que no son monotonos o biyectivos.
Consideremos por ejemplo el cambio de variable Y = X 2 . Entonces para
z > 0 tenemos que:
FY (y) = P {X 2 y} = P {|X| y} = P { y X y} =
P {X y} P {Z < y} = FX ( y) FX ( y )
mientras que claramente FY (y) = 0 si y < 0.
En particular si X es una variable absolutamente continua con densidad
fX , encontramos (derivando como antes) que:
1
fY (y) = [fX ( y) + fX ( y)]

2 y
3.5.2.
(y > 0)
(3.16)
Cambios de variables n-dimensionales
Proposici
on 3.5.1 Supongamos que X es una vector que se distribuye seg
un
una densidad f (x) con soporte en U siendo U un abierto Rn , y que :
U V es un difeomorfismo C 1 , donde V es otro abierto de Rn entonces, si
consideramos el vector aleatorio Y = (X), Y se distribuye en V seg
un la
densidad
f (1 (y))|det(D1 )(y)|
c
Pablo L. De Napoli
Prueba: Sea W V un abierto cualquiera, entonces

Z
1
P {Y W } = P {X (W )} =
79
f (x)dx
1 (W )
En esta integral, hagamos el cambio de variable y = (x), x = 1 (y).

Entonces, seg
un el teorema de cambio de variable
Z
P {Y W } =
f (1 (y))|detD(1 )(y)|dy
W
Como esto vale para todo W V , concluimos que Y se distribuye en V

seg
un la densidad f (1 (y))|det(D1 )(y))|.
3.6.
Suma de variables aleatorias independientes
Definici
on 3.6.1 Sean f, g : R R funciones integrables. Definimos su
convoluci
on f g de la siguiente manera:
Z
f (t) g(x t) dt
(f g)(x) =
Como ejemplo de la aplicacion del teorema de cambio de variable, demostramos la siguiente afirmacion:
Proposici
on 3.6.1 Supongamos que X e Y son variables aleatorias independientes, que se distribuyen en R seg
un las densidades f (x) y g(x) respectivamente, entonces X + Y se distribuye seg
un la densidad f g(x).
Prueba: Como X e Y son independientes,
(X, Y ) f (x)g(y)
Hacemos el cambio de variable lineal (U, V ) = (X, Y ) = (X + Y, Y ). Entonces (X, Y ) = 1 (U, V ) = (U V, V ). Como es una trasnformacion lineal,
c
Pablo L. De Napoli
80
su diferencial coincide con ella misma. Para calcular el determinante de

observamos que su matriz en la base canonica de R2 es:

1 1
0 1
En consecuencia, el determinante de es 1. Por el teorema anterior, tenemos
que (U, V ) que:
(U, V ) f (u v)g(v) (densidad conjunta)
Para recuperar la densidad de U (densidad marginal) debemos integrar en la
variable v:
Z
f (u v)g(v) dv
U

Algunas Observaciones sobre la convoluci
on:
1. La convolucion es conmutativa:
f g =gf
Tambien es posible probar que es asociativa:
(f g) h = f (g h)
2. Si f y g son densidades de probabilidad, entonces f g tambien lo es.
3. Si f y g estan soportadas en la semirrecta [0, +) (es decir: f (t) =
g(t) = 0 si t < 0, entonces:
Z
(f g)(x) =
f (t) g(x t) dt
0
3.7.
Las Distribuciones Gama
Definici
on 3.7.1 Definimos la funcion gama de Euler por
Z
() =
x1 ex dx ( > 0)
0
c
Pablo L. De Napoli
81
Introducimos tambien la funcion Beta de Euler (ntimamente relacionada

con la funcion gama), definida para 1 , 2 > 0 por
Z 1
(1 u)1 1 u2 1 du
B(1 , 2 ) =
0
Definici
on 3.7.2 Decimos que X se distribuye seg
un la distribucion gama
(, ) (siendo , > 0) si su funcion de densidad de probabilidad es:
f, (x) =
1 x
x
e I(0,+) (x)
()
(3.17)
Lema 3.7.1 Si X (1 , ), Y (2 , ) y son independientes, entonces

X + Y (1 + 2 , ).
Prueba: Seg
un la proposicion 3.6.1, X + Y f1 , f2 , . Hemos de calcular
esta convolucion:
x
2 2 1 t
1
(x t)1 1 e(xt)
t
e
dt
(2 )
0 (1 )

Z x
1 +2
1 1 2 1
=
(x t)
t
dt ex
(1 )(2 )
0
Z
(f1 , f2 , )(x) =
En esta integral hacemos el cambio de variable u = t/x (0 x 1).

Entonces:

Z 1
1 +2
1 1
2 1
(f1 , f2 , )(x) =
(x xu)
(xu)
x du ex
(1 ))(2 )
0
Z 1

1 +2
1 +2 1
1 1 2 1
=
x
(1 u)
u
du ex
(1 )(2 )
0
1 +2
=
B(1 , 2 ) x1 +2 1 ex
(1 )(2 )
Notamos que esta es salvo la constante, la densidad gama f1 +2 , , pero como la convolucion de dos densidades de probabilidad es una densidad
de probabilidad, y hay una u
nica constante que hace que la integral sobre
(0, +) de 1 deducimos que:
c
Pablo L. De Napoli
f1 , f2 , = f1 ,2 ,
82
(3.18)
Como subproducto de la demostracion obtenemos que:

1 +2
1 +2
B(1 , 2 ) =
(1 )(2 )
(1 + 2 )
o sea
B(1 , 2 ) =
(1 )(2 )
(1 + 2 )
3.8.
Un ejemplo: La Distribuci
on Exponencial
La distribucion exponencial (3.5) es un modelo muy u

til para distintos
procesos: llamadas que llegan a una central telefonica, tiempo de duracion
de una lampara, desintegracion radiactiva, etc.
Por ejemplo, para fijar ideas, consideremos la desintegracion radiactiva de un atomo. La hipotesis fundamental que haremos para describir este
fenomeno, es la propiedad de falta de memoria que establece que la probabilidad de que un atomo se desintegre en un intervalo de tiempo de longitud
t solo depende de la longitud del intervalo y es independiente de la historia
anterior del material.
Podemos describir con mas precision esta propiedad de la siguiente manera: Si llamamos T al tiempo en el que el atomo se desintegra, T es una
variable aleatoria. La probabilidad condicional de que el atomo se desintegre
en el intervalo (t0 , t0 + t] sabiendo que no se ha desintegrado a
un en tiempo
t = t0 , es igual a la probabilidad de que se desintegre en el intervalo (0, t]:
P {T > t0 + t/T > t0 } = P {T > t}
Por definicion de probabilidad condicional, esto significa que:
P {t < T t + t}
= P {T > t}
P {T > t}
Llammemos F a la funcion de distribucion de T , y sea G(t) = 1 F (t).
Entonces, esta igualdad establece que:
c
Pablo L. De Napoli
83
G(t + t) = G(t)G(t)
Necesitaremos el siguiente lema:
Lema 3.8.1 Sea G : R0 R0 una funcion continua que satisface que:
G(t + s) = G(t)G(s)
Entonces: G(t) = G(0)at , siendo a = G(1).
Volviendo a nuestro problema de la desintegracion radiactiva, si ponemos
G(1) = e (suponiendo G(0) 6= 0), y observamos que G(0) = 1 pues T > 0
(El atomo no se desintegro a
un en t = 0), obtenemos que:
G(t) = et
Por consiguiente la funcion de distribucion de T es:
F (t) = 1 et
y derivando vemos que su densidad es
f (t) = et (t > 0)
Decimos que la variable continua T se distribuye seg
un la densidad exponencial de parametro > 0, Exp(), que introdujimos en (3.5).
Supongamos ahora que tenemos un material radiactivo formado inicialmente por un gran n
umero de atomos N0 , y llamemos N (t) a la cantidad de
atomos no desintegrados hasta el instante t. Hagamos la hipotesis de que las
desintegraciones de los distintos atomos son independientes. Podemos pensar
que son ensayos de Bernoull, entonces por la ley de los grandes n
umeros
N (t)
P {T > t0 }
N0
y deducimos que:
N (t) = N0 et
(3.19)
Esta expresion se conoce como la ley de desintegracion radiactiva de

Rutherford-Soddy (1902). El valor de la constante depende de la sustancia.
c
Pablo L. De Napoli
84
Se define semivida o perodo de semi-desintegracion T1/2 el tiempo en

que una muestra de material radiactivo tarda en reducirse a la mitad. De la
formula (3.19), se deduce que
T1/2 =
log 2
La siguiente tabla muestra por ejemplo los perodos de semi-desintegracion

de algunos isotopos radiactivos:
Isotopo
Berilio-8
Polonio-213
Aluminio-28
Yodo-131
Estroncio-90
Radio-226
Carbono-14
Rubidio-87
3.9.
T1/2
1016 s
4x106 s
2.25 min
8 das
28 a
nos
1600 a
nos
5730 a
nos
5,7 1010 a
nos
Tiempos de espera y procesos de Poisson
Llamemos Ti al tiempo en que ocurre la iesima densintegracion radiactiva,

de modo que:
T1 < T2 < . . . < Tn
(Podemos suponer para simplificar que no hay dos desintegraciones simultaneas, ya que la probabilidad de que ello ocurra es despreciable). Notemos que:
Tn = T1 + (T2 T1 ) + (T3 T2 ) + . . . + (Tn Tn1 )
Las variables Tk Tk1 representan el tiempo entre la (k1)-esima desintegracion y la k-esima desintegracion. Por la discusion anterior (y la propiedad
de falta de memoria), Tk Tk1 tiene distribucion exponencial de parametro
> 0 (donde > 0 es una constante que depende del material que estamos
considerando).
Por otra parte, si suponemos que el tiempo que un atomo tarda en desintegrarse es independiente de lo que tardan los demas, las Tk+1 Tk seran
c
Pablo L. De Napoli
85
variables aleatorias independientes. Entonces la variable Tn sera dada por

una suma de n variables aleatorias independientes, todas con distribucion
exponencial de parametro .
Como Exp() = (, 1), deducimos que Tn tiene distribucion (, 1), es
decir que se distribuye seg
un la densidad gn (t) dada por:
n n1 t
t
e
si t > 0
(n1)!
gn (t) =
0 si t 0
Llamemos D(t) al n
umero de desintegraciones en el intervalo [0, t]. Entonces
D(t0 ) = n si y solo si Tn t0 < Tn+1
Deducimos que:
{D(t0 ) = n} = {Tn t0 } {Tn+1 t0 }
En consecuencia,
Z
P {D(t0 ) = n} = P {Tn t0 } P {Tn+1 t0 } =
t0
Z
gn (t) dt
t0
gn+1 (t) dt
0
Integrando por partes, tenemos que:

Z t0 n+1
Z t0
tn et dt
gn+1 (t) dt =
n!
0
0
#
"
t
Z t0
t
n+1 n et 0
e
=
n tn1
dt
t
n!
() 0
()
0
Z t0 n+1
n+1 n et0
et
=
t0
0
n tn1
dt
n!
()
n!
()
0
Z t0
n n t0
n
=
t0 e
+
tn1 et dt
n!
(n
1)!
0
Z t0
n n t0
=
t e
+
gn (t) dt
n! 0
0
En definitiva concluimos que la distribucion del n
umero de desintegraciones viene dada por una distribucion de Poisson (proceso de Poisson):
(t0 )n t0
P {D(t0 ) = n} =
e
n!
c
Pablo L. De Napoli
86
3.10.
Algunas densidades u
tiles en estadstica
3.10.1.
Las densidades 2
En esta seccion veremos algunas densidades que resultan especialmente

u
tiles en estadstica. Nos proporcionaran ejemplos interesantes de las tecnicas
de cambio de variables.
Sea X N (0, 1) una variable aleatoria con distribucion normal estandar.
Utilizando la formula (3.16), encontramos que Y = X 2 se distribuye seg
un
la densidad

1
1 y/2
1 y/2
1
fY (y) = [fX ( y) + fX ( y)] = e

+ e
2 y
2 y
2
2
o sea
1
fY (y) = y 1/2 ey/2
2
(y > 0)
Esta densidad se conoce como la densidad 2 (ji-cuadrado] con un grado de

libertad
[abreviada 21 ]. Comparando con (3.17),
y utilizando que (1/2) =
1 1
, vemos que coincide con la densidad 2 , 2 .
Sean ahora X1 , X2 , . . . , Xn variables aleatorias independientes con distribucion normal estandar, y consideremos la variable aleatoria
Z = X12 + X22 + . . . + Xn2
cual es la distribucion de Z ? Por
lo anterior cada una de las Xi se distribuye
1 1
2
de Z sera (por la independenseg
un la densidad 1 = 2 , 2 , y la densidad

1 1
cia) la convolucion de la densidad 2 , 2 n veces con sigo misma, que por
el lema 3.7.1 da la densidad n2 , 12 . Es decir, que la densidad de Z sera
fZ (z) =
(1/2)n/2 n/21 x/2

x
e
(n/2)
(x > 0)
(3.20)
Esta densidad se conoce como densidad 2 con n grados de libertad [abreviada 2n ].
c
Pablo L. De Napoli
3.10.2.
87
Densidad del cociente de dos variables aleatorias independientes
Supongamos que X e Y son variables aleatorias continuas independientes, con densidades fX y fY respectivamente. Supongamos ademas que Y
esta concentrada en la semirrecta positiva (0, +). Quremos calcular la densidad del cociente T = U/V .
La densidad conjunta del vector aleatorio (X, Y ) sera fX (x)fY (y) como
consecuencia de independencia de las variables X e Y .
Consideramos ahora el cambio de variable (T, V ) = (X, Y ) donde donde
(u, v) = (x, y) = (x/y, y)
entonces la funcion inversa sera
(x, y) = 1 (t, v) = (tv, v)
Y la diferencial de 1 es

D (t, v) =
v t
0 1
de modo que el Jacobiano es v. De acuerdo a la proposicion 3.5.1, encontramos que el vector (T, V ) se distribuye seg
un la densidad conjunta
fX (tv)fY (v)v
e integrando respecto la variable v podemos recuperar la densidad (marginal)
de t que resulta ser:
Z
T '
fX (tv)fY (v)v dv
(3.21)
3.10.3.
La densidad t de Student
Sea X una variable aleatoria con distribucion 2 con n grados de libertad,

Y una variable aleatoria con distribucion normal estandar y supongamos
que X e Y son independientes. Queremos calcular la densidad de la variable
aleatoria
q
T =
X
n
c
Pablo L. De Napoli
88
[El porque esta variable aleatoria es interesante, lo veremos mas adelante al

desarrollar conceptos de estadstica]
Ya vimos que la demsodad de X viene dada por (3.20) Consideramos
: (0, +) (0, +) dada por
r
x
(x) =
n
es un difeomorfismo cuya inversa es 1 (y) = ny 2 .
Aplicando la formula de cambio de variables, encontramos que la densidad
de Y es
(1/2)n/2
2
(ny 2 )n/21 eny /2 2ny I(0,+) (y)
(n/2)
2nn/2
2
= n/2
y n1 eny /2 I(0,+) (y)
2 (n/2)
fY (y) =
Utilizando la formula (3.21), vemos que T se distribuye seg

un la densidad
Z
2nn/2
2 2
2
fX (tv)fY (v)v dv =
fT (t) =
et v /2 v n1 env /2 v dv
n/2
2 (n/2) 2 0
0
Z
2(1n)/2 nn/2
2
2
=
e(t +n)v /2 v n dv (t > 0)
(n/2) 0
Z
Hacemos el cambio de variable x = v2 (t2 + n), entonces esta integral se

transforma en

(n1)/2
Z
2(1n)/2 nn/2 1
2x
x
fT (t) =
e
dx
n + t2
(n/2) n + t2 0
Z
1
nn/2
ex x(n1)/2 dx
=
(n/2) (n + t2 )(n+1)/2 0

nn/2
n+1
1

=
2
(n + t2 )(n+1)/2
(n/2)

1
n+1
n(n+1)/2
2
(n + t2 )(n+1)/2
(n/2) n
c
Pablo L. De Napoli
89
Finalmente obtenemos

(n+1)/2
n+1
t2
2
fT (t) =
1+
n
(n/2) n
(t > 0)
(3.22)
Esta distribucion se conoce como distribucion t de Student con n grados de

libertad.
3.11.
Distribuci
on Normal Multivariada
Falta escribir esta seccion.
Captulo 4
Convergencia de Variables
Aleatorias, y Ley Fuerte de los
Grandes N
umeros
4.1.
Los diferentes tipos de convergencia
Convergencia en probabilidad
En la teora de probabilidades se utilizan frecuentemente diferentes nociones de convergencia de una sucesion (Xn )nN de variables alatorias.
La primera nocion importante es la de convergencia en probabilidad, que
aparece en el teorema de Bernoulli (ley debil de los grandes n
umeros).
Definici
on 4.1.1 Sea (Xn )nN una sucesion de variables aleatorias, definidas sobre un mismo espacio de probabilidad (, E, P ). Se dice que (Xn )
converge en probabilidad a la variable X si para todo > 0, tenemos que
P {|X Xn | > } 0 cuando n +
Notaci
on:
Xn X
Observaci
on: Si (Xn ) converge en probabilidad a X, cualquier subsucesion de (Xn ) tambien converge en probabilidad a X.
Veamos algunas propiedades de la convergencia en probabilidad:
90
c
Pablo L. De Napoli
P
91
Proposici
on 4.1.1 (Unicidad del lmite) Si Xn X y Xn Y , entonces X = Y con probabilidad 1.
Prueba: Por la desigualdad triangular,
|X Y | |X Xn | + |Xn Y |
Entonces
P {|X Y | > } P {|X Xn | > /2} + P {|Xn Y | > /2}
Deducimos que para todo > 0,
P {|X Y | > } = 0
Como
{X 6= Y } =
[
nN
1
|X Y | >
n
Por la -subaditividad de P , deducimos que:

X
1
P |X Y | >
P {X 6= Y }
=0
n
n=1

P
Proposici
on 4.1.2 Si Xn X y c R, entonces cXn cX.
Prueba: Si c 6= 0, tenemos que

P {|cXn cX| > } = P |Xn X| >

0 cuando n +
|c|

P
Proposici
on 4.1.3 Si Xn X e Yn Y , entonces Xn + Yn X + Y .
Prueba:
P {|(X + Y ) (Xn + Yn )| > } P {|X Xn | > /2} + P {|Y Yn | > /2}
c
Pablo L. De Napoli
92
Lema 4.1.1 Si Xn X, entonces (Xn ) esta acotada en probabilidad,

en el siguiente sentido1 , dado > 0 existen M = M y n0 = n0 () tales que
n n0 () : P {|Xn | > M } <
Prueba: Notamos que
P {k 1 |X| < k} = 1
k=1
es una serie convergente, por consiguiente dado > 0, existira un k0 tal que:
P {k 1 |X| k} <
k=k0 +1
Es decir que:
P {|X| k0 } <
De la desigualdad triangular,
|Xn | |Xn X| + |X|
Deducimos que:
P {|Xn | > k0 + } P {|Xn X| > } + P {|X| > k0 }
y en consecuencia que
P {|Xn | > k0 + }
si n n0 ().
Esto prueba la afirmacion del lema, con M = k0 + .
Lema 4.1.2 Si Xn 0 e Yn esta acotada en probabilidad, entonces

P
Xn Yn 0.
1
Aclaramos que esta terminologa no es estandar, sin embargo la emplearemos porque

resultar
a muy u
til en lo sucesivo
c
Pablo L. De Napoli
Prueba:
93
P {|Xn Yn | > } = P |Xn | >

|Yn |

P |Xn | >
|Yn | M + P |Xn | >
|Yn | > M
|Yn |
|Yn |
n
o
P |Xn | >
+ P {|Yn | > M } <
M
si n n0 ().

P
Corolario 4.1.1 Si Xn X e Yn Y , entonces Xn Yn XY .

Prueba: Utilizamos el truco habitual de sumar y restar:
XY Xn Yn = XY Xn Y + Xn Y Xn Yn = (X Xn )Y + Xn (Yn Y )
P
Entonces como X Xn 0 e Y esta acotada en probabilidad, deducimos

P
P
que (X Xn )Y 0. Similarmente, como Yn Y 0 y Xn esta acotada
P
en probabilidad (por la proposicion 4.1.1, deducimos que (X Xn )Y 0.
P
P
Tenemos entonces que Xn Yn XY 0, y en consecuencia Xn Yn XY
(por la proposicion 4.1.3)
Convergencia en distribuci
on
Definici
on 4.1.2 Se dice que una sucesion de variables aleatorias Xn converge en distribuci
on a la variable aleatoria X, si
lm FXn (x) = FX (x)
n+
en cada x en el que FX sea continua. Notaci

on:
D
Xn X
D
Proposici
on 4.1.4 Si Xn X y Xn Y , entonces FX = FY (X e Y
estan identicamente distribuidas)
c
Pablo L. De Napoli
94
Prueba: FX (x) = FY (x) en cada x que sea simultaneamente punto de continuidad de FX y FY . Pero FX y FY son crecientes, y tienen por lo tanto a lo sumo una cantidad numerable de discontinuidades. Deducimos que
FX (x) = FY (x) para los x en un subconjunto denso de R, y entonces para
todo x ya que ambas son continuas por la derecha.

D
Proposici
on 4.1.5 Si Xn X y c R es una constante, entonces
D
D
cXn cX y Xn + c X + c.
Definici
on 4.1.3 Se dice que la sucesion (Xn ) de variables aleatorias converge casi seguramente a la variable X si

P
lm Xn = X = 1
n+
Notaci
on:
c.s.
Xn X
4.2.
Relaci
on entre los modos de convergencia
c.s.
Proposici
on 4.2.1 Si Xn X, entonces Xn X.
Prueba: Notamos que:
{ : Xn () 6 X()} =
[
\
[
k=1 n0 =1 nn0
1
: |Xn () X()| >
k
c.s.
Como Xn X, este conjunto tiene probabilidad 0. En consecuencia, tambien tienen probabilidad cero los eventos (mas perque
nos)

[
\
1
: |Xn () X()| >
k
n =1 nn
0
Como los eventos:

Ak,n0

[
1
=
: |Xn () X()| >
k
nn
0
c
Pablo L. De Napoli
95
son decrecientes, deducimos (por la continuidad de la probabilidad) que:

lm P (Ak,n0 ) = 0
n0 +
Vale decir que si elegimos n0 suficientemente grande, P (Ak,n0 ) < , y en

consecuencia

1
P : |Xn () X()| >
<
k
para todo n n0 . Deducimos que Xn tiende en probabilidad a X.
Proposici
on 4.2.2 Sea (Xn ) una sucesion de variables aleatorias tal que
P
D
Xn X, entonces Xn X.
(La prueba de este teorema que aparece en versiones anteriores
de este apunte debe ser corregida)
P
Proposici
on 4.2.3 Si Xn 0, entonces Xn 0.
4.3.
El lema de Borel-Cantelli y la Ley fuerte

de los Grandes N
umeros
Lema 4.3.1 Consideramos una sucesion (An )nN de eventos, y consideramos el el evento ocurren infinitos An , es decir:
\ [
An
A =
kN nk
entonces
1. Si
P (An ) < +
n=1
entonces, con probabilidad 1 ocurre un n

umero finito de tales sucesos.
Es decir
P (A ) = 0
c
Pablo L. De Napoli
96
2. Si los An son eventos independientes, y
P (An ) = +
n=1
entonces, con probabilidad 1 ocurren infinito s An . Es decir,

P (A ) = 1
Falta Escribir la prueba
4.3.1.
Una primera versi

on de la ley fuerte de los grandes n
umeros
Teorema 4.3.1 Sea (Xn )nN una sucesion de variables aleatorias independientes e identicamente distribuidas con m4 = E[Xn4 ] < +. Sea = E[Xi ]
entonces
X1 + X2 + . . . Xn c.s.

n
cuando n +.
Nota:La hipotesis de que el cuarto momento m4 es finito no es necesaria
para la validez de este teorema, pero facilitara enormemente la demostracion.
Una demostracion del teorema sin esta hipotesis (ley fuerte de Kolmogorov)
se da en el apendice E.
Prueba: Podemos suponer que =
Notamos Sn = X1 + X2 + . . . + Xn .
tienen variancia 2 = E[Xi2 ] finita.
Calculemos el cuarto momento de
tenemos que:
X
E[Sn4 ] =
0 (cambiando sino Xn por Xn ).

Notemos en primer lugar que las Xi
Sn . Por la linealidad de la esperanza
E[Xi1 Xi2 Xi3 Xi4 ]
1i1 ,i2 ,i3 ,i4 n
Como las Xi son independientes, notamos que

E[Xi1 Xi2 Xi3 Xi4 ] = 0
salvo en el caso en que los subndices son todos iguales, o si son iguales
por pares (utilizando que la esperanza del producto es el producto de las
c
Pablo L. De Napoli
97
esperanzas cuando las variables son independientes, y que la esperanza de

cada variable es cero).
Ahora cuando i 6= j, Xi2 es independiente de Xj2 en consecuencia:
E[Xi2 Xj2 ] = E[Xi2 ]E[Xj2 ] = 4

4
n
Cada uno de estos terminos aparece
= 6 veces, y hay
=
2
2
formas de elegir 2 de las n variables aleatorias. Entonces:
E[Sn4 ]
n
X
E[Xi4 ]
+6
i=1
n
X
n(n1)
2
E[Xi2 Xj2 ] nm4 + 3n(n 1) 4 Cn2
i,j=1,i6=j
donde C es una constante. Deducimos que:

" #
4
C
Sn
2
E
n
n
y entonces, dado > 0, por la desigualdad de Markov, tenemos que:

Sn
C
P > 4 2
n
n
Como la serie
X
C
4
n2
n=1
es convergente, el lema de Borel Cantelli implica que si llamamos An, al

evento

Sn ()
>
An, = :
n
entonces, con probabilidad 1 ocurren solo finitos de los sucesos An, , es decir
que el evento
\ [
A, =
An,
kN nk
tiene probabilidad cero.
c
Pablo L. De Napoli
98
Tomando = 1/m, y usando la -aditividad de la probabilidad, vemos

que el evento:

Sn ()
Sn ()
1
>
:
6 0 = : m N k N n k :
n
n m
[
=
A,1/m
mN
tiene probabilidad cero, es decir que Sn /n tiende a cero con probabilidad 1.

4.4.
Teorema de Helly
Teorema 4.4.1 (Helly) Supongamos que Fn : [a, b] R es una sucesion

de funciones de distribucion tales que Fn (x) F (x) en cada punto de continuidad de F (x), entonces:
Z
Z
(x) dFn (x)
(x) dF (x)
(4.1)
para toda funcion continua C[a, b].

Prueba: Dado > 0, por el corolario D.0.1 del apendice D (teorema de existencia para la integral de Riemman-Stieltjes; corolario sobre la convergencia
uniforme respecto de la funcion de distribucion), existira un > 0 tal que:

Z b

<

(x)
dF
(x)
S
(,
F
)
n
n

a
para todo n, y tambien

Z b

(x) dF (x) S (, F ) <

a
para cualquier particion de [a, b] que verifique que || < (Pues Fn (1)
Fn (0) 1).
Fijemos una particion cualquiera de [a, b] tal que || < . Claramente
podemos elegir los puntos de subdivicion de esta particion para que sean
puntos de continuidad de F (pues el conjunto de puntos de discontinuidad
c
Pablo L. De Napoli
99
de F es a lo sumo numerable, y por lo tanto su conjunto de puntos de

continuidad es denso en [a, b]).
Entonces notamos que como hay finitos puntos en la particion, claramente
tendremos que:
lm S (, Fn ) = S (, F )
n+
Es decir, que dado > 0, existira un n0 , tal que si n n0 ,

|S (, Fn ) S (, F )| <
En consecuencia, si n n0 ,
Z b

Z b

(x)
dF
(x)
(x)
dF
(x)
n

a
a
Z b

(x) dFn (x) S (, Fn )
a
+ |S (, Fn ) S (, F )|

Z b

(x) dF (x) < 3
+ S (, F )
a

Un resultado analogo se verifica para integrales en intervalos infinitos:
Teorema 4.4.2 Supongamos que Fn : [a, b] R es una sucesion de funciones de distribucion tales que Fn (x) F (x) en cada punto de continuidad de
F (x), entonces:
Z
Z
(x) dFn (x)
(x) dF (x)
(4.2)
para toda funcion continua acotada : R R.

Prueba: Supongamos que |(x)| M x R. Dado > 0, podemos elegir
R > 0 tal que:
Z
F (R) F (R) =
dF (x) <
M
|x|>R
y por lo tanto
c
Pablo L. De Napoli 100
|x|>R

(x) dFn (x) < 2
Ademas, podemos suponer que R y R son puntos de continuidad de

F . Entonces, como Fn (R) F (R) y Fn (R) F (R) cuando n +,
podemos elegir n1 tal que para n n1 se verifique
Z
2
Fn (R) Fn (R) =
dFn (x) <
M
|x|>R
y por lo tanto:
Z

|x|>R

(x) dFn (x) < 2
y en virtud del teorema anterior, podemos elegir un n2 tal que si n n2

se verifica:
Z R

Z R

(x) dFn (x)
(x) dF (x) <

R
Entonces, tendremos que:

Z
Z

(x) dF (x)
(x) dFn (x)

Z
Z R

(x) dF (x)

(x) dFn (x)
R
Z R

Z R

+
(x) dFn (x)
(x) dF (x)
R
R
Z

Z

+
(x) dF (x)
(x) dF (x) < 4

Corolario 4.4.1 Si (Xn ) es una sucesion de variables aleatorias tales que
D
Xn X, entonces E[(Xn )] E[(X)] para toda funcion continua acotada.
c
4.5.
Recproco del tereorema de Helly
Teorema 4.5.1 Si (Xn ) es una sucesion de variables aleatorias tales que

D
E[(Xn )] E[(X)] para toda funcion continua acotada, entonces Xn
X.
Prueba: Tenemos que probar que FXn (x0 ) FX (x0 ) cuando n +, para
cada punto de continuidad x0 de FX . Para ello la idea es aproximar el indicador (funcion caracterstica) I(,x0 ] del intervalo (, x0 ] por funciones
continuas acotadas.
Comencemos aproximando por la derecha. Para ello construimos para
> 0, las funciones
1 si x < x0
1 (x x0 )/ si x0 x x0 +
(x) =
0 si x > x0 +
y notamos que las son continuas y acotadas. Entonces, dado > 0,
por la hipotesis, existira un n1 tal que si n n1 tenemos que,
2
Por otra parte, afirmamos que si es suficientemente peque
no,
|E[ (Xn )] E[(X)]| <
|E[ (X)] FX (x0 )| <
(4.3)
En efecto,
Z

|E[ (X)] FX (x0 )| =
x0
Z

=
x0 +
x0
x0
(x) dFX (x)

dFX (x) =

(x) dFX (x) FX (x0 + ) FX (x0 )
(acotando la integral usando el lema 3.2.3). Entonces, la afirmacion se

deduce de la continuidad (por la derecha)2 de la funcion de distribucion FX .
Como consecuencia, deducimos que si n n0 , tenemos que:
2
Notemos que en este punto, no hemos utilizado todava toda la fuerza de la hipotesis
de que x0 es un punto de continuidad de FX , ya que FX siempre es continua por la derecha.
c
FXn (x0 ) = P {X x0 } = E[I(,x0 ] (X)] E[ (Xn )] =
E[ (X)] + FX (x0 ) +
2
Para probar que FXn (x0 ) FX (x0 ), necesitamos demostrar tambien una
desigualdad en el sentido contrario.
Para ello, aproximamos I(,x0 ] desde la izquierda: para ello, construimos
las funciones
1 si x < x0
1 (x (x0 ))/ si x0 x x0
(x) =
0 si x > x0
Afirmamos que si elegimos suficientemente peque
no,
|E[ (X)] FX (x0 )| <
(4.4)
ya que tenemos que:

Z

|E[ (X)] FX (x0 )| =
x0
Z
(x) dFX (x)
Z

=
x0 +
x0
x0

dFX (x) =

(x) dFX (x) FX (x0 ) FX (x0 )
y la afirmacion se deduce ahora de la continuidad de FX en x0 (por la izquierda)

Entonces, acotando como antes tenemos que si n n0 :
FXn (x0 ) = P {Xn x0 } E[ (Xn )] E[ (X)]
FX (x0 )
2
Concluimos que si n n0 ,
|FXn (x0 ) FX (x0 )| <

Una observaci
on: Con un poco mas de trabajo, se puede probar que es
suficiente que:
E[(Xn )] E[(X)]
para toda funcion continua con soporte compacto.
c
4.6.
El principio de selecci
on de Helly
Teorema 4.6.1 Supongamos que (Fn )nN es una sucesion de funciones de

distribucion. Entonces existe una subsucesion Fnk y una funcion F : R R
creciente y continua por la derecha, tal que
lm Fnk (x) = F (x)
k+
para todo punto de continuidad x de F .

Observaci
on 4.6.1 La funcion lmite F puede no ser una funcion de distribucion. Por ejemplo si a + b + c = 1, y
Fn (x) = aI[n,+) (x) + bI[n,+) + cG(x)
donde G es alguna funcion de distribucion, entonces
Fn (x) F (x) = b + cG(x) cuando n +
y tenemos que
lm F (x) = b,
lm F (x) = b + c = 1 a
x+
Luego se produce un fenomeno de escape de masa al infinito.

Prueba: Utilizando el metodo diagonnal de Cantor (y la numerabilidad de
los racionales), podemos construir una subsucesion Fnk de Fn tal que
lm Fnk (q) = G(q)
k+
exista para todo q Q (es decir todo q racional).

La funcion G puede no ser continua por la derecha, pero si definimos
F (x) = nf{G(q) : q Q, q > x}
obtenemos una funcion continua por la derecha pues
lm F (xn ) = nf{G(q) : q Q, q > xn para alg
un n}
xn x
= nf{G(q) : q Q, q > x} = F (x)
c
Para completar la prueba, consideremos un punto x de continuidad de F ,
y elijamos n
umeros racionales r1 , r2 , s tales que r1 < r2 < x < s y
F (x) < F (r1 ) F (r2 ) F (x) F (x) < F (x) +
Como Fnk (r2 ) G(r2 ) G(r1 ) y F (nk )(s) G(s) F (s), se deduce que
si k k0 (),
F (x) < Fnk (r2 ) Fnk (x) < Fnk (s) < F (x) +
luego Fnk (x) F (x).
Definici
on 4.6.1 Sea (Fn ) una sucesion de funciones de distribucion. Diremos que (Fn ) es ajustada (tight en ingles) si dado > 0 existe M > 0 tal
que
lm sup 1 Fn (M ) + F (M )
n+
Si Xn es una sucesion de variables aleatorias con funcion de distribucion Fn ,

esto significa que:
lm sup P {Xn M o Xn > M }
Teorema 4.6.2 Supongamos que (Fn ) es una sucesion de funciones de distribucion. Entonces son equivalentes:
i) (Fn ) es ajustada.
ii) Para cualquier subsucesion (Fnk ) tal que
Fnk (x) F (x)
para todo punto de continuidad de F siendo F continua por la derecha
(como en el principio de seleccion de Helly), se tiene que F es una
funcion de distribucion, es decir que
F () = 0,
F (+) = 1
(4.5)
Prueba: Supongamos primero que (Fn ) es ajustada, y sea Fnk una subsucesion que verifica ii). Elijamos r < M y s > M puntos de continuidad de
F , emtpmces
1 F (s) + F (r) = lm 1 Fnk (s) + Fnk (r)
k+
lm sup 1 Fn (M ) + Fn (M )
n+
c
Deducimos que:
lm sup 1 F (x) + F (x)
x+
y como es arbitrario. se deduce que F que se verifica (4.5).

Para probar el recproco, supongamos que (Fn ) no es ajustada. Entonces
hay un > 0 y una subsucesion Fnk tal que
1 Fnk (k) + Fnk (k)
Utilizando el principio de seleccion de Helly (y pasando a una subsucesion)
podemos suponer que Fnk (x) F (x) en los puntos de continuidad de F
(donde F es continua por la derecha). Sean r < 0 < s puntos de continuidad
de F , entonces
1F (s)+F (r) = lm 1Fnk (s)+Fnk (r) lm inf 1Fnk (k)+Fnk (k)
k+
k+
Haciendo que s + y que r + deducimos que

1 F (+) + F ()
Luego F no puede ser una funcion de distribucion.
4.7.
Funciones Caractersticas
Falta escribir esta seccion.
4.8.
El teorema de continuidad de Paul Levy
Teorema 4.8.1 Sea (Fn )nN una sucesion de distribuciones de probabilidad,

y sean
Z
n (t) =
eitx dFn (x)
las correspondientes funciones caractersticas. Entonces

i) Si Fn converge debilmente a una distribucion F , entonces
n (t) (t)
tR
donde es la funcion caracterstica de F .
c
ii) Recprocamente, si
n (t) (t) t R
donde es una funcion continua en t = 0, entonces existe una distribucion de probabilidad F tal que Fn converge debilmente a F .
Falta escribir la prueba.
Captulo 5
El teorema central del Lmite
5.1.
El teorema de De Moivre-Laplace
Sea X una variable aleatoria con segundo momento finito. Entonces la

variable normalizada
X E(X)
X = p
Var(X)
satisface que E(X ) = 0 y Var(X ) = 1.
Sea Sn el n
umero de exitos en n ensayos de Bernoulli con probabilidad
p [0, 1]. Sabemos que Sn tiene distribucion binomial:

P {Sn = k} = b(k, n, p) =
n
k
pk q nk
(0 k n),
q =1p
y que E[Sn ] = np, Var(Sn ) = npq. Consideramos entonces la variable

normalizada:
Sn np
Sn =
npq
(5.1)
Nuestro objetivo es estudiar el lmite de la distribucion de Sn cuando

n +:
Comenzamos aproximando la distribucion binomial, utilizando la formula
de Stirling (ver apendice):
107
c
n!
2 nn+1/2 en eO(1/n)
Obtenemos1 :
Teorema 5.1.1 (De Moivre)
b(k, n, p) =
donde
1
2
exk /2 (1 + n,k )
2npq
k np
xk =
npq
y para M 0,
max |n,k | 0 cuando n
|xk |M
Prueba:
2 nn+1/2 en eO(1/n)
b(k, n, p) =
pk q nk
2 k k+1/2 ek eO(1/k) 2 (n k)nk+1/2 e(nk) eO(1/(nk))
r
np k nq nk
n
1
=
eO(1/n)+O(1/k)+O(1/(nk))
nk
2 k(n k) k
Notemos que:

r
q
k = np + xk npq = np 1 + xk
np
y que:
n k = nq xk npq = nq 1 xk
p
nq
Estimaremos en forma separada el valor de cada uno de los factores a

medida que n +:
v
r
u
n
n
1

=u
(1 + n,k )
q
q =
t
q
p
k(n k)
npq
np 1 + xk np
nq 1 xk nq
1
La prueba que presentamos del teorema de De Moivre-Laplace esta basada en unas

notas del curso de probabilidad y estadstica del profesor N. Fava.
c
donde
max |n,k | 0 cuando n +
|xk |M
Para estimar el segundo factor, tomamos logaritmo y hacemos uso del

2
desarrollo de Taylor: log(1 + t) = t t2 + O(t3 ) cuando t 0.
En consecuencia:

np k nq nk
nk
k
(n k) log
log
= (k) log
k
nk
np
nq

r
r
q
p
= (k) log 1 + xk
(n k) log 1 xk
np
nq
r

q
1 2 q
1
= (np xk npq) xk
x
+O
np 2 k np
n3/2

r
1 2 p
1
p
x
+O
+ (nq + xk npq) xk
nq 2 k nq
n3/2

1 2
1 2
1
1
2
2
= xk npq + qxk qxk + O
+ xk npq + pxk pxk + O
2
n1/2
2
n1/2

1
1
= x2k + O
1/2
2
n
Deducimos que:
np k nq nk
2
1/2
= exk /2 eO(1/n )
k
nk
Finalmente consideramos el termino de error eO(1/n)O(1/k)O(1/(nk)) = eE
donde

1
1
1
1
E=O
+O
q + O
q = O
q
p
n
n
np 1 + x
nq 1 x
k
np
nq
En consecuencia, utilizando las estimaciones que hemos obtenido para

cada factor, y teniendo en cuenta que O(1/n1/2 ) + O(1/n) = O(1/n1/2 ),
obtenemos que:
c
1
2
2
exk /2 (1 + n (xk )) eO(1/n )
2npq
Finalmente, observamos que el factor de error dado por
b(k, n, p) =
(1 + n (xk ))eO(1/n
1/2 )
tiende a 1 cuando n +, uniformemente para los k tales que |xk | M ,

por lo que podremos representarlo en la forma 1 + n,k donde
max |n,k | 0
|xk |M

Antes de enunciar el siguiente teorema, introduzcamos la funcion
1
2
g(x) = ex /2
(5.2)
2
que se conoce como curva normal de Gauss o densidad normal de probabilidad. g(x) es una funcion positiva, de integral 1 y uniformemente continua
en toda la recta (ver figure 3.1. La funcion
Z x
(x) =
g(t) dt
(5.3)
se conoce como funcion de distribucion normal (acumulada). Es una funcion creciente, que tiende a cero cuando x , y que tiende a 1 cuando
x + (ver figura 3.1).
El siguiente teorema afirma que la distribucion lmite de la variable normalizada Sn esta dada por la integral definida de g(x):
Teorema 5.1.2 (De Moivre-Laplace)
P {a <
Sn
1
b}
2
ex
2 /2
dx
uniformemente en a y en b cuando n +.
La idea basica de la demostracion es la siguiente:
X
b(k, n, p)
Pn (a, b) = P {a < Sn b} =
a<xk b
c
ya que si Sn toma el valor xk , entonces Sn toma el valor k.
Los puntos xk estan cada vez mas proximos a medida que n +, ya
que
1
xk+1 xk =
npq
y por el teorema anterior b(k, n, p) g(xk )(xk+1 xk ) entonces,
X
Pn (a, b) = P {a < Sn b}
g(xk )(xk+1 xk )
a<xk b
Rb
y esta es una suma de Riemman para la integral a g(x) dx. Por lo tanto,
conforme n +, es razonable que podamos aproximar Pn (a, b) por dicha
integral.
La demostracion consiste en una formalizacion de esta idea:
Prueba: Dado > 0, elegimos M de modo que
(M ) (M ) = 1
y ademas
1
<
M2
por consiguiente:
(M ) = 1 (M ) = /2
Consideramos primero el caso en que el intervalo (a, b) esta contenido
en el intervalo (M, M ). La funcion gn definida por gn (x) = g(xk ) para
xk < x xk+1 converge uniformente a g(x) cuando n +, en virtud de
la continuidad uniforme de g.
Denotamos por k0 el mnimo entero tal que a < xk0 y sea k1 el maximo
entero tal que xk1 b.
En virtud del teorema 5.1.1,
X
Pn (a, b) =
(1 + n,k )g(xk )(xk+1 xk )
a<xk b
g(xk )(xk+1 xk ) +
a<xk b
n,k g(xk )(xk+1 xk )
a<xk b
xk1 +1
gn (x) dx +
xk0
X
a<xk b
c
En consecuencia,
Z
Z b
gn (x) dx
Pn (a, b) =
xk0
gn (x) dx
b
xk1 +1
gn (x) dx +
a<xk b
o sumando y restando gn :
Z b
Z
Z b
g(x) dx +
[gn (x) g(x)] dx +
Pn (a, b) =
a
Z
+
gn (x) dx +
b
gn (x) dx
xk1 +1
xk0
a<xk b
El segundo termino de esta expresion podemos acotarlo del siguiente modo:

Z b

[gn (x) g(x)] dx (b a) sup |gn (x) g(x)| 2M sup |gn (x) g(x)|

x[a,b]
x[a,b]
Ademas como g y por consiguiente gn estan acotadas por (2)1/2 , deducimos que:

Z xk

0
1

gn (x) dx

2npq
a
, Similarmente:
Z

xk1 +1

1
gn (x) dx
2npq
b
Finalmente, u
ltimo termino podemos acotarlo del siguiente modo,

k1
X

X

g(x
)(x
x
)
m
a
x
|
|
g(xk )(xk+1 xk )

n,k
k
k+1
k
n,k

|xk |M
a<xk b
k=k0
1
2M max |n,k | 0 cuando n +
|xk |M
2
Como todas las estimaciones efectuadas, son independientes de a y b,
concluimos que cuando n +,
Z b
Pn (a, b)
g(x) dx
a
c
uniformemente en a y b. Es decir: existe un entero n0 = n0 () independiente
de a y de b tal que

Z b

Pn (a, b)
g(x) dx <

a
para cualquier a, b (M, M ). En particular, deducimos que:

Z M

Pn (M, M )

g(x)
dx

M
para n n0 .
Si (a, b) no esta contenido en (M, M ), tenemos que:
Pn (a, b) = Pn (a, M ) + Pn (M, M ) + Pn (M, b)
y
Z
g(x) dx
g(x) dx +
g(x) dx +
g(x) dx =
a
Utilizando entonces la desigualdad triangular tenemos que:

Z b
Z M

Pn (a, b)
g(x) dx Pn (M, M )
g(x) dx +

M
+Pn (a, M ) + Pn (M, b) +
g(x) dx +
a
g(x) dx
M
Pero
Z
a
Z
Z b
g(x)dx
g(x)dx+
M
Z
g(x)dx+
g(x)dx = (M )+[1(M )] <
y
1
<
M2
por la desigualdad de Tchebyshev, pues E(Sn ) = 0 y Var(Sn ) = 1 (teniendo en cuenta nuestra eleccion de M al comienzo de la demostracion). En
consecuencia,

Z b

Pn (a, b)
g(x) dx 3

Pn (a, M ) + Pn (M, b) P {|Sn | M }
si n n0 ()
Esto concluye la demostracion del teorema.
c
5.2.
Una aplicaci
on a la estadstica
Veremos ahora una aplicacion del teorema de De Moivre-Laplace y de la

distribucion normal, a la estadstica.
Consideremos por ejemplo, una encuesta electoral para una eleccion donde
participan dos cadidatos A y B, y supongamos que cada persona puede votar
por uno de ellos (y para simplificar que no hay votos en blanco). Podemos
modelizar esto utilizando la distribucion binomial, para ello imaginemos un
experimento aleatorio donde se elige una persona al azar y se le pregunta por
quien vota. Y llamemos p a la probabilidad de que vote por A (exito) y
q = 1 p a la probabilidad de que vote por B. Alternativamente, podemos
pensar que tenemos una eleccion en la que participan varios candidatos y que
nos interesa medir la intencion de voto de un determinado candidato A. En
este caso, consideramos el experimento aleatorio que consiste en elegir una
persona al azar, preguntarle por quien vota, y hay dos resultados posibles
que nos interesan: si vota por A (con probabilidad p) o si no vota por A con
probabilidad q=1-p.
Nuestro objetivo es estimar la probabilidad desconocida p. Como resulta
extraordinariamente costoso y complicado preguntarle a cada votante del
padron electoral por quien piensa votar, lo que suele hacerse es elegir una
muestra, digamos formada por n personas. Entonces, conforme a la ley de los
grandes n
umeros, si llamamos Sn a la cantidad de personas de la muestra que
votan por el candidato A, podemos aproximar la probabilidad desconocida p
por la frecuencia:
Sn
n
observada en la muestra (Estamos suponiendo que las elecciones de las
distintas personas pueden considerarse independientes unas de otras, de modo
que la eleccion de n personas encuestadas, puede considerarse como realizar
n ensayos de Bernoulli, y la distribucion de Sn sea dada por la distribucion
binomial.)
Otro ejemplo analogo se da en el control de calidad en un proceso industrial. Por ejemplo, imaginemos que tenemos un lote de 10.000 lamparitas y
queremos saber cuantas estan falladas. Llamemos p a la probabilidad de que
una lamparita elegida al azar funcione, y q = 1 p a la probabilidad de que
este fallada. Nuevamente, sera extraordinariamente costoso probar una por
una las lamparitas, por lo que se hace es elegir una muestra, y aproximar p
fn =
c
por la frecuencia fn observada en la muesta.
Una pregunta fundamental es entonces: Como elegir el tama
no de la
muestra?. Para ello, elegimos un margen de error , y un nivel de confianza
1 donde y son n
umeros peque
nos, y nos proponemos elegir el tama
no
de la muestra de modo que podamos asegurar que la probabilidad de que fn
diste de p como mucho en es por lo menos 1 , o sea:
P {|fn p| } 1
(5.4)
Por ejemplo: supongamos que queremos que nuesta encuesta (o control

de calidad) se equivoque como mucho en un 2 % en el 95 % de las veces que
realizamos la encuesta. Entonces, elegimos = 0, 02 y = 0, 05.
Elegimos entonces x de modo que:
(x ) =
donde es la funcion de distribucion normal estandar (dada por 5.3). Por

la simetra de la curva normal,
(x ) = 1
Llamando Sn a la variable normalizada dada por (5.1), por el teorema de

De Moivre Laplace:
P {x
Sn
1
x }
2
ex
2 /2
dx = (x ) (x ) = 1
si n es suficientemente grande. En consecuencia, recordando la definicion

de Sn y despejando:
P {x
npq Sn np x npq} 1
P {np x
npq Sn np +
npq} 1
r
r

pq
pq
Sn
P p x
p + x
1
n
n
n
c
O sea:
r

Sn
pq
P p x
1
n
n
Esta relacion dice que con probabilidad 1 podemos asegurar que p esta en
el intervalo:
r
r

Sn
pq Sn
pq
I =
x
,
+ x
n
n n
n
I se llama un intervalo de confianza (asintotico) para p de nivel de
confianza 1 . En realidad en esta forma, esta relacion no resulta todava
muy u
til ya que no conocemos p y entonces tampoco conocemos el ancho del
intervalo I . Pero podemos observar que:
1
p [0, 1]
4
En consecuencia, podemos asegurar que

Sn
1 Sn
1
x ,
+ x
I
n
2 n n
2 n
pq = p(1 p)
y que (si n es grande):

Sn

1
1
P p x
n
2 n
En consecuencia, si queremos que valga la relacion (5.4) debemos elegir
n para que:
1
x
2 n
o sea:
n n0 =
x 2
2
Esta relacion nos dice cual es el tama
no (mnimo) de la muestra que
necesitamos para poder garantizar un determinado margen de error con un
determinado nivel de confianza. Por ejemplo, si = 0, 05 y = 0,02, obtenemos que: x = 1, 96 y n 2401.
Observaci
on: Notamos que cuando 0, x + por lo que n0
+.
c
5.3.
Teorema Central del Lmite
El siguiente teorema generaliza al de De Moivre-Laplace:

Teorema 5.3.1 Sea (Xn )nN : R una sucesion de variables aleatorias
independientes e identicamente distribuidas con 2 = Var(Xi ) < +. Sea
= E[Xi ] (como suponemos que las Xi tienen todas la misma distribucion,
tendran todas la misma esperanza y variancia). Notemos:
S n = X1 + X2 + . . . Xn
Sn n
Sn E[Sn ]
Sn = p
=
n
Var(Sn )
Entonces
Sn N (0, 1)
Falta escribir la prueba
Captulo 6
Esperanza Condicional
6.1.
Esperanza condicional respecto de un evento
Sea B un evento de probabilidad positiva. Recordamos que la probabilidad condicional de que ocurra el evento A sabiendo que ocurre el evento B,
notada P (A/B) se define por:
P (A/B) =
P (A B)
P (B)
Sea X : R una variable aleatoria discreta. Recordamos que la esperanza de X se define como la serie
X
E[X] =
xi P {X = xi }
i
donde Im = {xi } es por hipotesis a lo sumo numerable; siempre que dicha

serie sea absolutamente convergente.
En consecuencia, resulta natural definir la esperanza de X dado que ocurre el evento A de probabilidad positiva, por:
X
E[X/A] =
xi P {X = xi /A}
i
Teniendo en cuenta la definicion de probabilidad condicional esto es equivalente a:
118
c
E[X/A] =
X
i
xi
P ({X = xi } A}
1 X
=
xi IA (xi )P {X = xi }
P (A)
P (A) i
Es decir que:
1
E[IA X]
(6.1)
P (A)
Notemos que esta formula puede adoptarse como definicion de la esperanza condicional respecto de un evento para cualquier variable aleatoria (sea
discreta o no) mientras tenga esperanza finita, y el evento A tenga probabilidad positiva.
E[X/A] =
6.2.
Esperanzas condicionales en el caso discreto
Ahora consideremos dos variables discretas X, Y : R. Nos proponemos definir el concepto de esperanza condicional E[X/Y ] de X dada Y .
Supondremos que X tiene esperanza finita.
Sean {yj } los distintos valores que toma la variable Y , y notemos que los
eventos Aj = { : Y () = yj } forman una particion del espacio muestral
.
Si P {Y = yj } > 0, podemos definir
E[X/Y = yj ] = E[X/Aj ]
utilizando la definicion introducida en la seccion anterior.
Mas explcitamente:
X
E[X/Y = yj ] =
xi P {X = xi /Y = yj }
(6.2)
Las probabilidades P {X = xi /Y = yj } que aparecen en esta definicion

se llaman la distribucion condicional de probabilidades de X dada Y .
Notemos que depende del valor yj de la variable Y . En consecuencia,
E[X/Y ] puede considerarse como una nueva variable aleatoria. Mas explcitamente, definimos E[X/Y ] : R por:
E[X/Y ]() = E[X/Y = Y ()]
c
Lema 6.2.1 La variable aleatoria h(Y ) = E[X/Y ] tiene las siguientes propiedades:
Tiene esperanza finita.
Para cualquier funcion f : R R acotada, se verifica que:
E[f (Y )h(Y )] = E[f (Y )X]
Mas a
un: la esperanza condicional E[X/Y ] esta caracterizada por estas dos
propiedades. en el siguiente sentido: si h1 , h2 : R R son dos funciones que
verifican estas dos propiedades, entonces
P {h1 (Y ) = h2 (Y )} = 1
Prueba: Para probar que h(Y ) tiene esperanza finita, debemos mostrar que
la serie
X
h(yj )P {Y = yj }
j
donde (yj ) recorre los posibles valores que la variable Y toma con probabilidad positiva, es absolutamente convergente.

X
X X

|h(yj )|P {Y = yj } =
xi P {X = xi /Y = yj } P {Y = yj }

j
XX
i
|xi |P {X = xi , Y = yj } = E(|X|) < +
Para probar la segunda afirmacion calculamos:

X
E[f (Y )h(Y )] =
f (yj )h(yj )P {Y = yj }
j
f (yj )P {Y = yj }
xi P {X = xi /Y = yj }
XX
i
f (yj )xi P {X = Xi , Y = yj } = E[f (Y )X]
donde el reordenamiento de la serie se justifica utilizando que dicha serie

converge absolutamente (dado que f es acotada).
c
Ahora probaremos la unicidad: supongamos que h1 , h2 : R R son
funciones que verifican las propiedades anteriores. Entonces para cualquier
funcion f : R R acotada, tenemos que:
E[f (Y )h1 (Y )] = E[f (Y )h2 (Y )] = E[f (Y )X]
En consecuencia, si llamamos h = h1 h2 por la linealidad de la esperanza:
E[f (Y )h(Y )] = 0
Eligiendo f (t) = I{yj } (t) deducimos que:
h(yj )P {Y = yj } = 0
Por lo tanto si h(yj ) 6= 0, P {Y = yj } = 0. En consecuencia:
X
P {h(Y ) 6= 0} =
P {Y = yj } = 0
yj :h(yj )6=0
Es decir que: P {h1 (Y ) = h2 (Y )} = 1.
Corolario 6.2.1
E[E[X/Y ]] = E[X]
(Se deduce tomando f 1 en la formula anterior).
6.3.
Esperanzas condicionales en el caso continuo
En el caso general, no resulta posible definir directamente E[X/Y ] utilizando la formula (6.1) ya que usualmente el evento {Y = y} tiene probabilidad cero si Y es una variable continua.
Definici
on 6.3.1 Sean X, Y : R variables aleatorias. Decimos que
una variable aleatoria Z = h(Y ) es una version de la esperanza condicional
E[X/Y ] si se verifican las siguiente propiedades:
1. h(Y ) tiene esperanza finita.
c
2. Para cualquier funcion boreliana acotada f : R R se verifica que:
E[f (Y )h(Y )] = E[f (Y )X]
Lo que hemos hecho en la seccion anterior, es mostrar que la definicion
(6.2) proporciona una version de la esperanza condicional en el caso discreto.
El siguiente teorema afirma que siempre existe una version de la esperanza condicional, aunque no proporciona ninguna formula para calcularla. No
demostraremos este teorema ya que su demostracion depende de un teorema
de analisis real (el teorema de Radon-Nikodym)
Teorema 6.3.1 Si X, Y : R son variables aleatorias, siempre existe
una version de la esperanza condicional E[X/Y ]. Ademas si h1 (Y ), h2 (Y )
son dos versiones de la esperanza condicional E[X/Y ], entonces
P {h1 (Y ) = h2 (Y )} = 1
Este captulo est
a incompleto: faltan las propiedades de la esperanza condicional y el caso en que X e Y admiten una densidad
conjunta
Ap
endice A
La F
ormula de Stirling
En muchas cuestiones del calculo de probabilidades, resulta necesario disponer de una aproximacion de n! para n grande. Este es el contenido de la
Formula de Stirling:
Teorema A.0.2 (F
ormula de Stirling)
n! 2 nn+1/2 en
Con mas presicion, se tienen las desigualdades:
A.1.
n+1/2 n
2 n
e < n! <
2e
1
1+
4n
La f
ormula de Wallis para
La siguiente notable formula expresa a como un producto infinito. La

utilizaremos para determinar la constante que aparece en la formula de Stirling:
Teorema A.1.1 (Producto infinito de Wallis para )

2 2 4 46 6
2m
2m
= lm

...
2 m+ 1 3 3 5 5 7
2m 1 2m + 1
o en forma de producto infinito
2 2 4 4 6 6
2m
2m
= ...
...
2
1 3 3 5 5 7
2m 1 2m + 1
123
c
Para demostrar esta formula, introduzcamos la cantidad
Z /2
senn x dx
In =
0
Lema A.1.1 Se verifica la relacion de recurrencia:

In =
n1
In2 (n 2)
n
Prueba: Integrando por partes:

Z /2
Z

n1
0
n1
2
In =
sen
x ( cos x) dx = sen x cos x0
0
senn1 x
0
( cos x) dx
Es decir:
Z
Z /2
n2
2
(n1)sen
cos dx =
In =
/2
(n1)senn2 (1cos2 x) dx = (n1)[In2 In ]
En consecuencia: nIn = (n 1)In2 , o sea:

n1
In2
n
In =

Prueba de la f
ormula de Wallis:
A fin, de calcular In observamos que
/2
dx =
I0 =
0
Z
I1 =
/2
dx = 1
0
En consecuencia, podemos calcular los valores de In para n par o impar,

respectivamente:
I2m =
2m 1 2m 3
5 3 1

2m
2m 2
6 4 2 2
I2n+1 =
2m
2m 2
8 6 4 2

2m + 1 2m 1
9 7 5 3
c
Podemos despejar /2:
2 46 5
2m
=
...
I2m
2
1 35 7
2m 1
y utilizando la expresion de I2m+1
2 2 4 4 6 6
2m
2m
I2m
= ...
2
1 3 3 5 5 7
2m 1 2m + 1 I2m+1
I2m
Queremos estimar el cociente I2m+1
: para ello observams que en el intervalo
pi
0 < x < 2 se tiene 0 < sen x < 1, en consecuencia 0 < sen2m+1 x < sin2m1
e integrando resulta que:
0 I2m+1 I2m I2m1

luego
1
I2m
I2m1
Im
1
2m + 1
2m + 1
=1+
2m
I2m1
2m
2m
I2m
Por la propiedad del sandwich deducimos que I2m+1
tiende a 1 cuando m
+. En consecuencia:

2 2 4 4 6 6
2m
2m
I2m
= lm
...
2 m+ 1 3 3 5 5 7
2m 1 2m + 1 I2m+1
Esto completa la demostracion de la formula de Wallis.
A.1.1.
Otra f
ormula de la f
normula de Wallis
Podemos escribir el resultado anterior en la forma:

22 42 62 (2m)2
= lm 2 2 2
2 m+ 3 5 7 (2m 1)2 (2m + 1)
Como lmm+
2m+1
2m
= 1 obtenemos (producto de lmites):
22 42 62 (2m 2)2
2m
= lm 2 2 2
2 m+ 3 5 7 (2m 1)2
Tomando raz cuadrada:
r
2 4 6 (2m 2)
= lm
2m
2 m+ 3 5 7 (2m 1)
c
Multiplicando el denominador y el denominador por 2 4 6 . . . (2m 2)
resulta:
r
22 42 62 (2m 2)2
= lm
2m
2 m+ 2 3 5 6 7 (2m 1)
2m
22 42 62 (2m)2
= lm
m+
(2m)!
2m
22m (12 22 32 m2
m+
(2m)! 2m
= lm
22m (m!)2
m+ (2m)! 2m
Multiplicando ambos miembros por 2, resulta:

= lm
Teorema A.1.2 (Otra forma de la f

ormula de Wallis)
= lm
22m (m!)2
m+ (2m)! m
A.2.
Prueba de la f
ormula de Stirling
La prueba de la formula de Stirling, se basa en la siguiente idea: tenemos

que
log(n!) =
n
X
log(k)
(A.1)
k=1
Cuando n es grande, es razonable que esperar que el valor de log(n!)

este proximo del valor de la siguiente integral, que representa el area bajo
la curva y = log x (en el intervalo 1 x n) y que podemos calcular
exactamente:
Z n
An =
log x dx = n log n n + 1
1
La suma en (A.1) representa una aproximacion a esta integral por medio

de rectangulos (sumas de Riemman). Una aproximacion mejor se consigue
utilizando la aproximacion por medio de trapecios:
c
Tn =
n1
X
log(k) + log(k + 1)
k=1
n1
X
log(k) +
k=1
1
1
log n = log(n!) log n
2
2
Como la funcion f (x) = log x es concava, la secante a la curva y = f (x)

que une los puntos (k, log(k)) y (k + 1, log(k + 1)) queda por abajo de dicha
curva. En consecuencia,
An Tn
Nuestro objetivo es estimar el error En = An Tn . Notamos que:
Z k+1
log(k) + log(k + 1)
Ek+1 Ek =
log x dx
2
k
representa el area que queda entre la recta secante y la curva en el intervalo [k, k + 1]. Como la funcion es concava, Ek+1 Ek 0. Por otro lado el
area entre la curva la secante podemos acotarla por el area entre la tangente
a la curva en x = k + 1/2, es decir la recta:
y = T (x) = log(k + 1/2) +
1
(x (k + 1/2))
k + 1/2
y la secante (pues siendo f concava, tenemos que f (x) T (x)). Deducimos que:
Z k+1
log(k) + log(k + 1)
T (x) dx
Ek+1 Ek
2
k
es decir:
log(k) + log(k + 1)
Ek+1 Ek log(k + 1/2)
2

1
1
1
1
1
1
1
=
1+
1+
<
1+
1+
2
2k
2
2(k + 1/2)
2
2k
2(k + 1)
Sumando estas igualdades para k = 1, 2, . . . , n 1, todos los terminos
del lado derecho se cancelan, excepto dos (serie telescopica), y como E0 ,
obtenemos que:

1
3 1
1
1
3
En < log log 1 +
< log
2
2 2
2n
2
2
c
Notamos que En es entonces, monotona creciente y acotada, por lo tanto
En tiende a un lmite E cuando n +. Y la desigualdad para Ek+1 Ek
permite estimar la diferencia E En :

X
1
1
E En
1+
(Ek+1 Ek ) <
2
2n
k=n
Entonces como An = Tn + En , obtenemos que:
log(n!) = (n + 1/2) log(n) n + 1 En
o escribiendo n = e1En , y tomando exponencial:
n! = n nn+1/2 en
La sucesion n es ahora monotona decreciente, y tiende al lmite: =
e1E . En consecuencia, por las estimaciones anteriores:
r
n
1
1
1
= eEEn < e(1/2) log(1+1/2n) = 1 +
1+
2n
2n
En consecuencia, tenemos las desigualdades:

1
n+1/2 n
n
e n! 1 +
nn+1/2 en
2n
Nos queda determinar el valor de la constante . Para ello utilizamos la
formula de Wallis,
22m (m!)2
n2
2
= lm
=
m+ (2m)! m
n+
2
2n 2
por lo que deducimos que = 2.

= lm
Ap
endice B
Construcci
on de la Integral de
Lebesgue, y equivalencia de las
distintas definiciones de
esperanza
Motivaci
on
En este apendice presentaremos una construccion de la integral de Lebesgue, que es una herramienta u
til para definir esperanzas de variables aleatorias y operar con ellas (Se desarrolla en los cursos de analisis real, pero
aqu presentaremos algunas nociones basicas, siempre teniendo en mente la
interpretacion probabilstica).
Para ver porque la integral de Stieltjes no es adecuada para muchos
propositos teoricos, consideremos la definicion que hemos dado anteriormente
de la esperanza de una variable aleatoria X en terminos de una integral de
Stieltjes:
Z +
E[X] =
x dF (x)
siendo F = FX su funcion de distribucion. Esta definicion es muy u

til
desde el punto de vista del calculo, ya que no necesitamos conocer cual es el
espacio muestral o cual es la funcion P que asigna las probabilidades. Toda
la informacion relevante sobre la variable X esta contenida en su funcion de
129
c
distribucion FX .
Sin embargo, por ejemlo resulta complicado por ejemplo, con esta definicion probar que la esperanza es lineal, ya que FX no depende linealmente de
X.
Otro ejemplo es el siguiente (tomado del libro de Barry James): Si usamos
la integral de Stieltjes, entonces la formula:
Z +
E[(X)] =
(x) dF (x)
puede no tener sentido si tiene un punto de discontinuidad en com

un
con F . Esa es la razon por la que si utilizamos la integral de Stieltjes, debemos
restringir a ser una funcion continua, y entonces por ejemplo no puede
ser el indicador de un evento.
Por el contrario, la teora de la integral de Lebesgue permite probar los
teoremas sobre la esperanza de variables aleatorias con toda generalidad, y
en forma sencilla y elegante.
Uno de los propositos fundamentales de este apendice es presentar una
prueba de dos teoremas centrales de la teora de Lebesgue: el teorema de
convergencia monotona y el teorema de convergencia mayorada, que forman
parte del programa de la asignatura Probabilidad y Estadstica (para matematicos).
As mismo, probaremos que la definicion de esperanza en terminos de la
integral de Stieltjes es equivalente a la que utiliza la integral de Lebesgue.
B.1.
Funciones Medibles
Consideramos un conjunto y una -algebra M de subconjuntos de

. Al par (, M) lo llamamos espacio medible. A los cojuntos de M los
llamaremos conjuntos medibles (representara la clase de aquellos conjuntos
a los que asignaremos medida o probabilidad).
En la interpretacion probabilstica, es el espacio muestral (conjunto de
posibles resultados de un experimento aleatorio) y M sera la -algebra E de
los eventos (aquellas partes de a las que les asignaremos probabilidad).
Las funciones con las que vamos a trabajar deberan satisfacer una condicion tecnica, a saber que podamos medir ciertos conjuntos asociados a la
funcion.
c
Definici
on B.1.1 Sea (, M) un espacio medible y sea f : R una
funcion. Diremos que f es una funci
on medible (respecto a la -algebra
M) si para todo R el conjunto {f > } = { : f () > } es
medible, es decir pertenece a M.
Si (, E, P ) es un espacio de probabilidad, las funciones medibles sobre
(respecto a la -algebra P ) son precisamente las variables aleatorias definidas
sobre .
La nocion de funcion medible puede formularse de varias maneras equivalentes. (En lo sucesivo, usaremos las notaciones abreviadas {f < } = {
: f () < }, etcetera).
Lema B.1.1 Sea f : R una funcion. Son equivalentes:
i) f es medible.
ii) Para todo R, {f } es medible.
iii) Para todo R, {f < } es medible.
iv) Para todo R, {f } es medible.
Prueba: i) ii):
{f } =
{f > 1/n}
nN
Como f es medible, cada uno de los conjuntos {f > 1/n} pertenece a

M, y como M es una -algebra, es cerrada por intersecciones numerables.
Concluimos que {f } M.
ii) iii): Notamos que {f < } = {f }, y como M es cerrada
por complementos, {f < } M.
iii) iv) : Escribimos
\
{f } =
{f < + 1/n}
nN
y utilizamos que M es cerrada por intersecciones numerables.

iv) i) : Notamos que {f > } = {f }, y utilizamos que M es
cerrada por complementos.

Proposici
on B.1.1 Sean f, g : R funciones medibles. Entonces:
{f < g} = { : f () < g()} es medible.
c
Prueba: Notamos que
{f < g} =
{f < q < g} =
qQ
({f < q} {q < g})
qQ
y usamos que M es una -algebra y que Q es numerable.

El hecho de que la -algebra M sea cerrada por operaciones conjuntsticas
numerables, tendra como consecuencia que la clase de funciones medibles
sera cerrada por las operaciones algebraicas, y por las operaciones de tomar
supremo o lmites. Mas precisamente tenemos las siguientes propiedades:
Lema B.1.2 Sean f, g : R funciones medibles Entonces:
i) f + k y kf son medibles para todo k R.
ii) f + g y f g son medibles.
iii) f 2 es medible.
iv) f g es medible,
v) Si g 6= 0, f /g es medible.
Prueba: i): {f + k > } = {f > k} Si k > 0: {kf > } = {f > /k}
mientras que si k < 0: {kf > } = {f < alpha/k}
ii): {f + g > } = {f > g}
y g es medible
por i) 2
2
iii): Si 0, {f > } = {f > } {f < } (sino {f > } = ).
iv): Se deja como ejercicio (por iii) basta ver que 1/g es medible)

Observaci
on: El lema se puede adaptar al caso en que f o g toman los
valores . f + g esta bien definida, salvo cuando es de la forma (+) +
() o () + . Para definir f g, hay que utilizar las convenciones
0 () = () 0 = 0
Lema B.1.3 Sea (fn )nN una sucesion de funciones medibles. Entonces
sup fn (x)
nN
lm inf fn (x)
nN
son medibles.
nf fn (x)
nN
lm sup fn (x)
nN
c
En particular si fn converge, entonces:
f (x) = lm fn (x)
n+
es medible.
Prueba: Notamos que
{sup fn (x) > } =
nN
{fn > }
nN
Por lo que si cada fn es medible, {fn > } M n N , y en consecuencia como M es una -algebra, {supnN fn (x) > } M. Esto prueba que
supn fn (x) es medible.
Del mismo modo, se prueba que nf n fn (x) es medible, ya que:
[
{fn < }
{nf fn (x) < }
nN
nN
Para probar que lm sup fn es medible, notamos que

lm sup fn = nf sup fn
k kn
Pero para cada k, supkn fn es medible por lo que ya probamos, y en consecuencia lm sup fn es medible. De modo analogo, de que
lm inf fn = sup nf fn
k
kn
Se deduce que lmnf fn es medible. Finalmente notamos que si la sucesion

(fn ) converge, entonces lmn+ fn (x) = lm inf fn (x) = lm sup fn (x), por
lo que la funcion lmite de las fn es medible.

Definici
on B.1.2 Sea : R R una funcion. Diremos que es medible
Borel si es medible con respecto a la -algebra de Borel B(R), generada por
los intervalos. Es decir si para todo intervalo (a, b], su pre-imagen por ,
1 ((a, b]) es un conjunto boreliano de la recta.
Lema B.1.4 Sean (, M) un espacio medible y f : R una funcion.
Entonces f es medible si y solo si f 1 (B) M para todo B B(R).
c
Prueba: Notamos que:
A = {B R : f 1 (B) M}
es una -algebra. Si f es medible, entonces A contiene a los intervalos. Por
lo tanto contiene a toda la -algebra de Borel (que es la menor -algebra que
contiene a los intervalos).

Corolario B.1.1 Si (, P ) es un espacio medible, f : R es medible y
: R R es medible Borel, entonces f : R es medible.
Prueba: Sea B un boreliano de la recta, entonces 1 (B) es boreliano, y en
consecuencia como f es medible:
( f )1 (B) = f 1 (1 (B) M
Como esto vale para todo B boreliano, concluimos que f es medible.
Interpretaci
on probabilstica: Sea (, E, P ) un espacio de probabilidad. Si X : R es una variable aleatoria, y : R R es medible Borel,
entonces (X) = X : R es una variable aleatoria.
B.1.1.
Funciones Simples
Definici
on B.1.3 Llamamos funcion simple a una funcion medible f :
R que toma un n
umero finito de valores {c1 , c2 , . . . , cn }. Podemos representarla entonces como:
n
X
f=
ci IEi
(B.1)
i=1
donde Ei = { : f () = ci }, y IAi es el indicador (o funci

on caracterstica1 ) del conjunto Ei , definido por:

1 si Ei
IEi () =
0 si 6 Ei
1
En la teora de probabilidades el nombre de funcion caractersitica suele usarse para

otra cosa, por eso preferimos en estas notas el de indicador. A veces se usa la notacion E
en lugar de IE
c
En la interpretacion probabilstica, las funciones simples corresponden a
las variables aleatorias discretas que toman solo un n
umero finito de valores.
El siguiente lema de aproximacion por funciones simples, sera de gran
utilidad para la teora de la integral:
Lema B.1.5 Si f : [0, +] es una funcion medible no negativa, entonces existe una sucesion n (x) de funciones simples no negativas tales que
lm n (x) = f (x) x
n+
Prueba: Para cada n N , definimos:

n
n (x) =
n2
X
i1
i=1
siendo
En,i
2n
IEn,i (x) + nFn

i1
i
= {x : n f (x) < n
2
2
Fn = {x : f (x) n}
Es decir que:

n (x) =
si i1
f (x) <
2n
n si f (x) n
i1
2n
i
2n
Se prueba que n (x) tiene las propiedades del enunciado.
B.2.
Integral de Funciones Simples
Consideramos ahora un espacio de medida (, M, ) es decir un espacio medible, donde ademas esta definida una medida (-aditiva) : M
[0, +].
Si f : R es una funcion simple, representada por (B.1) definimos su
integral de la siguiente manera:
Z
X
f d =
ci (Ai )
i=1
c
En la interpretacion probabilstica, tenemos un espacio de probabilidad
(, E, P ) donde la probabilidad no es otra cosa que una medida que asigna
a todo el espacio medida 1 (o sea: P () = 1).
Entonces la definicion de integral de una funcion simple, no es otra cosa
que nuestra definicion de esperanza de una variable aleatoria discreta, escrita
en el lenguaje de la teora de la medida. Es decir, que si X : R es una
variable aleatoria discreta, entonces
Z
E[X] =
X dP
La integral de las funciones simples, tiene las siguientes propiedades: (que

se demuestran exactamente como las propiedades de la esperanza de variables
aleatorias discretas)
Proposici
on B.2.1
1. linealidad: Si f y g son funciones simples:

Z
Z
Z
f d + g d
(f + g) d =
Si f es una funcion simple, y k una constante:

Z
Z
(kf ) d = k f d
2. Monotona: si f y g son funciones simples y f g, entonces:

Z
Z
f d
g d
3. Si f es una funcion simple, entonces

Z
Z

f d
|f | d

B.3.
Integral de funciones no negativas
Definici
on B.3.1 Sea (, M, ) un espacio de medida, y f : [0, +]
una funcion medible no negativa. Definimos la integral de f de la siguiente
manera:
c
Z
Z
f d = sup

d : 0 f, simple
Una consecuencia inmediata de la definicion es la siguiente:

Proposici
on B.3.1 Si f, g : [0, +] son funciones simples no negativas tales que f g, entonces
Z
Z
f (x) d
g(x) d
Definici
on B.3.2 Si A M es un conjunto medible, y f : [0, +] es
una funcion medible no negativa, definimos la integral de f sobre E como:
Z
Z
f IA d
f d =
Lema B.3.1 Sea una funcion simple no negativa. Entonces la funcion

= : M [0, +] definida por:
Z
(A) =
d
A
es una medida
Prueba: Supongamos que un conjunto medible A se representa como una
union disjunta numerable de una sucesion (An )nN de conjuntos medibles:
[
A=
An
nN
Queremos probar que:

(A) =
(An )
n=1
Como es una funcion simple, podremos representarla en la forma

=
N
X
i=1
siendo Ei conjuntos medibles disjuntos.
ci IEi
c
Notamos que (x)IAn (x) es una funcion simple, que toma el valor ci en
el conjunto An Ei , es decir que su representacion canonica es:
(x)IAn (x) =
N
X
ci IEi An
i=1
En consecuencia,
(An ) =
N
X
ci (Ei An )
i=1
Y por lo tanto
(An ) =
n=1
X
N
X
ci (Ei An )
n=1 i=1
Como en esta suma doble los terminos (Ei An ) son no negativos, da lo

mismo efectuar la suma en cualquier orden. En consecuencia,
(An ) =
N X
ci (Ei An ) =
i=1 n=1
n=1
N
X
ci
i=1
(Ei An )
n=1
Ahora notamos que:

[
Ei A =
(Ei An )
nN
siendo esta union disjunta. En consecuencia, como es una medida,

(Ei A) =
(Ei An )
n=1
y concluimos que:
X
n=1
(An ) =
N
X
Z
ci (Ei A) =
i=1
Z
(x) IA (x) d =
(x) d
A

Teorema B.3.1 (Teorema de la Convergencia Mon
otona ) 2 Sea fn (x) :
[0, +] una sucesion creciente (o sea: fn (x) fn+1 (x)) de funciones
medibles no negativas. Entonces,
Z
Z
lm f (x) d = lm
fn (x) dmu
n+
n+
Tambien conocido como teorema de Beppo Levi.
c
Prueba: Sea
f (x) = lm fn (x)
n+
Por la monotona de la integral es claro que:

Z
Z
fn (x) d
f (x) d
Y por lo tanto que:

Z
Z
fn (x) d
lm
n+
f (x) d
Por otra parte, sea una funcion simple tal que f . Dado (0, 1),
consideramos los conjuntos (medibles)
An = {x : fn (x) x}
Entonces la sucesion (An )nN es monotona creciente (o sea An An+1 ) y
[
=
An
nN
Ademas la funcion definida en el lema anterior, es una medida, por lo

tanto:
() = lm (An )
n+
es decir,
Z
lm
n+
Z
(x) d =
An
Por otra parte, para cada n N ,

Z
Z
(x) d
An
Z
fn (x) d
An
De modo que,
Z
Z
(x) d = lm
n+
(x) d
fn (x) d
Z
(x)d lm
n+
An
Haciendo tender a 1 deducimos que:

Z
(x) d lm fn (x) d
n+
fn (x) d
c
y por lo tanto como esto vale para toda funcion simple con 0 f , por
la definicion de integral, deducimos que:
Z
f (x) d lm fn (x) d
n+

Proposici
on B.3.2 (Linealidad de la integral) Si f, g : [0, +]
son funciones medibles no negativas y 1 , 2 0 son n
umeros reales no
negativos, entonces:
Z
Z
Z
[1 f (x) + 2 g(x)] d = 1 f (x) d + 2 g(x) d
Prueba: Utilizamos el lema de aproximacion por funciones simples: sabemos

que existen una sucesion creciente (fn (x)) de funciones simples que converge
a f (x), y una sucesion creciente (gn (x)) de funciones simples que converge a
g(x). Entonces por la linealidad de la integral de funciones simples,
Z
Z
Z
[1 fn (x) + 2 gn (x)] d = 1 fn (x) d + 2 gn (x) d
Y el teorema de convergencia monotona implica entonces que:

Z
Z
Z
[1 f (x) + 2 g(x)] d = 1 f (x) d + 2 g(x) d

Teorema B.3.2 (Lema de Fatou) Sea fn : M [0, +] una sucesion
de funciones medibles no negativas. Entonces:
Z
Z
lm inf fn (x) d lm inf
fn (x) d
n+
n+
Prueba: Llamemos

f (x) = lm inf fn (x) = sup nf fn (x)
n+
kN
nk
y consideremos la sucesion creciente de funciones no negativas:

gk (x) = nf fn (x)
nk
c
Entonces por el teorema de convergencia monotona:
Z
Z
Z
f (x) d =
lm gk (x) d = lm
gk (x) d
k+
k+
(B.2)
Por otra parte si n k, tenemos que

Z
Z
gk (x) d
fn (x) d
y en consecuentcia:
Z
Z
gk (x) d lm inf
n+
fn (x) d
Y por lo tanto:
Z
gk (x) d lm inf
lm
k+
Z
n+
fn (x) d
En consecuencia utilizando (B.2), deducimos que:

Z
Z
f (x)d lm inf
fn (x) d
n+
B.4.
Funciones Integrables
Si f : R es una funcion medible, hacemos la descomposicion:

f = f+ f
como diferencia de dos funciones medibles no negativas, siendo

f (x) si f (x) 0
+
f (x) =
0 si f (x) < 0
y
f (x) =
0 si f (x) 0
f (x) si f (x) < 0
Notamos que:
|f | = f + + f
(B.3)
c
Definici
on B.4.1 Diremos que una funcion medible f : R es integrable
si son finitas las integrables
Z
f + (x) d
y
Z
f (x) d
En ese caso, definimos la integral de f con respecto a en el espacio por:

Z
Z
Z
+
f (x) d =
f (x) d + f (x) d
Observacion: De la definicion de funcion integrable, deducimos que f es

integrable si y solo si
Z
|f (x)|d < +
Ademas:
Z
Z

f (x)d
|f (x)| d

Proposici
on B.4.1 (Linealidad de la integral) Si f, g : R son funciones integrables y 1 , 2 son n
umeros reales, entonces 1 f + 2 g es integrable, y se tiene que:
Z
Z
Z
[1 f (x) + 2 g(x)] d = 1 f (x) d + 2 g(x) d
Prueba: Primero probaremos que es posible sacar escalares de la integral:

En efecto si > 0, tenemos que:
(f )+ = f +
(f ) = f
Entonces es claro por la definicion y la linealidad de la integral para funciones
no negativas, que si f es integrable, f tambien lo es y se verifica que:
Z
Z
Z
+
f d = (f ) d (f ) d =
c
Z
=
f d f d
Z
= f d
+
Si < 0, notamos que:

(f )+ = ()f
(f ) = ()f +
y de nuevo, vemos usando la definicion y la linealidad de la integral para
funciones no negativas, que si f es integrable, f tambien lo es y se verifica
que:
Z
Z
Z
(f )+ d (f ) d =
Z
Z
= f d + f + d
Z
= f d
f d =
(El caso = 0 es trivial porque la integral de la funcion nula da 0).

Ahora probaremos que la integral distribuye la suma: Para ello notamos
que (B.3) proporciona una escritura de f como diferencia de dos funciones
no negativas. Pero que si tenemos otra escritura de f como diferencia de dos
funciones medibles no negativas:
f = f1 f2
Entonces de f + f = f1 f2 , deducimos f + + f2 = f1 + f , entonces
por la linealidad de la integral para funciones no negativas:
Z
Z
Z
Z
+
f d + f2 d =
f1 d + f d
En consecuencia,
Z
Z
f1 d
f d =
f2 d
Vale decir que si en lugar de (B.3), utilizaramos cualquier otra descomposicion de f como diferencia de funciones medibles no negativas obtendramos
el mismo valor de la integral.
c
Hecha esta observacion, notamos que
f + g = f + f + g + g = (f + + g + ) (f + g )
y que esta u
ltima expresion proporciona una escritura de f +g como diferencia
de funciones no negativas. En consecuencia, por la observacion anterior, y la
linealidad de la integral para funciones no negativas:
Z
Z
Z
+
+
(f + g) d = (f + g ) d (f + g ) d =
g d
f d +
f d
Z
=
g d =
Z
f d +
g d

Teorema B.4.1 (De convergencia mayorada, de Lebesgue) Sea fn (x) :
R una sucesion de funciones integrables, que converge puntualmente a
una funcion f (x)
f (x) = lm fn (x)
n+
y tal que existe una funcion integrable g de modo que |fn (x)| g (en casi
todo punto con respecto a la medida ). Entonces
Z
lm
|fn (x) f (x)| d = 0
n+
En particular,
Z
lm
n+
Z
fn (x) d =
f (x) d
Prueba: Sea hn (x) la sucesion de funciones medibles no negativas, definida

por:
hn (x) = 2g(x) |fn (x) f (x)|
Entonces, por el lema de Fatou,
Z
Z
Z
2 g(x) d =
lm hn (x) d lm inf
fn (x) d
n+
c
Z
Z
g(x) d lm sup
n+
|fn (x) f (x)| d
En consecuencia,
Z
|fn (x) f (x)| d = 0
lm sup
n+
Entonces,
Z
Z
Z

fn (x) d f (x) d
|fn (x) f (x)| d 0 cuando n

B.5.
Equivalencia de las distintas definiciones

de Esperanza
Sean como antes (, E, P ) un espacio de probabilidad y X : R una

variable aleatoria. La esperanza de X no es otra cosa que su integral de
Lebesgue respecto a la medida P :
Z
E[X] =
X d
A la variable aleatoria X le podemos asociar la medida X (o probabilidad), definida para los conjuntos borelianos de la recta por:
X (B) = P (X 1 (B))
X se llama la distribucion de probabilidades de X. Notamos que (R, B(R), X ),
donde B(R) denota la -algebra de Borel de la recta, es un espacio de probabilidad.
El siguiente lema afirma que es posible transformar las integrales respecto a P , en integrales respecto a X . Por consiguiente X contiene toda la
informacion sobre X que es necesaria para calcular la esperanza de X, o mas
generalmente, de una funcion (X) de X.
Lema B.5.1 Sea : R R una funcion medible Borel. Entonces se tiene
que
Z
Z
E[(X)] =
(X) d =
(x) dX
en el siguiente sentido.
c
1. Si es no negativa, la formula vale sin restricciones. (Notar que estas
integrales siempre existen, aunque pueden ser infinitas)
2. Si es cualquiera, entonces (X) es integrable con respecto a P si
y solo si (x) lo es con respecto a X y en este caso es valida dicha
formula.
Prueba: Primero consideramos el caso en que : R R es una funcion
boreliana simple, entonces:
(x) =
n
X
ci IBi (x)
i=1
para ciertos conjuntos Bi R borelianos, de modo que:

Z
n
X
(x) dX =
ci X (Bi )
R
i=1
Por otra parte, notamos que (X) : M R es una funcion simple que
toma el valor ci en el conjunto X 1 (Bi ), de modo que:
Z
n
X
(X) dP =
ci P (X 1 (Bi ))
i=1
Dado que por definicion de X , X (Bi ) = P (X 1 (Bi )), ambas integrales

coinciden.
Sea ahora : R R una funcion boreliana no negativa. Y consideramos
una sucesion creciente de funciones borelianas simples n : R R que
converge a en forma creciente. Dado que para cada n N tenemos que:
Z
Z
n (X) dP =
n (x) dX
El teorema de convegencia monotona, implica que:

Z
Z
(X) dP =
(x) dX
Finalmente, consideremos una funcion boreliana : R R cualquiera.

Como || es no negativa, ya sabemos que:
Z
Z
|(X)| dP =
|(x)| dX
c
En consecuencia, (X) es integrable con respecto a P si y solo si (x) lo
es con respecto a X .
Finalmente, hagamos uso de la descomposicion:
(x) = + (x) (x)
Entonces como + y son no negativas, tenemos que:
Z
Z
+
(X) dP =
+ (x) dX
y que:
Z
(x) dX
(X) d =
La linealidad de la integral implica entonces que:

Z
Z
(X) dP =
(x) dX

Anteriormente definimos la esperanza utilizando integrales de Stieltjes
respecto a la funcion de distribucion de X. El siguiente teorema afirma que
la definicion de esperanza que dimos anteriormente conside con la nueva
definicion.
En la demostracion, utilizaremos la notacion:
Z
Z b
(x) dX
(x) dX =
a
[a,b]
Teorema B.5.1 Sea : R R una funcion continua. Entonces se tiene

que:
Z b
Z b
(x) dX =
(x) dF (x)
a
en el siguiente sentido:
1. Si tiene soporte en un intervalo [a, b] entonces, la formula es valida,
y ambos mimebros son finitos.
2. Si es no negativa, la formula es valida sin restricciones (aunque ambas integrales pueden ser infinitas)
c
3. Si es de signo abitrario, entonces (x) es integrable con respecto a
X si y solo si
Z
|(x)| dF (x) < +
y en este caso, tambien es valida dicha formula.

Prueba: Supongamos primero que tiene soporte en un intervalo cerrado
[a, b]. Consideremos una particion : a = x0 < x1 < . . . < xn = b del
intervalo y eleijamos puntos intermedios i (xi , xi+1 ).
Definamos la funcion simple : [a, b] R dada por:
(x) = i si x (xi , xi+1 ]
Entonces:
S(, F ) =
n1
X
(xii )[F (xi+1 )F (xi )] =
i=1
n1
X
Z
(x) d
(i )X ((xi .xi+1 ]) =
i=1
Ahora bien, como es uniformemente continua en [a, b], deducimos que

converge uniformenete a en [a, b] cuando la norma de la particion
tiende a cero. En efecto, dado > 0, sea > 0 el que corresponde a por la
continuidad uniforme de en [a, b]. Entonces, si x (xi , xi+1 ],
| (x) (x)| = |(i ) (x)| <
si |xi+1 xi | < .
Deducimos que:
Z
lm
||0
Z
(x) dX =
(x) dX
a
ya que
Z
Z b
Z

(X)dX (x) dX
| (x) (x)| dX < X ([a, b])

Por definicion de integral de Stieltjes esto dice que la integral

Z b
(x) dF (x)
a
c
existe, y coincide con
Z
(x) dX
a
Para el caso general, en el que no tiene soporte compacto, consideremos

cualquier sucesion decreciente (an )nN tal que an , y cualquier sucesion
creciente (bn )nN tal que bn +, y observemos que
Z
bn
Z
(x)I[an ,bn ] (x) d(x)
( x) dX =
an
(x) dX
R
Por el teorema de convergencia monotona aplicado a (x)I[an ,bn ] , si es

no negativa. En consecuencia,
Z
Z
(x) dX =
(x) dF (x)
(B.4)
vale siempre que (x) sea no negativa.

Cuando tiene cualquier signo, observamos primero que
Z
Z
|(x)| d =
|(x)| dF (x)
Lo que en particular, dice que |(x) es integrable con respecto a X si y solo

si:
Z
|(x)| dF (x) < +
Si esto sucede, podemos aplicar el teorema de convergencia mayorada a la

sucesion (x)I[an ,bn ] (que claramente esta mayorada por |(x)|, y deducir que
la formula (B.4) es cierta, tambien en este caso.
B.5.1.
Vectores Aleatorios
Las ideas anteriores pueden generalizarse facilmente a vectores aleatorios.

Si (, E, P ) es un espacio de probabilidad, un vector aleatorio no es otra cosa
que una funcion medible : X Rn .
Podemos definir la distribucion de probabilidades de X como la medida
X , definida en la -algebra de Borel de Rn por:
X (B) = P (X 1 (B)
c
Y si : Rn R es una funcion medible Borel, entonces tendremos la
formula (generalizacion del lema B.5.1:
Z
Z
E[(X)] =
(X) =
(x)dX
Rn
Ap
endice C
Independencia
En este apendice utilizaremos las herramientas de la teora de la medida
para probar algunas propiedades de las variables aleatorias independientes.
C.1.
El teorema de Dynkin
Para la prueba de algunos teoremas de la teora de probabilidades (y de

la teora de la medida) se necesita un resultado tecnico conocido como el
teorema de Dynkin. Para enunciarlo, necesitamos algunas definiciones
previas:
Definici
on C.1.1 Sea un conjunto. Una clase P de subconjuntos de
se llamara un -sistema si es cerrado bajo intersecciones finitas, o sea si
A, B P A B P.
Definici
on C.1.2 Una clase L se subconjuntos de se llama un -sistema
si verifica las siguientes propiedades:
1 ) L
2 ) A L Ac = A L
3 ) Si (An ) es una familia numerable disjunta y An L, entonces
L
nN
An
Obs: Debido a la condicion de que los conjuntos sean disjuntos en la

condicion 3 ), la definicion -sistema es mucho mas debil que la de -algebra.
Toda -algevra es un -sistema pero la recproca no es valida.
151
c
Algunas propiedades de los -sistemas
L
Si A B, y A, B L B A L.
S
Prueba: B A = B Ac = (B c A)c y B c A = .
L es cerrado por uniones numerablesScrecientes. Si An L n N , y
A1 A2 . . . An . . ., entonces nN An L.
Prueba:
[
An = A1 (A2 A1 ) (A3 A2 ) . . . (An An1 . . .
nN
Si L es a la vez un -sistema y un -sistema, entonces L es una algebra.

Notaci
on: Si P es una familia de partes de , notamos por (P ) la
-algebra generada por L.
Teorema C.1.1 (Teorema de Dynkin) Si P es un -sistema, L es
un -sistema, y P L entonces (P ) L.
Prueba: Sea L0 el -sistema generado por P, esto es la interseccion de todos
los -sistemas que contienen a P (que es a su vez un -sistema). Notamos que
en particular L0 L. Afirmamos que L0 es un -sistema. Para probar que
L0 es un -sistema, procedemos del siguiente modo: dado A L, definimos
LA = {B : A B L0 }
Afirmaci
on 1: Si A L0 , entonces LA es un -sistema.
A = A L0 por hipotesis, luego LA .
Si B1 , B2 LA y B1 B2 , entonces por definicion A B1 , A B2 L0 .
Ahora como L0 es un -sistema y A B1 A B2 , tenemos que
A B1 A B2 = A (B1 B2 ) L0 . En consecuencia, B1 B2 LA .
c
Si (Bn ) es una familia disjunta de conjuntos de LA entonces A Bn es
una familia disjunta de conjuntos de L0 , y como
!
[
\
A
Bn =
(A Bn ) L0
nN
nN
entonces
[
Bn LA
nN
Afirmaci
on 2: Si A P, entonces L0 LA .
Si A P, entonces para cualquier B P tenemos que A B P, ya
que P es por hipotesis un -sistema. Deducimos que P LA . Luego por la
afirmacion 1, LA es un -sistema que continene a P, lo cual por la definicion
de L0 implica que L0 LA .
Afirmaci
on 3: Si C L0 , entonces L0 LC .
Para todo A P, por la afirmacion 2, tenemos que LA L0 . Luego
si C L0 , entonces C LA , que por simetra de la definicion implica que
A LC . Como esto vale para todo A P, deducimos que P LC .
Por la afirmacion 1, deducimos que LC es un -sistema que contiene a P,
lo que por la definicion de L0 , implica que L0 LC .
Finalmente sean D, E L0 . Entonces por la afirmacion 3, D L0 LE .
En consecuencia por definicion de LE , D E L0 . Concluimos que L0 es un
-sistema.
Conclusi
on de la prueba: Como L0 es a la vez un -sistema, y un
-sistema, es una -algebra. Como contiene a P, deducimos que (P) L0 .
Y entonces, como L0 L, concluimos que (P) L.
C.2.
Variables independientes
Si X e Y son dos variables aleatorias, recordamos que X e Y se dicen

independientes si para cualquier par de intervalos (a, b] y (c, d] de la recta,
los eventos {X (a, b]} y {Y (c, d] son idenpendientes, es decir que:
P {(X, Y ) (a, b] (c, d]} = P {X (a, b]} P {Y (c, d]}
c
Podemos interpretar esta formula como:
(X,Y ) ((a, b] (c, d]) = X ((a, b])Y ((c, d])
El siguiente lema afirma que una formula analoga es valida si sustituimos
los intervalos por conjuntos borelianos de la recta:
Lema C.2.1 Sean X e Y dos variables aleatorias. Entonces X e Y son
idependientes si y solo si:
P {(X, Y ) B1 B2 } = P {X B1 } P {Y B2 }
para cualquier par B1 , B2 de conjuntos borelianos de la recta.
Prueba: Fijemos primero B1 , como siendo un intervalo (a, b] de la recta, y
consideremos la familia
L1 = {B R : P {(X, Y ) (a, b] B} = P {X (a, b]} P {Y B}}
Afirmamos que A1 es un -sistema de subconjuntos de R. Chequeamos las
tres condiciones de la defincion:
1 ) R L1 :
P {(X, Y ) (a, b] R} = P X (a, b] = P {X (a, b]} P {Y R}

ya que P {Y R = 1.
2 ) B L1 B c = R B L1
En efecto,
P {(X, Y ) (a, b]B c } = P {(X, Y ) (a, b]R}P {(X, Y ) (a, b]B} == P {X (a, b]}P
3 ) S
Si (Bn ) es una familia numerable disjunta y Bn L1 , entonces B =
nN Bn L1
En efecto, utilizando que los Bn son disjuntos, tenemos que:
P {(X, Y ) (a, b] B} = P {(X, Y )
[
nN
((a, b] Bn )}
c
=
P {(X, Y ) (a, b] Bn }
nN
P {X (a, b]}P {Y Bn }
nN
!
= P {X (a, b]}
P {Y Bn }
nN
= P {X (a, b]}P {Y B}
Notemos que no es posible probar que L1 sea una -algebra, pues este
argumento no funciona si los Bn no fueran disjuntos.
Por otra parte la familia P de los intervalos semiabiertos de la recta
(contando como intervalo semiabierto al conjunto vaco (a, a] = es un sistema, y por la definicion de variables aleatorias independientes, P L1 .
El teorema nos permite concluir entonces que (P) L1 , es decir:
que la -algebra B(R) de los borelianos de la recta, esta contenida en L1 .
Entonces, hemos probado que la formula del enunciado, se verifica cuando
B1 es un intervalo semiabierto y B2 un boreliano arbitrario.
Ahora, repetimos el argumento, fijando la otra variable. Para ello consideramos la familia:
L2 = {B R : P {(X, Y ) BB2 } = P {X B}P {Y B2 } : B B(R) }
Repitiendo el argumento anterior, podemos probar que L2 es un -sistema,
y por lo anteriormente probado, L2 contiene a la clase P de los intervalos
semiabiertos. Nuevamente, por el teorema , L2 contiene a los borelianos.
Pero esto significa precisamente, que la formula del enunciado es valida para
B1 , B2 borelianos arbitrarios de la recta.

Corolario C.2.1 Sean X, Y variables aleatorias independientes, y sean 1 , 2 :
R R funciones medibles Borel. Entonces: (X) y (Y ) son variables aleatorias independientes.
Estos resultados se generalizan a varias variables independientes.
c
C.3.
Esperanza del producto de variables independientes
A modo de ilustracion de la utilidad de los teoremas de paso al lmite en

la integral, demostraremos la siguiente propiedad:
Teorema C.3.1 Si X e Y son variables aleatorias independientes con esperanza finita (esto es, integrables) entonces
E[X Y ] = E[X] E[Y ]
Prueba: Hacemos uso una vez mas del metodo de aproximacion por funciones simples. Supongamos pues primero que X e Y son no negativas, y
sean (Xn ) e (Yn ) variables aleatorias simples (discretas) tales que Xn converja a X en forma creciente, e Yn converja en forma creciente a Y , dadas
por la construccion del lema B.1.5. Notamos que como consecuencia de dicha
construccion, si X e Y son independientes, Xn e Yn resultan independientes.
En consecuencia, como ya probamos que el resultado es cierto para variables
discretas (proposicion 2.1.6) , tenemos que
E[Xn Yn ] = E[Xn ] E[Yn ]
Ahora, en virtud del teorema de convergencia monotona,
E[Xn ] E[X]
E[Yn ] E[Y ]
E[Xn Yn ] E[X Y ]
Luego,
E[X Y ] = E[X] E[Y ]
Esto establece el resultado para funciones no negativas. En el caso general,
hacemos uso, una vez mas de la descomposicion:
X = X+ X
Y =Y+Y
Entonces,
E[X Y ] = E[(X + X )(Y + Y ] = E[X + Y + X Y + X + Y +X Y ] =
c
E[X + Y + ] E[X Y + ] E[X + Y ] + E[X Y ]
Pero como X e Y son independientes X + , X son independientes de Y + ,
Y respectivamente; en consecuencia:
E[X Y ] = E[X + ]E[Y + ] E[X ]E[Y + ] E[X + ]E[Y ] + E[X ]E[Y ] =
(E[X + ] E[X ])(E[Y + ] E[Y ]) = E[X]E[Y ]

La prueba de este teorema ilustra como los teoremas de paso al lmite
resultan u
tiles para generalizar las propiedades que conocemos para variables
discretas, al caso de variables aleatorias continuas.
Ap
endice D
Existencia de las Integrales de
Riemann-Stieltjes
En esta apendice, presentaremos una prueba del siguiente resultado fundamental de la teora de la integral de Riemann-Stieltjes:
Teorema D.0.2 Si F es una funcion creciente en un intervalo cerrado [a, b]
de la recta, y es una funcion continua en [a, b], entonces la integral de
Riemann-Stieltjes
Z b
(x) dF (x)
a
existe
Recordamos que esta integral, se define como el lmite conforme la norma
|| de la particion tiende a cero, de las sumas:
S (.F ) =
n1
X
(i )(F (xi+1 ) F (xi ))
i=0
donde : a = x0 < x1 < . . . xn = b es una particion de [a, b] y i

[xi , xi+1 ] es un punto intermedio.
Estas sumas son poco manejables para nuestros propositos pues dependen
de los puntos interemedios i variables. Por ello, las reemplazamos por sumas
superiores e inferiores que son de mas facil manejo:
Para cada i (0 i n 1), notamos:
158
c
mi =
nf
(x)
x[xi ,xi+1 ]
Mi =
sup
(x)
x[xi ,xi+1 ]
y conseideramos las sumas superiores U y las sumas inferiores L definidas por:

L (.F ) =
n1
X
Mi (F (xi+1 ) F (xi ))
i=0
U (.F ) =
n1
X
Mi (F (xi+1 ) F (xi ))
i=0
Es claro entonces que:

L (, F ) S (, F ) U (, F )
Las sumas superiores e inferiores, tienen la siguiente propiedad importante
(de monotona): Si 0 es un refinamiento de , entonces
L0 (, F ) L (, F )
U0 (, F ) U (, F )
(Las sumas superiores decrecen al afinar la particion, mientras que las
inferiores crecen.)
Para demostrarla, es facil observar que se verifica si 0 es una particion
obtenida de agregando un punto. Por induccion, se obtiene el caso general, ya que si 0 es un refinamiento de , ello significa que se obtiene de
agregando finitos puntos.
De esta observacion, se deduce lo siguiente: toda suma superior es mayor que cualquier suma inferior. Es decir que si y 0 son dos particiones
arbitrarias, siempre se verifica que:
L (, F ) U0 (, F )
c
Para demostrar esta afirmacion, es suficiente notar que la particion 00 =
0 es un refinamiento com
un 1
Entonces, utilizando la propiedad de monotona,
L (, F ) L00 U00 U0
Lema D.0.1 Dado > 0, existe > 0 tal que si || < , tenemos que
0 U (, F ) L (, F ) <
Prueba: Dado > 0, como es uniformemente continua en [a, b], existira un
> 0 tal que si |x y| < con x, y [a, b], se tiene que |(x) (y)| < .
Entonces, si es cualquier particion de [a, b] tal que || < , tendremos que:
n1
X
U (, F ) L (, F ) =
(Mi mi )(F (xi+1 ) F (xi ))
i=0
n1
X
(F (xi+1 ) F (xi )) (F (b) F (a))
i=0

Hechas estas observaiones, estamos en condiciones de demostrar el teorema, para ello comencemos elijiendo una sucesion (n ) de particiones de [a, b]
de modo que n+1 sea un refinamiento de n , y que |n | 0. Por ejemplo,
podemos elegir como n la particion uniforme de [a, b] en 2n partes de igual
longitud.
Entonces, por la propiedad de monotona la sucesion de sumas inferiores
Ln (, F ) sera monotona creciente, y ademas esta acotada pues
!
Ln
sup varphi(x) (F (b) F (a))

x[a,b]
En consecuencia, existe el lmite

I = lm Ln (, F )
n+
Es esta propiedad de las particiones, de que dos particiones siempre tienen un refinamiento com
un, hace de las particiones un conjunto dirigido. As pues, S (, F ) es una red
que converge a la integral de Stieltjes.
c
En virtud del lema, tambien tendremos que:
I = lm Un (, F )
n+
Dado > 0, sea > 0 el que corresponde a de acuerdo al lema, y

elijamos n tal que |n | < , y
|Ln I| <
|Un I| <
Afirmamos entonces que:
|S (, F ) I| < 2
En efecto,
S (, F ) I U (, F ) Un + Un I
U (, F ) L (, F ) + < 2
Similarmente,
S (, F ) I L (, F ) Ln + Ln I
L (, F ) U (, F ) > 2
En consecuencia,
lm S (, F ) = I
||0
Una observacion adicional nos sera u

til para demostrar el teorema de
Helly sobre paso al lmite en la integral de Stieltjes: este solo depende de la
continuidad uniforme de y de la magnitud de la variacion F (b) F (a) de
F en [a, b] (La particion n solo juega un rol auxiliar en el argumento, pero
es independiente de n y por lo tanto de F mientras F (b) F (a) permanezca acotado). Esto nos proporciona el siguiente corolario (sobre convergencia
uniforme de la integral de Stieltjes respecto de la funcion F ):
c
Corolario D.0.1 Sea C[a, b]. Dados > 0 y C > 0, existe un > 0
(que depende de > 0 y C pero es independiente de F ) tal que si F es
cualquier funcion F : [a, b] R creciente tal que
F (b) F (a) C
entonces

Z b

(x) dF (x) S (, F ) <

a
Ap
endice E
Las leyes fuertes de
Kolmogorov
E.0.1.
La desigualdad de Kolmogorov
La desigualdad de Kolmogorov es una generalizacion de la desigualdad

de Tchebyschev:
Proposici
on E.0.1 (Desigualdad de Kolmogorov) Sean X1 , X2 , . . . , Xn
variables aleatorias independientes tales que E[Xk ] = 0 y Var(Xk ) < + para k = 1, 2, . . . , n. Entonces para todo > 0,

P

max |Sk |
1kn
n
1
1 X
Var(Xk )
2 Var(Sn ) = 2
k=1
donde Sk = X1 + X2 + . . . + Xn .
Prueba: Consideremos el evento:

2
2
A = max Sk
1kn
Queremos obtener una cota para P (A). Para ello lo descomponemos en eventos disjuntos, de acuerdo a cual es la primera vez que Sk2 2 :
A1 = {S12 2 }
A2 = {S12 < , S22 2 }
163
c
y en general:
2
Ak = {S12 < 2 , S22 < 2 , . . . , Sk1
< 2 , Sk 2 }
Entonces los Ak son disjuntos dos a dos, y

[
A=
Ak
kN
Luego,
IA =
n
X
IAn
k=1
Sn2
Sn2 IA
n
X
Sn2 IAk
k=1
y tomando esperanza:
E[Sn2 ]
n
X
E[Sn2 IAk ]
(E.1)
k=1
Nos gustaria sustituir Sn por Sk en esta sumatoria. Para ello, notamos

que:
Sn2 = (Sn Sk + Sk )2 = (Sn Sk )2 + 2Sk (Sn Sk ) + Sk2 2Sk (Sn Sk ) + Sk2
Multiplicando por IAk y tomando esperanza tenemos que:
E[Sn2 IAk ] E[Sk2 IAk ] + 2E[Sk (Sn Sk )IAk ]
Observamos ahora que Sk IAk y Sn Sk son independientes (pues Sk IAk
depende de X1 , X2 , . . . , Xk y Sn Sk depende de Xk+1 , Xk+2 , . . . , Xn . En
consecuencia:
E[Sk (Sn Sk )IAk ] = E[Sk IAk ]E[Sn Sk ] = 0
pues E[Sn ] = E[Sk ] = 0. En consecuencia:
E[Sn2 IAk ] E[Sk2 IAk ]
c
Ahora en Ak , Sk2 2 . En consecuencia,
E[Sn2 IAk ] E[2 IAk ] = 2 P (Ak )
Sustituyendo este resultado en la desigualdad (E.1), tenemos que:
E[Sn2 ]
n
X
P (Ak ) = 2 P (A)
k=1
Luego
n
1 X
1
2
Var(Xk )
P (A) 2 E[Sn ] = 2
k=1
E.1.
La ley fuerte de los grandes n

umeros
E.1.1.
La primera ley fuerte de Kolmogorov
Teorema E.1.1 (Primera ley fuerte de Kolmogorov) Sea (Xn )nN una
sucesion de variables aletorias independientes con esperanza finita, y supongamos que:
X
Var(Xn )
< +
(E.2)
n2
n=1
Entonces (Xn )nN verifica la ley fuerte de los grandes n
umeros, es decir:
X1 + X 2 + . . . + Xn
E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
0
n
n
Prueba: Podemos suponer sin perdida de generalidad que E[Xn ] = 0 n

N (Sino cambiamos Xn por Xn E[Xn ]. Queremos probar que:
Sn c.s.
0
n
donde Sn = X1 +X2 +. . .+Xn . Definamos las variables maximales diadicas:
Mn =
maxn+1
n
2 <k2
|Sk |
k
c
Basta probar que Mn 0 casi seguramente.
Vamos a probar esto en dos etapas:
Etapa 1: Probaremos que

X
1
P Mn >
< +
m
n=1
para m = 1, 2, . . ., utilizando la desigualdad de Kolmogorov.
Etapa 2: Probaremos que Mn 0 casi seguramente, utilizando el lema
de Borel-Cantelli.
Etapa 1: Para probar la primera afirmacion notamos que:

2n
|Sk |
1
P n maxn+1
>
P n maxn+1 |Sk | >
2 <k2
2 <k2
k
m
m
(ya que dividir por 2n en lugar de k agranda el maximo)

P
2n
maxn+1 |Sk | >
1k2
m

Definamos el evento Am,n = Mn
P (Am,n )
n=1
X
n=1
1
m
n+1
m 2 2X
2n
Var(Xk )
k=1

. Entonces
!
2n+1
m2 X
Var(Xk )
4n k=1
Cambiando el orden de la suma deducimos que:
X
X
X Var(Xk )
P (Am,n ) m2
n
4
n+1
n=1
k=1
k
n:2
= m2
X
k=1
Var(Xk )
X
n:2n+1 k
Ahora bien, sumando la serie geometrica:
X
1
4 1
=
n
4
3 4j
n=j
1
4n
c
En consecuencia:
X
n:2n+1 k
X
1
1
=
n
4
4n
n=j(k)
donde j(k) cumple:

2j(k) < k 2j(k)+1
En consecuencia:
X
n:2n+1 k
1
4 1
4 4
16
=
= 2
n
j(k)
2
4
3 4
3 k
3k
(pues 2j(k) k2 ).
Por lo que sustituyendo, concluimos que:
X
n=1
P (Am,n )
16m2 X Var(Xk )
< +
3 k=1
k2
por la hipotesis.
Etapa 2: Por el lema de Borel-Cantelli, concluimos que, fijado m con
probabilidad 1, solo ocurren finitos de los eventos An,m . Vale decir que si

\ [
1
Am, = : Mn ()
para infinitos n =
Am,n
m
kN nk
entonces P (Am, = 0). Y entonces si consideramos el evento:
[
\ [
A = { : Mn () 6 0 } =
Am,n
mN
kN nk
por la -aditividad, tenemos que: P (A) = 0. Concluimos que Mn 0 con

probabilidad 1.

Corolario E.1.1 La ley fuerte de los grandes n
umeros,
E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
X1 + X 2 + . . . + Xn
0
n
n
es valida para toda sucesion (Xn )nN de variables aleatorias independientes
y uniformemente acotadas.
Prueba: Supongamos que |Xn | c. Entonces Var(Xn ) E[Xn2 ] c2 , y
entonces la hipotesis (E.2) es satisfecha.
c
E.1.2.
Algunos lemas preparatorios
Nuestro siguiente objetivo sera probar que la ley fuerte de los grandes
n
umeros es valida sin la restriccion de acotacion uniforme. Para ello necesitaremos algunos lemas preparatorios:
Lema E.1.1 (Criterio de Integrabilidad) Sea X : R una variable
aleatoria. Entonces E[|X|] < + (X es integrable) si y solo si
P {|X| > n} < +
n=1
Prueba: Pongamos
A0 = { : X() = 0}
An = { : n 1 < |X| n}
A = { : X() = }
Los eventos An (con n N {}) forman una particion del espacio .
Notemos as mismo que bajo cualquiera de las dos condiciones del enunciado X es finita con probabilidad 1, es decir A tiene probabilidad cero. En
consecuencia, por la -aditividad de la integral (de Lebesgue) respecto del
conjunto 1 :
Z
X
|X| dP
E[|X|] =
n=0
An
y por lo tanto:
XZ
n=1
An
(n 1) dP E[|X|]
XZ
n=1
n dP
An
(Notamos que el termino correspondiente a n = 0 se anula). Es decir que:

X
X
(n 1)P (An ) E[|X|]
nP (An )
n=1
1
n=1
Aqu presentamos una prueba usando la integral Lebesgue. Son posibles pruebas alternativas, por ej. usando la integral de Stieltjes. Ver Barry James
c
o sea, teniendo encuenta que los An forman una particion (y que por lo tanto
sus probabilidades suman 1):
!
X
X
nP (An ) 1 E[|X|]
nP (An )
n=1
n=1
Deducimos pues que:

E[|X|] < +
nP (An ) < +
n=1
Para escribir esto de otra forma (y obtener la conclusion del enunciado),

introduzcamos los eventos:
Bn = { : |X()| > n}
Entonces An = Bn1 Bn y como Bn Bn1 deducimos que:
P (An ) = P (Bn1 ) P (Bn )
En consecuencia,
E[|X|] < +
n {P (Bn1 ) P (Bn )} < +
(E.3)
n=1
Ahora notamos que sumando por partes:

N
X
n {P (Bn1 ) P (Bn )} = 1(P (B0 ) P (B1 )) + 2(P (B1 ) P (B2 )) + . . .
n=1
+N (P (BN 1 )P (BN ) = P (B0 )+P (B1 )+P (B2 )+. . .+P (BN 1 )N P (BN )
Es decir que:
N
X
n=1
n {P (Bn1 P (Bn )} =
N
1
X
P (Bn ) N P (BN )
(E.4)
n=0
Ahora probaremos el enunciado: Si E[|X|] es finita, por la desigualdad de

Markov:
1
P (BN ) E[|X|]
N
c
En conscuencia, de (E.4) y (E.3), deducimos que la serie de terminos no
negativos:
X
P (BN )
n=1
tiene sumas parciales acotadas, y es por lo tanto convergente. Esto prueba

una de las implicaciones del encunciado. Para probar la otra, supongamos
que dicha serie es convergente. Entonces, por (E.4):
N
X
n {P (Bn1 ) P (Bn )}
n=1
N
1
X
P (B0 )
n=1
y en consecucnia por (E.3), E[|X|] < +.
Lema E.1.2 Sea X una variable aleatoria con esperanza finita, y pongamos
para cada n, An = { : n |X()| n}.Entonces:
X
1
K=
E[X 2 IAn ] < +
2
n
n=1
Prueba: Necesitamos la siguiente propiedad:
X
1
2
2
n
j
n=j
Para establecer esta formula, notemos que para cada n N :

1
1
1
1
2
n
n(n 1)
n1 n
En consecuencia, sumando esta serie telescopica, obtenemos que:

X
X 1
X 1
1
1
1
1
= 2+
2+
n2
j
n2
j
n1 n
n=j
n=j+1
n=j+1
=
1
1
2
+ <
2
j
j
j
(E.5)
c
Volviendo a la prueba del lema, para cada j N , consideramos el evento:
Bj = { : j 1 < |X()| j}
y
B0 = { : X() = 0}
Entonces:
An =
n
[
Bj (union disjunta)
j=0
En consecuencia:
E[X 2 IAn ] =
n
X
E[X 2 IBj ]
j=0
y por lo tanto:
n
X
X
1
1 X
2
K=
E[X IAn ] =
E[X 2 IBj ]
2
2
n
n
n=1
n=1
j=0
Cambiando el orden de la suma (cosa que esta permitida, ya que es una serie
de terminos no negativos):
X
X
1
K=
E[X 2 IBj ]
2
n
j=1 n=j
Utilizando entonces la propiedad (E.5), vemos que:

K
X
2
j=1
E[X 2 IBj ]
Ahora bien, cuando ocurre el evento Bj , X 2 j|X|. Deducimos que,

K2
E[|X|IBj ] 2E[|X|] < +
j=1
ya que los eventos (Bj ) forman una particion de .
c
E.1.3.
La segunda ley fuerte de Kolmogorov
Teorema E.1.2 Sea (Xn )nN una sucesion de variables aleatorias independientes e identicamente distribuidas con E[|Xi |] < +. Sea = E[Xi ] entonces
X1 + X2 + . . . Xn c.s.

n
cuando n +.
La prueba se basa en el metodo de truncamiento. Definimos unas nuevas
variables aleatorias Yn por:

Xn si |Xn | n
Yn =
0 si |Xn | > n
Lema E.1.3 Supongamos que se cumplen las hipotesis del teorema E.1.2
Las variables truncadas Yn tienen las siguientes propiedades:
i)
limn+ E[Yn ] =
ii)
X
Var(Yn )
n=1
n2
< +
iii) Con probabilidad 1, dado existe un n0 = n0 () tal que Xn () =

Yn () para n n0 .
Prueba: i): Como las Xn son identicamente distribuidas:
E[Yn ] = E[Xn I{|Xn |1} ] = E[X1 I{|Xn |1} ]
Ahora bien la secuencia de variables aleatorias: X1 I{|Xn |1} esta acotada por
|X1 |:
|X1 I{|Xn |1} | |X1 |
que es integrable por hipotesis. En consecuencia, por el teorema de convergencia mayorada:
E[Yn ] E[X1 ] =
c
ii): Nuevamente, como las Xn son identicamente distribuidas
Var(Yn ) = Var(X1 I{|X1 |n} )
y la conclusion se sigue del lema E.1.2 pues X1 es integrable.
iii): Consideramos el evento
A = { : n0 = n0 () tal que n n0 : Xn () = Yn ()}
Queremos ver que P (A) = 1. Para ello consideramos los eventos,
An = { : Xn () 6= Yn ()}
Entonces:
X
n=1
P (An ) =
P {Xn 6= Yn } =
n=1
X
n=1
P {|Xn | > n} =
P {|X1 | > n} < +
n=1
por el criterio de integrabilidad (lema E.1.1). En consecuencia, por el lema

de Borel-Cantelli, con probabilidad 1, solo ocurre un n
umero finito de los
sucesos An , es decir que P (A) = 1.

Corolario E.1.2 Si consideramos el evento
(
)
n
1X
B = : lm
|Xk () Yk ()| = 0
n+ n
k=1
tenemos que P (B) = 1
En efecto, como A B (donde A es el evento definido en la prueba
anterior), y P (A) = 1 deducimos que P (B) = 1.
Necesitaremos tambien un lema (ejercicio) de analisis I:
Lema E.1.4 Sea (k )kN una sucesion de
umeros reales tales que k
Pn
n
1
cuando k +, y pongamos zn = n k=1 k entonces zn cuando
n +.
Podemos ahora concluir la prueba de la segunda ley fuerte de Kolmogorov
(teorema E.1.2): consideramos el evento

X1 () + X2 () + . . . + Xn ()
C= :
cuando n +
n
c
Y consideramos tambien el evento:

Y1 () + Y2 () + . . . + Yn ()
D= :
0 cuando n +
n
n
siendo k = E(Yk ) y = 1 +2 +...+
.
n
En virtud del lema E.1.3, ii), vemos que las variables truncadas Yn verifican las hipotesis de la primera ley fuerte de Kolmogorov (teorema E.1.1),
en consecuencia P (D) = 1. Ahora bien, en virtud del lema E.1.4:
1 + 2 + . . . + n
n
y en consecuencia: B D C. Pero como, P (B) = P (D) = 1, deducimos
que P (C) = 1.
Esto concluye la prueba de la segunda ley fuerte de Kolmogorov.
Bibliografa
[1] Durrett, Richard. Probability:theory and examples. Duxbury Press, Second edition, 1996.
[2] Feller, William. An introduction to probability theory and its applications, J. Wiley. 1978.
[3] Garca Alvarez,

Miguel Angel. Introduccion a la Teora de la Probabilidad (Primero y Segundo curso). Fondo de Cultura Economica, 2005.
[4] James, Barry. Probabilidade: um curso em nvel intermediario (2 ed.),
IMPA. 2002.
[5] A. Mood, F. Graybill. Introduccion a la Teora de la Estadstica. Aguilar.
1969.
[6] Renyi, Alfred . Teora de Probabilidades. Reverte 1978.
[7] Ross, Sheldon. A first course in Probability. 1994-1998.
[8] Rozanov, Yu. Procesos Aleatorios. Editorial Mir, 1973.
[9] Yohai, Victor. Notas del curso Probabilidades y Estadstica (M) (disponibles en la Web- version actualizada en 2005)
Libros avanzados sobre probabilidad: (para quienes hayan cursado an
alisis real y quieran profundizar en estos temas)
[10] Patrick Billingsley. Probability and Measure. John Willey & Sons.
(1979)
Artculos elementales sobre probablidad:
175
c
[11] Henryk Gzyl, Jose Luis Palacios. The Weierstrass Aproximation theorem and Large Desviations. American Mathematical Monthly, AugustSepetember (1997).
Libros de An
alisis Real:
[12] R. Wheeden, A. Zygmund. Measure and Integral. Marcel Dekker Inc.
1977.
[13] A.N. Kolmogorov, S.V. Fomn. Elementos de la teora de funciones y del
analisis funcional. Editorial MIR, Mosc
u, (1975).
Otra bibliografa consultada para la elaboraci
on de estas notas:
[14] R. Courant, F. John. Introduccion al calculo y al analisis matematico.
Ed. Limusa (1985).

Probayestadistica

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Probayestadistica

Hochgeladen von

Copyright:

Verfügbare Formate

Notas de Probabilidad y Estadstica

(en construccion- version 0.6.4)

As mismo se advierte que estas notas a

2. Variables Aleatorias Discretas

4. Convergencia de Variables Aleatorias, y Ley Fuerte de los

5.3. Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . 117

La teora de probabilidades trata con experimentos aleatorios, es decir

rango). Podemos por lo tanto pensar que el espacio muestral es un

La idea basica del calculo de probabilidades sera asignar a cada evento

Por ejemplo, supongamos que nos preguntamos cual es la probabilidad

para todo i, y recuperamos la definicion clasica de La-

obtenemos una probabilidad definida en .

Si dividimos numerador y denominador por #(), tenemos:

Aunque hemos deducido esta formula de la definicion clasica de Laplace,

siempre que P (B) > 0.

1. La funcion A 7 P (A/B) debe ser una probabilidad (o sea satisfacer

Si ahora consideramos una particion del espacio muestral en eventos

por la aditividad de la probabilidad, y como

(formula de la probabilidad total)

Como hemos dicho, en muchas situaciones importantes, no es posible

distribucion uniforme. Con esto queremos decir que si I [0, 1] es un

donde I designa la longitud del intervalo I.

Obviamente, el conjunto de todas las partes de , P() es una -algebra,

Si ademas se verifica que () = 1, se denomina una medida de probabilidad sobre .

1. M contiene a los intervalos abiertos (por lo tanto M contiene a la

En muchas situaciones, nos interesa un n

es absolutamente convergente, es decir si:

En este caso definimos, la esperanza de X como el valor de dicha suma.

Hagamos algunas observaciones sobre esta definicion:

Ejemplo: Sea A un evento, consideramos la funcion IA : R definida

Intuitivamente IA vale 1 cuando el evento A ocurre, y 0 sino. Se denomina

Mientras que al evento siempre sale ceca le asignamos probabilidad 0,

Hacemos la convencion de que:

que se deduce de derivar la serie geometrica, con x = 21 , deducimos que

A veces resulta conveniente admitir esperanzas infinitas. Si X 0 diremos

Notamos que X + y X son variables aleatorias no negativas.

y el reordenamiento de la serie esta justificado por la convergencia absoluta,

Sea Z = X + Y y sean z1 , z2 , . . . , zk , . . . los valores de Z. Entonces los

i,j:xi +yj =zk

i,j:xi +yj =zk

Esto completa la prueba de la primera afirmacion. En cuanto a la segunda

siempre que esta serie sea absolutamente convergente.

(El reordenamiento se justifica usando la convergencia absoluta de la serie.)

donde xi recorre la imagen de X, siempre que esta serie sea absolutamente

en la que 0P i y i=1 i = 1. Probar que si f : R R es una funcion

en los siguientes casos: si X es no negativa y g(x) 0 para x 0, o si X y

es una combinacion convexa de los valores de X. Como X es una funcion

es una combinacion convexa. Entonces, como g es convexa:

1. Es mas, vemos que:

2. E[|X|p ]1/p es una funcion creciente de p.

En lo sucesivo, nos van a interesar especialmente dos clases Lp :

L2d () = {X : R : variable aleatoria (discreta) con segundo momento finito}

1. Si X = c es constante, entonces Var(X) = 0.

Desigualdades de Tchesbychev y de Markov

Prueba: Sea A = { : X() }. Entonces X IA , en consecuencia:

Prueba: Si cambiamos X por |X|p en la desigualdad anterior tenemos que:

entonces E[XY ] = E[X] = E[Y ] = 0, pero X e Y no son independientes

Dem: Sale de la formula anterior por induccion.

Ensayos de Bernoulli - La distribuci

1 si la i-esima realizacion del experimento fue un exito

Es un espacio muestral finito, con cardinal 2n . Notemos que las funciones

De que modo asignaremos las probabilidades en este espacio?. Puesto

Ahora la probabilidad de que Xi = xi es p si xi = 1 (es un exito) y q si