Beruflich Dokumente
Kultur Dokumente
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
Pr
ologo a la versi
on 2012:
Actualmente estoy actualizando las notas, preparandolas para la version
2012. Estoy corrigiendoles algunos errores que me reportaron varios estudiantes y agregandole paulatinamente los temas faltantes.
Por otra parte, como se decidio que Analisis Real sea correlativa de
Probabilidad y Estadstica (para matematicos), el enfoque en esta cursada sera (a
un) mas elemental que en las anteriores. Por dicha razon, algunos
temas como las leyes fuertes de Kolmogorov (que usan conceptos de analisis
real) pasaron a los apendices (cuyo contenido NO formara parte del programa
del curso).
Pr
ologo a la versi
on 2010:
Estas son las notas del curso de Probabilidades y Estadstica (para matematicos) que di en 2006. Mi intencion es irlas completando a lo largo de la
presente cursada del primer cuatrimestre de 2010.
Seguramente tambien, introducire algunas modificaciones al desarrollo de
los temas, teniendo en cuenta la experiencia de aquella cursada. Sin embargo,
espero que las presentes notas sigan siendo de utilidad.
Pr
ologo a la versi
on 2006:
El objetivo de estas notas es ser una ayuda para facilitar el seguimiento
y la comprension de las clases teoricas de Probabilidad y Estadstica (para
matematicos).
Sin embargo se advierte que no contienen todos los temas vistos en clase
(sino solamente algunos, en la medida que he podido ir escribiendolas; algunas
demostraciones estan incompletas), ni los ejemplos vistos en las praticas; y
que su lectura no sustituye la consulta de la bibliografa de la materia.
En particular, los siguientes temas no estan desarrollados en estas notas:
Teorema Central del Lmite.
Distribucion Normal Multivariada.
Estadstica: estimadores de maxima verosimilitud e intervalos de confianza.
y algunas partes (probabilidad y esperanza condicionales, convergenceia
de variables aleatorias, ley fuerte de los grandes n
umeros) estan incompletas.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
Indice general
1. El Espacio Muestral
1.1. Experimentos Aleatorios . . . . . . . . . . . . . . . .
1.2. La definicion clasica de Laplace . . . . . . . . . . . .
1.3. Definicion axiomatica de la probabilidad (provisional)
1.4. Probabilidad Condicional . . . . . . . . . . . . . . . .
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . .
1.6. El marco de Kolmogorov . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
9
11
14
14
18
18
22
22
25
26
28
30
31
32
34
37
40
43
45
48
3. Distribuciones Continuas
52
3.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . 52
3.1.1. Propiedades de las funciones de distibucion . . . . . . . 55
3
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
3.2. La integral de Riemman-Stieltjes y la definicion de esperanza
3.3. La definicion de Esperanza . . . . . . . . . . . . . . . . . . .
3.4. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Densidades y distribuciones marginales . . . . . . . .
3.4.2. Esperanza de funciones de vectores aleatorios. Covariancia . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3. Independencia . . . . . . . . . . . . . . . . . . . . . .
3.4.4. Vectores aleatorios n-dimensionales . . . . . . . . . .
3.5. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . .
3.5.1. Cambios de variables unidimensionales . . . . . . . .
3.5.2. Cambios de variables n-dimensionales . . . . . . . . .
3.6. Suma de variables aleatorias independientes . . . . . . . . .
3.7. Las Distribuciones Gama . . . . . . . . . . . . . . . . . . . .
3.8. Un ejemplo: La Distribucion Exponencial . . . . . . . . . . .
3.9. Tiempos de espera y procesos de Poisson . . . . . . . . . . .
3.10. Algunas densidades u
tiles en estadstica . . . . . . . . . . . .
3.10.1. Las densidades 2 . . . . . . . . . . . . . . . . . . . .
3.10.2. Densidad del cociente de dos variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . .
3.10.3. La densidad t de Student . . . . . . . . . . . . . . . .
3.11. Distribucion Normal Multivariada . . . . . . . . . . . . . . .
4
.
.
.
.
58
61
68
71
.
.
.
.
.
.
.
.
.
.
.
.
72
74
76
78
78
78
79
80
82
84
86
86
. 87
. 87
. 89
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
118
. 118
. 119
. 121
A. La F
ormula de Stirling
123
A.1. La formula de Wallis para . . . . . . . . . . . . . . . . . . . 123
A.1.1. Otra formula de la f
normula de Wallis . . . . . . . . . 125
A.2. Prueba de la formula de Stirling . . . . . . . . . . . . . . . . . 126
B. Construcci
on de la Integral de Lebesgue, y equivalencia de
las distintas definiciones de esperanza
129
B.1. Funciones Medibles . . . . . . . . . . . . . . . . . . . . . . . . 130
B.1.1. Funciones Simples . . . . . . . . . . . . . . . . . . . . . 134
B.2. Integral de Funciones Simples . . . . . . . . . . . . . . . . . . 135
B.3. Integral de funciones no negativas . . . . . . . . . . . . . . . . 136
B.4. Funciones Integrables . . . . . . . . . . . . . . . . . . . . . . . 141
B.5. Equivalencia de las distintas definiciones de Esperanza . . . . 145
B.5.1. Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . 149
C. Independencia
151
C.1. El teorema de Dynkin . . . . . . . . . . . . . . . . . . . 151
C.2. Variables independientes . . . . . . . . . . . . . . . . . . . . . 153
C.3. Esperanza del producto de variables independientes . . . . . . 156
D. Existencia de las Integrales de Riemann-Stieltjes
E. Las leyes fuertes de Kolmogorov
E.0.1. La desigualdad de Kolmogorov . . .
E.1. La ley fuerte de los grandes n
umeros . . . .
E.1.1. La primera ley fuerte de Kolmogorov
E.1.2. Algunos lemas preparatorios . . . . .
E.1.3. La segunda ley fuerte de Kolmogorov
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
158
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
163
163
165
165
168
172
Captulo 1
El Espacio Muestral
1.1.
Experimentos Aleatorios
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
1.2.
La definici
on cl
asica de Laplace
#(A)
casos favorables
=
casos posibles
#()
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
= {1, 2, 3, 4, 5, 6}
y 3 casos posibles, que corresponden a los elementos del evento
A = {2, 4, 6}
Si suponemos que el dado no esta cargado (de modo que asumimos que
los seis resultados posibles del experimento son equiprobables), entonces
1
3
=
6
2
Cual es el significado intuitivo de esta probabilidad?. Intuitivamente,
esperamos que si repetimos el experimento muchas veces, observemos que
aproximadamente la mitad de las veces sale un n
umero par (y la otra mitad
de las veces sale un n
umero impar).
Notemos algunas propiedades de la nocion de probabilidad, introducida
por la definicion de Laplace:
P (A) =
1. La probabilidad de un evento es un n
umero real entre 0 y 1.
0 P (A) 1
2. La probabilidad de un evento imposible es 0:
P () = 0
mientras que la probabilidad de un evento que ocurre siempre es 1:
P () = 1
Por ejemplo; al tirar un dado, la probabilidad de sacar un 7 es cero
mientras que la probabilidad de sacar un n
umero menor que 10 es uno
(Los eventos imposibles corresponden como conjuntos al conjunto vaco,
y los que ocurren siempre corresponden a todo el espacio muestral ).
Notemos que para el concepto de probabilidad introducido por la definicion clasica de Laplace, es cierta la recproca de esta afirmacion: si
P (A) = 0, el suceso A es imposible, mientras que si P (A) = 1 el suceso
ocurre siempre. Sin embargo, esto no sera cierto para otras extensiones
del concepto de probabilidad que introduciremos mas adelante.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
3. Si A y B son dos eventos que no pueden ocurrir simultaneamente, entonces la probabilidad de que ocurra A u ocurra B (lo que corresponde
como conjunto a A B), es cero
A B = 0 P (A B) = P (A) + P (B)
1.3.
Definici
on axiom
atica de la probabilidad
(provisional)
La definicion clasica de Laplace, aunque tiene un claro significado intuitivo presenta algunas limitaciones. En primer lugar, su aplicacion esta limitada
a problemas donde el espacio muestral es finito. Sin embargo como hemos
mencionado al comienzo, en muchas aplicaciones importantes del calculo de
probabilidades, nos encontramos con espacios muestrales que no lo son.
Por otra parte, la definicion clasica de Laplace hace la suposicion de
que los posibles resultados del experimento aleatorio (los puntos del espacio muestral) son equiprobables, pero es facil imaginar experimentos en los
que esta suposicion no se verifica, por ejemplo si arrojamos un dado que no
esta equilibrado (esta cargado).
Por los motivos expresados, sera conveniente generalizar la nocion de probabilidad. Por ello, introduciremos la siguiente definicion axiomatica (provisional).
Definici
on 1.3.1 Sea un espacio muestral, por una probabilidad definida
en entenderemos una funcion P que a cada parte de (evento) le asigna
un n
umero real de modo que se cumplen las propiedades enunciadas en la
seccion anterior:
1. La probabilidad de un evento A es un n
umero real entre 0 y 1:
0 P (A) 1
2. La probabilidad del evento imposible es 0:
P () = 0
mientras que la probabilidad de un evento que ocurre siempre es 1:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
10
P () = 1
3. La probabilidad es finitamente aditiva:
A B = 0 P (A B) = P (A) + P (B)
Mas adelante, nos veremos obligados a modificar esta definicion, ya que
en muchos ejemplos no es posible asignar probabilidades a todas las posibles
partes de (por lo que deberemos restringir la nocion de evento).
Veamos algunos ejemplos:
Supongamos que tenemos un espacio muestral finito
= {1 , 2 , . . . , n }
pero que no queremos asumir que los posibles resultados de nuestro experimento aleatorio son equiprobables. Entonces supondremos que cada uno de
ellos tiene una probabilidad pi [0, 1]:
P ({ri }) = pi
Entonces dado un evento A , le asignamos la probabilidad
X
P (A) =
pi
ri A
Si suponemos que
n
X
pi = 1
i=1
entonces la probabilidad as definida, verifica los axiomas de nuestra definicion axiomatica de probabilidad.
Notemos que en particular, si los resultados ri (1 i n) son equiprobables:
p1 = p2 = . . . = pn
entonces pi =
place:
1
n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
11
#(A)
n
El ejemplo anterior, facilmente puede generalizarse al caso de un espacio
muestral numerable
= {1 , 2 , . . . , n , . . .}
P (A) =
Nuevamente supongamos que a cada resultado ri (con i N) le hemos asignado una probabilidad pi [0, 1], de modo que
pi = 1
i=1
entonces si definimos
P (A) =
pi
ri A
1.4.
Probabilidad Condicional
En muchas situaciones tendremos que estimar la probabilidad de un evento pero disponemos de alguna informacion adicional sobre su resultado.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
12
Por ejemplo supongamos que arrojamos un dado (equilibrado) y nos preguntamos Que probabilidad le asignaramos a sacar un dos, si supieramos
de antemano que el resultado sera un n
umero par?. Para formalizar esta
pregunta consideramos en el espacio muestral
= {1, 2, 3, 4, 5, 6}
los eventos
A = sale un 2 = {2}
B = sale un n
umero par = {2, 4, 6}
Entonces vamos a definir la probabilidad condicional de que ocurra el
evento A sabiendo que ocurre el evento B que notaremos P (A/B).
Si estamos en una situacion como la anterior donde la definicion clasica
de Laplace se aplica podemos pensarlo del siguiente modo: los resultados
posibles de nuestro experimento son ahora solo los elementos de B (es decir: hemos restringido nuestro espacio muestral a B), mientras que los casos
favorables son ahora los elementos de A B luego
P (A/B) =
#(A B)
#(B)
#(AB)
#()
#(B)
#()
P (A B)
P (B)
P (A B)
P (B)
(1.1)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
13
n
X
P (A Bk )
k=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
1.5.
14
Independencia
Definici
on 1.5.1 Decimos que el evento A es independiente del evento B
con P (B) > 0 si
P (A/B) = P (A)
Intuitivamente este concepto significa que saber si el evento B ocurre o
no, no nos dara una mejor estimacion de la probabilidad de que ocurre el
evento B que si no lo supieramos.
Teniendo en cuenta la definicion de la probabilidad condicional, vemos
que la condicion para que el evento A sea independiente de B es que:
P (A B) = P (A)P (B)
Esta manera de escribir la definicion tiene dos ventajas: se ve que tiene sentido
a
un si P (B) = 0, y muestra que los roles de los eventos A y B son simetricos.
Reescribimos pues la definicion en la siguiente forma:
Definici
on 1.5.2 Decimos que los eventos A y B son (estocasticamente)
independientes si
P (A B) = P (A)P (B)
Esta definicion admite la siguiente generalizacion:
Definici
on 1.5.3 Decimos que una familia cualquiera de eventos (Ai )iI es
independiente si
P (Ai1 Ai2 Ain ) = P (Ai1 )P (Ai2 ) P (Ain )
para cualquier eleccion de una cantidad finita Ai1 , . . . , Ain de eventos distintos de la familia.
1.6.
El marco de Kolmogorov
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
15
(1.2)
nN
An
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
16
2. T
Si (An )nN es una familia numerable de subconjuntos de entonces
ormula de De Morgan
nN An E Prueba: por la f
!c
\
[
An =
Acn
nN
nN
3. Si A, B E entonces A B E.
Definici
on 1.6.2 Observemos que la interseccion de una familia cualquiera
de -algebras de partes de , tambien es una -algebra. Deducimos que para
cualquier A P(), existe una menor -algebra que la contiene. Dicha algebra se denomina la -algebra generada por A.
Definimos la -algebra de Borel de R, como la -algebra generada por los
intervalos abiertos de R. Notaci
on: B(R)
Definici
on 1.6.3 Sean un conjunto y E P(). Una medida sobre E es
una funcion : E [0, +]. con las siguientes propiedades:
1.
() = 0
2. Si (An )nN es una familia disjunta numerable de conjuntos de E, entonces:
!
[
X
An =
(An )
nN
nN
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
17
Captulo 2
Variables Aleatorias Discretas
2.1.
La Esperanza
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
19
Definici
on 2.1.2 Sea X : R una variable aleatoria discreta. Diremos
que X es integrable (o que tiene esperanza finita) si la serie
X
p i xi
i
En consecuencia:
18 19
1
=
= 0, 027 . . .
37 37
37
As pues, al jugar a la ruleta, debemos esperar perder un 27 por mil.
E[X] =
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
20
1 si A
0 si 6 A
Hay un caso especial, que es cuando siempre sale ceca, esto es: que valor
de T le asignaremos a la sucesion = (0, 0, 0, . . . , 0, . . .) ? Lo razonable es
poner:
T ((0, 0, 0, . . . , 0, . . .)) = +
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
21
Esto muestra que a veces resulta conveniente admitir variables aleatorias que
pueden tomar el valor + (o tambien ).
Ahora debemos calcular cual es la distribucion de probabilidades de T ,
es decir cual es la probabilidad de que T tome cada valor.
P {T = k} = P {X1 = 0, X2 = 0, . . . , Xk1 = 0, Xk = 1}
y dado que los ensayos son independientes a este evento le asignamos la
probabilidad dada por el producto de las probabilidades:
P {T = k} = P {X1 = 0} P {X2 = 0} . . . P {Xk1 = 0} P {Xk = 1} =
1
2k
X
k
kP {T = k} + (+) P {T = +} =
E[T ] =
+ (+) 0
2k
k=1
k=1
X
k
E[T ] =
2k
k=1
Utilizando la formula,
X
k=1
kxk =
x
si |x| < 1
(1 x)2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
2.1.1.
22
Esperanzas infinitas
diverge.
Si X es una variable aleatoria discreta cualquiera, escribimos
X = X+ X
donde
+
X =
X si X 0
0 si X < 0
X =
X si X < 0
0 si X 0
2.1.2.
Propiedades de la esperanza
Proposici
on 2.1.1 (linealidad de la esperanza)
1. Si X, Y : R
son variables aleatorias discretas con esperanza finita, entonces
E[X + Y ] = E[X] + E[Y ]
2. Si X : R es una variable aleatoria discreta con esperanza finita,
entonces:
E[X] = E[X]
Prueba: Sean (xi ) los valores que toma X, e (yj ) los valores que toma Y :
entonces
X
X
E[X] =
xi P {X = xi } =
xi P {X = xi , Y = yj }
i
i,j
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
23
ya que
{X = xi } =
{X = xi , Y = yj } (union disjunta)
Similarmente,
E[Y ] =
yj P {X = xi } =
yj P {X = xi , Y = yj }
i,j
En consecuencia,
E[X] + E[Y ] =
(xi + yj )P {X = xi , Y = yj }
i,j
pues
{Z = zk } =
{X = xi , Y = yj } (union disjunta)
Deducimos que
E[Z] =
X
(xi + yj )P {X = xi , Y = yj } = E[X] + E[Y ]
k
X
i
xi P {X = xi } =
xi P {X = xi } = E[X]
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
24
Proposici
on 2.1.2 (Monotona de la esperanza)
1. Si X es una variable aleatoria con esperanza finita y X 0 con probabilidad 1, entonces E[X] 0.
2. Sean X e Y variables aleatorias con esperanza finita. Entonces, si X
Y con probabilidad 1, tenemos que E[X] E[Y ]
3. Si X es una variable aleatoria acotada, entonces:
nf X E[X] sup X
.
4. Si X es una variable aleatoria discreta con esperanza finita, entonces:
|E[X]| E[|X|]
Proposici
on 2.1.3 Sean X una variable aleatoria discreta y : R R.
Entonces
X
E[(X)] =
g(xi )P {X = xi }
i
i:(xi )=yj
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
25
Proposici
on 2.1.4 Sean X un vector aleatorio n-dimensional y : Rn
R, entonces
X
E[(X)] =
g(xi )P {X = xi }
i
2.1.3.
Independencia
Definici
on 2.1.4 Sean X e Y dos variables aleatorias discretas definidas
en un mismo espacio muestral. Diremos que son independientes, si para
cada xi , yj los eventos {X = xi } e {Y = yj } son independientes, es decir de
acuerdo a la definicion de eventos independientes si,
P {X = xi , Y = yj } = P {X = xi } {Y = yj }
Observaci
on: Remarcamos que esta definicion solamente se aplica a variables discretas, cuando generalicemos esta nocion a variables aleatorias no
discretas, nos veremos en la necesidad de adoptar una definicion diferente.
Proposici
on 2.1.5 Si X e Y son variables aleatorias discretas independientes, y f, g : R R son funciones, entonces Z = f (X) y W = g(Y ) tambien
son variables aleatorias discretas independientes.
Prueba: Calculemos la distribucion conjunta de Z y W :
X
P {Z = z, W = w} =
P {X = x, Y = y}
x,y:f (x)=z,g(y)=w
P {X = x}P {Y = y}
x,y:f (x)=z,g(y)=w
X
x:f (x)=z
P {X = x}
P {Y = y} = P {Z = z}P {W = w}
y:g(y)=w
Proposici
on 2.1.6 Si X e Y son variables aleatorias discretas independientes con esperanza finita, entonces:
E(XY ) = E(X)E(Y )
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
26
Prueba:
E[XY ] =
xi yi P {X = xi , Y = yj } =
i,j
xi yi P {X = xi }P {Y = yj }
i,j
!
X
xi P {X = xi }
!
X
yj P {Y = yj }
= E[X]E[Y ]
Observaci
on: En el caso en que X e Y toman infinitos valores, la aplicacion
de la propiedad distributiva, esta justificada por el hecho de que las series
que intervienen son absolutamente convergentes, por hipotesis.
2.1.4.
Desigualdad de Jensen
Definici
on 2.1.5 Sea f : R R una funcion. Diremos que f es convexa,
si dados x, y R y [0, 1], se verifica que:
f (x + (1 )y) f (x) + (1 )f (y)
Observaci
on: Si f es de clase C 2 , entonces f es convexa, si y solo si
f (x) 0.
Observaci
on: Una funcion convexa en R es necesariamente continua.
Ademas es posible probar que su derivada f 0 (x) existe salvo quizas para un
conjunto a lo sumo numerable de valores de x, y que f 0 es creciente (ver [12],
teorema 7.40).
Ejercicio: Una combinaci
on convexa de los xi es una combinacion
lineal
n
X
i xi
00
i=1
Pn
i=1
Proposici
on 2.1.7 (Desigualdad de Jensen) Si g : R R es una funcion convexa, entonces:
g(E[X]) E[g(X)])
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
27
n
X
p i xi
i=1
i=1
Si X toma un n
umero numerable de valores, xi con probabilidades pi , entonces hacemos lo siguiente: para cada n N definamos,
sn =
n
X
pi
i=1
y notamos que
n
X
pi
xi
s
n
i=1
X
X
g(E[X]) = g
p i xi
pi g(xi ) = E[g(X)]
i=1
i=1
Ejemplo: f (x) = |x| es una funcion convexa si p 1. En consecuencia,
en este caso:
|E[X]|p E[|X|p ]
p
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
2.2.
28
Momentos - Varianza
Definici
on 2.2.1 Sea X una variable aleatoria (discreta). Definimos el kesimo momento de X entorno de b como E[(X b)k ]. El k-esimo momento
absoluto entorno de b se define como E[|X b|k ].
Algunas observaciones:
1. Si E[|X|t ] < y 0 s t, entonces E[|X|s ] < +. En efecto seg
un
la desigualdad de Jensen,
(E[|X|s ])p E[|X|t ]
donde p =
t
s
kXkp = E[|X|p ] p
es una norma en dicho espacio.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
29
X
X
X
1
1
1
=
P {n } =
=1
n(n
+
1)
n
n
+
1
n=1
n=1
n=1
P {n } =
(serie telesc
opica). Definamos la variable aleatoria X : R, dada por
X(n ) = n. Entonces,
X
X
X
1
n
X(n )P {n } =
E(X) =
< +
n(n + 1) n=1 n3/2
n=1
n=1
pero
2
E(X ) =
X
n=1
X(n ) P {n } =
X
n=1
X 1
n
=
= +
n(n + 1) n=1 n + 1
Definici
on 2.2.2 El segundo momento de X entorno de su media se llama
la varianza de X, es decir:
Var(X) = E[(X E(X))2 ]
Por lo anterior Var(X) < + si y solo si el segundo momento de X es
finito, es decir si X L2d .
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
30
Ejemplo: Sea A un evento con probabilidad p, e IA su indicador. Calculemos su varianza. Ya vimos que:
E[IA ] = P (A) = p
En consecuencia:
Var(IA ) = E[(IA p)2 ]
La distribucion de probabilidades de (IA p)2 es:
(1 p)2
si ocurre A
(con probabilidad p)
2
(IA p) =
2
p si no ocurre A (con probabilidad q = 1 p)
En consecuencia,
Var(IA ) = (1 p)2 p + p2 (1 p) = p p2 = pq
Proposici
on 2.2.1
2. Var(aX + b) = a2 Var(X).
2.2.1.
Proposici
on 2.2.2 (Desigualdad b
asica) Sea X una variable aleatoria
no negativa, entonces
1
(2.1)
P (X ) E(X)
1
E(|X|p )
p
1
E(|X|p )
p
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
31
Proposici
on 2.2.4 (desigualdad de Tchebyschev cl
asica) Sea X una
variable (discreta) entonces
Var(X)
2
Prueba: Usamos la desigualdad anterior con p = 2 y cambiamos X por
X E(X).
Intuitivamente, la desigualdad de Tchebschev dice que la varianza de la
variable X nos da una estimacion de la probabilidad de que X tome valores
alejados de su esperanza. Si Var(X) es peque
na, entonces es poco probable
que X tome un valor alejado de E(X).
P {|X E(X)| > }
2.2.2.
Covariancia
Definici
on 2.2.3 Sean X e Y dos variables aleatorias. Definimos la covariancia de X e Y por
Cov(X, Y ) = E[(X E(X))(Y E(Y )]
Observaci
on: Si X e Y son variables aleatorias independientes entonces
Cov(X,Y) = 0. La recproca no es cierta, como muestra el siguiente ejemplo:
Ejemplo (Barry James, pag. 130) Sean X e Y dos variables aleatorias
con valores 1, 0, 1 con la siguiente funcion de probabilidad conjunta:
1
0
1
1 0 1
1
0 51
5
0 51 0
1
0 15
5
Proposici
on 2.2.5 Si X e Y son variables aleatorias (discretas) con segundo momento finito:
Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y )
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
32
Prueba:
V ar(X +Y ) = E[(X +Y E[X]E[Y ])2 ] = E[((X E(X)+(Y E(Y ))2 ] =
= E[(X E(X))2 ] + E[(Y E(Y ))2 ] + 2E[(X E(X))(Y E(Y ))] =
= Var(X) + Var(Y ) + 2Cov(X, Y )
Corolario 2.2.1 Si X1 , X2 , . . . , Xn son variables aleatorias (discretas) con
segundo momento finito, que no estan correlacionadas, entonces
Var(X1 + X2 + . . . + Xn ) =
n
X
Var(Xi )
i=1
2.3.
En esta seccion presentaremos un esquema conceptual, que fue introducido por Bernoulli, y que es u
til para modelizar muchas situaciones.
El esquema de ensayos de Bernoulli consiste en lo siguiente: Consideramos un experimento aleatorio con dos resultados, que convencionalmente
llamamos exito y fracaso. Supongamos que la probabilidad de obtener
un exito en una realizacion del experimento es p [0, 1], y naturalmente la
de obtener un fracaso sera q = 1 p
Imaginemos que repetimos el experimento una cantidad n de veces, de
manera independiente. Para modelizar este experimento consideramos el espacio muestral = {0, 1}n compuesto por las n-uplas de n
umeros 0 y 1 con
la siguiente interpretacion: codificaremos una realizacion del experimento por
una n-upla = (x1 , x2 , . . . , xn ) de modo que:
xi =
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
33
n
Y
P {Xi = xi }
i=1
(2.2)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
34
n
X
n
(p + q) =
pk q nk
k
n
k=0
Definici
on 2.3.1 Sea X : N0 una variable aleatoria con valores enteros. Diremos que X tiene distribuci
on binomial si:
n
P {X = k} = b(k, n, p) =
pk q nk
k
y P {X = k} = 0 si k 6 {0, 1, . . . , n}. Notaci
on: X Bi(n, p)
Necesitamos calcular la esperanza y la varianza de Sn . Para ello utilizamos
la representacion (2.2) de Sn como suma de las variables Xi . Notamos que
cada Xi es de hecho el indicador del evento ocurre un exito en la i-esima
realizacion del experimento. En consecuencia:
E[Xi ] = p,
V ar(Xi ) = pq
2.4.
El m
etodo de las funciones generatrices
En algunas situaciones, el metodo que expondremos a continuacion resulta de utilidad para operar con distribuciones de probabilidad discretas. Lo
usaremos para obtener de otro modo la distribucion binomial, y calcular su
esperanza y su varianza.
Definici
on 2.4.1 Sea X : N0 una variable aleatoria que toma valores
enteros. Llamamos funcion generatriz de la distribucion de probabilidades de
X a
gX (z) =
X
k=0
P {X = k}z k (z C)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
35
suponiendo que esta serie tenga un radio de convergencia rX > 0 (entonces convergera absolutamente en |z| < rX ). Observaci
on: La notacion gX
que usaremos en estas notas, no es una notacion estandar. 1
Notemos que si 0 < |z| < rX ,
gX (z) = E[z X ]
(Cuando z = 0 esta formula es problematica si X toma el valor 0, pues 00
no esta definido. Se tiene que gX (0) = P {X = 0})
Observaci
on: En virtud de la unicidad del desarrollo en serie de potencias, la distribucion de probabilidades de una variable aleatoria entera
esta unvocamente determinada por su funcion generatriz.
Proposici
on 2.4.1 Si X e Y son variables aleatorias independientes, entonces:
gX+Y (z) = gX (z) gY (z)
para |z| < mn(rX , rY ).
Prueba: Como X e Y son independientes, z X y z Y son independientes. En
consecuencia, si 0 < |z| < rX :
gX+Y (z) = E[z X+Y ] = E[z X z Y ] = E[z X ] E[z Y ] = gX (z) gY (z)
Cuando z = 0,
gX+Y (0) = P {X + Y = 0} = P {X = 0, Y = 0}
= P {X = 0} P {Y = 0} = gX (0) gY (0)
Esta proposicion puede generalizarse sin dificultad a varias variables independientes: si X1 , X2 , . . . , Xn son independientes, entonces
gX1 +X2 +...+Xn (z) = gX1 (z) gX2 (z) gXn (z)
Aplicaci
on: Otra prueba de que el n
umero de exitos Sn en n ensayos de
Bernoulli tiene distribucion binomial.
1
En clase y en versiones anteriores de estas notas utilice la notacion fX , pero decid cambiarla por gX , ya que en la teora de probabilidades la notacion fX suele utilizarse para
la densidad de probabilidad para variables aleatorias absolutamente continuas.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
36
Utilicemos la representacion (2.2) de Sn como suma de n variables independientes que valen 1 con probabilidad p y 0 con probabilidad q = 1 p.
La funcion generatriz de cada Xi es:
gXi (z) = pz + q
y como Sn es la suma de las Xi y son independientes:
n
X
n
gSn (z) = (pz + q) =
pk z k q nk
k
n
k=0
kP {X = k}z k1
k=1
X
k=1
kP {X = k} = E[X]
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
37
k=2
k=2
Luego
00
0
0
(1) + gX
(1) gX
(1)2
V ar(X) = E[X 2 ] E[X]2 = gX
Aplicaci
on: Calculo de la esperanza y la varianza de la distribucion
binomial (de otra manera).
Sea como antes Sn el n
umero de exitos en n ensayos de Bernoulli. Como
vimos antes gSn (z) = (pz + q)n . En consecuencia, como
gS0 n (z) = n(pz + q)n1 p
gS00n (z) = n(n 1)(pz + q)n2 p2
deducimos que
E[Sn ] = np
y que:
Var(Sn ) = n(n 1)p2 + np n2 p2 = np2 + np = np(1 p) = npq
Ejercicio: Si X Bi(n, p) e Y Bi(m, p) y son independientes, entonces
X + Y Bi(n + m, p).
2.4.1.
El teorema de Bernoulli
Imaginemos que realizamos una sucesion ilimitada de ensayos de Bernoulli. Sea fn = Snn la frecuencia de exitos que obtenemos en los n primeros
ensayos. Es intuitivamente razonable que conforme n +, fn tienda a la
probabilidad p de obtener un exito.
Nos gustara transformar esta idea intuitiva en un teorema matematico.
El siguiente teorema debido a Jacques Bernoulli, y publicado en 1713 en su
libro Ars Conjectandi, constituye una formalizacion de esta idea:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
38
Teorema 2.4.1 (Teorema de J. Bernoulli) Sea fn la frecuencia de exitos en los n primeros ensayos de una sucesion ilimitada de ensayos de Bernoulli. Entonces dado cualquier > 0,
P {|fn p| > } 0 conforme n
Prueba: Notemos que E[fn ] = p. Luego, por la desigualdad de Tchebyschev,
P {|fn p| > }
Var(fn )
2
pero
Var(fn ) = Var
Sn
n
=
pq
n
En consecuencia:
P {|fn p| > }
pq
0 cuando n +
n 2
(2.3)
Una generalizacion del teorema de Bernoulli (que se prueba con el mismo
argumento) es la siguiente, conocida (al igual que a veces el teorema de
Bernoulli) como la ley debil de los grandes n
umeros:
Teorema 2.4.2 (Ley d
ebil de los grandes n
umeros - caso de variancia finita)
Sean X1 , X2 , . . . , Xn , . . . una secuencia infinita de variables aleatorias independientes e identicamente distribuidas, con
E[Xi ] =
Var(Xi ) = 2 < +
Entonces si llamamos
Xn =
X 1 + X2 + . . . + X n
n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
39
2
n
2
0 cuando n +
n 2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
2.5.
40
Ley d
ebil de los grandes n
umeros: caso
general
Un,k =
Xk si |Xk | n
0 si |Xk | > n
(2.4)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
41
y
Vn,k =
0 si |Xk | n
Xk si |Xk | > n
(2.5)
Entonces hemos de probar que cada una de las probabilidades del segundo
miembro tiende a cero cuando n +.
Comencemos acotando:
P {|Un | > n/2}
Observemos que las variables Un,k estan acotadas (|Un,k | n) y en consecuencia tienen segundo momento finito. Mas explcitamente, si llamemos
a = E(|Xi |), tenemos que
2
E(Un,k
) na
En consecuencia las Uk,n tienen variancia finita:
2
Var(Un,k ) E(Un.k
) na
Por otra parte las Un,k son variables independientes e identicamente distribuidas (pues Un,k es funcion de Xk , y las Xk eran independientes e identicamente
distribuidas). En consecuencia:
Var(Un ) = Var(Un,1 + Un,2 + . . . + Un,n ) =
n
X
Var(Un,k ) n2 a
k=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
42
8a
<
2
2
n
[
{Vn,k 6= 0}
k=1
tenemos que:
P {|Vn | > n/2}
n
X
P {Vn,k 6= 0} = nP {V1 6= 0}
k=1
|xi |>n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
2.6.
43
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
44
b(k, n, p) =
|k/np|>
X
|k/np|>
P {Sn = k}
1
4n 2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
45
pues
n
X
b(k, n, p) = 1
k=0
f
(p)
n
k=0
En esta suma separamos dos partes, la suma sobre los k donde |k/n p|
(con el dado por la continuidad uniforme), y la parte donde |k/n p| > .
La primer parte la acotamos, facilmente:
X
X k
b(k, n, p)
f
f
(p)
b(k, n, p)
n
k:|k/np|
k:|k/np|
f
(p)
b(k, n, p) <
n
4n 2
k:|k/np|>
|k/np|>
2.7.
La aproximaci
on de Poisson a la distribuci
on binomial
La aproximacion de Poisson es una aproximacion de la distribucion binomial para el caso en que k es peque
no comparado con n y p es tambien
peque
no pero = np es moderado.
2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
46
(1 p)nk
n
n
n
k!
Pongamos = np, entonces
k
nk
1
2
k1
b(k, n, p) = 1
1
1
1
n
n
n
k!
n
Como
lm
n+
1
n
n
= e
k
e
k!
k
e
k!
k
e
k!
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
47
Hay que verificar que efectivamente tenemos una distribucion de probabilidades, es decir que:
P {X = k} =
k=0
k=0
k
=1
k!
k=0
k z k
= e ez = e(z1)
k!
Tenemos que
0
gX
(z) = e(z1)
00
gX
(z) = 2 e(z1)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
2.8.
48
Distribuci
on Geom
etrica
Supongamos que realizamos una secuencia infinita de ensayos de Bernoulli, con probabilidad de exito p. Sea T1 la cantidad de ensayos que tenemos
que realizar hasta obtener el primer exito (esto generaliza el ejemplo de la
pagina 20 que corresponde al caso p = 1/2.).
Entonces, si T1 = k significa que los primeros k1 ensayos fueron fracasos
y el k-esimo fue un exito, y como los ensayos son independientes obtenemos
como antes que:
P {T1 = k} = q k1 p = (1 p)k1 p
(y T1 = + con probabilidad cero). Esta distribucion se conoce con el
nombre de distribuci
on geom
etrica de parametro p.
Notaci
on: X G(p) significa que X se distribuye con la distribucion
geometrica de parametro p.
Con una cuenta analoga a la que hicimos antes para el caso p = 1/2
podemos probar que E[X] = p1 .
La funcion generatriz de la distribucion de probabilidades de X se obtiene
justamente sumando una serie geometrica:
gX (z) =
X
k=1
q k1 pz k =
1
pz
si |z| <
1 qz
q
Distribuci
on binomial negativa
Mas generalmente podemos considerar la variable Tr definida como el
n
umero de ensayos que tenemos que realizar hasta obtener r exitos. Queremos
calcular la distribucion de Tr :
Para ello notamos que,
Tr = E1 + E2 + . . . + Er
donde E1 = T1 y Ej = n
umero de ensayos que debemos realizar despues del
exito j 1 para obtener el siguiente exito. Notamos que las variables Ej son
independientes (ya que el tiempo que tenemos que esperar para obtener el
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
49
k=r
En consecuencia,
P {Tr = k} =
r
kr
pr (q)kr (k = r, r + 1, . . .)
Notaci
on: X BN (r, p)
Falta: distribucion hipergeometrica
Distribuci
on Multinomial
Es una generalizacion de la distribucion binomial donde consideramos
experimentos con muchos varios posibles, en lugar de un experimento con
solo dos resultados.
Consideramos un experimento con N resultados posibles, y supongamos
que la probabilidad de que ocurra el i-esimo resultado en una realizacion del
experimento es pi , de modo que:
N
X
pi = 1
i=1
Supongamos que repetimos el experimento n veces en condiciones independientes, y llamemos Xi a la cantidad de veces que ocurre el i-esimo
resultado, de modo que:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
50
X1 + X2 + . . . + X N = n
Entonces, la distribucion de probabilidades conjunta de las Xi viene dada
por:
P {X1 = k1 , X2 = k2 , . . . , XN = kN } =
n!
pk1 pk2 . . . pkNN
k1 !k2 . . . kN ! 1 2
(2.6)
X
kN :k1 +k2 +...+kN
0ki n
n!
xk11 xk22 . . . xkNN
k
!k
.
.
.
k
!
1 2
N
=n
0iN
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
51
X
kN :k2 +...+kN =nk1
0ki n
n!
pk1 pk2 . . . pkNN
k1 !k2 . . . kN ! 1 2
n!
pk11
k1 !(n k1 )!
X
kN :k2 +...+kN =nk1
(n k1 )! k2
p2 . . . pkNN
k2 ! . . . kN !
0ki n
n!
pk1 (p2 + p3 + . . . + pN )nk1
k1 !(n k1 )! 1
n!
=
pk11 (1 p1 )nk1
k1 !(n k1 )!
luego
X1 Bi(n, p1 )
Captulo 3
Distribuciones Continuas
3.1.
En este captulo estudiaremos variables aleatorias no discretas, en particular variables continuas. La idea basica es la misma que antes: una variable
aleatoria es un n
umero asociado al resultado de un experimento aleatorio,
por lo que sera una funcion X definida sobre el espacio muestral . Nuevamente, hay un requerimiento tecnico, derivado del hecho de que en general
no resulta posible asignar probabilidades a todas las partes de ; a saber que
podamos calcular las probabilidades asociadas a dicha funcion. En el caso de
variables discretas, pedamos que estuvieran definidas las probabilidades de
que X tome un determinado valor. En el caso de variables no discretas, esto
no sera suficiente: requeriremos que podamos calcular la probabilidad de que
el valor de X caiga en un intervalo dado de la recta.
Definici
on 3.1.1 Sea (, E, P ) un espacio de probabilidad. Una variable
aleatoria sera una funcion X : R = R {}, con la siguiente propiedad: para cualquier intervalo de la recta (a, b] (a, b R) la preimagen
X 1 (a, b] = { : a < X() b} pertenece a E, es decir esta definida la
probabilidad P (X 1 (a, b]) = P {a < X b} de que X tome un valor entre a
y b.
Observaci
on: En analisis real, el concepto analogo es el de funcion medible (ver apendice B).
Definici
on 3.1.2 Diremos que la variable X es (absolutamente) continua si
52
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
53
Ejemplo 1: variables aleatorias discretas Sea X una variable aleatoria discreta que toma una sucesion a lo sumo numerable de valores (xi ).
Entonces, X es una variable aleatoria de acuerdo a nuestra nueva definicion
(es decir, realmente estamos extendiendo el concepto) ya que:
[
{ : X() = xi }
{ : a < X() b} =
a<xi b
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
54
0 si x < 0
x si 0 x 1
FX (x) =
1 si x > 1
X es una variable absolutamente continua con densidad,
1 si x [0, 1]
fX (x) =
0 si x 6 [0, 1]
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
55
Notaci
on: Notamos X se distribuye uniformemente en el intervalo [0, 1]
del siguiente modo: X U(0, 1).
Mas generalmente si [a, b] es un intervalo de la recta, decimos que X tiene
distribucion uniforme en el intervalo [a, b] (Notacion: X U(a, b)) si para
cualquier intervalo I [a, b] la probabilidad de que X pertenezca a I es
proporcional a la medida de I, es decir:
|I|
ba
En este caso, la funcion de distribucion es:
0 si x < a
(x a)/(b a) si a x b
FX (x) =
1 si x > b
P {X I} =
1
ba
si x [a, b]
0 si x
6 [a, b]
3.1.1.
El siguiente lema nos dice que propiedades tienen las funciones de distribucion:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
56
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
57
lm F (x) = 1
x+
Es decir que:
F (x0 ) = lm F (xn )
n+
Y como esto vale para toda sucesion (xn ) > x0 decreciente, que converja a
x0 deducimos que:
F (x0 ) = lm+ F (x)
xx0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
58
Es decir que:
P {x < x0 } = lm F (xn )
n+
Como esto valle para toda sucesion (xn )nN < x0 que converja a x0 , deducimos que:
lm F (x) = P {X < x0 }
xx0
En consecuencia,
F (x0 ) lm F (x) = P {X x0 } P {X < x0 } = P {X = x0 }
xx0
3.2.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
59
n1
X
i=0
Definici
on 3.2.1 Diremos que la integral (3.2) existe y toma el valor I R
si las sumas S (, F ) tienden al valor I cuando la norma
|| = max |xi+1 xi |
0in1
Z
(x) dF (x) = 1
Z
1 (x) dF (x) + 2
2 (x) dF (x)
a
Rb
Rb
2. Si a (x) dF1 (x) y a (x) dF2 (x) existen, y F = 1 F1 + 2 F2 con
Rb
1 , 2 0, entonces a (x) dF existe, y vale que:
Z
Z
(x) dF (x) = 1
Z
(x) dF1 (x) + 2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
60
Rb
Lema 3.2.2 (Aditividad respecto al intervalo) Sea c [a, b]. Si a (x) dF (x)
Rc
Rb
existe, entonces tambien existen a (x) dF (x) y c (x) dF (x) y se verifica:
Z b
Z c
Z b
(x) dF (x)
(x) dF (x) +
(x) dF (x) =
c
El siguiente teorema nos da una condicion que permite garantizar la existencia de integrales de Riemman-Stieltjes:
Teorema 3.2.1 Si : [a, b] R es continua, y si F : [a, b] R es creciente, entonces la integral de Riemman-Stieltjes
Z b
(x) dF (x)
a
existe
Para la prueba, vease el apendice D.
El siguiente lema, nos dice como acotar una integral de Stieltjes:
Rb
Lema 3.2.3 Supongamos que a (x) dF (x) existe, siendo una funcion
acotada en [a, b] y F creciente en [a, b]. Entonces,
!
Z b
(x) dF (x) sup |(x)| (F (b) F (a))
x[a,b]
existe si (x) es continua en [a, b] y F es de variacion acotada (ya que toda funcion de variacion acotada se puede escribir como diferencia de dos
funciones crecientes). En este caso, la integral se acota del siguiente modo:
!
Z b
(x) dF (x) sup |(x)| Vab (F )
a
x[a,b]
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
3.3.
61
La definici
on de Esperanza
n1
X
i P {X = i } =
i=0
n1
X
i P {i < X i+1 }
i=0
n1
X
i (F (xi+1 ) F (xi ))
i=0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
62
E[(X )] =
n1
X
(i )P {X = i } =
i=0
n1
X
(i )P {i < X i+1 }
i=0
n1
X
i=0
y conjeturamos que
Z
E[(X)] =
(x) dF (x)
(3.4)
siendo = E[X].
Veamos algunos ejemplos, para familiarizarnos con esta idea:
Ejemplo 1: Variables aleatorias discretas Si X es una variable aleatoria discreta que solamente toma finitos valores v1 , v2 , . . . , vn y miramos la
suma S correspondiente a una particion vemos que solamente contribuyen a la suma aquellos terminos para los cuales vj (xi , xi+1 ] para alg
un j.
Refinando si es preciso la particion, podemos suponer que cada intervalito
(xi , xi+1 ] contiene un u
nico valor vj a lo sumo, y en ese caso elegimos i = vj
(sino la eleccion de i es irrelevante). Entonces la suma de Riemman-Stieltjes
para (3.3) es:
S =
X
i:vj (xi ,xi+1 ]
vj (F (xi+1 ) F (xi )) =
X
i:vj (xi ,xi+1 ]
vj P {X = vj }
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
63
que es el valor de E[X] conforme a la definicion de esperanza para variables aleatorias discretas.
Otra manera de pensar esta cuenta es la siguiente: para x0 R, definimos
la funcion de Heaviside:
0 si x < x0
Hx0 (x) =
1 si x x0
Hx0 es la funcion de distribucion de una variable aleatoria que toma el
valor x0 con probabilidad 1. Entonces tenemos:
Lema 3.3.1 Si x0 [a, b] y C[a, b], entones:
Z b
(x)dHx0 = (x0 )
a
Prueba: En S (, F ) el u
nico termino no nulo corresponde al intervalo
[xi , xi+1 ] que contiene a x0 , en consecuencia:
S (, F ) = (i )
y cuando || 0, (i ) (x0 ), por la continuidad de .
En consecuencia si X es una funcion de distribucion de una variable
discreta que toma finitos valores x1 , x2 , . . . , xn con probabilidad pi = P {X =
xi }, tenemos que:
F (x) =
n
X
pi Hxi (x)
i=1
(x)dF (x) =
a
n
X
i=0
Z
pi
(x)dHxi =
a
n
X
pi (xi )
i=1
(donde a xi b i). Este resultado coincide con la formula anteriormente vista para E[(X)] para variables discretas.
Ejemplo 2: Variables aleatorias absolutamente continuas Supongamos que X es una variable aleatoria continua, que tiene la densidad f (x).
Queremos calcular E[X]. Para ello, resultara u
til el siguiente lema:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
64
n1
X
(i )f (i )(xxi+1 xi )
i=0
En particular, podemos definir la esperanza de una variable aleatoria con
densidad continua f (x) por:
Z b
E[X] =
x f (x)dx
a
y mas generalmente,
Z
E[(X)] =
(x) f (x) dx
a
En particular:
2
Var(X) = E[(x ) ] =
(x )2 dx
siendo = E[X].
Un ejemplo: Si consideramos X una variable con distribucion uniforme
en el intervalo [a, b] entonces su densidad es:
f (x) =
1
ba
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
65
Con lo que
b
Z
= E(X) =
xf (x) dx =
a
a+b
2
y
Z b
VarX =
a
a+b
x
2
2
f (x) dx =
1
(b a)2
12
E[X] =
x dF (x)
valida si
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
66
Z
Z
1
1
2
(x)2 /(2 2 )
E[X] =
xe
dx =
( + y) ey /2 dy
2
2
Z
Z
1
1
y 2 /2
y 2 /2
e
dy +
ye
dy =
=
2
2
[La segunda integral se anula, pues la densidad normal estandar es una funcion par]. Similarmente,
Z
Z
1
1
2
2 (x)2 /(2 2 )
Var(X) =
(x ) e
dx =
2 y 2 ey /2 dy
2
2
Para calcular esta integral, observamos que:
2 0
2
ey /2 = (y)ey /2
e integramos por partes, deducimos que:
Z
2
2 1
ey /2 dy = 2
Var(X) =
2
Este ejemplo aclara el significado de los parametros de la distribucion normal.
Ejercicio: Se dice que la variable aleatoria tiene distribucion exponencial
Exp() (donde > 0) cuando su densidad de probabilidad es
fX (x) = ex I(0,+) (x)
Demostrar que entonces
E(X) =
1
1
Var(X) = 2
(3.5)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
67
Un ejemplo de una variable aleatoria que no es continua ni discreta: Sea X una variable aleatoria con distribucion uniforme en el intervalo
[0, 1] y consideramos Y = max(X, 1/2), entonces:
1/2 si X 1/2
Y =
X si X > 1/2
Calculemos la funcion de distribucion de Y :
FY (x) = P {Y x} = P {X x 1/2 x}
Deducimos que:
FY (x) =
P () = 0 si x < 1/2
P {X x} = x si 1/2 x 1
1 si x > 1
1/2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
68
x dF (x) =
1/2
xdx =
1/2
1 1
3
=
2 8
8
pues en [1/2, 1] la funcion F (x) tiene derivada continua F 0 (x) = 1. Concluimos que:
1 3
5
E[Y ] = + =
4 8
8
Otra manera de hacer la cuenta es considerar la funcion de variable real
(x) = max(x, 1/2) y utilizar la formula para E[(X)]:
Z
1/2
x dx =
1/2 dx +
max(x, 1/2) dx =
E[(X)] =
1/2
1 3
5
+ =
4 8
8
3.4.
Vectores Aleatorios
Las ideas anteriores sobre variables aleatorias continuas, pueden generalizarse para considerar vectores aleatorios.
Definici
on 3.4.1 Sea (, E, P ) un espacio de probabilidad. Un vector aleatorio n-diemensional es una funcion X : Rn con la propiedad de
que si I = (a1 , b1 ] (a2 , b2 ] . . . (a2 , b2 ] es un intervalo de Rn entonces
X 1 (I) = { : X() } E, es decir esta definida la probabilidad
P {X I} de que X pertenezca a I.
Obsevaci
on: Dar un vector aleatorio n-dimensional es equivalente a dar
n variables aleatorias X1 , X2 , . . . , Xn .
Ejemplos de vectores aleatorios:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
69
1. Un ejemplo de vector aleatorio discreto es el que consideramos al describir la distribucion multinomial (ver pagina 50).
2. Distribucion uniforme en un conjunto A Rn de medida positiva: si
A es un conjunto de Rn de medida positiva y X es un vector aleatorio
n-dimensional, decimos que X se distribuye uniformemente en A si X
pertenece a A con probabilidad 1, y si
P {X B} =
m(B)
m(A)
BA
En esta definicion A y B pueden ser conjuntos medibles Lebesgue cualesquiera, y m(A) denota la medida de Lebesgue de A (Quienes no
hayan cursado analisis real, pueden pensar que A y B son conjuntos
para los que tenga sentido calcular la medida de A, por ejemplo que A
y B son abiertos de R2 y m(A) representa el area de A).
3. Sea f : Rn R una funcion integrable tal que 0 f (x) 1, y
Z
f (x) dx = 1
Rn
f (x) dx
A
(De nuevo, quienes no hayan cursado analisis real pueden pensar que
f es integrable en el sentido de Riemman, y A es cualquier abierto de
Rn ).
4. Por ejemplo, una posible generalizacion de la distribucion normal a dos
dimensiones (normal bi-variada), se obtiene especificando que el vector
(X, Y ) se distribuye seg
un la densidad conjunta:
f (x, y) =
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
70
x1
x2
F (x1 , x2 , . . . , xn ) =
xn
f (
x1 , x2 , . . . , xn ) d
x1 d
x2 . . . d
xn
...
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
71
Es decir que:
P {(X, Y ) R} = F (b, d) F (a, d) F (b, c) + F (a, c)
(3.6)
3.4.1.
Consideramos para simplificar la notacion, un vector aleatorio bidimensional (X, Y ). Investiguemos que relacion existe entre la funcion de distribucion
conjunta F del vector (X, Y ) y las funciones de distribucion FX y FY de cada
variable por separado:
Notemos que:
FX (x) = P {X x} = P {X x, Y +} = F (x, +) = lm F (x, y)
y+
Similarmente,
FY (y) = lm F (x, y)
x+
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
Z
72
y0
f (x, y) dx dy
FY (y0 ) =
(3.8)
3.4.2.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
73
M
1 N
1
X
X
(i , j )F (Ri j)
i=0 j=0
siendo
F (Rij ) = F (xi+1 , yj+1 ) F (xi , yj+1 ) F (xi+1 , yj ) + F (xi , yj )
que de acuerdo a la formula (3.6), representa la probabilidad de que el vector
(X, Y ) tome un valor en el rectangulo Rij .
Definamos la norma || de la particion como el maximo de las normas
de las particiones x y y . Entonces si, cuando la norma de la particion
tiende a cero, las sumas S(, F ) convergen a un n
umero I, diremos que la
integral (3.10) existe, y que toma el valor I. Analogamente a lo que sucede en
el caso unidimensional, podemos demostrar que esto sucede si F es la funcion
de distribucion de un vector aleatorio, y es continua.
La intergral impropia, sobre todo el plano, que aparece en la formula (3.9)
puede definirse como el lmite de integrales sobre rectangulos:
Z
Z bZ
(x, y) dF (x, y) =
(x, y) dF (x, y)
lm
a,c;b,d+
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
74
Por lo que cuando la norma de la particion tiende a cero, obtenemos formalmente la formula (3.9).
El caso que mas nos va a interesar, es cuando el vector aleatorio (X, Y ) se
distribuye seg
un una densidad conjunta f (x, y). En este caso, como ocurra
en el caso unidimensional, la esperanza de (X, Y ) puede calcularse mediante
una integral de Riemman ordinaria, en lugar de una integral de RiemmanStieltjes:
Z Z
(x, y) f (x, y) dx dy
E[(X, Y )] =
en el caso general, y
Z
(x X )(y Y ) f (x, y) dx dy
Cov(X, Y ) =
3.4.3.
Independencia
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
75
Lema 3.4.1 Supongamos que el vector (X, Y ) admite una densidad conjunta
continua f (x, y). Entonces las variables X e Y son independientes, si y solo
si f se factoriza en la forma:
f (x, y) = fX (x)fY (y)
siendo fX y fY las densidades marginales de probabilidad.
Prueba: Supongamos primero que X e Y son independientes, y que el vector (X, Y ) se distribuye seg
un la densidad conjunta f (x, y). Entonces X se
distribuye seg
un la densidad marginal fX dada por (3.7), y similarmente Y
se distribuye seg
un la densidad marginal dada por (3.8).
Entonces dado (x0 , y0 ) R2 y h, k > 0, tenemos que:
x0 +h
y0 +k
f (x, y) dx dy (3.11)
x0
y0
x0 +h
P {x0 < X x0 + h} =
fX (x) dx
(3.12)
fX (y) dy
(3.13)
x0
y0 +k
P {y0 < Y y0 + k} =
y0
(3.14)
P {x0 < X x0 + h}
fX (x0 )
h
por el teorema fundamental del calculo (siendo fX continua en x0 ).
Similarmente, cuando k 0, (3.13) y el teorema fundamental del calculo
nos dicen que:
P {y0 < Y y0 + k}
fY (y0 )
h
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
76
Z
Z
fX (x) dx
fX (x) dx
3.4.4.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
77
E[(X)] =
Rn
fXk (x) =
Rn1
n
Y
(ak , bn ]
k=1
se verifica que:
P {X I} =
n
Y
P {ak < Xk bk }
k=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
3.5.
3.5.1.
78
Cambio de variable
Cambios de variables unidimensionales
FY (y) = P {X 2 y} = P {|X| y} = P { y X y} =
P {X y} P {Z < y} = FX ( y) FX ( y )
mientras que claramente FY (y) = 0 si y < 0.
En particular si X es una variable absolutamente continua con densidad
fX , encontramos (derivando como antes) que:
1
3.5.2.
(y > 0)
(3.16)
Proposici
on 3.5.1 Supongamos que X es una vector que se distribuye seg
un
una densidad f (x) con soporte en U siendo U un abierto Rn , y que :
U V es un difeomorfismo C 1 , donde V es otro abierto de Rn entonces, si
consideramos el vector aleatorio Y = (X), Y se distribuye en V seg
un la
densidad
f (1 (y))|det(D1 )(y)|
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
79
f (x)dx
1 (W )
3.6.
Definici
on 3.6.1 Sean f, g : R R funciones integrables. Definimos su
convoluci
on f g de la siguiente manera:
Z
f (t) g(x t) dt
(f g)(x) =
Como ejemplo de la aplicacion del teorema de cambio de variable, demostramos la siguiente afirmacion:
Proposici
on 3.6.1 Supongamos que X e Y son variables aleatorias independientes, que se distribuyen en R seg
un las densidades f (x) y g(x) respectivamente, entonces X + Y se distribuye seg
un la densidad f g(x).
Prueba: Como X e Y son independientes,
(X, Y ) f (x)g(y)
Hacemos el cambio de variable lineal (U, V ) = (X, Y ) = (X + Y, Y ). Entonces (X, Y ) = 1 (U, V ) = (U V, V ). Como es una trasnformacion lineal,
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
80
Algunas Observaciones sobre la convoluci
on:
1. La convolucion es conmutativa:
f g =gf
Tambien es posible probar que es asociativa:
(f g) h = f (g h)
2. Si f y g son densidades de probabilidad, entonces f g tambien lo es.
3. Si f y g estan soportadas en la semirrecta [0, +) (es decir: f (t) =
g(t) = 0 si t < 0, entonces:
Z
(f g)(x) =
f (t) g(x t) dt
0
3.7.
Definici
on 3.7.1 Definimos la funcion gama de Euler por
Z
() =
x1 ex dx ( > 0)
0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
81
Definici
on 3.7.2 Decimos que X se distribuye seg
un la distribucion gama
(, ) (siendo , > 0) si su funcion de densidad de probabilidad es:
f, (x) =
1 x
x
e I(0,+) (x)
()
(3.17)
2 2 1 t
1
(x t)1 1 e(xt)
t
e
dt
(2 )
0 (1 )
Z x
1 +2
1 1 2 1
=
(x t)
t
dt ex
(1 )(2 )
0
Z
(f1 , f2 , )(x) =
=
B(1 , 2 ) x1 +2 1 ex
(1 )(2 )
Notamos que esta es salvo la constante, la densidad gama f1 +2 , , pero como la convolucion de dos densidades de probabilidad es una densidad
de probabilidad, y hay una u
nica constante que hace que la integral sobre
(0, +) de 1 deducimos que:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
f1 , f2 , = f1 ,2 ,
82
(3.18)
(1 )(2 )
(1 + 2 )
3.8.
Un ejemplo: La Distribuci
on Exponencial
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
83
G(t + t) = G(t)G(t)
Necesitaremos el siguiente lema:
Lema 3.8.1 Sea G : R0 R0 una funcion continua que satisface que:
G(t + s) = G(t)G(s)
Entonces: G(t) = G(0)at , siendo a = G(1).
Volviendo a nuestro problema de la desintegracion radiactiva, si ponemos
G(1) = e (suponiendo G(0) 6= 0), y observamos que G(0) = 1 pues T > 0
(El atomo no se desintegro a
un en t = 0), obtenemos que:
G(t) = et
Por consiguiente la funcion de distribucion de T es:
F (t) = 1 et
y derivando vemos que su densidad es
f (t) = et (t > 0)
Decimos que la variable continua T se distribuye seg
un la densidad exponencial de parametro > 0, Exp(), que introdujimos en (3.5).
Supongamos ahora que tenemos un material radiactivo formado inicialmente por un gran n
umero de atomos N0 , y llamemos N (t) a la cantidad de
atomos no desintegrados hasta el instante t. Hagamos la hipotesis de que las
desintegraciones de los distintos atomos son independientes. Podemos pensar
que son ensayos de Bernoull, entonces por la ley de los grandes n
umeros
N (t)
P {T > t0 }
N0
y deducimos que:
N (t) = N0 et
(3.19)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
84
log 2
3.9.
T1/2
1016 s
4x106 s
2.25 min
8 das
28 a
nos
1600 a
nos
5730 a
nos
5,7 1010 a
nos
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
85
t0
Z
gn (t) dt
t0
gn+1 (t) dt
0
tn et dt
gn+1 (t) dt =
n!
0
0
#
"
t
Z t0
t
n+1 n et 0
e
=
n tn1
dt
t
n!
() 0
()
0
Z t0 n+1
n+1 n et0
et
=
t0
0
n tn1
dt
n!
()
n!
()
0
Z t0
n n t0
n
=
t0 e
+
tn1 et dt
n!
(n
1)!
0
Z t0
n n t0
=
t e
+
gn (t) dt
n! 0
0
En definitiva concluimos que la distribucion del n
umero de desintegraciones viene dada por una distribucion de Poisson (proceso de Poisson):
(t0 )n t0
P {D(t0 ) = n} =
e
n!
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
86
3.10.
Algunas densidades u
tiles en estadstica
3.10.1.
Las densidades 2
1
fY (y) = y 1/2 ey/2
2
(y > 0)
1 1
, vemos que coincide con la densidad 2 , 2 .
Sean ahora X1 , X2 , . . . , Xn variables aleatorias independientes con distribucion normal estandar, y consideremos la variable aleatoria
Z = X12 + X22 + . . . + Xn2
cual es la distribucion de Z ? Por
lo anterior cada una de las Xi se distribuye
1 1
2
de Z sera (por la independenseg
un la densidad 1 = 2 , 2 , y la densidad
1 1
cia) la convolucion de la densidad 2 , 2 n veces con sigo misma, que por
el lema 3.7.1 da la densidad n2 , 12 . Es decir, que la densidad de Z sera
fZ (z) =
(x > 0)
(3.20)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
3.10.2.
87
Supongamos que X e Y son variables aleatorias continuas independientes, con densidades fX y fY respectivamente. Supongamos ademas que Y
esta concentrada en la semirrecta positiva (0, +). Quremos calcular la densidad del cociente T = U/V .
La densidad conjunta del vector aleatorio (X, Y ) sera fX (x)fY (y) como
consecuencia de independencia de las variables X e Y .
Consideramos ahora el cambio de variable (T, V ) = (X, Y ) donde donde
(u, v) = (x, y) = (x/y, y)
entonces la funcion inversa sera
(x, y) = 1 (t, v) = (tv, v)
Y la diferencial de 1 es
D (t, v) =
v t
0 1
de modo que el Jacobiano es v. De acuerdo a la proposicion 3.5.1, encontramos que el vector (T, V ) se distribuye seg
un la densidad conjunta
fX (tv)fY (v)v
e integrando respecto la variable v podemos recuperar la densidad (marginal)
de t que resulta ser:
Z
T '
fX (tv)fY (v)v dv
(3.21)
3.10.3.
La densidad t de Student
X
n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
88
fY (y) =
Z
2nn/2
2 2
2
fX (tv)fY (v)v dv =
fT (t) =
et v /2 v n1 env /2 v dv
n/2
2 (n/2) 2 0
0
Z
2(1n)/2 nn/2
2
2
=
e(t +n)v /2 v n dv (t > 0)
(n/2) 0
Z
fT (t) =
e
dx
n + t2
(n/2) n + t2 0
Z
1
nn/2
ex x(n1)/2 dx
=
(n/2) (n + t2 )(n+1)/2 0
nn/2
n+1
1
=
2
(n + t2 )(n+1)/2
(n/2)
1
n+1
n(n+1)/2
2
(n + t2 )(n+1)/2
(n/2) n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
89
Finalmente obtenemos
(n+1)/2
n+1
t2
2
fT (t) =
1+
n
(n/2) n
(t > 0)
(3.22)
3.11.
Distribuci
on Normal Multivariada
Captulo 4
Convergencia de Variables
Aleatorias, y Ley Fuerte de los
Grandes N
umeros
4.1.
Convergencia en probabilidad
En la teora de probabilidades se utilizan frecuentemente diferentes nociones de convergencia de una sucesion (Xn )nN de variables alatorias.
La primera nocion importante es la de convergencia en probabilidad, que
aparece en el teorema de Bernoulli (ley debil de los grandes n
umeros).
Definici
on 4.1.1 Sea (Xn )nN una sucesion de variables aleatorias, definidas sobre un mismo espacio de probabilidad (, E, P ). Se dice que (Xn )
converge en probabilidad a la variable X si para todo > 0, tenemos que
P {|X Xn | > } 0 cuando n +
Notaci
on:
Xn X
Observaci
on: Si (Xn ) converge en probabilidad a X, cualquier subsucesion de (Xn ) tambien converge en probabilidad a X.
Veamos algunas propiedades de la convergencia en probabilidad:
90
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
P
91
Proposici
on 4.1.1 (Unicidad del lmite) Si Xn X y Xn Y , entonces X = Y con probabilidad 1.
Prueba: Por la desigualdad triangular,
|X Y | |X Xn | + |Xn Y |
Entonces
P {|X Y | > } P {|X Xn | > /2} + P {|Xn Y | > /2}
Deducimos que para todo > 0,
P {|X Y | > } = 0
Como
{X 6= Y } =
[
nN
1
|X Y | >
n
X
1
P |X Y | >
P {X 6= Y }
=0
n
n=1
P
Proposici
on 4.1.2 Si Xn X y c R, entonces cXn cX.
Prueba: Si c 6= 0, tenemos que
Proposici
on 4.1.3 Si Xn X e Yn Y , entonces Xn + Yn X + Y .
Prueba:
P {|(X + Y ) (Xn + Yn )| > } P {|X Xn | > /2} + P {|Y Yn | > /2}
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
92
P {k 1 |X| < k} = 1
k=1
es una serie convergente, por consiguiente dado > 0, existira un k0 tal que:
P {k 1 |X| k} <
k=k0 +1
Es decir que:
P {|X| k0 } <
De la desigualdad triangular,
|Xn | |Xn X| + |X|
Deducimos que:
P {|Xn | > k0 + } P {|Xn X| > } + P {|X| > k0 }
y en consecuencia que
P {|Xn | > k0 + }
si n n0 ().
Esto prueba la afirmacion del lema, con M = k0 + .
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
Prueba:
93
P |Xn | >
|Yn | M + P |Xn | >
|Yn | > M
|Yn |
|Yn |
n
o
P |Xn | >
+ P {|Yn | > M } <
M
si n n0 ().
P
Convergencia en distribuci
on
Definici
on 4.1.2 Se dice que una sucesion de variables aleatorias Xn converge en distribuci
on a la variable aleatoria X, si
lm FXn (x) = FX (x)
n+
Xn X
D
Proposici
on 4.1.4 Si Xn X y Xn Y , entonces FX = FY (X e Y
estan identicamente distribuidas)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
94
Prueba: FX (x) = FY (x) en cada x que sea simultaneamente punto de continuidad de FX y FY . Pero FX y FY son crecientes, y tienen por lo tanto a lo sumo una cantidad numerable de discontinuidades. Deducimos que
FX (x) = FY (x) para los x en un subconjunto denso de R, y entonces para
todo x ya que ambas son continuas por la derecha.
D
Proposici
on 4.1.5 Si Xn X y c R es una constante, entonces
D
D
cXn cX y Xn + c X + c.
Definici
on 4.1.3 Se dice que la sucesion (Xn ) de variables aleatorias converge casi seguramente a la variable X si
P
lm Xn = X = 1
n+
Notaci
on:
c.s.
Xn X
4.2.
Relaci
on entre los modos de convergencia
c.s.
Proposici
on 4.2.1 Si Xn X, entonces Xn X.
Prueba: Notamos que:
{ : Xn () 6 X()} =
[
\
[
k=1 n0 =1 nn0
1
: |Xn () X()| >
k
c.s.
Como Xn X, este conjunto tiene probabilidad 0. En consecuencia, tambien tienen probabilidad cero los eventos (mas perque
nos)
[
\
1
: |Xn () X()| >
k
n =1 nn
0
[
1
=
: |Xn () X()| >
k
nn
0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
95
n0 +
Proposici
on 4.2.2 Sea (Xn ) una sucesion de variables aleatorias tal que
P
D
Xn X, entonces Xn X.
(La prueba de este teorema que aparece en versiones anteriores
de este apunte debe ser corregida)
P
Proposici
on 4.2.3 Si Xn 0, entonces Xn 0.
4.3.
Lema 4.3.1 Consideramos una sucesion (An )nN de eventos, y consideramos el el evento ocurren infinitos An , es decir:
\ [
An
A =
kN nk
entonces
1. Si
P (An ) < +
n=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
96
P (An ) = +
n=1
4.3.1.
Teorema 4.3.1 Sea (Xn )nN una sucesion de variables aleatorias independientes e identicamente distribuidas con m4 = E[Xn4 ] < +. Sea = E[Xi ]
entonces
X1 + X2 + . . . Xn c.s.
n
cuando n +.
Nota:La hipotesis de que el cuarto momento m4 es finito no es necesaria
para la validez de este teorema, pero facilitara enormemente la demostracion.
Una demostracion del teorema sin esta hipotesis (ley fuerte de Kolmogorov)
se da en el apendice E.
Prueba: Podemos suponer que =
Notamos Sn = X1 + X2 + . . . + Xn .
tienen variancia 2 = E[Xi2 ] finita.
Calculemos el cuarto momento de
tenemos que:
X
E[Sn4 ] =
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
97
4
n
Cada uno de estos terminos aparece
= 6 veces, y hay
=
2
2
formas de elegir 2 de las n variables aleatorias. Entonces:
E[Sn4 ]
n
X
E[Xi4 ]
+6
i=1
n
X
n(n1)
2
i,j=1,i6=j
X
C
4
n2
n=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
98
4.4.
Teorema de Helly
Z
(x) dFn (x)
(x) dF (x)
(4.1)
S
(,
F
)
n
n
a
para cualquier particion de [a, b] que verifique que || < (Pues Fn (1)
Fn (0) 1).
Fijemos una particion cualquiera de [a, b] tal que || < . Claramente
podemos elegir los puntos de subdivicion de esta particion para que sean
puntos de continuidad de F (pues el conjunto de puntos de discontinuidad
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli
99
n+
(x)
dF
(x)
n
a
a
Z b
(x) dFn (x) S (, Fn )
a
+ |S (, Fn ) S (, F )|
Z b
(x) dF (x) < 3
+ S (, F )
a
Un resultado analogo se verifica para integrales en intervalos infinitos:
Teorema 4.4.2 Supongamos que Fn : [a, b] R es una sucesion de funciones de distribucion tales que Fn (x) F (x) en cada punto de continuidad de
F (x), entonces:
Z
Z
(x) dFn (x)
(x) dF (x)
(4.2)
F (R) F (R) =
dF (x) <
M
|x|>R
y por lo tanto
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 100
|x|>R
(x) dFn (x) < 2
|x|>R
(x) dFn (x) < 2
Z
Z R
(x) dF (x)
(x) dFn (x)
R
Z R
Z R
+
(x) dFn (x)
(x) dF (x)
R
R
Z
Z
+
(x) dF (x)
(x) dF (x) < 4
Corolario 4.4.1 Si (Xn ) es una sucesion de variables aleatorias tales que
D
Xn X, entonces E[(Xn )] E[(X)] para toda funcion continua acotada.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 101
4.5.
1 si x < x0
1 (x x0 )/ si x0 x x0 +
(x) =
0 si x > x0 +
y notamos que las son continuas y acotadas. Entonces, dado > 0,
por la hipotesis, existira un n1 tal que si n n1 tenemos que,
2
Por otra parte, afirmamos que si es suficientemente peque
no,
|E[ (Xn )] E[(X)]| <
(4.3)
En efecto,
Z
|E[ (X)] FX (x0 )| =
x0
Z
=
x0 +
x0
x0
dFX (x) =
(x) dFX (x) FX (x0 + ) FX (x0 )
Notemos que en este punto, no hemos utilizado todava toda la fuerza de la hipotesis
de que x0 es un punto de continuidad de FX , ya que FX siempre es continua por la derecha.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 102
E[ (X)] + FX (x0 ) +
2
Para probar que FXn (x0 ) FX (x0 ), necesitamos demostrar tambien una
desigualdad en el sentido contrario.
Para ello, aproximamos I(,x0 ] desde la izquierda: para ello, construimos
las funciones
1 si x < x0
1 (x (x0 ))/ si x0 x x0
(x) =
0 si x > x0
Afirmamos que si elegimos suficientemente peque
no,
|E[ (X)] FX (x0 )| <
(4.4)
x0
Z
(x) dFX (x)
Z
=
x0 +
x0
x0
dFX (x) =
(x) dFX (x) FX (x0 ) FX (x0 )
FX (x0 )
2
Concluimos que si n n0 ,
|FXn (x0 ) FX (x0 )| <
Una observaci
on: Con un poco mas de trabajo, se puede probar que es
suficiente que:
E[(Xn )] E[(X)]
para toda funcion continua con soporte compacto.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 103
4.6.
El principio de selecci
on de Helly
k+
lm F (x) = b + c = 1 a
x+
k+
xn x
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 104
Para completar la prueba, consideremos un punto x de continuidad de F ,
y elijamos n
umeros racionales r1 , r2 , s tales que r1 < r2 < x < s y
F (x) < F (r1 ) F (r2 ) F (x) F (x) < F (x) +
Como Fnk (r2 ) G(r2 ) G(r1 ) y F (nk )(s) G(s) F (s), se deduce que
si k k0 (),
F (x) < Fnk (r2 ) Fnk (x) < Fnk (s) < F (x) +
luego Fnk (x) F (x).
Definici
on 4.6.1 Sea (Fn ) una sucesion de funciones de distribucion. Diremos que (Fn ) es ajustada (tight en ingles) si dado > 0 existe M > 0 tal
que
lm sup 1 Fn (M ) + F (M )
n+
F (+) = 1
(4.5)
Prueba: Supongamos primero que (Fn ) es ajustada, y sea Fnk una subsucesion que verifica ii). Elijamos r < M y s > M puntos de continuidad de
F , emtpmces
1 F (s) + F (r) = lm 1 Fnk (s) + Fnk (r)
k+
lm sup 1 Fn (M ) + Fn (M )
n+
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 105
Deducimos que:
lm sup 1 F (x) + F (x)
x+
k+
4.7.
Funciones Caractersticas
4.8.
tR
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 106
ii) Recprocamente, si
n (t) (t) t R
donde es una funcion continua en t = 0, entonces existe una distribucion de probabilidad F tal que Fn converge debilmente a F .
Falta escribir la prueba.
Captulo 5
El teorema central del Lmite
5.1.
El teorema de De Moivre-Laplace
n
k
pk q nk
(0 k n),
q =1p
(5.1)
107
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 108
n!
2 nn+1/2 en eO(1/n)
Obtenemos1 :
Teorema 5.1.1 (De Moivre)
b(k, n, p) =
donde
1
2
exk /2 (1 + n,k )
2npq
k np
xk =
npq
y para M 0,
max |n,k | 0 cuando n
|xk |M
Prueba:
2 nn+1/2 en eO(1/n)
b(k, n, p) =
pk q nk
2 k k+1/2 ek eO(1/k) 2 (n k)nk+1/2 e(nk) eO(1/(nk))
r
np k nq nk
n
1
=
eO(1/n)+O(1/k)+O(1/(nk))
nk
2 k(n k) k
Notemos que:
r
q
k = np + xk npq = np 1 + xk
np
y que:
n k = nq xk npq = nq 1 xk
p
nq
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 109
donde
max |n,k | 0 cuando n +
|xk |M
= (np xk npq) xk
x
+O
np 2 k np
n3/2
r
1 2 p
1
p
x
+O
+ (nq + xk npq) xk
nq 2 k nq
n3/2
1 2
1 2
1
1
2
2
= xk npq + qxk qxk + O
+ xk npq + pxk pxk + O
2
n1/2
2
n1/2
1
1
= x2k + O
1/2
2
n
Deducimos que:
np k nq nk
2
1/2
= exk /2 eO(1/n )
k
nk
Finalmente consideramos el termino de error eO(1/n)O(1/k)O(1/(nk)) = eE
donde
1
1
1
1
E=O
+O
q + O
q = O
q
p
n
n
np 1 + x
nq 1 x
k
np
nq
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 110
1
2
2
exk /2 (1 + n (xk )) eO(1/n )
2npq
Finalmente, observamos que el factor de error dado por
b(k, n, p) =
(1 + n (xk ))eO(1/n
1/2 )
|xk |M
Antes de enunciar el siguiente teorema, introduzcamos la funcion
1
2
g(x) = ex /2
(5.2)
2
que se conoce como curva normal de Gauss o densidad normal de probabilidad. g(x) es una funcion positiva, de integral 1 y uniformemente continua
en toda la recta (ver figure 3.1. La funcion
Z x
(x) =
g(t) dt
(5.3)
se conoce como funcion de distribucion normal (acumulada). Es una funcion creciente, que tiende a cero cuando x , y que tiende a 1 cuando
x + (ver figura 3.1).
El siguiente teorema afirma que la distribucion lmite de la variable normalizada Sn esta dada por la integral definida de g(x):
Teorema 5.1.2 (De Moivre-Laplace)
P {a <
Sn
1
b}
2
ex
2 /2
dx
uniformemente en a y en b cuando n +.
La idea basica de la demostracion es la siguiente:
X
b(k, n, p)
Pn (a, b) = P {a < Sn b} =
a<xk b
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 111
ya que si Sn toma el valor xk , entonces Sn toma el valor k.
Los puntos xk estan cada vez mas proximos a medida que n +, ya
que
1
xk+1 xk =
npq
y por el teorema anterior b(k, n, p) g(xk )(xk+1 xk ) entonces,
X
Pn (a, b) = P {a < Sn b}
g(xk )(xk+1 xk )
a<xk b
Rb
y esta es una suma de Riemman para la integral a g(x) dx. Por lo tanto,
conforme n +, es razonable que podamos aproximar Pn (a, b) por dicha
integral.
La demostracion consiste en una formalizacion de esta idea:
Prueba: Dado > 0, elegimos M de modo que
(M ) (M ) = 1
y ademas
1
<
M2
por consiguiente:
(M ) = 1 (M ) = /2
Consideramos primero el caso en que el intervalo (a, b) esta contenido
en el intervalo (M, M ). La funcion gn definida por gn (x) = g(xk ) para
xk < x xk+1 converge uniformente a g(x) cuando n +, en virtud de
la continuidad uniforme de g.
Denotamos por k0 el mnimo entero tal que a < xk0 y sea k1 el maximo
entero tal que xk1 b.
En virtud del teorema 5.1.1,
X
Pn (a, b) =
(1 + n,k )g(xk )(xk+1 xk )
a<xk b
g(xk )(xk+1 xk ) +
a<xk b
a<xk b
xk1 +1
gn (x) dx +
xk0
X
a<xk b
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 112
En consecuencia,
Z
Z b
gn (x) dx
Pn (a, b) =
xk0
gn (x) dx
b
xk1 +1
gn (x) dx +
a<xk b
o sumando y restando gn :
Z b
Z
Z b
g(x) dx +
[gn (x) g(x)] dx +
Pn (a, b) =
a
Z
+
gn (x) dx +
b
gn (x) dx
xk1 +1
xk0
a<xk b
x[a,b]
Ademas como g y por consiguiente gn estan acotadas por (2)1/2 , deducimos que:
Z xk
0
1
gn (x) dx
2npq
a
, Similarmente:
Z
xk1 +1
1
gn (x) dx
2npq
b
Finalmente, u
ltimo termino podemos acotarlo del siguiente modo,
k1
X
X
g(x
)(x
x
)
m
a
x
|
|
g(xk )(xk+1 xk )
n,k
k
k+1
k
n,k
|xk |M
a<xk b
k=k0
1
2M max |n,k | 0 cuando n +
|xk |M
2
Como todas las estimaciones efectuadas, son independientes de a y b,
concluimos que cuando n +,
Z b
Pn (a, b)
g(x) dx
a
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 113
uniformemente en a y b. Es decir: existe un entero n0 = n0 () independiente
de a y de b tal que
Z b
Pn (a, b)
g(x) dx <
a
para n n0 .
Si (a, b) no esta contenido en (M, M ), tenemos que:
Pn (a, b) = Pn (a, M ) + Pn (M, M ) + Pn (M, b)
y
Z
g(x) dx
g(x) dx +
g(x) dx +
g(x) dx =
a
g(x) dx +
a
g(x) dx
M
Pero
Z
a
Z
Z b
g(x)dx
g(x)dx+
M
Z
g(x)dx+
y
1
<
M2
por la desigualdad de Tchebyshev, pues E(Sn ) = 0 y Var(Sn ) = 1 (teniendo en cuenta nuestra eleccion de M al comienzo de la demostracion). En
consecuencia,
Z b
Pn (a, b)
g(x) dx 3
Pn (a, M ) + Pn (M, b) P {|Sn | M }
si n n0 ()
Esto concluye la demostracion del teorema.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 114
5.2.
Una aplicaci
on a la estadstica
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 115
por la frecuencia fn observada en la muesta.
Una pregunta fundamental es entonces: Como elegir el tama
no de la
muestra?. Para ello, elegimos un margen de error , y un nivel de confianza
1 donde y son n
umeros peque
nos, y nos proponemos elegir el tama
no
de la muestra de modo que podamos asegurar que la probabilidad de que fn
diste de p como mucho en es por lo menos 1 , o sea:
P {|fn p| } 1
(5.4)
P {x
Sn
1
x }
2
ex
2 /2
dx = (x ) (x ) = 1
npq Sn np x npq} 1
P {np x
npq Sn np +
npq} 1
r
r
pq
pq
Sn
P p x
p + x
1
n
n
n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 116
O sea:
r
Sn
pq
P p x
1
n
n
Esta relacion dice que con probabilidad 1 podemos asegurar que p esta en
el intervalo:
r
r
Sn
pq Sn
pq
I =
x
,
+ x
n
n n
n
I se llama un intervalo de confianza (asintotico) para p de nivel de
confianza 1 . En realidad en esta forma, esta relacion no resulta todava
muy u
til ya que no conocemos p y entonces tampoco conocemos el ancho del
intervalo I . Pero podemos observar que:
1
p [0, 1]
4
En consecuencia, podemos asegurar que
Sn
1 Sn
1
x ,
+ x
I
n
2 n n
2 n
pq = p(1 p)
x 2
2
Esta relacion nos dice cual es el tama
no (mnimo) de la muestra que
necesitamos para poder garantizar un determinado margen de error con un
determinado nivel de confianza. Por ejemplo, si = 0, 05 y = 0,02, obtenemos que: x = 1, 96 y n 2401.
Observaci
on: Notamos que cuando 0, x + por lo que n0
+.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 117
5.3.
Sn N (0, 1)
Falta escribir la prueba
Captulo 6
Esperanza Condicional
6.1.
Sea B un evento de probabilidad positiva. Recordamos que la probabilidad condicional de que ocurra el evento A sabiendo que ocurre el evento B,
notada P (A/B) se define por:
P (A/B) =
P (A B)
P (B)
Sea X : R una variable aleatoria discreta. Recordamos que la esperanza de X se define como la serie
X
E[X] =
xi P {X = xi }
i
118
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 119
E[X/A] =
X
i
xi
P ({X = xi } A}
1 X
=
xi IA (xi )P {X = xi }
P (A)
P (A) i
Es decir que:
1
E[IA X]
(6.1)
P (A)
Notemos que esta formula puede adoptarse como definicion de la esperanza condicional respecto de un evento para cualquier variable aleatoria (sea
discreta o no) mientras tenga esperanza finita, y el evento A tenga probabilidad positiva.
E[X/A] =
6.2.
Ahora consideremos dos variables discretas X, Y : R. Nos proponemos definir el concepto de esperanza condicional E[X/Y ] de X dada Y .
Supondremos que X tiene esperanza finita.
Sean {yj } los distintos valores que toma la variable Y , y notemos que los
eventos Aj = { : Y () = yj } forman una particion del espacio muestral
.
Si P {Y = yj } > 0, podemos definir
E[X/Y = yj ] = E[X/Aj ]
utilizando la definicion introducida en la seccion anterior.
Mas explcitamente:
X
E[X/Y = yj ] =
xi P {X = xi /Y = yj }
(6.2)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 120
Lema 6.2.1 La variable aleatoria h(Y ) = E[X/Y ] tiene las siguientes propiedades:
Tiene esperanza finita.
Para cualquier funcion f : R R acotada, se verifica que:
E[f (Y )h(Y )] = E[f (Y )X]
Mas a
un: la esperanza condicional E[X/Y ] esta caracterizada por estas dos
propiedades. en el siguiente sentido: si h1 , h2 : R R son dos funciones que
verifican estas dos propiedades, entonces
P {h1 (Y ) = h2 (Y )} = 1
Prueba: Para probar que h(Y ) tiene esperanza finita, debemos mostrar que
la serie
X
h(yj )P {Y = yj }
j
donde (yj ) recorre los posibles valores que la variable Y toma con probabilidad positiva, es absolutamente convergente.
X
X X
|h(yj )|P {Y = yj } =
xi P {X = xi /Y = yj } P {Y = yj }
j
XX
i
f (yj )P {Y = yj }
xi P {X = xi /Y = yj }
XX
i
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 121
Ahora probaremos la unicidad: supongamos que h1 , h2 : R R son
funciones que verifican las propiedades anteriores. Entonces para cualquier
funcion f : R R acotada, tenemos que:
E[f (Y )h1 (Y )] = E[f (Y )h2 (Y )] = E[f (Y )X]
En consecuencia, si llamamos h = h1 h2 por la linealidad de la esperanza:
E[f (Y )h(Y )] = 0
Eligiendo f (t) = I{yj } (t) deducimos que:
h(yj )P {Y = yj } = 0
Por lo tanto si h(yj ) 6= 0, P {Y = yj } = 0. En consecuencia:
X
P {h(Y ) 6= 0} =
P {Y = yj } = 0
yj :h(yj )6=0
Corolario 6.2.1
E[E[X/Y ]] = E[X]
(Se deduce tomando f 1 en la formula anterior).
6.3.
En el caso general, no resulta posible definir directamente E[X/Y ] utilizando la formula (6.1) ya que usualmente el evento {Y = y} tiene probabilidad cero si Y es una variable continua.
Definici
on 6.3.1 Sean X, Y : R variables aleatorias. Decimos que
una variable aleatoria Z = h(Y ) es una version de la esperanza condicional
E[X/Y ] si se verifican las siguiente propiedades:
1. h(Y ) tiene esperanza finita.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 122
2. Para cualquier funcion boreliana acotada f : R R se verifica que:
E[f (Y )h(Y )] = E[f (Y )X]
Lo que hemos hecho en la seccion anterior, es mostrar que la definicion
(6.2) proporciona una version de la esperanza condicional en el caso discreto.
El siguiente teorema afirma que siempre existe una version de la esperanza condicional, aunque no proporciona ninguna formula para calcularla. No
demostraremos este teorema ya que su demostracion depende de un teorema
de analisis real (el teorema de Radon-Nikodym)
Teorema 6.3.1 Si X, Y : R son variables aleatorias, siempre existe
una version de la esperanza condicional E[X/Y ]. Ademas si h1 (Y ), h2 (Y )
son dos versiones de la esperanza condicional E[X/Y ], entonces
P {h1 (Y ) = h2 (Y )} = 1
Este captulo est
a incompleto: faltan las propiedades de la esperanza condicional y el caso en que X e Y admiten una densidad
conjunta
Ap
endice A
La F
ormula de Stirling
En muchas cuestiones del calculo de probabilidades, resulta necesario disponer de una aproximacion de n! para n grande. Este es el contenido de la
Formula de Stirling:
Teorema A.0.2 (F
ormula de Stirling)
n! 2 nn+1/2 en
Con mas presicion, se tienen las desigualdades:
A.1.
n+1/2 n
2 n
e < n! <
2e
1
1+
4n
La f
ormula de Wallis para
2 2 4 46 6
2m
2m
= lm
...
2 m+ 1 3 3 5 5 7
2m 1 2m + 1
o en forma de producto infinito
2 2 4 4 6 6
2m
2m
= ...
...
2
1 3 3 5 5 7
2m 1 2m + 1
123
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 124
Para demostrar esta formula, introduzcamos la cantidad
Z /2
senn x dx
In =
0
n1
In2 (n 2)
n
senn1 x
0
( cos x) dx
Es decir:
Z
Z /2
n2
2
(n1)sen
cos dx =
In =
/2
In =
Prueba de la f
ormula de Wallis:
A fin, de calcular In observamos que
/2
dx =
I0 =
0
Z
I1 =
/2
dx = 1
0
2m 1 2m 3
5 3 1
2m
2m 2
6 4 2 2
I2n+1 =
2m
2m 2
8 6 4 2
2m + 1 2m 1
9 7 5 3
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 125
Podemos despejar /2:
2 46 5
2m
=
...
I2m
2
1 35 7
2m 1
y utilizando la expresion de I2m+1
2 2 4 4 6 6
2m
2m
I2m
= ...
2
1 3 3 5 5 7
2m 1 2m + 1 I2m+1
I2m
Queremos estimar el cociente I2m+1
: para ello observams que en el intervalo
pi
0 < x < 2 se tiene 0 < sen x < 1, en consecuencia 0 < sen2m+1 x < sin2m1
e integrando resulta que:
I2m
I2m1
Im
1
2m + 1
2m + 1
=1+
2m
I2m1
2m
2m
I2m
Por la propiedad del sandwich deducimos que I2m+1
tiende a 1 cuando m
+. En consecuencia:
2 2 4 4 6 6
2m
2m
I2m
= lm
...
2 m+ 1 3 3 5 5 7
2m 1 2m + 1 I2m+1
A.1.1.
Otra f
ormula de la f
normula de Wallis
= lm 2 2 2
2 m+ 3 5 7 (2m 1)2 (2m + 1)
Como lmm+
2m+1
2m
22 42 62 (2m 2)2
2m
= lm 2 2 2
2 m+ 3 5 7 (2m 1)2
Tomando raz cuadrada:
r
2 4 6 (2m 2)
= lm
2m
2 m+ 3 5 7 (2m 1)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 126
Multiplicando el denominador y el denominador por 2 4 6 . . . (2m 2)
resulta:
r
22 42 62 (2m 2)2
= lm
2m
2 m+ 2 3 5 6 7 (2m 1)
2m
22 42 62 (2m)2
= lm
m+
(2m)!
2m
22m (12 22 32 m2
m+
(2m)! 2m
= lm
22m (m!)2
m+ (2m)! 2m
= lm
22m (m!)2
m+ (2m)! m
A.2.
Prueba de la f
ormula de Stirling
n
X
log(k)
(A.1)
k=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 127
Tn =
n1
X
log(k) + log(k + 1)
k=1
n1
X
log(k) +
k=1
1
1
log n = log(n!) log n
2
2
1
(x (k + 1/2))
k + 1/2
y la secante (pues siendo f concava, tenemos que f (x) T (x)). Deducimos que:
Z k+1
log(k) + log(k + 1)
T (x) dx
Ek+1 Ek
2
k
es decir:
log(k) + log(k + 1)
Ek+1 Ek log(k + 1/2)
2
1
1
1
1
1
1
1
=
1+
1+
<
1+
1+
2
2k
2
2(k + 1/2)
2
2k
2(k + 1)
Sumando estas igualdades para k = 1, 2, . . . , n 1, todos los terminos
del lado derecho se cancelan, excepto dos (serie telescopica), y como E0 ,
obtenemos que:
1
3 1
1
1
3
En < log log 1 +
< log
2
2 2
2n
2
2
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 128
Notamos que En es entonces, monotona creciente y acotada, por lo tanto
En tiende a un lmite E cuando n +. Y la desigualdad para Ek+1 Ek
permite estimar la diferencia E En :
X
1
1
E En
1+
(Ek+1 Ek ) <
2
2n
k=n
Entonces como An = Tn + En , obtenemos que:
log(n!) = (n + 1/2) log(n) n + 1 En
o escribiendo n = e1En , y tomando exponencial:
n! = n nn+1/2 en
La sucesion n es ahora monotona decreciente, y tiende al lmite: =
e1E . En consecuencia, por las estimaciones anteriores:
r
n
1
1
1
= eEEn < e(1/2) log(1+1/2n) = 1 +
1+
2n
2n
En consecuencia, tenemos las desigualdades:
1
n+1/2 n
n
e n! 1 +
nn+1/2 en
2n
Nos queda determinar el valor de la constante . Para ello utilizamos la
formula de Wallis,
22m (m!)2
n2
2
= lm
=
m+ (2m)! m
n+
2
2n 2
Ap
endice B
Construcci
on de la Integral de
Lebesgue, y equivalencia de las
distintas definiciones de
esperanza
Motivaci
on
En este apendice presentaremos una construccion de la integral de Lebesgue, que es una herramienta u
til para definir esperanzas de variables aleatorias y operar con ellas (Se desarrolla en los cursos de analisis real, pero
aqu presentaremos algunas nociones basicas, siempre teniendo en mente la
interpretacion probabilstica).
Para ver porque la integral de Stieltjes no es adecuada para muchos
propositos teoricos, consideremos la definicion que hemos dado anteriormente
de la esperanza de una variable aleatoria X en terminos de una integral de
Stieltjes:
Z +
E[X] =
x dF (x)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 130
distribucion FX .
Sin embargo, por ejemlo resulta complicado por ejemplo, con esta definicion probar que la esperanza es lineal, ya que FX no depende linealmente de
X.
Otro ejemplo es el siguiente (tomado del libro de Barry James): Si usamos
la integral de Stieltjes, entonces la formula:
Z +
E[(X)] =
(x) dF (x)
B.1.
Funciones Medibles
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 131
Definici
on B.1.1 Sea (, M) un espacio medible y sea f : R una
funcion. Diremos que f es una funci
on medible (respecto a la -algebra
M) si para todo R el conjunto {f > } = { : f () > } es
medible, es decir pertenece a M.
Si (, E, P ) es un espacio de probabilidad, las funciones medibles sobre
(respecto a la -algebra P ) son precisamente las variables aleatorias definidas
sobre .
La nocion de funcion medible puede formularse de varias maneras equivalentes. (En lo sucesivo, usaremos las notaciones abreviadas {f < } = {
: f () < }, etcetera).
Lema B.1.1 Sea f : R una funcion. Son equivalentes:
i) f es medible.
ii) Para todo R, {f } es medible.
iii) Para todo R, {f < } es medible.
iv) Para todo R, {f } es medible.
Prueba: i) ii):
{f } =
{f > 1/n}
nN
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 132
Prueba: Notamos que
{f < g} =
{f < q < g} =
lm inf fn (x)
nN
son medibles.
nf fn (x)
nN
lm sup fn (x)
nN
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 133
En particular si fn converge, entonces:
f (x) = lm fn (x)
n+
es medible.
Prueba: Notamos que
{sup fn (x) > } =
nN
{fn > }
nN
Por lo que si cada fn es medible, {fn > } M n N , y en consecuencia como M es una -algebra, {supnN fn (x) > } M. Esto prueba que
supn fn (x) es medible.
Del mismo modo, se prueba que nf n fn (x) es medible, ya que:
[
{fn < }
{nf fn (x) < }
nN
nN
Pero para cada k, supkn fn es medible por lo que ya probamos, y en consecuencia lm sup fn es medible. De modo analogo, de que
lm inf fn = sup nf fn
k
kn
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 134
Prueba: Notamos que:
A = {B R : f 1 (B) M}
es una -algebra. Si f es medible, entonces A contiene a los intervalos. Por
lo tanto contiene a toda la -algebra de Borel (que es la menor -algebra que
contiene a los intervalos).
Corolario B.1.1 Si (, P ) es un espacio medible, f : R es medible y
: R R es medible Borel, entonces f : R es medible.
Prueba: Sea B un boreliano de la recta, entonces 1 (B) es boreliano, y en
consecuencia como f es medible:
( f )1 (B) = f 1 (1 (B) M
Como esto vale para todo B boreliano, concluimos que f es medible.
Interpretaci
on probabilstica: Sea (, E, P ) un espacio de probabilidad. Si X : R es una variable aleatoria, y : R R es medible Borel,
entonces (X) = X : R es una variable aleatoria.
B.1.1.
Funciones Simples
Definici
on B.1.3 Llamamos funcion simple a una funcion medible f :
R que toma un n
umero finito de valores {c1 , c2 , . . . , cn }. Podemos representarla entonces como:
n
X
f=
ci IEi
(B.1)
i=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 135
En la interpretacion probabilstica, las funciones simples corresponden a
las variables aleatorias discretas que toman solo un n
umero finito de valores.
El siguiente lema de aproximacion por funciones simples, sera de gran
utilidad para la teora de la integral:
Lema B.1.5 Si f : [0, +] es una funcion medible no negativa, entonces existe una sucesion n (x) de funciones simples no negativas tales que
lm n (x) = f (x) x
n+
n (x) =
n2
X
i1
i=1
siendo
En,i
2n
i1
i
= {x : n f (x) < n
2
2
Fn = {x : f (x) n}
Es decir que:
n (x) =
si i1
f (x) <
2n
n si f (x) n
i1
2n
i
2n
B.2.
Consideramos ahora un espacio de medida (, M, ) es decir un espacio medible, donde ademas esta definida una medida (-aditiva) : M
[0, +].
Si f : R es una funcion simple, representada por (B.1) definimos su
integral de la siguiente manera:
Z
X
f d =
ci (Ai )
i=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 136
En la interpretacion probabilstica, tenemos un espacio de probabilidad
(, E, P ) donde la probabilidad no es otra cosa que una medida que asigna
a todo el espacio medida 1 (o sea: P () = 1).
Entonces la definicion de integral de una funcion simple, no es otra cosa
que nuestra definicion de esperanza de una variable aleatoria discreta, escrita
en el lenguaje de la teora de la medida. Es decir, que si X : R es una
variable aleatoria discreta, entonces
Z
E[X] =
X dP
B.3.
Definici
on B.3.1 Sea (, M, ) un espacio de medida, y f : [0, +]
una funcion medible no negativa. Definimos la integral de f de la siguiente
manera:
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 137
Z
Z
f d = sup
d : 0 f, simple
Definici
on B.3.2 Si A M es un conjunto medible, y f : [0, +] es
una funcion medible no negativa, definimos la integral de f sobre E como:
Z
Z
f IA d
f d =
es una medida
Prueba: Supongamos que un conjunto medible A se representa como una
union disjunta numerable de una sucesion (An )nN de conjuntos medibles:
[
A=
An
nN
(An )
n=1
N
X
i=1
ci IEi
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 138
Notamos que (x)IAn (x) es una funcion simple, que toma el valor ci en
el conjunto An Ei , es decir que su representacion canonica es:
(x)IAn (x) =
N
X
ci IEi An
i=1
En consecuencia,
(An ) =
N
X
ci (Ei An )
i=1
Y por lo tanto
(An ) =
n=1
X
N
X
ci (Ei An )
n=1 i=1
(An ) =
N X
ci (Ei An ) =
i=1 n=1
n=1
N
X
ci
i=1
(Ei An )
n=1
Ei A =
(Ei An )
nN
(Ei An )
n=1
y concluimos que:
X
n=1
(An ) =
N
X
Z
ci (Ei A) =
i=1
Z
(x) IA (x) d =
(x) d
A
Teorema B.3.1 (Teorema de la Convergencia Mon
otona ) 2 Sea fn (x) :
[0, +] una sucesion creciente (o sea: fn (x) fn+1 (x)) de funciones
medibles no negativas. Entonces,
Z
Z
lm f (x) d = lm
fn (x) dmu
n+
n+
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 139
Prueba: Sea
f (x) = lm fn (x)
n+
Z
fn (x) d
lm
n+
f (x) d
Por otra parte, sea una funcion simple tal que f . Dado (0, 1),
consideramos los conjuntos (medibles)
An = {x : fn (x) x}
Entonces la sucesion (An )nN es monotona creciente (o sea An An+1 ) y
[
=
An
nN
es decir,
Z
lm
n+
Z
(x) d =
An
(x) d
An
Z
fn (x) d
An
De modo que,
Z
Z
(x) d = lm
n+
(x) d
fn (x) d
Z
(x)d lm
n+
An
n+
fn (x) d
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 140
y por lo tanto como esto vale para toda funcion simple con 0 f , por
la definicion de integral, deducimos que:
Z
f (x) d lm fn (x) d
n+
Proposici
on B.3.2 (Linealidad de la integral) Si f, g : [0, +]
son funciones medibles no negativas y 1 , 2 0 son n
umeros reales no
negativos, entonces:
Z
Z
Z
[1 f (x) + 2 g(x)] d = 1 f (x) d + 2 g(x) d
Teorema B.3.2 (Lema de Fatou) Sea fn : M [0, +] una sucesion
de funciones medibles no negativas. Entonces:
Z
Z
lm inf fn (x) d lm inf
fn (x) d
n+
n+
Prueba: Llamemos
f (x) = lm inf fn (x) = sup nf fn (x)
n+
kN
nk
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 141
Entonces por el teorema de convergencia monotona:
Z
Z
Z
f (x) d =
lm gk (x) d = lm
gk (x) d
k+
k+
(B.2)
y en consecuentcia:
Z
Z
gk (x) d lm inf
n+
fn (x) d
Y por lo tanto:
Z
gk (x) d lm inf
lm
k+
Z
n+
fn (x) d
B.4.
Funciones Integrables
f (x) =
0 si f (x) 0
f (x) si f (x) < 0
Notamos que:
|f | = f + + f
(B.3)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 142
Definici
on B.4.1 Diremos que una funcion medible f : R es integrable
si son finitas las integrables
Z
f + (x) d
y
Z
f (x) d
Ademas:
Z
Z
f (x)d
|f (x)| d
Proposici
on B.4.1 (Linealidad de la integral) Si f, g : R son funciones integrables y 1 , 2 son n
umeros reales, entonces 1 f + 2 g es integrable, y se tiene que:
Z
Z
Z
[1 f (x) + 2 g(x)] d = 1 f (x) d + 2 g(x) d
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 143
Z
=
f d f d
Z
= f d
+
Z
Z
= f d + f + d
Z
= f d
f d =
En consecuencia,
Z
Z
f1 d
f d =
f2 d
Vale decir que si en lugar de (B.3), utilizaramos cualquier otra descomposicion de f como diferencia de funciones medibles no negativas obtendramos
el mismo valor de la integral.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 144
Hecha esta observacion, notamos que
f + g = f + f + g + g = (f + + g + ) (f + g )
y que esta u
ltima expresion proporciona una escritura de f +g como diferencia
de funciones no negativas. En consecuencia, por la observacion anterior, y la
linealidad de la integral para funciones no negativas:
Z
Z
Z
+
+
(f + g) d = (f + g ) d (f + g ) d =
g d
f d +
f d
Z
=
g d =
Z
f d +
g d
Teorema B.4.1 (De convergencia mayorada, de Lebesgue) Sea fn (x) :
R una sucesion de funciones integrables, que converge puntualmente a
una funcion f (x)
f (x) = lm fn (x)
n+
y tal que existe una funcion integrable g de modo que |fn (x)| g (en casi
todo punto con respecto a la medida ). Entonces
Z
lm
|fn (x) f (x)| d = 0
n+
En particular,
Z
lm
n+
Z
fn (x) d =
f (x) d
n+
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 145
Z
Z
g(x) d lm sup
n+
En consecuencia,
Z
|fn (x) f (x)| d = 0
lm sup
n+
Entonces,
Z
Z
Z
fn (x) d f (x) d
|fn (x) f (x)| d 0 cuando n
B.5.
A la variable aleatoria X le podemos asociar la medida X (o probabilidad), definida para los conjuntos borelianos de la recta por:
X (B) = P (X 1 (B))
X se llama la distribucion de probabilidades de X. Notamos que (R, B(R), X ),
donde B(R) denota la -algebra de Borel de la recta, es un espacio de probabilidad.
El siguiente lema afirma que es posible transformar las integrales respecto a P , en integrales respecto a X . Por consiguiente X contiene toda la
informacion sobre X que es necesaria para calcular la esperanza de X, o mas
generalmente, de una funcion (X) de X.
Lema B.5.1 Sea : R R una funcion medible Borel. Entonces se tiene
que
Z
Z
E[(X)] =
(X) d =
(x) dX
en el siguiente sentido.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 146
1. Si es no negativa, la formula vale sin restricciones. (Notar que estas
integrales siempre existen, aunque pueden ser infinitas)
2. Si es cualquiera, entonces (X) es integrable con respecto a P si
y solo si (x) lo es con respecto a X y en este caso es valida dicha
formula.
Prueba: Primero consideramos el caso en que : R R es una funcion
boreliana simple, entonces:
(x) =
n
X
ci IBi (x)
i=1
i=1
Por otra parte, notamos que (X) : M R es una funcion simple que
toma el valor ci en el conjunto X 1 (Bi ), de modo que:
Z
n
X
(X) dP =
ci P (X 1 (Bi ))
i=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 147
En consecuencia, (X) es integrable con respecto a P si y solo si (x) lo
es con respecto a X .
Finalmente, hagamos uso de la descomposicion:
(x) = + (x) (x)
Entonces como + y son no negativas, tenemos que:
Z
Z
+
(X) dP =
+ (x) dX
y que:
Z
(x) dX
(X) d =
Anteriormente definimos la esperanza utilizando integrales de Stieltjes
respecto a la funcion de distribucion de X. El siguiente teorema afirma que
la definicion de esperanza que dimos anteriormente conside con la nueva
definicion.
En la demostracion, utilizaremos la notacion:
Z
Z b
(x) dX
(x) dX =
a
[a,b]
en el siguiente sentido:
1. Si tiene soporte en un intervalo [a, b] entonces, la formula es valida,
y ambos mimebros son finitos.
2. Si es no negativa, la formula es valida sin restricciones (aunque ambas integrales pueden ser infinitas)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 148
3. Si es de signo abitrario, entonces (x) es integrable con respecto a
X si y solo si
Z
|(x)| dF (x) < +
n1
X
i=1
n1
X
Z
(x) d
(i )X ((xi .xi+1 ]) =
i=1
||0
Z
(x) dX =
(x) dX
a
ya que
Z
Z b
Z
(X)dX (x) dX
| (x) (x)| dX < X ([a, b])
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 149
existe, y coincide con
Z
(x) dX
a
bn
Z
(x)I[an ,bn ] (x) d(x)
( x) dX =
an
(x) dX
R
B.5.1.
Vectores Aleatorios
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 150
Y si : Rn R es una funcion medible Borel, entonces tendremos la
formula (generalizacion del lema B.5.1:
Z
Z
E[(X)] =
(X) =
(x)dX
Rn
Ap
endice C
Independencia
En este apendice utilizaremos las herramientas de la teora de la medida
para probar algunas propiedades de las variables aleatorias independientes.
C.1.
El teorema de Dynkin
nN
An
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 152
Algunas propiedades de los -sistemas
L
Si A B, y A, B L B A L.
S
Prueba: B A = B Ac = (B c A)c y B c A = .
L es cerrado por uniones numerablesScrecientes. Si An L n N , y
A1 A2 . . . An . . ., entonces nN An L.
Prueba:
[
An = A1 (A2 A1 ) (A3 A2 ) . . . (An An1 . . .
nN
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 153
Si (Bn ) es una familia disjunta de conjuntos de LA entonces A Bn es
una familia disjunta de conjuntos de L0 , y como
!
[
\
A
Bn =
(A Bn ) L0
nN
nN
entonces
[
Bn LA
nN
Afirmaci
on 2: Si A P, entonces L0 LA .
Si A P, entonces para cualquier B P tenemos que A B P, ya
que P es por hipotesis un -sistema. Deducimos que P LA . Luego por la
afirmacion 1, LA es un -sistema que continene a P, lo cual por la definicion
de L0 implica que L0 LA .
Afirmaci
on 3: Si C L0 , entonces L0 LC .
Para todo A P, por la afirmacion 2, tenemos que LA L0 . Luego
si C L0 , entonces C LA , que por simetra de la definicion implica que
A LC . Como esto vale para todo A P, deducimos que P LC .
Por la afirmacion 1, deducimos que LC es un -sistema que contiene a P,
lo que por la definicion de L0 , implica que L0 LC .
Finalmente sean D, E L0 . Entonces por la afirmacion 3, D L0 LE .
En consecuencia por definicion de LE , D E L0 . Concluimos que L0 es un
-sistema.
Conclusi
on de la prueba: Como L0 es a la vez un -sistema, y un
-sistema, es una -algebra. Como contiene a P, deducimos que (P) L0 .
Y entonces, como L0 L, concluimos que (P) L.
C.2.
Variables independientes
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 154
Podemos interpretar esta formula como:
(X,Y ) ((a, b] (c, d]) = X ((a, b])Y ((c, d])
El siguiente lema afirma que una formula analoga es valida si sustituimos
los intervalos por conjuntos borelianos de la recta:
Lema C.2.1 Sean X e Y dos variables aleatorias. Entonces X e Y son
idependientes si y solo si:
P {(X, Y ) B1 B2 } = P {X B1 } P {Y B2 }
para cualquier par B1 , B2 de conjuntos borelianos de la recta.
Prueba: Fijemos primero B1 , como siendo un intervalo (a, b] de la recta, y
consideremos la familia
L1 = {B R : P {(X, Y ) (a, b] B} = P {X (a, b]} P {Y B}}
Afirmamos que A1 es un -sistema de subconjuntos de R. Chequeamos las
tres condiciones de la defincion:
1 ) R L1 :
P {(X, Y ) (a, b]B c } = P {(X, Y ) (a, b]R}P {(X, Y ) (a, b]B} == P {X (a, b]}P
3 ) S
Si (Bn ) es una familia numerable disjunta y Bn L1 , entonces B =
nN Bn L1
En efecto, utilizando que los Bn son disjuntos, tenemos que:
P {(X, Y ) (a, b] B} = P {(X, Y )
[
nN
((a, b] Bn )}
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 155
=
P {(X, Y ) (a, b] Bn }
nN
P {X (a, b]}P {Y Bn }
nN
!
= P {X (a, b]}
P {Y Bn }
nN
= P {X (a, b]}P {Y B}
Notemos que no es posible probar que L1 sea una -algebra, pues este
argumento no funciona si los Bn no fueran disjuntos.
Por otra parte la familia P de los intervalos semiabiertos de la recta
(contando como intervalo semiabierto al conjunto vaco (a, a] = es un sistema, y por la definicion de variables aleatorias independientes, P L1 .
El teorema nos permite concluir entonces que (P) L1 , es decir:
que la -algebra B(R) de los borelianos de la recta, esta contenida en L1 .
Entonces, hemos probado que la formula del enunciado, se verifica cuando
B1 es un intervalo semiabierto y B2 un boreliano arbitrario.
Ahora, repetimos el argumento, fijando la otra variable. Para ello consideramos la familia:
L2 = {B R : P {(X, Y ) BB2 } = P {X B}P {Y B2 } : B B(R) }
Repitiendo el argumento anterior, podemos probar que L2 es un -sistema,
y por lo anteriormente probado, L2 contiene a la clase P de los intervalos
semiabiertos. Nuevamente, por el teorema , L2 contiene a los borelianos.
Pero esto significa precisamente, que la formula del enunciado es valida para
B1 , B2 borelianos arbitrarios de la recta.
Corolario C.2.1 Sean X, Y variables aleatorias independientes, y sean 1 , 2 :
R R funciones medibles Borel. Entonces: (X) y (Y ) son variables aleatorias independientes.
Estos resultados se generalizan a varias variables independientes.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 156
C.3.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 157
E[X + Y + ] E[X Y + ] E[X + Y ] + E[X Y ]
Pero como X e Y son independientes X + , X son independientes de Y + ,
Y respectivamente; en consecuencia:
E[X Y ] = E[X + ]E[Y + ] E[X ]E[Y + ] E[X + ]E[Y ] + E[X ]E[Y ] =
(E[X + ] E[X ])(E[Y + ] E[Y ]) = E[X]E[Y ]
La prueba de este teorema ilustra como los teoremas de paso al lmite
resultan u
tiles para generalizar las propiedades que conocemos para variables
discretas, al caso de variables aleatorias continuas.
Ap
endice D
Existencia de las Integrales de
Riemann-Stieltjes
En esta apendice, presentaremos una prueba del siguiente resultado fundamental de la teora de la integral de Riemann-Stieltjes:
Teorema D.0.2 Si F es una funcion creciente en un intervalo cerrado [a, b]
de la recta, y es una funcion continua en [a, b], entonces la integral de
Riemann-Stieltjes
Z b
(x) dF (x)
a
existe
Recordamos que esta integral, se define como el lmite conforme la norma
|| de la particion tiende a cero, de las sumas:
S (.F ) =
n1
X
i=0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 159
mi =
nf
(x)
x[xi ,xi+1 ]
Mi =
sup
(x)
x[xi ,xi+1 ]
n1
X
Mi (F (xi+1 ) F (xi ))
i=0
U (.F ) =
n1
X
Mi (F (xi+1 ) F (xi ))
i=0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 160
Para demostrar esta afirmacion, es suficiente notar que la particion 00 =
0 es un refinamiento com
un 1
Entonces, utilizando la propiedad de monotona,
L (, F ) L00 U00 U0
Lema D.0.1 Dado > 0, existe > 0 tal que si || < , tenemos que
0 U (, F ) L (, F ) <
Prueba: Dado > 0, como es uniformemente continua en [a, b], existira un
> 0 tal que si |x y| < con x, y [a, b], se tiene que |(x) (y)| < .
Entonces, si es cualquier particion de [a, b] tal que || < , tendremos que:
n1
X
U (, F ) L (, F ) =
(Mi mi )(F (xi+1 ) F (xi ))
i=0
n1
X
i=0
Hechas estas observaiones, estamos en condiciones de demostrar el teorema, para ello comencemos elijiendo una sucesion (n ) de particiones de [a, b]
de modo que n+1 sea un refinamiento de n , y que |n | 0. Por ejemplo,
podemos elegir como n la particion uniforme de [a, b] en 2n partes de igual
longitud.
Entonces, por la propiedad de monotona la sucesion de sumas inferiores
Ln (, F ) sera monotona creciente, y ademas esta acotada pues
!
Ln
Es esta propiedad de las particiones, de que dos particiones siempre tienen un refinamiento com
un, hace de las particiones un conjunto dirigido. As pues, S (, F ) es una red
que converge a la integral de Stieltjes.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 161
En virtud del lema, tambien tendremos que:
I = lm Un (, F )
n+
||0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 162
Corolario D.0.1 Sea C[a, b]. Dados > 0 y C > 0, existe un > 0
(que depende de > 0 y C pero es independiente de F ) tal que si F es
cualquier funcion F : [a, b] R creciente tal que
F (b) F (a) C
entonces
Z b
(x) dF (x) S (, F ) <
a
Ap
endice E
Las leyes fuertes de
Kolmogorov
E.0.1.
La desigualdad de Kolmogorov
max |Sk |
1kn
n
1
1 X
Var(Xk )
2 Var(Sn ) = 2
k=1
donde Sk = X1 + X2 + . . . + Xn .
Prueba: Consideremos el evento:
2
2
A = max Sk
1kn
Queremos obtener una cota para P (A). Para ello lo descomponemos en eventos disjuntos, de acuerdo a cual es la primera vez que Sk2 2 :
A1 = {S12 2 }
A2 = {S12 < , S22 2 }
163
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 164
y en general:
2
Ak = {S12 < 2 , S22 < 2 , . . . , Sk1
< 2 , Sk 2 }
Luego,
IA =
n
X
IAn
k=1
Sn2
Sn2 IA
n
X
Sn2 IAk
k=1
y tomando esperanza:
E[Sn2 ]
n
X
E[Sn2 IAk ]
(E.1)
k=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 165
Ahora en Ak , Sk2 2 . En consecuencia,
E[Sn2 IAk ] E[2 IAk ] = 2 P (Ak )
Sustituyendo este resultado en la desigualdad (E.1), tenemos que:
E[Sn2 ]
n
X
P (Ak ) = 2 P (A)
k=1
Luego
n
1 X
1
2
Var(Xk )
P (A) 2 E[Sn ] = 2
k=1
E.1.
E.1.1.
Teorema E.1.1 (Primera ley fuerte de Kolmogorov) Sea (Xn )nN una
sucesion de variables aletorias independientes con esperanza finita, y supongamos que:
X
Var(Xn )
< +
(E.2)
n2
n=1
Entonces (Xn )nN verifica la ley fuerte de los grandes n
umeros, es decir:
X1 + X 2 + . . . + Xn
E(X1 ) + E(X2 ) + . . . + E(Xn ) c.s.
0
n
n
maxn+1
n
2 <k2
|Sk |
k
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 166
Basta probar que Mn 0 casi seguramente.
Vamos a probar esto en dos etapas:
Etapa 1: Probaremos que
X
1
P Mn >
< +
m
n=1
para m = 1, 2, . . ., utilizando la desigualdad de Kolmogorov.
Etapa 2: Probaremos que Mn 0 casi seguramente, utilizando el lema
de Borel-Cantelli.
Etapa 1: Para probar la primera afirmacion notamos que:
2n
|Sk |
1
P n maxn+1
>
P n maxn+1 |Sk | >
2 <k2
2 <k2
k
m
m
(ya que dividir por 2n en lugar de k agranda el maximo)
P
2n
maxn+1 |Sk | >
1k2
m
Definamos el evento Am,n = Mn
P (Am,n )
n=1
X
n=1
1
m
n+1
m 2 2X
2n
Var(Xk )
k=1
. Entonces
!
2n+1
m2 X
Var(Xk )
4n k=1
X
X
X Var(Xk )
P (Am,n ) m2
n
4
n+1
n=1
k=1
k
n:2
= m2
X
k=1
Var(Xk )
X
n:2n+1 k
X
1
4 1
=
n
4
3 4j
n=j
1
4n
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 167
En consecuencia:
X
n:2n+1 k
X
1
1
=
n
4
4n
n=j(k)
1
4 1
4 4
16
=
= 2
n
j(k)
2
4
3 4
3 k
3k
(pues 2j(k) k2 ).
Por lo que sustituyendo, concluimos que:
X
n=1
P (Am,n )
16m2 X Var(Xk )
< +
3 k=1
k2
por la hipotesis.
Etapa 2: Por el lema de Borel-Cantelli, concluimos que, fijado m con
probabilidad 1, solo ocurren finitos de los eventos An,m . Vale decir que si
\ [
1
Am, = : Mn ()
para infinitos n =
Am,n
m
kN nk
entonces P (Am, = 0). Y entonces si consideramos el evento:
[
\ [
A = { : Mn () 6 0 } =
Am,n
mN
kN nk
0
n
n
es valida para toda sucesion (Xn )nN de variables aleatorias independientes
y uniformemente acotadas.
Prueba: Supongamos que |Xn | c. Entonces Var(Xn ) E[Xn2 ] c2 , y
entonces la hipotesis (E.2) es satisfecha.
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 168
E.1.2.
Nuestro siguiente objetivo sera probar que la ley fuerte de los grandes
n
umeros es valida sin la restriccion de acotacion uniforme. Para ello necesitaremos algunos lemas preparatorios:
Lema E.1.1 (Criterio de Integrabilidad) Sea X : R una variable
aleatoria. Entonces E[|X|] < + (X es integrable) si y solo si
n=1
Prueba: Pongamos
A0 = { : X() = 0}
An = { : n 1 < |X| n}
A = { : X() = }
Los eventos An (con n N {}) forman una particion del espacio .
Notemos as mismo que bajo cualquiera de las dos condiciones del enunciado X es finita con probabilidad 1, es decir A tiene probabilidad cero. En
consecuencia, por la -aditividad de la integral (de Lebesgue) respecto del
conjunto 1 :
Z
X
|X| dP
E[|X|] =
n=0
An
y por lo tanto:
XZ
n=1
An
(n 1) dP E[|X|]
XZ
n=1
n dP
An
n=1
Aqu presentamos una prueba usando la integral Lebesgue. Son posibles pruebas alternativas, por ej. usando la integral de Stieltjes. Ver Barry James
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 169
o sea, teniendo encuenta que los An forman una particion (y que por lo tanto
sus probabilidades suman 1):
!
X
X
nP (An ) 1 E[|X|]
nP (An )
n=1
n=1
nP (An ) < +
n=1
(E.3)
n=1
n=1
+N (P (BN 1 )P (BN ) = P (B0 )+P (B1 )+P (B2 )+. . .+P (BN 1 )N P (BN )
Es decir que:
N
X
n=1
n {P (Bn1 P (Bn )} =
N
1
X
P (Bn ) N P (BN )
(E.4)
n=0
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 170
En conscuencia, de (E.4) y (E.3), deducimos que la serie de terminos no
negativos:
X
P (BN )
n=1
n {P (Bn1 ) P (Bn )}
n=1
N
1
X
P (B0 )
n=1
Lema E.1.2 Sea X una variable aleatoria con esperanza finita, y pongamos
para cada n, An = { : n |X()| n}.Entonces:
X
1
K=
E[X 2 IAn ] < +
2
n
n=1
X
1
2
2
n
j
n=j
2
n
n(n 1)
n1 n
En consecuencia, sumando esta serie telescopica, obtenemos que:
X
X 1
X 1
1
1
1
1
= 2+
2+
n2
j
n2
j
n1 n
n=j
n=j+1
n=j+1
=
1
1
2
+ <
2
j
j
j
(E.5)
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 171
Volviendo a la prueba del lema, para cada j N , consideramos el evento:
Bj = { : j 1 < |X()| j}
y
B0 = { : X() = 0}
Entonces:
An =
n
[
Bj (union disjunta)
j=0
En consecuencia:
E[X 2 IAn ] =
n
X
E[X 2 IBj ]
j=0
y por lo tanto:
n
X
X
1
1 X
2
K=
E[X IAn ] =
E[X 2 IBj ]
2
2
n
n
n=1
n=1
j=0
Cambiando el orden de la suma (cosa que esta permitida, ya que es una serie
de terminos no negativos):
X
X
1
K=
E[X 2 IBj ]
2
n
j=1 n=j
X
2
j=1
E[X 2 IBj ]
j=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 172
E.1.3.
Teorema E.1.2 Sea (Xn )nN una sucesion de variables aleatorias independientes e identicamente distribuidas con E[|Xi |] < +. Sea = E[Xi ] entonces
X1 + X2 + . . . Xn c.s.
n
cuando n +.
La prueba se basa en el metodo de truncamiento. Definimos unas nuevas
variables aleatorias Yn por:
Xn si |Xn | n
Yn =
0 si |Xn | > n
Lema E.1.3 Supongamos que se cumplen las hipotesis del teorema E.1.2
Las variables truncadas Yn tienen las siguientes propiedades:
i)
limn+ E[Yn ] =
ii)
X
Var(Yn )
n=1
n2
< +
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 173
ii): Nuevamente, como las Xn son identicamente distribuidas
Var(Yn ) = Var(X1 I{|X1 |n} )
y la conclusion se sigue del lema E.1.2 pues X1 es integrable.
iii): Consideramos el evento
A = { : n0 = n0 () tal que n n0 : Xn () = Yn ()}
Queremos ver que P (A) = 1. Para ello consideramos los eventos,
An = { : Xn () 6= Yn ()}
Entonces:
X
n=1
P (An ) =
P {Xn 6= Yn } =
n=1
X
n=1
P {|Xn | > n} =
n=1
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 174
Y consideramos tambien el evento:
Y1 () + Y2 () + . . . + Yn ()
D= :
0 cuando n +
n
n
siendo k = E(Yk ) y = 1 +2 +...+
.
n
En virtud del lema E.1.3, ii), vemos que las variables truncadas Yn verifican las hipotesis de la primera ley fuerte de Kolmogorov (teorema E.1.1),
en consecuencia P (D) = 1. Ahora bien, en virtud del lema E.1.4:
1 + 2 + . . . + n
n
y en consecuencia: B D C. Pero como, P (B) = P (D) = 1, deducimos
que P (C) = 1.
Esto concluye la prueba de la segunda ley fuerte de Kolmogorov.
Bibliografa
[1] Durrett, Richard. Probability:theory and examples. Duxbury Press, Second edition, 1996.
[2] Feller, William. An introduction to probability theory and its applications, J. Wiley. 1978.
175
c
Notas de Probabilidad y Estadstica -
2006-2012
Pablo L. De Napoli 176
[11] Henryk Gzyl, Jose Luis Palacios. The Weierstrass Aproximation theorem and Large Desviations. American Mathematical Monthly, AugustSepetember (1997).
Libros de An
alisis Real:
[12] R. Wheeden, A. Zygmund. Measure and Integral. Marcel Dekker Inc.
1977.
[13] A.N. Kolmogorov, S.V. Fomn. Elementos de la teora de funciones y del
analisis funcional. Editorial MIR, Mosc
u, (1975).
Otra bibliografa consultada para la elaboraci
on de estas notas:
[14] R. Courant, F. John. Introduccion al calculo y al analisis matematico.
Ed. Limusa (1985).