Sie sind auf Seite 1von 76

CURSO INTRODUCTORIO DE

PROBABILIDAD

Raúl Jiménez y Haydée Lugo

Universidad Carlos III de Madrid

Septiembre 2009
2
Índice general

Prefacio 5

1. Conceptos básicos 7
1.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . 10
1.3. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. Espacios equiprobables . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Problemario I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. Variables aleatorias discretas 23


2.1. Definición y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Vectores aleatorios discretos . . . . . . . . . . . . . . . . . . . . 27
2.3. Independencia de variables aleatorias discretas . . . . . . . . . . . 29
2.4. Funciones de vectores aleatorios . . . . . . . . . . . . . . . . . . 31
2.5. Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . 35
2.7. Problemario II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3. Variables aleatorias continuas 41


3.1. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . 42
3.2. Esperanza y funciones de variables aleatorias . . . . . . . . . . . 46
3.3. Densidad conjunta y densidades marginales . . . . . . . . . . . . 47
3.4. Independencia de v.a. continuas . . . . . . . . . . . . . . . . . . 48
3.5. Cambio de variable y aplicaciones . . . . . . . . . . . . . . . . . 50
3.6. Propiedades de la esperanza . . . . . . . . . . . . . . . . . . . . 51
3.7. Densidad y esperanza condicional . . . . . . . . . . . . . . . . . 52
3.8. Extremos y sumas de variables independientes . . . . . . . . . . . 55
3.9. Problemario III . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3
4 ÍNDICE GENERAL

4. Convergencia y funciones generatrices 63


4.1. Desigualdad de Chebyshev y Ley de Grandes Números . . . . . . 63
4.2. Función generatriz de momentos . . . . . . . . . . . . . . . . . . 66
4.3. Función caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4. Convergencia en distribución y Teorema Central del Lı́mite . . . . 71
4.5. Problemario IV . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Prefacio

Estas notas no pretenden sustituir los excelentes libros de introducción a la


probabilidad que he usado para enseñar a estudiantes de ingenierı́a y matemáticas
de la Universidad Simón Bolı́var y a estudiantes de estadı́stica e ingenierı́a de la
Universidad Carlos III de Madrid. Ha sido un verdadero placer basar mis lecciones
en los libros de Grimmett y Welsh1 y Durrett2 . Estos libros son totalmente auto-
contenidos y un buen estudiante podrı́a prescindir de un profesor para aprender
lo que necesite. La intención de estas notas es distinta. Por un lado, proponen un
esquema eficiente para un curso de un trimestre o un cuatrimestre para estudiantes
que ya manejen el cálculo en varias variables. Por otro, ofrecen al estudiante y al
profesor una tabla de contenido ampliada que sirve de guı́a para un curso sin que
sustituya el material que se va a discutir en el pizarrón de clase o el que se debe
leer en los libros de referencia.

Las notas están organizadas en cuatro capı́tulos, cada uno puede cubrirse apro-
ximadamente en tres semanas de clases, con dos sesiones por semana (incluyendo
sesiones de prácticas). Si el curso es de un trimestre (12 semanas) las secciones
4.2 y 4.3 deberı́an omitirse y emplear el tiempo que se les hubiera dedicado para
evaluaciones y pequeños repasos. Si el curso es de un cuatrimestre (14 semanas)
se puede cubrir todo el contenido. Mi recomendación es hacer una evaluación
rápida (quiz) al finalizar el Captulo 1 y dos exámenes, uno sobre los dos prime-
ros capı́tulos y otro sobre los dos últimos. La experiencia me ha demostrado que
separar el tema discreto del continuo ayuda al desarrollo y evaluación del curso.

Los conceptos y resultados más importantes están resaltados en negro en el


texto, en forma de fórmulas numeradas o incluı́dos en definiciones y teoremas (ge-
neralmente con nombres) o en proposiciones numeradas. Las demostraciones no
están necesariamente incluı́das, aunque muchas se incluyen por o bien considerar
que ayudan al discurso de las notas o bien por que la versión que aquı́ se enseña
es mejor que la estándar en este tipo de cursos. La idea es que las notas sean un

5
6 ÍNDICE GENERAL

material ligero y manipulable, ası́ que se requiere que el profesor demuestre y que
el estudiante complete lo que hagan falta.
Me comprometo con los lectores en ir llenando poco a poco las notas con la
intención de hacerlas aún más autocontenidas, sin que esto modifique la inteción
original que tienen. En particular, espero pronto ofrecer soluciones y actualizacio-
nes de algunos ejercicios propuestos ası́ cómo ampliar la gama de ejemplos. Mi
premura en ofrecer esta vesión beta es para remplazar unas notas excesivamente
rudimentarias e incompletas que yo usaba para mis clases y que se han ido repro-
duciendo espontáneamente por algunos estudiantes. Estas notas tienen los tı́picos
errores de cut and paste que siempre corregı́a al pizarrón y me avergüenza que
sigan circulando por ahı́ con mi nombre. Las actualizaciones de las notas pueden
obtenerse en forma libre en mi página web www.est.uc3m.es/rjjimene

Raúl Jiménez
Madrid, 2009

Referencias

1. Grimmett, G. y D. J. A. Welsh. Probability: An introduction. Oxford Uni-


versity Press, Oxford (la primera impresión es de 1986 y existen diversan
reimpresiones con correcciones desde entonces hasta la del 2003).

2. Durrett R. Essentials of Probability. Duxbury Press, Belmont CA (1993,


ahora fuera de prensa para ser reemplazado por Elementary Probability for
Applications, versiones PDF se pueden encontrar en la página del autor
http://www.math.cornell.edu/ durrett)
Capı́tulo 1

Conceptos básicos

Muchos de los eventos que estamos acostumbrados a observar no pueden ser


predeterminados. Por ejemplo, ¿cuánto variará el euro respecto al dólar de hoy
a una semana?, ¿cuánto lloverá durante el próximo mes?. El escenario dispuesto
para observar lo que está por ocurrir se denomina experimento aleatorio. Los
juegos de azar nos brindan ejemplos clásicos de experimentos aleatorios. Aunque
los objetos que estudiemos con la teorı́a de probabilidades estén siempre aso-
ciados a un determinado experimento aleatorio, los presentamos en un contexto
matemático muy general y útil para la modelación de cualquier escenario.

1.1. Espacios de probabilidad


El conjunto de todos los posibles resultados de un experimento aleatorio es
llamado espacio muestral y comúnmente denotado por la letra Ω. Otros conjun-
tos de interés de posibles resultados son llamados eventos y denotados por letras
mayúsculas, generalmente las primeras del abecedario.
A lo largo de estas notas se hace uso intensivo de operaciones con conjuntos,
es por ello que conviene recordar algunos conceptos básicos, tales como:

Conjunto vacı́o.

Conjunto numerable, infinito numerable y no numerable.

Unión, intersección y diferencia de conjuntos.

Complemento y partición de un conjunto.

7
8 CAPÍTULO 1. CONCEPTOS BÁSICOS

Diagramas de Venn.

Leyes distributivas y leyes de Morgan.

Dado un experimento aleatorio, la clase F de todos los eventos o conjuntos de


interés debe tener ciertas propiedades (razonables):

(I) El espacio muestral es un conjunto de interés,

Ω∈F.

(II) Si un conjunto es de interés su complemento también lo es,

si A ∈ F entonces Ac ∈ F .

(III) La unión de una colección contable de eventos es un evento de interés,

si A1 , A2 , . . . son eventos de F entonces ∪n≥1 An ∈ F .

Una clase de eventos que satisface las tres propiedades anteriores se denomina
σ-álgebra. Es fácil comprobar que si F es una σ-álgebra entonces cumple pro-
piedades tales como:

(I’) 0/ ∈ F .

(II’) Si A, B ∈ F entonces A − B ∈ F .

(III’) Si A1 , A2 , . . . son eventos de F entonces ∩n≥1 An ∈ F .

Aún más general, se puede demostrar que F es cerrada bajo operaciones


numerables de conjuntos.
Uno de nuestros objetivos es medir el chance de que eventos asociados a un
experimento aleatorio ocurran: ¿cuál es el chance de que llueva más este otoño
que el pasado?, ¿cuál es el chance de que el euro retroceda ante el dólar?, ¿cuál es
el chance de ganar un juego de póker?.
Una medida de probabilidad es una función que asigna a cada evento el
chance o probabilidad que tiene de ocurrir al observar un experimento aleatorio.
Si asignamos a los eventos que no tienen chance de ocurrir probabilidad 0 y a los
eventos que tienen chance seguro de ocurrir probabilidad 1, entonces una medida
1.1. ESPACIOS DE PROBABILIDAD 9

de probabilidad es una función P : F → [0, 1] que debe satisfacer las siguientes


propiedades:

P(Ω) = 1, (1.1)

Si A1 , A2 , . . . son eventos disjuntos de F , es decir si Ai ∩ A j = 0/ para todo i 6= j,


entonces
P(∪n≥1 An ) = ∑ P(An ) (1.2)
n≥1

Esta última propiedad es conocida como σ-aditividad y es natural exigı́rsela a


casi cualquier medida: área, volúmen, etc. La idea subyacente es que toda medida
debe permitir medir por partes.
A partir de (1.1) y (1.2) las siguientes propiedades de las medidas de probabi-
lidad pueden (y deben) ser demostradas todas de manera directa:

/ =0
P1. P(0)

P2. Aditividad: Si A1 , A2 , . . . , An son eventos disjuntos, entonces


n
P(∪ni=1 Ai ) = ∑ P(Ai )
i=1

P3. P(Ac ) = 1 − P(A)

P4. P(B − A) = P(B) − P(B ∩ A)

P5. Si A ⊂ B entonces P(B − A) = P(B) − P(A)

P6. Monotonı́a: Si A ⊂ B entonces P(A) ≤ P(B)

P7. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

P8. Subaditividad: P(∪n≥1 An ) ≤ ∑ni=1 P(Ai )

Otras propiedades que se demuestran con un poco más de trabajo (el profesor
puede escoger un par de ellas, recomendamos P10 y P11) son:
10 CAPÍTULO 1. CONCEPTOS BÁSICOS

P9. Fórmula de inclusión exclusión:


n n
P(∪ni=1 Ai ) = ∑ P(Ai) − ∑ P(Ai ∩ A j )
i=1 i< j
n
+ ∑ P(Ai ∩ A j ∩ Ak )
i< j<k

− · · · + (−1)n+1 P(∩ni=1 Ai )

Note que el caso n = 2 corresponde a P7. El caso n = 3 se requiere para


resolver varios ejercicios.

P10. σ-subaditividad: Para cualquier sucesión de eventos, no necesariamente dis-


juntos,
P(∪n≥1 An ) ≤ ∑ P(An )
n≥1

P11. Continuidad por la izquierda: Si A1 , A2 , . . . es una sucesión creciente de


eventos, es decir, para cualquier n se verifica que An ⊂ An+1 , entonces

P(∪n≥1 An ) = lı́m P(An )


n

P12. Continuidad por la derecha: Si A1 , A2 , . . . es una sucesión decreciente de


eventos, es decir, para cualquier n se verifica que An+1 ⊂ An , entonces

P(∩n≥1 An ) = lı́m P(An )


n

Dado un espacio muestral Ω, una σ-álgebra F de subconjuntos de Ω y una


medida de probabilidad P : F → [0, 1], la terna (Ω, F , P) es llamada espacio de
probabilidad.

1.2. Probabilidad condicional


Información adicional, no contemplada, de un experimento puede modificar
el escenario de tal forma que la probabilidad que le hayamos dado a un evento
puede variar. Por ejemplo, la probabilidad que le hayamos dado a que el euro se
revalorizará frente al dólar durante la próxima semana cambiará si sabemos que
acaba de ocurrir una caı́da importante en Wall Street. En general, consideremos
1.2. PROBABILIDAD CONDICIONAL 11

que A y B son eventos que ocurren con probabilidad P(A) y P(B). Si sabemos
que B ha ocurrido la probabilidad de que A ocurra no tiene por que seguir siendo
P(A), ya que A ocurrirá sı́ y sólo sı́ A ∩ B ocurre. Lo anterior sugiere que, dado
que B ocurre, la probabilidad de A es proporcional a P(A ∩ B). Ya que, dado que B
ocurre, B en un evento seguro, la constante de proporcionalidad a la que hacemos
referencia debe ser 1/P(B). La siguiente definición pone orden al trabalenguas
anterior.
Definición (Probabilidad Condicional). Sean A, B eventos con P(B) > 0, en-
tonces la probabilidad condicional de A dado B se denota por P(A|B) y se define
por
P(A ∩ B)
P(A|B) = .
P(B)
Para cada evento A, P(A|B) es un número positivo, es decir, la probabilidad con-
dicional establece un correspondencia entre los eventos y los números reales po-
sitivos. Más especı́ficamente, la probabilidad condicional es una medida de pro-
babilidad.

Proposición 1. Sea B un evento con P(B) > 0, entonces

(i) Para todo evento A, 0 ≤ P(A|B) ≤ 1

(ii) P(Ω|B) = 1

(iii) Si A1 , A2 , . . . son eventos disjuntos entonces

P(∪n≥1 An |B) = ∑ P(An|B)


n≥1

Por la proposición anterior, todas las propiedades que satisfacen las medidas
probabilidad también las satisface la probabilidad condicional. Por ejemplo, la
probabilidad condicional es monótona, subaditiva, continua por la derecha y por
la izquierda.
La probabilidad condicional brinda una importante fórmula para el cálculo de
probabilidades, cuando se tiene una partición apropiada del espacio muestral. Una
partición de un conjunto A es una sucesión de eventos disjuntos B1 , B2 , . . . cuya
unión sea A.
12 CAPÍTULO 1. CONCEPTOS BÁSICOS

Fórmula de probabilidad total. Sea B1 , B2 , . . . una partición del espacio mues-


tral, Supongamos que P(Bi ) > 0 para i ≥ 1. Entonces, para cualquier evento A,

P(A) = ∑ P(A|Bi )P(Bi ). (1.3)


i≥1

La aplicación de esta fórmula se basa en la apropiada escogencia de la partición,


de manera que P(A|Bi ) sea sencillo de calcular. Comúnmente esta fórmula sim-
plifica engorrosos cálculos.
Ejemplo. Se tienen dos cajas. La primera tiene b1 bolas blancas y r1 rojas. La
segunda caja tiene b2 bolas blancas y r2 rojas. Si se pasa una bola al azar de la
primera caja a la segunda y luego se extrae un bola al azar de la segunda caja, use
la fórmula de probabilidad total para calcular la probabilidad de extraer una bola
blanca de la segunda caja.
Son comunes las situaciones en las que se tiene conocimiento preciso, o al
menos información estadı́stica, acerca de P(A|B) cuando en realidad se requiere
conocer P(B|A). La siguiente es una sencilla y poderosa fórmula, que relaciona
ambas probabilidades.
Fórmula de Bayes. Sean A y B eventos con probabilidad no nula, entonces

P(A|B)P(B)
P(B|A) = (1.4)
P(A)

Ejemplo. Continuando con el ejemplo anterior, use la fórmula de Bayes para cal-
cular la probabilidad de haber pasado una bola roja de la primera caja a la segunda
caja cuando la que se extrajo de la segunda caja fue blanca.
Otra fórmula de mucha utilidad para cálculo de probabilidades, cuando se con-
sideran experimentos secuenciales que son modelados a través de árboles de
decisión, es la llamada fórmula de multiplicación:
Fórmula de multiplicación. Sean A1 , A2 , . . . , An eventos con probabilidad no nu-
la. Entonces, para n ≥ 2,

P(∩ni=1 Ai ) = P(A1 )P(A2 |A1 ) · · · P(An | ∩n−1


i=1 Ai ) (1.5)
1.3. INDEPENDENCIA 13

1.3. Independencia
La noción de independencia en teorı́a de probabilidades está tomada de su
significado cotidiano. En general, decimos que un par es independiente cuando el
resultado de las acciones de uno no afecta en el resultado las acciones del otro.
En términos probabilı́sticos, diremos que dos eventos son independientes si la
ocurrencia de uno de ellos no afecta la probabilidad de ocurrecia del otro. Es
decir, A es independiente de B si

P(A|B) = P(A)

Para que la ecuación anterior esté bien definida, es necesario que P(B) > 0, en
cuyo caso, podemos reescribir la ecuación como

P(A ∩ B) = P(A)P(B)

De esta última ecuación podemos observar que:


La independencia es recı́proca, esto es, si A es independiente de B entonces
B es independiente de A.

La condición P(B) o P(A) > 0 no es requerida.


Ahora estamos en capacidad de definir formalmente la independencia e interpre-
tarla.
Independencia de dos eventos. Decimos que el par de eventos A, B son indepen-
dientes respecto a P si
P(A ∩ B) = P(A)P(B) (1.6)
¿Cómo generalizar la noción de independencia de una par de eventos a una
familia?. Pues igual que en el sentido cotidiano: Para que una familia sea inde-
pendiente cualquier subgrupo debe serlo, no basta que sean independientes por
pares o que lo sea un subgrupo en particular.
Independencia de una Familia de Eventos. Decimos que la familia de eventos
{Ai , i ∈ I} es independiente si para cualquier J ⊂ I

P(∩i∈J Ai ) = Πi∈J P(Ai ) (1.7)

Ejemplo. Considere Ω = {1, 2, 3, 4} y P({ω}) = 1/4 para todo ω ∈ Ω. Sean A =


{1, 2}, B = {1, 3} y C = {1, 4}. Note que la probabilidad de cada uno de estos
14 CAPÍTULO 1. CONCEPTOS BÁSICOS

eventos es 1/2 y por tanto cada par de eventos son independientes. Por ejemplo, A
y B son independientes ya que
P(A ∩ B) = 1/4 = P(A)P(B).
Sin embargo, P(A ∩ B ∩ C) = 1/4 6= P(A)P(B)P(C), y por tanto A, B y C no son
independientes.
Para determinar la no independencia (dependencia) de una familia de eventos
basta verificar que la ecuación (1.7) no se cumple para un subgrupo particular (pa-
ra algún J). Sin embargo, la independencia de una colección de eventos puede ser
una propiedad dura de comprobar. Por ejemplo, para verificar por definición la in-
dependencia de apenas 10 eventos habrı́a que verificar más de 1000 ecuaciones!.
Afortunadamente, consideraremos muchos casos en que la independencia de una
familia de eventos es una consecuencia directa de la manera en que son obser-
vados. El caso que queremos destacar trata de eventos asociados a repeticiones
independientes de experimentos aleatorios, tales como lanzamientos sucesivos
de un dado o una moneda. Si se tienen n experimentos independientes, en el senti-
do de que los resultados de unos no afectan los resultados de los otros, y A1 , A2 , . . .
son eventos asociados al primer experimento, al segundo, etc., entonces A1 , A2 , . . .
son independientes.
Los siguientes dos resultados conciernen con sucesiones de eventos asociados
a experimentos independientes.
Proposición 2. Si A es un evento con probabilidad no nula de que ocurra aso-
ciado a un experimento. Si repetimos el experimento infinitas veces, entonces A
ocurre alguna vez con probabilidad 1.

Para demostrar este resultado aplicamos varias propiedades que hemos apren-
dido. Llamando An el evento A ocurre en el nésimo experimento y p = P(An ),
usando P2, las leyes de Morgan, P12 y la independencia de A1 , A2 . . . , Am , obtene-
mos
P(A ocurre alguna vez) = P(∪n≥1 An )
= 1 − P ([∪n≥1 An ]c )
= 1 − P(∩n≥1 Acn )
= 1 − lı́m P(∩mn≥1 An )
c
m→∞
= 1 − lı́m (1 − p)m = 1
m→∞
1.4. ESPACIOS EQUIPROBABLES 15

Proposición 3. Sean A y B son eventos mutuamente excluyentes, asociados a un


experimento con probabilidad no nula de que ocurran. Entonces, si repetimos el
experimento infinitas veces, A ocurre antes que B con probabilidad

P(A)
P(A ocurra antes que B) = .
P(A) + P(B)

Para probar esta proposición observemos que

P(A ocurra antes que B) = ∑ P(A ocurre antes que B en el experimento k)


k≥1
= ∑ [P(ni A ni B ocurren)]k P(A)
k≥0
P(A)
=
1 − P(ni A ni B ocurren)
1 P(A)
= P(A) = .
P(A ∪ B) P(A) + P(B)

Una elegante aplicación de la conjunción de este resultado con la fórmula


de probabilidad total, que sugerimos que o bien el profesor o bien el estudiante
demuestre, determina que la probabilidad de ganar en el juego de dados es
 
8 3 3 4 4 5 5 244
+2 + + = = 0,493.
36 36 3 + 6 36 4 + 6 36 5 + 6 495

En el juego tiras los dados en una primera ronda. Si sale 7 o 11 ganas. Si sale 2,
3 o 12 pierdes. Si tiras 4, 5, 6, 8, 9 o 10 hay que seguir lanzando hasta que o bien
repitas el número que lanzaste en la primera ronda o bien salga un 7. En el primer
caso ganas, en el segundo pierdes.

1.4. Espacios equiprobables


En muchos experimentos aleatorios; por ejemplo, en la mayorı́a de los jue-
gos de azar; el cálculo de probabilidades puede reducirse a contar el número de
elementos de un conjunto.
Denotemos por |A| el número de elementos o cardinal del conjunto A. Si
Ω es finito y todos los resultados del experimento tienen igual probabilidad de
16 CAPÍTULO 1. CONCEPTOS BÁSICOS

ocurrencia decimos que el espacio es equiprobable. En ese caso, la probabilidad


de un resultado cualquiera del experimento debe ser 1/|Ω|, ya que P(Ω) = 1. Ası́,
la probabilidad de un evento A de un espacio equiprobable es

P(A) = |A|/|Ω|.

A continuación, vamos a presentar dos esquemas elementales de conteo.


Variaciones y Permutaciones. Sean E y F dos conjuntos finitos. Supongamos
sin pérdida de generalidad que E = {1, 2, . . . , p} y F = {1, 2, . . . , n}. Denotemos
p
por In el número de funciones inyectivas que van de E a F. Claramente, si p > n
p
entonces In = 0. Si p ≤ n, podemos construir una función inyectiva f : E → F
usando el siguiente esquema recursivo:
Empezamos seleccionando f (1) entre los n elementos pertenecientes a F. Una
vez escogido f (1) , existe n − 1 posibles escogencias para f (2), ya que f (2) debe
diferir de f (1) para que f sea inyectiva. Siguiendo este procedimiento, f (i) puede
ser escogido entre los n − (i − 1) elementos F − { f (1), . . . , f (i − 1)}. En total,
tenemos n(n − 1) . . . (n − p + 1) posibilidades para construir f .
En resumen, si p ≤ n, el número de inyecciones de E a F es

n!
Inp = n(n − 1) . . . (n − p + 1) = ,
(n − p)!
siendo n! el factorial de n, definido por

n! = 1 · 2 · 3 · · · n (1.8)

para n ≥ 1 y 0! = 1.
Varios problemas de conteo se reducen a calcular el número de funciones in-
yectivas entre dos conjuntos. Por ejemplo, ¿de cuántas maneras podemos colocar
p bolas enumeradas en n cajas?. Otro problema tı́pico es: ¿cuántos arreglos, o
conjuntos ordenados, pueden construirse extrayendo sin reposición p elementos
p
de un conjuntos con n elementos. La respuesta a ambas preguntas es In .
El caso especial Inn = Pn = n! es comunmente interpretado como el total de
permutaciones de n elementos, lo cual no es más que el número de funciones
biyectivas sobre un conjunto de n elementos.
1.4. ESPACIOS EQUIPROBABLES 17

Números Combinatorios. Sea F un conjunto con n elementos, a continuación


vamos a responder la pregunta de cuántos subconjuntos de F con p elementos
hay.
Ya que un arreglo de p elementos de F (x1 , x2 , ..., x p ) puede identificarse como
una función inyectiva f : {1, . . . , p} → F definida por f (i) = xi , el número de
p
arreglos o subconjuntos ordenados de F con p elementos es In . Ahora, las p!
permutaciones del arreglo (x1 , . . . , x p ) representan el mismo subconjunto de F.
En consecuencia, el número de subconjuntos diferentes de F con p elementos es
p
In dividido por el número p! de permutaciones de un conjunto con p elementos.
Ası́, si p ≤ n, el número de subconjuntos de F con p elementos es
 
n n!
= (1.9)
p (n − p)!p!

De la fórmula del binomio de Newton y de los cálculos anteriores podemos


deducir que el número de subconjuntos de un conjunto de n elementos es 2n , ya
que
n n  
n
∑ (número de subconjuntos con n elementos) = ∑ p = 2n. (1.10)
p=0 p=0

Una propiedad útil de los números combinatorios es


   
n n
= . (1.11)
p n− p

Otra, conocida como fórmula de Pascal, es


     
n n−1 n−1
= + . (1.12)
p p−1 p

Varios problemas clásicos del cálculo de probabilidades, que se reducen a con-


tar el número de elementos de un conjunto son versiones del siguiente problema
de muestreo sin reposición:
De una caja que contiene N1 bolas negras y N2 bolas rojas y escogemos aleato-
riamente n bolas (n ≤ N1 + N2 ) sin reposición. ¿Cuál es la probabilidad de escoger
exactamente k bolas negras? Si k es mayor que N1 o n, la probabilidad de escoger
k bolas negras es cero, ası́ que supondremos que 0 ≤ k ≤ mı́n(N1 , n). El conjunto
18 CAPÍTULO 1. CONCEPTOS BÁSICOS

Ω de todos los posibles resultados del experimento aleatorio es la familia de todos


los subconjuntos ω de n bolas de las N1 + N2 bolas de la caja. De manera que
 
N1 + N2
|Ω| =
n
Debemos contar los subconjuntos ω con k bolas negras y n − k bolas rojas. Para
formar tal conjunto debemos formar
  un conjunto de k bolas negras entre las N1
bolas negras. Sabemos que hay Nk1 posibilidades de hacer lo anterior. Para cada
subconjunto de k bolas negras, debemos asociar un subconjuntode n− k bolas
N2
rojas. Este conjunto lo formamos de entre las N2 bolas rojas y hay n−k maneras
de hacerlo. Ası́ que, si A es el evento que consiste en escoger k bolas negras y
n − k bolas rojas, de las N1 + N2 bolas que hay en la caja, entonces
  
N1 N2
|A| =
k n−k
Por lo tanto, la probabilidad de A es
  
N1 N2
k n−k
P(A) =   (1.13)
N1 +N2
n

1.5. Problemario I
1. Supongamos que Ω = A ∪ B y P(A ∩ B) = 0,2. Hallar:

a) El máximo valor posible para P(B), de tal manera que se cumpla


P(A) ≥ P(B).
b) P(Ac ), sabiendo que P(B) = 0,7
c) P(Ac ∩ Bc )

2. Dado que: Ω = A ∪ B ∪C, P(A) = P(B) = P(C) = p,


P(A ∩ B) = P(A ∩C) = P(B ∩C) = q y P(A ∩ B ∩C) = z . Hallar:

a) P(Ac ∩ Bc ∩C)
b) P((A ∩ B ∩C)c )
c) P(A ∪ (Bc ∩Cc ))
1.5. PROBLEMARIO I 19

d) P((A ∩ B)c ∪Cc )

3. Se sientan 4 personas, al azar, en 4 sillas que llevan sus nombres (una silla
con cada nombre). ¿Qué probabilidad hay de que alguna de las personas
quede en la silla con su nombre?

4. La siguiente tabla contiene las probabilidades correspondientes a las inter-


secciones de los eventos indicados:

B Bc
A 0.4 0.2
Ac 0.15 0.25

a) Hallar P(A | B)
b) Hallar P(B | A)
c) Hallar P(Ac | B)
d) Hallar P(Bc | A)

5. Si n personas se sientan al azar en una fila de 2n asientos, halle la probabi-


lidad de que no queden 2 personas en sillas contiguas.

6. En el lanzamiento de un par de dados, encuentre la probabilidad de que:

a) La suma de los dados sea 7


b) La diferencia entre las caras sea mayor que tres.

7. Se lanza una moneda 8 veces, hallar la probabilidad de que:

a) se obtengan exactamente 5 caras,


b) se obtengan a lo sumo 4 sellos.

8. Las barajas de poker constan de 52 cartas (no incluimos los comodines), dis-
tribuidas como sigue: se tienen 4 pintas: corazón (♥), diamante (♦), trébol
(♣) y pica (♠). De cada pinta hay 13 cartas denominadas 1,2,...,10, J, Q y
K. Se reparten al azar 5 cartas (una mano) a cada jugador. Hallar la proba-
bilidad de que en una mano el jugador I reciba:

a) ninguna pica,
b) al menos 2 picas,
20 CAPÍTULO 1. CONCEPTOS BÁSICOS

c) 3 cartas del mismo número (un trı́o) y otras dos cartas con números
distintos al del trı́o y distintos entre sı́. Por ejemplo,
{3♥, 3♠, 3♣, 5♣, Q♦} es una mano incluı́da en el evento que nos in-
teresa.
9. La urna I contiene r bolas rojas y b blancas. La urna II contiene, inicial-
mente, una bola roja y una blanca. Se toma una bola al azar de la urna I y
se pasa a la II, luego se extrae una bola al azar de la urna II y resulta ser
blanca. ¿Cúal es la probabilidad de que la bola pasada de la urna I a la II
haya sido blanca?
10. Las llamadas telefónicas a una empresa son recibidas por tres recepcionistas
A, B y C, de tal manera que de las 200 llamadas recibidas en un dı́a, 60
son atendidas por la recepcionista A, 80 por B y las restantes por C. La
recepcionista A se equivoca al pasar la llamada en un 2 % de las veces,
la recepcionista B en un 5 % y la C en un 3 %. Hallar la probabilidad de
que al pasar una llamada recibida en la empresa, ésta sea pasada al lugar
equivocado
11. Una urna contiene inicialmente r bolas rojas y b blancas. Se extraen 5 bolas,
una por una, al azar, sin remplazo.
a) Hallar la probabilidad de que la secuencia sea RBRBR (Primera Roja,
Segunda Blanca,...).
b) Hallar la probabilidad de que la secuencia sea RRRBB. Compare con
(a). Generalize.
c) Ahora se extraen al azar, una por una y sin remplazo, todas las bolas
de la urna. Diga porque todas las secuencias de extracción tienen la
misma probabilidad.
d) ¿Cuál es la probabilidad de que la última bola extraı́da sea roja?
12. Un virus peligroso está presente en el 0.01 % de la población nacional. Se
tiene una prueba clı́nica para detectar la presencia del virus, y esta prueba es
correcta en el 99 % de los casos (es decir, entre los portadores del virus, la
prueba dá positivo el 99 % de las veces y entre los no portadores dá negativo
el 99 % de las veces). Un individuo tomado al azar en la población es some-
tido a la prueba y el resultado de ésta es positivo. Al conocer el resultado de
la prueba, ¿cuál es la probabilidad de que este individuo sea realmente un
portador del virus?. Comente sobre el valor de esta probabilidad.
1.5. PROBLEMARIO I 21

13. Existen 2 caminos para ir de A hasta B, y 2 caminos para ir desde B a C.


Cada uno de los caminos tiene probabilidad p de estar bloqueado, inde-
pendientemente de los otros. Hallar la probabilidad de que haya un camino
abierto de A a B, dado que no hay camino de A a C.

14. Se recibe un lote de 1000 artefactos, de los cuales 60 están dañados. Para
decidir si aceptamos o no el lote se seleccionan 200 artefactos al azar, sin
remplazo, rechazando el lote si más de 2 están dañados. Hallar la probabili-
dad de aceptar el lote.

15. Consideremos una sucesión de experimentos independientes consistentes


en el lanzamiento de dos dados. En este juego se gana si la suma de los
dados es 7. Hallar:

a) la probabilidad de ganar por vez primera, en un intento posterior al


12do.
b) La probabilidad de haber ganado 2 veces en 20 intentos.
c) en 10 intentos, la probabilidad de haber ganado 3 ó más veces.

16. Una unidad de mantenimiento sabe que cada falla reportada tiene probabi-
lidad 0.15 de ser falsa alarma. Si la unidad acepta 25 solicitudes de man-
tenimiento por dı́a y sólo dispone del tiempo para atender 20 fallas reales,
determine: ¿Cuál es la probabilidad de que todas las fallas reales sean aten-
didas?

17. Un estanque contiene 500 peces de los cuales 300 están marcados. Un pes-
cador logra sacar 50 peces. Hallar la probabilidad de que:

a) 20 de los peces estén marcados,


b) ninguno de los peces esté marcado.

18. Un lector óptico falla en la lectura del código de barras, con una probabili-
dad de 0.01.

a) ¿Cuál es la probabilidad de que el lector falle solo una vez en las pri-
meras 10 lecturas?
b) ¿Cuál es la probabilidad de que el lector no falle en las primeras 20
lecturas dado que en las primeras 10 lecturas, el lector no falló.
22 CAPÍTULO 1. CONCEPTOS BÁSICOS

19. Un depósito guarda 1000 artı́culos, 100 de los cuales son defectuosos. Un
inspector toma uno de los artı́culos al azar, y si no es defectuoso lo devuelve
al lote. Sea N el número de inspecciones de objetos no defectuosos, que se
realizan antes de encontrar el primer objeto defectuoso. Calcular la proba-
bilidad de tener 25 ≤ N ≤ 60.

20. En un colegio de Artes están matriculados 300 hombres y 700 mujeres. Se


eligen 25 estudiantes al azar, hallar la probabilidad de que 15 ó más de los
elegidos sean mujeres si el muestreo se hace (a) con reemplazo y (b) sin
reemplazo.
Capı́tulo 2

Variables aleatorias discretas

Consideremos el lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6}, y supongamos


que apostamos al resultado de tal manera que nuestra ganancia es
−1 si el resultado es impar,
0 si el resultado es 2 o 4,
2,75 si el resultado es 6.
Se entiende que ganancias negativas son pérdidas positivas. Si el resultado es ω,
la ganancia puede expresarse como X(ω), donde X : Ω → R es la función definida
por
X(1) = X(3) = X(5) = −1
X(2) = X(4) = 0
X(6) = 2,75
X es un ejemplo de una variable aleatoria discreta, las cuales son nuestro actual
objeto de estudio.

2.1. Definición y ejemplos


Dado un espacio de probabilidad (Ω, F , P), una variable aleatoria discreta
es una función X : Ω → R tal que
1. Su conjunto de imágenes X(Ω) = {x ∈ R : X(ω) = x, para algún ω ∈ Ω} es
un conjunto numerable. Es decir, X(Ω) = {xi : i ∈ I}, para algún conjunto
(finito o infinito) de ı́ndices I ⊂ N.

23
24 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

2. Para todo x ∈ R se verifica

{ω ∈ Ω : X(ω) = x} ∈ F . (2.1)

La primera condición se refiere al hecho de que X toma solamente valores


en un conjunto numerable de R. La segunda condición puede parecer oscura al
primer vistazo. La idea es que podamos dar probabilidades de que la variable
tome cualquiera de sus posibles valores, pero esta probabilidad puede no estar
definida si no se satisface (2.1) para algún x (la probabilidad sólo tiene que estar
definida para los eventos pertenecientes a F ). Consideremos Ω = N y σ-álgebra
F formada por el vacı́o, los números pares positivos (Pares), los impares posi-
tivos (Impares) y N. Sea P : F → [0, 1] la medida de probabilidad definida por
P(Pares) = P(Impares) = 1/2 y X : Ω → R la función identidad X(ω) = ω. Note
que

{ω ∈ Ω : X(ω) = x} = {x} si x ∈ N
= 0/ en caso contrario

Ası́ que no podemos decir con que probabilidad la variable toma el valor 2 o 4,
sólo sabemos que es par con probabilidad 1/2 y un número natural con probabili-
dad 1. Como mencionamos, nos interesa la probabilidad de que la variable tome
cualquiera de sus posible valores. A eso apunta la siguiente definición.
Función de masa de probabilidad. La función de masa de probabilidad (fmp) de
la variable aleatoria discreta X es la función pX : R → [0, 1] definida por

pX (x) = P(X = x) = P({ω ∈ Ω : X(ω) = x})

Ya que P(X = x) es la probabilidad de que X tome el valor x, se tiene que

P(X = x) ≥ 0 para todo x ∈ R

P(X = x) = 0 para todo x ∈


/ X(Ω).
Además, y esta es otra importante propiedad de las funciones de masa de proba-
bilidad,
∑ P(X = x) = ∑ P(X = x) = P(Ω) = 1. (2.2)
x x∈X(Ω)

Esta propiedad caracteriza las funciones de masa de probabilidad de las variables


aleatorias discretas en el sentido siguiente:
2.1. DEFINICIÓN Y EJEMPLOS 25

Si A es un conjunto numerable de R y π : A → R satisface


π≥0 y ∑ π(x) = 1, (2.3)
x∈A

entonces π es la fmp de una variable aleatoria X asociada a un espacio de proba-


bilidades (Ω, F , P) tal que X(Ω) = A.
Otro concepto muy importante en teorı́a de probabilidades es el de función de
distribución de una variable aleatoria:
La función de distribución de una variable aleatoria X es la función FX : R →
[0, 1] definida por
FX (x) = P(X ≤ x). (2.4)
A partir de la función de distribución de una variable aleatoria discreta podemos
calcular su fmp y viceversa. Especı́ficamente,
FX (x) = ∑ P(X = xi) y P(X = x) = F(x) − lı́m F(x − ε)
xi ≤x ε→0+

En general, basta determinar una de estas dos funciones para calcular probabili-
dades de los eventos asociados a una variable aleatoria, que en general son del
tipo
P(X ∈ A) = P({ω ∈ Ω : X(w) ∈ A}) = ∑ P(X = xi )
xi ∈A

Si F es la función de distribución de una variable aleatoria escribimos X ∼ F


y si X y Y son variables aleatorias con la misma función de distribución decimos
que son igualmente distribuı́das y escribimos X ∼ Y . Veamos algunos ejemplos
clásicos:
Distribución Bernoulli. Decimos que X es una variable aleatoria con distribución
Bernoulli de parámetro p, y escribimos X ∼ Bernoulli(p), si
P(X = 1) = p, P(X = 0) = 1 − p, para algún p ∈ [0, 1].
En el argot, p se entiende como la probabilidad de éxito de un determinado suceso
en un experimento y q = 1 − p la del fracaso o éxito del complemento.
Distribución Binomial. Decimos que X tiene distribución Binomial con paráme-
tros n y p, X ∼ Bin(n, p), si
n
P(X = k) = pk qn−k , para k = 0, 1, . . . , n. (2.5)
k
26 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

Para demostrar que la función definida en (2.5) satisface (2.3) es necesario usar la
fórmula del binomio de Newton. Ası́,
n n
∑ pk qn−k = (p + q)n = 1
k=0 k

P(X = k) en (2.5) es la probabilidad de observar un total de k éxitos en n experi-


mentos independientes, cada uno con probabilidad p de que sea éxito.

Figura 2.1: Funciones de masa de probabilidad de Binomiales de parámetros n =


10 y p = 1/4 (gris), p = 1/2 (negro), p = 3/4 (blanco).

Distribución Geométrica. Decimos que la distribución de X es Geométrica con


parámetro p, X ∼ Geo(p), si

P(X = n) = qk−1 p, para n = 1, 2, 3, . . . . (2.6)

Note que
∞ ∞
1
∑ pqk−1 = p ∑ qk = p =1
k=1 k=0 1−q

La probabilidad (2.6) es la de requerir exactamente n repeticiones independientes


de un mismo experimento hasta observar el primer éxito. Igual que antes, p es la
probabilidad de éxito en un experimento y q = 1 − p.
2.2. VECTORES ALEATORIOS DISCRETOS 27

Distribución Hipergeométrica. X es una variable Hipergeométrica de paráme-


tros N, NA y n, con N > máx(NA , n), si
  
NA N−NA
k n−k
P(X = k) =   , para k = 0, 1, . . . , mı́n(NA , n) (2.7)
N
n

Para demostrar que esta es una función de masa de probabilidad, es necesario


hacer uso de (1.13). La probabilidad (2.7) es la de extraer k elementos de un
conjunto A ⊂ Ω, cuando se extraen aleatoriamente y sin reposicin n elementos de
Ω. Aquı́ |A| = NA y |Ω| = N.
Distribución de Poisson. X es Poisson de parámetro λ > 0, X ∼ Poisson(λ), si

1 k −λ
P(X = k) = λ e , para k = 0, 1, 2, . . . . (2.8)
k!
Haciendo uso del desarrollo en serie de Taylor de la función exponencial, es senci-
llo comprobar que la función definida en (2.8) satisface (2.3). Cuando n es grande
y p pequeño, haciendo λ = np, la aproximación
n 1 k −λ
pk qn−k ≈ λe
k k!
es buena. De manera que el modelo Poisson puede entenderse como un caso lı́mite
del Binomial, cuando el número de experimentos es grande y la probabilidad de
éxito de cada experimento es pequeña. Al final del curso formalizamos esta idea.

2.2. Vectores aleatorios discretos


Sean X e Y variables aleatorias discretas definidas sobre un mismo espacio mues-
tral. El vector aleatorio (X,Y ) toma valores en un subconjunto numerable de R2
y estamos interesados en la probabilidad de que el vector tome esos valores. La
función de masa de probabilidad conjunta de las variables X e Y es la función
pX,Y : R2 → [0, 1] definida por:

pX,Y (x, y) = P(X = x,Y = y)


= P({ω ∈ Ω : X(ω) = x} ∩ {ω ∈ Ω : Y (ω) = y}) (2.9)
28 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

0.3

0.25

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12 14 16 18

Figura 2.2: Funciones de masa de probabilidad de variables Poisson de parámetros


λ = 2 (blanco) y λ = 5 (negro).

Similar al caso univariante, si x ∈


/ X(Ω) o y ∈
/ Y (Ω) entonces P(X = x,Y = y) = 0,
y
∑ ∑ P(X = x,Y = y) = 1.
x y

Las funciones de masa de probabilidad P(X = x) y P(Y = y) las podemos obtener


a partir de la función de masa de probabilidad conjunta marginalizando de manera
adecuada. Para ello, note que Ω = ∪x {ω : X(ω) = x} = ∪y {ω : Y (ω) = y}. Usando
la aditividad de la medida de probabilidad
P(X = x) = P({ω : X(ω) = x})
= P({ω : X(ω) = x} ∩ (∪y {ω : Y (ω) = y}))
= ∑ P({ω : X(ω) = x} ∩ {ω : Y (ω) = y})
y
= ∑ P(X = x,Y = y)
y

Cambiando X por Y en los cáculos anteriores obtenemos la fmp de Y a partir de


la conjunta,
P(Y = y) = ∑ P(X = x,Y = y)
x

En este contexto las funciones P(X = x) y P(Y = y) son llamadas marginales de


X y Y respectivamente.
2.3. INDEPENDENCIA DE VARIABLES ALEATORIAS DISCRETAS 29

Ejemplo. Sea X una variable que toman valores 1, 2, 3 y Y una que toma valores
1, 2, 3, 4. Suponga que la probabilidad de que el par (X,Y ) tome el valor (x, y)
viene dada por la entrada x, y de la siguiente tabla.
1 2 3 4
1 0,10 0,05 0,05 0,00
2 0,15 0,10 0,05 0,00
3 0,20 0,15 0,10 0,05

Entonces la marginal de X se obtiene sumando las columnas y la de Y las filas.


Cuando X,Y son discretas, la función de probabilidad condicional de X da-
do Y = y se define por la probabilidad condicional
P(X = x,Y = y)
P(X = x|Y = y) = .
P(Y = y)
De esta forma, las probabilidades condicionales del tipo P(X ∈ A|Y = y) se cal-
culan usando la siguiente identidad:
P(X ∈ A|Y = y) = ∑ P(X = x|Y = y)
x∈A

Ejemplo. Siguiendo con el ejemplo anterior,


P(X > 1|Y = 1) = 0, 35 y P(X > 1|Y = 2) = 0,25

2.3. Independencia de variables aleatorias discretas


Recordemos que dos eventos A y B son independientes si
P(A ∩ B) = P(A)P(B)
Hablaremos de independencia de variables si una toma valores independiente de
los valores que tome la otra. En otras palabras, las variables discretas X e Y son
independientes si los eventos
{ω ∈ Ω : X(ω) = x} y {ω ∈ Ω : Y (ω) = y}
son independientes para todo x, y ∈ R. Es decir, X y Y son independientes si la
función de masa de probabilidad conjunta es el producto de las marginales,
P(X = x,Y = y) = P(X = x)P(Y = y) para todo x, y ∈ R
30 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

Observación: X,Y son independientes sı́ y sólamente sı́ existen funciones f , g :


R → R tal que

PX,Y (x, y) = P(X = x,Y = y) = f (x)g(y) para todo x, y ∈ R

aún cuando f , g no sean las marginales de las variables en cuestión.


Ejemplo. Sean X,Y variables aleatorias con función de masa conjunta definida
por
1 x y −(λ+µ)
P(X = x,Y = y) = λµe x, y = 0, 1, . . .
x!y!

Factorizando tenemos que

λx
 y
 
µ −(λ+µ)
P(X = x,Y = y) = e
x! y!
= f (x)g(y),

con f (x) = λx /x! y g(y) = µy e−(λ+µ) /y!, de manera que X e Y son independientes.
Sin embargo, las funciones f y g no son funciones de masa de probabilidad. De
hecho, las marginales de X,Y son

1 k −λ 1
P(X = k) = λe y P(Y = k) = µk e−µ para k = 0, 1, . . .
k! k!

Es conveniente extender el concepto al caso multivariado, pero primero intro-


duciremos una práctica notación que es un estándard en teorı́a de probabilidades:
Para X1 , . . . , Xn : Ω → R y A1 , . . . , An ⊂ R escribimos

{X1 ∈ A1 , . . . , Xn ∈ An } = ∩ni=1 {ω ∈ Ω : Xi (ω) ∈ Ai }

Definición (independencia de variables aleatorias). Las variables aleatorias X1 , . . . , Xn


son independientes si para cualquier sucesión de intervalos A1 , . . . , An ⊂ R se cum-
ple
P(X1 ∈ A1 , . . . , Xn ∈ An ) = P(X1 ∈ A1 ) · · · P(Xn ∈ An )
2.4. FUNCIONES DE VECTORES ALEATORIOS 31

2.4. Funciones de vectores aleatorios


Muchas veces estamos interesados en una función de un vector aleatorio. Es
común observar n variables y que nos interesen los valores extremos (el más pe-
queño y el más grande entre todos los valores observados). También es común
estar interesados en el promedio. En general, dado un conjunto de n variables
aleatorias X1 , X2 , . . . , Xn y una función g : Rn → R, nos puede interesar calcu-
lar la función de masa de probabilidad de la variable aleatoria definida por U =
g(X1 , X2 , . . . , Xn ).
Distribución del mı́nimo. Sean X1 , X2 , . . . , Xn variables aleatorias y denotemos
por Un el mńimo de ellas, es decir

Un = mı́n{X1 , X2 , . . . , Xn }.

Es fácil comprobar que

{Un > k} = {X1 > k, X2 > k, . . . , Xn > k}

y en consecuencia, si X1 , X2 , . . . , Xn son independientes se tiene

P(Un > k) = P(X1 > k)P(X2 > k) . . . P(Xn > k) (2.10)

Si X1 , X2 , . . . , Xn son variables independientes e idénticamente distribuı́das (i.i.d.),


entonces (2.10) tiene la forma

P(Un > k) = [P(X1 > k)]n (2.11)

Por lo tanto, la fmp de Un la podemos escribir como

P(Un = k) = P(Un > k − 1) − P(Un > k)


= [P(X1 > k − 1)]n − [P(X1 > k)]n (2.12)

Ejemplo. Sean X1 , X2 , . . . , Xn variables i.i.d geométricas de parámetro p = 1 − q


(Xi ∼ Geo(p) para 1 ≤ i ≤ n). En este caso

P(Xi > k) = ∑ pq j−1 = qk , para k = 1, 2, 3, . . .
j=k+1

Sustituyendo en (2.12) se tiene que

P(mı́n{X1 , X2 , . . . , Xn } = k) = [qk−1 ]n − [qk ]n = [qn ]k−1 (1 − qn ).


32 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

En decir, el mı́nimo de variables i.i.d, con distribución geométrica de parametro p


es también una variable geométrica, pero de parámetro 1 − qn = 1 − (1 − p)n .
Distribución del máximo. Consideremos ahora el máximo

Vn = máx{X1 , X2 , . . . , Xn }

de n variables aleatorias. Note que

{Vn ≤ k} = {X1 ≤ k, X2 ≤ k, . . . , Xn ≤ k}

Si las variables son independientes se tiene entonces que

FVn (k) = P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . . P(Xn ≤ k)

y si son i.i.d.
FVn (k) = [P(X1 ≤ k)]n . (2.13)

Ejemplo. Continuando con el ejemplo en el que X1 , X2 , . . . , Xn son i.i.d, geométri-


cas de parámetro p, la función de distribución del máximo Vn = máx{X1 , X2 , . . . , Xn }
es
FVn (k) = [1 − P(X1 > k)]n = (1 − qk )n para k = 1, 2, . . .

Suma de variables aleatorias. Consideremos X,Y variables aleatorias discretas


y Z = X +Y . Claramente Z es discreta y toma el valor z sı́ y solamente sı́ cuando
X toma el valor x, Y toma el valor z − x. Ası́ que

P(Z = z) = P(∪x {X = x,Y = z − x})


= ∑ P(X = x,Y = z − x)
x

Fórmula de convolución. Si X,Y son variables aleatorias discretas e indepen-


dientes entonces Z = X +Y tiene fmp

P(Z = z) = ∑ P(X = x)P(Y = z − x)


x

En el caso particular en que X,Y son no negativas, P(X = x) = 0 si x < 0 y P(Y =


z − x) = 0 si x > z. En ese caso,
z
P(X +Y = z) = ∑ P(X = x)P(Y = z − x)
x=0
2.5. ESPERANZA 33

y decimos que la fmp de X +Y es la convolución de las funciones de probabilidad


de X y Y .
Ejemplo. Sean X,Y v.a. independientes con distribución de Poisson de parámetros
λ y µ respectivamente, Usando la fórmula de convolución

z   
1 x −λ 1
P(X +Y = z) = ∑ λe µz−x e−µ
x=0 x! (z − x)!
1
= (λ + µ)z e−(λ+µ)
z!

Es decir, si X ∼ Poisson(λ) y Y ∼ Poisson(µ) son independientes entonces la suma


X +Y ∼ Poisson(λ + µ)

2.5. Esperanza
Consideremos un dado justo. Si este es lanzado un número grande de veces,
cada posible resultado aparecerá alrededor de un sexto de las veces y el promedio
del número observado será aproximadamente

1(1/6) + 2(1/6) + . . . + 6(1/6) = 3, 5

El concepto en su forma más general lleva a la siguiente definición


Definición Sea X es una variable aleatoria discreta. La esperanza de X, denotada
por E(X) y también llamada valor esperado de X, es el número definido por

E[X] = ∑ x P(X = x)
x

siempre y cuando la serie converja.


Teorema de transferencia. Si X es una variable discreta y g : R → R entonces la
esperanza de Y = g(X) es

E[Y ] = E[g(X)] = ∑ g(x)P(X = x)


x
34 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

Prueba

E[Y ] = ∑ y P(Y = y)
y
" #
= ∑y ∑ P(X = x)
y {x:g(x)=y}
= ∑ ∑ y P(X = x)
y {x:g(x)=y}

= ∑ g(x)P(X = x)
x

Otra importante valor asociado a una variable X es su varianza Var(X), la cual


es una medida de dispersión de la variable en torno a su esperanza. Formalmente,
la varianza de una variable aleatoria X se define como el valor esperado de la
variable (X − µ)2 , siendo µ la esperanza de X. Es decir,

Var(X) = E([X − µ]2 )


= ∑(x − µ)2 P(X = x)
x
(2.14)

Proposición 4. Var(X) = E[X 2 ] − (E[X])2

Prueba

Var(X) = E([X − µ]2 )


= ∑(x − µ)2 P(X = x)
x
= ∑(x2 − 2xµ + µ2)P(X = x)
x
= ∑ x2P(X = x) − 2µ ∑ xP(X = x) + µ2 ∑ P(X = x)
x x x
2 2 2
= E[X ] − 2µ + µ
= E[X 2 ] − µ2
= E[X 2 ] − (E[X])2

El Teorema de transferencia anterior puede extenderse al caso multivariado de


la siguiente manera:
2.6. ESPERANZA CONDICIONAL 35

Sean X,Y variables discretas y g : R2 → R entonces

E[g(X,Y )] = ∑ ∑ g(x, y)P(X = x,Y = y) (2.15)


x y

Usando (2.15) podemos introducir un importante indicador del grado de de-


pendencia lineal entre dos variables aleatorias: La covarianza entre las variables
X,Y es

Cov(X,Y ) = E[(X − µX )(Y − µY )] siendo µX = E(X) y µY = E(Y ).

Otros resultados importantes que podemos demostrar de forma sencilla con la


fórmula de tranferencia (2.15) son:

1. Linealidad del valor esperado: Si Z = g(X,Y ) = aX + bY , con a, b ∈ R,


entonces
E(Z) = E(aX + bY ) = aE(X) + bE(Y )

2. Fórmula para la covarianza: Cov(X,Y ) = E(XY ) − E(X)E(Y )

3. Varianza de combinaciones lineales: Para todo a, b ∈ R,

Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X,Y ).

En particular, Var(aX + b) = a2Var(X).

4. Esperanza del producto y varianza de la suma de independientes: Si


X,Y son independientes entonces

E(XY ) = E(X)E(Y )
Var(X +Y ) = Var(X) +Var(Y )

2.6. Esperanza Condicional


Sea X una variable aleatoria discreta y B un evento asociados al mismo espacio
de probabilidad. Supongamos que P(B) > 0. La Esperanza Condicional de X
dado el evento B, la cual denotaremos por E(X|B), es el valor esperado asociado
a la función de masa de probabilidad condicional
P({ω : X(ω) = x} ∩ B)
P(X = x|B) = .
P(B)
36 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

Esto es,
E[X|B] = ∑ x P(X = x|B)
x

El siguiente resultado es un versión de la fórmula de probabilidad total (1.3)


para valores esperados y de similar utilidad.
Fórmula de particionamiento. Si X es una v.a. discreta y B1 , B2 , . . . son una
partición del espacio muestral, con P(Bi ) > 0 para cada i, entonces

E[X] = ∑ E[X|Bi ]P(Bi )


i

Prueba de la fórmula

E[X] = ∑ E[X|Bi]P(Bi)
i≥1
 
= ∑ ∑ x P(X = x|B) P(Bi )
i≥1 x
= ∑ ∑ x P({X = x} ∩ Bi)
i≥1 x
= ∑ x P({X = x} ∩ (∪i≥1Bi))
x
= ∑ x P(X = x)
x

Ejemplo. Una moneda es lanzada repetidamente. Sea p la probabilidad de obtener


cara en cada lanzamiento, con 0 < p = 1 − q < 1. Vamos a calcular la longitud
esperada de la racha inicial (i.e. el número de resultados iguales y consecutivos al
primero).
Sea H el evento el primer lanzamiento es cara y H c el evento el primer lanza-
miento es sello. El par H, H c forma una partición del espacio muestral. Si X es la
longitud de la racha inicial, es fácil verificar que

P(X = k|H) = pk−1 q para k = 1, 2, . . .

ya que si H ocurre entonces X = k ocurre sı́ y sólo sı́ el primer lanzamiento es


seguido por exactamente k − 1 caras y después un sello. Similarmente,

P(X = k|H c ) = qk−1 p para k = 1, 2, . . .


2.7. PROBLEMARIO II 37

Es decir, las distribuciones condicionales son geométricas, ası́ que


1 1
E[X|H] = y E[X|H c ] =
q p
Usando la fórmula de particionamiento obtenemos
1 1 1
E[X] = E[X|H]P(H) + E[X|H c ]P(H c ) = p + q = −2
q p pq

2.7. Problemario II
1. Calcule e interprete el valor esperado de X cuando tiene distribución:

binomial de parámetros n y p
geométrica de parámetro p
hipergeométrica
Poisson de parámetro λ

2. Calcular la varianza de X cuando tiene distribución:

binomial de parámetros n y p
geométrica de parámetro p
Poisson de parámetro λ

3. Si X se distribuye Poisson de parámetro λ, pruebe que

E[X(X − 1)(X − 2) . . . (X − k)] = λk+1

4. Si X tiene distribución geométrica, pruebe la propiedad de pérdida de me-


moria

P(X > m + n|X > m) = P(X > n)

5. Sea N una v.a. a valores enteros no negativos. Verifique que

E[N] = ∑ P(N > k) (2.16)


k≥0
38 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

6. Un dado tiene dos cara azules, dos rojas y dos verdes. Se lanza repetidamen-
te. Encuentre la probabilidad de que no todos los colores aparezcan en los
primeros k lanzamientos. Deduzca que si N es la v.a. que toma el valor n si
el tercer color aparece en el n-ésimo lanzamiento por primera vez, entonces
E[N] = 11/2. Sugerencia, use la fórmula (2.16) y la fórmula de inclusión
exclusión para la unión de tres eventos.

7. Suponga que P(X = i,Y = j) = λ1+i+ j , para i, j = 0, 1, 2. Pruebe que

E[XY ] = λ3 + 4λ4 + 4λ5

8. Sean X,Y v.a. i.i.d. con P(X = k) = pqk , k ≥ 0. Demuestre que para k =
0, . . . n
1
P(X = k|X +Y = n) =
n+1
Sugerencia: Use la fórmula de Bayes y la fórmula de convolución.

9. Existen c diferentes tipos de cromos y cada uno tiene el mismo chance de ser
adquirido en una compra (los cromos se venden por separado en un sobre).
Sea Yi el número adicional de cromos coleccionados después de obtener i
tipos de cromos antes de obtener un nuevo tipo. Demuestre que Yi tiene dis-
tribución geométrica con parámetro (c − i)/c. Calcule el número esperado
de cromos que necesitas adquirir hasta completar la colección.

10. Sean X ∼Geo(p) y , Y ∼Geo(r) variables independientes. Pruebe que mı́n{X,Y }


tiene distribución geométrica con parámetro p + r − pr.

11. Sean X,Y variables aleatorias independientes con distribución de Poisson


de parámetro λ y µ respectivamente. Use el hecho de que X +Y es Poisson
para calcular P(X = k|X +Y = n) para k = 0, . . . , n. Demuestre que

E[X|X +Y = n] = nλ/(λ + µ)

Sugerencia: Use la fórmula de Bayes para la primera parte.

12. Sea N el número de lanzamientos de una moneda hasta que se repita el


resultado del primer lanzamiento. Condicionando en el primer lanzamiento,
calcule E[N].
2.7. PROBLEMARIO II 39

13. La función generatriz de probabilidades de una variable aleatoria discreta X


está definida por la serie de potencias

g(s) = E sX = ∑ sk P(X = k),
 
|s| < 1.
k=0

Calcule la funciones generatrices de probabilidades de las siguientes distri-


buciones Bernoulli, Binomial y Poisson.

14. A cada fmp le corresponde una única función generatriz de probabilidades.


Use la identificación de las funciones generatrices para probar los siguientes
resultados:

Sumas de Bernoulli i.i.d es Binomial.


La suma de Binomiales independientes con el mismo parámetros p es
también binomial.
Sumas de Poisson independientes es Poisson.

15. Considere que el número de veces que una moneda es lanzada es una v.a.
Poisson. Sea X el número de caras y Y el número de sellos. Verifique que
X,Y son independientes. Sugerencia: Use la fórmula de particionamiento
para calcular la masa de probabilidad de X.

16. Se lanza un dado n veces. Sea Un el mı́nimo valor observado y Vn el máximo


valor observado. Calcular P(Un = 1), P(Vn = 6).

17. Una lı́nea aérea cubre la ruta CCS-MAD, con un avión que tiene 280 plazas.
La polı́tica de la aerolı́nea es aceptar 300 reservaciones para este vuelo.
Se supone que todos los pasajeros actúan en forma independiente y que la
probabilidad de que un pasajero se presente es p. El precio del pasaje es G,
pero si un pasajero se presenta y no puede ser embarcado, se le reintegra su
dinero más una compensación de H.

Calcule la esperanza del número de pasajeros que se presentan a abor-


dar.
De una expresión para la esperanza del número de pasajeros que acu-
den y no pueden ser embarcados.
De una expresión para la ganancia esperada por la aereolı́nea.
40 CAPÍTULO 2. VARIABLES ALEATORIAS DISCRETAS

18. El costo de producción en euros de cierta máquina que se fabrica por encar-
go es de 4300 por máquina, cuando se producen menos de cinco unidades.
Si se producen de cinco a nueve unidades el costo por máquina baja a 4000.
Y cuando se producen diez o más unidades el costo por unidad baja a 3500.
La demanda de estas máquinas fluctúa según una distribución de Poisson
con valor esperado igual a 8. Hallar el precio de venta unitario, para que la
ganancia neta esperada por máquina sea de 5000. Si vendemos a ese precio,
¿cuál es la probabilidad de que la empresa pierda dinero?
Capı́tulo 3

Variables aleatorias continuas

La condición de que la variable tome valores exclusivamente en un conjunto


numerable de R puede resultar muy restrictiva a la hora de modelar determina-
dos fenómenos de naturaleza continua (tiempos, precios, volúmenes, pesos). Es
por ello que requerimos generalizar la definición de variable aleatoria vista hasta
ahora.
Una variable aleatoria (a veces va, por comodidad tipográfica) X sobre un
espacio de probabilidades (Ω, F , P) es una función X : Ω → R que cumple

{ω ∈ Ω : X(ω) ≤ x} ∈ F para todo x ∈ R. (3.1)

La razón por la cual requerimos que X satisfaga (3.1) es la misma por la cual re-
querimos la condición (2.1) cuando introducimos el concepto de variables aleato-
rias discretas. Tal y como ya hemos mencionado, estamos interesados en calcular
probabilidades del tipo P(X ∈ A), con A ⊂ R, las cuales están definidas si

{X ∈ A} = {ω ∈ Ω : X(ω) ∈ A} ∈ F (3.2)

La condición (3.1) asegura que (3.2) se satisface para cualquier A ⊂ R que puedan
escribirse como un resultado de operaciones numerables (finitas o infinitas) de
intervalos. Esta es una importante colección de conjuntos de números reales que
se conoce como la σ-álgebra de Borel. En todo lo sucesivo se sobreentiende que
si A ⊂ R entonces A pertenece a la σ-álgebra de Borel. Elementos simples de la
σ-álgebra de Borel son los intervalos (cerrados, abiertos, finitos, infinitos, etc) y
los conjuntos numerables.
El concepto de función de distribución que introducimos en (2.4) vale para

41
42 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

cualquier variable aleatoria, sea discreta o no. La función de distribución

FX (x) = P(X ≤ x)

de una variable X tiene varias propiedades elementales que son consecuencia de


propiedades que hemos visto de la medida de probabilidad P y que resumimos en
la siguiente proposición.
Proposición 5. Sea F la función de distribución de una variable aleatoria, enton-
ces
1. F es no decreciente.

2. F(x) → 0 cuando x → −∞ y F(x) → 1 cuando x → +∞.

3. F es continua por la derecha.


Usando la proposición anterior, podemos establecer algunas fórmulas útiles
para el cálculo de probabilidades de eventos asociados a una variable aleatoria a
partir de su función de distribución. En particular se tiene que

P(a < X ≤ b) = FX (b) − FX (a) para todo a < b.

Otra identidad que vale la pena reseñar es

P(X = x) = FX (x) − lı́m FX (y) para todo x ∈ R. (3.3)


y↑x

Es decir, P(X = x) es el salto de la discontinuidad de F en x, si es que la hubiera.

3.1. Variables aleatorias continuas


Aparte de la caracterı́sticas comunes que puedan tener distintas funciones de
distribución, algunas ya mencionadas en la Proposición 5, a distintas distribu-
ciones le pueden corresponder distintos tipos de curva. Hay dos clases que son
particularmente importantes:
Funciones de distribución escalonadas, correspondientes a variables aleato-
rias discretas. Note que si X es discreta a valores en {x1 , x2 , . . .} entonces
para cualquier xi ≤ x < xi+1 , la función es constante. De hecho,

FX (x) = FX (xi ).
3.1. VARIABLES ALEATORIAS CONTINUAS 43

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
1 2 3 4 5 6 −4 −3 −2 −1 0 1 2 3 4

Figura 3.1: Funciones de distribución de probabilidad de variables aleatorias dis-


creta (izquierda) y continua (derecha).

Funciones con una curva suave, asociadas a variables aleatorias que llama-
remos continuas y que definimos a continuación.
Definición. Una variable aleatoria es continua si su función de distribución F
puede representarse como
Z x
F(x) = f (u)du para todo x ∈ R,
−∞

para alguna función f que satisfaga


1. f (x) ≥ 0, para todo x ∈ R,
R∞
2. −∞ f (x)dx = 1,
En ese caso decimos que X tiene densidad de probabilidad f .
Para interpretar la función de densidad de probabilidad (fdp) de una variable
aleatoria continua, observe que

P(x − δ/2 < X ≤ x + δ/2) = FX (x + δ/2) − FX (x − δ/2)


Z x+δ/2
= fX (u)du ≈ f (x)δ,
x−δ/2

ası́ que f (x) está relacionado con la probabilidad de que la variable tome
un valor cercano a x. Sin embargo, es importante recalcar que f (x) no es una
44 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

probabilidad, en particular no tiene por que ser menor o igual a 1. Note además
que, acorde a la definición dada, la función de distribución de una va continua es
una función continua. Es decir, si X es continua, para todo x ∈ R,
lı́m F(y) = F(x).
y→x
Sustituyendo en (3.3), demostramos que si X es continua
P(X = x) = 0 para todo x ∈ R
y en consecuencia, para todo a < b
P(a < X ≤ b) = P(a ≤ X ≤ b) = P(a ≤ X < b) = P(a < X < b).
Esta es una significativa diferencia con la variables aleatorias discretas. Veamos
algunos ejemplos de fdp comunes en el modelaje.
Distribución Uniforme. Decimos que X se distribuye uniformemente sobre el
intervalo (a, b), y escribimos X ∼ U(a, b), si tiene fdp

 1 si x ∈ (a, b)
f (x) = b − a
0 en caso contrario

Distribución Exponencial y Gamma. Decimos que X tiene distribución expo-


nencial de parámetro β > 0, y escribimos X ∼ exp(β), si tiene fdp
(
e−βx si x > 0
f (x) =
0 en caso contrario
Este es un importante caso particular (α = 1)de la distribución gamma. En gene-
ral, decimos que X tiene distribución gamma de parámetros α, β > 0, y escribimos
X ∼ Γ(α, β), si tiene fdp
 α
 β xα−1 e−βx si x > 0
f (x) = Γ(α)
0 en caso contrario

R ∞ α−1 −x
siendo Γ(α) = 0 x e la función gamma, con Γ(n) = n!, para cualquier n ∈ N.
Distribución Normal. Decimos que X tiene distribución normal, o Gaussiana, de
parámetros µ y σ2 > 0, y escribimos X ∼ N(µ, σ2 ), si tiene fdp
(x − µ)2
 
1
f (x) = √ exp − para todo x ∈ R
2πσ2 2σ2
3.1. VARIABLES ALEATORIAS CONTINUAS 45

Figura 3.2: Funciones de densidad de probabilidad de gammas con parámetros


(α, β) = (1,1) (sólida gruesa), (1,2) (pespunteada fina), (2, 1) (pespunteada grue-
sa), (2, 2) (sólida fina). El valor que maximiza la función se desplaza con α y la
cola de la función decae con β.

Figura 3.3: Funciones de densidad de probabilidad de variables Normales. La fun-


ción es simétrica respecto de µ y el máximo de la función densidad decrece con
σ
46 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

3.2. Esperanza y funciones de variables aleatorias


El valor esperado de una variable aleatoria continua X viene definido por
Z ∞
E[X] = x fX (x) dx,
−∞

siempre y cuando la integral esté bien definida. Esto es, si


Z ∞
|x| fX (x) dx < ∞.
−∞

El valor esperado de X puede interpretarse como el centro de gravedad del eje


x cuando se han distribuı́do pesos según fX . El concepto es el mismo que el del
caso discreto, sólo que hemos sustituı́do funciones de masa por densidades de
probabilidad y sumatorias por integrales. Ası́ que es natural que las propiedades
del valor esperado de variables continuas sean las mismas que las de las discretas.
Después de todo la integral no es más que el lı́mite de sumatorias.
Si X es una variable aleatoria continua, cualquier función de X es una variable
aleatoria pero puede ser continua o no. Por ejemplo, Y = X 2 también será continua
si X lo es pero Y = signo(X) es una variable discreta. Sin importar cual sea el caso,
el valor esperado de g(X) puede calcularse mediante la fórmula de transferencia
Z ∞
E[g(X)] = g(x) fX (x) dx, (3.4)
−∞

similar a la que demostramos para variables discretas (Teorema de transferencia


del Capı́tulo 2). Aunque su demostración general usa herramientas avanzadas de
análisis matemático, podemos dar una prueba sencilla cuando g es una función
invertible y derivable. En ese caso se tiene
Z g−1 (b)
dg−1 (y)
Z b
fX (x)dx = fX (g−1 (y)) dy
g−1 (a) a dy

Ası́ que, para todo a < b,


Z b −1
dg (y)
P(a < g(X) < b) = fX (g−1 (y)) dy,
a dy

En otras palabras,
3.3. DENSIDAD CONJUNTA Y DENSIDADES MARGINALES 47

Proposición 6. Si X es una variable aleatoria continua y g es invertible y deriva-


ble, la densidad de probabilidad de la variable Y = g(Y ) es
−1
−1
dg (y)
fY (y) = fX (g (y))
dy

Usando esta proposición y la fórmula de cambio de variable obtenemos que


−1
Z ∞
−1
dg (y)
E[g(X)] = y fX (g (y)) dy
−∞ dy
Z ∞
= g(x) fX (x)dx, (3.5)
−∞

con lo cual probamos la fórmula (3.4) para el caso particular en que g es invertible
y derivable. Esta es una potente fórmula con numerosas aplicaciones y consecuen-
cias, a continuación, sumarizamos algunas importantes.

Proposición 7. Para todo a, b ∈ R,

E[aX + b] = aE[X] + b

La varianza de una variable continua X es

Var(X) = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2

3.3. Densidad conjunta y densidades marginales


Un par ordenado (X,Y ) de variables continuas es un punto aleatorio en el
plano. Experimentos aleatorios tales como el lanzamiento de un proyectil u obser-
vaciones multivariadas de muestreo aleatorio pueden ser modelados por conjuntos
ordenados de variables aleatorias.
Extendiendo el concepto de densidad de probabilidad que introducimos para
una variable a un punto aleatorio en el plano; diremos que el vector aleatorio
(X,Y ) es continuo si existe una función f : R2 → (0, ∞) tal que para cualquier
evento D ⊂ R2 se cumple
Z Z
P((X,Y ) ∈ D) = f (x, y)dydx (3.6)
D
48 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

Por supuesto, supondremos también que


Z Z
2
P((X,Y ) ∈ R ) = f (x, y)dydx = 1.
R2

La función f es llamada densidad de probabilidad conjunta del vector aleatorio


(X,Y ).
A efecto de identificar la densidad conjunta de (X,Y ), es suficiente verificar la
ecuación (3.6) para conjuntos D ∈ R2 que sean de la forma A × B, es decir, f es la
densidad conjunta de(X,Y ) sı́ y sólo sı́
Z Z
P(X ∈ A,Y ∈ B) = f (x, y)dydx
A B

para cualquier par de eventos A, B ⊂ R.


Denotemos por fX la densidad de probabilidad de X. Si f es la densidad con-
junta de (X,Y ), la identidad

P(X ∈ A) = P(X ∈ A,Y ∈ R)

puede reescribirse por


Z Z Z ∞
fX (x)dx = f (x, y)dydx
A A −∞

es decir, Z ∞
fX (x) = f (x, y)dy.
−∞
∞ R
En este contexto, fX (x) = −∞ f (x, y)dy es llamada densidad marginal de X.
De manera simétrica definimos la densidad marginal de Y por
Z ∞
fY (y) = f (x, y)dx.
−∞

3.4. Independencia de v.a. continuas


Anteriormente vimos que las v.a. X,Y son independientes sı́ y sólo sı́ para
cualquier par de eventos A, B de la recta real

P(X ∈ A,Y ∈ B) = P(X ∈ A)P(Y ∈ B)


3.4. INDEPENDENCIA DE V.A. CONTINUAS 49

Para el caso continuo que estamos considerando, la ecuación anterior se escribe


Z Z Z Z
f (x, y)dydx = fX (x)dx fY (y)dy,
A B A B

lo que permite probar el siguiente


Teorema de factorización. X,Y son independientes sı́ y sólo sı́ la densidad con-
junta es el producto de las densidades marginales ( f = fX fY ).
Del teorema anterior se desprende que si la densidad conjunta admite la facto-
rización
f (x, y) = g(x)h(y), (3.7)
aun cuando g, h no sean las marginales de X,Y respectivamente, es suficiente para
probar que X,Y son independientes.
Ejemplo: Consideremos el punto (X,Y ) con distribución uniforme en el disco de
radio r, Dr = {(x, y) : x2 + y2 ≤ r2 }, el cual modela el resultado de lanzar un dardo
a una diana de radio r por un lanzador sin punterı́a. Si A ⊂ Dr , entonces

area(A) 1
Z Z
P((X,Y ) ∈ A) = = 2 dydx (3.8)
area(Dr ) πr A

Luego, la densidad conjunta de (X,Y ) es


1
f (x, y) = si (x, y) ∈ Dr
πr2
= 0 si no

¿Son X,Y independientes?. Hay que tener cuidado en no usar incorrectamente el


criterio de factorización (3.7), y siempre tomar en cuenta que las regiones en las
que la densidad conjunta es positiva deben ser productos cartesianos de subcon-
juntos de R. A veces ayuda usar en estos casos la función indicatriz de un conjunto
A, la cual definida por

IA (ω) = 1 si ω ∈ A
= 0 si no

Continuando con el ejemplo, podemos escribir f (x, y) = πr12 IDr (x, y) sin la posi-
bilidad de incurrir en el error de creer que f (x, y) puede ser factorizada como en
(3.7).
50 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

3.5. Cambio de variable y aplicaciones


Para el punto (X,Y) distribuı́do √uniformemente en el disco Dr , consideremos
ahora las coordenadas polares R = X 2 +Y 2 y Θ el ángulo entre el vector (X,Y)
y el eje x. Usando la fórmula para el área de una rebanada del disco, (3.8) implica

ρ2 θ 2x 1
Z ρZ θ
P(0 < R < ρ, 0 < Θ < θ) = 2 = dvdu
r 2π 0 0 r2 2π
De donde
ρ1
fR,Θ (ρ, θ) = I (ρ)I(0,2π) (θ)
r2 π (0,r)
y usando (3.7) vemos que R, Θ si son independientes. ¿Cuáles son las densidades
marginales?.
El cambio a coordenas polares anterior, ejemplifica un problema general:
Dado un vector aleatorio (X,Y ) con densidad conjunta f (x, y) y una transfor-
mación T (X,Y ) = (U,V ), ¿cuál es la densidad conjunta del nuevo v.a. (U,V )?. Si
la transformación es invertible

P((X,Y ) ∈ A) = P((U,V ) ∈ T (A))

Usando la fórmula de cambio de variable, la ecuación anterior se reescribe


Z Z Z Z
f (x, y)dxdy = f (x(u, v), y(u, v))|J(u, v)|dudv
A T (A)

donde (x(u, v), y(u, v)) = T −1 (u, v) y J es el jacobiano de T −1 . Estas identidades


permiten probar el siguiente
Teorema de cambio de variable: Sea (X,Y ) un v.a. con densidad conjunta f (x, y),
D = {(x, y) : f (x, y) > 0} y T : D → S invertible, entonces la densidad conjunta
del v.a. (U,V ) es

f(U,V ) (u, v) = f (x(u, v), y(u, v))|J(u, v)|IS (u, v)

Marginalizando, esta fórmula es de mucha utilidad para calcular densidades


de v.a. que son funciones de puntos aleatorios.
Ejemplo: Sean X,Y i.i.d con distribución exponencial de parámetro 1. ¿Cómo se
distribuye X/(X +Y )?.
3.6. PROPIEDADES DE LA ESPERANZA 51

Consideremos las v.a. V = X/(X +Y ) y U = X +Y . La variable U es auxiliar


a fin de poder invertir la transformación T (x, y) = (x + y, x/(x + y)). Usando el
teorema anterior, podemos calcular la densidad conjunta de (U,V )
f(U,V ) (u, v) = e−u |J(u, v)|IR+ (u)I(0,1) (v) = ue−u IR+ (u)I(0,1) (v)
Marginalizando Z ∞
fV (v) = f(U,V ) (u, v)du = 1
0
para v ∈ (0, 1). es decir X/(X +Y ) es uniforme en (0,1).

3.6. Propiedades de la esperanza


Para g : RR × RR → RR, probamos que si X,Y son discretas
E[g(X,Y )] = ∑ ∑ g(x, y)P(X = x,Y = y). (3.9)
x y

También hemos visto como la esperanza para


R
el caso univariado discreto, ∑x xP(X =
x) tiene su versión para el caso continuo x f (x)dx. La intuición sugiere dar como
versión continua de (3.9) a
Z Z
E[g(X,Y )] = g(x, y) fX,Y (x, y)dxdy,

aunque la prueba formal de este resultado se escapa de los alcances del curso.
De manera idéntica a como lo hicimos para el caso discreto, usando las den-
sidades conjuntas y marginales, puede probarse la linealidad del valor esperado,
fórmulas para la covarianza y varianza de la suma de variables continuas, obte-
niendo el siguiente resultado general:
Proposición 8. Para cualquier par de variables aleatorias X, Y y par de números
a, b, se tiene
1. E[aX + bY ] = aE[X] + bE[Y ]
2. Cov(X,Y ) = E[(X − EX)(Y − EY )] = E[XY ] − E[X]E[Y ]
3. Var(aX + bY ) = a2Var(X) + b2Var(Y ) + 2abCov(X,Y )
4. Si X,Y son independientes E[XY ] = E[X]E[Y ] y en consecuencia
Var(X +Y ) = Var(X) +Var(Y ).
52 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

3.7. Densidad y esperanza condicional


Para el caso X,Y discretas, la probabilidad condicional de X dado Y = y viene
dada directamente por la fórmula de la probabilidad condicional

P(X ∈ A,Y = y) P(X = x,Y = y)


P(X ∈ A|Y = y) = =∑
P(Y = y) x∈A P(Y = y)
Para extender esta idea al caso continuo debemos proceder con cuidado, ya
que si Y es continua P(Y = y) = 0 para todo y. La idea es considerar eventos del
tipo {y ≤ Y ≤ y + δ} para δ > 0 y hacer luego δ → 0. Para lo que sigue f (x, y)
denota la densidad conjunta de (X,Y ).

P(a ≤ X ≤ b, y ≤ Y ≤ y + δ)
P(a ≤ X ≤ b|y ≤ Y ≤ y + δ) =
P(y ≤ Y ≤ y + δ)
R b R y+δ 
a y f (x, v)dv dx
= R y+δ
y fY (v)dv

Dividiendo y multiplicando por δ y luego haciendo δ → 0+ , observamos que


Z y+δ
1
f (x, v)dv → f (x, y)
δ y

y
Z y+δ
1
fY (v)dv → fY (y).
δ y

Ası́ podemos verificar que


Z b
f (x, y)
P(a ≤ X ≤ b|y ≤ Y ≤ y + δ) → dx
a fY (y)

cuando δ → 0+ . Usando la definición de densidad de probabilidad, el integrando,


es decir f (x, y)/ fY (y), es la densidad condicional de X dado {y ≤ Y ≤ y + δ}
cuando δ → 0, es decir dado {Y = y}. A la densidad condicional de X dado Y = y
la denotaremos por
f (x, y)
fX|Y (x|y) = .
fY (y)
3.7. DENSIDAD Y ESPERANZA CONDICIONAL 53

Teniendo una fórmula para la densidad condicional, la esperanza condicional


de X dado Y = y puede ser definida como la esperanza respecto a la densidad
condicional, i.e. Z
E[X|Y = y] = x fX|Y (x|y)dx

En el caso discreto vimos la utilidad de la esperanza condicional para el cálcu-


lo de valores esperados vı́a formula de particionamiento

E[X] = ∑ E[X|Y = y]P(Y = y)


y

Con las definiciones anteriores es fácil probar la versión continua de esta impor-
tante fórmula:
Z
E[X] = E[X|Y = y] fY (y)dy

Un distribución que sirve para ilustrar buena parte de lo visto en las secciones
anteriores es la normal bivariada. Sea
 
1 1 2 2
f (x, y) = p exp − (x − 2ρxy + y )
2π 1 − ρ2 2(1 − ρ2 )

donde x, y son números reales y |ρ| ≤ 1, la densidad conjunta de (X,Y ). Verifique


que

X se distribuye N(0, 1)

X dado Y = y se distribuye N(ρy, 1 − ρ2 )

E[X|Y = y] = ρy

X,Y son independientes sı́ y sólo sı́ son incorrelacionados. Recuerde que
incorrelación no implica independencia, lo cual hace a la normal bivariada
una distribución muy especial.

Si X,Y son independientes, X/Y tiene distribución de Cauchy, es decir, su


densidad es 1/π(1 + x2 ).
54 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
3
2 3
1 2
0 1
0
−1
−1
−2 −2
−3

Figura 3.4: Normal Bivariada con ρ = 0.

0.4

0.3

0.2

0.1

2
3
2
0 1
0
−2 −1
−2
−3

Figura 3.5: Normal Bivariada con ρ = 0,6.


3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 55

3.8. Extremos y sumas de variables independientes


Sean X1 , X2 , . . . , Xn variables aleatorias independientes. Denotemos el mı́nimo
y el máximo por Un y Vn respectivamente. Es decir,
Un = mı́n{X1 , X2 , . . . , Xn } y Vn = máx{X1 , X2 , . . . , Xn }.
Vimos en la sección 2.4 como calcular las distribuciones de estas variables. Usan-
do la independencia, demostramos que
P(Un > k) = P(X1 > k)P(X2 > k) . . . P(Xn > k).
Adicionalmente, si X1 , X2 , . . . , Xn son idénticamente distribuı́das,
P(Un > k) = P(X1 > k)n ,
de donde la función de distribución de Un (k) resulta
FUn (k) = P(Un ≤ k) = 1 − P(Un > k) = 1 − P(X1 > k)n = 1 − [1 − FX (k)]n

con función de densidad


fUn (k) = n[1 − FX (k)]n−1 fX (k)

Para determinar la función de densidad del máximo se procede de manera similar.


P(Vn ≤ k) = P(X1 ≤ k)P(X2 ≤ k) . . . P(Xn ≤ k)

y si X1 , X2 , . . . , Xn son idénticamente distribuı́das,


P(Vn ≤ k) = P(X1 ≤ k)n
Ası́ que
FVn (k) = P(Vn ≤ k) = FX (k)n
con función de densidad
fVn (k) = n[FX (k)]n−1 fX (k)

Ejemplo. Sean X1 , X2 , . . . , Xn v.a. i.i.d. exponenciales de parámetro λ = 1. La fun-


ción de densidad del mı́nimo viene dada por
fUn (u) = n[1 − FX (u)]n−1 fX (u)
56 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

por tanto,
fUn (u) = n[1 − (1 − e−u ]n−1 e−u = ne−nu .
Es decir, el mı́nimo Un se distribuye según una exponencial de parámetro λ = n.
Breve comentario sobre la confiabiliad de sistemas. El mı́nimo y el máximo de
variables independientes es la base de la teorı́a de confiabilidad de sistemas. La
confiabilidad de un sistema a tiempo t, R(t), se define como la probabilidad de
que el sistema no falle hasta ese instante. Si T es el instante en el que el sistema
falla, entonces
R(t) = P(T > t).
El tiempo de falla de los sistemas con n componentes en lı́nea se modela con
una variable que representa el mı́nimo de n variables independientes. El tiempo
de falla de los sistemas paralelos con n componentes se modela como el máximo
de n variables independientes. Usando estas dos simples observaciones podemos
calcular la confiabilidad de sistemas más complejos.
Ejemplo. Calculemos la confiabilidad del sistema representado por el siguiente
diagrama:

C3

C1

C4

C2 C5

Denotemos por Ti la variable aleatoria que representa el instante en el que el


componente Ci falla, i = 1, 2, 3, 4, 5. Observamos que C3 y C4 trabajan en para-
lelo por lo que la variable V 1 = máx{T3 , T4 } representa el tiempo de falla de ese
subsistema. Entonces tenemos que,

P(V 1 < t) = P(T3 < t)P(T4 < t)


3.8. EXTREMOS Y SUMAS DE VARIABLES INDEPENDIENTES 57

por lo que,
P(V1 > t) = 1 − P(T3 < t)P(T4 < t)
Adicionalmente, C1 trabaja en serie con {C3,C4} por lo que la variable U1 =
mı́n{T1 ,V 1} representa el tiempo de falla para ese subsistema. Por lo cual,

P(U1 > t) = P(T1 > t)P(V 1 > t)

Por otro lado, C2 y C5 trabajan en serie. Ası́, la variable U2 = mı́n{T2 , T5 } repre-


senta el tiempo de falla para ese subsistema teniendo que

P(U2 > t) = P(T2 > t)P(T5 > t)

Finalmente, observamos que U1 representa el instante de falla del subsistema su-


perior y U2 del inferior. Por lo que la variable V 2 = máx{U1,U2} representa el
tiempo de falla del sistema completo. Ası́,

P(V 2 < t) = P(U1 < t)P(U2 < t)


Luego la confiabilidad del sistema RS (t) viene dada por P(V 2 > t), por lo cual

RS (t) = 1 − (P(U1 < t)P(U2 < t))


= 1 − [1 − P(T1 > t)(1 − P(T3 < t)P(T4 < t)][1 − P(T2 > t)P(T5 > t)]

Fórmula de convolución: caso continuo. Para variables continuas X,Y , vamos


a determinar ahora la función de distribución y la densidad de probabilidad de la
variables Z = X +Y .

P(Z ≤ z) = P(X +Y ≤ z)
Z Z
= fX,Y (x, y)dydx
{x+y≤z}
Z +∞ Z z−x
= fX,Y (x, y)dydx
−∞ −∞

haciendo un cambio de variables u = x y v = x + y donde |J| = 1, tenemos


Z +∞ Z z
= fX,Y (u, v − u)dvdu
−∞ −∞
Z z Z +∞
= fX,Y (u, v − u)dudv
−∞ −∞
58 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

observando que
Z z
P(Z ≤ z) = fZ (v)dv
−∞

tenemos Z +∞
fZ (v) = fX,Y (u, v − u)du ∀v ∈ R
−∞

Teorema: Si X,Y v.a. independientes entonces Z = X +Y tiene función de densi-


dad: Z +∞
fZ (z) = fX (x) fY (z − x)dx
−∞
Se dice que la función de densidad X + Y es la convolución de las funciones de
densidad de X y Y .
Ejemplo: Sean X,Y v.a. independientes con distribuciones Gamma(s, λ) y Gamma(t, λ)
respectivamente. Encontraremos la distribución de Z = X +Y .
En general, Z +∞
fZ (z) = fX (x) fY (z − x)dx
−∞
Pero en nuestro ejemplo, x sólo puede tomar valores en el intervalo [0, z]. Ası́,
Z z s  t 
λ s−1 −λx λ t−1 −λ(z−x)
fZ (z) = x e (z − x) e dx
0 Γ(s) Γ(t)
reagrupando,

λs+t
Z z
fZ (z) = xs−1 (z − x)t−1 e−λz dx
0 Γ(s)Γ(t)
λs+t s+t−1 −λz z Γ(s + t) xs−1 (z − x)t−1
Z
= z e dx
Γ(s + t) 0 Γ(s)Γ(t) zs+t−1
λs+t s+t−1 −λz 1 Γ(s + t) s−1
Z
= z e u (1 − u)t−1 du
Γ(s + t) 0 Γ(s)Γ(t)
R 1 Γ(s+t) s−1
Usando el hecho de que 0 Γ(s)Γ(t) u (1 − u)t−1 du = 1, tenemos que

λs+t s+t−1 −λz


fZ (z) = z e
Γ(s + t)
Por lo que Z = X +Y ∼ Gamma(s + t, λ).
3.9. PROBLEMARIO III 59

3.9. Problemario III

1. Halle valor esperado y varianza de una variable aleatoria continua con dis-
tribución

Uniforme(a, b)
Exponencial(λ)
Normal(µ, σ)
Gamma(α, β)

2. Suponga que X,Y son independientes y obtenga las siguientes fórmulas:


R
fX+Y (z) = fX (u) fY (z − u)du
fX (x) fY (u/x)|x|−1 dx
R
fXY (u) =
R
fX/Y (v) = fX (vy) fY (y)|y|dy

3. Demuestre que si X,Y son exponenciales independientes con parámetros


µ, λ respectivamente, entonces la distribución del mı́nimo es también expo-
nencial y determine su parámetro.

4. Sean X1 , . . . Xn v.a.i.i.d con función de densidad común f (x). Sean U,V el


mı́nimo y el máximo de la muestra. Pruebe que la densidad conjunta de
(U,V ) es

n(n − 1) f (u) f (v)(F(v) − F(u))n−2 , para u < v

y calcule las marginales (aquı́ F 0 = f )

5. Considere el punto aleatorio (X,Y ) con distribución normal bivariada y


coordenadas independientes. Sean (R, Θ) las coordenadas polares del punto
aleatorio. Identifique la distribución marginal de R2 y Θ.

6. Un juego se llama justo cuando la esperanza de la ganancia de los partici-


pantes es cero.
La flecha lanzada por un experto arquero, caerá a una distancia de R pies del
centro de un blanco. Se pagan 5$ como entrada para participar en un juego
cuyas reglas son las siguientes: Si R < 0,2 pies, el participante recibe 50$.
60 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS

Si 0,2 ≤ R < 0,5 pies, el participante recibe 10$. Si 0,5 ≤ R < 1 pie, el par-
ticipante no recibe ningún pago y, finalmente, si R ≥ 1 pies el participante
debe pagar x dólares a la casa (adicionales a los cancelados a la entrada, por
supuesto). Si R tiene densidad f (r) = r exp(− 21 r2 ) , r > 0, ¿Cuánto debe
valer x para que el juego sea justo?
7. (X,Y ) tienen densidad conjunta
f (x, y) = e−y para 0 < x < y
= 0 en otro caso
encuentre E[X|Y = y] y E[Y |X = x]
8. Sean X,Y v.a. independientes con distribución Gamma de parámetros (n, β)
y (m, β) respectivamente. Considere las variables
X
U = X +Y V=
X +Y
Demuestre que U,V son independientes y calcule sus distribuciones. De-
duzca la curiosa identidad válida para este caso
 
X E[X]
E =
X +Y E[X] + E[Y ]

9. La variable aleatoria X tiene f.d.a. F(x) = xr , 0 ≤ x ≤ 1, siendo r un número


natural. Dado X = x, la variable Y tiene distribución Bin(n, x).
(a) Hallar E(Y ).
(b) Hallar la f.d.p. de Y . Sugerencias: para esto puede necesitar la integral
conocida como función β: Si i y j son números naturales, se tiene
Z 1
i! j!
xi (1 − x) j dx = .
0 (i + j + 1)!

10. Se toma un punto (X,Y ) al azar en el triángulo de vértices (0,0), (0,2) y


(1,1). Probar que E(Y | X = x) no depende de x. ¿Son X e Y independientes?
11. Debido a la variabilidad en el proceso de producción, la tasa de vida Γ,
de los amplificadores producidos por una fábrica, tiene una distribución
N(µ, σ2 ) con µ = 1,07 × 104 seg1/2 , σ2 = 1,1 × 106 seg. A su vez, el tiempo
de vida T , de un amplificador con tasa de vida Γ, tiene distribución expo-
nencial de parámetro λ = Γ12 seg−1 . Hallar el tiempo de vida promedio (en
meses) de los amplificadores producidos por esta fábrica.
3.9. PROBLEMARIO III 61

12. Sea X v.a. con media µ, varianza σ2 y cuarto momento central


µ4 = E((X − µ)4 ). Pruebe que µ4 ≥ σ4 .
Ayuda: calcule la esperanza y la varianza de Z = (X − µ)2 .
62 CAPÍTULO 3. VARIABLES ALEATORIAS CONTINUAS
Capı́tulo 4

Convergencia y funciones
generatrices

Para modelar un fenómeno aleatorio que depende del tiempo, podemos consi-
derar sucesiones de variables X1 , X2 , . . . donde Xi modela el estado del fenómeno a
tiempo i. El conjunto de ı́ndices puede representar unidades de tiempo, iteraciones
de un proceso, etc. Es natural que en este tipo de situaciones, si queremos tener
una información que no dependa del tiempo, nos preguntemos acerca del com-
portamiento de Xn cuando n → ∞. Antes de formalizar esta idea consideremos el
siguiente ejemplo.
Ejemplo. Supongamos que lanzamos un dado n veces, n un número muy grande,
y observamos que el promedio de los números observados es an = 3,500867. Al
comparar este valor con el valor esperado de la variable aleatoria que modela el
número observado al lanzar un dado al azar, 16 (1 + 2 + . . . + 6) = 3,5, podemos ver
que están muy cerca. Es natural conjeturar que

an → 3,5 cuando n→∞

4.1. Desigualdad de Chebyshev y Ley de Grandes


Números
Varios resultados de la teorı́a de probabilidad establecen condiciones para pro-
bar conjeturas del tipo ”si repetimos un experimento muchas veces entonces el
promedio de los resultados se aproxima al valor esperado”.

63
64 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

Teorema (Desigualdad de Markov). Sea X una variable aleatoria y g una función


positiva entonces, para todo ε > 0,

E(g(X))
P(g(X) ≥ ε) ≤
ε

Prueba. Supongamos que X es continua, el caso discreto es similar.


Z Z
E(g(X)) = g(x) f (x)dx + g(x) f (x)dx
{x:g(x)≥ε} {x:g(x)<ε}
Z
≥ g(x) f (x)dx
{x:g(x)≥ε}
Z
≥ ε f (x)dx
{x:g(x)≥ε}
= εP(g(X) ≥ ε)

Un caso particular de la desigualdad de Markov es la súper conocida Desi-


gualdad de Chebyshev.
Corolario. Si X es una variable aleatoria con E(X) = µ entonces

1
P(|X − µ| ≥ ε) ≤ Var(X)
ε2
Prueba

1 1
P(|X − µ| ≥ ε) = P(|X − µ|2 ≥ ε2 ) ≤ 2
E((X − µ)2 ) = 2 Var(X)
ε ε

Esta desigualdad es muy útil para aproximar cuán concentrada está una varia-
ble alrededor de su valor esperado.
Sean X1 , X2 , . . . , Xn variables i.i.d. con E(Xi ) = µ y Var(Xi ) = σ2 . Denotemos
el promedio muestral por

Sn X1 + X2 + . . . + Xn
Xn = = .
n n
Ya que
4.1. DESIGUALDAD DE CHEBYSHEV Y LEY DE GRANDES NÚMEROS65

 
X1 + X2 + . . . + Xn 1
E(X n ) = E = nµ
n n
y
1 σ2
Var(X n ) = Var(X1 + X2 + . . . + Xn ) = ,
n2 n
usando la desigualdad de Chebyshev se tiene que
1 σ2
P(|X n − µ| ≥ ε) ≤
ε2 n
Decimos que Xn converge en probabilidad a X si para todo ε > 0,
P(|Xn − X| ≥ ε) −→ 0 cuando n −→ ∞.

Teorema (Ley Débil de Grande Números). Sean X1 , X2 , . . . , Xn variables i.i.d.


con E(Xi ) < ∞, entonces el promedio muestral X n converge en probabilidad a µ.

0.6

0.5

0.4

0.3

0.2
0 100 200

Figura 4.1: Convergencia de la proporción de caras con el número de lanzamientos


de una moneda.

La Ley Débil de Grandes Números ofrece un potente método de estimación


conocido como el Método de Monte Carlo. El siguiente ejemplo ilustra la idea
básica del método.
66 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

3.5

2,5
0 100 200

Figura 4.2: Convergencia del promedio de observaciones con el número de lanza-


mientos de un dado.

Ejemplo. Sea (X,Y ) un vector aleatorio distribuı́do uniformemente en el rectángu-


lo B = [0, a] × [0, b]. Sea A un área contenida en B, ası́,
|A|
p = P((X,Y ) ∈ A) =
ab
Para estimar p, generamos puntos (X1 ,Y1 ), . . . , (Xn ,Yn ) i.i.d. U[0, a] × [0, b] y con-
sideramos la v.a. Bernoulli

Zi = 1 si (Xi ,Yi ) ∈ A
= 0 en caso contrario

Es fácil verificar el promedio Z n converge en probabilidad a p.

4.2. Función generatriz de momentos


Hemos visto que la esperanza y la varianza dan información acerca de la v.a.
Para obtener esta información necesitamos calcular E[X] y E[X 2 ]. El momento de
orden k no es más que la extensión de esta idea para tener más información acerca
de la variable.
4.2. FUNCIÓN GENERATRIZ DE MOMENTOS 67

Definición. El momento de k-ésimo orden de una v.a. X es E[X k ] siempre y cuan-


do E[|X|k ] < ∞.
Ejemplo: Si X tiene distribución Gamma(n, β) entonces el momento de orden k es
βn −βx n(n + 1) . . . (n + k − 1)
Z ∞
E[X k ] = xk e dx =
0 Γ(n) βk

Ejemplo: Si X tiene distribución Cauchy entonces


1
Z ∞
k
E[X ] = xk dx
−∞ π(1 + x2 )
En vista de que la integral no converge en valor absoluto para ningún k ≥ 1 deci-
mos que la distribución de Cauchy no tiene momentos.
Un criterio útil para garantizar la existencia de momentos es:

E[|X|k ] < ∞ implica E[|X|r ] < ∞ para 1 ≤ r ≤ k


En particular, cuando digamos que Var(X) < ∞, estaremos diciendo que los mo-
mentos de primer y segundo orden existen.
Si lo que estamos buscando es obtener información de una variable; formal-
mente de la distribución de probabilidad; a través de sus momentos, parece natural
construir una función que reproduzca el valor de todos los momentos si es que
existen.
Definición. La función generatriz de momentos de una v.a. X es la función

MX (t) = E[e−tX ] para todo t para el cual la esperanza existe

Ejemplo: Si X tiene distribución Gamma(n, β) entonces


 n
β
MX (t) = para t ≤ β
β−t

Ejemplo: Si X tiene distribución Cauchy entonces MX (t) sólo está definida para
t = 0.
Ejemplo: Si X tiene distribución Normal(µ, σ2 ) entonces
2 t 2 /2
MX (t) = eµt+σ para todo t ∈ R
68 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

Ejemplo: Si X tiene distribución Poisson(λ) entonces


t
MX (t) = e−λ(1−e ) para todo t ∈ R.

Volviendo a nuestro problema, ¿cómo reproducir los momentos de una v.a. a


partir de su función generatriz?. El siguiente teorema responde la pregunta.
Teorema. Si MX existe en un entorno de 0, entonces para cualquier k ≥ 1

dk
E[X k ] = MX (0)
dt k
La prueba formal de este teorema se escapa del alcance de estas notas. La idea
básica es la siguiente:
La esperanza es una sumatoria o una integral dependiendo cual sea el caso
que estemos estudiando. Estos operadores (sumatoria e integral) conmutan, bajo
condiciones de regularidad, con el operador derivada (¿puede el lector construir
ejemplos concretos donde esto ocurre?). Ası́ resulta que

dk dk tX d k tX
M X (t) = E[e ] = E[ e ] = E[X k etX ]
dt k dt k dt k
evaluando la identidad anterior en t = 0 obtenemos el resultado del teorema.
Más que reproducir los momentos de una distribución, la función generatriz
provee una manera de caracterizar distribuciones de probabilidad, tal y como lo
expresa el siguiente teorema.
Teorema. Si MX existe en un entorno de 0, entonces hay una única distribución
con función generatriz MX . Además, bajo esta condición todos los momentos exis-
ten, no importa el orden, y el desarrollo de Taylor de la función generatriz es

tk
MX (t) = ∑ E[X k ] k!
k=0

Del teorema anterior podemos observar que no basta conocer todos los mo-
mentos para caracterizar una distribución, es necesario que la serie

tk
∑ E[X k ] k!
k=0

converja en un entorno de cero, tal como aparece en la hipótesis del teorema.


4.2. FUNCIÓN GENERATRIZ DE MOMENTOS 69

La prueba de este teorema se basa en propiedades de la transformada de La-


place y la omitiremos, sin embargo, su aplicación es de gran utilidad al conectarla
con las siguientes propiedades:

Para números a, b se tiene


MaX+b (t) = E[e(aX+b)t ] = ebt E[eatX ] = etb MX (at)

Si X,Y son independientes entonces


MX+Y (t) = E[et(X+Y ) ] = E[etX etY ] = E[etX ]E[etY ] = MX (t)MY (t)

Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independien-


tes, entonces MX1 +...+Xn = MX1 . . . MXn

Ejemplo: Sean X1 , . . . , Xn v.a.i.i.d. Exponenciales(β). ¿Cuál es la distribución de la


suma Sn = X1 + . . . + Xn ?. Sabiendo que la función generatriz de una exponencial
es
β
MX1 (t) = para t ≤ β
β−t
podemos usar las propiedades enunciadas y verificar que
 n
β
MSn (t) = para t ≤ β
β−t

que corresponde a la función generatriz de una Gamma(n, β). Usando el teorema


anterior podemos concluir que la suma de n exponenciales i.i.d de parámetro β
tiene distribución Gamma(n, β).
El lector puede usar esta técnica para probar los siguientes resultados:

sumas de normales independientes es normal

sumas de Poisson independientes es Poisson

En general, pruebe que si (MX (t))1/n es la función generatriz de una v.a. Z,


entonces sumas de n réplicas independientes de Z se distribuye como X.
70 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

4.3. Función caracterı́stica


Como vimos, la función generatriz ofrece un poderoso método para identificar
distribuciones de probabilidad. El problema es que la función generatriz no siem-
pre existe, como es el caso de la Cauchy. La clase de distribuciones para la cual
no existe es suficientemente grande como para necesitar una alternativa. Usando
la fórmula de Moivre

eiω = cosω + isenω, con i = −1

es fácil ver que


MX (iω) = E[cos(ωX)] + iE[sen(ωX)]
Ya que las funciones coseno y seno son acotadas, la función

φX (ω) = MX (iω)

siempre existe y tiene propiedades equivalentes a las de la función generatriz. Por


lo cual conviene introducir la siguiente definición
Definición. La función caracterı́stica de una v.a. X es la función

φX (ω) = E[eiωX ]

En estas notas, suponemos que el lector no está familiarizado con el cálculo en


variable compleja. Para calcular φX (ω) = E[eiωX ], se puede usar la identidad

φX (ω) = MX (t) para t = iω

cuando MX (t) existe.


Ejemplo: Si X tiene distribución Gamma(n, β) entonces
 n
β
φX (ω) =
β − iω

Cuando MX (t) no existe, por ejemplo para el caso Cauchy, el uso de tablas para
la transformada de fourier puede ser muy útil. Casi cualquier función caracterı́stica
ya ha sido tabulada. En particular, si X es Cauchy,
1
φX (ω) = e−|ω|
2
4.4. CONVERGENCIA EN DISTRIBUCIÓN Y TEOREMA CENTRAL DEL LÍMITE71

El hecho de que la función caracterı́stica siempre exista simplifica el criterio


de caracterización análogo al que estudiamos para la función generatriz de mo-
mentos.
Teorema. Las v.a. X,Y tienen la misma distribución sı́ y sólo sı́ φX (ω) = φY (ω)
para todo ω. Aún más, si X es continua con densidad de probabilidad f , la siguien-
te fórmula puede ser usada para recobrar f a partir de la función caracterı́stica
Z +∞
1
f (x) = e−iωx φX (ω)dω
2π −∞

Esta fórmula no es más que la inversa de la transformada de fourier, observando


que la función caracterı́stica
Z +∞
φX (ω) = e−iωx f (x)dx
−∞

es la transformada de fourier de f .
Para terminar, enunciamos algunas propiedades que el lector puede probar sin
dificultad, siguiendo las pruebas análogas para la función generatriz.

Para números a, b se tiene


φaX+b (ω) = eiωb φX (aω)
Si X,Y son independientes entonces
φX+Y (ω) = φX (t)φY (ω)
Usando recursivamente la propiedad anterior, si X1 , . . . , Xn son independien-
tes, entonces φX1 +...+Xn = φX1 . . . φXn

4.4. Convergencia en distribución y Teorema Cen-


tral del Lı́mite
Cuando consideramos sucesiones de variables aleatorias X1 , X2 , . . . es natural
preguntarse acerca del comportamiento de Xn cuando n → ∞. En particular, sobre
la distribución de probabilidades de Xn cuando n → ∞. Antes de formalizar esta
idea observemos el siguiente ejemplo:
Consideremos la sucesión de variables aleatorias X1 , X2 , . . . con P(Xn = n1 ) = 1.
Es decir, con probabilidad 1, Xn = 1n . Lo natural serı́a que {Xn } converja a una v.a.
72 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

X que tiene probabilidad 1 de valer 0. Veamos que pasa con las funciones de
distribución de estas v.a.
1
Fn (x) = P(Xn ≤ x) = 0 si x <
n
1
= 1 si x ≥
n

F(x) = P(X ≤ x) = 0 si x < 0


= 1 si x ≥ 0
Por otro lado

lı́m Fn (x) = 0 si x ≤ 0
n→∞
= 1 si x > 0
Es decir, con la excepción de 0, que es un punto de discontinuidad de F,
lı́m Fn (x) = F(X).
n→∞

Este ejemplo muestra que los puntos de discontinuidad de la distribución lı́mite


deben ser ignorados, lo cual nos lleva a la siguiente definición.
Definición. Consideremos la sucesión de v.a. X1 , X2 , . . . con funciones de distri-
bución F1 , F2 , . . . respectivamente. Sea X una v.a. con función de distribución F.
Diremos que Xn converge en distribución a X, o que Xn → X en distribución, si

lı́m Fn (x) = F(X)


n→∞
para todo x donde F sea continua.
Ejemplo: Considere el mı́nimo Un de n variables i.i.d. uniformes en (0,1). Es fácil
intuir que pasa con Un cuando n → ∞. Ahora bien, ¿qué pasa con nUn cuando
n → ∞?. Primero que nada, como Un ∈ (0, 1), entonces nUn ∈ (0, n) y
 x
P(nUn ≤ x) = P Un ≤ para x ∈ (0, n)
n
Usando la definición del mı́nimo y la independencia, la probabilidad anterior pue-
de escribirse como
 x h  x in
1 − P(nUn > x) = 1 − P Un > = 1− P X >
n n
4.4. CONVERGENCIA EN DISTRIBUCIÓN Y TEOREMA CENTRAL DEL LÍMITE73

con X uniforme en (0,1). Sustituyendo,


 x n
P(nUn ≤ x) = 1 − 1 − para x ∈ (0, n)
n
Usando el hecho de que si nan → a entonces

lı́m(1 − an )n = ea (4.1)

se obtiene
 x n
lı́m P(nUn ≤ x) = lı́m 1 − 1 − = 1 − e−x para x ∈ (0, ∞)
n
que corresponde a la distribución de una variable exponencial de parámetro 1. Es
decir, si X1 , X2 , . . . son v.a.i.i.d. uniformes sobre (0,1), entonces

nUn → exp(1) en distribución.

Cuando las variables toman valores enteros la convergencia en distribución se


reduce a la convergencia de la funciones de masa. El lector no tendrá dificultad en
probar la siguiente proposición.

Proposición 9. Si X, X1 , X2 , . . . toman valores enteros y para todo k

lı́m P(Xn = k) = P(X = k)

entonces Xn → X en distribución.

Ejemplo. Considere la sucesión de v.a. {Xn } con Xn binomial(n, pn ). Suponga-


mos que pn → 0 con npn → λ > 0. Es decir, para n grande, Xn es una binomial
con muchas repeticiones de un experimento que tiene muy poco chance de éxito.
Podemos probar
lı́m P(Xn = 0) = e−λ
y que
P(Xn = k + 1)
lı́m = λ(k + 1)
P(Xn = k)
Usando recurrencia, vemos que

λk
lı́m P(Xn = k) = e−λ
k!
74 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

que es la función de masa de una Poisson(λ). Es decir,


Xn → Poisson(λ) en distribución.
Los dos ejemplos anteriores muestran la dificultad de probar convergencia en
distribución por definición. El siguiente teorema ofrece un método sencillo de
hacerlo
Teorema de continuidad: Sean X1 , X2 , . . . v.a. y φ1 , φ2 , . . . sus respectivas funcio-
nes caracterı́sticas. Si
lı́m φn (ω) =: φ(ω) para todo ω ∈ R
y φ(ω) es continua en ω = 0, entonces φ es la función caracterı́stica de una v.a. X
tal que Xn → X en distribución.
La prueba de este teorema exige de conocimientos avanzados de análisis ma-
temático, sin embargo el teorema en sı́ es fácilmente intuible, a excepto de la
condición técnica φ continua en cero.
Ejemplo: Usar el teorema para probar la convergencia a Poisson del ejemplo an-
terior. Debemos probar que

lı́m φn (ω) =: φ(ω) para todo ω ∈ R


Para el ejemplo anterior
n iω )
φn (ω) = qn + pn eiω y φ(ω) = e−λ(1−e
Ası́,
n
lı́m φn (ω) = lı́m qn + pn eiω
n
= lı́m 1 − pn (1 − eiω )
 n
λ iω
= lı́m 1 − (1 − e )
n
iω )
= e−λ(1−e

La aplicación por excelencia del teorema de continuidad es el muy famoso


Teorema del Lı́mite Central. Sean X1 , X2 , . . . v.a.i.i.d. con varianza finita σ2 . De-
notemos por µ la esperanza común de las variables. Entonces
X1 + . . . + Xn − nµ
√ → N(0, σ2 ) en distribución
n
4.5. PROBLEMARIO IV 75

4.5. Problemario IV
1. El número de llamadas que llegan a la central telefónica de Sartenejas en
un minuto, es, en promedio, 102 . La central puede manejar un máximo de
103 llamadas, colapsando si recibe más de este número de llamadas en un
minuto. Usar la desigualdad de Chebyshev para estimar la probabilidad de
que la central colapse en un minuto dado.

2. En el problema de la fábrica del capı́tulo anterior, supóngase que los ampli-


ficadores con Γ < 7,5 × 103 seg−1/2 son rechazados por control de calidad.
(a) Use la desigualdad de Chebyshev para estimar el % de amplificadores
rechazados.
(b) Calcule la misma probabilidad de la parte (a) usando la tabla de la dis-
tribución normal. Explique la discrepancia de los resultados.

3. A través de una encuesta se quiere estimar la fracción p de adultos de la


población que se interesarı́a en un nuevo producto. Se interroga a n perso-
nas de la población, y se estima p como p̃ = X/n, siendo X el número de
personas encuestadas que manifiestan interés en el producto. Utilizando el
Teorema del Lı́mite Central, y suponiendo que el verdadero valor de p es
0.35, encuentre, aproximadamente, el menor valor de n para el cual p̃ y p di-
fieren en menos de 0.02, con probabilidad mayor que 0,9. ¿Como resolverı́a
el problema en el caso (realista) en que p es desconocido?

4. Tomamos 50 números al azar (uniformemente) en el intervalo (1,3).

Utilize la desigualdad de Chebyshev para estimar la probabilidad de


que el promedio X de estos números se encuentre entre 1,9 y 2,1.
Utilize el Teorema del Lı́mite Central para aproximar la misma pro-
babilidad de la parte (a) Según la aproximación que nos dá el T.L.C.,
¿Cuánto debe ser ε para que X se encuentre en el intervalo (1−ε, 1+ε)
con probabilidad 0,95.

5. Use la función generatriz para calcular el momento de tercer orden de una


Normal(µ, σ2 ).

2.- Sean {Xn } v.a.i.i.d. y N una v.a. a valores enteros positivos independiente
de {Xn }. Calcule la función generatriz de momentos de X1 + . . . + XN y
deduzca la esperanza y varianza de esta v.a.
76 CAPÍTULO 4. CONVERGENCIA Y FUNCIONES GENERATRICES

6. {Xn } v.a. con


 
k 1
P Xn = = para k = 1, . . . n
n+1 n

Pruebe que Xn → U(0,1) en distribución.

7. Suponga que Xn tiene distribución Gamma(n,


√ 1). Calcule la función genera-
triz de momentos de Zn = (Xn − n)/ n y demuestre que
2 /2
lı́m MZn (t) = et

¿Qué concluye?.

Das könnte Ihnen auch gefallen