Py EC

Probabilidades y Estadstica (Computacin)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

Ana M. Bianco y Elena J. Martnez
2004
Probabilidades y Estadstica
Cs. de la Computacin
Introduccin
Breve resea histrica:
La teora de Probabilidades comienza a partir de una disputa entre jugadores en 1654.
Los dos matemticos que participaron de tales discusiones fueron Blaise Pascal y Pierre
de Fermat, y su intercambio de correspondencia sent las bases de la teora de
Probabilidades. Un matemtico holands, Christian Huygens tom contacto con esa
correspondencia y escribi el primer libro sobre Probabilidades en 1657, el cual trataba
fundamentalmente sobre problemas relacionados con los juegos de azar.
Durante el siglo XVIII la teora se desarroll y se enriqueci con los aportes de Jacob
Bernoulli y Abraham de Moivre. En 1812 Pierre de Laplace introdujo una serie de nuevas
ideas y tcnicas matemticas en su libro Theorie Analytique des Probabilits y
fundamentalmente sac a la teora del marco exclusivo de los juegos de azar y aplic las
ideas a muchos problemas cientficos y prcticos. Algunas de las importantes aplicaciones
desarrolladas en el siglo XIX fueron: teora de errores, matemtica actuarial y mecnica
estadstica.
Una de las dificultades para el desarrollo de la teora matemtica de las probabilidades
fue llegar a una definicin de probabilidad matemticamente rigurosa, pero al mismo
tiempo amplia para permitir su aplicacin a un amplio rango de fenmenos. En el siglo XX
se lleg a una definicin axiomtica de las Probabilidades (Kolmogorov, 1933).
Porqu estudiar Probabilidades y Estadstica en Ciencias de la Computacin?:
Posibles preguntas que queremos responder:
Cul es el mximo nmero de terminales que pueden estar conectadas en un
servidor antes de que el tiempo medio de espera se haga inaceptable?
En una base de datos, Cmo deberan ser guardados los datos para minimizar el
tiempo medio de acceso?
Los sistemas de computacin no son determinsticos. Pensemos, por ejemplo, en el delay
en el envo de paquetes, comunicaciones en una red, equilibrio de carga en servidores,
requerimientos de memoria, etc.
Para qu sirven las Probabilidades? Si bien estamos frente a procesos aleatorios, no
son necesariamente caticos, en el sentido que podemos descubrir un patrn de
comportamiento que pueda ser modelado.
Veamos un ejemplo de uso frecuente.

2004
Compresin de archivos: El cdigo ASCII contiene 256 caracteres, cada uno de los
cules se representa con un nmero consistente en 8 dgitos binarios, por ejemplo, se
representa por 160 10100000.
Para simplificar el problema, supongamos que contamos con slo 4 caracteres: A, B, C y
D. Para representarlos necesitamos 2 bits. Por ejemplo, podramos representarlos as:
A 00
B 01
C 10
D 11
Si un texto constara de n caracteres necesitaramos 2n bits para guardarlo. Esta cantidad
de bits es determinstica.
Supongamos que sabemos que ciertas letras aparecen con ms frecuencia que otras,
por ejemplo, supongamos que sabemos que las frecuencias con que aparecen las 4 letras
en un texto son:
A
B
C
D
0.70 (70%)
0.12 (12%)
0.10 (10%)
0.08 ( 8%)
El mtodo de codificacin de Huffman utiliza la informacin disponible sobre la

frecuencias de aparicin de los caracteres y asigna cdigos de longitud variable. Por
ejemplo, podramos asignar a los 4 caracteres de nuestro ejemplo los siguientes cdigos:
A1
B 00
C 011
D 010
Cunto espacio (en bits) ocupara ahora un texto de n caracteres? No lo sabemos, pero
podemos suponer que tendremos en promedio:
0.70 n
0.12 n
0.10 n
0.08 n
veces As
veces Bs
veces Cs
veces Ds
y el nmero de bits requerido sera:

0.70 n * (1) + 0.12 n *(2) + 0.10 n * (3) + 0.08 n * (3) = 1.48 n.
Como se observa, el mtodo produce una disminucin del espacio promedio requerido
para almacenar un texto.

2004
Probabilidad
El trmino Probabilidad se refiere al estudio del azar y la incertidumbre. En aquellas
situaciones en las cules se puede producir uno de varios resultados posibles, la Teora
de la Probabilidad provee mtodos para cuantificar la chance de ocurrencia de cada uno
de ellos.
Ejemplos:
Se arroja un dado dos veces y se registra la suma de puntos. Cul es la probabilidad

de que se obtenga una suma mayor que 10?
En un juego de ruleta, cul es la probabilidad de ganar apostando a primera

columna?
En un juego de ruleta, cul es la ganancia esperada apostando repetidamente a

primera columna?
Cul es la probabilidad de que un servidor que atiende a 20 terminales se sature en

un determinado momento?
Dada la informacin disponible, cul es la probabilidad de que llueva el prximo fin

de semana?
Definiciones:
Experimento: Es cualquier proceso o accin que genera observaciones y que puede ser
repetible. Por ejemplo, arrojar un dado, seleccionar un individuo y registrar su peso y su
altura, seleccionar una muestra de productos elaborados por una empresa para hacer un
control de calidad, seleccionar un da al azar y registrar el nmero de veces que se satura
un servidor.
Espacio muestral asociado a un experimento: Es el conjunto de todos los resultados
posibles del experimento. Lo notaremos S.
Ejemplos:
1) Se arroja una moneda una vez.
S={cara,ceca} S={1,0} S={xito,fracaso}
2)
Se arroja una moneda dos veces.

S={(1,1),(1,0),(0,1),(0,0)}
3) Se arroja una moneda hasta que aparece por primera vez

S={(1),(0,1),(0,0,1),(0,0,0,1),....} = {(x1,x2,...xn) / nN, xi=0 si i < n , xn=1}
una
cara.
4) Se registra el tiempo transcurrido desde que se intenta la conexin a un servidor hasta

que la conexin se efectiviza.

2004
S=+=(0,)
Si el sistema tiene un time-out en el tiempo to , tendramos S=(0, to).
Como se observa, un espacio muestral puede ser finito, como en los ejemplos 1) y 2),
infinito numerable, como en el ejemplo 3) o infinito no numerable, como en el ejemplo 4).
Sucesos o eventos: No slo estamos interesados en resultados individuales de un
experimento sino que pueden interesarnos colecciones o conjuntos de ellos. Se denomina
suceso o evento a cualquier subconjunto del espacio muestral. Si S es finito o infinito
numerable, cualquier subconjunto es un evento. Si S es infinito casi todo subconjunto de
S es un evento. Los eventos los designaremos en general con las primeras letras del
abecedario en mayscula: A, B, C,...
Evento elemental o simple: consiste de un nico resultado individual.
Evento compuesto: consiste de ms de un evento elemental.
Ejemplos: En los ejemplos anteriores, posibles eventos son
1) A = sale cara = {cara}={1}.
2) A = nmero de caras es menor o igual que 1 ={(1,0),(0,1),(0,0)}.
3) A = nmero de tiros requeridos es menor o igual que 5 = {(x1,x2,...xn)S / n5 }.
B = nmero de tiros requeridos es par = {(x1,x2,...xn) S / n=2k, k N}.
4) A = el tiempo es mayor de 10 minutos = (10,) (en el caso de un sistema sin timeout)
Relacin con Teora de conjuntos: Como un evento o suceso es un conjunto, valen las
mismas relaciones que en teora de conjuntos.
S es un subconjunto de S denominado suceso cierto o seguro .
es un subconjunto de S denominado suceso imposible.

A B es el suceso unin. Ocurre cuando A ocurre B ocurre.
A B es el suceso interseccin. Ocurre cuando ocurre A y ocurre B.
Ac A es el opuesto o complemento de A. Ocurre cuando no ocurre A.

2004
A B = A B c es el suceso diferencia. Ocurre cuando ocurre A y no ocurre B.

Se dice que A est contenido en B o que A implica B y se denota A B si la realizacin
de A conduce a la realizacin de B, es decir si todo elemento de A pertenece a B.
Dos sucesos A y B se dicen mutuamente excluyentes o disjuntos si A B = .
Recordemos algunas propiedades:

Asociatividad: A B C = (A B) C = A (B C)
A B C = (A B) C = A (B C)
Conmutatividad: A B = B A
AB= BA
Distributividad: (A B) C = (A C) (B C)
(A B) C = (A C) (B C)
c
Leyes de De Morgan:

U Ai = I Aic
i =1
i =1

I Ai = U Aic
i =1
i =1
Interpretacin intuitiva de la Probabilidad: Supongamos que se repite n veces un mismo

experimento aleatorio en forma independiente y bajo las mismas condiciones. Sea nA el
nmero de veces que ocurre el suceso A en las n repeticiones. Se denomina frecuencia
relativa de A en la secuencia de n repeticiones a
fr ( A) =
nA
n
La evidencia emprica muestra que cuando n crece,

alrededor de un nmero que llamaremos P(A).
fr ( A) tiende a estabilizarse
Qu propiedades tiene la frecuencia relativa?

1)
fr ( A) =
nA
0
n
2)
fr ( S ) =
nS n
= =1
n n

3) Si A B = fr ( A B) =
2004
n A B n A + n B n A n B
=
=
+
= fr ( A) + fr ( B)
n
n
n
n
La definicin axiomtica de Probabilidad, que daremos a continuacin, es consistente con

la idea intuitiva que se tiene de ella.
Axiomas de Probabilidad: Dado un experimento aleatorio y un espacio muestral

asociado S, a cada evento A se le asociar un nmero que notaremos P(A) y que
llamaremos probabilidad del evento A. Esta asignacin debe satisfacer los siguientes
axiomas:
A1. P(A) 0 para todo evento A.
A2. P(S) = 1
A3a. Si A1 , A2 ,..., An es una coleccin finita de sucesos mutuamente excluyentes, es
decir que Ai A j = i j , entonces
n
n
P U Ai = P( Ai )
i =1 i =1
A3b.
Si A1 , A2 ,..., An ,... es una coleccin infinita numerable de sucesos mutuamente
excluyentes, es decir si Ai A j = i j , entonces

P U Ai = P( Ai )
i =1 i =1
Ejemplo: Consideremos el ejemplo en que se arroja una moneda una vez, para el cual el
espacio muestral es S={cara,ceca}. Si denominamos E1 = {cara} y E2 ={ceca} a los dos
eventos elementales, como P(S) = 1 = P(E1)+P(E2), entonces P(E2) = 1- P(E1). Por lo
tanto, cualquier asignacin de probabilidades de la forma: P(E1) = p y P(E2)=1-p con
0 p 1, satisface los axiomas.
Propiedades de la Probabilidad:
1) P( A c ) = 1 P( A) para todo suceso A
Dem: 1 = P ( S ) = P ( A U A c ) = P ( A) + P ( A c ) P( A c ) = 1 P ( A)
A2
A3 a

2004
En la tercera igualdad usamos el axioma 3 pues A A c = .

2) P() = 0
Dem: P( ) = 1 P( c ) = 1 P ( S ) = 1 1 = 0
P1
A2
3) Si A B P( A) P ( B) y P ( B A) = P( B ) P ( A)
Dem: Si A B B = A ( B A) y stos dos eventos son excluyentes. Por el
axioma A3a
P ( B) = P( A) + P( B A)
Dado que, por el axioma A1, P(B-A) 0 , resulta P(B) P(A) y, despejando, se obtiene la
segunda afirmacin.
4) Dados dos sucesos cualesquiera A y B, P( A B ) = P ( A) + P( B ) P ( A B ).
Dem: A B = A ( B A) = A ( B A c )
entonces, por el axioma A3a,
y estos dos eventos son excluyentes,
P( A B) = P(A ( B A c ) ) = P( A) + P( B A c )
(1)
Por otra parte, B = ( B A) ( B A c ) y estos dos eventos son disjuntos, entonces
P( B) = P( B A) + P( B A c ) P( B A c ) = P( B) P( B A)
(2)
De (1) y (2) resulta que P ( A B ) = P ( A) + P( B ) P ( B A) como queramos demostrar.

5) Dados dos sucesos cualesquiera A y B, P ( A B) P( A) + P( B).
Dem: Esta propiedad se deduce inmediatamente de la propiedad anterior y del axioma
A1.
Ejercicios: a) Demostrar, usando la propiedad 4) que, dados tres sucesos cualesquiera,
A1 , A2 y A3 ,
P( A1 A2 A3 ) = P( A1 ) + P( A2 ) + P( A3 ) P( A1 A2 ) P( A1 A3 )
P( A2 A3 ) + P( A1 A2 A3 )

2004
b) Probar, usando induccin que, dados A1 , A2 ,..., An sucesos cualesquiera,
n
n
P U Ai P( Ai )
i =1 i =1
Asignacin de probabilidades: Supongamos que el espacio muestral S asociado con
cierto experimento es finito o infinito numerable. En este caso, una manera simple de
trabajar es asignar probabilidades a los sucesos elementales, ya que cualquier suceso A
ser unin de sucesos elementales y stos son obviamente mutuamente excluyentes.
Designando Ei a los sucesos elementales de S, S =
UE
(la unin podra ser finita si el
i =1
espacio muestral fuese finito). Si conocemos
p
i =1
p i = P( E i ) 0 i , de manera que
= 1 , entonces dado cualquier suceso A, su probabilidad se puede obtener sumando
las probabilidades de los elementales que lo componen, es decir:
P ( A) =
Ei A
Ejemplos: 1) Se arroja un dado equilibrado. En este caso, S={1,2,3,4,5,6} y, por

suponerlo equilibrado, los sucesos elementales Ei = {i} para i=1,..,6 tienen probabilidad
pi = 1/6. Si deseamos calcular la probabilidad del suceso A = el resultado es par, usando
que
A= E2 E4 E6
se obtiene
P(A) = P(E2)+ P(E4)+ P(E6)=1/2
2) Supongamos ahora que se arroja un dado en el cual la probabilidad de las caras pares
es el doble que la probabilidad de las caras impares, o sea que, si llamamos p a la
probabilidad de cada cara impar,
P(E1) = P(E3) = P(E5) = p
P(E2) = P(E4) = P(E6) = 2 p
Como la suma de las probabilidades debe ser igual a 1,

6
P( E ) = 3 p + 6 p = 9 p = 1
i =1
y, en este caso, P(A) = P(E2)+ P(E4)+ P(E6) = 3
p=
1
9
2 2
= .
9 3
3) Arrojamos una moneda equilibrada hasta obtener cara. Cul es la probabilidad de

que la cara sea obtenida en un nmero par de lanzamientos?
Si representamos el espacio muestral tal como lo hicimos ms arriba, tendramos

2004
A={(0,1),(0,0,0,1),(0,0,0,0,0,1),.....}
Veremos ms adelante que en las condiciones de este experimento es razonable
asumir que
1
P(obtener cara en el k - simo lanzamiento) =
2
Por lo tanto:
1
P ( A) =
k =1 2
2k
1
1
4
1
1 = 1 =
= =
1
3
3
k =1 4
1
4
ya que si 0<p<1, entonces
k =0
1
1 p
Espacios de equiprobabilidad: Sea un experimento aleatorio cuyo espacio muestral

asociado S es finito y sea n = # S (el smbolo # representa el cardinal del conjunto).
Diremos que el espacio es de equiprobabilidad si los n sucesos elementales tienen igual
probabilidad, es decir si
P( Ei ) = p
Como 1 =P( S ) =
i =1
i =1
P( Ei ) = p = np
Dado cualquier suceso A, P ( A) =
p=
P( E ) =
Ei A
Ei A
1
1
=
.
n #S
1 #A
.
=
n #S
Ejemplos: 1) De una urna que contiene 2 bolillas blancas y 3 rojas se extraen 2 bolillas
con reposicin.
a) Cul es la probabilidad de que se extraiga al menos una bolilla roja?
b) Cul es la probabilidad de que la primera bolilla extrada sea roja y la segunda
blanca?
Supondremos que las bolillas estn numeradas, de manera de poder considerar que se
trata de un espacio de equiprobabilidad, entonces S = {( x1 , x 2 ) / x i {R1 , R 2 , R3 , B1 , B2 }} y
su cardinal es #S = 5 5 = 25

a)
P( A) = 1 P( A c )
resulta P ( A c ) =
b)
siendo
25
2004
A c = {( x1 , x 2 ) S / x i {B1 , B2 }} . Como # A c = 2 2 = 4 ,
4 21
=
P( A) = 1
.
25 25
B = {( x1 , x 2 ) S / x1 {R1 , R 2 , R3 }, x 2 {B1 , B2 }}. Como # B = 3 2 = 6 P( B) =
6
.
25
2) Consideremos el ejemplo 1) pero suponiendo ahora que las extracciones se realizan

sin reposicin.
En este caso, S = {( x1 , x 2 ) / x i {R1 , R 2 , R3 , B1 , B2 }, x1 x 2 } # S = 5 4 = 20.
A c = {( x1 , x 2 ) S / x i {B1 , B2 }} . Como # A c = 2 1 = 2 ,
1
9
2
1
resulta P ( A c ) =
=
P( A) = 1 = .
10 10
20 10
a) P ( A) = 1 P( A c )
siendo
b) B = {( x1 , x 2 ) S / x1 {R1 , R 2 , R3 }, x 2 {B1 , B2 }}. Como # B = 3 2 = 6 P( B) =
6
.
20
Observacin: Qu pasara si en los ejemplos anteriores eligisemos como espacio

muestral S = {( B, B ), ( B, R ), ( R, B), ( R, R )} , denotando B: bolilla blanca y R: bolilla roja?
Sera razonable suponer equiprobabilidad?.
10

2004
Probabilidad condicional
Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas, 2
son lisas y 2 rayadas y de las 5 bolillas blancas, 4 son lisas y una sola es rayada.
Supongamos que se extrae una bolilla y, sin que la hayamos mirado, alguien nos dice que
la bolilla es roja, cul es la probabilidad de que la bolilla sea rayada?
Sean los sucesos A: la bolilla es rayada y B: la bolilla es roja. Obviamente, sin ninguna
informacin previa, P(A)= 3/9=1/3 y P(B)=4/9.
Sin embargo, como sabemos que la bolilla es roja, la probabilidad de que sea rayada es
, ya que, de las rojas la mitad es lisa y la mitad rayada. Observemos, que al ocurrir B, el
espacio muestral se reduce.
En general, dado un experimento y su espacio muestral asociado, queremos determinar
cmo afecta a la probabilidad de A el hecho de saber que ha ocurrido otro evento B.
Definicin: Sean A y B eventos tales que P(B) > 0, la probabilidad del evento A
condicional a la ocurrencia del evento B es
P( A | B) =
P( A B)
P( B)
Ejemplos: 1) En el ejemplo anterior, P(B)=4/9 y
P( A | B) =
P( A B) 2 / 9 2 1
=
= = .
P( B)
4/9 4 2
2) Consideremos una poblacin en la que cada individuo es clasificado segn dos

criterios: es o no portador de HIV y pertenece o no a cierto grupo de riesgo que
denominaremos R. La correspondiente tabla de probabilidades es:
Pertenece a R (B)
No pertenece a R (Bc)
Portador (A)
0.003
0.003
0.006
No portador (Ac)
0.017
0.977
0.994
0.020
0.980
1.000
En esta poblacin, la probabilidad de que un individuo sea portador es P(A)=0.006 y la

probabilidad de que sea portador y pertenezca al grupo de riesgo R es P(A B)=0.003.
Dado que una persona seleccionada al azar pertenece al grupo de riesgo R, cul es la
probabilidad de que sea portador?
P( A | B) =
P( A B) 0.003
=
= 0.150
P( B)
0.020
11

2004
es decir que 150 de cada 1000 individuos del grupo de riesgo R, son probablemente
portadores de HIV.
Calculemos ahora la probabilidad de que una persona sea portadora de HIV, dado que no
pertenece al grupo de riesgo R.
P( A | B c ) =
P( A B c ) 0.003
=
= 0.00306
0.980
P( B c )
es decir que slo 3 de cada 1000 individuos no pertenecientes al grupo de riesgo R, son
posibles portadores de HIV.
Propiedades de la Probabilidad condicional: Dado un suceso B fijo tal que P(B) > 0, P(|B)
es una probabilidad, en el sentido que satisface los axiomas de probabilidad y por lo tanto
todas las propiedades que se deducen a partir de ellos. Por ejemplo:
A1. P(A|B) 0 para todo suceso A.
A2. P(S|B) = 1.
Dem: P ( S | B) =
P( S B) P( B)
=
= 1.
P( B)
P( B)
Ejercicios: 1) Verificar que P(|B) satisface el axioma A3a.

2) Verificar que P((A1 A2) | B) = P(A1 | B) + P(A2 | B) P((A1 A2) | B)
Regla del producto: Dados dos sucesos A y B, tales que P(B) > 0,
P(A B) = P(A|B) P(B)
Si adems, P(A) > 0,
P(A B) = P(B | A) P(A)
Ejemplo: En el ejemplo presentado al comienzo, supongamos ahora que se extraen dos
bolillas sin reposicin . Cul es la probabilidad de extraer una bolilla roja y una blanca,
en ese orden?
Sean C: la primera bolilla es roja y D: la segunda bolilla es blanca. debemos calcular
P(C D). Aplicando la regla del producto
12

P(C D) = P(C ) P( D | C ) =
2004
4 5 20 5
=
= .
9 8 72 18
La regla del producto es especialmente til cuando el experimento consta de varias

etapas ya que se puede generalizar. As, por ejemplo, si P ( A1 ) > 0 y P ( A1 A2 ) > 0 , se
tiene
P( A1 A2 A3 ) = P( A1 ) P( A2 | A1 ) P( A3 | ( A1 A2 ))
y se extiende a n sucesos.
Ejemplo: En el mismo ejemplo, cmo podemos obtener la probabilidad de que la
segunda bolilla extrada sea blanca (suceso D)?. Sabemos calcular, usando la regla del
producto la probabilidad de que la segunda sea blanca y la primera sea roja. Hemos visto
que esta probabilidad es P (C D ) = 5 18 . Del mismo modo podemos obtener la
probabilidad de que ambas bolillas sean blancas (suceso (D C c)). Esta probabilidad es
P(C c D) = P (C c ) P( D | C c ) =
5 4 20 5
=
= .
9 8 72 18
Si ahora observamos que el suceso D puede escribirse como
D = (D C) (D C c )
se obtiene
P( D) = P( D C ) + P( D C c ) =
5
5 5
+ = .
18 18 9
(1)
Cmo podemos obtener ahora la probabilidad de que la primera bolilla haya sido roja
(suceso C) sabiendo que la segunda fue blanca (suceso D)? La probabilidad requerida es
P (C | D) =
P (C D) 5 18 1
=
= .
P( D)
59 2
(2)
Los resultados (1) y (2) son ejemplos de aplicacin de los dos Teoremas que veremos a
continuacin: el Teorema de la Probabilidad Total y el Teorema de Bayes,
respectivamente.
Definicin: Una coleccin de eventos A1 , A2 ,..., Ak constituye una particin del espacio
muestral S si
13

1.
Ai A j = i j
2.
P( Ai ) > 0
k
3.
UA
2004
=S
i =1
Teorema de la probabilidad total: Sea A1 , A2 ,..., Ak una particin del espacio muestral S y
sea B un suceso cualquiera,
k
P ( B) = P( B | Ai ) P ( Ai )
i =1
Dem:
k
k
B = B S = B U Ai = U (B Ai )
i =1 i =1
Como ( B Ai ) ( B A j ) = i j , entonces
k
k
k
P ( B) = P U ( B Ai ) = P( B Ai ) = P( B | Ai ) P( Ai ).
i =1
i =1
i =1
Teorema de Bayes: Sea A1 , A2 ,..., Ak una particin del espacio muestral S y sea B un
suceso cualquiera tal que P(B) > 0,
P( A j | B) =
P( B | A j ) P( A j )
k
P( B | A ) P( A )
i
i =1
Dem:
P( A j | B) =
P( A j B)
P( B)
P( B | A j ) P( A j )
k
P( B | A ) P( A )
i =1
En el numerador se aplic la regla del producto y en el denominador el Teorema de la

probabilidad total.
14

2004
El Teorema de Bayes describe cmo es posible revisar la probabilidad inicial de un

evento o probabilidad a priori (P(Ai)) para reflejar la informacin adicional que nos provee
la ocurrencia de un evento relacionado. La probabilidad revisada se denomina
probabilidad a posteriori.
Ejemplo: Supongamos que cierta prueba para detectar la presencia de una enfermedad
en un individuo, da resultado positivo (detecta la presencia de la enfermedad) en un
individuo enfermo con probabilidad 0.99 y en un individuo sano con probabilidad 0.02
(falso positivo). Por lo tanto, dicha prueba no detecta la enfermedad en un individuo sano
con probabilidad 0.98 y no la detecta en un individuo enfermo con probabilidad 0.01 (falso
negativo). Es decir que si denotamos A: la persona padece esa enfermedad y B: la
prueba es positiva,
P( B | A) = 0.99
P( B | A c ) = 0.02
P( B c | A) = 0.01
P(B c | A c ) = 0.98
Se supone, en base a estudios previos, que la incidencia de esa enfermedad en cierta

poblacin es 0.001, es decir que la probabilidad a priori de A es 0.001. Se selecciona al
azar un individuo de esa poblacin, se le aplica la prueba y el resultado es positivo, cul
es la probabilidad de que en efecto padezca la enfermedad?
Debemos calcular la probabilidad a posteriori de A, P(A|B):
P( A | B) =
0.99 0.001
P( B | A) P ( A)
=
= 0.0472
c
c
P( B | A) P( A) + P( B | A ) P( A ) 0.99 0.001 + 0.02 0.999
Por lo tanto, la probabilidad de que est enfermo, habiendo sido positivo el resultado de la
prueba es aproximadamente 0.05.
Las probabilidades a posteriori dependen fuertemente de las probabilidades a priori. Si se
aplica la prueba a individuos de una poblacin en la cual la incidencia de la enfermedad
es mucho mayor, tambin aumentar la probabilidad a posteriori.
Verifique sto, suponiendo ahora que P(A) = 0.01.
Ms adelante, desarrollaremos otro ejemplo de aplicacin de estos Teoremas.
Independencia
La definicin de probabilidad condicional nos permite revisar la probabilidad P(A)
asignada a un suceso, cuando se sabe que otro suceso B ha ocurrido. Hay casos en los
que P(A | B) P(A), mientras que en otros P(A | B) = P(A), es decir que la ocurrencia del
suceso B no altera la probabilidad de ocurrencia de A.
15

2004
Ejemplo: De una urna que contiene 4 bolillas negras y 6 blancas se extraen dos bolillas
sin reposicin , cul es la probabilidad de que la segunda bolilla sea blanca, sabiendo
que la primera es negra?
Denominando A: la segunda bolilla es blanca y B: la primera bolilla es negra,
P( A | B) =
6 2
= .
9 3
Por otra parte,
P ( A) = P( A | B) P ( B) + P( A | B c ) P( B c ) =
6 4 5 6 54 6 3
+
=
= =
9 10 9 10 90 10 5
y, por lo tanto, P ( A | B ) P ( A), es decir que la ocurrencia del suceso B modifica la

probabilidad del suceso A.
Observemos que la probabilidad de que la segunda bolilla sea blanca coincide con la
probabilidad de que la primera lo sea.
Ejercicio: Verificar que, en cambio, si las extracciones se realizan con reposicin, P(A) =
P(A|B).
Diremos que los eventos A y B son independientes si la informacin acerca de la
ocurrencia o no de uno de ellos no afecta la probabilidad de ocurrencia del otro,
Definicin: Los eventos A y B son independientes si
P( A B) = P( A) P( B)
Si la igualdad no se cumple, decimos que A y B son dependientes.
Proposicin: Supongamos P(B) > 0, A y B son independientes si y slo si P(A|B)=P(A).
P( A B)
est bien definida, pero por ser A y B
P( B)
independientes, P ( A B ) = P ( A) P ( B ) , entonces
Dem: () Si P ( B ) > 0 P ( A | B ) =
P( A | B) =
P( A) P( B)
= P( A)
P( B)
() Aplicando la regla del producto, si P(B)>0, P ( A B ) = P ( A | B ) P ( B) = P ( A) P ( B) .

Observacin: Si P(B) = 0, como A B B , P( A B) = 0, y por lo tanto la igualdad
P( A B) = P( A) P( B) siempre se satisface.
16

2004
Ejemplo: De un mazo de 40 cartas espaolas, se extrae una carta al azar. Consideremos

los siguientes sucesos:
A: la carta es copa o espada
B: la carta no es copa
C: la carta es copa u oro
P( A) =
20 1
=
40 2
P( B) =
30 3
=
40 4
P(C ) =
20 1
=
40 2
1
P( A B)
1
P( A | B) =
= 4 = P( A) , entonces A y B no son independientes.
3
P( B)
3
4
1
P( A C )
1
P( A | C ) =
= 4 = = P( A) , entonces A y C son independientes.
1
P(C )
2
2
Propiedades: 1) Si los sucesos A y B son excluyentes, es decir si A B = y si P(A)>0,
P(B) > 0, entonces A y B no son independientes.
Dem: En efecto, en este caso, 0 = P ( A B ) P ( A) P ( B ).
2) Si P(B) = 0, entonces B es independiente de cualquier suceso A tal que P(A) > 0.
Dem: Como A B B, P(A B) = 0 y por lo tanto P(A B) = P(A) P(B), es decir que A y
B son independientes.
3) Si A B , P ( A) > 0 y P ( B) < 1, A y B no son independientes.
Dem: Como A B A B = A P( A B) = P( A) P( A) P( B) . Luego, A y B no son
independientes.
4) Si A y B son sucesos independientes, A y Bc tambin lo son.
Dem:
P ( A) = P( A B) + P ( A B c ) P( A B c ) = P( A) P ( A B) = P( A) P( A) P( B) =
P( A) (1 P( B) ) = P( A) P( B c ) .
Ejercicio: Demostrar que si A y B son sucesos independientes, Ac y Bc tambin lo son.
17

2004
Independencia de ms de dos eventos: La definicin de independencia de dos eventos

puede extenderse a ms de dos.
Definicin: Los eventos A1 , A2 ,..., An son independientes si para todo k = 2,..., n y para
todo conjunto de ndices
{i1 , i2 ,..., ik } tales que 1 i1 < i2 < ... < ik n , se verifica
P( Ai1 Ai2 .... Aik ) = P( Ai1 ) P( Ai2 )....P( Aik )

n n
Es decir que es necesario verificar + + ... = 2 n n 1 condiciones.

2
3
n
Observacin: Si los sucesos A1 , A2 ,..., An son independientes,
independientes de a pares pero la recproca no es cierta.
entonces
son
Ejemplos: 1) Sea S = {w1 , w2 , w3 , w4 } un espacio de equiprobabilidad y consideremos n =

3 y los sucesos
A = {w1 , w4 }
B = {w2 , w4 }
P( A) = P( B ) = P(C ) =
C = {w3 , w4 }
1
.
2
Adems,
1
= P( A) P( B)
4
1
P( A C ) = = P( A) P(C )
4
1
P( B C ) = = P( B) P(C )
4
P( A B) =
es decir, que los sucesos son independientes de a pares. Sin embargo,
P( A B C ) =
1
P( A) P( B) P(C )
4
y, por lo tanto, los sucesos A, B y C no son independientes.

2) Veamos un ejemplo tambin para el caso n = 3, en el cual se satisface la factorizacin
de P( A B C ) y no se cumple para alguna de las intersecciones dobles. Sea
S = {w1 , w2 , w3 , w4 , w5 , w6 , w7 , w8 } un espacio de equiprobabilidad y consideremos los
sucesos
A = {w1 , w2 , w3 , w4 }
B = {w1 , w2 , w7 , w8 }
C = {w1 , w5 , w6 , w7 }
18

Como antes, P ( A) = P ( B ) = P (C ) =
2004
1
. Adems,
2
1
= P( A) P( B)
4
1
P( B C ) = = P( B) P(C )
4
1
P( A C ) = P( A) P(C )
8
P( A B) =
Se observa que no se satisface una de las igualdades, pero s se satisface
P( A B C ) =
1
= P( A) P( B) P(C ).
8
Finalmente, veremos un ejemplo en el que utilizamos los diferentes conceptos y

propiedades estudiadas en esta Seccin.
Ejemplo: Muchos sistemas de computacin trabajan con enormes bases de datos, como
por ejemplo, sistemas de tarjetas de crdito o sistemas de reservas de pasajes areos.
Debido al volumen de datos involucrado, la velocidad de acceso al sistema depende de
las caractersticas de las unidades de almacenamiento utilizadas, como as tambin de las
redes de comunicacin conectadas a la base de datos. Nos concentraremos en el primer
aspecto, es decir en el problema del almacenamiento.
Consideremos unidades de almacenamiento consistentes en discos planos, cada uno de
los cules est compuesto por un conjunto de anillos concntricos denominados pistas.
Cada pista est a su vez subdivida en reas de almacenamiento denominadas sectores.
El acceso al disco se realiza mediante una cabeza lectora/grabadora que se puede mover
hacia adelante o hacia atrs a lo largo de un brazo fijo. El disco rota bajo ese brazo y la
cabeza lee o modifica un dato cuando el correspondiente sector pasa bajo ella.
Consideremos un disco que consiste de 76 pistas, numeradas de 0 a 75, con 8 sectores
cada una, numerados de 0 a 7.
Supongamos que, en el momento en que se debe acceder a un dato que se encuentra en
el sector 2 de la pista 51, la cabeza se encuentra sobre la pista 22. Entonces, debe
moverse en primer lugar hasta la pista 51 (este movimiento se llama bsqueda o seek) y
luego debe esperar hasta que el sector 2 pase bajo ella (este perodo de tiempo se
denomina retardo rotacional o rotational delay).
Si el cabezal se mueve por ejemplo a una velocidad de 3.2 milisegundos (ms) por pista, la
bsqueda del ejemplo demandara (3.2) (51-22) = (3.2)(29) = 92.8 ms. Si adems
suponemos que el disco realiza una rotacin completa en 30 ms, el retardo rotacional
19

2004
puede demorar entre 0 y 30 ms, con un promedio de 15 ms. Por ltimo, supongamos que
el acceso concreto al dato demora 1.2 milisegundos.
Este sistema es de naturaleza probabilstica o aleatoria. Las demandas de acceso arriban
en tiempos aleatorios y se demandan datos aleatorios, en el sentido de que no sabemos
con anticipacin qu dato se va a requerir.
Analicemos el siguiente ejemplo. Supongamos que las probabilidades de que una
demanda de acceso corresponda a cada una de las 76 pistas son iguales y que accesos
sucesivos son independientes. Supongamos tambin que la cabeza lectora/grabadora se
encuentra sobre la pista 20, cul es la probabilidad de que el tiempo total de bsqueda
(seek) para las dos siguientes demandas de acceso sea a lo sumo 50 ms?
Sea A el suceso la bsqueda combinada demora a lo sumo 50 ms y definamos, para
cada i = 0,1,..., 75, los sucesos
Ti: el primero de los dos accesos siguientes corresponder a un dato que est sobre la
pista i
Entonces
75
75
i =0
i =0
P( A) = P( A Ti ) = P( A | Ti ) P(Ti )
(3)
Como se observa, debemos calcular P ( A | Ti ) , es decir debemos calcular la probabilidad

de que la bsqueda combinada demore a lo sumo 50 ms dado que el primer acceso es a
la pista i, para i = 0,1,..,75. Por ejemplo, cmo calcularamos P( A | T26 ) ?
Si la primera bsqueda nos lleva a la pista 26, demandar (26-20) (3.2) ms = 19.2 ms, por
lo tanto la bsqueda total llevar a lo sumo 50 ms si la segunda bsqueda demora a lo
sumo 30.8 ms. Como en 30.8 ms se pueden recorrer a lo sumo 9 pistas (30.8/3.2), no
podemos ir ms all de la pista 26-9=17 o de la pista 26+9=35. En otras palabras
P( A | T26 ) ser la probabilidad de que el segundo pedido de acceso se refiera a un dato
que est entre las pistas 17 y 35 inclusive. Dado que suponemos que todas las pistas son
equiprobables,
P( A | T26 ) =
19 1
= .
76 4
Del mismo modo, se calculan todas las probabilidades condicionales requeridas en (3) y
se obtiene el valor de P(A) pedido.
20

2004
Variables aleatorias discretas

Al realizar un experimento generalmente estamos interesados en alguna funcin del
resultado ms que en el resultado en s mismo. As, por ejemplo, al arrojar un dado dos
veces podramos estar interesados slo en la suma de los puntos obtenidos y no en el par
de valores que dio origen a ese valor de la suma. Esa cantidad de inters, o ms
formalmente esa funcin a valores reales definida sobre el espacio muestral se denomina
variable aleatoria. Variable porque toma distintos valores y aleatoria porque el valor
observado no puede ser predicho antes de la realizacin del experimento, aunque s se
sabe cules son sus posibles valores.
Dado que el valor de una variable aleatoria (en adelante lo abreviaremos v.a.) es
determinado por el resultado de un experimento, podremos asignar probabilidades a los
posibles valores o conjuntos de valores de la variable.
Ejemplo: Se arroja dos veces un dado equilibrado. Un espacio muestral asociado es:
S = {( x1 , x 2 ) / x i {1,2,3,4,5,6}}
Posibles v.a. asociadas con este experimento son:
X: nmero de caras pares
Y: mximo puntaje
Z: suma de puntos
Definicin: Sea S un espacio muestral asociado con un experimento aleatorio. Una
variable aleatoria X es una funcin que asocia a cada elemento w S un nmero real
X(w)=x, es decir
X :S
Como se observa, en general representaremos a las v.a. con letras maysculas: X, Y, Z,
etc. y sus valores con letras minsculas, es decir X(w)=x significa que x es el nmero real
asociado al resultado w S a travs de X.
Ejemplos: 1) Volviendo al ejemplo anterior,
X((2,5)) = 1
X((1,3)) = 0
X((2,2)) = 2
Y((2,5)) = 5
Y((1,3)) = 3
Y((2,2)) = 2
Z((2,5)) = 7
Z((1,3)) = 4
Z((2,2)) = 4
2) Se arroja una moneda equilibrada 3 veces,
1
X =
0
si el nmero de caras es impar

en caso contrario
21

2004
3) Se arroja una moneda equilibrada hasta que se obtiene la primera cara,

X: nmero de tiros necesarios
4) A partir del instante en que se intenta la conexin a un servidor, se registra el tiempo
que demora en concretarse la misma,
X: tiempo requerido para la conexin.
En los ejemplos 1), 2) y 3) las v.a. toman un nmero finito o infinito numerable de valores,
mientras que en el ejemplo 4) la v.a. X toma valores en un conjunto infinito no numerable,
el intervalo (0, ) o un intervalo (0, M) si existe un tiempo mximo (time out).
Notacin: Indicaremos con RX el rango de la v.a. X, es decir el conjunto de valores
posibles de la v.a. X.
Ejemplos: En los ejemplos anteriores,
1) RX = {0,1,2}
RY = {1,2,3,4,5,6}
RZ = {2,3,4,5,6,7,8,9,10,11,12}
2) RX = {0,1}
3) RX = {1,2,3,...} = N
4) RX = (0,) (0,M) si existe un time out
Definicin: Una v.a. es discreta si toma un nmero finito o infinito numerable de valores.
Ejemplo: En el caso del ejemplo 1), cmo calcularamos la probabilidad de que la v.a. Z
tome el valor 7, suponiendo que los lanzamientos son independientes?
P ( Z = 7) = P({( x1 , x 2 ) S / Z (( x1 , x 2 ) ) = 7}) = P({(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}) =
6 1
= .
36 6
Definicin: La funcin de probabilidad puntual o de masa de la v.a. discreta X, se

define para todo x como
p X ( x) = P( X = x) = P({w S / X ( w) = x})
Se cumplen las siguientes propiedades:
22

p X ( x) 0
xR X
2004
( x) = 1
La funcin de probabilidad puntual de una v.a. X nos dice cmo se distribuye la

probabilidad total entre los distintos valores de X, y se determina a partir de la
probabilidad de los sucesos asociados a cada valor de X.
Ejemplos: 1) Hallemos la funcin de probabilidad puntual de la v.a. X : nmero de caras
pares al arrojar dos veces un dado equilibrado. Recordemos que RX = {0,1,2}.
p X (0) = P( X = 0) = P({( x1 , x 2 ) S / x1 , x 2 {1,3,5}}) =
9 1
=
36 4
p X (1) = P( X = 1) =
= P({( x1 , x 2 ) S / x1 {1,3,5}, x 2 {2,4,6}} {( x1 , x 2 ) S / x1 {2,4,6}, x 2 {1,3,5}}) =
p X (2) = P( X = 2) = P{( x1 , x 2 ) S / x1 , x 2 {2,4,6}} =
18 1
=
36 2
9 1
=
36 4
Podemos resumir esta informacin en una tabla de la forma:

x
pX(x)
0
1/4
1
1/2
2
1/4
o mediante un grfico en el cual, para cada valor de x se construye una barra o un

rectngulo centrado en x, cuya altura es proporcional a pX(x)
Diagrama de Barras
Histograma
23

2004
Definicin: La funcin de distribucin acumulada de una v.a. discreta X con funcin de

probabilidad puntual pX(x) se define para todo x , como
FX ( x) = P( X x) =
y x , yR X
( y)
Es decir que FX (x) es la probabilidad de que la v.a. X tome valores menores o iguales
que x.
Ejemplo: Volviendo al ejemplo 1), hallemos la funcin de distribucin acumulada de la v.a.
X, cuya funcin de probabilidad puntual es
x
pX(x)
1< x < 2
x=2
x>2
2
1/4
F X ( 0) = P ( X 0) = p X ( 0) = 1
4
F X ( x ) = P ( X x ) = p X ( 0) = 1
4
0 < x <1
x =1
1
1/2
FX ( x ) = P ( X x ) = 0
Si x < 0
x=0
0
1/4
FX (1) = P( X 1) = p X (0) + p X (1) = 1 + 1 = 3

4
2
4
3
FX ( x) = P( X x) = p X (0) + p X (1) =
4
FX (2) = P( X 2) = p X (0) + p X (1) + p X (2) = 1 +
4
FX ( x) = P( X 2) = p X (0) + p X (1) + p X (2) = 1 +
4
1 +
2
1 +
2
1 =1
4
1 =1
4
Resumiendo:
0
1
FX ( x) = 4
3
4
1
si x < 0
si 0 x < 1
si 1 x < 2
si x 2
Cmo es FX (x)?
Observamos que se trata de una funcin escalera, no decreciente que toma valores entre
0 y 1.
24

2004
Propiedades de la funcin de distribucin acumulada:

i) x , FX ( x) [0,1] .
ii) FX (x) es montona no decreciente, es decir que si x1 < x 2 FX ( x1 ) FX ( x 2 ).
iii) FX (x) es continua a derecha, es decir lim+ FX ( x + h) = FX ( x).
ho
iv) lim FX ( x) = 1
x
lim FX ( x) = 0
x -
v) En cada punto x, el valor del salto es la probabilidad puntual, es decir
p X ( x) = FX ( x ) F X ( x )
donde
x = lim+ ( x h) (lmite por la izquierda). En particular si X toma valores

h 0
x1 < x 2 < ... , entonces p X ( xi ) = FX ( xi ) FX ( xi 1 ) para todo i 2 y p X ( x1 ) = FX ( x1 ) .

Dem: Daremos slo demostraciones heursticas de estas propiedades. Demostraciones
rigurosas pueden encontrarse, por ejemplo, en S. Ross (1988) o B. James (1981).
i) Obvio, ya que FX ( x) = P ( X x) = P ({w S / X ( s ) x}) y
valores entre 0 y 1.
toda probabilidad toma
ii) Consideremos el suceso
A = {w / X ( w) x 2 } = {w / X ( w) x1 } {w / x1 < X ( w) x 2 } = A1 A2
Como A1 A2 = , P ( A) = P( A1 ) + P( A2 ) , es decir
P ( X x 2 ) = P( X x1 ) + P ( x1 < X x 2 ) P( X x1 )
y, por lo tanto,
25

2004
FX ( x 2 ) FX ( x1 )
iii) Recordemos que una funcin g (x) es continua a derecha en x si lim+ g ( x + h) = g ( x) .
h 0
Por lo tanto, la continuidad a derecha de FX (x) en todo x resulta de su definicin:
FX ( x) = P( X x) .
iv) lim FX ( x) = lim P( X x) = lim P{w / X ( w) x} = P( S ) = 1
x
lim FX ( x) = lim P( X x) = lim P( w / X ( w) x) = P ()=0
x -
x -
x -
v) p X ( x) = P( X = x) = P( X x) P( X < x) = FX ( x) FX ( x )
Proposicin: Sean a y b tales que a b , entonces
P(a < X b) = FX (b) FX (a)

P(a X b) = FX (b) FX (a )
P(a < X < b) = FX (b ) FX (a )
P(a X < b) = FX (b ) FX (a )
Dem: Demostremos la primera igualdad
P (a < X b) = P( X (a, b]) = P( X ( , b]) P( X ( , a ])

= P( X b) P( X a ) = FX (b)-FX (a )
Ejercicio: Demostrar las siguientes 3 igualdades, usando por ejemplo que
P ( a X b) = P ( a < X b) + P ( X = a )
y aplicando la propiedad v) de las funciones de distribucin acumuladas.
Ejemplo: Volviendo al ejemplo 1), y usando la funcin de distribucin calculada antes,

calculemos P( 1 X 2 ) y P( X = 1 ) .
1 3
=
4 4
3 1 1
P( X = 1) = FX (1) FX (1 ) = = .
4 4 2
P(1 X 2) = FX (2) FX (1 ) = 1
26

2004
Ejemplo: Un experimento tiene slo dos resultados posibles, que denominaremos xito y
Fracaso. El experimento se repite en forma independiente hasta que se obtiene el primer
xito. Sea p = P(xito), 0 < p < 1, y definamos la v.a. X = nmero de repeticiones hasta
obtener el primer xito. Como ya hemos visto, RX = N.
Hallemos la funcin de probabilidad puntual de la v.a. X.
p X (1) = p
p X (2) = (1 p) p
p X (3) = (1 p ) 2 p
..........................
p X (k ) = (1 p) k 1 p
.........................
Entonces,
p X (k ) = (1 p ) k 1 p
k N .
Verifiquemos que en efecto esta funcin satisface las dos propiedades
p X ( x) 0
xR X
( x) = 1
Dado que 0 < p < 1 , la primer propiedad obviamente se satisface. Respecto a la segunda,
k =1
k =1
j =0
p X (k ) = (1 p) k 1 p = p (1 p) j = p
1
=1
1 (1 p )
donde hemos usado que la suma de la serie geomtrica
q
i =0
1
, si q < 1.
1 q
Hallemos la funcin de distribucin acumulada de la v.a. X.
27

x <1
FX ( x ) = 0
1 x < 2
FX (x) = p
2 x<3
FX (x) = p + p( 1-p)
3 x<4
FX (x) = p + p( 1-p) + p( 1-p) 2
2004
..............................................................
k x < k +1
k 1
j =1
i =0
F X ( x) = p (1 p) j 1 = p (1 p) i = p
1 (1 p) k
= 1 (1 p ) k
1 (1 p )
..............................................................
1 q n +1
Hemos usado que la suma parcial de una serie geomtrica es q =
.
1 q
i =0
n
Recordemos que la funcin de distribucin debe estar definida para todo x , entonces
0
FX ( x) =
[x ]
1 (1 p)
si x < 1
si x 1
donde [a ] denota la parte entera de a .

Ejercicio: Verificar que esta funcin de distribucin satisface las propiedades enunciadas
antes.
Parmetro de una funcin de probabilidad: En el ejemplo anterior la probabilidad de xito
la designamos p donde 0 < p < 1. Variando este valor obtenemos diferentes funciones de
probabilidad que constituyen lo que se denomina una familia de distribuciones. El valor p
se denomina parmetro de la distribucin.
En el caso del ejemplo, la familia obtenida se denomina Geomtrica de parmetro p y
diremos que X ~ G(p). Por ejemplo, si el experimento hubiese consistido en arrojar un
dado equilibrado hasta obtener el primer as, X ~ G(1/6) y si hubiese consistido en arrojar
una moneda equilibrada hasta obtener la primera cara, X ~ G(1/2).
Esperanza o valor esperado de una v.a. discreta:

Una empresa proveedora de servicio de Televisin Satelital tiene 20000 clientes en cierta
zona, cada uno de los cules puede optar por contratar de 1 a 5 paquetes de seales (el
abono bsico consiste en un solo paquete y cada uno de los otros paquetes incluye
grupos de seales temticas o premium). Supongamos que, entre los 20000 clientes, la
distribucin del nmero de paquetes X contratados es la siguiente:
28

x
nmero de clientes
proporcin
1
7500
37.5%
2
5500
27.5%
3
3500
17.5%
2004
4
2000
10.0%
5
1500
7.5%
Si interesa el nmero promedio de paquetes contratados, o sea el valor promedio de X en

la poblacin, deberamos calcular:
1 7500 + 2 5500 + 3 3500 + 4 2000 + 5 1500 44500

=
= 2.225
20000
20000
Observemos que, si no hubisemos conocido los nmeros de clientes que contratan cada
nmero de paquetes ni el total de la poblacin, sino slo las proporciones de cada nmero
(o su probabilidad) hubisemos podido obtener el valor promedio, ya que dicho nmero
puede escribirse en la forma:
7500
5500
3500
2000
1500
+ 2
+ 3
+ 4
+ 5
=
20000
20000
20000
20000
20000
= 1 0.375 + 2 0.275 + 3 0.175 + 4 0.10 + 5 0.075
sto motiva la siguiente definicin.

Definicin: Sea X una v.a. discreta que toma valores en RX con funcin de probabilidad
puntual pX(x), la esperanza o valor esperado de X se define como
E( X ) = X =
siempre que
x p
xR X
( x)
p X ( x) < . Si la serie de los valores absolutos diverge, la esperanza
xR X
no puede definirse y decimos que no existe.

Ejemplos: 1) Sea X: nmero de caras pares al arrojar dos veces un dado equilibrado.
Como
x
pX(x)
entonces,
E( X ) = 0
0
1/4
1
1/2
2
1/4
1
1
1
+1 + 2 =1.
4
2
4
29

2004
2) Sea X una v.a. que toma slo dos valores que designaremos 1 y 0 (xito y Fracaso)
con la siguiente funcin de probabilidad puntual
x
pX(x)
1
0
1-
siendo 0 < < 1. Una v.a. de este tipo se dice que es una v.a. de tipo Bernoulli y su
esperanza es:
E (X ) = 1 + 0 (1 ) =
3) Veamos un ejemplo en que no existe E(X). Sea X una v.a. con la siguiente funcin de
probabilidad puntual
6 1
p X ( x ) = 2 x 2
0
si x N
en otro caso
En primer lugar, observemos que pX(x) es una funcin de probabilidad puntual, ya que
1 2
=
2
6
x =1 x
y, por lo tanto la suma de las probabilidades es 1. Calculemos la esperanza de X,
E( X ) = x
x =1
6 1
6
= 2
2
2
x
x =1 x
4) Consideremos nuevamente un experimento que tiene slo dos resultados posibles y

que se repite en forma independiente hasta que se obtiene el primer xito. Si p = P(xito),
0 < p < 1, y si definimos la v.a. X = nmero de repeticiones hasta obtener el primer xito,
hemos demostrado que su funcin de probabilidad puntual est dada por
p X (k ) = (1 p) k 1 p
k N
Calculemos la esperanza de X.
k =1
k =1
(1 p ) k
k =1 p
E ( X ) = k p (1 p ) k 1 = p k (1 p ) k 1 = p
30

2004
Como la serie de potencias involucrada en la ltima igualdad es convergente, la derivada

de la suma es la suma de las derivadas, entonces
E( X ) = p
1 1
1
1

1 = p 1 = p 2 = .
(1 p ) k = p
p p
p k =1
p 1 (1 p )
p p
y por lo tanto hemos demostrado que E ( X ) =
1
.
p
Interpretacin de la esperanza: E(X) es el centro de gravedad de la funcin de

probabilidad puntual. Es decir que si imaginamos que sobre cada valor posible de X, xi,
colocamos una masa pX(xi), el punto de equilibrio del sistema es E(X). En este sentido,
podemos decir que E(X) es una medida del centro de la distribucin.
Otra interpretacin de E(X) est relacionada con un resultado que estudiaremos ms
adelante, denominado ley de los grandes nmeros. Imaginemos que se repite
indefinidamente un experimento aleatorio y que en cada repeticin nuestra v.a. X toma
diferentes valores. Se ha demostrado que el promedio de los resultados obtenidos tiende
a estabilizarse en un nmero que es E(X), si es que sta existe.
Esperanza de una funcin de una v.a. discreta: Volvamos al ejemplo considerado al
comienzo del pargrafo dedicado a la esperanza. Sea la v.a. X: nmero de paquetes de
programas contratado por un cliente seleccionado al azar y consideremos su funcin de
probabilidad puntual:
x
pX(x)
1
0.375
2
0.275
3
0.175
4
0.100
5
0.075
Supongamos que el costo del servicio (Y) es funcin del nmero de paquetes contratado,
segn la siguiente frmula:
Y = 30 ( X + 1)
Cul es el valor esperado del costo pagado por cliente? Es decir, cul es E(Y)?.
A partir de la funcin de probabilidad puntual de X, podemos obtener la de funcin de
probabilidad de Y ya que, por un lado RY = {60,90,120,150,180} y, por ejemplo,
P(Y=120)=P(X=3)=0.175. Entonces,
y
pY(y)
60
0.375
90
0.275
120
0.175
150
0.100
180
0.075
y, E (Y ) = 60 0.375 + 90 0.275 + 120 0.175 + 150 0.10 + 180 0.075 = 96.75.
31

Observemos que, E( Y ) =
h( x ) p
x =1
2004
( x ), siendo h( x) = 30( x + 1).
Proposicin: Si X es discreta y toma valores x1, x2, ....., entonces h(X) es discreta con
valores y1, y2, ...., siendo yj = h(xi) para al menos un valor de i.
Proposicin: Si la v.a. X tiene funcin de probabilidad puntual pX(x) para todo x RX,
entonces la esperanza de cualquier funcin real h(X), est dada por
E (h( X )) =
h( x ) p
xR X
( x)
si la serie es absolutamente convergente, o sea si
h( x )
xR X
p X ( x) < .
Dem: Sea Y = h( X ), entonces
E (Y ) = y j pY ( y j ) = y j p X ( x i ) = y j p X ( x i ) = h( x i ) p X ( xi ) .
j
j
i
i / h ( xi ) = y j
j i / h ( xi ) = y j
Propiedades de la esperanza:
1) (Linealidad) Si a y b son constantes reales, E (aX + b) = aE ( X ) + b .
Dem: Sea h( X ) = aX + b, entonces
E (h( X )) = E (aX + b) =
(ax + b) p
xR X
( x) = a x p X ( x) + b p X ( x) =aE ( X ) + b.
xR X
xR X
2) Si X es una v.a. tal que P(X=c)=1, entonces E(X)=c.

Dem: E ( X ) = cp X (c) = c.
Varianza de una v.a. discreta:

Consideremos las siguientes funciones de probabilidad:
x
pX(x)
y
pY(y)
1
1/12
2
1/3
3
1/3
4
1/3
2
5/12
3
2/12
4
1/12
5
3/12
32

z
pZ(z)
2004
3
1
Estas tres v.a. tienen la misma esperanza, sin embargo la forma de su distribucin es muy
diferente.
Ejercicio: Graficar las tres funciones de probabilidad puntual y verificar que

E(X)=E(Y)=E(Z)=3.
Definiremos una medida de la variabilidad de una variable aleatoria alrededor de su
esperanza.
Definicin: Sea X una v.a. discreta con funcin de probabilidad puntual pX(x) y esperanza
X, la varianza de X, que se denotar V(X), X2 2 , es
V ( X ) = X2 =
(x
) 2 p X ( x) = E [( X X ) 2 ].
xR X
y el desvo standard de X, es X = + V ( X ) .
Ejemplos: 1) Calculemos la varianza y el desvo standard de las tres v.a. que acabamos
de presentar, cuya esperanza es igual a 3.
1
1
1 2
+ ( 3 3 )2 + ( 4 3 )2 =
3
3
3 3
1
5
2
1
3 22 11
V ( Y ) = Y2 = ( 1 3 ) 2
+ ( 2 3 )2
+ ( 3 3 )2
+ ( 4 3 )2
+ ( 5 3 )2
=
=
12
12
12
12
12 12 6
V ( Z ) = Z2 = ( 3 3 ) 2 1 = 0
V ( X ) = X2 = ( 2 3 ) 2
2) Consideremos X: nmero de caras pares al arrojar dos veces un dado equilibrado

cuya funcin de probabilidad puntual es
x
pX(x)
0
1/4
1
1/2
2
1/4
y su esperanza es E ( X ) = 1 , entonces
V ( X ) = (0 1) 2
1
1
1 1
+ (1 1) 2 + (2 1) 2 = .
4
2
4 2
33

2004
3) Sea X una v.a. Bernoulli con funcin de probabilidad puntual

x
pX(x)
1
0
1-
E ( X ) = , entonces
con 0 < < 1. Recordemos que
V ( X ) = (1 ) 2 + (0 ) 2 (1 ) = (1 ) [(1 ) + ] = (1 ).
Proposicin: V ( X ) = E ( X 2 ) (E ( X ) ) .
2
Dem:
) (x
) 2 p X ( x) =
xp
( x) + X2
V (X ) = E (X X )2 =
=
xR X
xR X
p X ( x) 2 X
xR X
(x
xR X
xR X
2 X x + X2 p X ( x) =
( x) = E ( X 2 ) 2 X E ( X ) + X2 =
= E ( X 2 ) 2 X2 + X2 = E ( X 2 ) X2 = E ( X 2 ) (E ( X ) ) .
2
Ejemplo: Consideremos nuevamente un experimento que tiene slo dos resultados

posibles y que se repite en forma independiente hasta que se obtiene el primer xito. Si p
= P(xito), 0 < p < 1, hemos definido la v.a. X = nmero de repeticiones hasta obtener el
primer xito, cuya funcin de probabilidad puntual est dada por:
p X (k ) = (1 p) k 1 p
Hemos demostrado que E ( X ) =
k N
1 p
1
. Demostraremos ahora que V ( X ) =
.
p
p2
Calculemos E ( X 2 ).
k =1
k =1
E ( X 2 ) = k 2 p (1 p ) k 1 = [(k + 1)k k ] p(1 p) k 1 =
k =1
k =1
k =1
= (k + 1)kp(1 p) k 1 k p (1 p ) k 1 = (k + 1)kp(1 p) k 1 E ( X ) =
2
1
1
= p (k + 1)k (1 p ) k 1 = p 2 (1 p ) k +1 =
p
k =1
k =1 p
p
34

=p
1
1
2
2
k +1
(
1
)
(1 p ) j =
p
p
2
2
p j = 2
p k =1
p
p
=p
1
2
1
2
1
(
1
p
)
p
p
p 2 1 (1 p )
p 2
=p
1
1
2
1
2
1
2 + 1 = p 3 = 2
p p
p p
p
p
p
1
p 2+
2004
1
p =
p
Entonces,
V ( X ) = E ( X 2 ) (E ( X ) ) =
2
2
1
1
1
1 (1 p )
2 = 2 =
2
p p
p
p
p
p2
como queramos demostrar.
Propiedades de la varianza y del desvo standard:

1) V (aX + b) = a 2V ( X )
aX +b = a X .
Dem: Observemos que, en general,
V (h( X )) =
(h( x) E (h( X )))
xR X
p X ( x).
Entonces,
V (aX + b) =
(ax + b E (aX + b))
xR X
(ax aE ( X ))
xR X
p X ( x) =
p X ( x) =a
(ax + b aE ( X ) b))
xR X
(x E ( X ) )
xR X
p X ( x) =
p X ( x) = a 2V ( X )
y, por lo tanto, aX + b = a X .
35

2004
2
En particular, observemos que aX
= a 2 X2 y X2 +b = X2 , y por lo tanto un cambio de
escala afecta la varianza pero una traslacin no la afecta.
2) Si X es una v.a. tal que P(X=c) = 1, entonces V(X) = 0.

Dem: Ejercicio.
36

2004
Variables aleatorias discretas

Distribucin Binomial:
Muchos experimentos aleatorios satisfacen las siguientes condiciones:
El experimento consiste de n pruebas, siendo n fijo.

Las pruebas son idnticas y en cada prueba hay slo dos resultados posibles, que
denominaremos xito (E) y Fracaso (F). Una prueba de este tipo se denomina ensayo
de Bernoulli.
Las pruebas son independientes, es decir que el resultado de una prueba no influye
sobre el de las otras.
La probabilidad de xito (P(E)=p) se mantiene constante en todas las pruebas.
Definicin: Un experimento que satisface estos cuatro requerimientos se denomina

experimento Binomial.
Ejemplos: 1) Se arroja una moneda n veces y se llama xito al suceso sale cara.
2) Se arroja un dado equilibrado n veces y se llama xito al suceso se obtiene un as.
3) Se arroja n veces un dardo a un blanco circular de radio R, el cul contiene en el centro
un crculo de radio R/4 y se denomina xito al suceso el dardo impacta en el crculo
central.
4) Se extraen 4 bolillas con reposicin de una urna que contiene 5 bolillas blancas y 3
negras y se denomina xito al suceso las 4 bolillas son blancas.
5) Es el que sigue un experimento Binomial? Se extraen 2 bolillas sin reposicin de una
urna que contiene 5 bolillas blancas y 3 negras y se denomina xito al suceso la bolilla
extrada es blanca.
NO, no lo es ya que si denominamos Bi al suceso la i-sima bolilla extrada es blanca,
P ( B2 | B1 ) =
4
5
P ( B2 ) =
7
8
y, por lo tanto no se verifica la tercera condicin. En realidad tampoco se verifica la

segunda ya que las pruebas no son idnticas (la composicin de la urna vara).
Observemos que, sin embargo la cuarta condicin se satisface.
Variable aleatoria binomial: Consideremos un experimento binomial que consiste de n
repeticiones y en el cual P(E) = p. Denominaremos v.a. binomial a la variable
X: nmero de xitos en las n repeticiones.
Notacin: X ~ Bi (n,p).
37

2004
Calculemos su funcin de probabilidad puntual. Para ello, observemos en primer lugar

que RX = {0,1,2,...,n}.
Sea k RX, una secuencia posible con k xitos y n-k fracasos es:
E2
...3
E1
F2
...3
F
1
nk
y su probabilidad, dada la independencia de las repeticiones, es p k (1 p ) n k . Pero, hay
n
secuencias posibles conteniendo k xitos, entonces
k
n
P ( X = k ) = p X (k ) = p k (1 p) n k
k {0,1,..., n}
k
n
Verifiquemos que
p
k =0
(k ) = 1. En efecto,
n
n k
n
p (1 p ) n k = ( p + (1 p ) ) = 1n = 1.
p
(
k
)
=
X
k =0
k =0 k
n
Hemos usado la frmula del Binomio de Newton: (a + b) n =
k a
k =0
b nk .
Funcin de distribucin: Si X ~ Bi (n,p),
0
[ x ] n k
FX ( x) = p (1 p) n k
k =0 k
1
si x < 0
si 0 x n
si x > n
donde [x] denota la parte entera de x.

Ejemplo: Supongamos que se arroja un dado equilibrado 10 veces y se llama xito al
suceso se obtiene un as. La v.a.
X: nmero de ases en los 10 tiros
tiene distribucin Binomial de parmetros 10 y 1/6, o sea X ~ Bi (10,1/6), entonces
10 1 5
P ( X = 4) = = 0.054
4 6 6
4
10 1 5
P (3 X 5) =
k = 3 k 6 6
5
10 k
= FX (5) FX (2) =0.22
38

2004
Esperanza y varianza de una variable aleatoria binomial: Sea X ~ Bi (n,p),
E ( X ) = np
V ( X ) = np(1 p)
Dem: En el caso n=1, X es una v.a. Bernoulli y ya hemos demostrado que en este caso,
E(X)=p y V(X) = p(1-p). Sea ahora n>1,
n
n
n
n
n
n!
E ( X ) = k p k (1 p ) n k = k p k (1 p ) n k = k
p k (1 p) n k =
k
k
k!
(n
k)!
k =0
k =1
k =1

n!
(k 1)!(n k )! p
k =1
(n 1)!
p k 1 (1 p ) n k =
k =1 ( k 1)! ( n k )!
n
(1 p) n k = np
n
n 1 n 1
n 1 k 1
j
n 1
p (1 p ) (n 1)(k 1) = np
p (1 p ) n 1 j = np ( p + (1 p) ) = np.
np
k
j
(
1
)
=
j
k =1 k 1
j =0
( )
( )
Recordemos que V ( X ) = E X 2 (E ( X ) ) = E X 2 n 2 p 2 .
2
n
n
n
n
E ( X 2 ) = k 2 p k (1 p) n k = (k (k 1) + k ) p k (1 p) n k
k =0
k =0
k
k
n
n
n
n
n
n
= k (k 1) p k (1 p) n k + k p k (1 p) n k = k (k 1) p k (1 p ) n k + E ( X )
k =0
k =0
k =2
k
k
k
= k (k 1)
k =2
n
n!
n!
p k (1 p ) n k + np =
p k (1 p ) n k + np
k!(n k )!
(
k
2
)!
(
n
k
)!
k =2
= n(n 1) p 2
k =2
= n(n 1) p 2
( k 2)= j
(n 2)!
p k 2 (1 p ) n k + np
(k 2)!(n k )!
n 2 j
p (1 p ) n 2 j + np = n(n 1) p 2 ( p + (1 p ) )n 2 + np
j
j =0
n2
= n(n 1) p 2 + np
39

2004
En realidad, para que la demostracin anterior sea vlida debe ser n 2, pero es
inmediato verificar que, si n=1, E ( X 2 ) = p y por lo tanto la expresin hallada es vlida
para todo n.
Finalmente,
V ( X ) = E ( X 2 ) (E ( X ) ) = n(n 1) p 2 + np n 2 p 2 = np 2 + np = np (1 p )
2
En el siguiente grfico se muestra la funcin de probabilidad puntual correspondiente a la

distribucin Binomial para distintos valores de p y n=10. Puede observarse cmo la
distribucin se simetriza a medida que p tiende a 0.5.
Cmo seran los grficos para valores de p>0.5?
10
0.4
2
10
10
10
10
10
0.4
p(x)
0.4
0.0
0.0
8
Bi(10, 0.5 )
0.2
p(x)
0.4
0.2
6
x
4
x
Bi(10, 0.45 )
0.0
Bi(10, 0.4 )
10
0.0
0
0.4
p(x)
0.4
6
Bi(10, 0.35 )
0.0
4
4
x
0.2
p(x)
0.4
0.2
Bi(10, 0.3 )
0.0
p(x)
6
x
Bi(10, 0.25 )
0.2
p(x)
0
0.2
0.2
0.0
0.2
p(x)
0.0
0.2
p(x)
0.0
0
p(x)
Bi(10, 0.2 )
0.4
Bi(10, 0.15 )
0.4
Bi(10, 0.1 )
6
x
10
10
40

2004

distribucin Binomial para distintos valores de p y n.
0.6
2
10
0.6
4
10
10
25
0.6
0.6
p(x)
0.4
0.0
p(x)
0.0
5
20
Bi( 25 , 0.9 )
0.2
0.6
0.4
15
x
Bi( 10 , 0.9 )
0.2
3
x
0.0
0.4
p(x)
2
Bi( 5 , 0.9 )
25
0.0
0
20
0.2
0.6
0.4
p(x)
3
15
Bi( 25 , 0.5 )
0.0
2
10
x
0.2
0.6
0.4
0.2
Bi( 10 , 0.5 )
0.0
p(x)
6
x
Bi( 5 , 0.5 )
0.4
p(x)
0.0
0
0.4
0.2
0.2
0.4
p(x)
0.0
0.2
0.4
p(x)
0.2
0.0
0
p(x)
Bi( 25 , 0.1 )
0.6
Bi( 10 , 0.1 )
0.6
Bi( 5 , 0.1 )
6
x
10
10
15
20
25
41

2004
Variable aleatoria Geomtrica: Supongamos que se repite en forma independiente un

ensayo de Bernoulli con probabilidad de xito (P(E)=p) constante en todas las pruebas.
Se define la v.a.
X: nmero de repeticiones hasta obtener el primer xito.
Notacin: X ~ G (p).
Al estudiar en general las v.a. discretas, hemos probado que la funcin de probabilidad
puntual de X est dada por
p X (k ) = (1 p ) k 1 p
k N .
y su funcin de distribucin acumulada por
0
FX ( x) =
[x ]
1 (1 p )
si x < 1
si x 1
donde [x ] denota la parte entera de x .

Esperanza y varianza de una variable aleatoria geomtrica: Sea X ~ G (p),
E( X ) =
1
p
V (X ) =
(1 p )
p2
Dem: Lo hemos demostrado al estudiar en general la esperanza y la varianza de una v.a.

discreta.
Proposicin (Propiedad de Falta de Memoria): Sea X ~ G (p) y sean n y m nmeros
naturales cualesquiera,
P ( X > n + m | X > n ) = P ( X > m)

Dem: Ejercicio.
(Sugerencia: Demostrar que si X ~ G (p), P ( X > k ) = (1 p ) k ).
Ejemplo: Sea X: nmero de tiros hasta obtener el primer as en una sucesin de tiros de
un dado equilibrado, entonces X ~ G (1/6).
42

2004
15
P ( X = 7) = = 0.06
66
5
5
P ( X 6) = P( X > 5) = = 0.40
6
E( X ) =
1
=6
1/ 6
V (X ) =
5/6
(1 / 6)2
= 30

distribucin Geomtrica para distintos valores de p.
15
20
25
30
0.4
5
10
20
25
30
20
25
30
10
15
20
25
30
20
25
30
15
20
25
30
25
30
0.4
p(x)
0.4
0.0
p(x)
0.0
x
10
G( 0.5 )
0.2
0.4
0.2
15
30
G( 0.45 )
0.0
10
G( 0.4 )
25
0.0
0
20
0.4
p(x)
0.4
p(x)
15
15
G( 0.35 )
0.0
10
10
0.2
0.4
0.2
G( 0.3 )
0.0
p(x)
15
x
G( 0.25 )
0.2
p(x)
0
0.2
10
0.2
0.0
p(x)
0.2
0.0
p(x)
0.2
0.0
0
p(x)
G( 0.2 )
0.4
G( 0.15 )
0.4
G( 0.1 )
10
15
x
20
25
30
10
15
20
43

2004
Variable aleatoria Binomial Negativa: Supongamos que se repite en forma

independiente un ensayo de Bernoulli con probabilidad de xito (P(E)=p) constante en
todas las pruebas. Se define la v.a.
X: nmero de repeticiones hasta obtener el r-simo xito (r 1).
Notacin: X ~ BN (r,p).
Esta v.a. es una generalizacin de la v.a. Geomtrica, la cual corresponde al caso r = 1.
Observemos que RX = {r, r+1, r+2, ....} y hallemos su funcin de probabilidad puntual.
Sea k un nmero natural, k r. Para que sean necesarias k repeticiones para obtener el
primer xito, el r-simo xito debe ocurrir en la repeticin k y en las (k-1) repeticiones
previas debe haber exactamente (r -1) xitos. Como las repeticiones son independientes
la probabilidad de una configuracin de ese tipo es p r (1 p ) k r , pero hay varias
configuraciones de esta forma. Cuntas? Tantas como formas de elegir entre las (k-1)
k 1
.
r 1
primeras repeticiones, aquellas donde ocurrirn los (r-1) xitos, o sea

Por lo tanto la funcin de probabilidad puntual ser:
k 1 r
p (1 p ) k r
P ( X = k ) =
r
1
k {r , r + 1, r + 2,....}
Funcin de distribucin: Si X ~ BN (r,p),
FX ( x) =
[ x ] k 1 r
p (1 p ) k r

k = r r 1
si x < r
si x r
donde [x] denota la parte entera de x.

Ejemplo: Se extraen con reposicin bolillas de una urna que contiene 3 bolillas blancas y
7 rojas. Se define X: nmero de extracciones hasta obtener la cuarta bolilla roja.
X ~ BN (4,7/10)
5 1 7

P ( X = 5) =
4 1 10
3
= 0.29
10
44

k 1 7

P (5 X 7) =
k = 5 3 10
7
3

10
2004
k 4
= 0.49
Proposicin: Sea X ~ BN (r,p),
E( X ) =
r
p
V (X ) =
r (1 p)
p2
Dem: Lo demostraremos ms adelante usando que una v.a. Binomial Negativa puede
expresarse como suma de v.a. Geomtricas independientes.
Observacin: Esta v.a. suele tambin definirse como el nmero de Fracasos antes de
obtener el r-simo xito. Si la denotamos X, entonces su rango ser
RX* = {0,1,2,...} = N {0}
y su funcin de probabilidad puntual:
r + x 1 r
p (1 p) x
p X * ( x) =
x
En este caso,
E( X * ) =
r (1 p)
r (1 p)
y V (X * ) =
p
p2
Variable aleatoria Hipergeomtrica: Supongamos que
La poblacin a ser muestreada consiste de N elementos o individuos (poblacin finita)

Cada elemento o individuo puede ser clasificado como xito o Fracaso y hay D xitos
en la poblacin.
Se extrae de la poblacin una muestra de n elementos o individuos, de forma tal que
cualquier subconjunto de tamao n tiene la misma probabilidad de ser elegido.
Sea X : nmero de xitos en la muestra de tamao n. Se dice que X tiene distribucin

Hipergeomtrica de parmetros n, N y D y se denota
X ~ H (n,N,D)
Ejemplo: De una urna que contiene 3 bolillas blancas y 7 negras se extraen 4 bolillas sin
reposicin y se define X: nmero de bolillas blancas extradas.
45

2004
Cmo calcularamos la probabilidad de que se extraigan 2 bolillas blancas (X = 2)?

Como todos los conjuntos de 4 bolillas tienen la misma probabilidad de ser extrados, la
probabilidad de uno cualquiera de ellos ser
3 7
1
. Por otro lado hay conjuntos
10
2 2

4
que contienen 2 bolillas blancas y 2 negras y, por lo tanto la probabilidad pedida ser:
3 7

2 2
3 21 3
P ( X = 2) = =
= .
210 10
10

4
Proposicin: Si X ~ H (n,N,D),
D N D

k n k
p X (k ) =
N

n
max(0, n ( N D) ) k min (n, D )
Dem: El nmero de subconjuntos distintos de tamao n que se pueden extraer de una
D N D
que contienen k
poblacin de tamao N es . De esos conjuntos, hay
k n k
n
xitos y (n-k) Fracasos y se obtiene la funcin de probabilidad. El rango de valores
posibles de k resulta de observar que se deben satisfacer tres condiciones:
0k n
kD
n-kN-D
De las dos primeras se obtiene: k n, k D k min(n, D)

De la primera y la tercera se obtiene: k 0, k n ( N D) k max(0, n ( N D ) ) .
Proposicin: Si X ~ H (n,N,D),
E( X ) = n
D
N
D
N n D
V (X ) =
n 1
N
N 1 N
Dem: Ejercicio opcional.
46

2004
N n
que aparece en la expresin de la varianza se
N 1
Observaciones: 1) El factor
denomina factor de correccin por poblacin finita.

2) Si n es pequeo en relacin a N, la hipergeomtrica puede ser aproximada por la
distribucin Binomial de parmetros n y p=D/N. Observemos que, en este caso el factor
de correccin finita es aproximadamente 1.
Lmite de la funcin de probabilidad puntual de una v.a. Binomial:

Proposicin: Sea X ~ Bi(n,p) y supongamos que n y p 0 , de manera que n p =
(fijo), entonces:
n
e k
p X (k ) = p k (1 p ) n.k
k!
k
k N o = N {0}
Dem:
n
n!

p X (k ) = p k (1 p ) n k =
1
k!(n k )! n
n
k
k
n(n 1)...(n k + 1)
=
1 1
n
n
nk
n n 1 n k + 1
....
=
1 n 1 n
n

n n
n
nk
k
k!
k
k!
Observemos que:
n 1 n k +1
n
1
....
n
n

e
1 n

1
n
n
1
Entonces, p X (k )
e k
, como queramos demostrar.
k!
47

2004
Esta proposicin sugiere que la funcin de probabilidad puntual podra ser aproximada por
la funcin de probabilidad lmite, pero cundo se considera que n es grande y p es
pequeo para que la aproximacin sea buena?
Algunos autores sugieren n 100, p 0.01 y np 20.
En la siguiente tabla se presentan a modo de ejemplo, algunos valores exactos de la
probabilidad y su aproximacin para el caso X ~ Bi (100, 1/36)
k
0
1
2
5
8
9
10
Prob. exacta (Binomial)

0.0598
0.1708
0.2416
0.0857
0.0049
0.0014
0.0004
Aproximacin
0.0622
0.1727
0.2399
0.0857
0.0055
0.0017
0.0005
Como se observa, la aproximacin es bastante buena, an cuando no se cumple la

condicin p 0.01.
Variable aleatoria Poisson: Una v.a. cuya funcin de probabilidad puntual es la

obtenida en la proposicin anterior, se dice que tiene distribucin de Poisson de
parmetro ( > 0), y se nota X ~ P().
Es decir, X ~ P() si su funcin de probabilidad puntual est dada por:
p X (k ) =
e k
k!
k N o = N {0}
Verifiquemos que es, en efecto, una funcin de probabilidad puntual:

Es obvio que p X (k ) 0
k .
Por otra parte
k
e k
= e
= e e = 1,
k!
k =0
k = 0 k!
p X (k ) =
k =0
ya que
xk
es el desarrollo en serie de e x .
k
!
k =0
48

2004
Ejemplo: Sea X: nmero de mensajes rechazados por segundo por un servidor,

supongamos que X ~ P(5).
a) Calcular la probabilidad de que se rechacen exactamente 2 mensajes en un segundo.
P ( X = 2) =
e 5 5 2
= 0.084
2!
b) Calcular la probabilidad de que se rechacen a lo sumo 2 mensajes en un segundo.
e 5 5 k
52
= e 5 1 + 5 +
k!
2
k =0
P ( X 2) =
=0.125
Proposicin: Si X ~ P(), entonces
E( X ) =
V (X ) =
Dem:
E( X ) = k
k =0
e k e k e k
e k 1
e j
= k
=
=
=
= .
k!
k!
j!
k =1
k =1 (k 1)!
k =1 (k 1)!
j =0
Por otra parte,
E( X 2 ) = k 2
k =0
e k
e k
e k
e k
= (k (k 1) + k )
= k (k 1)
+ k
=
k!
k!
k!
k!
k =0
k =2
k =0
e j
e k 2
+ E ( X ) = 2
+ = 2 + .
(
)
k
j
2
!
!
k =2
j =0
= 2
Entonces
V ( X ) = E ( X 2 ) (E ( X ) ) = 2 + 2 = .
2
49

2004

distribucin de Poisson para distintos valores de . En l puede observarse cmo la
distribucin se simetriza alrededor de a medida que este parmetro crece.
Distribucion Poisson
0.3
p(x)
0.4
p(x)
10
15
20
0.0
0.1
0.2
0.0
0.0
10
15
20
10
lambda =3
lambda =5
10
15
20
15
20
30
40
0.05
0.10
p(x)
0.15
20
0.0
p(x)
0.0
0.10
0.0
0.10
0.20
0.20
x
lambda =2
15
10
15
lambda =10
lambda =15
20
10
x
lambda =20
p(x)
0.06
0.08
p(x)
0
10
15
x
20
25
30
0.0
0.0
0.0
0.02
0.04
0.08
0.04
p(x)
0.12
0.2
0.8
0.4
0.2
p(x)
0.6
lambda =0.5
p(x)
lambda =1
0.6
lambda=0.10
10
15
x
20
25
30
10
20
x
Proceso de Poisson: Una aplicacin importante de la distribucin de Poisson surge en

relacin con la ocurrencia de eventos a lo largo del tiempo, por unidad de rea, por unidad
de volumen, etc. En lo que sigue nos referiremos, sin prdida de generalidad a
ocurrencias de un evento a lo largo del tiempo, que podremos esquematizar en la forma:
50

2004
A partir del instante 0 y hasta el momento t1 ocurrieron 5 eventos.

Imaginemos que dividimos el intervalo (0, t1 ) en un nmero muy grande de pequeos
subintervalos, de manera que se satisfacen las siguientes condiciones:
La probabilidad de que ocurra un evento en un subintervalo pequeo es

aproximadamente proporcional a la longitud del subintervalo.
La probabilidad de que ocurra ms de un evento en un subintervalo es despreciable

con respecto a la probabilidad de que ocurra uno.
La ocurrencia de un evento en un subintervalo es independiente de lo que ocurre en

otro subintervalo disjunto.
En particular, si todos los intervalos son de igual longitud t1/n, la v.a. X t1 : nmero de
eventos que ocurren en el intervalo (0, t1 ) es casi binomial, siendo xito la ocurrencia
de un evento en cada uno de los subintervalos y p = P(xito)=probabilidad de que ocurra
un evento. Si el nmero de subintervalos es suficientemente grande y por lo tanto el p
suficientemente pequeo, por el resultado lmite que hemos probado, la variable X t1 tiene
distribucin de Poisson.
Ejemplos: 1) Mensajes de correo electrnico que llegan a una casilla de correos.

2) Emisin de partculas por una sustancia radioactiva.
3) Accidentes que ocurren en un cruce de ruta.
4) Nmero de errores en una pgina de un libro.
5) Nmero de larvas de cierto insecto en un terreno.
Ejercicio: Para cada uno de estos ejemplos, discutir en que situaciones se verifican las
tres condiciones enunciadas.
Definicin: Supongamos que se observa la ocurrencia de un evento a lo largo del tiempo y

que existe una cantidad positiva > 0, tal que
1) La probabilidad de que ocurra exactamente un evento en un intervalo pequeo de
longitud t es aproximadamente igual a t , es decir:
P(ocurra un evento en t) = t + o(t)
siendo o(h) una funcin g(h) tal que lim
h 0
g ( h)
= 0.
h
51

2004
2) La probabilidad de que ocurra ms de un evento en un intervalo pequeo de longitud

t es despreciable cuando se la compara con la probabilidad de que ocurra un evento,
es decir:
P(ocurra ms de un evento en t) = o(t)
3) El nmero de eventos que ocurren en un intervalo es independiente del nmero de
eventos que ocurren en otro intervalo disjunto.
Entonces, el nmero de ocurrencias del evento en un periodo de longitud t tiene
distribucin de Poisson de parmetro ( t), es decir que la v.a. Xt: nmero de ocurrencias
del evento en el intervalo de longitud t satisface
Xt ~ P( t)
Observaciones: 1) Cmo se interpreta la cantidad ?
Puede interpretarse como la tasa media a la cual ocurren los eventos en la unidad de
tiempo. Se la suele llamar tasa media de ocurrencia o intensidad del Proceso de Poisson.
2) Cul es la diferencia entre un Proceso de Poisson y una v.a. con distribucin
Poisson?
La definicin anterior, que en realidad es un teorema, da las condiciones bajo las cules
ciertos experimentos aleatorios que producen como resultados eventos en el tiempo (o en
longitud, rea, volumen, etc) pueden ser modelados mediante la distribucin de Poisson.
Consideremos los ejemplos 1) a 5). Slo bajo ciertas condiciones, satisfacen las
propiedades de un Proceso de Poisson.
Ejemplo: Supongamos que el nmero de mensajes de correo electrnico que llegan a una
casilla de correos sigue un proceso de Poisson de intensidad = 2 mensajes / minuto.
a) Cul es la probabilidad de que no se reciba ningn mensaje entre las 12 hs y las
12:03 hs?
Sea X3: nmero de mensajes en un periodo de 3 minutos, X3 ~ P(2 3) = P(6).
Entonces, P(X3 =0) = e-6 = 0.002
b) Cul es el nmero esperado de mensajes en media hora?
Sea X30: nmero de mensajes en un periodo de 30 minutos
X30 ~ P(2 30) = P(60) E(X30) = 60
c) Cul es la probabilidad de que no se reciba ningn mensaje entre las 13:30 hs y las
13:33 hs?
La respuesta es la misma del tem a) porque la distribucin depende slo de la longitud
del intervalo y no de su ubicacin.
52

2004
Variables aleatorias continuas

Ejemplo: Con el fin de realizar un control de calidad en una fbrica de bateras, se mide el
tiempo de duracin de bateras elegidas al azar y se define la v.a.
X: tiempo de duracin de una batera
La v.a. X es esencialmente continua (tiempo), siendo su rango el intervalo real [0,).
pero supongamos que medimos la duracin de la batera en das, es decir discretizamos
el rango de la v.a. y se convierte en No = N {0}. Por tratarse de una v.a. discreta, su
funcin de probabilidad puntual puede representarse mediante un histograma con rea
total igual a 1. Si medimos la duracin en horas, obtenemos un histograma con mayor
nmero de intervalos de menor longitud cada uno, pero que sigue teniendo rea total igual
a 1.
Si continuamos aumentando la precisin de la medicin (minutos, segundos, dcimas de
segundo, etc), obtenemos como lmite de los histogramas una curva suave, y la
probabilidad de que la duracin de la batera se encuentre entre dos valores a y b ( a < b)
estar dada por el rea bajo la curva entre a y b.
Definicin: Una v.a. X es continua si existe una funcin
f : + = [0, )
llamada funcin de densidad de la v.a. X tal que
P( X A) = f ( x)dx
53

2004
En particular, si A = [a, b] , entonces

b
P(a X b) = f ( x)dx
a
y P( X = a ) = P(a X a ) = 0 a .
Propiedad: Para que una funcin f (x) sea una funcin de densidad, debe satisfacer
f ( x) 0 x
f ( x)dx = 1
Observacin: Notar que f (x) no es una probabilidad, de hecho puede ser mayor que 1.
Es simplemente el valor de una funcin en un punto.
Ejemplo: Sea
a x2
f ( x) =
0
si 1 x 3
en otro caso
Otra forma de expresar la densidad es f ( x) = a x 2 I [1,3] ( x) , donde la funcin I se define

como
si x A
si x A
1
I A ( x) =
0
a) Calcular el valor de la constante a .
x3
f
(
x
)
dx
=
1
a
x
dx
=
1
a
x
dx
=
1
1
1
3
=1 a
3
26
=1 a = .
3
26
b) Calcular P(X 2).
P ( X 2) =
2
3 2
3 x3
f ( x)dx =
x dx =
26
26 3
2
=
2
27 8 19
= .
26
26
Definicin: La funcin de distribucin acumulada de una v.a. continua X con funcin de

densidad f (x) se define para todo x , como
54

2004
F ( x) = P( X x) =
f (t )dt
Ejemplo: En el ejemplo anterior, obtengamos la funcin de distribucin acumulada de la

v.a. X.
x
Si x < 1 , F ( x) = P ( X x) =
f (t )dt = 0 dt = 0
3 2
3 t3
Si 1 x 3 , F ( x) = f (t )dt =
t dt =
26
26 3
1
x
Si x > 3, F ( x) =
f (t )dt =
1
=
1
x3 1
26
3 2
t dt =1
26
Resumiendo,
0
x3 1
F ( x) =
26
1
si x < 1
si 1 x 3
si x > 3
Observamos que se trata de una funcin continua, no decreciente que toma valores entre
0 y 1.
Propiedades de la funcin de distribucin acumulada: Sea X una v.a. continua,
55

2004
i) x , FX ( x) [0,1] .
ii) FX (x) es montona no decreciente, es decir que si x1 < x 2 FX ( x1 ) FX ( x 2 ).
iii) FX (x) es continua en todo punto.
iv) lim FX ( x) = 1
x
lim FX ( x) = 0
x -
Observemos que las propiedades i), ii) y iv) ya las hemos demostrado en general al
considerar las v.a. discretas. Respecto a la propiedad iii), en el caso discreto probamos
que la funcin de distribucin es continua a derecha en todo punto, mientras que en este
caso es continua en todo punto.
Proposicin: Sean a y b tales que a b , entonces
P(a X b) = P(a < X b) = P(a X < b) = P(a < X < b) = F (b) F (a) .
Dem: Resulta inmediatamente del hecho que, si X es continua, P( X = x) = 0
Proposicin: Si X es una v.a. continua con funcin de densidad f (x) y funcin de
distribucin acumulada F ( x) , entonces en todo punto donde F ( x) es derivable,
F ' ( x) =
F ( x)
= f ( x)
x
Dem: Resulta del Teorema Fundamental del Clculo Integral, y de la definicin de F ( x) .
Distribucin Uniforme:
Definicin: Se dice que X tiene distribucin Uniforme en el intervalo [A,B ], si su funcin de
densidad es
f ( x) =
1
I [ A, B ] ( x )
BA
es decir, la densidad es constante sobre el intervalo [ A,B ] y 0 fuera de l. A y B son los

parmetros de la distribucin.
Notacin: X ~ U (A,B).
56

2004
Funcin de distribucin: Hallemos la funcin de distribucin acumulada de X ~ U (A,B).

x
Si x < A F ( x) =
f (t )dt = 0 dt = 0 .
t
1
Si A x B F ( x) = f (t ) dt =
dt =
BA
BA
A
x
1
t
Si x > B F ( x) = f (t )dt =
dt =
BA
BA
=
A
=
A
xA
.
BA
BA
= 1.
BA
Resumiendo,
x A
F ( x) = B A
si x < A
si A x B
si x > B
57

2004
Percentiles de una distribucin continua: Sea X una v.a. continua con funcin de
densidad f (x) y funcin de distribucin acumulada F (x) y sea 0 < p < 1. El percentil
(100 p)-simo de la distribucin de X es el valor xp tal que
xp
F ( x p ) = P( X x p ) =
f (t )dt = p
Ejemplos: 1) Sea X con funcin de densidad f ( x) =
3 2
x I [1,3] ( x) .
26
Su funcin de
distribucin est dada por
0
x3 1
F ( x) =
26
1
si x < 1
si 1 x 3
si x > 3
Obtengamos el 25-percentil de esta distribucin ( p = 0.25). Buscamos x0.25

F ( x 0.25 ) = 0.25 .
tal que
x 03.25 1
1/ 3
F ( x 0.25 ) = 0.25
= 0.25 x 0.25 = (0.25 26 + 1) = 1.96
26
2) Sea X ~ U (A,B). Su funcin de distribucin est dada por
58

si x < A
x A
F ( x) = B A
si A x B
si x > B
Hallemos el 50-percentil de esta distribucin ( p = 0.50). Buscamos x0.50

F ( x 0.50 ) = 0.50 .
F ( x 0.50 ) = 0.50
2004
tal que
x 0.50 A
A+ B
= 0.50 x 0.50 = 0.50( B A) + A =
.
BA
2
El 50-percentil se denomina mediana de la distribucin.
Esperanza o valor esperado de una v.a. continua:

Definicin: Sea X una v.a. continua con funcin de densidad f ( x) , la esperanza o valor
esperado de X se define como
E( X ) = X =
x f ( x)dx
siempre que
f ( x)dx < . Si esta integral es , la esperanza no puede definirse y
decimos que no existe.
Ejemplo: Sea X ~ U (A,B),
1
x2
E ( X ) = x f ( x)dx = x
dx =
BA
2( B A)
B 2 A2 A + B
=
=
.
2( B A)
2
Proposicin: Si la v.a. continua X tiene funcin de densidad f (x) , entonces la esperanza

de cualquier funcin real h(X), est dada por
E (h( X )) = h( x) f ( x)dx
59

2004
si
h( x) f ( x)dx < .
Propiedad (Linealidad): Si a y b son constantes reales, E (aX + b) = aE ( X ) + b .

Dem: Sea h( X ) = aX + b, entonces
E (h( X )) = h( x) f ( x)dx =
(ax + b) f ( x)dx = a x
f ( x)dx + b f ( x)dx = aE ( X ) + b .
Ejemplo: Dos especies compiten en una regin para controlar una limitada cantidad de
cierto recurso. sea X: proporcin del recurso controlada por la especie 1. Supongamos
que X ~ U (0,1), es decir
1
f ( x) =
0
si x [0,1]
si x [0,1]
Este modelo de asignacin de recursos se denomina broken stick o vara rota ya que es
anlogo a quebrar una vara en un punto aleatorio. La especie que controla la mayora del
recurso, controla la cantidad.
1 X
Sea h( X ) = max ( X ,1 X ) =
X
si 0 X <
si
1
2
1
X 1
2
El valor esperado para la cantidad controlada por la especie que ms controla es:
E (h( X )) = h( x) f ( x)dx = max( x,1 x) f ( x)dx =
1/ 2
1/ 2
x2
x2
+
(1 x) dx + x dx = x
2 0
2
1/ 2
1
1/ 2
(1 x) f ( x)dx +
1/ 2
=
1/ 2
x f ( x)dx =
1 1 1 1
1 3
+ =1 = .
2 8 2 8
4 4
Varianza de una v.a. continua:

Definicin: Sea X una v.a. continua con esperanza X y densidad f (x) , la varianza de X,
que se denotar V(X), X2 2 , es
60

V (X ) =
2
X
2004
= E ( X X ) = ( x X ) 2 f ( x)dx
2
y el desvo standard de X, es X = + V ( X ) .
Proposicin: V ( X ) = E ( X 2 ) (E ( X ) ) .
2
Dem:
V ( X ) = E (( X X ) ) = ( x X ) f ( x) dx = ( x 2 2 x X + X2 ) f ( x) dx =
2
2
x f ( x)dx 2 X
2
x f ( x)dx + X
f ( x)dx = E ( X
) 2 X X + X2 = E ( X 2 ) X2
A+ B
, es decir el punto
2
2
medio del intervalo. Hallemos la varianza de X. Como V ( X ) = E ( X 2 ) (E ( X ) ) ,
necesitamos calcular E ( X 2 ).
Ejemplos: Sea X ~ U (A,B), hemos demostrado que E ( X ) =
1
x3
E ( X ) = x f ( x)dx = x
dx =
B-A
3( B A)
A
2
B 3 A 3 ( B A)( B 2 + AB + A 2 )
=
=
=
3( B A)
3( B A)
( B 2 + AB + A 2 )
3
Entonces,
V ( X ) = E ( X 2 ) (E ( X ) ) =
2
( B 2 + AB + A 2 ) A + B
=
3
2
2
4( B 2 + AB + A 2 ) 3( A 2 + 2 AB + B 2 ) B 2 2 AB + A 2 ( B A) 2
=
=
.
12
12
12
61

Por lo tanto, V ( X ) =
2004
( B A) 2
.
12
Propiedad de la varianza y del desvo standard: Sea X una v.a. continua con densidad
f (x) ,
V (aX + b) = a 2V ( X )
aX +b = a X .
Dem: : Observemos que, en general,
V (h( X )) =
entonces, si h( x) = ax + b,
V (aX + b) =
(h( x) E (h( X ))
f ( x)dx
2
2
[(ax + b) E (aX + b)] f ( x)dx = [ax + b aE ( X ) b] f ( x)dx =
2
2
2
2
[ax aE ( X )] f ( x)dx = a [x E ( X )] f ( x)dx = a V ( X ),

Obviamente, aX + b = a X .
62

2004
Variables aleatorias continuas

Distribucin Uniforme: Recordemos que X tiene distribucin uniforme en el intervalo
[A,B ], si su funcin de densidad es
f ( x) =
1
I [ A, B ] ( x )
BA
Notacin: X ~ U (A,B).
Su funcin de distribucin acumulada est dada por:
0
x A
F ( x) =
B A
1
si x < A
si A x B
si x > B
Esperanza y varianza de una variable aleatoria uniforme: Sea X ~ U (A,B), hemos

demostrado que
E( X ) =
A+ B
2
V (X ) =
( B A) 2
.
12
Distribucin Normal: Se dice que X tiene distribucin Normal de parmetros y 2

( , > 0) si su funcin de densidad es
f ( x) =
1
2
2
1 x
2
e 2
(1)
Notacin: X ~ N (, 2).
El grfico de la funcin de densidad normal tiene forma de campana con eje de simetra
en x = y puntos de inflexin en x = + y x = - .
63

2004
En esta distribucin, indica la posicin de la curva y es el parmetro de dispersin. En

el siguiente grfico se muestran densidades correspondientes a =0 y distintos valores de
.
0.8
Densidades Normal
0.0
0.2
0.4
0.6
N(0,1)
N(0,1/4)
N(0,2)
N(0,4)
-4
-2
64

2004
La importancia de la distribucin normal radica no slo en que frecuentemente en la

prctica se hallan variables que tienen esta distribucin (por ejemplo, los errores de
medicin) sino porque, bajo ciertas condiciones, suele ser una buena aproximacin a la
distribucin de otras variables aleatorias.
Se puede verificar que en efecto la funcin (1) es una funcin de densidad, es decir que la
integral sobre toda la recta es 1. No lo haremos, pero s verificaremos que su grfico es
simtrico respecto de , punto en el cual alcanza su nico mximo y que tiene puntos de
inflexin en x = + y x = - .
Probemos en primer lugar que la densidad es simtrica respecto de , o sea que
f( x)= f( + x)
En efecto,
f( x)=
f( + x)=
1 ( x )2
2 2
1 ( + x )2
2 2
x2
2 2
x2
2 2
y, por lo tanto, se verifica la igualdad.

Observemos ahora que la densidad alcanza un nico mximo en x = .
2
(x )2
1 (x )
2
1
f ( x )
1
1
2
=
e 2
e 2
(x)=0
=0
x
x 2
2
( x ) = 0 x = .
Ejercicio: Verificar que la derivada segunda en x = es menor que 0 y por lo tanto se trata
de un mximo y que la densidad tiene dos puntos de inflexin en x = + y x = - .
65

2004
Distribucin Normal Standard: Se dice que Z tiene distribucin normal standard si

sus parmetros son = 0 y 2 = 1, es decir Z ~ N (0,1). Su funcin de densidad estar
dada por
f ( z) =
1
2
2
z
2
e
Su funcin de distribucin, que se notar (z ) , es:
2
t
z 1
( z ) = F ( z ) =
e 2 dt
2
Esta funcin est tabulada, ya que su integral no tiene una expresin analtica conocida.
Ejemplo: Z ~ N (0,1),
P(Z 1.25) = (1.25) = 0.8944
P(Z > 1.25) = 1 - P(Z 1.25) = 1 - (1.25) = 1 - 0.8944 = 0.1056
P(-0.38 Z 1.25) = (1.25) - (-0.38) = 0.5424
Percentiles de la distribucin Normal Standard: Sea 0 < p < 1, el percentil (100 p)simo de la distribucin normal standard es el valor z tal que
( z ) = p,
es decir, es el valor que deja a su izquierda un rea igual a p.
Ejemplo: Z ~ N (0,1), el percentil 99 de la distribucin es 2.33 ya que (2.33) = 0.99 .
66

2004
Propiedades de la distribucin Normal:

1) Si X ~ N ( , 2 ) Z =
Dem:
~ N (0,1)
FZ ( z ) = P( Z z ) = P
z = P( X z + ) = FX ( z + )

Como FZ es derivable en todo punto,
fZ ( z ) =
FZ ( z ) =
F ( z + ) = f X ( z + ) =
z
z X
1
2
1
2
2
( z + )
2 2
=
e
2
z
e 2
y, por lo tanto Z ~ N(0,1) como queramos demostrar.

2) Si Z ~ N (0,1) y > 0 X = Z + ~ N ( , 2 ) .
Dem: Ejercicio.
3) Sean X ~ N ( , 2 ) y Z ~ N (0,1) . Si denotamos x p y z p a los 100 p-simos
percentiles de X y Z respectivamente,
xp = zp +
Dem: El 100 p-simo percentil de X es el valor x p tal que F ( x p ) = p .
X xp
x
= p p
F ( x p ) = p P( X x p ) = p P
= p

xp
= zp xp = zp + .
67

2004
Esperanza y varianza de una variable aleatoria normal: Hallaremos inicialmente la

esperanza y la varianza de la distribucin normal standard y luego, utilizando propiedades
ya demostradas, hallaremos la esperanza y la varianza de una distribucin normal en
general.
Proposicin: Sea Z ~ N(0, 1), entonces E(Z) = 0 y V(Z) = 1.
Dem:
E( Z ) =
zf ( z )dz = z
z2
2
dz = 0
pues el integrando es una funcin integrable e impar.
V ( Z ) = E( Z ) ( E( Z )) = E( Z ) =
2
1
2
z2
2
dz =
1
2
ze
z2
2
dz
Aplicando integracin por partes, con
u=z
dv =
ze
z2
2
du = dz
dz
v=
1
2
z2
2
se obtiene
V( Z ) =
1
2
ze
z2
2
1
2
z2
2
z2
dz = lim
ze 2
M
2
+ 1 .
Aplicando la regla de LHospital,
M
1
lim
M
2 M 2
e 2
1
1
= lim
=0
2
M
M
2
2
Me
1
M
lim
M 2 M 2
e 2
1
= lim
=0
M2
M 2
Me 2
y, por lo tanto, V(Z) = 1.
68

2004
Proposicin: Sea X ~ N(, 2), entonces E(X) = y V(X) = 2.

Dem: Recordemos que, si X ~ N(, 2), entonces
~ N (0,1) .
X
= 0 , por linealidad de la esperanza,

Como E ( Z ) = E
(E ( X ) ) = 0 E ( X ) = .
X
= 1 , por propiedades de la varianza,

Como V ( Z ) = V
V (X ) =1V (X ) = 2 .
Distribucin Gamma: Se trata de una familia de distribuciones que provee un modelo

adecuado para histogramas que presentan cierto tipo de asimetra. Antes de presentar a
las v.a. con distribucin Gamma, es necesario recordar cmo se define la funcin Gamma
o factorial, la cual cumple un rol importante en muchas ramas de la Matemtica..
Definicin: Dado > 0, se define la funcin Gamma o funcin factorial como
( ) = x 1 e x dx
0
Propiedades:
1) Si > 1, ( ) = ( 1) ( 1)
2) Si N, ( ) = ( 1)!
1
2
3) =
Dem: 1) Sea > 1. Aplicando integracin por partes con u = x 1 y dv = e x dx ,
69

( ) = x 1 e x dx = x 1 e x
0
2004
+ ( 1) x 2 e x dx =
0
M 1
+ 0 + ( 1 ) x ( 1 )1 e x dx = 0 + 0 + ( 1 )( 1 ) = ( 1 )( 1 ).
M e M
0
= lim
2) Ejercicio.
3)
1
= x 2 e x dx = x 2 e x dx
2 0
0
Aplicaremos el siguiente cambio de variable: u = 2 x , con lo cual du =
2
2x
dx .
Entonces,
u2
u2
u2
1
1
1
= 2 e 2 du = 2 e 2 du =
e 2 du = ,
2
2 0
2
ya que la integral de la ltima igualdad es la integral de la densidad normal standard y por

lo tanto es igual a 1.
Definicin: Se dice que X tiene distribucin Gamma de parmetros y ( > 0, > 0) si

su funcin de densidad est dada por
f ( x) =
e x x 1
I
( x)
(0, )
( )
Notacin: X ~ ( , ) o bien X ~ G ( , ).
En el siguiente grfico se muestra la densidad correspondiente a X ~ G ( , ) para
distintos valores de los parmetros.
70

2004
1.0
Densidades Gamma
0.0
0.2
0.4
0.6
0.8
G(1,1)
G(2,3)
G(2,1/2)
G(2,1)
10
Definicin: Si = 1, la distribucin se denomina Gamma standard. Es decir, X tiene

distribucin Gamma standard de parmetro (X ~ ( , 1)) si su densidad est dada por:
f ( x) =
e x x 1
( )
I (0,) ( x )
Esta funcin de densidad es estrctamente decreciente si 1, y si > 1 alcanza un

mximo y despus decrece.
La distribucin Gamma standard est tabulada para diferentes valores de .
Volviendo a la densidad Gamma general, es un parmetro de escala ya que valores de
distintos de 1, comprimen o expanden la curva.
71

2004
1.0
Densidades Gamma Standard
0.0
0.2
0.4
0.6
0.8
G(1,1)
G(2,1)
G(5,1)
10
Esperanza y varianza de una variable aleatoria Gamma:

Proposicin: X ~ ( , ), entonces E ( X ) =
y V (X ) = 2 .
Dem:
e x x 1
e x x
e x x ( +1)1
E( X ) = x
dx =
dx =
dx =
( )
( )
( )
0
0
0
( )
( + 1) e x x ( +1)1 +1
dx =
= .
( ) 0
( )
( + 1)
Observemos que la ltima integral es la integral, sobre todo su rango, de la densidad de

una v.a. con distribucin (+1, ) y por lo tanto es igual a 1.
Calculemos ahora E ( X 2 ).
72

2004
2 e x x 1
e x x +1
e x x + 2 1
2
E(X ) = x
dx =
dx =
dx =
( )
( )
( )
0
0
0
( + 1) ( ) = ( + 1) .
( + 2) e x x + 21 + 2
dx =
2
( + 2)
2 ( )
2
( ) 0
Observemos que la ltima integral es la integral, sobre todo su rango, de la densidad de

una v.a. con distribucin (+2, ) y por lo tanto es igual a 1.
Finalmente, V ( X ) =
( + 1)

= 2 + 2 2 = 2 , como queramos demostrar.
Propiedad: Si X ~ ( , ) y a > 0, a X ~ ( , / a).

Dem: Ejercicio.
Nota: Esta ltima propiedad permite obtener probabilidades para una v. a. con
distribucin Gamma a partir de una distribucin
Gamma standard. En efecto,
supongamos que X ~ ( , ), entonces X ~ ( , 1) y, por ejemplo
P ( X x) = P(X x ) = FX (x)
Observacin: Algunos autores, por ejemplo J. Devore, utilizan otra parametrizacin de la
distribucin Gamma, definiendo como segundo parmetro de la distribucin a 1/. es
decir: X ~ ( , ) si su funcin de densidad est dada por
1
x
f ( x) =
I
( x)
( ) (0,)
e
En este caso, E ( X ) = y V ( X ) = 2 .
Distribucin Exponencial: Se trata de un caso particular de la distribucin Gamma, ya

que una v.a. exponencial es una v.a. Gamma con parmetro = 1.
Definicin: X tiene distribucin exponencial de parmetro ( > 0) si su funcin de
densidad est dada por:
f ( x ) = e x I (0, ) ( x )
Notacin: X ~ ().
73

2004
1.0
Densidades Exponencial
0.0
0.2
0.4
0.6
0.8
E(1)
E(2)
E(1/2)
10
Funcin de distribucin de una v.a. exponencial: Si X ~

acumulada est dada por
F ( x) =
1 e x
(), su funcin de distribucin
si x 0
si x > 0
En efecto, si x > 0,
x
x
F ( x ) = e t dt = e t = e x + 1,
0
0
Proposicin: Si X ~ (), entonces E ( X ) =
y V (X ) =
Dem: Se deduce inmediatamente de la esperanza y la varianza de una v.a. Gamma con

parmetro = 1.
74

2004
Ejemplo: Supongamos que el tiempo de respuesta de una terminal conectada en lnea es

una v.a. X con distribucin exponencial con esperanza igual a 5 segundos.
a) Cul es la probabilidad de que el tiempo de respuesta sea mayor de 10 segundos?
Observemos que, dado que E(X)=5, X ~ (1/5), entonces
1
10
P ( X > 10) = 1 F (10) = 1 1 e 5 = e 2 = 0.135.
b) Cul es la probabilidad de que el tiempo de respuesta est entre 5 y 10 segundos?

10
5

P(5 X 10) = F (10) F (5) = 1 e 5 1 e 5 = e 1 e 2 = 0.233.
Proposicin (Propiedad de Falta de Memoria): Sea X ~

positivos cualesquiera,
(), y sean s y t nmeros reales
P( X > s + t | X > s) = P( X > t )

Dem: Ejercicio. (Sugerencia: Usar que si X ~ (), P ( X > s ) = e s ).
Relacin de la distribucin exponencial con los procesos de Poisson: Supongamos

que la ocurrencia de cierto tipo de eventos sigue un proceso de Poisson de intensidad o
tasa media de ocurrencia , y por lo tanto la v.a. Xt: nmero de ocurrencias en un
intervalo de longitud t tiene distribucin P( t).
Se puede demostrar que la v.a. T: tiempo hasta la ocurrencia del primer evento (o
equivalentemente, tiempo entre la ocurrencia de dos eventos sucesivos), tiene distribucin
exponencial.
Proposicin: Dado un proceso de Poisson de intensidad , si se define la v.a. T: tiempo
hasta la ocurrencia del primer evento, entonces T~ ().
Dem: Si t 0, FT (t ) = 0 . Sea t > 0,
FT (t ) = P(T t ) = 1 P(T > t ) = 1 P ( X t = 0) .

En efecto, si el tiempo hasta la primera ocurrencia es mayor que t, no ha ocurrido ningn
evento en el intervalo (0,t) y recprocamente. Entonces,
75

FT (t ) = 1 P( X t = 0) = 1
2004
e t (t ) 0
= 1 e t ,
0!
y por lo tanto
F ( x) =
1 e x
si x 0
si x > 0
es decir, T~ ().
Ejercicio: Demostrar que el tiempo de espera hasta la segunda ocurrencia del evento
tiene distribucin (2, ).
76

2004
Funcin generadora de momentos:

Definicin: Si X es una variable aleatoria, el momento de orden k de X se define como
E( X k )
siempre que la esperanza exista.
Notemos que
E( X ) =
E( X 2 ) = 2 + 2
E( X 3 )
E( X 4 )
1er momento: posicin

2do momento: relacionado con una medida de dispersin
3er momento: relacionado con una medida de asimetra
4to momento: relacionado con la kurtosis
Definicin: La funcin generadora de momentos de una v.a. X es una funcin a valores

reales M X (t ) , definida como
tx
e p X ( x)
xR X
M X (t ) = E (e tX ) =
tx
e f X ( x)dx
siempre que el valor esperado exista para todo
si X es discreta
si X es continua
t (h, h), h > 0 . Esta ltima es una
condicin tcnica necesaria para que M X (t ) sea diferenciable en 0.

Se denomina funcin generadora de momentos porque los momentos de X ( E ( X n ) )
pueden ser obtenidos derivando esta funcin y evaluando la derivada en t = 0, tal como lo
establece el siguiente teorema.
Teorema: Sea X una v.a. para la cual existe la funcin generadora de momentos M X (t ) ,
entonces
E( X n ) =
n
M X (t )
t n
t =0
La demostracin se basa en el siguiente lema de Clculo avanzado (ver por ejemplo,

Advanced Calculus, D. Widder (1961)):
77

2004
Lema: Si la funcin g(t) definida por
g (t ) = e p( x)
tx
g (t ) = e tx f ( x)dx
converge para todo t ( h, h) para algn h > 0 , entonces existen las derivadas de orden
n de g(t) para todo t ( h, h) y para todo n entero positivo y se obtienen como
n g (t )
n e tx
=
x t n p( x)
t n
n g (t )
n e tx
=
t n f ( x)dx
t n
Demostracin del Teorema: Si la funcin generadora de momentos existe para todo
t (h, h) para algn h > 0 , aplicando el lema,

n M X (t )
n e tx
=
x t n p( x)
t n
n M X (t )
= x n e tx p( x)
t n
x
n M X (t ) n e tx
=
f ( x)dx
n
t n
n M X (t ) n tx
= x e f ( x)dx
t n
Evaluando estas derivadas en 0 ,
n M X (t )
= x n p ( x) = E ( X n )
n
t
x
t =0
n M X (t )
t n
=
t =0
f ( x)dx = E ( X n )
Ejemplos: 1) Sea X una v.a. con distribucin exponencial de parmetro , o sea con
densidad
f X ( x ) = e x I ( 0, ) ( x)
M X (t ) = E (e ) = e e
tX
tx
dx = e
0
( t ) x
dx =
( t ) e
t
0
( t ) x
dx =
siempre que t < .

Calculemos ahora E(X) y V(X).
78

M X (t )
t
E( X ) =
=
t =0
2004
=
t t t = 0 ( t ) 2
=
t =0
Como V ( X ) = E ( X 2 ) (E ( X ) ) , calculemos E ( X 2 ).
2
E( X 2 ) =
entonces, V ( X ) =
2 M X (t )
t 2
=
=
t =0
t ( t )2
2 ( t )
=
( t ) 4
t =0
=
t =0
2) Sea X una v.a. con distribucin Binomial de parmetros, n y p, o sea X ~ Bi(n, p). Su
funcin de probabilidad puntual es
n
p X (k ) = p k (1 p) n k
k
si 0 k n
n
n
n t k
tX
t k n
k
nk
(e p) (1 p) n k = (e t p + 1 p) n .
=
=
=
M X (t ) E (e ) e p (1 p)
k =0
k =0 k
k
Calculemos ahora E(X) y V(X).
E( X ) =
M X (t )
t
E( X 2 ) =
(e t p + 1 p ) n
t
=
t =0
2 M X (t )
t 2
=
t =0
( )
= n(n 1)(e t p + 1 p) n 2 pe t
= n(e t p + 1 p) n 1 pe t
t =0
n(e t p + 1 p) n 1 pe t
t
+ n(e t p + 1 p) n 1 pe t
t =0
= np .
=
t =0
= n(n 1) p 2 + np.
0
Entonces, V ( X ) = E ( X 2 ) (E ( X ) ) = n(n 1) p 2 + np (np ) = np 2 + np = np(1 p).

2
Propiedad: Sea X una v.a. con funcin generadora de momentos M X (t ) , entonces si

Y = a X + b , entonces M Y (t ) = e bt M X (at ) .
Dem: Ejercicio.
79

2004
Unicidad de M X (t ) : Adems de permitir calcular momentos de una v.a., la funcin

generadora de momentos permite identificar la funcin de densidad o de probabilidad de
una v.a. debido a la propiedad de unicidad, la cual establece que hay una
correspondencia uno a uno entre funciones de densidad o probabilidad y funciones
generadoras de momentos.
Teorema de Unicidad: Si existe la funcin generadora de momentos de una variable
aleatoria, es nica. Adems la funcin generadora de momentos determina a la funcin de
densidad o probabilidad de la v.a. salvo a lo sumo en un conjunto de probabilidad 0.
A continuacin, presentamos una tabla con la funcin generadora de momentos de
algunas de las distribuciones que hemos estudiado.
Distribucin
Bi(n,p)
P()
M X (t )
(e p + 1 p ) n
(et 1)
t
N(, )
2
2 t 2 + t
e
E()
G(,)
U(a,b)
e tb e ta
G(p)
t (b a )
p et
1 (1 p ) e t
BN(r,p)
p et
1 (1 p ) e t
Ejercicio: Para qu valores de t existe cada una de las funciones generadoras de

momentos de la tabla anterior?
80

2004
Generacin de Nmeros Aleatorios

Nmeros elegidos al azar son tiles en diversas aplicaciones, entre las cules podemos
mencionar:
Simulacin o mtodos de Monte Carlo: se simula un proceso natural en forma

computacional. Estas aplicaciones se realizan en muy variados campos con el fin de
emular distintos comportamientos: fsica (por ejemplo, para simular colisiones entre
partculas), ingeniera (diseo de obras hidrulicas, puentes, etc. ), inversiones de
capital, redes, servicios a clientes, call centers, etc. La simulacin a travs de la
computadora es una herramienta poderosa para comprender la naturaleza de
sistemas complejos.
Muestreo: con el fin de seleccionar una submuestra de una poblacin.
Anlisis Numrico: algunas tcnicas para resolver problemas de anlisis numrico

complejos han sido desarrolladas usando nmeros aleatorios.
Programacin: la generacin de valores aleatorios puede ser til para poner a

prueba la efectividad de un algoritmo. Tambin son tiles en criptologa.
A pesar de que fue en la dcada del 40 que las primeras computadoras modernas fueron
desarrolladas, la simulacin ya exista en forma embrionaria an antes de que la
computadora apareciera en escena. As, por ejemplo, en la segunda mitad del siglo XIX,
se realizaban experiencias arrojando agujas al azar sobre una superficie reglada con el fin
de estimar el nmero . En 1908 W. S. Gosset, bajo el seudnimo de Student, realizaba
un muestreo experimental con el fin de descubrir la distribucin de un estimador de la
correlacin en una distribucin normal bivariada. En ese momento los nmeros aleatorios
se generaban mediante mtodos observacionales (mecanismos fsicos) tales como tirar
un dado, extraer una carta de un mazo o mediante una ruleta.
Dado el esfuerzo que significaba generar nmeros aleatorios cada vez que eran
necesarios, parece razonable que se hayan construido tales nmeros y luego tabulado.
Tippett (1927) public una tabla con 41600 nmeros aleatorios tomados en forma
aleatoria de informes censales. Cada nmero era uno de los enteros 0, 1, 2, 3, 4, 5, 6, 7,
8, 9 y el usuario tomaba varios de ellos y agregaba un punto decimal para formar un
nmero aleatorio entre 0 y 1. Desde ese momento fueron propuestos una serie de
generadores de nmeros aleatorios. La primera mquina fue usada en 1939 por Kendall y
Babington-Smith con el fin de producir una tabla de 100000 dgitos aleatorios y en 1955 la
RAND Corporation utiliz extensamente una tabla de 1000000 dgitos aleatorios que fue
obtenida a partir de una ruleta electrnica especialmente diseada. ERNIE fue una
famosa mquina de nmeros aleatorios que fue usada por la lotera britnica, es decir la
British Premium Savings Bonds Lottery.
Poco despus de la aparicin de las computadoras, se comenz a buscar maneras
eficientes de obtener nmeros aleatorios, pues an cuando se podan usar las tablas
existentes ste era un recurso limitado, ya sea por el espacio de memoria necesario como
81

2004
por resultar, en algunos casos, cortas. Si bien mquinas como ERNIE podran haber
trabajado junto con una computadora, una solucin en la que la computadora provee todo
pareca ms satisfactoria. La bsqueda se orient, entonces, a la produccin de nmeros
aleatorios usando operaciones aritmticas en una computadora. John von Neumann
sugiri en un principio, alrededor de 1946, usar el mtodo del cuadrado medio. Su idea
era calcular el cuadrado del nmero aleatorio anterior y tomar los dgitos del medio del
nmero calculado. As, por ejemplo, si queremos generar un nmero aleatorio de 10
dgitos y el nmero anterior es
5772156649
33317792380594909201
el nuevo nmero ser 7923805949.

La primera pregunta que cabe hacer es: porqu motivo un nmero generado por este
procedimiento que es determinstico, va a resultar aleatorio?. La respuesta es que el
nmero no es aleatorio, pero parece serlo, en el sentido en que en una aplicacin la
relacin real entre un nmero y el siguiente no tiene ningn significado fsico. Por lo tanto,
el carcter no aleatorio no es una caracterstica indeseable y podra ser que el cuadrado
medio resultase ser un buen batido del nmero anterior. Es claro, de todas formas, que
un mecanismo de esta naturaleza no podra haber reemplazado a ERNIE.
Las secuencias de nmeros generadas en forma determinstica reciben el nombre de
secuencias pseudo-aleatorias o quasi-aleatorias, si bien nosotros nos referiremos a ellas
como secuencias aleatorias, sobreentendiendo que slo parecen aleatorias. Nmeros
aleatorios generados en forma determinstica en una computadora funcionan muy bien en
muchsimas aplicaciones, a condicin de que el mtodo de generacin sea bueno.
Volviendo a la propuesta de von Neumann, sta no parece ser una buena fuente de
nmeros aleatorios. Podra suceder que la secuencia caiga en un ciclo corto de
repeticiones, siendo el caso extremo el del cero el cual, si aparece en la secuencia,
seguir repitindose siempre. A partir de los aos 50 se realizaron diversas experiencias
con el mtodo propuesto por von Neumann. Trabajando con nmeros de 4 dgitos en
lugar de 10, G. E. Forsythe prob con 16 nmeros iniciales. Con 12 de ellos termin con
el ciclo 6100, 2100, 4100, 8100, 6100, etc. Y con otras dos termin en cero. En efecto,
6100**2 = 37210000
2100**2 = 4410000
4100**2 = 16810000
8100**2 = 65610000
Metrpolis realiz muchas pruebas con los nmeros del middle-square, en especial con
sistemas de nmeros binarios. Mostr que en secuencias de 20 dgitos, hay 13 ciclos
diferentes en los que la secuencia puede caer, el ms largo de los cuales tiene longitud
82

2004
142. Estas falencias del middle-square son algunas de las consideraciones que
debemos hacer ante un generador de nmeros aleatorios.
En principio consideraremos mtodos para generar nmeros con distribucin uniforme en
el intervalo (0,1). sto podemos lograrlo generando enteros Xn entre 0 y un nmero
natural m y luego tomando la fraccin:
Un =
Xn
m
Usualmente m es un nmero muy grande. El ms popular de los generadores de nmeros

aleatorios es el Mtodo Lineal de Congruencias, que es un caso especial del mtodo
introducido por Lehmer en 1949.
Dados cuatro nmeros m, a, c y X0, formamos la secuencia de nmeros aleatorios Xn de
la siguiente forma
X n +1 (aX n + c)
mod m,
n0
es decir que X n +1 es el resto entero de dividir aX n + c por m (y por lo tanto es un entero

entre 0 y m-1). Esta es una secuencia lineal congruente. Tengamos en cuenta que
m es el mdulo m>0
a es el multiplicador 0 a <m
c es el incremento 0 c <m
X0 es la semilla o valor inicial
En el caso en que c = 0, el mtodo recibe el nombre de multiplicativo secuencial.

Por ejemplo, si m =10 y X0 = a = c = 7, entonces la secuencia obtenida es
7, 6, 9, 0, 7, 6, 9, 0.....
En cambio, si m = 8, para la misma eleccin del resto de las constantes, la secuencia
sera:
0, 7, 0, 7....
sto muestra que la eleccin de los nmeros m, a y c es crucial y que siempre se caer
en un loop, es decir en un ciclo de repeticiones, que se llama perodo. Es claro que cuanto
ms grande sea m, mayor es la posibilidad de que el perodo sea largo.
En realidad, las distintas elecciones de los parmetros son sometidas a una batera de
tests con los que se chequean las propiedades de los nmeros generados.
83

2004
Como ya observamos ms arriba, con estos algoritmos se generan nmeros aleatorios

que se comportan como si proviniesen de una distribucin U(0,1). La pregunta que es
razonable hacerse es porqu sto es suficiente. El siguiente teorema nos da una
respuesta.
Teorema: Sean U una variable aleatoria con distribucin U (0,1) y G una funcin de
distribucin acumulada continua y estrictamente creciente. Si X = G 1 (U ) , entonces la
funcin de distribucin acumulada de X es G , es decir FX = G.
Dem:
Recordemos que si U ~ U (0,1) , entonces su funcin de distribucin es de la forma
FU (u ) =
si u 0
u
1
si 0 < u < 1
si u 1
Por lo tanto, como G es una funcin estrictamente creciente y su imagen pertenece al

intervalo (0,1), entonces
FX ( x ) = P ( X x ) = P (G 1 (U ) x ) = P (U G ( x )) = FU (G ( x )) = G ( x )
con lo que queda demostrado el teorema.
Ejemplo: En el caso de una variable X ~ E ( ) , la funcin de distribucin acumulada es
de la forma
si x 0
FX ( x) =
1 e x
si x > 0
Dado y (0,1) , la inversa de FX es

1
FX ( y ) =
ln(1 y )
Luego, si U ~ U (0,1) ,
ln(1 U ) ~ E ( )
84

2004
Si la distribucin G tiene saltos o es constante de a trozos, no existir su inversa. Sin

embargo se puede demostrar que existe una H con las propiedades requeridas en el
teorema anterior, de manera que, aunque sin demostracin, enunciaremos el siguiente
resultado.
Teorema: Sean U una variable aleatoria con distribucin U (0,1) y G una funcin de
distribucin acumulada. Existe una funcin H tal que H (U ) tiene distribucin acumulada
G.
Ejemplos: Queremos generar una variable con distribucin de Bernoulli de parmetro p a
partir de una v.a. uniforme. Podemos aplicar el siguiente procedimiento. Generamos
U ~ U (0,1) y definimos:
X =
0
si 0 < U p
si p < U 1
En efecto, la nueva variable X toma slo dos valores (0 y 1) y dado que p (0,1)
P( X = 1 ) = P( U p ) = p
y por lo tanto X tiene la distribucin deseada.
Notemos que en lugar del intervalo ( 0 , p ] podramos haber tomado cualquier intervalo en
(0,1) de longitud p .
85

2004
Vectores aleatorios
Hasta ahora hemos estudiado modelos de probabilidad para una nica variable aleatoria.
Sin embargo, en muchos casos interesa construir modelos que involucren a ms de una
variable. Consideraremos inicialmente el caso de vectores aleatorios bidimensionales y
luego extenderemos las definiciones y propiedades a vectores de dimensin mayor que 2.
Definicin: Sean X e Y v.a. discretas definidas sobre un espacio muestral S. La funcin
de probabilidad conjunta del par (X,Y), pXY(x,y) se define como
p XY ( x, y ) = P ( X = x, Y = y )
El conjunto R XY = {( x, y ) / x R X , y RY } es el recorrido o rango del vector aleatorio (X,Y).
Dado cualquier conjunto A 2 ,
P (( X , Y ) A) =
( x, y ) A
p XY ( x, y )
Una funcin de probabilidad conjunta satisface:
p XY ( x, y ) 0
p
x
XY
( x, y )
( x, y ) = 1
Ejemplos: 1) De una urna que contiene 6 bolillas blancas y 4 negras se extraen sin
reposicin 3 bolillas. Se definen
X: nmero de bolillas blancas extradas
1
Y =
0
si el nmero de bolillas negras extradas es par 0

si el nmero de bolillas negras extradas es impar
Hallemos la funcin de probabilidad conjunta del vector (X,Y). Observemos que los
posibles valores de X son 0, 1, 2 y 3 , y los posibles valores de Y son 1 y 0. Podemos
resumir la informacin en una tabla de la forma siguiente:
X
Y
0
1
0
1/30
0
1
0
9/30
2
15/30
0
3
0
5/30
86

2004
En efecto,
p XY (0,0) = P ( X = 0, Y = 0) equivale al suceso se extraen 3 bolillas negras y por lo tanto

tiene probabilidad 1/30.
p XY (0,1) = P ( X = 0, Y = 1) equivale al suceso se extraen 3 bolillas negras y el nmero de

bolillas negras es par y por lo tanto tiene probabilidad 0.
De esta forma, se completa la tabla de probabilidades conjuntas.
2) Repetir el Ejemplo 1, suponiendo que las extracciones se realizan con reposicin.
Definicin: Sea (X,Y) un vector aleatorio discreto con funcin de probabilidad conjunta
pXY(x,y), las funciones de probabilidad marginal de X e Y estn dadas por
p X ( x ) = p XY ( x, y )
y
pY ( y ) = p XY ( x, y )
x
Ejemplos: 1) En el ejemplo presentado antes, hallemos las funciones de probabilidad

marginal. En primer lugar, hallemos p X (x ) .
1
1
+0=
30
30
9
9
=
p X (1) = p XY (1,0) + p XY (1,1) = 0 +
30 30
15
15
+0=
p X (2) = p XY (2,0) + p XY (2,1) =
30
30
5
5
=
p X (3) = p XY (3,0) + p XY (3,1) = 0 +
30 30
p X (0) = p XY (0,0) + p XY (0,1) =
Respecto a p Y ( y ),
1
15
16
pY (0) = p XY (0,0) + p XY (1,0) + p XY ( 2,0) + p XY (3,0) =
+0+
+0=
30
30
30
9
5 14
+0+
=
pY (1) = p XY (0,1) + p XY (1,1) + p XY (2,1) + p XY (3,1) = 0 +
30
30 30
Observemos que las funciones de probabilidad marginal se obtienen sumando sobre filas
o columnas las funciones de probabilidad conjunta contenidas en la tabla, de ah su
nombre.
87

X
Y
0
1
p X (x )
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
2004
pY ( y )
3
0
5/30
5/30
16/30
14/30
1
pXY(x,y), la funcin de distribucin acumulada conjunta de (X,Y) est dada por
( x, y ) 2
F XY ( x, y ) = p XY ( s, t )
s x t y
Definicin: Sean X e Y v.a. continuas definidas sobre un espacio muestral S. El vector

aleatorio (X,Y) es continuo si existe una funcin, denominada funcin de densidad
2
0
conjunta, f XY ( x, y ) : , tal que
P(( X , Y ) A) = f XY ( x, y ) dx dy
A 2
En particular, si A = [a , b ] [c, d ] ,
b d
P (( X , Y ) A) = f XY ( x, y ) dy dx .
a c
Una funcin de densidad conjunta satisface:
f XY ( x, y ) 0
( x, y )
XY
( x, y ) dx dy = 1
Ejemplo: 1) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
k x + y 2
f XY ( x, y ) =
0
si 0 x 1, 0 y 1
en otro caso
88

2004
a) Hallar el valor de la constante k.

1 1
1 1
2
2
=
+
=
f
(
x
,
y
)
dx
dy
k
x
y
dx
dy
k
- XY
0 0
0 0 x + y dx dy =

1=
1
y y3
x2
5
1
1 1
2
2
= k + = k
= k
+ xy dy = k + y dy = k +
2
2
6
2 3
0
2 3 0
0
0
1
y, por lo tanto, k =
6
.
5
b) Calcular P 0 X
1
1
, 0 Y .
4
4
1
1
P 0 X , 0 Y =
4
4
6
=
5
=
1/ 4
1/ 4 1/ 4
6
6
x + y 2 dx dy =
5
5
1/ 4
1/ 4
x2
+ x y 2 dy =
0
2
1/ 4
1 2
6 1
1 y3
6 1
1
1 6 1
1
1
=
+
+ y dy = y +
+
=
=
5 32
4 3 0
5 32 4 4 64 3 5 128 768
16 2 4
6 7
7
=
5 768 640
89

2004
2) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
f XY ( x, y ) = k ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}.
a) Hallar el valor de la constante k.
1
1
, Y .
2
2
c) Hallar P ( X Y ).
b) Hallar P X
1 x
1 = f XY (x, y) dx dy = k (x + 2y) dy

0 0
a)
= k
0
dx =k ( xy + y 2 )
1- x
0
dx =
x2
1
= k k = 2
x(1 x) + (1 x) dx = k (1 x) dx = k x
2 0
2
1
1
b) P X , Y =
2
2
1/ 2 1/ 2
1/ 2
2 ( x + 2 y) dy dx = 2 ( xy + y
0
1/ 2
0
x 1
dx = 2 + dx =
2 4
0
1/ 2
1/ 2
x2 x
1 1 6 3
= 2
+ = 2 + = =
16 8 16 8
4 4 0
90

1/ 2
c)
P( X Y ) =
2004
1/ 2
1 x
1 x
2( x + 2 y ) dy dx = 2 ( xy + y 2 ) dx =
x
0
x
1/ 2
1/ 2
1/ 2
x2
x3
= 2 x(1 x) + (1 x) 2 x 2 x 2 dx = 2 1 x 2 x 2 dx = 2 x
2 =
2
3 0
0
0
1 1 1 14 7
=
= 2 =
2 8 12 24 12
3) En este ejemplo presentaremos a la distribucin Uniforme sobre una regin, la cual

generaliza a la distribucin Uniforme sobre un intervalo estudiada en el caso de variables
aleatorias. Diremos que el vector aleatorio tiene distribucin Uniforme sobre una regin
A 2 si su densidad es constante sobre la regin y 0 fuera de ella, es decir
91

si ( x, y ) A
si ( x, y ) A
k
( X , Y ) ~ U ( A) f XY ( x, y ) =
0
Es inmediato verificar que k =
2004
1
, pues
rea ( A)
1 = k dx dy = k dx dy = k rea( A) .
A
Tambin es inmediato verificar que
P(( X , Y ) B ) =
rea ( A B)
rea ( A)
B 2 .
Definicin: Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
f XY ( x, y ) , la funcin de distribucin acumulada conjunta de (X,Y) est dada por
x y
FXY ( x, y ) =
XY
( s, t ) dt ds
( x, y ) 2
f XY ( x, y ) , las funciones de densidad marginal de X e Y estn dadas por
f X ( x) =
XY
( x, y ) dy
XY
( x, y ) dx
f Y ( y) =
Ejemplos: 1) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
6
x + y2
f XY ( x, y ) = 5
0
si 0 x 1, 0 y 1
en otro caso
Hallemos las funciones de densidad marginal.

Si x [0,1], f X ( x ) = 0 pues para esos valores de x la densidad conjunta f XY ( x, y ) = 0 .
92

2004
Sea x [0,1] ,
1
y3
6
6
1
6
= x + .
f X ( x) = ( x + y 2 ) dy = xy +
5
3 0 5
3
5
0
1
Entonces, f X ( x) =
6
1
x + I [0,1] ( x).
5
3
Si y [0,1], f Y ( y ) = 0 pues para esos valores de y la densidad conjunta f XY ( x, y ) = 0 .

Sea y [0,1] ,
1
6
6 x2
61
2
f Y ( y ) = ( x + y ) dx =
+ xy 2 = + y 2 .
5
5 2
0 52
0
1
Entonces, f Y ( y ) =
61
2
+ y I [0,1] ( y ).
52
2) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}.
Si x [0,1], f X ( x ) = 0 pues para esos valores de x la densidad conjunta f XY ( x, y ) = 0 .
Sea x [0,1] ,
1 x
f X ( x) =
2( x + 2 y) dy = 2 (xy + y )
2 1 x
0
= 2 x(1 x) + (1 x) 2 = 2(1 x).
Entonces, f X ( x) = 2(1 x) I [0,1] ( x).

Si y [0,1], f Y ( y ) = 0 pues para esos valores de y la densidad conjunta f XY ( x, y ) = 0 .
Sea y [0,1] ,
93

1 y
f Y ( y) =
2004
1 y
(1 y ) 2
x2
= 2
+ 2(1 y ) y = 1 + 2 y 3 y 2 .
2( x + 2 y ) dx = 2
+ 2 xy
0
2
2
Entonces, f Y ( y ) = (1 + 2 y 3 y 2 ) I [0,1] ( y ).
pXY(x,y) y marginales pX(x) y pY(y), y sea x tal que pX(x) > 0, la funcin de probabilidad
condicional de Y dado X = x est dada por
pY | X = x ( y ) =
p XY ( x, y )
.
p X ( x)
Del mismo modo, sea y tal que pY(y) > 0, la funcin de probabilidad condicional de X
dado Y = y est dada por
p X |Y = y ( x) =
p XY ( x, y )
.
pY ( y )
Se puede verificar que, en efecto estas funciones son funciones de probabilidad ya que,
por ejemplo, pY | X = x ( y ) satisface
pY | X = x ( y ) 0 para todo y
Y |X =x
( y) = 1
La primera condicin se satisface ya que p X ( x ) > 0 y p XY ( x, y ) 0 x, y.

Respecto a la segunda,
p
y
Y|X =x
( y) =
y
p XY ( x, y )
1
1
=
p XY ( x, y ) =
p X ( x ) = 1.
p X ( x)
p X ( x) y
p X ( x)
Ejemplo: Se arroja dos veces un tetraedro cuyas caras estn numeradas 1, 2, 3 y 4. Se

definen las variables aleatorias
X: suma de los puntos obtenidos
Y: nmero de ases
Hallemos en primer lugar la funcin de probabilidad conjunta de (X,Y) y las funciones de
probabilidad marginal.
94

0
1
2
pX(x)
Y
2
0
0
1/16
1/16
3
0
2/16
0
2/16
4
1/16
2/16
0
3/16
X
5
2/16
2/16
0
4/16
2004
pY(y)
6
3/16
0
0
3/16
7
2/16
0
0
2/16
8
1/16
0
0
1/16
9/16
6/16
1/16
1
Obtengamos, por ejemplo, la funcin de probabilidad condicional de Y, dado X = 4
pY | X = 4 (0) =
p XY (4,0) 1 / 16 1
=
=
p X (4)
3 / 16 3
pY | X = 4 (1) =
p XY (4,1) 2 / 16 2
=
=
p X (4)
3 / 16 3
pY | X = 4 (2) =
p XY (4,2)
0
=
=0
p X (4)
3 / 16
que, podemos resumir en la siguiente tabla:
y
pY | X = 4 ( y )
0
1/3
1
2/3
2
0
En cambio, la funcin de probabilidad condicional de Y, dado X = 3, estar dada por
y
pY | X =3 ( y )
0
0
1
1
2
0
De la misma forma, pueden obtenerse todas las funciones de probabilidad condicional de

Y dado X = x, y las de X dado Y = y.
En cuanto al caso continuo, supongamos que en el Ejemplo 2) en el cual la densidad
conjunta estaba dada por
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
Y .
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}, deseamos hallar P X
2
4
95

2004
1
1
P X , Y
1
1
2
4
P X Y =
1
4
2
P Y
4
Por un lado,
1
1
P X , Y =
2
4
1/ 4
=2
0
1/ 4 1/ 2
1/ 4
2( x + 2 y) dx dy = 2
0
1/ 2
x2
+ 2 xy dy =
2
0
1/ 4
1
y2
1 1
1
1
= 2 + =
+ y dy = 2 y +
2 0
8
32 32 8
8
y, por otro
P Y =
4
1/ 4
(1 + 2 y 3 y
) dy = ( y + y 2 y 3 )
1/ 4
0
1 1
1 19
.
+
=
4 16 64 64
Entonces,
1
1 1/ 8
8
= .
P X Y =
2
4 19 / 64 19
1
1
Cmo calcularamos P X | Y = ? Ahora no es aplicable directamente la definicin

4
2
de probabilidad condicional porque P (Y = y ) = 0 y . Se requiere la siguiente definicin.

fXY(x,y) y marginales fX(x) y fY(y), y sea x tal que fX(x) > 0, la funcin de densidad
condicional de Y dado X = x est dada por
f Y | X = x ( y) =
f XY ( x, y )
.
f X ( x)
Del mismo modo, sea y tal que fY(y) > 0, la funcin de densidad condicional de X dado
Y = y est dada por
96

2004
f XY ( x, y )
.
f Y ( y)
f X |Y = y ( x) =
Se puede verificar que, en efecto estas funciones son funciones de densidad ya que, por
ejemplo, f Y | X = x ( y ) satisface
f Y | X = x ( y ) 0 para todo y
Y|X =x
( y )dy = 1
La primera condicin se satisface ya que f X ( x ) > 0 y f XY ( x, y ) 0 x, y.

Respecto a la segunda,
f Y | X = x ( y ) dy =
f XY ( x, y )
1
1
dy
=
f XY ( x, y ) dy =
f X ( x) = 1.
f X ( x)
f X ( x)
f X ( x)
Ejemplo: Volviendo al ejemplo 2 y a la pregunta que motiv esta definicin,
1
1
P X Y = =
2
4
1/ 2
X |Y =1 / 4
( x) dx
Hallemos la densidad condicional de X, dado Y=1/4.
f X |Y =1 / 4 ( x) =
f XY ( x,1 / 4) 2( x + 2 / 4) I ( 0,3 / 4) ( x) 32
1
=
= x + I ( 0,3 / 4) ( x) .
1 3
f Y (1 / 4)
21
2
1+
2 16
Notemos que, dado Y = y, X toma valores en el intervalo (0,1-y). De ah que, como

Y =1/4, X toma valores en el intervalo (0, ) . Finalmente,
1
1
P X | Y = =
2
4
1/ 2
1/ 2
32
1
32 x 2 x
32 1 1 4
+ = + = .
x + dx =
21
2
21 2 2 0
21 8 4 7
97

2004
Independencia de variables aleatorias

Definicin: Las variables aleatorias X e Y son independientes si y slo si para todo
se satisface
Si esta condicin no se satisface, diremos que X e Y son dependientes.

Caso 1: Si el vector (X,Y) es discreto, la condicin de independencia es equivalente a la
siguiente: X e Y son independientes si y slo si
,
Luego, para probar que dos variables discretas no son independientes, es suficiente con
exhibir un punto
,
en el que
,
.
Caso 2: Si el vector (X,Y) es continuo y
,
entonces, claramente, X e Y son independientes.

Para probar que dos variables continuas no son independientes deberamos exhibir un
conjunto , x ,
(es decir un conjunto de medida no nula) en el que no se
,
.
satisfaga la condicin
Se denomina soporte de una densidad al conjunto de valores en los cuales la densidad es
positiva. Si el soporte de la densidad conjunta no es igual al producto cartesiano de los
soportes de las densidades de X e Y es inmediato encontrar un conjunto as: bastara con
exhibir un rectngulo
,
x
,
tal que el intervalo
,
est contenido en el
no
,
en el soporte de Y y el rectngulo
,
x
,
soporte de X, el intervalo
est contenido en el soporte de (X,Y).
,
en
Otra forma de probar que X e Y no son independientes es encontrar un punto
y en el cual todas las densidades sean continuas. Por
,
el cual
continuidad, la condicin se cumplir en un entorno rectangular del punto.
Observemos que si X e Y son independientes, las funciones de probabilidad o densidad

condicional coinciden con las correspondientes marginales.
Ejemplos: 1) Consideremos el primer ejemplo presentado para el caso discreto, cuya
funcin de probabilidad conjunta y sus funciones de probabilidad marginal estn dadas
por:
98

X
Y
0
1
p X ( x)
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
3
0
5/30
5/30
2004
pY ( y )
16/30
14/30
1
Claramente X e Y no son independientes ya que, por ejemplo,
p XY (0,1) = 0
1 14
= p X (0) pY (1).
30 30
2) Sean X e Y v.a. independientes con distribucin exponencial de parmetro ,

entonces la funcin de densidad conjunta del vector (X, Y) estar dada por
f XY ( x, y ) = f X ( x) f Y ( y ) = e x e y I ( 0, ) ( x) I ( 0, ) ( y ) =
= 2 e ( x + y ) I ( 0, ) ( x) I ( 0, ) ( y ).
Esperanza de una funcin de dos variables aleatorias

Hemos visto que, dada una v.a. X y una funcin real h, h(X) tambin es una v.a. y que
para calcular su esperanza no necesitamos hallar la distribucin de h(X) ya que se obtiene
a partir de la funcin de probabilidad puntual o de densidad de la v.a. X, segn sea sta
discreta o continua, en la forma
E (h( X )) = h( x) p X ( x)
E (h( X )) = h( x) f X ( x) dx
Un resultado similar se obtiene en el caso de una funcin real de un vector aleatorio y

est dado por las dos proposiciones siguientes, cuya demostracin no haremos.
Proposicin: Sean X e Y dos variables aleatorias discretas con funcin de probabilidad
2
conjunta p XY ( x, y ) y sea h( x, y ) : , entonces h( X , Y ) es una variable aleatoria y
E (h( X , Y ) ) = h( x, y ) p XY ( x, y )
x
siempre que esta esperanza exista.
99

2004
Proposicin: Sean X e Y dos variables aleatorias continuas con funcin de densidad

2
conjunta f XY ( x, y ) y sea h( x, y ) : , entonces h ( X , Y ) es una variable aleatoria y

E (h( X , Y ) ) =
h ( x, y ) f
XY
( x, y ) dx dy
siempre que esta esperanza exista.

Proposicin: Sean X e Y dos v.a. discretas o continuas con funcin de probabilidad
conjunta o de densidad p XY ( x, y ) f XY ( x, y ) respectivamente y sean a y b nmeros
reales, entonces
E (aX + bY ) = aE ( X ) + bE (Y )
Dem: Haremos la demostracin para el caso continuo. La demostracin para el caso

discreto es similar.
Sea h ( X , Y ) = aX + bY , entonces
E (h( X , Y )) =
h( x, y) f XY ( x, y) dx dy = (ax + by) f XY ( x, y) dx dy =
= a x f XY ( x, y ) dx dy + b
y f
XY
( x, y ) dx dy =
= a x f XY ( x, y ) dy dx + b y f XY ( x, y ) dx dy =

= a x f X ( x) dx + b y f Y ( y ) dy = aE ( X ) + bE (Y )
Proposicin: Si X e Y son v.a. independientes, E ( XY ) = E ( X ) E (Y ).
Dem: Ejercicio.
100

2004
Covarianza y correlacin
Definicin: Sean X e Y dos v.a. con esperanzas X y Y respectivamente, la covarianza
entre X e Y se define como
( x X )( y Y ) p XY ( x, y )
x y
Cov( X , Y ) = E [( X X )(Y Y )] =

( x X )( y Y ) f XY ( x, y )dx dy
segn sean X e Y discretas o continuas.

Observacin: Cov ( X , X ) = V ( X ) .
Idea intuitiva: Si X e Y tienen una fuerte relacin positiva, en el sentido que valores
grandes de X aparecen asociados con valores grandes de Y y valores pequeos de X
aparecen asociados con valores pequeos de Y, entonces la mayora de los productos
( x X )( y Y ) sern positivos y por lo tanto la covarianza ser positiva. Por otra parte,
si X e Y tienen una fuerte relacin negativa, en el sentido que valores grandes de X
aparecen asociados con valores pequeos de Y y valores pequeos de X aparecen
asociados con valores grandes de Y, entonces la mayora de los productos
( x X )( y Y ) sern negativos y por lo tanto la covarianza ser negativa.
101

2004
Cov(x,y) <0
Cov(x,y) >0
Cov(x,y) =0
Proposicin: Cov ( X , Y ) = E ( X Y ) E ( X ) E (Y ).
Dem: Lo haremos slo para el caso discreto. Para el caso continuo se demuestra en
forma similar. Denotemos E ( X ) = X y E (Y ) = Y ,
Cov ( X , Y ) = E [( X X )(Y Y )] = ( x X )( y Y ) p XY ( x, y ) =
x
102

2004
= ( xy x Y y X + X Y ) p XY ( x, y ) =
x
= xy p XY ( x, y ) Y x p XY ( x, y ) X y p XY ( x, y ) + X Y p XY ( x, y ) =
x
= E ( XY ) Y x p XY ( x, y ) X y p XY ( x, y ) + X Y =
x
= E ( XY ) Y x p X ( x) X y pY ( y ) + X Y =
x
= E ( XY ) X Y X Y + X Y = E ( XY ) X Y
Ejemplos: 1) Consideremos nuevamente el primer ejemplo presentado para el caso
discreto, cuya funcin de probabilidad conjunta y sus funciones de probabilidad marginal
estn dadas por:
X
Y
0
1
p X (x )
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
3
0
5/30
5/30
pY ( y )
16/30
14/30
1
y calculemos Cov (X,Y).

3
1
3
1
Cov( X , Y ) = E ( X Y ) E ( X ) E (Y ) = k j p XY (k , j ) k p X (k ) i pY (i)
k =0 j =0
k =0
i =0
= 1
9
5 9
15
5 14 24 54 14
4
+ 3
1
+ 2
+ 3 1 =
=
30
30 30
30
30 30 30 30 30
100
2) Consideremos nuevamente el primer ejemplo presentado para el caso continuo, es

decir un vector aleatorio (X,Y) con funcin de densidad conjunta
6
x + y2
f XY ( x, y ) = 5
0
si 0 x 1, 0 y 1
en otro caso
103

2004
6
1
61
2
x + I [0,1] ( x) y f Y ( y ) = + y I [0,1] ( y ).
5
3
52
y marginales f X ( x) =
Calculemos Cov (X,Y). En primer lugar,

1 1
E ( XY ) = xy
0 0
1 1
6
6
x + y 2 dx dy = x 2 y + xy 3 dx dy =
5
500
1
1
1
6 y y3
6 y2 y4
6 x3 y x2 y3
dy = +
dy =
=
=
+
+
5 0 3
2 0
5 0 3 2
5 6
8 0
6 1 1 6 7
7
= + =
=
5 6 8 5 24 20
Por otra parte,
1
1
6
1
6 2 x
6 x 3 x 2
6 1 3
= =
E ( X ) = x x + dx = x + dx = +
5
3
5 06
3
5 3
6 0 5 2 5
0
1
1
61
6 y
6 y2 y4
+
E (Y ) = y + y 2 dy = + y 3 dy =
52
5 02
5 4
4
0
1
6 1 3
= =
0 5 2 5
Entonces,
Cov ( X , Y ) =
7 3 3
1
.
=
20 5 5
100
Propiedad: Si X e Y son v.a. independientes, Cov (X,Y) = 0. La recproca no es cierta en

general.
Dem: Hemos visto que si X e Y son independientes, E ( XY ) = E ( X ) E (Y ) y por lo tanto es
inmediato que Cov (X,Y) = 0.
Para ejemplificar que la recproca no es en general cierta, consideremos un vector
aleatorio discreto con la siguiente funcin de probabilidad conjunta
0
3
4
0
1/5
0
0
1
0
1/5
0
X
2
0
0
1/5
3
0
1/5
0
4
1/5
0
0
pY ( y )
2/5
2/5
1/5
104

p X (x )
1/5
1/5
1/5
1/5
1/5
2004
Se observa que X e Y no son independientes ya que, por ejemplo,
p XY (2,3) = 0 p X (2) pY (3) =
1 2
5 5
Sin embargo, se puede verificar que Cov (X,Y) = 0. En efecto,
E ( XY ) = 1 3
1
1
1
+ 2 4 + 33 = 4
5
5
5
E( X ) = 0
1
1
1
1
1
+ 1 + 2 + 3 + 4 = 2
5
5
5
5
5
E (Y ) = 0
2
2
1
+ 3 + 4 = 2
5
5
5
Entonces, Cov ( X , Y ) = 4 2 2 = 0.
Observacin: La covarianza depende de las unidades en que se expresan las variables
aleatorias. Este inconveniente puede salvarse standarizndolas. De este modo se obtiene
una medida de la fuerza de la relacin entre las v.a. que no depende de sus unidades.
Definicin: Sean X e Y dos v.a. con esperanzas X y Y respectivamente y varianza

positiva, el coeficiente de correlacin entre X e Y se define como
( X ,Y ) =
Cov( X , Y )
X Y
siendo X y Y los desvos standard de X e Y respectivamente.

Proposicin: 1) Sean a, b, c y d nmeros reales, a 0, c 0 y X e Y dos v.a. cualesquiera
con varianza positiva, entonces
( aX + b, cY + d ) = sg (ac ) ( X , Y )
donde sg denota la funcin signo.
2) 1 ( X , Y ) 1
105

3)
2004
( X , Y ) = 1 Y = aX + b con probabilidad 1, para ciertos valores reales a y b,

a 0 . Observemos que el coeficiente de correlacin mide relacin lineal entre las v.a.
Dem: 1)
Cov (aX + b, cY + d ) = E [( aX + b)(cY + d )] E ( aX + b) E (cY + d ) =
= E [acXY + adX + bcY + bd ] (aE ( X ) + b )(cE (Y ) + d ) =

= acE ( XY ) + adE ( X ) + bcE (Y ) + bd [acE ( X ) E (Y ) + adE ( X ) + bcE (Y ) + bd ] =
= ac[E ( XY ) E ( X ) E (Y )] = ac Cov ( X , Y ).
Por otra parte, aX + b = a X
(aX + b, cY + d ) =
y cY + d = c Y y, por lo tanto
Cov (aX + b, cY + d )
aX + b cY + d
ac Cov ( X , Y )
= sg (ac) ( X , Y )
a c X Y

2) Consideremos la siguiente funcin real,
q (t ) = E [(Y Y ) t ( X X )] = E [V tW ]
2
siendo V = Y Y y W = X X .
Observemos que q (t ) 0 t .
Como
q (t ) = E [V t W ] = E (V 2 ) 2 t E (V W ) + t 2 E (W 2 )
2
es una funcin cuadrtica en t que toma valores mayores o iguales que 0, su grfico, o no
corta al eje t o lo corta en un solo punto. Es decir que la ecuacin q (t ) = 0 tiene a lo
sumo una raz y por lo tanto su discriminante es menor o igual que 0. (Recordemos que el
discriminante de una ecuacin de segundo grado ax 2 + bx + c = 0 es b 2 4ac ). En
nuestro caso, el discriminante es
4[E (V W )] 4 E (V 2 ) E (W 2 )
2
y, por lo tanto,
106

4[E (V W )] 4 E (V 2 ) E (W 2 ) 0
[E (V W )]2
E (V 2 ) E (W 2 )
2004
[E (( X X )(Y Y ))]2
] [
E ( X X ) 2 E (Y Y ) 2
]1
[ ( X , Y )] 1 1 ( X , Y ) 1.
2
3) Demostraremos las dos implicaciones.

( ) Si 2 ( X , Y ) = 1 , y volviendo a la demostracin de la propiedad anterior, existe t o tal
que q (t o ) = 0 , o sea tal que
E [V t o W ] = 0 ,
2
Pero adems E (V t oW ) = 0 , pues V y W tienen esperanza igual a 0. Entonces la v.a.
V t oW tiene varianza cero y por lo tanto es constante con probabilidad 1, es decir

P(V t oW = E (V t oW ) ) = P(V t oW = 0) = 1
o sea,
P((Y Y ) t o ( X X ) = 0) = 1 P(Y = t o X + Y t o X ) = 1 .
Entonces, Y = aX + b con probabilidad 1, siendo a = t o y b = Y t o X . Falta verificar
que a = t o 0 .
2
En efecto, si t o fuese igual a 0, sto implicara que E (V ) = Var(Y ) = 0 .
() Sea Y = aX + b para ciertos valores a 0 y b. Entonces
( X , Y ) = ( X , aX + b) =
Cov ( X , aX + b)
( )
X aX +b
E ( X (aX + b) ) E ( X ) E (aX + b)
=
X a X
2
a X2
aE X 2 + bE ( X ) a[E ( X )] bE ( X ) a E ( X 2 ) E 2 ( X )
=
=
= 1
a X2
a X2
a X2
107

Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
2004
Vectores aleatorios.
Extensin a ms de dos dimensiones
Definicin: Sean X 1 ,..., X k variables aleatorias discretas, la funcin de probabilidad
conjunta del vector aleatorio ( X 1 ,..., X k ) se define como:
pX
1 ,..., X k
( x1 ,..., x k ) = P ( X 1 = x1 ,...., X k = x k )
y, dado cualquier conjunto A k ,

P (( X 1 ,..., X k ) A) = .. ... p X
( x1,..., xk )A
1 ,..., X k
( x1 ,..., x k )
Esta funcin satisface las siguientes propiedades:
p X ,..., X ( x1 ,..., x k ) 0
1
k
... p X ,..., X ( x1 , x 2 ,..., x k ) = 1

k
x1 xk 1
( x ,..., x )
1
k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de probabilidad marginal. Por ejemplo, la funcin de probabilidad marginal de X 1 est
dada por:
p X ( x1 ) = ... p X ,..., X ( x1 , x 2 ,..., x k )
1
k
1
x
x
2
y la funcin de probabilidad marginal de ( X 1 , X 2 ) est dada por:

p X , X ( x1 , x 2 ) = ... p X ,..., X ( x1 , x 2 ,..., x k ) .
k
1 2
x3 xk 1
Distribucin multinomial: Es una generalizacin de la distribucin Binomial. Supongamos

que se repite n veces en forma independiente una experiencia, que en cada repeticin
hay k resultados posibles (k 2), cada uno de los cuales ocurre con probabilidad pi
(1 i k) y que estas probabilidades se mantienen constantes en todas las repeticiones.
Este experimento se denomina experimento multinomial. Si definimos
Xi: nmero de veces que ocurre el resultado i (1 i k)
108

2004
la distribucin conjunta de (X1,...,Xk) se denomina distribucin multinomial de parmetros

n, p1,...pk .
Notacin: (X1,...,Xk) ~ M(n, p1,...pk)
La correspondiente funcin de probabilidad conjunta est dada por
n!
xk
x2
x2
x ! x !...x ! p1 p 2 ... p k
k
1 2
p X 1 ,..., X k ( x1 ,..., x k ) =
si 0 xi n i ,
x
i =1
=n
(1)
en otro caso
En efecto, en primer lugar hay que notar que si x1 + x 2 + ... + x k n , la funcin de

probabilidad puntual es cero. Sean ahora 0 xi n, tales que
x1 + x 2 + ... + x k = n .
Indicando por Ri (1 i k) cada uno de los k resultados posibles, una de las posibles
configuraciones que producen x i resultados Ri (1 i k), es

R ...R R ...R ........R k ...R k
123
x1
x2
xk
11231 12232
(alguno de los xi ' s podra ser 0, en cuyo caso no aparecera ninguno de los
correspondientes Ri ).
Como hemos supuesto independencia entre las repeticiones, esa configuracin tiene
x
x x
probabilidad p1 1 p 2 2 .... p k k , pero es slo una de las configuraciones posibles que
producen x i resultados Ri para 1 i k.
Cuntas configuraciones diferentes hay?
x
x !
n n x1 n x1 x 2
(n x1 )!
n!
...... k =

k =
x3
x k ! 0!
x1 x 2
x k x1! (n x1 )! x 2 ! (n x1 x 2 )!
n!
x1 ! x 2 !.... x k !
y se obtiene la funcin de probabilidad dada en (1).
109

2004
Observacin: La distribucin marginal de X i es binomial de parmetros n y pi para todo
1 i k . En general, las marginales de una distribucin multinomial son binomiales o

multinomiales.
Ejemplo: De una urna que contiene 3 bolillas rojas, 2 negras, 4 azules y 1 blanca se
extraen 12 bolillas con reposicin. Definiendo
X1: nmero de bolillas rojas
X2: nmero de bolillas negras
X3: nmero de bolillas azules
X4: nmero de bolillas blancas
el vector (X1, X2, X3, X4) tiene distribucin multinomial, es decir
3 2 4 1
( X 1 , X 2 , X 3 , X 4 ) ~ M 12, , , ,
10 10 10 10
a) Cul es la probabilidad de que se obtengan 3 bolillas rojas, 5 negras, 4 azules y
ninguna blanca?
3
pX
1, X 2 , X 3 , X 4
12! 3 2 4 1
= 0.006
3! 5! 4! 0! 10 10 10 10
(3,5,4,0) =
b) Calcular la probabilidad de obtener a lo sumo dos bolillas rojas.
Como X 1 ~ Bi12,
3
, entonces
10
12 3
P( X 1 2) = p X 1 (i ) =
i =0
i = 0 i 10
2
7

10
12 i
=0.25
c) Calcular la probabilidad de obtener 3 bolillas rojas y 2 blancas.

Como las v.a. que nos interesan son X1 y X4, defino una nueva v.a. Y = X2 + X3. El vector
aleatorio (X1 , X4 , Y) tambin tendr distribucin multinomial.
3 1 6
( X 1 , X 4 , Y ) ~ M 12, , ,
10 10 10
y, por lo tanto, la probabilidad pedida ser
12! 3
p X1 , X 4 ,Y (3,2,7) =

3! 2! 7! 10
1

10
6
= 0.06
10
110

( X 1 ,..., X k )
Definicin: El vector aleatorio
fX
1 ,..., X k
2004
es continuo si existe una funcin
: k 0 , denominada funcin de densidad conjunta, tal que

P (( X 1 ,..., X k ) A) = ... f X
1 ,..., X k
( x1 , x 2 ,..., x k ) dx1 ...dx k
A k
Esta funcin satisface las siguientes propiedades:
f X ,..., X ( x1 ,..., x k ) 0
1
k
( x ,..., x )
1
k
...... f X ,... X ( x1 ,...x k ) dx1 .....dx k = 1

k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de densidad marginal. Por ejemplo, la funcin de densidad marginal de X 1 est dada
por:
f X 1 ( x1 ) = .... f X
1 ,..., X k
( x1 , x 2 ,..., x k ) dx 2 ....dx k
y la funcin de densidad marginal de ( X 1 , X 2 ) , est dada por:
f X 1 , X 2 ( x1 , x 2 ) = ... f X
1 ,..., X k
( x1 , x 2 ,..., x k ) dx 3 ...dx k
Definicin: X 1 ,..., X k son variables aleatorias independientes si y slo si
p X 1 ,..., X k ( x1 ,..., x k ) = p X 1 ( x1 ) ... p X k ( x k )
( x1 ,..., x k )
f X1 ,..., X k ( x1 ,..., x k ) = f X1 ( x1 ) .... f X k ( x k )
( x1 ,..., x k )
en el caso discreto
salvo, eventualmente, en un
conjunto de probabilidad cero en el caso continuo.
111

2004
Ejemplos: 1) En el caso de la distribucin multinomial, las componentes del vector

aleatorio son v.a. con distribucin binomial no independientes y sto que es intuitivo ya
que su suma es constante (es igual a n), puede verificarse aplicando la definicin.
2) Sea ( X 1 , X 2 , X 3 ) un vector aleatorio con distribucin uniforme en el prisma de
vrtices (0,0,0),(1,0,0),(0,2,0),(1,2,0),(0,0,3),(1,0,3),(0,2,3),(1,2,3), cuyo volumen es igual a
6. Entonces, su funcin de densidad conjunta dada por
1 / 6
f X1 , X 2 , X 3 ( x1 , x 2 , x3 ) =
0
si 0 x 1 1, 0 x 2 2, 0 x3 3
en otro caso
Es inmediato verificar que las componentes del vector son variables aleatorias
independientes, ya que
3 2 1
1
dx 2 dx3 = 6 = 1
f X 1 ( x1 ) = 6
6
0 0
0
3 1 1
1
1
dx1 dx3 = 3 =
f X 2 ( x2 ) = 6
2
6
0 0
0
2 1 1
1
1
dx dx = 2 =
f X 3 ( x3 ) = 0 0 6 1 2 6
3
0
si x1 [0,1]
si x1 [0,1]
si x 2 [0,2]
si x 2 [0,2]
si x3 [0,3]
si x3 [0,3]
entonces,
f X1 , X 2 , X 3 ( x1 , x 2 , x 3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x 3 )
( x1 , x 2 , x 3 )
Distribucin de la suma de dos variables aleatorias

Sean X e Y dos v.a. de las cules se conoce la distribucin conjunta. Estamos interesados
en la distribucin de la v.a. V = X + Y.
Consideraremos dos ejemplos, uno para el caso de un vector aleatorio discreto y otro
para el caso continuo.
112

2004
Ejemplos: 1) Sean X ~ P() e Y ~ P(), v.a. independientes, y sea V = X + Y. Claramente

el recorrido de la v.a. V es el conjunto RV = {0,1,2,....} . Sea k RV ,
i =0
i =0
P( X + Y = k ) = p XY (i, k i ) = p X (i ) pY ( k i )
por ser X e Y independientes. Entonces,
( + ) k
e i e k i e
k!
=
i k i =
i =0
i =0 i ! (k i ) !
(k i )!
i!
k!
k
P( X + Y = k ) =
( + )
k!
( + ) k .
Entonces, V = X + Y tiene distribucin de Poisson de parmetro + . O sea

X + Y ~ P( + )
Este resultado se extiende por induccin al caso de n v.a. : si X1,..., Xn son v.a.
independientes tales que Xi ~ P(i) para i = 1,...,n, entonces X1 +...+ Xn ~ P(1 + ...+n).
2) Sean X e Y v.a. independientes con distribucin exponencial de parmetro , o sea,
sean X ~ E() e Y ~ E() independientes, y sea V = X + Y. La v.a. V toma valores en el
intervalo (0,), por lo tanto, si v 0, FV(v)=0. Sea v > 0,
FV (v ) = P ( X + Y v ) =
XY
( x, y ) dx dy =
{( x , y ) / x + y v}
f ( x ) f ( y ) dx dy
X
{( x , y ) / x + y v}
pues X e Y son independientes. Entonces,

v v y
v v y
P ( X + Y v ) = f X ( x ) f Y ( y ) dx dy = e x e
0 0
= e
0
0 0
dx dy =
v y
v
y
x dx dy = e y 1 e (v y ) dy =
113

= e
2004
dy e v dy = 1 e v e v v
0
Derivando respecto de v, se obtiene la densidad de V = X + Y, que es
f V ( v ) = e v + 2 e v v e v I ( 0 , ) ( v ) = 2 e v v I ( 0 , ) (v )
lo que demuestra que V tiene distribucin Gamma de parmetros (2,).
3) Se puede demostrar que, en general, si X ~ (,) e Y ~ (,) son variables aleatorias
independientes, entonces
X + Y ~ (+,)
Funcin generadora de momentos de la suma de v.a. independientes: Sean, en

principio X e Y dos v.a. independientes, entonces la funcin generadora de la suma X + Y
es el producto de las funciones generadoras, es decir
M X +Y (t ) = M X (t ) M Y (t )
En efecto, si por ejemplo X e Y son dos v.a. continuas e independientes,
) e
M X +Y (t ) = E e t ( X +Y ) =
t ( x+ y)
f XY ( x, y ) dx dy = e tx e ty f X ( x) f Y ( y ) dx dy =

( ) ( )
= e tx f X ( x) dx e ty f Y ( y ) dy = E e tX E e tY = M X (t) M Y (t)
como queramos demostrar. Para el caso discreto, se demuestra en forma similar.
Es inmediato verificar que si X 1 , X 2 ,..., X n son v.a. independientes,
n
MX
1+ X 2
+...+ X n (t ) = M X i (t )
i =1
Ejemplos: 1) Demostraremos, usando funciones generadoras de momentos que si

X ~ P() e Y ~ P() son v.a. independientes, X + Y ~ P( + ). En efecto,
114

M X +Y (t ) = M X (t ) M Y (t ) = e
(et 1) (et 1)
e
=e
2004
( + ) (et 1)
y se obtiene la funcin generadora de momentos de una v.a. Poisson con parmetro

( + ). Recordemos que la funcin generadora de momentos determina la distribucin de
la v.a..
2) Demostraremos ahora, usando funciones generadoras de momentos que si X e Y son
v.a. independientes con distribucin exponencial de parmetro , o sea X ~ E() e
Y ~ E(), entonces V = X + Y ~ (2,). En efecto,

M X +Y (t ) = M X (t ) M Y (t ) =
=
t t t
y se obtiene la funcin generadora de momentos de una v.a. (2,).
Sumas y promedios de variables aleatorias

En la pgina 100, demostramos que
E (a1 X 1 + a 2 X 2 ) = a1 E ( X 1 ) + a 2 E ( X 2 ).
Qu ocurre con la varianza de una combinacin lineal de dos variables aleatorias?
V (a1 X 1 + a 2 X 2 ) = E [(a1 X 1 + a 2 X 2 ) E (a1 X 1 + a 2 X 2 )] =

2
) (
= E [(a1 X 1 + a 2 X 2 ) (a1 1 + a 2 2 )] = E [(a1 X 1 a1 1 ) + (a 2 X 2 a 2 2 )] =

2
= E (a1 ( X 1 1 ) ) + E (a 2 ( X 2 2 ) ) + 2 E [a1 a 2 ( X 1 1 )( X 2 2 )] =
2
= a12V ( X 1 ) + a 22V ( X 2 ) + 2a1 a 2 cov( X 1 , X 2 )

La siguiente proposicin generaliza estos resultados para todo
Proposicin: Sean X 1 , X 2 ,..., X n v.a. cualesquiera con E ( X i ) = i y V ( X i ) = i2 y
a1 , a 2 ,..., a n nmeros reales, entonces

n
n
E ai X i = ai i
i =1
i =1
(1)
n
n
V ai X i = ai2 i2 + 2 ai a j cov( X i , X j )
i< j
i =1
i =1
115

2004
Dem: En primer lugar, probemos la expresin para la esperanza mediante induccin en n.

Como dijimos, ya lo hemos demostrado para n=2, supongamos ahora que la expresin es
cierta para n = k y probmosla para n = k + 1.
k +1
E a i X i = E a i X i + a k +1 X k +1 = E (Y + a k +1 X k +1 )
i =1
i =1
siendo Y =
a X
i =1
. Como para n = 2 se cumple, se obtiene
k +1
E ai X i = E (Y + a k +1 X k +1 ) = E (Y ) + a k +1 E ( X k +1 ) = E ai X i + a k +1 k +1
i =1
i =1
y, utilizando la hiptesis inductiva
k +1
k
k +1
E ai X i = ai i +a k +1 k +1 = ai i
i =1
i =1
i =1

Probemos ahora la expresin correspondiente a la varianza.
n
n
n
n
n
V ai X i = cov ai X i , ai X i = E ai X i a j X j E ai X i E a j X j =
i =1
j =1
j =1
i =1
i =1
i =1
i =1
n n
n
n
= E ai a j X i X j ai i a j j =
j =1
i =1 j =1
i =1
n n
n n
= ai a j E (X i X j ) ai a j i j =
i =1 j =1
i =1 j =1
= ai a j (E ( X i X j ) i j ) = ai a j cov( X i , X j )
n
i =1 j =1
i =1 j =1
Teniendo en cuenta que si i = j , cov( X i , X i ) = V ( X i ) y que cov( X i , X i ) = cov( X j , X i ) ,

obtenemos el resultado que queramos demostrar.
116

2004
Corolario: Sean X 1 , X 2 ,..., X n v.a. independientes con E ( X i ) = i y V ( X i ) = i2 y
a1 , a 2 ,..., a n nmeros reales, entonces

n
n
V ai X i = a i2 i2
i =1
i =1
n
n
E ai X i = ai i
i =1
i =1
Dem: Resulta inmediatamente del hecho que, por ser las v.a. independientes,
cov( X i , X j ) = 0
i j .
Corolario: Sean X 1 , X 2 ,..., X n v.a. independientes e idnticamente distribuidas (i.i.d.)

con E ( X i ) = y V ( X i ) = 2 i = 1,..., n y a1 , a 2 ,..., a n nmeros reales, entonces
n
n
E ai X i = ai
i =1
i =1
n
n
V a i X i = 2 a i2
i =1
i =1
Dem: Se verifica inmediatamente a partir del corolario anterior.

Propiedad: Sean X 1 , X 2 ,..., X n v.a. independientes e idnticamente distribuidas (i.i.d.)
con E ( X i ) = y V ( X i ) = 2 i = 1,..., n , entonces
a) E
i =1
i = n
n
Xi
b) E (X ) = E i =1
n
V X i = n 2
i =1
n
Xi
V(X ) = V i =1
n
2
=
n
Dem: Ejercicio.
117

Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
2004
Desigualdad de Chebyshev:
Para calcular la probabilidad de un evento descripto en trminos de una v.a. X es
necesario conocer la distribucin de la v.a. La desigualdad de Chebyshev provee una cota
que no depende de la distribucin sino slo de la esperanza y la varianza de X.
Proposicin: Sea X una v.a. con E(X) = y V(X)= 2 < , entonces
P( X > )
> 0,
2
2
Dem: Lo haremos para el caso continuo. La demostracin para el caso discreto es similar.
2 = E (( X ) 2 ) = ( x ) 2 f ( x) dx =
(x )
{ x / x > }
(x )
{ x / x > }
(x )
{ x / x }
f ( x) dx +
f ( x) dx
f ( x) dx
f ( x) dx = P( X
{ x / x > }
> )
Entonces,
2
P( X > )
2
Observacin: La cota que provee la desigualdad de Chebyshev puede ser grosera o, peor
an, no informativa, por ejemplo, si 2 2.
Ejemplo: Sea X ~ U(0,10), entonces E(X) = 5 y V(X)= 100/12.
Aplicando la desigualdad de Chebyshev,
P X 5 > 4
2
16
100 / 12
16
0.52
pero, si calculamos en forma exacta esa probabilidad,
P X 5 > 4 = 1 P X 5 4 = 1 P( 4 X 5 4 ) = 1 P (1 X 9) =
= 1 F X (9) + F X (1) = 1
9
10
1
10
= 0.20
118

2004
Formas equivalentes de la desigualdad de Chebyshev:

a)
> 0,
b)
k > 1,
c)
k > 1,
2
P( X ) 1 2
P( X > k )
1
k2
P( X k ) 1
1
k2
(En realidad, b) y c) son ciertas para todo k > 0, pero si k 1 la desigualdad es trivial)
Las dos ltimas formas muestran como el desvo standard mide el grado de
concentracin de la distribucin alrededor de = E(X).
Ley de los Grandes Nmeros:
1.5
1.6
1.7
1.8
1.9
2.0
Sea X una v.a. con funcin de densidad f(x) o funcin de probabilidad puntual p(x) y con
E(X) = . Supongamos que se desea estimar . Como hemos visto que la esperanza de
una v.a. se puede pensar como un promedio de sus valores, parece razonable estimarla
mediante el promedio de valores observados de X. Por supuesto que en una situacin
real slo tendremos un nmero finito de observaciones y nos preguntamos: usando slo
un nmero finito de valores de X, puede hacerse inferencia confiable respecto de E(X)?
La respuesta es SI y se demuestra a travs de la Ley de los Grandes Nmeros que nos
dice que el promedio X converge a cuando el nmero de observaciones (o tamao de
la muestra) tiende a infinito. Observemos lo que sucede en la siguiente figura.
200
400
600
800
1000
Figura 1:Comportamiento asinttico del promedio muestral. El promedio del nmero observado de caras,
cuando 4 monedas equilibradas son arrojadas se aproxima al valor medio =2 de la distribucin.
x,
119

2004
En qu sentido converge X a ?
Sea (Xn ) (n 1) una sucesin de variables aleatorias, diremos que Xn converge en
p
X , si
probabilidad a la v.a. X y lo notaremos X n
lim P( X n X > ) = 0
> 0
Ley de los Grandes Nmeros: Sean X1, X2, .... v.a. independientes e idnticamente
distribuidas (muestra aleatoria) con E(X) = y V(X) = 2 < , entonces
p
Xn
siendo X n =
X
i =1
el denominado promedio muestral.
Dem: Sabemos que E ( X n ) = y V ( X n ) =
2
n
, entonces aplicando la desigualdad de
Chebyshev,
P Xn >
2
=
n2
> 0
2
=0
n n 2
> 0
V (X n )
y, por lo tanto
lim P X n > lim
p
Luego, X n
, como queramos demostrar.
Versin Bernoulli de la Ley de los Grandes Nmeros: Consideremos n repeticiones

independientes de un experimento aleatorio y sea A un suceso con probabilidad P(A) = p,
constante en las n repeticiones. Si llamamos nA a la frecuencia absoluta de A (nmero de
veces que ocurre A en las n repeticiones) y fA = nA / n a la frecuencia relativa, entonces
p
fA
es decir,
P ( f A p > ) n
0
> 0
120

Dem:
2004
Como nA ~ Bi(n,p) con p = P(A), entonces E(nA) = n p y V(nA) = n p (1-p). Luego
n p(1 p)
V( fA) =V A =
n
n
n
E ( f A ) = E A = p
n
y, aplicando la desigualdad de Chebyshev,
P( f A p > )
V( fA)
p (1 p )
n2
> 0
Luego,
lim P( f A p > ) lim

n
p(1 p)
=0
n2
> 0
Ejemplo: Cuntas repeticiones del experimento deberan hacerse para que la frecuencia
relativa difiera de p en menos de 0.01 con probabilidad mayor o igual que 0.95?
En este caso, = 0.01 y queremos encontrar n tal que
P ( f A p < 0.01) 0.95

Pero, dado que
P ( f A p < 0.01) 1
p(1 p)
n (0.01) 2
p(1 p)
p (1 p)
p(1 p )
0.95
0.05 n
2
2
n (0.01)
n (0.01)
(0.01) 2 (0.05)
El valor mnimo de n depende de p y es mximo cuando p = 0.50. Por ejemplo,

p = 0.50 n 50000
p = 0.10 n 18500
p = 0.01 n 1980
121

2004
Distribucin de la suma de variables aleatorias independientes: En general es

difcil calcular la distribucin de la suma o de una combinacin lineal de n v.a.
independientes, an cuando tengan la misma distribucin. Sin embargo, en algunos casos
la distribucin de la suma o de combinaciones lineales es conocida. Recapitulemos
algunos resultados.
a) Si
X 1 , X 2 ,...., X n son v.a. independientes tales que X i ~ Bi (ni , p) , entonces
X
~
Bi
ni , p .
i
i =1
i =1
En particular, si X i ~ Bi (1, p ) i , entonces

b) Si
X 1 , X 2 ,...., X n
X
i =1
X
i =1
~ Bi (n, p).
X i ~ P (i ) , entonces
son v.a. independientes tales que
~ P i .
i =1
n
c) Si X 1 , X 2 ,...., X n son v.a. i.i.d. tales que X i ~ G ( p ) , entonces

d) Si X 1 , X 2 ,...., X n son v.a. i.i.d. tales que X i ~ ( ) , entonces
e) Si
X 1 , X 2 ,...., X n
X
i =1
f)
son v.a. independientes tales que
X
i =1
n
X
i =1
~ BN (n, p).
~ (n, ).
X i ~ (ni , ) , entonces
~ n i , .
i =1
Si X 1 , X 2 ,...., X n son v.a. independientes tales que X i ~ N ( i , i2 ) y a1 , a 2 ,..., a n son

n
n
2 2
a
X
~
N
a
i
i
i i ai i .
i =1
i =1
i =1
nmeros reales, entonces
En particular, si X 1 , X 2 ,..., X n son v.a. i.i.d. tales que X i ~ N ( , 2 ) , entonces
2
X ~ N ,
n
y T = X i ~ N ( n , n 2 ) .
i =1
Dem: Todos estos resultados pueden demostrarse fcilmente usando funciones

generadoras de momentos. Como ejemplo, demostremos la propiedad e), es decir que si
122

X 1 , X 2 ,...., X n
n
X
i =1
son
v.a.
independientes
tales
que
2004
X i ~ ( ni , ) ,
entonces
~ ni , .
i =1
Por ser las Xi v.a. independientes, la funcin generadora de la suma es el producto de las
funciones generadoras, entonces
n
ni
n
n
i =1

(t ) = M X i (t ) =
X i ~ ni ,
=
t
i =1
Xi
i =1
i =1 t
i =1
ni
i =1

Veremos ahora que, cuando las v.a. no son normales, la distribucin normal resulta una
buena aproximacin para la distribucin de X y T .
Teorema Central del Lmite: Sean
X 1 , X 2 ,....
v.a. i.i.d con
E( X i ) =
V ( X i ) = < , entonces si n es suficientemente grande,

2
T n
n
(a)
~ N (0,1)
n (X ) ( a )
~ N (0,1)
o, dicho de otro modo,
T n
n
Z ~ N (0,1)
n (X )
Z ~ N (0,1)
d
donde la convergencia en distribucin (
) se interpreta en el siguiente sentido:
T n
a (a)
P
n
n ( X )
a (a)
P
es decir, que las funciones de distribucin convergen a la funcin de distribucin normal

standard.
Dem: Lo demostraremos bajo la hiptesis de que la funcin generadora de momentos de
Xi, M X i (t ) existe y es finita.
123

2004
Supongamos inicialmente que = 0 y 2 = 1. En este caso, la funcin generadora de

momentos de
est dada por
n
MT /
(t ) = M T (t / n ) = M
n
Xi
(t / n ) = M X i (t / n ) = M X i (t / n )
i =1
i =1
por ser las Xi independientes. Sea L(u ) = ln M X i (u ) , entonces
L(0) = ln M X i (0) = ln(1) = 0

L' (0) =
L' ' (0) =
Ahora,
ln M X i (u )
u
=
u =0
2 ln M X i (u )
u
para
M X' i (u )
M X i (u )
=
u =0
M X i (0)
= =0
M X'' i (u ) M X i (u ) M X' i (u )
u =0
probar
M X' i (0)
el
[M
teorema,
Xi
(u )
u =0
demostraremos
[
(0)]
M X'' i (0) M X i (0) M X' i (0)
que
[M
MT /
= E ( X i2 ) = 1
Xi
(t ) e t
/2
equivalentemente, que nL(t / n ) t 2 / 2. Aplicando la regla de LHospital dos veces,
L(t / n )
L' (t / n )t
L' (t / n )t n 3 / 2
= lim
= lim
=
2
n
n
n
1/ n
2n
2 n 1 / 2
lim
L' ' (t / n ) t 2 n 3 / 2
L' ' (t / n ) t 2 t 2
=
= .
lim
n
n
2
2
2 n 3 / 2
= lim
por lo tanto hemos probado el Teorema Central del Lmite para = 0 y 2 = 1. El caso
general resulta considerando las v.a. standarizadas
Xi
= X i* .
Observacin: Qu significa n suficientemente grande? Cmo sabemos si la

aproximacin es buena? El tamao de muestra requerido para que la aproximacin sea
razonable depende de la forma de la distribucin de las Xi . Mientras ms simtrica y
acampanada sea, ms rpidamente se obtiene una buena aproximacin.
124

2004
Figura 2: Distribucin de x para distintas distribuciones cuando n=2, 5 y 30.

a) Distribucin discreta, b) Distribucin Uniforme, c) Distribucin Exponencial
Ejemplo: Al sumar nmeros, una calculadora aproxima cada nmero al entero ms

prximo. Los errores de aproximacin se suponen
independientes y
con
distribucin U(-0.5,0.5).
a) Si se suman 1500 nmeros, cul es la probabilidad de que el valor absoluto del error
total exceda 15?
Si llamamos Xi al error correspondiente al i-simo sumando, el error total es T1500 =
1500
X
i =1
Entonces,
P (T1500 > 15) = 1 P ( T1500 15) = 1 P (15 T1500 15) =
125

2004
T1500
15
15
15
15
= 1 P
1
+
=
1500 / 12
1500 / 12
1500 / 12
1500 / 12
1500 / 12
= 1 (1.34) + (1.34) = 0.18
Hemos usado que E ( X i ) = 0 y V ( X i ) =
1500
1
y por lo tanto E (T1500 ) = 0 y V (T1500 ) =
.
12
12
b) Cuntos nmeros pueden sumarse a fin de que el valor absoluto del error total sea
menor o igual que 10 con probabilidad mayor o igual que 0.90?
Buscamos el valor de n tal que
P ( Tn 10 ) 0.90
10
P (Tn 10) 0.90 P( 10 Tn 10) 0.90 P
Tn
n / 12
0.90
n / 12
10
Aplicando la aproximacin normal, debemos hallar n tal que
10
10
10
10

0.90 2
1 0.90
0.95
n / 12
n / 12
n / 12
n / 12
10
n / 12
1.64 n 21.12 n 446
es decir, que se pueden sumar a lo sumo 446 nmeros para que el valor absoluto del
error total sea menor o igual que 10 con probabilidad mayor o igual que 0.90.
Aproximacin de la distribucin binomial por la normal: Sea X ~ Bi (n,p), entonces X es el
nmero de xitos en n repeticiones de un experimento binomial con probabilidad de xito
igual a p, y X / n es la proporcin muestral de xitos.
Definamos las siguientes variables aleatorias
1
Xi =
0
si se obtuvo xito en la repeticin i

si se obtuvo Fracaso en la repeticin i
para i = 1, ..., n. Estas v.a. son independientes, Xi ~ Bi (1, p) i y X =
X
i =1
Aplicando el Teorema Central del Lmite, si n es suficientemente grande,
126

2004
X ( a ) p(1 p)
~ N p,
n
n
(a)
X ~ N (np, np(1 p) )
Se considera que la aproximacin es buena si n p 5 y n (1-p) 5.
0.2
0.4
0.6
0.4
0.8
1.0
0.0
0.2
0.0
0.0
Bi(10,0.10)
0.2
0.4
0.6
Bi(5,0.10)
0.0
0.2
0.2
0.3
0.4
0.5
0.0
0.1
0.0
0.1
0.2
0.3
0.4
0.15
0.20
0.08
0.05
0.10
0.15
0.20
0.25
0.0
0.04
0.06
0.0
1.0
Bi(200,0.10)
0.12
Bi(100,0.10)
0.0
0.8
Bi(50,0.10)
0.15
0.0
0.0
0.6
0.10
Bi(20,0.10)
0.4
0.0
Figura 3: Distribucin de
0.05
0.10
X
n
Correccin por continuidad: Cuando se aproxima una distribucin discreta por una
continua, como es el caso de la aproximacin de la distribucin binomial por la normal, es
necesario efectuar una correccin. Consideremos el siguiente ejemplo:
Sea X ~ Bi (100, 0.6) y calculemos en forma aproximada P(X 50) y P(X 51).
Si aplicamos directamente el TCL, obtenemos:
X 60 50 60
P ( X 50) = P
( 2.04 ) = 0.021
24
24
X 60 51 60
P ( X 51) = P
1 (1.84) = 0.967
24
24
127

2004
Si bien, P(X 50) + P(X 51) = 1, los valores aproximados no satisfacen esta restriccin.
Para evitar este problema, se efecta la siguiente correccin, denominada correccin por
continuidad,
X 60 50.5 60
P ( X 50) = P( X 50.5) = P
( 1.94 ) = 0.026
24
24
X 60 50.5 60
P ( X 51) = P( X 50.5) = P
1 (1.94) = 0.974
24
24
En general, cuando la v.a. es discreta y xi xi-1 = 1, la correccin se realiza en la forma:
P ( X a) = P( X a + 0.5)
P ( X a) = P( X a 0.5)
Si la distancia entre dos valores sucesivos de X es k > 1, cmo aplicara la correccin
por continuidad?
Ejemplo: Sea X ~ Bi(60,1/3). Calcular en forma aproximada la probabilidad de que X sea
mayor o igual que 25.
X 60 1 24.5 60 1
3
3 1 (1.23) = 0.11
P ( X 25) = P( X 24.5) = P
1 2
1 2
60
60
3 3
3 3
Otras aplicaciones del Teorema Central del Lmite:

a) Sean X 1 , X 2 ,..., X n v.a. i.i.d. con distribucin Poisson de parmetro , entonces
n
X
i =1
~ P(n )
Por lo tanto, cualquier v.a. con distribucin de Poisson con parmetro suficientemente
grande puede ser aproximada por la distribucin normal.
b) Sean X 1 , X 2 ,..., X n v.a. independientes con distribucin Gamma de parmetros ni y ,
o sea X i ~ (ni , ) entonces
n
X
i =1
~ n i ,
i =1
Por lo tanto, cualquier v.a. con distribucin (m, ) con parmetro m suficientemente
grande puede ser aproximada por la distribucin normal.
128

2004
Una aplicacin de suma de v.a. independientes y generacin de nmeros al

azar:
Recordemos que un proceso de Poisson permite modelar una situacin en la que los
eventos ocurren a lo largo del tiempo (o espacio, volumen, etc.).
Hemos visto, que bajo ciertos supuestos, si definimos la variable
X t = cantidad de eventos que ocurren en el intervalo [0,t]
entonces X t ~ P ( t ) , donde es la tasa media de ocurrencias o intensidad del proceso.
Tambin hemos mencionado que, si denotamos
-
T1 = tiempo que transcurre entre que empezamos a medir y el momento en que

ocurre el primer evento
T2 = tiempo que transcurre entre el primer evento y el segundo evento.
y, en general,
-
Ti = tiempo que transcurre entre el (i-1)- simo evento y el i-simo evento ( i N )
las Ti son variables aleatorias independientes y con distribucin exponencial, todas con el
mismo parmetro .
Es claro que, si a uno le interesara el tiempo que transcurre desde el inicio hasta la ksima ocurrencia, esta variable aleatoria podra expresarse como
k
T
i =1
Veamos la recproca, es decir, veamos como podemos construir un proceso de Poisson a

partir de v.a. i.i.d. con distribucin exponencial.
Proposicin: Sean W1 , W2 ,...., Wk ,... v.a. independientes con distribucin E(1).

Consideremos el siguiente proceso. Comenzamos a medir el tiempo en t = 0 y
consideramos que ocurre el primer evento en el instante W1, el segundo en el
instante W1 +W2 , y en general el k-simo evento en el instante W1 + W2 +.+ W k. Si
para t > 0, definimos la variable aleatoria
X t = cantidad de eventos que ocurren en el intervalo [0,t]
entonces X t es una variable discreta y su distribucin es P (t ) .
129

2004
Dem: Sea k N U {0} y consideremos el evento [X t k ]. Observemos que

[X t k ]
hubo k ms eventos en el intervalo [0,t]

k
eventos en el intervalo [0,t]
i =1
hubo por lo menos k
Calculemos la probabilidad de dicho evento:
k
P ( X t k ) = P Wi t
i =1
Como las W1 , W2 ,...., Wk ,... son variables aleatorias independientes y con distribucin
E(1)=(1,1) , entonces
k
W
i =1
~ (k,1)
y por lo tanto
P Wi t = f S ( s )ds
i =1

t
con S =
W
i =1
~ (k,1) y en consecuencia f S ( s ) =
1
s k 1e s I ( 0, + ) ( s ) . Entonces,
(k 1)!
1
k
P Wi t =
s k 1e s ds
i =1
0 (k 1)!
t
Llamemos
t
1
s k 1e s ds
k
(
1
)!
0
Ak (t ) =
a la funcin de distribucin acumulada de una (k,1). Integrando por partes una vez, si
consideramos
u=
s k 1
(k 1) s k 2
sk -2
=
u=
(k 1)!
(k 1)!
(k - 2)!
v= e s
v = - e -s
obtenemos
130

1
1 k 1 s
Ak (t ) =
s k 1e s ds =
s e
(k 1)!
(k 1)!
0
t
2004
t
1
s k 2 e s ds
k
(
2
)!
+
0
1 k 1 t
t e + Ak 1 (t )
(k 1)!
1 k 2 t
1 k 1 t
t e +
t e + Ak 2 (t )
(k 1)!
(k 2)!
Finalmente, por induccin, despus de M pasos obtenemos
Ak (t ) = ..... = e t
k 1
ti
+ Ak M (t )
i = k M i!
Como
t
A1 (t ) = e s ds = e t + 1
0
resulta
k 1 i
k 1 i
t
t
+ A1 (t ) = e t + 1
i =1 i!
i = 0 i!
Ak (t ) = e t
y por lo tanto
k 1 i
t
k
P( X t k ) = P Wi t = Ak (t ) = 1 e t
i = 0 i!
i =1
Si tomamos el complemento resulta

k 1
P( X t < k ) = P( X t k 1) =
i =0
t i t
e
i!
que corresponde a la funcin de distribucin acumulada de una variable con distribucin

P(t), tal como queramos demostrar.
Este resultado es muy til para generar variables aleatorias con distribucin de Poisson a
partir de exponenciales, a las que podemos generar fcilmente a partir de U(0,1).
Supongamos que deseamos generar una variable aleatoria X con distribucin P(). Para
ello basta utilizar la proposicin anterior tomando t = . Podemos describir el algoritmo de
la siguiente forma:
131

2004
Paso 1: generamos una v.a. W1 con distribucin E(1).

Paso 2: chequeamos si W1 t. Si sto ocurre, continuamos con el paso siguiente. Si, en
cambio, W1 t terminamos y X = 0.
Paso 3: generamos una v.a. W2 con distribucin E(1), independiente de W1.
Paso 4: chequeamos si W1 + W2 t. Si sto ocurre, continuamos con el paso siguiente. Si
no, terminamos y X = 1.
Paso 2k-1: generamos una v.a. W k con distribucin E(1), independiente de W1, W2, .,
W k-1.
Paso 2k: chequeamos si W1 + W2 +.+ W
terminamos y X = k.
t. Si sto ocurre seguimos, si no
132

2004
Etapas de una investigacin

La Estadstica nos permite realizar inferencias y sacar conclusiones a partir de los datos.
Extrayendo la informacin que contenen, podremos comprender mejor las situaciones
que ellos representan.
Los mtodos estadsticos abarcan todas las etapas de la investigacin, desde el diseo
de la investigacin hasta el anlisis final de los datos.
Podemos distinguir tres grandes etapas:
1. Diseo: Planeamiento y desarrollo de las investigaciones
2. Descripcin: Resumen y exploracin de los datos
3. Inferencia: Predicciones y toma de decisiones sobre las caractersticas de una
poblacin en base a la informacin recogida en una muestra de la poblacin.
En la etapa de Diseo se define cmo se desarrollar la investigacin con el fin de
responder las preguntas que le dieron origen. Un diseo bien realizado puede ahorrar
esfuerzos en etapas posteriores y puede redundar en un anlisis ms sencillo. Esta etapa
es crucial, pues un estudio pobremente diseado o con datos incorrectamente
recolectados o registrados puede ser incapaz de responder las preguntas que originaron
el estudio.
Una vez formulado el problema, en la etapa de Diseo se definir, entre otras cosas, la
poblacin objetivo, los tamaos de muestra, los mecanismos de seleccin de individuos,
los criterios de inclusin y exclusin de sujetos, los mtodos de asignacin de
tratamientos, las variables que se medirn y cmo se entrenar al equipo de trabajo para
el cumplimiento del protocolo.
Los mtodos de Anlisis Exploratorio o Estadstica Descriptiva ayudan a comprender
la estructura de los datos, de manera de detectar tanto un patrn de comportamiento
general como apartamientos del mismo. Una forma de realizar sto es mediante grficos
de sencilla elaboracin e interpretacin. Otra forma de describir los datos es
resumindolos en uno, dos o ms nmeros que caractericen al conjunto de datos con
fidelidad. Explorar los datos permitir detectar datos errneos o inesperados y nos
ayudar a decidir qu mtodos estadsticos pueden ser empleados en etapas posteriores
del anlisis de manera de obtener conclusiones vlidas.
Finalmente, la Inferencia Estadstica nos permite tanto hacer predicciones y
estimaciones como decidir entre dos hiptesis opuestas relativas a la poblacin de la cual
provienen los datos (test de hiptesis).
La calidad de las estimaciones puede ser muy variada y est afectadas por errores. La
ventaja de los mtodos estadsticos es que, aplicados sobre datos obtenidos a partir de
muestras aleatorias, permiten cuantificar el error que podemos cometer en una
estimacin o calcular la probabilidad de cometer un error al tomar una decisin en un test
de hiptesis.
Para entender qu tipo de problemas consideraremos en Estadstica tomemos, por
ejemplo, las siguientes mediciones de la proporcin de la masa de la Tierra con respecto
a la Luna
133

Mariner II
Mariner IV
Mariner V
Mariner VI
Mariner VII
Pioneer VI
Pioneer VII
2004
81.3001
81.3015
81.3006
81.3011
81.2997
81.3005
81.3021
En Probabilidad podramos suponer que las posibles mediciones se distribuyen alrededor

del verdadero valor 81.3035 siguiendo una distribucin determinada y nos
preguntaramos
Cul es la probabilidad de que se obtengan 7 mediciones menores que el verdadero
valor?
En Estadstica, a partir de los 7 observaciones nos preguntaramos:
Son consistentes los datos con la hiptesis de que el verdadero valor es 81.3035?
Cun confiable es decir que el verdadero valor est en el intervalo (81.2998, 81.3038)?
Las tcnicas del anlisis exploratorio nos ayudan a organizar la informacin que proveen
los datos, de manera de detectar algn patrn de comportamiento as como tambin
apartamientos importantes al modelo subyacente. Nos guan a la estructura subyacente
en los datos de manera rpida y simple.
Estadstica Descriptiva
Examinaremos los datos en forma descriptiva con el fin de:
Organizar la informacin
Sintetizar la informacin
Ver sus caractersticas ms relevantes
Presentar la informacin
Definimos:
Poblacin: conjunto total de los sujetos o unidades de anlisis de inters en el estudio
Muestra: cualquier subconjunto de sujetos o unidades de anlisis de la poblacin en
estudio.
Unidad de anlisis o de observacin: objeto bajo estudio. Puede ser una persona, una
familia, un pas, una institucin o en general, cualquier objeto.
Variable: cualquier caracterstica de la unidad de observacin que interese registrar y
que en el momento de ser registrada puede ser transformada en un nmero.
Valor de una variable, Dato, Observacin o Medicin: nmero que describe a la
caracterstica de inters en una unidad de observacin particular.
134

2004
Caso o Registro: conjunto de mediciones realizadas sobre una unidad de observacin.
Datos cuantitativos
Esquema de Tallo y Hoja
Nos da una primera aproximacin rpida a la distribucin de los datos sin perder de vista
las observaciones.
Ejemplo: La siguiente tabla contiene 45 observaciones correspondientes a la fuerza de
compresin de cierta aleacin de Aluminio-Litio.
96
108
125
112
134
120
93
94
155
135
119
103
88
148
155
132
97
113
117
156
103
111
89
124
127
139
112
125
118
138
95
142
127
104
136
113
94
117
106
125
96
107
120
139
143
95
107
117
125
139
96
108
118
127
139
96
111
119
127
142
Ordenamos los datos de menor a mayor

88
97
112
120
132
143
89
103
112
120
134
148
93
103
113
124
135
155
94
104
113
125
136
155
94
106
117
125
138
156
Separamos a cada observacin en dos partes: tallo y hoja
Listamos en forma vertical y creciente los tallos y agregamos las hojas a la

derecha del tallo correspondiente.
Ejemplo. Consideremos el segundo dato :

8
TALLO
HOJA
Elegimos un nmero de dgitos a la derecha de cada nmero que correspondern a las

hojas: 1 en este caso.
Separamos esos dgitos de los restantes, que constituirn los tallos. En este caso
obtendremos 8 tallos, de 8 a 15.
89
135

9
10
11
12
13
14
15
2004
3445667
334678
122337789
00455577
2456899
238
556
Qu podemos ver en este tipo de diagrama?

Rango de las observaciones, valores mximo y mnimo.
Forma de la distribucin: simetra, asimetra a derecha, asimetra a izquierda y
cuntos picos tiene la distribucin.
Posicin del centro de la distribucin y concentracin de los datos.
Desviaciones marcadas respecto al comportamiento general: outliers o valores
atpicos.
Ejemplo: Los siguientes datos corresponden a tiempos de falla de cables Kevlar 49/epoxy
sometidos a una presin del 90%:
TIEMPOS DE FALLA
0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.04 0.05 0.06 0.07 0.07 0.08 0.09 0.09 0.10
0.10 0.11 0.11 0.12 0.13 0.18 0.19 0.20 0.23 0.80 0.80 0.83 0.85 0.90 0.92 0.95
0.99 1.00 1.01 1.02 1.03 1.05 1.10 1.10 1.11 1.15 1.18 1.20 1.29 1.31 1.33 1.34
1.40 1.43 1.45 1.50 1.51 1.52 1.53 1.54 1.54 1.55 1.58 1.60 1.63 1.64 1.80 1.80
1.81 2.02 2.05 2.14 2.17 2.33 3.03 3.03 3.24 4.20 4.69 7.89
El correspondiente esquema de tallo y hoja resulta:

0
0
1
1
2
2
3
3
4
4
5
5
6
6
7
7
0000000000000001111111122
88889999
000001111122333444
55555555666888
00113
002
2
6
En este caso cada tallo ha sido dividido en 2 lneas: en la primera se listan las hojas 0 a 4
y en la segunda las hojas 5 a 9.
Se observa asimetra a derecha y un valor alejado del resto: 7.8
136

2004
Veamos otro ejemplo:

Ejemplo: Concentracin de Inmunoglobulina (Img) en 298 nios sanos entre 6 meses y 6
aos de edad.
Img
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
no de nios
3
7
19
27
32
35
38
38
22
16
16
6
Img
1.3
1.4
1.5
1.6
1.7
1.8
2.0
2.1
2.2
2.5
2.7
4.5
no de nios
7
9
6
2
3
3
3
2
1
1
1
1
El esquema de tallo y hoja resultante es el siguiente:

0
0
0
0
0
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
111
22222223333333333333333333
4444444444444444444444444445555555555555555555555555*
6666666666666666666666666666666666677777777777777777*
8888888888888888888888888888888888888899999999999999*
00000000000000001111111111111111
2222223333333
444444444555555
66777
888
00011
2
5
7
En este caso cada tallo ha sido dividido en 5 lneas: en la primera se listan las hojas 0 y
1, en la segunda las hojas 2 y 3, en la tercera las hojas 4 y 5, en la cuarta las hojas 6 y 7
y por ltimo en la quinta lnea las hojas 8 y 9.
Cmo elegimos el nmero de tallos?
Hay reglas heursticas para elegir el nmero de tallos. En general se recomienda utilizar
entre 8 y 20.
137

2004
El nmero de tallos debe ser tal que permita mostrar una imagen general de la estructura
del conjunto de datos. Aunque existen algunos criterios para definir el nmero de tallos, la
decisin depende fundamentalmente del sentido comn. Demasiados detalles en general
sern poco informativos, demasiado agrupamiento puede distorsionar la imagen del
conjunto.
Cuando el volumen de datos es muy grande conviene usar otro tipo de grficos que
tambin son de fcil interpretacin .
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cpita
de protenas en 32 pases desarrollados. Los datos se presentan ordenados de menor a
mayor por simplicidad.
Consumo de protenas per cpita en pases desarrollados.

7.83
8.06
8.45
8.49
8.53
8.60
8.64
8.70
8.75
8.92
8.93
9.03
9.16
9.23
9.34
9.39
9.42
9.56
9.89
10.00
10.28
10.41
10.56
10.52
10.75
10.86
10.89
11.07
11.27
11.36
11.58
11.76
Seleccionando como tallo la unidad obtenemos el grfico de tallo-hojas de la izquierda de

la figura. En este grfico se acumula un nmero importante de hojas en cada tallo, por lo
que podramos estar perdiendo informacin acerca de la estructura de los datos. En el
grfico de la derecha, cada tallo ha sido dividido en dos lneas, en la primera se listan las
hojas 0 a 4 y en la segunda as hojas 5 a 9.
Como puede observarse, al expandir la escala se observan ms detalles y parece haber
dos grupos de pases, uno con mayor consumo per cpita de protenas y otro con
menor consumo, ya que la distribucin de la variable tiene dos picos.
Variacin del nmero de tallos. Datos de consumo de protenas per cpita.
7
8
9
10
11
8
0445667799
01233458
02455788
02357
7
8
8
9
9
10
10
11
11
8
044
5667799
012334
58
024
55788
023
57
138

2004
El problema de expandir la escala es que podran comenzar a aparecer detalles

superfluos, o simplemente atribuibles al azar.
Grfico de tallo-hojas espalda con espalda. Comparacin de grupos.
Los grficos de tallo-hojas son tiles para comparar la distribucin de una variable en dos
condiciones o grupos. El grfico se denomina tallo-hojas espalda con espalda porque
ambos grupos comparten los tallos.
A continuacin se muestra un grfico de la presin arterial sistlica (PAS) a los 30
minutos de comenzada la anestesia en pacientes sometidos a dos tcnicas anestsicas
diferentes a las que nos referiremos como T1 y T2.
Comparacin de la presin arterial sistlica en pacientes sometidos a dos tcnicas

anestsicas (30 minutos del inicio de la anestesia).
T1
74
963
660
9662
821
70
2
5
6
7
8
9
10
11
12
13
14
15
16
T2
47
2
37
778999
0358
222
37
El grfico nos muestra las siguientes caractersticas de la PAS en los dos grupos de
pacientes.
-
La distribucin de PAS tiene forma similar en ambos grupos: Un pico o moda y forma
simtrica y aproximadamente acampanada.
Diferencias en posicin. Los pacientes del grupo T1 tienen niveles de PAS levemente
mayores que los pacientes del grupo T2.
Similar dispersin. Los valores de PAS de los pacientes de ambos grupos se
encuentran en rangos aproximadamente iguales, salvo por el valor atpico (outlier)
que se observa en el grupo T1.
139

2004
Histograma
Se divide el rango de los datos en intervalos o clases, que no se

superpongan. Las clases deben ser excluyentes y exhaustivas.
Se cuenta la cantidad de datos en cada intervalo o clase, es decir la

frecuencia. Tambin se puede usar para cada intervalo la
frecuencia relativa =
frecuencia
cantidad total de datos
Se grafica el histograma en un par de ejes coordenados representando en las

abscisas los intervalos y sobre cada uno de ellos un rectngulo cuya rea sea
proporcional a la frecuencia relativa de dicho intervalo.
Observaciones:
No existen criterios ptimos para elegir la cantidad de intervalos. En general,

entre 8 y 15 intervalos deberan ser suficientes. Utilizar muchos o muy pocos
intervalos puede ser poco informativo. Se debe buscar un equilibrio entre un
histograma muy irregular y uno demasiado suavizado.
No es necesario que todos los intervalos tengan la misma longitud, pero es

recomendable que as sea. sto facilita su interpretacin.
El histograma representa la frecuencia o la frecuencia relativa a travs del

rea y no a travs de la altura.
Es recomendable tomar
altura del rectngulo =
frecuencia relativa
longitud del intervalo
De esta manera el rea es 1 y dos histogramas son fcilmente comparables

independientemente de la cantidad de observaciones en las que se basa cada
uno.
Ejemplo: Los siguientes datos corresponden a Porcentajes de Octanos en Naftas:

85.3
86.7
88.3
89.9
91.2
95.6
87.5
87.8
88.3
90.1
91.5
96.1
87.8
88.2
89.0
90.1
92.6
88.5
88.6
89.2
90.8
92.7
89.9
90.3
90.4
90.9
93.3
90.4
91.0
91.0
91.1
94.2
91.8
91.8
92.3
92.7
94.7
92.7
93.2
93.3
93.4
94.2
140

2004
Los agrupamos en 7 clases:
Clase
[84, 86]
(86, 88]
(88, 90]
(90,92]
(92,94]
(94,96]
(96,98]
Total
Frecuencia fi
1
4
9
14
9
4
1
42
Frecuencia relativa fri

0.02380952
0.09523810
0.21428571
0.33333333
0.21428571
0.09523810
0.02380952
1
Histogramas para datos de OCTANOS

Escala Frecuencia
0.0
0.05
0.10
0.15
8 10 12 14
Escala Densidad
84
86
88
90
92
octanos
94
96
98
84
86
88
90
92
octanos
94
96
98
En general, si el histograma es muy irregular puede ser imposible descubrir la forma. En

ese caso es conveniente tomar intervalos ms anchos.
Qu formas puede tener un histograma?
Un aspecto a tener en cuenta en la distribucin de los datos es la simetra. Un conjunto
de datos que no se distribuye simtricamente, se dice que es asimtrico. La asimetra
puede verse en el esquema de Tallo y Hoja o en el Histograma y tambin puede
apreciarse a travs de la posicin relativa entre media y mediana. Ms adelante, en un
boxplot lo veremos a travs de la posicin relativa entre la mediana y los cuartos.
En los siguientes grficos mostramos algunas de las formas posibles que puede tener un
histograma:
141

Distribucin acampanada
2004
Distribucin uniforme
30
20
25
15
20
15
10
10
5
5
0
30
32
34
36
38
40
42
44
46
48
50
52
54
11
13
15
17
Asimetra a izquierda
Asimetra a derecha
20
30
24
15
18
10
12
5
6
0
0
10
3.5
4.5
5.5
6.5
7.5
8.5
9.5
10.5 11.5 12.5 13.5 14.5 15.5
Histograma con intervalos de distinta longitud

Los datos de la siguiente tabla presentan los casos de rubola notificados al SINAVE
durante el ao 2000 segn grupos de edad. Notemos que los intervalos de edad tienen
diferente longitud.
Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE
Intervalo
(aos)
[ 0, 1)
[ 1, 2)
[ 2, 5)
[ 5, 10)
[10, 15)
[15, 50)
50
Total
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
142

2004
Si errneamente se construye un histograma considerando como altura de la barra la

frecuencia relativa se obtiene la grfica siguiente. La ltima categora de edad se trunc
arbitrariamente en 80 aos para poder representarla.
35%
30%
25%
20%
15%
10%
5%
0%
0
10
20
30
40
50
60
70
80
edad
A partir de este grfico concluiramos que la proporcin de casos es notablemente mayor

en los grupos de 2 a 5 aos, de 5 a 10 aos o de 10 a 15 aos que en los grupos de
menores de 1 ao o de 1 a 2 aos. Adems, la proporcin de casos en el grupo de 15 a
50 aos impresiona como notable.
El problema es que en la imagen visual asociamos la frecuencia de casos con el rea de
la barra, por ello parece haber ms notificaciones de gente de 15 a 50 que de cualquier
otro grupo de edad.
Recordemos que la barra debe tener una altura tal que el rea (base x altura) sea igual a
la frecuencia (o a la frecuencia relativa). Es decir,
altura de la barra =
frecuencia en el intervalo
.
longitud del intervalo
De este modo el rea de la barra coincide con la frecuencia en el intervalo. La altura de la

barra definida de este modo se denomina escala densidad porque indica el nmero de
datos por unidad de la variable. La ltima columna de la siguiente tabla muestra la escala
densidad para los datos de rubola y la figura siguiente presenta el histograma que se
obtiene usando la escala densidad.
Escala densidad. Notificaciones de casos de rubola. Argentina, ao 2000.
Fuente: SINAVE.
Categora
(aos)
[ 0, 1)
[ 1, 2)
[ 2, 5)
[ 5, 10)
[10, 15)
[15, 50)
50
Total
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
Escala
densidad
10.53%
8.20%
7.77%
5.89%
3.38%
0.32%
0.01%
--
143

2004
Histograma usando escala densidad. Notificaciones de casos de rubola. Argentina, ao

2000. Fuente: SINAVE
12%
10%
8%
6%
4%
2%
0%
0
10
20
30
40
50
60
70
80
edad
En este grfico, el porcentaje de casos de rubola notificados para cada grupo est
representado en el rea de la barra. El histograma muestra que una alta proporcin de
casos ocurre en menores de 5 aos y que la proporcin desciende a medida que
aumenta la edad. En este grfico estamos representando la densidad de notificaciones
por cada ao de edad.
El siguiente ejemplo nos muestra cmo vara el aspecto del histograma segn la longitud
de las clases.
Ejemplo: Concentracin de Img
Longitud de Clase= 0.1 g/l
Longitud de Clase= 0.2 g/l
144

2004
Longitud de clase=1g/l
Medidas de Resumen
Resumiremos la informacin de los datos provenientes de variables numricas mediante
medidas de fcil interpretacin que reflejen sus caractersticas ms relevantes. La medida
a elegir depender de cada problema.
Medidas de Posicin o Centrado
Un modo de resumir un conjunto de datos numricos es a travs de un nmero que
represente a todos, en el sentido de ser un valor tpico para el conjunto.
La pregunta que intentamos responder es: Cul es el valor central o que mejor
representa a los datos?
Si la distribucin es simtrica diferentes medidas darn resultados similares. Si es
asimtrica no existe un centro evidente y diferentes criterios para resumir los datos
pueden diferir considerablemente, en tanto tratan de captar diferentes aspectos de los
mismos.
145

Supongamos que tenemos un conjunto de

por:
2004
datos que genricamente representaremos
x1 , x2 ,......, xn
Promedio o Media Muestral:
n
x=
x
i =1
Es el punto de equilibrio del conjunto de datos.

Ejemplo: Fuerza de compresin de cierta aleacin de Aluminio-Litio
45
x=
x
i =1
45
5350
= 118.89
45
Ejemplo: Supongamos que las observaciones son: 1, 2, 2, 3. En este caso x = 2.
Si reemplazamos el valor 3 por 7, las observaciones son: 1, 2, 2, 7 y x = 3.
La media muestral es una medida muy sensible a la presencia de datos anmalos

(outliers).
Mediana Muestral: Es una medida del centro de los datos en tanto divide a la muestra
ordenada en dos partes de igual tamao. Deja la mitad de los datos a cada lado.
Sean los estadsticos de orden muestrales:
x (1) x ( 2 ) .... x ( n )
146

2004
Definimos como mediana
x ( k +1)
~
x =
x ( k ) + x ( k +1)
si n = 2k + 1
si n = 2k
La mediana es resistente a la presencia de datos atpicos. Tambin puede ser til cuando
algunos datos han sido censurados.
Ejemplos:
1) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7, 6 . Como n = 9, (n+1)/2 = 5.
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
~
x =6
2) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7. Como n = 8, (n+1)/2 = 4.5 y por

lo tanto la mediana muestral es el promedio de las observaciones que ocupan las
posiciones 4 y 5 en la muestra ordenada.
2 3 4 5
7 7 8
~
x = 5 .5
Ejercicios: 1) Consideremos los dos conjuntos de datos siguientes:
xs: 1,2,2,3
ys: 1,2,2,7
x=2
y =3
~
x =2
~
y =2
Qu pasa si, en el segundo caso, se registra 70 en lugar de 7?

2) Dada una muestra de salarios de cieta poblacin, sera ms adecuado tomar la
media o la mediana muestral para representarla?
Media - Podada: Es un promedio calculado sobre los datos una vez que se han
eliminado 100 % de los datos ms pequeos y 100 % de los datos ms grandes.
Es una medida intermedia entre la media y la mediana. Formalmente podemos definirla
como:
147

x =
2004
+ ... + x
([n ]+1)
(n[n ])
n 2[n ]
es decir, se obtiene promediando los datos luego de eliminar un nmero de

observaciones en cada extremo de la muestra ordenada igual a la parte entera de (n ).
Otra posible manera de definirla es eliminando (n ) datos en cada extremo si (n ) es
entero y, cuando no lo es, interpolando entre dos medias -podadas, una en la cual
se podan [n ] en cada extremo y otra en la que se podan [n ]+1 datos en cada extremo.
Ejemplos: 1) Sea el siguiente conjunto de 10 observaciones, ya ordenadas
2
10
14 17
21 25 28 40
y calculemos la media 0.10-podada. Debemos podar 1 dato en cada extremo y calcular el

promedio de los 8 datos restantes, es decir
x 0.10 =
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
=
= 16
8
8
2) Sea el siguiente conjunto de 12 observaciones, ya ordenadas

1
10
14 17
21 25 28
40
45
y calculemos la media 0.10-podada. Usando la definicin dada inicialmente, debemos

podar [12 0.10] = [1.2] = 1 dato en cada extremo y calcular el promedio de los 10 datos
restantes, es decir
x 0.10 =
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
=
= 17
10
10
Con la segunda definicin, deberamos calcular dos medias, una podando una
observacin en cada extremo de la muestra ordenada y otra podando dos observaciones
en cada extremo, e interpolar linealmente entre ambas medias. Es decir, calculamos
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
=
= 17
10
10
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
x2 =
=
= 16
8
8
x1 =
y la media podada se obtiene como la ordenada correspondiente a x = 1.2 en la recta que

pasa por (1,17) y (2, 16):
x 0.10 = 16.8
148

2004
Observemos que la media es una media - podada con = 0 y la mediana una media
podada con tan prximo a 0.5 como sea posible. En ese sentido, la media podada es
una medida intermedia entre la media y la mediana. Es ms resistente a datos atpicos
que la media.
Cmo elegimos ?
Dependiendo de cuantos outliers se pretende excluir y de cun robusta queremos que
sea la medida de posicin. Como dijimos, cuando seleccionamos = 0 tenemos la
media, si elegimos el mximo valor posible para (lo ms cercano posible a 0.5)
obtenemos la mediana. Cualquier poda intermedia representa un compromiso entre
ambas. Una eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Ejemplo: En este ejemplo calcularemos las tres medidas resumen. Los datos siguientes,
ya ordenados, corresponden al nmero de pulsaciones por minuto en pacientes con
asma durante un espasmo:
40 120 120 125 136 150 150 150 150 167
Las correspondientes medidas son:
x = 130 .8
~
x = 143
0.10
= 137 .625
Si la distribucin es simtrica la mediana y la media identifican al mismo punto. Sin

embargo, si la distribucin de los datos es asimtrica, esperamos que la relacin entre
ambas siga el siguiente patrn:
Asimetra derecha (cola larga hacia la derecha)
x>~
x
Asimetra izquierda (cola larga hacia la izquierda)
x<~
x
La mediana puede ser til cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo suele ser posible computar la mediana.
Ejemplos: a) Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los
datos que se indican entre parntesis tienen censura a derecha, es decir, se sabe que el
paciente sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia.
1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84)
n = 15
Como n = 15 la mediana es el octavo dato, por lo tanto X = 28. Es posible calcularla

aunque haya datos censurados, porque los mismos no participan en el clculo de la
mediana. Por ejemplo, aunque no conocemos exactamente el tiempo que sobrevivi el
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupar el lugar 11 o
uno superior.
b) Si, en cambio, los datos son:
149

1 5 10 (12) 18 24 25 28 39 45 (45) 48 50 51 (84)
2004
n = 15
no es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero valor, el
que puede ocupar cualquier posicin entre la cuarta y la ltima.
Medidas de Dispersin o Variabilidad
Cun dispersos estn los datos? Cun cercanos son los datos al valor tpico?
Grafiquemos los dos conjuntos de datos siguientes y calculemos para cada uno de ellos
su media y su mediana:
xs: 0 2 6 7 10
ys: 2 3 6 6 8
x = y =5
~
x=~
y =6
A pesar de tener igual media e igual mediana, los conjuntos de datos difieren Cmo
medir la diferencia observada?
Rango Muestral: Es la diferencia entre el valor ms grande y el ms pequeo de los
datos:
Rango = mx(Xi) mn(Xi)
Ejemplo: en nuestros conjuntos de datos:
Rango (X)= 10
Rango(Y)= 6
Esta medida es muy sensible a la presencia de outliers. Adems no capta la dispersin

interna del conjunto de datos.
150

2004
Veamos otro ejemplo: Sean los siguientes conjuntos de datos

xs: 0 1 5 9 10
ys: 0 0 5 5 10
Si calculamos la media, la mediana y el rango muestral de ambos conjuntos, obtenemos:
~
x=~
y
x=y
Rango( x) = Rango( y ) .
Es decir, que las 3 medidas coinciden, pero la dispersin no es la misma. Propondremos

otra medida de variabilidad.
Varianza Muestral: Mide la variabilidad de los datos alrededor de la media muestral.
n
Varianza muestral = S 2 =
Desvo Estndar Muestral =
(x
i =1
x)2
n 1
S = S2
Ejemplo: En los dos conjuntos de datos anteriores obtenemos:

S2x= 20.5
Sx= 4.258
S2y= 12.5
Sy= 3.536
El desvo estndar tiene las mismas unidades que los datos, mientras que la varianza
no.
Al basarse en promedios, estas medidas son sensibles a la presencia de datos

atpicos. Por ejemplo, si en la muestra de los ys cambiamos el 10 por un 15
obtenemos S2Y= 30 y SY= 5.477, mientras que si lo cambiamos por un 20 obtenemos
S2Y= 57.5 y SY= 7.583.
151

2004
Coeficiente de Variacin: Es una medida que relaciona el desvo standard con la media
de una muestra.
CV =
S
x
Es una medida que est en desuso, ya que no tiene propiedades estadsticas muy
interesantes. Sin embargo no depende de las unidades y si lo multiplicamos por 100 nos
da una idea de la variabilidad relativa.
Distancia Intercuartil: Es una medida ms resistente que el desvo estndar, basada en
el rango de los datos centrales de la muestra.
Comenzaremos por definir los percentiles. El percentil 100 % de la muestra
(0 < < 1) es el valor por debajo del cual se encuentra el 100 % de los datos en la
muestra ordenada.
Para calcularlo:
Ordenamos la muestra de menor a mayor
Buscamos el dato que ocupa la posicin (n + 1). Si este nmero no es entero se

interpolan los dos adyacentes.
Ejemplo: Consideremos los siguientes 19 datos ordenados:

1 1 2 2
Percentil
10%
25%
50%
75%
95%
3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
Posicin
0.10 (19+1) = 2
0.25 (19+1) = 5
0.50 (19+1) = 10
0.75(19+1) = 15
0.95(19+1) = 19
Valor
1
3
6
9
11
Cuartil Inferior
Mediana
Cuartil Superior
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos
cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al
percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente
pobladas (aproximadamente un 25 % de los datos en cada una de ellas). Entre los
cuartiles se halla aproximadamente el 50% central de los datos y el rango de stos es:
dI =distancia intercuartil= cuartil superior - cuartil inferior.
Observacin: Si en el ejemplo cambiramos el ltimo dato por 110, la distancia intercuartil
no cambiara, mientras que el desvo pasara de 3.2 a 24.13!!!!
152

2004
Cuartos y Distancia entre Cuartos: Medidas muy cercanas a los cuartiles inferior y
superior son el cuarto inferior y el cuarto superior. Se calculan de la siguiente manera:
Se ordena la muestra y se calcula la mediana de los datos.

Dividimos a la muestra ordenada en dos partes: la primera corresponde a los datos
ms pequeos que la mediana y la segunda parte a la los datos ms grandes que la
mediana
Si el tamao de la muestra es par, el cuarto inferior es la mediana de la primera
mitad, mientras que el cuarto superior es la mediana de la segunda mitad.
Si el tamao de la muestra es impar, a la primera y a la segunda parte se las
expande agregndose a cada una de ellas la mediana de todos los datos. El cuarto
inferior es la mediana de la primera parte expandida y el cuarto superior es la
mediana de la segunda parte expandida. Es decir, en el caso impar, la mediana
interviene en el cmputo de los dos cuartos.
Definimos la distancia entre cuartos como:
dC=distancia entre cuartos= cuarto superior-cuarto inferior.
Ejemplo: Sean las siguientes muestras ordenadas
Cuarto inferior=3
2 3 5
Cuarto inferior=4
6 8 9
2 3 5 6 7 8 9
Cuarto superior=8
Cuarto superior=7.5
Desvo Absoluto Mediano (Desviacin absoluta respecto de la Mediana): Es una

versin robusta del desvo estndar basada en la mediana. Definimos la MAD como:
MAD = mediana ( x i ~
x)
Cmo calculamos la MAD?
Ordenamos los datos de menor a mayor.
Calculamos la mediana.
Calculamos la distancia de cada dato a la mediana.
Despreciamos el signo de las distancias y las ordenamos de menor a mayor.
Buscamos la mediana de las distancias sin signo.
Observacin: Si deseamos comparar la distancia intercuartil y la MAD con el desvo

standard es conveniente dividirlas por constantes adecuadas. En ese caso se compara a
S con
153

MAD
0.675
2004
dI
1.35
Nmeros de Resumen: Los 5 nmeros de resumen de la distribucin de un conjunto de

datos consisten en el mnimo, el cuartil inferior, la mediana, el cuartil superior y el
mximo.
Ejemplo: Los siguientes datos corresponden a tiempos de CPU (en segundos) de 25
trabajos enviados a un server y seleccionados al azar.
1.17
1.61
1.16
1.38
3.53
1.23
3.76
1.94
0.96
4.75
CPU
0.15
2.41
0.71
0.02
1.59
0.19
0.82
0.47
2.16
2.01
0.92
0.75
2.59
3.07
1.40
Calculamos los 5 nmeros resumen y la media muestral para este conjunto de datos,
utilizando el software R.
> summary(server1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.02 0.82
1.38 1.63
2.16 4.75
Realizamos un esquema de Tallo y Hoja y graficamos un histograma para este conjunto
de datos:
stem(CPU)
0.3
N = 25 Median = 1.38
Quartiles = 0.82, 2.16
0.2
Decimal point is at the colon
0.0
0.1
0 : 01257789
1 : 022244669
2 : 0246
3 : 158
4:7
0
CPU
Todas las medidas y los grficos muestran que se trata de una distribucin asimtrica con
cola a derecha.
154

2004
Box-Plots
Con las medidas anteriores podemos construir un grfico de fcil realizacin y lectura.
Cmo lo hacemos? Vamos a dar una versin, pero vale la pena advertir que hay
variaciones de un programa a otro.
1. Representamos una escala vertical u horizontal
2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento
que corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado que est
a lo sumo 1.5 dI del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que estn entre 1.5 dI y 3 dI de cada extremo y con
o a aquellos que estn a ms de 3 dI de cada extremo. Algunos paquetes, como el R,
indican a todos los outliers de la misma forma.
Observacin: Muchos paquetes estadsticos realizan el boxplot usando los cuartos y la
distancia entre cuartos en lugar de la distancia intercuartil. Como estas medidas son muy
prximas, en general los resultados son anlogos. Lo importante es que entre los cuartos
o entre los cuartiles yace aproximadamente el 50% central de los datos.
Ejemplo: El box-plot correspondiente a los tiempos de CPU es el siguiente
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier,
mientras que en el anlisis anterior esto no pareca evidente.
A partir de un box-plot podemos apreciar los siguientes aspectos de la distribucin de un
conjunto de datos:
posicin
dipersin
asimetra
longitud de las colas
puntos anmalos o outliers.
155

2004
Los box-plots son especialmente tiles para comparar varios conjuntos de datos, pues
nos dan una rpida impresin visual de sus caractersticas.
Outliers: Los mtodos que hemos visto nos permiten identificar puntos atpicos que
pueden aparecer en una o ms variables. Su deteccin es importante pues pueden
determinar o influenciar fuertemente los resultados de un anlisis estadstico clsico,
dado que muchas de las tcnicas habitualmente usadas son muy sensibles a la
presencia de datos atpicos.
Los outliers deben ser cuidadosamente inspeccionados. Si no hay evidencia de error y su
valor es posible no deberan ser eliminados. Asimismo, la presencia de outliers puede
indicar que la escala elegida no es la ms adecuada.
Boxplots Paralelos
Una aplicacin muy til de los boxplots es la comparacin de la distribucin de dos o ms
conjuntos de datos graficando en una escala comn los boxplots de cada una de las
muestras. En este sentido los boxplots se muestran como un mtodo muy efectivo de
presentar y resumir los datos, tal como veremos en el siguiente ejemplo.
10
Ejemplo: Supongamos que se dispone de otros 25 datos correspondientes a tiempos de

CPU enviados a otro server. Si realizamos boxplots paralelos para ambos conjuntos de
datos obtenemos el siguiente grfico. La simple comparacin de los boxplots obtenidos
revela que los trabajos enviados al segundo server son ms largos. De hecho, el 75% de
los trabajos muestreados en el segundo server tienen tiempos de CPU mayores que el
cuartil superior de los trabajos muestreados en el primer server.
1er. server
2do. server
Ejemplo: Los siguientes boxplots corresponden a datos de concentracin mxima diaria,

en partes por mil millones de dixido de azufre en Bayonne, en el estado de Nueva
Jersey, desde noviembre de 1969 hasta octubre de 1972 agrupados por meses. Hay 36
grupos de datos, cada uno de tamao aproximadamente 30.
Los boxplots muestran algunas caractersticas de estos datos en forma muy rpida.
156

2004
Hay una reduccin general de la concentracin de dixido de azufre a lo largo del tiempo
debida a la conversin gradual en la zona al uso de combustibles con baja concentracin
de azufre. Esta disminucin es ms fuerte para los cuartiles superiores. Tambin se
muestran concentraciones ms elevadas para los meses de invierno debido al uso de
calderas a petrleo. Claramente se ve un efecto cclico y amortiguado. Los boxplots
muestran una distribucin asimtrica a derecha, con presencia de outliers en algunos
meses, y que la dispersin de la distribucin es mayor cuando el nivel general de la
concentracin es ms alto.
QQ-plot (Normal Probability Plot): El QQ-plot es un grfico que nos sirve para evaluar
la cercana a una distribucin dada, en particular a la distribucin normal.
Consideremos la muestra aleatoria: X1, X2,....Xn y los correspondientes estadsticos de
orden
X(1) X(2) ....... X(n)
Observemos que X(1)= min(X1, X2,....Xn), mientras que X(n)= max(X1, X2,....Xn).
En particular, si U1, U2,....Un son v.a. i.i.d tales que Ui ~ U(0,1) , se puede demostrar que
E (U (i ) ) =
i
.
n +1
157

2004
Por lo tanto esperamos que, si la distribucin subyacente fuese Uniforme y graficsemos

U(1),..., U(n) vs sus valores esperados
1
n
, el grfico debera parecerse a una
,....,
n +1
n +1
recta.
Por otro lado, sabemos que si X es una variable continua con funcin de distribucin F
estrictamente creciente, entonces
Y = F ( X ) ~ U (0,1)
Esto sugiere que si suponemos que Xi ~ F , entonces podemos graficar
F ( X (i ) ) vs
i
n +1
o equivalentemente
X (i )
vs
i
F 1
.
n +1
Observemos que si F es de la forma
x
F ( x) = G
,

o sea, si depende de un parmetro de posicin y uno de escala, como es el caso de la
normal, podemos graficar
vs
i
G 1
n +1
X (i )
vs
i
G 1
n +1
X (i )
o bien
Como,
i
X (i ) .G 1
+
n +1
el grfico ser aproximadamente una recta.
Notemos que si F 1 es la inversa de F, entonces el p-simo percentil de F, xp, es tal que
F ( x p ) = p x p = F 1 ( p)
158

2004
i
i
-percentil de F.
es el
n +1
n + 1
por lo tanto, F 1
En el QQ-plot se grafican en el eje de abscisas los percentiles de la distribucin terica

(en nuestro caso normal) y en el eje de ordenadas las observaciones ordenadas, que
pueden ser vistas como percentiles empricos.
En los siguientes grficos ilustramos el uso de estas tcnicas grficas con algunos
ejemplos. Cabe observar que algunos paquetes estadsticos representan a los
percentiles tericos de la distribucin normal en el eje de abscisas y otros en el eje de
ordenadas
159

Colas Livianas
Normal
Colas Pesadas
Asimetrica a derecha
0.3
0.2
0.1
0.0
-5
-1
Rojo=Mediana, Negro=Media
0.20
0.15
0.05
0.10
0.3
0.2
-0.5
0.0
0.5
1.0
-2
-1
0
-5
0.0
0.1
0.2
0.3
0.2
0.1
0.0
-5
-1
-2
-0.5
0.0
0.3
0.5
0.8
0.7
0.6
0.5
0.00
0.0
-1.0
0.9
0.5 0.6 0.7 0.8 0.9 1.0
1.0
0.0
0.1
0.2
0.4
0.6
0.4
0.8
-2
0.5
0.6
-0.5
0.7
0.0
0.8
0.5
0.9
1.0
Asimetrica a izquierda
2004
160
0.4

2004
Inferencia estadstica - Estimacin puntual

La estadstica provee tcnicas que permiten obtener conclusiones generales a partir de un
conjunto limitado pero representativo de datos. Cuando inferimos no tenemos
garanta de que la conclusin que obtenemos sea exactamente correcta. Sin embargo, la
estadstica permite cuantificar el error asociado a la estimacin.
La mayora de las distribuciones de probabilidad dependen de cierto nmero de
parmetros. Por ejemplo: P ( ), N ( , 2 ), Bi (n, p ), etc. Salvo que estos parmetros se
conozcan, deben estimarse a partir de los datos.
El objetivo de la estimacin puntual es usar una muestra para obtener nmeros que, en
algn sentido, sean los que mejor representan a los verdaderos valores de los parmetros
de inters.
Supongamos que se selecciona una muestra de tamao n de una poblacin. Antes de
obtener la muestra no sabemos cul ser el valor de cada observacin. As, la primera
observacin puede ser considerada una v.a. X1, la segunda una v.a. X2, etc. Por lo tanto,
antes de obtener la muestra denotaremos X1, X2,...., Xn a las observaciones y, una vez
obtenida la muestra, denotaremos x1, x2,...., xn a los valores observados.
Del mismo modo, antes de obtener una muestra, cualquier funcin de ella ser una v.a.,
~
por ejemplo: X , X , S 2 , max ( X 1 ,..., X n ), etc. Una vez obtenida la muestra los valores
calculados sern denotados x , ~
x , s 2 , max( x1 ,..., x n ), etc.
Definicin: Un estimador puntual de un parmetro es un valor que puede ser
considerado representativo de y se indicar . Se obtiene a partir de alguna funcin de
la muestra.
Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces
en forma independiente, obtenindose 21 ases. Qu valor podra utilizarse, en base a
esa informacin, como estimacin de la probabilidad de as? Parece razonable utilizar la
frecuencia relativa de ases.
En este caso, si llamamos p a la probabilidad que queremos estimar, p =
21
= 0.21
100
Mtodos de estimacin puntual

Cmo obtener estimadores para un problema dado? Estudiaremos dos mtodos que
proporcionan estimadores puntuales: el mtodo de momentos y el mtodo de mxima
verosimilitud.
Mtodo de momentos: La idea bsica consiste en igualar ciertas caractersticas
muestrales con las correspondientes caractersticas poblacionales. Recordemos la
siguiente definicin.
161

2004
Definicin: Sea X una v.a. con funcin de probabilidad puntual p X (x) en el caso discreto
o funcin de densidad f X (x ) en el caso continuo. Se denomina momento de orden k
(k N) o momento poblacional de orden k a E(Xk), es decir
x k p X ( x)
x
E( X k ) =
k
x f X ( x) dx
-
en el caso discreto
en el caso continuo
si esas esperanzas existen.

Como ya hemos visto cuando estudiamos funcin generadora de momentos de una
variable aleatoria, los momentos estn relacionados con los parmetros de la distribucin
asociada.
Definicin: Dada una muestra aleatoria X 1 , X 2 ,..., X n , se denomina momento muestral
de orden k a
n
Xi
i =1
n
Definicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin con funcin de probabilidad
puntual o funcin de densidad que depende de m parmetros 1 , 2 ,...., m . Los
estimadores de momentos de 1 , 2 ,...., m son los valores 1 , 2 ,...., m que se obtienen
igualando m momentos poblacionales con los correspondientes momentos muestrales. En
general, se obtienen resolviendo el siguiente sistema de ecuaciones
n
X
i =1
k
i
( )
=E Xk
k = 1,2,..., m
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin exponencial de parmetro .

Como hay un solo parmetro a estimar, basta plantear una ecuacin basada en el primer
momento.
162

2004
Xi
= E(X )
i =1
X
i =1
X
i =1
1
X
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin (, ). Como hay dos parmetros a
estimar, planteamos un sistema de ecuaciones basadas en el primer y en el segundo
momento.
Usando
que
si
E( X ) =
(,),
V ( X ) = E ( X 2 ) (E ( X ) ) ,
V (X ) =
la
relacin:
n
Xi
i =1
= E( X )
n
n
X i2
i =1
2
n = E ( X )
Reemplazando
n
Xi
i =1
=
n
n
X i2
2

i =1
=
+

n
2
= X , en la segunda ecuacin, se obtiene:
X
i =1
2
i
+X2
y, despejando :
n
X
i =1
2
i
X2
X
n
X
i =1
2
i
X2
Finalmente, reemplazando el estimador de en la primera ecuacin, obtenemos el

estimador de :
163

2004
X2
n
X
i =1
2
i
X2
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Como hay un nico parmetro
a estimar, planteamos una ecuacin basada en el primer momento.
n
X
i =1
= E( X ) =
= 2 X
4) Veamos por ltimo un ejemplo que nos muestra que no siempre podemos utilizar los
momentos en el orden natural. Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(-,).
Como hay un nico parmetro a estimar, parece natural plantear una ecuacin basada en
el primer momento. Sin embargo, si lo hacemos,
n
X
i =1
= E( X ) = 0
Observamos que el primer momento poblacional no depende de y por lo tanto no

podemos despejar a partir de esta ecuacin el estimador del parmetro. En este caso, es
necesario plantear una ecuacin basada en el segundo momento:
n
X i2
i =1
= E( X 2 ) =
(2 )2 = 2
12
3 X i2
i =1
Mtodo de mxima verosimilitud: Este mtodo fue introducido por Fisher en la dcada
de 1920. Se basa en la idea de hallar los valores de los parmetros que hacen que la
probabilidad de obtener una muestra dada sea mxima.
Ejemplo: Se realiza una encuesta de opinin a una m.a. de 20 personas. Se les formula
una nica pregunta que ser respondida por Si o por NO. Sean X 1 , X 2 ,..., X 20 las v.a.
correspondientes a la respuesta, tales que
164

1
Xi =
0
2004
si la persona i responde SI
si la persona i responde NO
para i =1, 2, ..., 20 y sea p = P( X i = 1) .

Observemos que las v.a. X i son independientes y cada una de ellas tiene distribucin
Bi(1,p). Entonces, la funcin de probabilidad conjunta del vector ( X 1 , X 2 ,..., X 20 ) es

x
1 x20
x
1 x x
1 x2
p ( x1 , x 2 ,..., x 20 ) = p 1 (1 p ) 1 p 2 (1 p )
... p 20 (1 p )
Si en la muestra obtenida se observan 7 NOs (0) y 13 SIs (1), sera

p ( x1 , x 2 ,..., x 20 ) = p
13
(1 p )
La pregunta es: qu valor de p hace que los valores muestrales obtenidos sean los ms
probables?
Es decir, buscamos el valor de p que hace mxima p ( x1 , x 2 ,..., x 20 ) o equivalentemente
ln p( x1 , x 2 ,..., x 20 ) ya que ln es una funcin montona creciente. Debemos maximizar la

siguiente funcin de p
g ( p) = ln p ( x1 , x 2 ,..., x 20 ) = 13 ln( p) + 7 ln(1 p)

Para ello, como esta funcin es derivable respecto de p, buscamos los posibles puntos
crticos, igualando a 0 la derivada primera.
0=
g ( p) 13
13(1 p) 7 p 13 20 p
7
=
=
=
p 1 p
p(1 p)
p(1 p)
p
13-20 p = 0
p =
13
20
Este valor es en efecto el que maximiza g(p) pues
2 g ( p)
p 2
Definicin:
Sean
=
p =13 / 20
X 1 , X 2 ,..., X n
13
7
2
(1 p ) 2
p
v.a.
con
<0
p =13 / 20
funcin
de
probabilidad
conjunta
p Xr ( x1 , x 2 ,..., x n ) o funcin de densidad conjunta f Xr ( x1 , x 2 ,..., x n ) que depende de m

parmetros 1 , 2 ,..., m . Cuando ( x1 , x 2 ,..., x n ) son los valores observados y la funcin
165

2004
de probabilidad o de densidad conjunta se considera funcin de los parmetros

1 , 2 ,..., m , se denomina funcin de verosimilitud y se denota L( 1 , 2 ,..., m ) .
Los estimadores de mxima verosimilitud (EMV) de 1 , 2 ,..., m son los valores
1 ,2 ,...,m que maximizan la funcin de verosimilitud, o sea los valores tales que
~ ~
~
L(1 , 2 ,..., m ) L( 1 , 2 ,..., m )
~ ~
~
1 , 2 ,..., m
La forma general de los EMV se obtiene reemplazando los valores observados xi por las
v.a. Xi.
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin exponencial de parmetro .
n
i =1
i =1
f ( x1 , x 2 ,..., x n ) = f X i ( x i ) = e xi = n e
n
xi
i =1
por lo tanto, la funcin de verosimilitud es
L ( ) = e
n
n
xi
i =1
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no
depende del parmetro a estimar, podemos suponer que todas las observaciones son no
negativas.
n
ln L( ) = n ln( ) xi
i =1
n
ln L( ) n
= xi = 0
i =1
X
i =1
1
X
Verificar que el punto crtico obtenido es en efecto un mximo.

Observemos que en este caso el EMV coincide con el de momentos.
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(,2).
n
f ( x1 , x 2 ,..., x n ) = f X i ( xi ) =
i =1
i =1
1
2
(xi )2
2 2
166

1 1 2 2 i=1( xi )
e
=
n
2
n
2004
Por lo tanto la funcin de verosimilitud es

n
1 1 2 2 i=1( xi )
L( , ) =
e
n
2
n
y maximizarla equivale a maximizar su logaritmo
ln L( , ) = n ln 2 n ln( )
ln L( , ) 1 n
= 2 (xi ) = 0
i =1
ln L( , )
1 n
n
2
= + 3 (xi ) = 0
i =1
1
2
(x
i =1
)2
n
( x i ) = 0
i =1
n
n 2 + ( xi )2 = 0
i =1
xi
i =1
=
( x i )2
i =1
=
n
y, reemplazando el valor estimado de en la segunda ecuacin, se obtienen los EMV de

los parmetros
(X
n
= X
i =1
X)
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,).
167

i =1
i =1
f ( x1 , x 2 ,..., x n ) = f ( x i ) =
I ( 0, ) ( x i ) =
2004
I (0, ) ( x )
i
i =1
y la funcin de verosimilitud es
L( ) =
I (0, ) ( x )
i
i =1
Observemos que, en este caso, no es posible tomar logaritmo ni derivar porque el

parmetro (argumento de la funcin de verosimilitud) determina el soporte de la densidad.
Analicemos cmo es esta funcin para hallar su mximo
L( ) = n
0
1
= n
0
= n
0
en caso contrario
si 0 < x i < i
si max( x i ) <
1 i n
en caso contrario
si > max( xi )
1 i n
si max( x i )
1 i n
Grafiquemos L( ) como funcin de .
Como se puede observar, el mximo de la funcin de verosimilitud se alcanza en

= max( xi ) y por lo tanto el EMV del parmetro es
1 2 n
= max( X i )
1i n
168

2004
Propiedad de Invarianza de los EMV: Sea el EMV de y sea h una funcin

inyectiva con dominio en el rango de valores posibles de , entonces el EMV de h( ) es
h() . Por ejemplo, en el caso de una m.a. de una distribucin N(, 2) hemos visto que el
EMV de es
(X
X)
i =1
entonces el EMV de 2 es
n
2 =
(X
i =1
X )2
pues la funcin h(x)=x2 es inyectiva si su dominio se restringe a los reales positivos, es

decir si h : 0 .
En general, sean 1 ,..., m los EMV de 1 ,..., m y sea una funcin h : m , bajo
qu condiciones el EMV de h( 1 ,..., m ) es h(1 ,..., m ) ? Esta propiedad, denominada
propiedad de invarianza de los EMV, se cumple si la funcin h puede ser completada a
una funcin inyectiva.
Propiedades de los estimadores y criterios de seleccin

Observemos que, dada una muestra X i , X 2 ,..., X n , donde X i ~ F , un estimador
puntual del parmetro , obtenido en base a ella, es una v.a. . La diferencia

es el error de estimacin y una estimacin ser ms precisa cuanto menor sea este error.
Este error es tambin una v.a. dado que depende de la muestra obtenida. Para algunas
muestras ser positivo, para otras negativo. Una propiedad deseable es que la esperanza
del error sea 0, es decir que en promedio el error obtenido al estimar a partir de
diferentes muestras sea cero.
Definicin: Un estimador puntual del parmetro es insesgado si
E () =
169

2004
Si no es insesgado, se denomina sesgo de a b() = E () .

Por lo tanto, un estimador es insesgado si su distribucin tiene como valor esperado al
parmetro a estimar.
Definicin: Un estimador puntual del parmetro basado en una muestra X 1 ,..., X n ,es
asintticamente insesgado si
E () n
Ejemplos: 1) Sea X: nmero de xitos en n repeticiones de un experimento binomial con

probabilidad de xito igual a p. Entonces X ~ Bi(n,p) y hemos visto que el EMV de p es
p = X / n , o sea la frecuencia relativa de xitos. Verifiquemos que este estimador es
insesgado.
X
E P ( p ) = E P
n
E P ( X ) np
=
=p
=
n
n
y, por lo tanto, es insesgado.

2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(,2). Los EMV de y 2 son
(X
n
= X
Como E
, 2
2 =
i =1
X)
( ) = , este estimador es insesgado.
Verifiquemos que el estimador de la varianza no lo es.
n
2
(X i X )
E 2 ( 2 ) = E 2 i =1
,
,
n
= 1E
X i2 2 X i X + X 2
2
n ,
i =1
n
1
n
1
n
E 2 X i2 2 X X i + nX 2 = E 2 X i2 2nX 2 + nX 2
,
,
n
i =1
i =1
n
i =1
170

2004
1
n
n
1
n
E 2 X i2 nX 2 = E 2 X i2 E 2 ( X 2 ) = E 2 ( X 12 ) E 2 ( X 2 )
,
,
n , i =1
n ,
n , i =1
=V
, 2
(X1) + E
, 2
(X1)
) ] [V
2
, 2
(X ) + E
, 2
) ]=
2
(X )
+
2
2
n
2 =
n 1 2
Por lo tanto el EMV de la varianza no es insesgado, pero es asintticamente insesgado ya

que su esperanza tiende a 2 cuando el tamao de la muestra tiende a infinito.
(X
n
Ejercicio: Verificar que la varianza muestral S 2 =
i =1
X)
n 1
es un estimador
insesgado de la varianza poblacional cualquiera sea la distribucin.

3) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). El estimador de momentos de
es = 2 X y el EMV es = max( X i ) .
1i n
El estimador de momentos es insesgado. En efecto,
E () = 2 E ( X ) = 2 =
2
Verificaremos que el EMV no lo es. Para ello, necesitamos obtener la densidad de la v.a.
U = max( X i ) .
1i n
Recordemos que, si
X 1 , X 2 ,..., X n es una m.a. de una distribucin U(0,), entonces
FU (u ) = (FX (u ) )
0
u n
=

1
si u 0
si 0 < u <
si u
entonces
u
f U (u ) = n

n 1
I (0, ) (u ) .
Calculemos la esperanza del EMV.
171

u
E (max( X i ) ) = E (U ) = u n

0
n 1
2004
n u n +1
n
du = n u du = n
=
0
n +1 0 n +1
1
Entonces, el EMV no es insesgado pero es asintticamente insesgado.
Cuando hay ms de un estimador insesgado para un mismo parmetro, cmo decidimos

cul conviene usar? Por ejemplo, sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(,2).
Es inmediato verificar que los siguientes son todos estimadores insesgados de :
1 = X
X1 + X 2
2
3 = X1
2 =
Las varianzas de estos estimadores son
1 ) =
2 (
2 ) =
2 (
, 2
2
n
2
2
( 3 ) = 2
y parece natural elegir el estimador ms preciso, es decir el de menor varianza.

Principio de estimacin insesgada de mnima varianza: Entre todos los estimadores
insesgados de , elegir el de menor varianza. El estimador resultante se denomina IMVU
(insesgado de mnima varianza uniformemente). Existe una metodologa que permite
hallar estimadores IMVU en muchas situaciones.
Teorema: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin
N(,2). Entonces X es
estimador IMVU de .
A partir de este resultado deducimos que, si se tiene evidencia de que la m.a. proviene de
una distribucin Normal, parece conveniente usar X como estimador de . Sin embargo,
si los datos no son Normales este estimador podra llegar a ser una psima eleccin.
Ejemplo: Sean las siguientes distribuciones simtricas alrededor del parmetro
a) N(,2) : f ( x) =
1
2
1 x

172

b) Cauchy de parmetro :
c) U( -1, +1) : f ( x) =
f ( x) =
2004
1
(1 + ( x ) 2 )
1
I ( 1, +1) ( x)
2
La distribucin de Cauchy tiene forma de campana como la distribucin Normal, pero

tiene colas ms pesadas que sta. La distribucin Uniforme no tiene colas, por lo tanto
podramos decir que tiene colas ms livianas que la Normal.
Consideremos los siguientes estimadores de :
1 = X
2 = X
3 =
max( X i ) + min ( X i )
2
En el caso a), 1 es IMVU y por lo tanto, es la eleccin correcta.

En el caso b), 1 y 3 son malos porque ambos son muy sensibles a la presencia de
observaciones atpicas y la distribucin Cauchy produce una importante proporcin de
ellas. Por lo tanto la mejor eleccin entre estos tres estimadores sera 2 . Tambin
podramos utilizar una media podada.
En el caso c) el mejor estimador es 3 porque la distribucin no tiene colas.
Error standard de un estimador: Al informar el resultado de una estimacin puntual es
necesario brindar informacin sobre la precisin de la estimacin.
Definicin: El error standard de un estimador es su desviacin standard, es decir
= V ()
Si el error standard depende de parmetros desconocidos, stos se reemplazan por un
estimador y se obtiene el error standard estimado.
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(,2). Entonces X es el
EMV de y su error standard es
X = V , 2 ( X ) =
2
n
173

2004
Como depende del parmetro , podemos reemplazarlo por la varianza muestral y

obtenemos el error standard estimado
(X
X)
S
=
n
2
X
X =
i =1
n(n 1)
Definicin: Sea un estimador de , su error cuadrtico medio es
2
ECM () = E
Si el estimador es insesgado el error cuadrtico medio es igual a la varianza del

estimador.
[ ]
Proposicin: ECM () = V () + b() , siendo b() = E () el sesgo del estimador.

Dem:
2
2
ECM () = E = E E () + E ()
) (
2
= E E () + E ()
)(
+ 2 E () E ()
[(
)(
2
2
= E E () + E E () + 2 E E () E ()
)]
Usando que la esperanza de una v.a. es una constante y la esperanza de una constante
es igual a sta, se obtiene
) (
)(
2
2
ECM () = E E () + E () + 2 E () E () E ()
14243
1442443
14
4
42444
3
2
0
(b( ) )
V ( )
[ ]
y, por lo tanto, ECM () = V () + b() , como queramos demostrar.
174

2004
Principio de estimacin de menor error cuadrtico medio: Dados dos o ms estimadores

del parmetro , elegir el de menor ECM.
Este principio se reduce, en el caso de estimadores insesgados, al de mnima varianza
entre los insesgados mencionado ms arriba, ya que el error cuadrtico medio se reduce
a la varianza cuando un estimador es insesgado. Sin embargo, nos permite adems
seleccionar, por ejemplo, entre un estimador insesgado y otro que no lo es, en base a la
varianza y al sesgo. Si el estimador sesgado tiene una varianza mucho menor que el
insesgado, podra ser preferible su uso.
Definicin: Sea X 1 , X 2 ,..., X n una m.a de una distribucin que depende de un parmetro
y sea n un estimador puntual de basado en esa muestra. Diremos que
{ } es
n
una sucesin consistente (o ms brevemente que n es un estimador consistente de )

si
p
n
0 .
es decir, si > 0, P n > n
Ejemplo: Sea
X 1 , X 2 ,..., X n
una m.a de una distribucin con
E( X i ) =
V ( X i ) = < , entonces X es un estimador consistente de . En efecto, aplicando la

2
desigualdad de Chebyshev,
P X >
V (X )
2
= 2 n
0
Ejercicio: Verificar que, en este ejemplo, =
> 0
X1 + X 2
no es consistente de .
2
Proposicin: Sea X 1 , X 2 ,..., X n una m.a de una distribucin que depende de un

parmetro y sea n un estimador de basado en la muestra de tamao n. Si
(o sea, si el estimador es asintticamente insesgado)

a) E (n ) n
0
b) V (n ) n
entonces, n es consistente de .
Dem: Si el estimador es insesgado, la demostracin es inmediata, a partir de la
desigualdad de Chebyshev,. No daremos la demostracin en el caso general.
175

2004
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a de una distribucin con E ( X i ) =
V ( X i ) = < , entonces X es un estimador consistente de . En efecto, E ( X ) = y

2
V (X ) =
2
n
. Por lo tanto, se satisfacen las dos condiciones de la Proposicin.
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Hemos demostrado antes que
el EMV de , = max( X i ) es asintticamente insesgado pues E () =
1i n
n
. Para
n +1
probar que es consistente, verificaremos que su varianza tiende a cero cuando el tamao
de la muestra tiende a infinito. Pero
V () = E ( 2 ) E ()
n
= E ( 2 )
n + 1
entonces, debemos calcular la esperanza del cuadrado de la v.a. U = max( X i ) .

1i n
Recordando que su densidad est dada por
u
f U (u ) = n

u
E (U ) = u n

0
2
n 1
du =
n 1
u
0
I ( 0, ) (u )
n +1
n u n+2
n
du = n
=
2.
n+2 0 n+2
Entonces,
V () =
2
n
n2
n 2 n
2
n + 2 (n + 1)2
n+2
n +1
2
n
=
2 n
0
(
+
2
)(
+
1
)
n
n
Por lo tanto, el EMV es consistente.

3) El ltimo ejemplo que veremos ilustra como demostrar la consistencia de un estimador
a partir de la Ley de los Grandes Nmeros y de las propiedades de la convergencia en
probabilidad.
En primer lugar recordemos que si X 1 , X 2 ,..., X n ,.... e Y1 , Y2 ,..., Yn ,... son sucesiones de
p
p
a e Yn
b , entonces:
v.a. tales que X n
a)
p
X n Yn
ab
b)
p
X n Yn
ab
176

c)
Xn p a
Yn
b
2004
si b 0
p
d) g ( X n )
g (a )
si g es una funcin continua en a .
p
e) si c n es una sucesin numrica tal que c n
c , entonces c n X n
ca
Sea X 1 , X 2 ,..., X n una m.a de una distribucin con E ( X i ) =
y V (X i ) = 2 < ,
demostraremos que la varianza muestral S X2 es un estimador consistente de la varianza

poblacional.
(X
n
S X2 =
i =1
X)
n 1
n 2
Xi
n
1
n i =1
2
2
2
=
X
X i nX =
n 1 i =1
n 1 n
p
Por la Ley de los Grandes Nmeros X
, entonces por la propiedad d)

p
X2
2.
Por otra parte, aplicando nuevamente la Ley de los Grandes Nmeros

n
X
i =1
n
Como adems
2
i
(X
, 2
) =V
( X ) + [ E 2 ( X )]
, 2
,
= 2 + 2
n
1 , se obtiene
n 1
n 2
Xi
n i =1
p
2
2
SX =
X
2 + 2 2 = 2
n 1
n
y por lo tanto la varianza muestral es un estimador consistente de 2 .
177

2004
Inferencia estadstica Intervalos de confianza

Cuando se obtiene una estimacin puntual de un parmetro, es conveniente acompaar
dicha estimacin por una medida de la precisin de la estimacin. Un modo de hacerlo
es informar el estimador y su error standard. Otro modo es reemplazar la estimacin
puntual por un intervalo de valores posibles para el parmetro.
Ejemplo:
Supongamos que
tenemos una m.a.
X 1 , X 2 ,..., X n de una distribucin
N ( , ) con varianza conocida. Por ser los datos normales, sabemos que
2
o
2
o
o2
X ~ N ,
n
~ N (0,1)
y, por lo tanto, sabemos que la probabilidad de que
se encuentre entre 1.96 y
1.96 es 0.95, es decir
X
P 1.96 n
1.96 = 0.95
o
178

2004
A partir de esta expresin obtenemos
P 1.96 o X 1.96 o = 0.95

n
n
P X 1.96 o X + 1.96 o = 0.95

n
n
Es decir, que la probabilidad de que el intervalo
, X + 1.96 o
X 1.96
n
n
contenga al verdadero valor del parmetro es 0.95. Este intervalo se denomina intervalo
de confianza para de nivel de confianza 0.95.
Definicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin que depende de un parmetro
. Dadas dos funciones de la muestra a ( X 1 , X 2 ,...., X n ) y b( X 1 , X 2 ,...., X n ) tales que
P(a( X 1 , X 2 ,..., X n ) b( X 1 , X 2 ,..., X n ) ) = 1

con
pequeo
(por
ejemplo,
0.10,
0.05,
0.01),
el
intervalo
[a( X 1 , X 2 ,..., X n ), b( X 1 , X 2 ,..., X n )] se denomina intervalo de confianza de nivel 1 -
para el parmetro .
Interpretacin: Supongamos que, en base a diferentes muestras calculamos los
correspondientes intervalos de confianza para . Entonces el (1 - ) 100% de ellos
contendrn al verdadero valor .
179

2004
Observaciones: 1) No es correcto decir la probabilidad de que pertenezca al intervalo

(a,b) es 1 - porque no es una variable aleatoria. El intervalo es aleatorio ya que sus
extremos son funciones de la muestra y por lo tanto, debemos decir la probabilidad de
que el intervalo (a,b) contenga al parmetro es 1 -
2) Una vez construdo el intervalo a partir de una muestra dada, ya no tiene sentido hablar
de probabilidad. En todo caso, tenemos confianza de que el intervalo contenga a . La
confianza est puesta en el mtodo de construccin de los intervalos, que nos asegura
que (1 - ) 100% de las muestras producirn intervalos que contienen a .
Intervalos de confianza para los parmetros de una distribucin normal
n 1
2 2
Distribucin t: Sean dos v.a. Z ~N(0,1) y U ~ n2 = , independientes, entonces
T=
~ tn
n
Se dice que T tiene distribucin t de Student con n grados de libertad. Esta distribucin
est tabulada para diferentes valores de n. Su densidad es simtrica respecto al 0 y tiene
forma de campana, pero tiene colas ms pesadas que la distribucin normal standard.
Cuando n tiende a infinito, la distribucin de Student tiende a la distribucin normal
standard.
Proposicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(, 2), entonces
a)
2
X ~ N ,
n
~ N (0,1)
b)
c)
d)
(n 1) S
~ n21
con S 2 =
(X
i =1
X )2
n 1
X y S 2 son independientes
n
X
~ t n 1
S
Dem: a) Ya hemos visto que cualquier combinacin de v.a. normales independientes es

normal y el promedio es una combinacin lineal particular.
180

2004
b) y c) Estn fuera del alcance de este curso.

d) Resulta de a) b) y c) pues
(n 1) S 2
~ N (0,1)
~ n21
son v.a. independientes. Entonces, por definicin de la distribucin t de Student,
(n 1) S 2
2 (n 1)
= n
X
~ t n 1
S
Intervalo de confianza para la media de la distribucin normal con varianza

conocida: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(, o2 ), con varianza o2
conocida, entonces
~ N (0,1)
X
P z / 2 n
z / 2 = 1
o
de donde se deduce el siguiente intervalo de confianza de nivel 1 - para ,
, X + z / 2 o
X z / 2
n
n
(1)
Intervalo de confianza para la media de la distribucin normal con varianza

desconocida: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(, 2 ), entonces
X
~ t n 1
S
181

2004
X
P t n 1, / 2 n
t n 1, / 2 = 1
S
de donde se deduce el siguiente intervalo de confianza de nivel 1 - para ,
S
S
, X + t n 1, / 2
X t n 1, / 2
n
n
Intervalo de confianza para la varianza de la distribucin normal con media

conocida: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(o, 2 ), con media o
conocida, entonces
X i o
X i o
1 1
~ 12 = ,
2 2

~ N (0,1)
1 i n
1 i n
Como adems las v.a. son independientes
X i o
n 1
~ n2 = ,
2 2
i =1
n
Cmo elegimos los percentiles de la distribucin 2 que encierran un rea igual a 1 - ?
n2,1 / 2
n2, / 2
182

2004
Los elegimos de manera tal que quede un rea igual a /2 en cada extremo. Entonces,
n
( X i o )2
2
2
i =1
P n ,1 / 2
n , / 2 = 1
Se obtiene el siguiente intervalo

n
n
2
(
)
( X i o )2
o
i
i =1 2
, i =1 2
n ,1 / 2
n , / 2
Intervalo de confianza para la varianza de la distribucin normal con media

desconocida: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(, 2 ), entonces
(n 1) S 2
~ n21
Por lo tanto,
(n 1) S 2
n21, / 2 = 1
P n21,1 / 2
2
Se obtiene el siguiente intervalo
(n 1) S 2 (n 1) S 2
, 2
2
n 1, / 2 n 1,1 / 2
Ejemplos: Sea X 1 , X 2 ,..., X 49 una m.a., X i ~ N ( , 2 ) .
a) Supongamos que el verdadero valor del desvo standard es o = 35 y que se observa
x = 160 . Construyamos un intervalo de confianza para la media de nivel 0.95.
Como las v.a. son normales y la varianza es conocida, el intervalo para ser de la forma
183

2004
X z / 2 o , X + z / 2 o
n
n
con z / 2 = z 0.025 = 1.96 , o = 35, n = 49 y valor observado de X igual a 160. Obtenemos
35
35
160 1.96
= (160 9.8, 160 + 9.8) = (150.2, 169.8)
, 160 + 1.96
49
49
b) Supongamos ahora que la varianza es desconocida pero que el valor observado de S

es s=35. El correspondiente intervalo de confianza para ser de la forma
S
S
X t n 1, / 2
, X + t n 1, / 2
n
n
con t n 1, / 2 = t 48, 0.025 = 2.01 . Obtenemos
35
35
= (160 10.05, 160 + 10.05) = (149.95, 170.05)
160 2.01
, 160 + 2.01
49
49
Notemos que es ms ancho que el anterior

c) Suponiendo como antes que observamos x = 160 y s = 35 , hallemos un intervalo de
confianza para 2 de nivel 0.95.
Por tratarse de una muestra normal con media desconocida, el intervalo para 2 ser de
la forma
(n 1) S 2 (n 1) S 2
, 2
2
n 1, / 2 n 1,1 / 2
2
con n21, / 2 = 48
, 0.025 = 69.02 y n 1,1 / 2 = 48, 0.975 = 30.75 . Obtenemos
48 35 2 48 35 2
,
69.02 30.75
= (851.93, 1912.20 )
y un intervalo de confianza para de nivel 0.95 ser
48 35 2 48 35 2
,
69.02
30.75
851.93 , 1912.20 = (29.19, 43.73)
184

2004
Esto ltimo resulta de aplicar una funcin montona creciente a cada extremo del
intervalo para 2
Determinacin del tamao de muestra: Consideremos el intervalo de confianza para con
varianza conocida en el caso de una m.a. normal. La longitud del intervalo obtenido (1) es
L = 2 z / 2
o
n
y depende de
nivel de confianza ()
varianza o desvo standard de las observaciones (o)
tamao de la muestra (n)
Un modo de obtener mayor precisin, es decir un intervalo ms angosto, es aumentando

el tamao de la muestra. Si se desea una longitud menor o igual que Lo, entonces
L = 2 z / 2
2z
2z
Lo n / 2 o n / 2 o
Lo
n
Lo
Ejemplo: Supongamos que o = 35, qu tamao de muestra se requiere como mnimo

para obtener un intervalo de nivel 0.95 de longitud menor o igual que 10?.
En este caso, Lo = 10, o = 35 y z 0.025 = 1.96 , entonces
2 1.96 35
n
= 188.23
10
n 189
En el caso de varianza desconocida el problema es ms complejo porque el percentil t

tambin depende del tamao de muestra.
Mtodo general para obtener intervalos de confianza:

Sea X 1 , X 2 ,..., X n una m.a. de una distribucin que depende de un parmetro .
Supongamos que existe una funcin T ( X 1 , X 2 ,..., X n , ) (es decir, una funcin de la
muestra y del parmetro) cuya distribucin no depende de ni de ningn otro parmetro
desconocido. Entonces, existen dos valores a y b tales que
P(a T ( X 1 , X 2 ,..., X n , ) b ) = 1
y, a partir de esta expresin, es posible obtener un intervalo de confianza para .
185

2004
La funcin T ( X 1 , X 2 ,..., X n , ) se denomina pivote.

Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin exponencial de parmetro .
Hemos demostrado que
n
X
i =1
~ (n, )
Usando este resultado y que, si V ~ ( , ) y a > 0 entonces aV ~ ,
, se puede
a
demostrar que
n
2n 1
2 X i ~ 22n = ,
2 2
i =1
funcin T ( X 1 , X 2 ,..., X n , ) = 2
Usando como pivote la
X
i =1
, podemos obtener un
intervalo de confianza de nivel 1 - para el parmetro .

n
P 22n ,1 / 2 2 X i 22n , / 2 = 1
i =1
2 n ,1 / 2
2 n , / 2
n
P n
2 X i
2 X i
i =1
i =1
=1
y el intervalo requerido es
2 nn,1 / 2 , 2nn , / 2
2 X i 2 X i
i =1
i =1
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Para obtener un intervalo
de confianza para , recordemos que el EMV de es = max ( X 1 ,..., X n ) y probemos
que la distribucin de / no depende de .
Llamemos V a la v.a. max( X 1 ,..., X n ) . Recordemos que, si X 1 , X 2 ,..., X n es una m.a. de
una distribucin FX, entonces la funcin de distribucin de V est dada por
186

FV (v) = (FX (v) )
2004
Queremos demostrar que la distribucin de V/. no depende de .
V
FV / ( w) = P w = P(V w) = FV ( w) = FX i ( w)
Como, en nuestro caso, X i ~U(0,),
FV / ( w) = FX i (w)
si w 0
0
w n
=

1
si 0 < w <
si w
= w n
1
si w 0
si 0 < w < 1
si w 1
Por lo tanto, la distribucin de V/ no depende de . Derivando, se obtiene la densidad de

V/
f V / ( w) = n w n 1 I ( 0,1) ( w)
Utilizando T ( X 1 , X 2 ,..., X n , ) =
max ( X 1 ,..., X n )
como pivote, obtendremos un intervalo
de confianza para de nivel 1 - . Buscamos a y b tales que
max( X 1 ,..., X n )
P a
b = 1
(2)
y, obtenemos el siguiente intervalo
max( X 1 ,..., X n ) max( X 1 ,..., X n )

,
b
a
Cmo elegimos a y b?. Observando (2), debemos hallar a y b , 0 < a < b < 1, tales que
b
n 1
n
n w dw = w
b
a
= bn an =1
(3)
Obviamente hay infinitas soluciones de esta ecuacin, pero podramos elegir la solucin
que produce el intervalo de menor longitud esperada, es decir, buscar a y b que
minimicen E(L) sujeto a la condicin (3), siendo
187

2004
1 1
L = max( X 1 ,..., X n )
a b
n
, debemos minimizar
Como ya hemos demostrado que E (max( X 1 ,..., X n ) =
n +1
n 1 1

n +1 a b
(4)
sujeto a la condicin b n a n = 1 .
Esto puede hacerse utilizando multiplicadores de Lagrange o bien, despejando de esta
ltima expresin a en funcin de b, reemplazndola en (4) y minimizando la expresin
resultante respecto de a.
El intervalo de mnima longitud esperada es
max( X 1 ,..., X n ) max( X 1 ,..., X n )
,
n
1
Intervalos de confianza de nivel asinttico 1 - :

En muchos problemas no es posible encontrar intervalos de confianza de nivel exacto
1 - , o bien son de muy difcil construccin. En otros casos disponemos de muy poca
informacin sobre la distribucin de las variables aleatorias. En estos dos tipos de
situaciones es posible obtener intervalos de confianza de nivel aproximado cuando el
tamao de la muestra es grande.
Definicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin que depende de un parmetro
. Dadas dos sucesiones {a n ( X 1 , X 2 ,...., X n )} y {bn ( X 1 , X 2 ,...., X n )} tales que
lim P(a n ( X 1 , X 2 ,..., X n ) bn ( X 1 , X 2 ,..., X n ) ) = 1
la sucesin de intervalos
[a n ( X 1 , X 2 ,..., X n ), bn ( X 1 , X 2 ,..., X n )]
es una sucesin de
intervalos de confianza de nivel asinttico 1 - para el parmetro . Tambin se dice

que, si n es suficientemente grande, el intervalo [a n ( X 1 , X 2 ,..., X n ), bn ( X 1 , X 2 ,..., X n )]
tiene nivel aproximado 1 - .
Porqu calcular intervalos de nivel asinttico?
Porque no es posible encontrar una funcin pivote que no dependa del parmetro
Porque no se conoce la distribucin exacta de la funcin pivote
Porque en general es ms fcil encontrar la distribucin asinttica que la exacta de la
funcin pivote
188

2004
X 1 , X 2 ,..., X n una m.a. de una distribucin F con E(Xi) = y

V(Xi) = < . Buscamos un intervalo de confianza para .
Ejemplos: 1) Sea
2
Sabemos que X es un estimador insesgado y consistente de . No conocemos su

distribucin exacta porque no conocemos la de Xi, pero sabemos que
N (0,1)
Si 2 es conocido, esta funcin podra servir de pivote para el intervalo de nivel

aproximado, pero qu usamos si 2 es desconocido?.
Propiedad:
d
Yn
Y
p
a
Un
d
U n Yn
aY
por ser un estimador consistente, entonces

Como s
1y
1.
Luego,
N (0,1)
1
s
X d
N (0,1)
s
A partir de este resultado,
X
z / 2 1
P z / 2 n
s
y se obtiene el siguiente intervalo de nivel aproximado 1 -
s
s
, X + z / 2
X z / 2
n
n
189

2004
Intervalo de confianza de nivel asinttico 1 - para el parmetro p de la

distribucin Binomial:
X 1 , X 2 ,..., X n una
Sea
m.a.
de
una
distribucin
Bi(1,p) . Entonces
X = X i ~ Bi (n, p) . Queremos construir un intervalo de nivel asinttico 1 - para p.

i =1
Recordemos que, por el TCL,

n
X
p = =
n
X
i =1
p(1 p)
~ N p,
i (a)
y, por lo tanto
P z / 2
p
n
z / 2 1
p (1 p)
(5)
Hay dos formas de obtener un intervalo para p a partir de esta ltima expresin.
n
X
a) Como, por la Ley de los Grandes Nmeros,
=
n
X
i =1
p podemos aplicar la
Propiedad enunciada antes y reemplazar en el denominador el pivote p por su

estimador. Entonces
P z / 2
X
P z / 2
n
p
n
z / 2 1
p (1 p )
X
X
1
X
n
n
p + z / 2
n
n
X
X
1
n
n
1
n
obteniendo un intervalo para p de nivel aproximado 1 .

190

2004
b) Reescribimos la expresin (5) en la forma
n
z / 2 1
p(1 p)
2
X
2
z / 2 1
P
p(1 p )
Observemos que
2
p
n
z2
/2
p(1 p)
n
p(1 p)
X
2
p z / 2
n
n
p(1 p)
X
X
2
2
0
2 p + p z / 2
n
n
n
2
z2
p 2 1 + / 2
n
2 X z2 / 2 X
+ 0
p
+
n
n
n
Buscamos las races de esta ecuacin de segundo grado, que llamaremos p 1 y p 2 y el

intervalo de nivel aproximado 1 para p ser
[ p 1 , p 2 ] .
191

2004
Inferencia estadstica Tests de hiptesis
Hasta ahora hemos visto como obtener, a partir de una muestra, un estimador puntual o
un intervalo de confianza para un parmetro . Frecuentemente el objetivo del estudio es
decidir, en base a la informacin que provee la muestra, entre dos hiptesis relativas a un
parmetro.
Ejemplo: Supongamos que el consumo promedio de nafta de los motores utilizados por
una empresa automotriz en uno de sus modelos es de 10 litros cada 100 km. Se presenta
un proyecto de mejora del motor que producira una disminucin en el consumo pero,
por razones de costo, se considera viable el proyecto si la reduccin lleva el consumo a
un valor menor de 9 litros cada 100 km.
Para estudiar la conveniencia o no de aplicar la mejora a los motores, se aplica esta
mejora a una muestra de 25 motores, los cules se ponen a funcionar en igualdad de
condiciones durante un periodo fijo. El consumo promedio observado es de 8.9 litros cada
100 km. Proveen estos datos evidencia de que vale la pena incorporar la mejora al motor
o se deben simplemente al azar?
Supongamos que el consumo de nafta de los motores es una v.a. con distribucin normal
con varianza igual a 1 y que la muestra es aleatoria, es decir que los 25 consumos son
independientes. Es decir, supongamos que X 1 ,..., X 25 es una m.a., X i ~ N ( ,1) .
Entonces
X ~ N ,
25
1 / 25
~ N (0, 1)
Si la media verdadera del consumo en el motor mejorado fuese de 9 litros cada 100 km.,
cul es la probabilidad de que una v.a. normal con media 9 y varianza 1/25 tome un
valor igual o menor que el observado, 8.9?
X 9 8.9 9
= (0.5) = 0.309 0.31
P (X 8.9 ) = P
1 / 5
1/ 5
Esta probabilidad se denomina p-valor.
Si el consumo promedio observado hubiese sido X = 8.6 litros cada 100 km, entonces
X 9 8.6 9
= (2) = 0.023 ,
P (X 8.6 ) = P
1 / 5
1/ 5
es decir que, en este ltimo caso, hubiese sido muy poco probable que se observase un
valor promedio de 8.6 si la media verdadera es 9.
Qu es lo que estamos tratando de decidir? Nuestras hiptesis se refieren a , y se
192

2004
podran enunciar as:

i)
ii)
= 9 litros cada 100 km. En este caso no se implementa la mejora a los motores
< 9 litros cada 100 km. En este caso conviene implementar la mejora a los motores
A la primera hiptesis se la denomina hiptesis nula y se designa Ho. Esta hiptesis

implica que no hay efecto, es la hiptesis del status quo, o sea del no cambio respecto a
la situacin inicial. La segunda hiptesis se denomina hiptesis alternativa y se designa
H1 . Se la suele llamar la hiptesis del investigador.
Expresadas en trminos del parmetro de inters las hiptesis del ejemplo sern
Ho: = 9
vs
H1 : < 9
Un test es una regla de decisin basada en un estadstico o funcin de la muestra, en

este caso X , y en una zona de rechazo, es decir un conjunto de valores para los cules
se rechaza la hiptesis nula Ho.
Cmo se elige la zona de rechazo? Observemos que al tomar una decisin en base a
una muestra, podemos cometer dos tipos de error.
Ho es cierta
Ho no es cierta
No se rechaza Ho
OK
Error tipo II
Se rechaza Ho
Error tipo I
OK
Debido a la variabilidad muestral, es imposible construir tests en los cules estemos

absolutamente seguros de tomar la decisin correcta,. Lo que podemos hacer es tratar de
mantener bajas las probabilidades de error.
Llamaremos nivel de significacin del test, y lo designaremos , a la probabilidad de
error tipo I (en realidad a la mxima probabilidad de error tipo I) y designaremos a la
probabilidad de error tipo II.
Como el estadstico se construye bajo la condicin de que Ho es verdadera, lo que
podemos controlar es la probabilidad de error tipo I. Elegiremos la zona de rechazo del
test de manera que la probabilidad de error tipo I sea un valor predeterminado.
Volviendo al ejemplo, sabemos que, si Ho es cierta,
X 9
~ N (0 , 1)
1/ 5
Si queremos que el test tenga nivel de significacin = 0.05, rechazaramos Ho si
193

2004
X 9
1.64 .
1/ 5
Esta es la zona de rechazo del test de nivel 0.05. Si observamos un promedio igual a 8.9,
el valor del estadstico es 0.5 y por lo tanto no se rechaza Ho, mientras que si
observamos un promedio igual a 8.6, el valor del estadstico es 2 y se rechaza Ho.
Si queremos que el test tenga nivel de significacin = 0.10, rechazaramos Ho si
X 9
1.28
1/ 5
194

2004
Esta es la zona de rechazo del test de nivel 0.10.

Como hemos visto, al seleccionar la regin de rechazo controlamos la probabilidad de
error tipo I, pero qu ocurre con el error tipo II?.
Supongamos que en nuestro ejemplo, observamos un consumo promedio en la muestra
de tamao 25 igual a 8.9 litros cada 100 km y trabajamos con el test de nivel 0.05. En este
caso, no rechazamos Ho (tampoco lo haramos con el test de nivel 0.10) y por lo tanto, si
la mejora en el motor fuese real, podramos estar cometiendo un error de tipo II.
Por ejemplo, si la modificacin en el motor reduce el consumo a 8.5 litros cada 100 km,
cul es la probabilidad de cometer un error tipo II?
1.64 + 9 8.5
X 9
X 8.5
1
> 1.64 = P =8.5 X > 1.64 + 9 = P =8.5

P =8.5
>
1
/
5
5
1
/
5
1
/
5
X 8.5
P =8.5
> 0.86 = 1 (0.86) = 1 0.805 = 0.195
1/ 5
Es decir, que la probabilidad de error tipo II para el valor de = 8.5 es aproximadamente

0.20.
Definicin: La funcin de potencia de un test, ( ) , es la probabilidad de rechazar la
hiptesis nula cuando el valor verdadero del parmetro es .
Utilizando la funcin de potencia es posible obtener una expresin general para los dos
tipos de errores, pues
( )
( ) =
1 ( )
si H o
si H 1
donde () y () denota las probabilidades de error tipo I y tipo II respectivamente

cuando el verdadero valor del parmetro es .
Tipos de hiptesis a testear:
Hiptesis unilaterales:
Ho: = o ( o)
vs
H1: > o
Ho: = o ( o)
vs
H1: < o
195

2004
Hiptesis bilaterales:
Ho: = o
vs
H1: o
La forma de la regin de rechazo depender de la hiptesis alternativa a testear. As, en

el ejemplo presentado anteriormente, la zona de rechazo consiste en un intervalo de
valores en la cola izquierda de la distribucin porque la hiptesis alternativa es de la forma
< o .
Tests de hiptesis de nivel para los parmetros de la distribucin normal:

Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N ( , 2 ).
Tests para la media cuando la varianza es conocida: Supongamos que 2 = o2 es
conocida y consideremos las siguientes hiptesis
a) Ho: = o ( o)
b) Ho: = o ( o)
c) Ho: = o
Estadstico del test: T =
vs
vs
vs
X o
H1: > o
H1: < o
H1: o
. Bajo Ho: = o , T ~ N(0,1).
Regin de rechazo: Como dijimos, la zona de rechazo depende de la hiptesis alternativa.

Estar dada, en cada caso, por
a) T z
b) T z
c)
T z / 2
Observemos que, as como la forma de la regin de rechazo depende de la alternativa, su

tamao depende del nivel. Por ejemplo, consideremos el caso c). Como la alternativa es
o , la forma de la regin es T K , pero como la probabilidad de rechazar Ho
siendo cierta, o sea la probabilidad de Error tipo I, debe ser ,
X o
X o
X o
K = 1 Po n
< K = 1 P o K < n
< K =
P o n
o
o
o
1 ( K ) + ( K ) = 2(1 ( K )) = ( K ) = 1
K = z / 2
196

2004
Funcin de potencia: La notacin P , como ya hemos visto, indicar la probabilidad
cuando el valor verdadero del parmetro es . Hallaremos la funcin de potencia para

cada uno de los tests planteados.
X o
X + o
a) ( ) = P
z = P
z
n
n
X
o
o
= 1 z +
= P
z +
o
o
n
n
n
Observemos que esta funcin es creciente y ( o ) = , entonces, si < o , ( ) < .

Por esta razn el test tambin es de nivel para las hiptesis
Ho: o
vs
H1: > o
en el sentido de que la probabilidad de error tipo I es a lo sumo .
197

2004
X +
X
o
o
b) ( ) = P
z
z = P
o
o
n
n
X
o
o
= z +
= P
z +
o
o
o
n
n
n
Observemos que esta funcin es decreciente y ( o ) = , entonces, si > o ,
( ) < . Por esta razn el test tambin es de nivel para las hiptesis
Ho: o
vs
H1: > o
en el sentido de que la probabilidad de error tipo I es a lo sumo .
o
o
c) ( ) = P
z / 2 = 1 P
< z / 2
o
n
n
X + o
= 1 P z / 2 <
< z / 2
o
198

2004
o X
o
= 1 P z / 2 +
<
< z / 2 +
o
o
o
n
n
n
o
o
+ z / 2 +
= 1 z / 2 +
o
o
n
n
Observemos que esta funcin decrece hasta o donde ( o ) = y crece a partir de all.
Tamao de muestra requerido para obtener una probabilidad de error tipo II dada para un
valor = 1 (fijo) en la alternativa: Recordemos que el error de tipo II se define como
aceptar la hiptesis nula Ho cuando es falsa. Buscamos el valor de n para que la
probabilidad de error tipo II sea menor que cuando = 1 es un valor fijo en H1.
o
a) P i
< z 1 ( 1 ) ( 1 ) 1
o
o 1
o 1
1
1 z +
z + o
1 z +
z1
o
o
o
n
n
n
199

2004
Observemos que en este caso la alternativa es H1: > o , por lo tanto, o 1 < 0 y se
obtiene
(z z1 ) o
n
1 o
(z + z ) o
=

1
o

2
o
b) Pi
> z 1 ( 1 ) ( 1 ) 1
o
o 1
1
1 z + o
z +
z
o
o
n
n
Observemos que en este caso la alternativa es H1: < o , por lo tanto, o 1 > 0 y se
obtiene
(z + z ) o
n
0 1
c) Para el caso bilateral, el clculo del tamao de muestra se hace en forma aproximada,
despreciando la ms pequea de las dos probabilidades.
Tests para la media cuando la varianza es desconocida: Supongamos ahora que la

varianza es desconocida y consideremos las mismas hiptesis sobre .
a) Ho: = o ( o)
b) Ho: = o ( o)
c) Ho: = o
vs
vs
vs
H1: > o
H1: < o
H1: o
Estadstico del test: T = n
X o
. Bajo Ho: = o , T ~ tn-1
S
Regin de rechazo: Como siempre la forma de la zona de rechazo depende de la

hiptesis alternativa. Estar dada, en cada caso, por
a) T t n 1,
b) T t n 1,
200

c)
2004
T t n 1, / 2
El tamao de la zona de rechazo depende del nivel. Por ejemplo, consideremos el caso
a). Como la alternativa es > o , la forma de la regin es T K , pero como la
probabilidad de rechazar Ho siendo cierta, o sea la probabilidad de Error tipo I, debe ser ,
X o
X o
P o n
K = 1 P o n
K =
S
S
1 FT ( K ) = FT ( K ) = 1 K = t n 1,
donde FT designa la funcin de distribucin de una v.a. t con n-1 grados de libertad.
Funcin de potencia y clculo del tamao de muestra para obtener una probabilidad de
error tipo II dada: La funcin de potencia de este test es complicada porque la distribucin
del estadstico cuando o es una distribucin t no central. Aunque hay tablas y grficos
que permiten obtener probabilidades para una distribucin de este tipo, no los
estudiaremos en este curso. Por la misma razn, no calcularemos tamao de muestra
para obtener una probabilidad de error tipo II dada para una alternativa fija.
Respecto al p-valor, cuando se utilizan tablas slo es posible obtener una cota, ya que las
tablas proveen solamente algunos valores crticos de la distribucin t.
Tests para la varianza cuando la media es desconocida: Las hiptesis a testear son
a) Ho: 2 = o2 ( 2 o2 )
vs
H1: 2 > o2
b) Ho: 2 = o2 ( 2 o2 )
vs
H1: 2 < o2
c) Ho: 2 = o2
vs
H1: 2 o2
Estadstico del test: U =
(n 1) S 2
o2
. Bajo Ho: 2 = o2 , U ~ n21 .
Regin de rechazo: Como siempre la forma de la zona de rechazo depende de la

hiptesis alternativa. En este caso, estar dada por
a) U n21,
b) U n21, 1
c) U n 1, / 2 U n 1, 1- / 2
El tamao de la zona de rechazo depende del nivel. Por ejemplo, consideremos el caso
b). Como la alternativa es 2 < o2 , la forma de la regin es U K , pero como la
201

2004
probabilidad de rechazar Ho siendo cierta (P(Error tipo I)) debe ser ,
(n 1) S 2
P 2
K = K = n21,
2
o
o
Funcin de potencia: La obtendremos slo para el caso b). Los otros dos casos se
obtienen en forma similar.
(n 1) S 2
( 12 ) = P 2
1
donde F
n21
02
(n 1) S 2 02 2
n21,1 = P 2
2 n 1,1
2
1
1
1
2
= F 2 02 n21,1
n 1
indica la funcin de distribucin chi-cuadrado con n-1 grados de libertad.
Utilizando tablas slo es posible obtener una cota para la potencia ya que las tablas
proveen solamente algunos valores crticos de la distribucin 2.
Por la misma razn, al calcular el p-valor utilizando tablas, slo es posible obtener una
cota.
Ejercicio: Qu estadstico utilizara en el caso en que la media fuese conocida?. Cul
es la distribucin de dicho estadstico? Cmo se modifican las regiones de rechazo y la
funcin de potencia de los tests?
Ejemplo: Se toman 25 determinaciones de la temperatura en cierto sector de un reactor,
obtenindose
x = 243 o C
s = 2.8 o C
Interesa saber, a nivel 0.05

a) si existe evidencia para decidir que la temperatura media en ese sector del reactor es
menor que 250 o C .
b) si existe evidencia para decidir que la varianza de la temperatura en ese sector del
reactor es mayor que 2 o C .

a) Las hiptesis a testear son
Ho: = 250 ( 250)
El estadstico del test ser T = n
vs
H1: < 250
X 250
,
S
202

2004
y la regin de rechazo estar dada por los valores de T tales que
T= n
X 250
t n 1, 0.05
S
En nuestro caso, n = 25 y por lo tanto t 24, 0.05 = 1.71 . Como el valor observado de T es
12.5, se rechaza Ho, es decir hay evidencia de que la temperatura media del reactor es
menor que 250 o C .
b) Las hiptesis a testear son
Ho: 2 = 4 ( 2 4 )
El estadstico del test ser U =
(n 1) S 2
H1: 2 > 4
vs
y la regin de rechazo estar dada por los valores de U tales que
U=
(n 1) S 2
n21, 0.05
4
2
En nuestro caso, n = 25 y por lo tanto 24
, 0.05 = 36.42 . Como el valor observado de U es
47.04, se rechaza Ho. Es decir, hay evidencia de que la varianza de la temperatura del
reactor es mayor que 2 o C .
Tests de hiptesis de nivel aproximado (o asinttico) para la media de una

distribucin cualquiera:
Sea X 1 , X 2 ,..., X n una m.a. de una distribucin con media y varianza 2 < . Aplicando
el Teorema Central del Lmite, sabemos que
/ n
Z ~ N (0,1)
Adems, utilizando la propiedad enunciada al construir intervalos de confianza de nivel

asinttico (1- ) para la media de una distribucin cualquiera,
N (0,1)
1
S
X d
N (0,1)
S
203

2004
Por lo tanto, si n es suficientemente grande,
X (a)
~ N (0,1)
S
Supongamos que se desea testear a nivel aproximado alguna de las hiptesis

siguientes:
a) Ho: = o ( o)
b) Ho: = o ( o)
c) Ho: = o
vs
vs
vs
H1: > o
H1: < o
H1: o
y que n es suficientemente grande. Utilizando como estadstico
T= n
X o
, las
s
siguientes regiones de rechazo proveen tests de nivel aproximado para cada una de las
hiptesis:
a) T z
b) T z
c) T z / 2
Funcin de potencia aproximada: Un estimador de la funcin de potencia puede
obtenerse reemplazando el estadstico S por su valor observado s, o sea:
X o
X o
z / 2 = 1 P
z / 2
( ) = P
s
n
n
X + o
= 1 P z / 2
z / 2
s
o X
o
= 1 P z / 2 +
z / 2 +
s
s
s
n
n
n
204

2004
o
o
1 z / 2 +
+ z / 2 +
s
s
n
n
En forma similar, se obtiene la funcin de potencia aproximada en los otros dos casos.
Ejemplo: En algunos casos, la varianza y la media dependen del mismo parmetro y no
es necesario reemplazar por un estimador. Por ejemplo sea X 1 , X 2 ,..., X n una m.a. de
una distribucin de Poisson de parmetro . Entonces , si n es suficientemente grande,
/n
(a)
~ N (0,1)
Supongamos que se desea testear a nivel aproximado

Ho: = o
vs
H1: > o
Entonces, bajo Ho,
X o
o / n
(a)
~ N (0,1)
y, el test con regin de rechazo
X o
o / n
tiene nivel aproximado .

Su funcin de potencia aproximada se obtiene en la forma siguiente:
z o + o 1
X
o
1
(1 ) = P1
z = P1 X z o + o = P1
n
o
1
1
n
n
n
o o 1
1 z
+
1
1
n
205

2004
Test de hiptesis de nivel aproximado (o asinttico) para una proporcin

(parmetro p de la distribucin binomial): Sea X 1 , X 2 ,..., X n una m.a. de una
distribucin Bi(1,p). Entonces, X =
X
i =1
~ Bi(n,p). Aplicando el Teorema Central del
Lmite, si n es suficientemente grande,
Xp
p(1 p)
n
Z ~ N (0,1)
siendo X la proporcin muestral o frecuencia relativa de xitos.

Un test de nivel aproximado para las hiptesis:
a) Ho: p = po
b) Ho: p = po
c) Ho: p = po
vs
vs
vs
H1: p > po
H1: p < po
H1 : p p o
se basa en el estadstico
X po
p o (1 p o )
n
, el cual, si Ho es cierta, tiene distribucin
aproximada N(0,1). Las regiones de rechazo estarn dadas por

a)
b)
c)
X po
p o (1 p o )
n
X po
p o (1 p o )
n
X po
p o (1 p o )
n
z / 2
Ejercicio: Deducir las funciones de potencia aproximadas en los 3 casos.
206

2004
Relacin entre tests de hiptesis bilaterales e intervalos de confianza:

Introduciremos esta idea a travs de un ejemplo. Sea X 1 , X 2 ,..., X n una m.a. de una
distribucin N ( , 2 ) . Sabemos que el intervalo de confianza para de nivel 1 - est
dado por
s
s
, X + t n 1, / 2
X t n 1, / 2
.
n
n
Supongamos ahora que deseamos testear a nivel las siguientes hiptesis:

Ho: = o
vs
H1: o
Dado que el intervalo construido contiene con alta probabilidad al valor verdadero de , si
o no pertenece al intervalo, sto nos llevara a sospechar que la hiptesis nula es falsa.
Es decir, podramos construir un test de nivel rechazando Ho si o no pertenece al
intervalo de confianza, dado que
s
s
P ( EI ) = P o o X t n 1, / 2
, X + t n 1, / 2

n
n
s
s
= 1 P o o X t n 1, / 2
, X + t n 1, / 2
= 1 (1 ) = .
n
n
Proposicin: Sea IC ( X 1 , X 2 ,..., X n ) un intervalo de confianza de nivel 1 - para un

parmetro , obtenido a partir de una m.a. X 1 , X 2 ,..., X n . Consideremos el problema de
testear las hiptesis
Ho: = o
vs
H 1 : o
El test que rechaza Ho cuando o IC ( X 1 , X 2 ,..., X n ) , tiene nivel .
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin exponencial de parmetro .

Recordemos que, usando que 2
X
i =1
~ 22n , hemos obtenido el siguiente intervalo de
confianza de nivel exacto 1 - para
207

2004
2
2
2 n ,1 / 2
2 n , / 2
IC = n
, n
2 X i 2 X i
i =1
i =1
Si deseamos testear las hiptesis

Ho: = o
vs
H1: o
El test que rechaza Ho si o IC tiene nivel .
208

Py EC

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Py EC

Hochgeladen von

Copyright:

Verfügbare Formate

Probabilidades y Estadstica (Computacin)

Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

Probabilidades y Estadstica (Computacin)

El mtodo de codificacin de Huffman utiliza la informacin disponible sobre la

y el nmero de bits requerido sera:

Probabilidades y Estadstica (Computacin)

Se arroja un dado dos veces y se registra la suma de puntos. Cul es la probabilidad

En un juego de ruleta, cul es la probabilidad de ganar apostando a primera

En un juego de ruleta, cul es la ganancia esperada apostando repetidamente a

Cul es la probabilidad de que un servidor que atiende a 20 terminales se sature en

Dada la informacin disponible, cul es la probabilidad de que llueva el prximo fin

Se arroja una moneda dos veces.

3) Se arroja una moneda hasta que aparece por primera vez

4) Se registra el tiempo transcurrido desde que se intenta la conexin a un servidor hasta

Probabilidades y Estadstica (Computacin)

S es un subconjunto de S denominado suceso cierto o seguro .

es un subconjunto de S denominado suceso imposible.

Probabilidades y Estadstica (Computacin)

A B = A B c es el suceso diferencia. Ocurre cuando ocurre A y no ocurre B.

Recordemos algunas propiedades:

Interpretacin intuitiva de la Probabilidad: Supongamos que se repite n veces un mismo

La evidencia emprica muestra que cuando n crece,

Qu propiedades tiene la frecuencia relativa?

Probabilidades y Estadstica (Computacin)

La definicin axiomtica de Probabilidad, que daremos a continuacin, es consistente con

Axiomas de Probabilidad: Dado un experimento aleatorio y un espacio muestral

Si A1 , A2 ,..., An ,... es una coleccin infinita numerable de sucesos mutuamente

excluyentes, es decir si Ai A j = i j , entonces

Probabilidades y Estadstica (Computacin)

En la tercera igualdad usamos el axioma 3 pues A A c = .

y estos dos eventos son excluyentes,

Por otra parte, B = ( B A) ( B A c ) y estos dos eventos son disjuntos, entonces

De (1) y (2) resulta que P ( A B ) = P ( A) + P( B ) P ( B A) como queramos demostrar.

Probabilidades y Estadstica (Computacin)

b) Probar, usando induccin que, dados A1 , A2 ,..., An sucesos cualesquiera,

Designando Ei a los sucesos elementales de S, S =

(la unin podra ser finita si el

espacio muestral fuese finito). Si conocemos

= 1 , entonces dado cualquier suceso A, su probabilidad se puede obtener sumando

las probabilidades de los elementales que lo componen, es decir:

Ejemplos: 1) Se arroja un dado equilibrado. En este caso, S={1,2,3,4,5,6} y, por

P(A) = P(E2)+ P(E4)+ P(E6)=1/2

P(E2) = P(E4) = P(E6) = 2 p

Como la suma de las probabilidades debe ser igual a 1,

y, en este caso, P(A) = P(E2)+ P(E4)+ P(E6) = 3

3) Arrojamos una moneda equilibrada hasta obtener cara. Cul es la probabilidad de

Probabilidades y Estadstica (Computacin)

ya que si 0<p<1, entonces

Espacios de equiprobabilidad: Sea un experimento aleatorio cuyo espacio muestral

Dado cualquier suceso A, P ( A) =

Probabilidades y Estadstica (Computacin)

B = {( x1 , x 2 ) S / x1 {R1 , R 2 , R3 }, x 2 {B1 , B2 }}. Como # B = 3 2 = 6 P( B) =

2) Consideremos el ejemplo 1) pero suponiendo ahora que las extracciones se realizan

b) B = {( x1 , x 2 ) S / x1 {R1 , R 2 , R3 }, x 2 {B1 , B2 }}. Como # B = 3 2 = 6 P( B) =

Observacin: Qu pasara si en los ejemplos anteriores eligisemos como espacio

Probabilidades y Estadstica (Computacin)

Ejemplos: 1) En el ejemplo anterior, P(B)=4/9 y

2) Consideremos una poblacin en la que cada individuo es clasificado segn dos

En esta poblacin, la probabilidad de que un individuo sea portador es P(A)=0.006 y la

Probabilidades y Estadstica (Computacin)

Ejercicios: 1) Verificar que P(|B) satisface el axioma A3a.

Probabilidades y Estadstica (Computacin)

La regla del producto es especialmente til cuando el experimento consta de varias