Beruflich Dokumente
Kultur Dokumente
2004
Probabilidades y Estadstica
Cs. de la Computacin
Introduccin
Breve resea histrica:
La teora de Probabilidades comienza a partir de una disputa entre jugadores en 1654.
Los dos matemticos que participaron de tales discusiones fueron Blaise Pascal y Pierre
de Fermat, y su intercambio de correspondencia sent las bases de la teora de
Probabilidades. Un matemtico holands, Christian Huygens tom contacto con esa
correspondencia y escribi el primer libro sobre Probabilidades en 1657, el cual trataba
fundamentalmente sobre problemas relacionados con los juegos de azar.
Durante el siglo XVIII la teora se desarroll y se enriqueci con los aportes de Jacob
Bernoulli y Abraham de Moivre. En 1812 Pierre de Laplace introdujo una serie de nuevas
ideas y tcnicas matemticas en su libro Theorie Analytique des Probabilits y
fundamentalmente sac a la teora del marco exclusivo de los juegos de azar y aplic las
ideas a muchos problemas cientficos y prcticos. Algunas de las importantes aplicaciones
desarrolladas en el siglo XIX fueron: teora de errores, matemtica actuarial y mecnica
estadstica.
Una de las dificultades para el desarrollo de la teora matemtica de las probabilidades
fue llegar a una definicin de probabilidad matemticamente rigurosa, pero al mismo
tiempo amplia para permitir su aplicacin a un amplio rango de fenmenos. En el siglo XX
se lleg a una definicin axiomtica de las Probabilidades (Kolmogorov, 1933).
Porqu estudiar Probabilidades y Estadstica en Ciencias de la Computacin?:
Posibles preguntas que queremos responder:
Cul es el mximo nmero de terminales que pueden estar conectadas en un
servidor antes de que el tiempo medio de espera se haga inaceptable?
En una base de datos, Cmo deberan ser guardados los datos para minimizar el
tiempo medio de acceso?
Los sistemas de computacin no son determinsticos. Pensemos, por ejemplo, en el delay
en el envo de paquetes, comunicaciones en una red, equilibrio de carga en servidores,
requerimientos de memoria, etc.
Para qu sirven las Probabilidades? Si bien estamos frente a procesos aleatorios, no
son necesariamente caticos, en el sentido que podemos descubrir un patrn de
comportamiento que pueda ser modelado.
Veamos un ejemplo de uso frecuente.
2004
Compresin de archivos: El cdigo ASCII contiene 256 caracteres, cada uno de los
cules se representa con un nmero consistente en 8 dgitos binarios, por ejemplo, se
representa por 160 10100000.
Para simplificar el problema, supongamos que contamos con slo 4 caracteres: A, B, C y
D. Para representarlos necesitamos 2 bits. Por ejemplo, podramos representarlos as:
A 00
B 01
C 10
D 11
Si un texto constara de n caracteres necesitaramos 2n bits para guardarlo. Esta cantidad
de bits es determinstica.
Supongamos que sabemos que ciertas letras aparecen con ms frecuencia que otras,
por ejemplo, supongamos que sabemos que las frecuencias con que aparecen las 4 letras
en un texto son:
A
B
C
D
0.70 (70%)
0.12 (12%)
0.10 (10%)
0.08 ( 8%)
veces As
veces Bs
veces Cs
veces Ds
2004
Probabilidad
El trmino Probabilidad se refiere al estudio del azar y la incertidumbre. En aquellas
situaciones en las cules se puede producir uno de varios resultados posibles, la Teora
de la Probabilidad provee mtodos para cuantificar la chance de ocurrencia de cada uno
de ellos.
Ejemplos:
Definiciones:
Experimento: Es cualquier proceso o accin que genera observaciones y que puede ser
repetible. Por ejemplo, arrojar un dado, seleccionar un individuo y registrar su peso y su
altura, seleccionar una muestra de productos elaborados por una empresa para hacer un
control de calidad, seleccionar un da al azar y registrar el nmero de veces que se satura
un servidor.
Espacio muestral asociado a un experimento: Es el conjunto de todos los resultados
posibles del experimento. Lo notaremos S.
Ejemplos:
1) Se arroja una moneda una vez.
S={cara,ceca} S={1,0} S={xito,fracaso}
2)
una
cara.
2004
S=+=(0,)
Si el sistema tiene un time-out en el tiempo to , tendramos S=(0, to).
Como se observa, un espacio muestral puede ser finito, como en los ejemplos 1) y 2),
infinito numerable, como en el ejemplo 3) o infinito no numerable, como en el ejemplo 4).
Sucesos o eventos: No slo estamos interesados en resultados individuales de un
experimento sino que pueden interesarnos colecciones o conjuntos de ellos. Se denomina
suceso o evento a cualquier subconjunto del espacio muestral. Si S es finito o infinito
numerable, cualquier subconjunto es un evento. Si S es infinito casi todo subconjunto de
S es un evento. Los eventos los designaremos en general con las primeras letras del
abecedario en mayscula: A, B, C,...
Evento elemental o simple: consiste de un nico resultado individual.
Evento compuesto: consiste de ms de un evento elemental.
Ejemplos: En los ejemplos anteriores, posibles eventos son
1) A = sale cara = {cara}={1}.
2) A = nmero de caras es menor o igual que 1 ={(1,0),(0,1),(0,0)}.
3) A = nmero de tiros requeridos es menor o igual que 5 = {(x1,x2,...xn)S / n5 }.
B = nmero de tiros requeridos es par = {(x1,x2,...xn) S / n=2k, k N}.
4) A = el tiempo es mayor de 10 minutos = (10,) (en el caso de un sistema sin timeout)
Relacin con Teora de conjuntos: Como un evento o suceso es un conjunto, valen las
mismas relaciones que en teora de conjuntos.
2004
Leyes de De Morgan:
U Ai = I Aic
i =1
i =1
I Ai = U Aic
i =1
i =1
fr ( A) =
nA
n
fr ( A) tiende a estabilizarse
fr ( A) =
nA
0
n
2)
fr ( S ) =
nS n
= =1
n n
3) Si A B = fr ( A B) =
2004
n A B n A + n B n A n B
=
=
+
= fr ( A) + fr ( B)
n
n
n
n
n
n
P U Ai = P( Ai )
i =1 i =1
A3b.
P U Ai = P( Ai )
i =1 i =1
Ejemplo: Consideremos el ejemplo en que se arroja una moneda una vez, para el cual el
espacio muestral es S={cara,ceca}. Si denominamos E1 = {cara} y E2 ={ceca} a los dos
eventos elementales, como P(S) = 1 = P(E1)+P(E2), entonces P(E2) = 1- P(E1). Por lo
tanto, cualquier asignacin de probabilidades de la forma: P(E1) = p y P(E2)=1-p con
0 p 1, satisface los axiomas.
Propiedades de la Probabilidad:
1) P( A c ) = 1 P( A) para todo suceso A
Dem: 1 = P ( S ) = P ( A U A c ) = P ( A) + P ( A c ) P( A c ) = 1 P ( A)
A2
A3 a
2004
A2
3) Si A B P( A) P ( B) y P ( B A) = P( B ) P ( A)
Dem: Si A B B = A ( B A) y stos dos eventos son excluyentes. Por el
axioma A3a
P ( B) = P( A) + P( B A)
Dado que, por el axioma A1, P(B-A) 0 , resulta P(B) P(A) y, despejando, se obtiene la
segunda afirmacin.
4) Dados dos sucesos cualesquiera A y B, P( A B ) = P ( A) + P( B ) P ( A B ).
Dem: A B = A ( B A) = A ( B A c )
entonces, por el axioma A3a,
P( A B) = P(A ( B A c ) ) = P( A) + P( B A c )
(1)
P( B) = P( B A) + P( B A c ) P( B A c ) = P( B) P( B A)
(2)
P( A1 A2 A3 ) = P( A1 ) + P( A2 ) + P( A3 ) P( A1 A2 ) P( A1 A3 )
P( A2 A3 ) + P( A1 A2 A3 )
2004
n
n
P U Ai P( Ai )
i =1 i =1
Asignacin de probabilidades: Supongamos que el espacio muestral S asociado con
cierto experimento es finito o infinito numerable. En este caso, una manera simple de
trabajar es asignar probabilidades a los sucesos elementales, ya que cualquier suceso A
ser unin de sucesos elementales y stos son obviamente mutuamente excluyentes.
UE
i =1
p
i =1
p i = P( E i ) 0 i , de manera que
P ( A) =
Ei A
se obtiene
2) Supongamos ahora que se arroja un dado en el cual la probabilidad de las caras pares
es el doble que la probabilidad de las caras impares, o sea que, si llamamos p a la
probabilidad de cada cara impar,
P(E1) = P(E3) = P(E5) = p
P( E ) = 3 p + 6 p = 9 p = 1
i =1
p=
1
9
2 2
= .
9 3
2004
A={(0,1),(0,0,0,1),(0,0,0,0,0,1),.....}
Veremos ms adelante que en las condiciones de este experimento es razonable
asumir que
1
P(obtener cara en el k - simo lanzamiento) =
2
Por lo tanto:
1
P ( A) =
k =1 2
2k
1
1
4
1
1 = 1 =
= =
1
3
3
k =1 4
1
4
k =0
1
1 p
P( Ei ) = p
Como 1 =P( S ) =
i =1
i =1
P( Ei ) = p = np
p=
P( E ) =
Ei A
Ei A
1
1
=
.
n #S
1 #A
.
=
n #S
Ejemplos: 1) De una urna que contiene 2 bolillas blancas y 3 rojas se extraen 2 bolillas
con reposicin.
a) Cul es la probabilidad de que se extraiga al menos una bolilla roja?
b) Cul es la probabilidad de que la primera bolilla extrada sea roja y la segunda
blanca?
Supondremos que las bolillas estn numeradas, de manera de poder considerar que se
trata de un espacio de equiprobabilidad, entonces S = {( x1 , x 2 ) / x i {R1 , R 2 , R3 , B1 , B2 }} y
su cardinal es #S = 5 5 = 25
a)
P( A) = 1 P( A c )
resulta P ( A c ) =
b)
siendo
25
2004
A c = {( x1 , x 2 ) S / x i {B1 , B2 }} . Como # A c = 2 2 = 4 ,
4 21
=
P( A) = 1
.
25 25
6
.
25
A c = {( x1 , x 2 ) S / x i {B1 , B2 }} . Como # A c = 2 1 = 2 ,
1
9
2
1
resulta P ( A c ) =
=
P( A) = 1 = .
10 10
20 10
a) P ( A) = 1 P( A c )
siendo
6
.
20
10
2004
Probabilidad condicional
Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas, 2
son lisas y 2 rayadas y de las 5 bolillas blancas, 4 son lisas y una sola es rayada.
Supongamos que se extrae una bolilla y, sin que la hayamos mirado, alguien nos dice que
la bolilla es roja, cul es la probabilidad de que la bolilla sea rayada?
Sean los sucesos A: la bolilla es rayada y B: la bolilla es roja. Obviamente, sin ninguna
informacin previa, P(A)= 3/9=1/3 y P(B)=4/9.
Sin embargo, como sabemos que la bolilla es roja, la probabilidad de que sea rayada es
, ya que, de las rojas la mitad es lisa y la mitad rayada. Observemos, que al ocurrir B, el
espacio muestral se reduce.
En general, dado un experimento y su espacio muestral asociado, queremos determinar
cmo afecta a la probabilidad de A el hecho de saber que ha ocurrido otro evento B.
Definicin: Sean A y B eventos tales que P(B) > 0, la probabilidad del evento A
condicional a la ocurrencia del evento B es
P( A | B) =
P( A B)
P( B)
P( A | B) =
P( A B) 2 / 9 2 1
=
= = .
P( B)
4/9 4 2
Pertenece a R (B)
No pertenece a R (Bc)
Portador (A)
0.003
0.003
0.006
No portador (Ac)
0.017
0.977
0.994
0.020
0.980
1.000
P( A | B) =
P( A B) 0.003
=
= 0.150
P( B)
0.020
11
2004
es decir que 150 de cada 1000 individuos del grupo de riesgo R, son probablemente
portadores de HIV.
Calculemos ahora la probabilidad de que una persona sea portadora de HIV, dado que no
pertenece al grupo de riesgo R.
P( A | B c ) =
P( A B c ) 0.003
=
= 0.00306
0.980
P( B c )
es decir que slo 3 de cada 1000 individuos no pertenecientes al grupo de riesgo R, son
posibles portadores de HIV.
Propiedades de la Probabilidad condicional: Dado un suceso B fijo tal que P(B) > 0, P(|B)
es una probabilidad, en el sentido que satisface los axiomas de probabilidad y por lo tanto
todas las propiedades que se deducen a partir de ellos. Por ejemplo:
A1. P(A|B) 0 para todo suceso A.
A2. P(S|B) = 1.
Dem: P ( S | B) =
P( S B) P( B)
=
= 1.
P( B)
P( B)
12
P(C D) = P(C ) P( D | C ) =
2004
4 5 20 5
=
= .
9 8 72 18
P( A1 A2 A3 ) = P( A1 ) P( A2 | A1 ) P( A3 | ( A1 A2 ))
y se extiende a n sucesos.
Ejemplo: En el mismo ejemplo, cmo podemos obtener la probabilidad de que la
segunda bolilla extrada sea blanca (suceso D)?. Sabemos calcular, usando la regla del
producto la probabilidad de que la segunda sea blanca y la primera sea roja. Hemos visto
que esta probabilidad es P (C D ) = 5 18 . Del mismo modo podemos obtener la
probabilidad de que ambas bolillas sean blancas (suceso (D C c)). Esta probabilidad es
P(C c D) = P (C c ) P( D | C c ) =
5 4 20 5
=
= .
9 8 72 18
D = (D C) (D C c )
se obtiene
P( D) = P( D C ) + P( D C c ) =
5
5 5
+ = .
18 18 9
(1)
Cmo podemos obtener ahora la probabilidad de que la primera bolilla haya sido roja
(suceso C) sabiendo que la segunda fue blanca (suceso D)? La probabilidad requerida es
P (C | D) =
P (C D) 5 18 1
=
= .
P( D)
59 2
(2)
Los resultados (1) y (2) son ejemplos de aplicacin de los dos Teoremas que veremos a
continuacin: el Teorema de la Probabilidad Total y el Teorema de Bayes,
respectivamente.
Definicin: Una coleccin de eventos A1 , A2 ,..., Ak constituye una particin del espacio
muestral S si
13
1.
Ai A j = i j
2.
P( Ai ) > 0
k
3.
UA
2004
=S
i =1
Teorema de la probabilidad total: Sea A1 , A2 ,..., Ak una particin del espacio muestral S y
sea B un suceso cualquiera,
k
P ( B) = P( B | Ai ) P ( Ai )
i =1
Dem:
k
k
B = B S = B U Ai = U (B Ai )
i =1 i =1
Como ( B Ai ) ( B A j ) = i j , entonces
k
k
k
P ( B) = P U ( B Ai ) = P( B Ai ) = P( B | Ai ) P( Ai ).
i =1
i =1
i =1
Teorema de Bayes: Sea A1 , A2 ,..., Ak una particin del espacio muestral S y sea B un
suceso cualquiera tal que P(B) > 0,
P( A j | B) =
P( B | A j ) P( A j )
k
P( B | A ) P( A )
i
i =1
Dem:
P( A j | B) =
P( A j B)
P( B)
P( B | A j ) P( A j )
k
P( B | A ) P( A )
i =1
14
2004
P( B | A) = 0.99
P( B | A c ) = 0.02
P( B c | A) = 0.01
P(B c | A c ) = 0.98
P( A | B) =
0.99 0.001
P( B | A) P ( A)
=
= 0.0472
c
c
P( B | A) P( A) + P( B | A ) P( A ) 0.99 0.001 + 0.02 0.999
Por lo tanto, la probabilidad de que est enfermo, habiendo sido positivo el resultado de la
prueba es aproximadamente 0.05.
Las probabilidades a posteriori dependen fuertemente de las probabilidades a priori. Si se
aplica la prueba a individuos de una poblacin en la cual la incidencia de la enfermedad
es mucho mayor, tambin aumentar la probabilidad a posteriori.
Verifique sto, suponiendo ahora que P(A) = 0.01.
Ms adelante, desarrollaremos otro ejemplo de aplicacin de estos Teoremas.
Independencia
La definicin de probabilidad condicional nos permite revisar la probabilidad P(A)
asignada a un suceso, cuando se sabe que otro suceso B ha ocurrido. Hay casos en los
que P(A | B) P(A), mientras que en otros P(A | B) = P(A), es decir que la ocurrencia del
suceso B no altera la probabilidad de ocurrencia de A.
15
2004
Ejemplo: De una urna que contiene 4 bolillas negras y 6 blancas se extraen dos bolillas
sin reposicin , cul es la probabilidad de que la segunda bolilla sea blanca, sabiendo
que la primera es negra?
Denominando A: la segunda bolilla es blanca y B: la primera bolilla es negra,
P( A | B) =
6 2
= .
9 3
P ( A) = P( A | B) P ( B) + P( A | B c ) P( B c ) =
6 4 5 6 54 6 3
+
=
= =
9 10 9 10 90 10 5
P( A B) = P( A) P( B)
Si la igualdad no se cumple, decimos que A y B son dependientes.
Proposicin: Supongamos P(B) > 0, A y B son independientes si y slo si P(A|B)=P(A).
P( A B)
est bien definida, pero por ser A y B
P( B)
independientes, P ( A B ) = P ( A) P ( B ) , entonces
Dem: () Si P ( B ) > 0 P ( A | B ) =
P( A | B) =
P( A) P( B)
= P( A)
P( B)
16
2004
P( A) =
20 1
=
40 2
P( B) =
30 3
=
40 4
P(C ) =
20 1
=
40 2
1
P( A B)
1
P( A | B) =
= 4 = P( A) , entonces A y B no son independientes.
3
P( B)
3
4
1
P( A C )
1
P( A | C ) =
= 4 = = P( A) , entonces A y C son independientes.
1
P(C )
2
2
Propiedades: 1) Si los sucesos A y B son excluyentes, es decir si A B = y si P(A)>0,
P(B) > 0, entonces A y B no son independientes.
Dem: En efecto, en este caso, 0 = P ( A B ) P ( A) P ( B ).
2) Si P(B) = 0, entonces B es independiente de cualquier suceso A tal que P(A) > 0.
Dem: Como A B B, P(A B) = 0 y por lo tanto P(A B) = P(A) P(B), es decir que A y
B son independientes.
3) Si A B , P ( A) > 0 y P ( B) < 1, A y B no son independientes.
Dem: Como A B A B = A P( A B) = P( A) P( A) P( B) . Luego, A y B no son
independientes.
4) Si A y B son sucesos independientes, A y Bc tambin lo son.
Dem:
P ( A) = P( A B) + P ( A B c ) P( A B c ) = P( A) P ( A B) = P( A) P( A) P( B) =
P( A) (1 P( B) ) = P( A) P( B c ) .
Ejercicio: Demostrar que si A y B son sucesos independientes, Ac y Bc tambin lo son.
17
2004
entonces
son
A = {w1 , w4 }
B = {w2 , w4 }
P( A) = P( B ) = P(C ) =
C = {w3 , w4 }
1
.
2
Adems,
1
= P( A) P( B)
4
1
P( A C ) = = P( A) P(C )
4
1
P( B C ) = = P( B) P(C )
4
P( A B) =
P( A B C ) =
1
P( A) P( B) P(C )
4
sucesos
A = {w1 , w2 , w3 , w4 }
B = {w1 , w2 , w7 , w8 }
C = {w1 , w5 , w6 , w7 }
18
Como antes, P ( A) = P ( B ) = P (C ) =
2004
1
. Adems,
2
1
= P( A) P( B)
4
1
P( B C ) = = P( B) P(C )
4
1
P( A C ) = P( A) P(C )
8
P( A B) =
P( A B C ) =
1
= P( A) P( B) P(C ).
8
19
2004
puede demorar entre 0 y 30 ms, con un promedio de 15 ms. Por ltimo, supongamos que
el acceso concreto al dato demora 1.2 milisegundos.
Este sistema es de naturaleza probabilstica o aleatoria. Las demandas de acceso arriban
en tiempos aleatorios y se demandan datos aleatorios, en el sentido de que no sabemos
con anticipacin qu dato se va a requerir.
Analicemos el siguiente ejemplo. Supongamos que las probabilidades de que una
demanda de acceso corresponda a cada una de las 76 pistas son iguales y que accesos
sucesivos son independientes. Supongamos tambin que la cabeza lectora/grabadora se
encuentra sobre la pista 20, cul es la probabilidad de que el tiempo total de bsqueda
(seek) para las dos siguientes demandas de acceso sea a lo sumo 50 ms?
Sea A el suceso la bsqueda combinada demora a lo sumo 50 ms y definamos, para
cada i = 0,1,..., 75, los sucesos
Ti: el primero de los dos accesos siguientes corresponder a un dato que est sobre la
pista i
Entonces
75
75
i =0
i =0
P( A) = P( A Ti ) = P( A | Ti ) P(Ti )
(3)
P( A | T26 ) =
19 1
= .
76 4
Del mismo modo, se calculan todas las probabilidades condicionales requeridas en (3) y
se obtiene el valor de P(A) pedido.
20
2004
S = {( x1 , x 2 ) / x i {1,2,3,4,5,6}}
Posibles v.a. asociadas con este experimento son:
X: nmero de caras pares
Y: mximo puntaje
Z: suma de puntos
Definicin: Sea S un espacio muestral asociado con un experimento aleatorio. Una
variable aleatoria X es una funcin que asocia a cada elemento w S un nmero real
X(w)=x, es decir
X :S
Como se observa, en general representaremos a las v.a. con letras maysculas: X, Y, Z,
etc. y sus valores con letras minsculas, es decir X(w)=x significa que x es el nmero real
asociado al resultado w S a travs de X.
Ejemplos: 1) Volviendo al ejemplo anterior,
X((2,5)) = 1
X((1,3)) = 0
X((2,2)) = 2
Y((2,5)) = 5
Y((1,3)) = 3
Y((2,2)) = 2
Z((2,5)) = 7
Z((1,3)) = 4
Z((2,2)) = 4
1
X =
0
21
2004
3) RX = {1,2,3,...} = N
4) RX = (0,) (0,M) si existe un time out
Definicin: Una v.a. es discreta si toma un nmero finito o infinito numerable de valores.
Ejemplo: En el caso del ejemplo 1), cmo calcularamos la probabilidad de que la v.a. Z
tome el valor 7, suponiendo que los lanzamientos son independientes?
6 1
= .
36 6
p X ( x) = P( X = x) = P({w S / X ( w) = x})
Se cumplen las siguientes propiedades:
22
p X ( x) 0
xR X
2004
( x) = 1
9 1
=
36 4
p X (1) = P( X = 1) =
= P({( x1 , x 2 ) S / x1 {1,3,5}, x 2 {2,4,6}} {( x1 , x 2 ) S / x1 {2,4,6}, x 2 {1,3,5}}) =
p X (2) = P( X = 2) = P{( x1 , x 2 ) S / x1 , x 2 {2,4,6}} =
18 1
=
36 2
9 1
=
36 4
0
1/4
1
1/2
2
1/4
Diagrama de Barras
Histograma
23
2004
FX ( x) = P( X x) =
y x , yR X
( y)
Es decir que FX (x) es la probabilidad de que la v.a. X tome valores menores o iguales
que x.
Ejemplo: Volviendo al ejemplo 1), hallemos la funcin de distribucin acumulada de la v.a.
X, cuya funcin de probabilidad puntual es
x
pX(x)
1< x < 2
x=2
x>2
2
1/4
F X ( 0) = P ( X 0) = p X ( 0) = 1
4
F X ( x ) = P ( X x ) = p X ( 0) = 1
4
0 < x <1
x =1
1
1/2
FX ( x ) = P ( X x ) = 0
Si x < 0
x=0
0
1/4
1 +
2
1 +
2
1 =1
4
1 =1
4
Resumiendo:
0
1
FX ( x) = 4
3
4
1
si x < 0
si 0 x < 1
si 1 x < 2
si x 2
Cmo es FX (x)?
Observamos que se trata de una funcin escalera, no decreciente que toma valores entre
0 y 1.
24
2004
iv) lim FX ( x) = 1
x
lim FX ( x) = 0
x -
p X ( x) = FX ( x ) F X ( x )
donde
A = {w / X ( w) x 2 } = {w / X ( w) x1 } {w / x1 < X ( w) x 2 } = A1 A2
Como A1 A2 = , P ( A) = P( A1 ) + P( A2 ) , es decir
P ( X x 2 ) = P( X x1 ) + P ( x1 < X x 2 ) P( X x1 )
y, por lo tanto,
25
2004
FX ( x 2 ) FX ( x1 )
iii) Recordemos que una funcin g (x) es continua a derecha en x si lim+ g ( x + h) = g ( x) .
h 0
FX ( x) = P( X x) .
iv) lim FX ( x) = lim P( X x) = lim P{w / X ( w) x} = P( S ) = 1
x
x -
x -
x -
v) p X ( x) = P( X = x) = P( X x) P( X < x) = FX ( x) FX ( x )
Proposicin: Sean a y b tales que a b , entonces
P ( a X b) = P ( a < X b) + P ( X = a )
y aplicando la propiedad v) de las funciones de distribucin acumuladas.
1 3
=
4 4
3 1 1
P( X = 1) = FX (1) FX (1 ) = = .
4 4 2
P(1 X 2) = FX (2) FX (1 ) = 1
26
2004
Ejemplo: Un experimento tiene slo dos resultados posibles, que denominaremos xito y
Fracaso. El experimento se repite en forma independiente hasta que se obtiene el primer
xito. Sea p = P(xito), 0 < p < 1, y definamos la v.a. X = nmero de repeticiones hasta
obtener el primer xito. Como ya hemos visto, RX = N.
Hallemos la funcin de probabilidad puntual de la v.a. X.
p X (1) = p
p X (2) = (1 p) p
p X (3) = (1 p ) 2 p
..........................
p X (k ) = (1 p) k 1 p
.........................
Entonces,
p X (k ) = (1 p ) k 1 p
k N .
p X ( x) 0
xR X
( x) = 1
Dado que 0 < p < 1 , la primer propiedad obviamente se satisface. Respecto a la segunda,
k =1
k =1
j =0
p X (k ) = (1 p) k 1 p = p (1 p) j = p
1
=1
1 (1 p )
q
i =0
1
, si q < 1.
1 q
27
x <1
FX ( x ) = 0
1 x < 2
FX (x) = p
2 x<3
FX (x) = p + p( 1-p)
3 x<4
2004
..............................................................
k x < k +1
k 1
j =1
i =0
F X ( x) = p (1 p) j 1 = p (1 p) i = p
1 (1 p) k
= 1 (1 p ) k
1 (1 p )
..............................................................
1 q n +1
Hemos usado que la suma parcial de una serie geomtrica es q =
.
1 q
i =0
n
Recordemos que la funcin de distribucin debe estar definida para todo x , entonces
0
FX ( x) =
[x ]
1 (1 p)
si x < 1
si x 1
28
x
nmero de clientes
proporcin
1
7500
37.5%
2
5500
27.5%
3
3500
17.5%
2004
4
2000
10.0%
5
1500
7.5%
7500
5500
3500
2000
1500
+ 2
+ 3
+ 4
+ 5
=
20000
20000
20000
20000
20000
= 1 0.375 + 2 0.275 + 3 0.175 + 4 0.10 + 5 0.075
E( X ) = X =
siempre que
x p
xR X
( x)
xR X
entonces,
E( X ) = 0
0
1/4
1
1/2
2
1/4
1
1
1
+1 + 2 =1.
4
2
4
29
2004
2) Sea X una v.a. que toma slo dos valores que designaremos 1 y 0 (xito y Fracaso)
con la siguiente funcin de probabilidad puntual
x
pX(x)
1
0
1-
siendo 0 < < 1. Una v.a. de este tipo se dice que es una v.a. de tipo Bernoulli y su
esperanza es:
E (X ) = 1 + 0 (1 ) =
3) Veamos un ejemplo en que no existe E(X). Sea X una v.a. con la siguiente funcin de
probabilidad puntual
6 1
p X ( x ) = 2 x 2
0
si x N
en otro caso
En primer lugar, observemos que pX(x) es una funcin de probabilidad puntual, ya que
1 2
=
2
6
x =1 x
E( X ) = x
x =1
6 1
6
= 2
2
2
x
x =1 x
p X (k ) = (1 p) k 1 p
k N
Calculemos la esperanza de X.
k =1
k =1
(1 p ) k
k =1 p
E ( X ) = k p (1 p ) k 1 = p k (1 p ) k 1 = p
30
2004
E( X ) = p
1 1
1
1
1 = p 1 = p 2 = .
(1 p ) k = p
p p
p k =1
p 1 (1 p )
p p
1
.
p
x
pX(x)
1
0.375
2
0.275
3
0.175
4
0.100
5
0.075
Supongamos que el costo del servicio (Y) es funcin del nmero de paquetes contratado,
segn la siguiente frmula:
Y = 30 ( X + 1)
Cul es el valor esperado del costo pagado por cliente? Es decir, cul es E(Y)?.
A partir de la funcin de probabilidad puntual de X, podemos obtener la de funcin de
probabilidad de Y ya que, por un lado RY = {60,90,120,150,180} y, por ejemplo,
P(Y=120)=P(X=3)=0.175. Entonces,
y
pY(y)
60
0.375
90
0.275
120
0.175
150
0.100
180
0.075
31
Observemos que, E( Y ) =
h( x ) p
x =1
2004
Proposicin: Si X es discreta y toma valores x1, x2, ....., entonces h(X) es discreta con
valores y1, y2, ...., siendo yj = h(xi) para al menos un valor de i.
Proposicin: Si la v.a. X tiene funcin de probabilidad puntual pX(x) para todo x RX,
entonces la esperanza de cualquier funcin real h(X), est dada por
E (h( X )) =
h( x ) p
xR X
( x)
h( x )
xR X
p X ( x) < .
E (Y ) = y j pY ( y j ) = y j p X ( x i ) = y j p X ( x i ) = h( x i ) p X ( xi ) .
j
j
i
i / h ( xi ) = y j
j i / h ( xi ) = y j
Propiedades de la esperanza:
1) (Linealidad) Si a y b son constantes reales, E (aX + b) = aE ( X ) + b .
Dem: Sea h( X ) = aX + b, entonces
E (h( X )) = E (aX + b) =
(ax + b) p
xR X
( x) = a x p X ( x) + b p X ( x) =aE ( X ) + b.
xR X
xR X
1
1/12
2
1/3
3
1/3
4
1/3
2
5/12
3
2/12
4
1/12
5
3/12
32
z
pZ(z)
2004
3
1
Estas tres v.a. tienen la misma esperanza, sin embargo la forma de su distribucin es muy
diferente.
V ( X ) = X2 =
(x
) 2 p X ( x) = E [( X X ) 2 ].
xR X
y el desvo standard de X, es X = + V ( X ) .
Ejemplos: 1) Calculemos la varianza y el desvo standard de las tres v.a. que acabamos
de presentar, cuya esperanza es igual a 3.
1
1
1 2
+ ( 3 3 )2 + ( 4 3 )2 =
3
3
3 3
1
5
2
1
3 22 11
V ( Y ) = Y2 = ( 1 3 ) 2
+ ( 2 3 )2
+ ( 3 3 )2
+ ( 4 3 )2
+ ( 5 3 )2
=
=
12
12
12
12
12 12 6
V ( Z ) = Z2 = ( 3 3 ) 2 1 = 0
V ( X ) = X2 = ( 2 3 ) 2
0
1/4
1
1/2
2
1/4
y su esperanza es E ( X ) = 1 , entonces
V ( X ) = (0 1) 2
1
1
1 1
+ (1 1) 2 + (2 1) 2 = .
4
2
4 2
33
2004
1
0
1-
E ( X ) = , entonces
V ( X ) = (1 ) 2 + (0 ) 2 (1 ) = (1 ) [(1 ) + ] = (1 ).
Proposicin: V ( X ) = E ( X 2 ) (E ( X ) ) .
2
Dem:
) (x
) 2 p X ( x) =
xp
( x) + X2
V (X ) = E (X X )2 =
=
xR X
xR X
p X ( x) 2 X
xR X
(x
xR X
xR X
2 X x + X2 p X ( x) =
( x) = E ( X 2 ) 2 X E ( X ) + X2 =
= E ( X 2 ) 2 X2 + X2 = E ( X 2 ) X2 = E ( X 2 ) (E ( X ) ) .
2
p X (k ) = (1 p) k 1 p
Hemos demostrado que E ( X ) =
k N
1 p
1
. Demostraremos ahora que V ( X ) =
.
p
p2
Calculemos E ( X 2 ).
k =1
k =1
k =1
k =1
k =1
= (k + 1)kp(1 p) k 1 k p (1 p ) k 1 = (k + 1)kp(1 p) k 1 E ( X ) =
2
1
1
= p (k + 1)k (1 p ) k 1 = p 2 (1 p ) k +1 =
p
k =1
k =1 p
p
34
=p
1
1
2
2
k +1
(
1
)
(1 p ) j =
p
p
2
2
p j = 2
p k =1
p
p
=p
1
2
1
2
1
(
1
p
)
p
p
p 2 1 (1 p )
p 2
=p
1
1
2
1
2
1
2 + 1 = p 3 = 2
p p
p p
p
p
p
1
p 2+
2004
1
p =
p
Entonces,
V ( X ) = E ( X 2 ) (E ( X ) ) =
2
2
1
1
1
1 (1 p )
2 = 2 =
2
p p
p
p
p
p2
aX +b = a X .
V (h( X )) =
xR X
p X ( x).
Entonces,
V (aX + b) =
xR X
(ax aE ( X ))
xR X
p X ( x) =
p X ( x) =a
(ax + b aE ( X ) b))
xR X
(x E ( X ) )
xR X
p X ( x) =
p X ( x) = a 2V ( X )
y, por lo tanto, aX + b = a X .
35
2004
2
En particular, observemos que aX
= a 2 X2 y X2 +b = X2 , y por lo tanto un cambio de
escala afecta la varianza pero una traslacin no la afecta.
36
2004
P ( B2 | B1 ) =
4
5
P ( B2 ) =
7
8
37
2004
E2
...3
E1
F2
...3
F
1
nk
n
secuencias posibles conteniendo k xitos, entonces
k
n
P ( X = k ) = p X (k ) = p k (1 p) n k
k {0,1,..., n}
k
n
Verifiquemos que
p
k =0
(k ) = 1. En efecto,
n
n k
n
p (1 p ) n k = ( p + (1 p ) ) = 1n = 1.
p
(
k
)
=
X
k =0
k =0 k
n
k a
k =0
b nk .
0
[ x ] n k
FX ( x) = p (1 p) n k
k =0 k
1
si x < 0
si 0 x n
si x > n
10 1 5
P ( X = 4) = = 0.054
4 6 6
4
10 1 5
P (3 X 5) =
k = 3 k 6 6
5
10 k
38
2004
E ( X ) = np
V ( X ) = np(1 p)
Dem: En el caso n=1, X es una v.a. Bernoulli y ya hemos demostrado que en este caso,
E(X)=p y V(X) = p(1-p). Sea ahora n>1,
n
n
n
n
n
n!
E ( X ) = k p k (1 p ) n k = k p k (1 p ) n k = k
p k (1 p) n k =
k
k
k!
(n
k)!
k =0
k =1
k =1
n!
(k 1)!(n k )! p
k =1
(n 1)!
p k 1 (1 p ) n k =
k =1 ( k 1)! ( n k )!
n
(1 p) n k = np
n
n 1 n 1
n 1 k 1
j
n 1
p (1 p ) (n 1)(k 1) = np
p (1 p ) n 1 j = np ( p + (1 p) ) = np.
np
k
j
(
1
)
=
j
k =1 k 1
j =0
( )
( )
Recordemos que V ( X ) = E X 2 (E ( X ) ) = E X 2 n 2 p 2 .
2
n
n
n
n
E ( X 2 ) = k 2 p k (1 p) n k = (k (k 1) + k ) p k (1 p) n k
k =0
k =0
k
k
n
n
n
n
n
n
= k (k 1) p k (1 p) n k + k p k (1 p) n k = k (k 1) p k (1 p ) n k + E ( X )
k =0
k =0
k =2
k
k
k
= k (k 1)
k =2
n
n!
n!
p k (1 p ) n k + np =
p k (1 p ) n k + np
k!(n k )!
(
k
2
)!
(
n
k
)!
k =2
= n(n 1) p 2
k =2
= n(n 1) p 2
( k 2)= j
(n 2)!
p k 2 (1 p ) n k + np
(k 2)!(n k )!
n 2 j
p (1 p ) n 2 j + np = n(n 1) p 2 ( p + (1 p ) )n 2 + np
j
j =0
n2
= n(n 1) p 2 + np
39
2004
En realidad, para que la demostracin anterior sea vlida debe ser n 2, pero es
inmediato verificar que, si n=1, E ( X 2 ) = p y por lo tanto la expresin hallada es vlida
para todo n.
Finalmente,
V ( X ) = E ( X 2 ) (E ( X ) ) = n(n 1) p 2 + np n 2 p 2 = np 2 + np = np (1 p )
2
10
0.4
2
10
10
10
10
10
0.4
p(x)
0.4
0.0
0.0
8
Bi(10, 0.5 )
0.2
p(x)
0.4
0.2
6
x
4
x
Bi(10, 0.45 )
0.0
Bi(10, 0.4 )
10
0.0
0
0.4
p(x)
0.4
6
Bi(10, 0.35 )
0.0
4
4
x
0.2
p(x)
0.4
0.2
Bi(10, 0.3 )
0.0
p(x)
6
x
Bi(10, 0.25 )
0.2
p(x)
0
0.2
0.2
0.0
0.2
p(x)
0.0
0.2
p(x)
0.0
0
p(x)
Bi(10, 0.2 )
0.4
Bi(10, 0.15 )
0.4
Bi(10, 0.1 )
6
x
10
10
40
2004
0.6
2
10
0.6
4
10
10
25
0.6
0.6
p(x)
0.4
0.0
p(x)
0.0
5
20
Bi( 25 , 0.9 )
0.2
0.6
0.4
15
x
Bi( 10 , 0.9 )
0.2
3
x
0.0
0.4
p(x)
2
Bi( 5 , 0.9 )
25
0.0
0
20
0.2
0.6
0.4
p(x)
3
15
Bi( 25 , 0.5 )
0.0
2
10
x
0.2
0.6
0.4
0.2
Bi( 10 , 0.5 )
0.0
p(x)
6
x
Bi( 5 , 0.5 )
0.4
p(x)
0.0
0
0.4
0.2
0.2
0.4
p(x)
0.0
0.2
0.4
p(x)
0.2
0.0
0
p(x)
Bi( 25 , 0.1 )
0.6
Bi( 10 , 0.1 )
0.6
Bi( 5 , 0.1 )
6
x
10
10
15
20
25
41
2004
p X (k ) = (1 p ) k 1 p
k N .
0
FX ( x) =
[x ]
1 (1 p )
si x < 1
si x 1
E( X ) =
1
p
V (X ) =
(1 p )
p2
Ejemplo: Sea X: nmero de tiros hasta obtener el primer as en una sucesin de tiros de
un dado equilibrado, entonces X ~ G (1/6).
42
2004
15
P ( X = 7) = = 0.06
66
5
5
P ( X 6) = P( X > 5) = = 0.40
6
E( X ) =
1
=6
1/ 6
V (X ) =
5/6
(1 / 6)2
= 30
15
20
25
30
0.4
5
10
20
25
30
20
25
30
10
15
20
25
30
20
25
30
15
20
25
30
25
30
0.4
p(x)
0.4
0.0
p(x)
0.0
x
10
G( 0.5 )
0.2
0.4
0.2
15
30
G( 0.45 )
0.0
10
G( 0.4 )
25
0.0
0
20
0.4
p(x)
0.4
p(x)
15
15
G( 0.35 )
0.0
10
10
0.2
0.4
0.2
G( 0.3 )
0.0
p(x)
15
x
G( 0.25 )
0.2
p(x)
0
0.2
10
0.2
0.0
p(x)
0.2
0.0
p(x)
0.2
0.0
0
p(x)
G( 0.2 )
0.4
G( 0.15 )
0.4
G( 0.1 )
10
15
x
20
25
30
10
15
20
43
2004
k 1
.
r 1
k 1 r
p (1 p ) k r
P ( X = k ) =
r
1
k {r , r + 1, r + 2,....}
FX ( x) =
[ x ] k 1 r
p (1 p ) k r
k = r r 1
si x < r
si x r
5 1 7
P ( X = 5) =
4 1 10
3
= 0.29
10
44
k 1 7
P (5 X 7) =
k = 5 3 10
7
3
10
2004
k 4
= 0.49
E( X ) =
r
p
V (X ) =
r (1 p)
p2
Dem: Lo demostraremos ms adelante usando que una v.a. Binomial Negativa puede
expresarse como suma de v.a. Geomtricas independientes.
Observacin: Esta v.a. suele tambin definirse como el nmero de Fracasos antes de
obtener el r-simo xito. Si la denotamos X, entonces su rango ser
RX* = {0,1,2,...} = N {0}
y su funcin de probabilidad puntual:
r + x 1 r
p (1 p) x
p X * ( x) =
x
En este caso,
E( X * ) =
r (1 p)
r (1 p)
y V (X * ) =
p
p2
Ejemplo: De una urna que contiene 3 bolillas blancas y 7 negras se extraen 4 bolillas sin
reposicin y se define X: nmero de bolillas blancas extradas.
45
2004
3 7
1
. Por otro lado hay conjuntos
10
2 2
4
que contienen 2 bolillas blancas y 2 negras y, por lo tanto la probabilidad pedida ser:
3 7
2 2
3 21 3
P ( X = 2) = =
= .
210 10
10
4
Proposicin: Si X ~ H (n,N,D),
D N D
k n k
p X (k ) =
N
n
D N D
que contienen k
poblacin de tamao N es . De esos conjuntos, hay
k n k
n
xitos y (n-k) Fracasos y se obtiene la funcin de probabilidad. El rango de valores
posibles de k resulta de observar que se deben satisfacer tres condiciones:
0k n
kD
n-kN-D
E( X ) = n
D
N
D
N n D
V (X ) =
n 1
N
N 1 N
46
2004
N n
que aparece en la expresin de la varianza se
N 1
Observaciones: 1) El factor
n
e k
p X (k ) = p k (1 p ) n.k
k!
k
k N o = N {0}
Dem:
n
n!
p X (k ) = p k (1 p ) n k =
1
k!(n k )! n
n
k
k
n(n 1)...(n k + 1)
=
1 1
n
n
nk
n n 1 n k + 1
....
=
1 n 1 n
n
n n
n
nk
k
k!
k
k!
Observemos que:
n 1 n k +1
n
1
....
n
n
e
1 n
1
n
n
1
Entonces, p X (k )
e k
, como queramos demostrar.
k!
47
2004
Esta proposicin sugiere que la funcin de probabilidad puntual podra ser aproximada por
la funcin de probabilidad lmite, pero cundo se considera que n es grande y p es
pequeo para que la aproximacin sea buena?
Algunos autores sugieren n 100, p 0.01 y np 20.
En la siguiente tabla se presentan a modo de ejemplo, algunos valores exactos de la
probabilidad y su aproximacin para el caso X ~ Bi (100, 1/36)
k
0
1
2
5
8
9
10
Aproximacin
0.0622
0.1727
0.2399
0.0857
0.0055
0.0017
0.0005
p X (k ) =
e k
k!
k N o = N {0}
k .
k
e k
= e
= e e = 1,
k!
k =0
k = 0 k!
p X (k ) =
k =0
ya que
xk
es el desarrollo en serie de e x .
k
!
k =0
48
2004
P ( X = 2) =
e 5 5 2
= 0.084
2!
e 5 5 k
52
= e 5 1 + 5 +
k!
2
k =0
P ( X 2) =
=0.125
E( X ) =
V (X ) =
Dem:
E( X ) = k
k =0
e k e k e k
e k 1
e j
= k
=
=
=
= .
k!
k!
j!
k =1
k =1 (k 1)!
k =1 (k 1)!
j =0
E( X 2 ) = k 2
k =0
e k
e k
e k
e k
= (k (k 1) + k )
= k (k 1)
+ k
=
k!
k!
k!
k!
k =0
k =2
k =0
e j
e k 2
+ E ( X ) = 2
+ = 2 + .
(
)
k
j
2
!
!
k =2
j =0
= 2
Entonces
V ( X ) = E ( X 2 ) (E ( X ) ) = 2 + 2 = .
2
49
2004
0.3
p(x)
0.4
p(x)
10
15
20
0.0
0.1
0.2
0.0
0.0
10
15
20
10
lambda =3
lambda =5
10
15
20
15
20
30
40
0.05
0.10
p(x)
0.15
20
0.0
p(x)
0.0
0.10
0.0
0.10
0.20
0.20
x
lambda =2
15
10
15
lambda =10
lambda =15
20
10
x
lambda =20
p(x)
0.06
0.08
p(x)
0
10
15
x
20
25
30
0.0
0.0
0.0
0.02
0.04
0.08
0.04
p(x)
0.12
0.2
0.8
0.4
0.2
p(x)
0.6
lambda =0.5
p(x)
lambda =1
0.6
lambda=0.10
10
15
x
20
25
30
10
20
x
50
2004
En particular, si todos los intervalos son de igual longitud t1/n, la v.a. X t1 : nmero de
eventos que ocurren en el intervalo (0, t1 ) es casi binomial, siendo xito la ocurrencia
de un evento en cada uno de los subintervalos y p = P(xito)=probabilidad de que ocurra
un evento. Si el nmero de subintervalos es suficientemente grande y por lo tanto el p
suficientemente pequeo, por el resultado lmite que hemos probado, la variable X t1 tiene
distribucin de Poisson.
g ( h)
= 0.
h
51
2004
52
2004
f : + = [0, )
llamada funcin de densidad de la v.a. X tal que
P( X A) = f ( x)dx
53
2004
P(a X b) = f ( x)dx
a
y P( X = a ) = P(a X a ) = 0 a .
Propiedad: Para que una funcin f (x) sea una funcin de densidad, debe satisfacer
f ( x) 0 x
f ( x)dx = 1
Observacin: Notar que f (x) no es una probabilidad, de hecho puede ser mayor que 1.
Es simplemente el valor de una funcin en un punto.
Ejemplo: Sea
a x2
f ( x) =
0
si 1 x 3
en otro caso
si x A
si x A
1
I A ( x) =
0
a) Calcular el valor de la constante a .
x3
f
(
x
)
dx
=
1
a
x
dx
=
1
a
x
dx
=
1
1
1
3
=1 a
3
26
=1 a = .
3
26
P ( X 2) =
2
3 2
3 x3
f ( x)dx =
x dx =
26
26 3
2
=
2
27 8 19
= .
26
26
54
2004
F ( x) = P( X x) =
f (t )dt
Si x < 1 , F ( x) = P ( X x) =
f (t )dt = 0 dt = 0
3 2
3 t3
Si 1 x 3 , F ( x) = f (t )dt =
t dt =
26
26 3
1
x
Si x > 3, F ( x) =
f (t )dt =
1
=
1
x3 1
26
3 2
t dt =1
26
Resumiendo,
0
x3 1
F ( x) =
26
1
si x < 1
si 1 x 3
si x > 3
Observamos que se trata de una funcin continua, no decreciente que toma valores entre
0 y 1.
Propiedades de la funcin de distribucin acumulada: Sea X una v.a. continua,
55
2004
i) x , FX ( x) [0,1] .
ii) FX (x) es montona no decreciente, es decir que si x1 < x 2 FX ( x1 ) FX ( x 2 ).
iii) FX (x) es continua en todo punto.
iv) lim FX ( x) = 1
x
lim FX ( x) = 0
x -
Observemos que las propiedades i), ii) y iv) ya las hemos demostrado en general al
considerar las v.a. discretas. Respecto a la propiedad iii), en el caso discreto probamos
que la funcin de distribucin es continua a derecha en todo punto, mientras que en este
caso es continua en todo punto.
Proposicin: Sean a y b tales que a b , entonces
P(a X b) = P(a < X b) = P(a X < b) = P(a < X < b) = F (b) F (a) .
Dem: Resulta inmediatamente del hecho que, si X es continua, P( X = x) = 0
Proposicin: Si X es una v.a. continua con funcin de densidad f (x) y funcin de
distribucin acumulada F ( x) , entonces en todo punto donde F ( x) es derivable,
F ' ( x) =
F ( x)
= f ( x)
x
Distribucin Uniforme:
Definicin: Se dice que X tiene distribucin Uniforme en el intervalo [A,B ], si su funcin de
densidad es
f ( x) =
1
I [ A, B ] ( x )
BA
56
2004
Si x < A F ( x) =
f (t )dt = 0 dt = 0 .
t
1
Si A x B F ( x) = f (t ) dt =
dt =
BA
BA
A
x
1
t
Si x > B F ( x) = f (t )dt =
dt =
BA
BA
=
A
=
A
xA
.
BA
BA
= 1.
BA
Resumiendo,
x A
F ( x) = B A
si x < A
si A x B
si x > B
57
2004
Percentiles de una distribucin continua: Sea X una v.a. continua con funcin de
densidad f (x) y funcin de distribucin acumulada F (x) y sea 0 < p < 1. El percentil
(100 p)-simo de la distribucin de X es el valor xp tal que
xp
F ( x p ) = P( X x p ) =
f (t )dt = p
3 2
x I [1,3] ( x) .
26
Su funcin de
0
x3 1
F ( x) =
26
1
si x < 1
si 1 x 3
si x > 3
tal que
x 03.25 1
1/ 3
F ( x 0.25 ) = 0.25
= 0.25 x 0.25 = (0.25 26 + 1) = 1.96
26
2) Sea X ~ U (A,B). Su funcin de distribucin est dada por
58
si x < A
x A
F ( x) = B A
si A x B
si x > B
F ( x 0.50 ) = 0.50
2004
tal que
x 0.50 A
A+ B
= 0.50 x 0.50 = 0.50( B A) + A =
.
BA
2
E( X ) = X =
x f ( x)dx
siempre que
1
x2
E ( X ) = x f ( x)dx = x
dx =
BA
2( B A)
B 2 A2 A + B
=
=
.
2( B A)
2
E (h( X )) = h( x) f ( x)dx
59
2004
si
h( x) f ( x)dx < .
E (h( X )) = h( x) f ( x)dx =
(ax + b) f ( x)dx = a x
f ( x)dx + b f ( x)dx = aE ( X ) + b .
Ejemplo: Dos especies compiten en una regin para controlar una limitada cantidad de
cierto recurso. sea X: proporcin del recurso controlada por la especie 1. Supongamos
que X ~ U (0,1), es decir
1
f ( x) =
0
si x [0,1]
si x [0,1]
Este modelo de asignacin de recursos se denomina broken stick o vara rota ya que es
anlogo a quebrar una vara en un punto aleatorio. La especie que controla la mayora del
recurso, controla la cantidad.
1 X
Sea h( X ) = max ( X ,1 X ) =
X
si 0 X <
si
1
2
1
X 1
2
El valor esperado para la cantidad controlada por la especie que ms controla es:
1/ 2
1/ 2
x2
x2
+
(1 x) dx + x dx = x
2 0
2
1/ 2
1
1/ 2
(1 x) f ( x)dx +
1/ 2
=
1/ 2
x f ( x)dx =
1 1 1 1
1 3
+ =1 = .
2 8 2 8
4 4
60
V (X ) =
2
X
2004
= E ( X X ) = ( x X ) 2 f ( x)dx
2
y el desvo standard de X, es X = + V ( X ) .
Proposicin: V ( X ) = E ( X 2 ) (E ( X ) ) .
2
Dem:
V ( X ) = E (( X X ) ) = ( x X ) f ( x) dx = ( x 2 2 x X + X2 ) f ( x) dx =
2
2
x f ( x)dx 2 X
2
x f ( x)dx + X
f ( x)dx = E ( X
) 2 X X + X2 = E ( X 2 ) X2
A+ B
, es decir el punto
2
2
medio del intervalo. Hallemos la varianza de X. Como V ( X ) = E ( X 2 ) (E ( X ) ) ,
necesitamos calcular E ( X 2 ).
Ejemplos: Sea X ~ U (A,B), hemos demostrado que E ( X ) =
1
x3
E ( X ) = x f ( x)dx = x
dx =
B-A
3( B A)
A
2
B 3 A 3 ( B A)( B 2 + AB + A 2 )
=
=
=
3( B A)
3( B A)
( B 2 + AB + A 2 )
3
Entonces,
V ( X ) = E ( X 2 ) (E ( X ) ) =
2
( B 2 + AB + A 2 ) A + B
=
3
2
2
4( B 2 + AB + A 2 ) 3( A 2 + 2 AB + B 2 ) B 2 2 AB + A 2 ( B A) 2
=
=
.
12
12
12
61
Por lo tanto, V ( X ) =
2004
( B A) 2
.
12
Propiedad de la varianza y del desvo standard: Sea X una v.a. continua con densidad
f (x) ,
V (aX + b) = a 2V ( X )
aX +b = a X .
V (h( X )) =
entonces, si h( x) = ax + b,
V (aX + b) =
(h( x) E (h( X ))
f ( x)dx
2
2
[(ax + b) E (aX + b)] f ( x)dx = [ax + b aE ( X ) b] f ( x)dx =
2
2
2
2
[ax aE ( X )] f ( x)dx = a [x E ( X )] f ( x)dx = a V ( X ),
62
2004
f ( x) =
1
I [ A, B ] ( x )
BA
Notacin: X ~ U (A,B).
Su funcin de distribucin acumulada est dada por:
0
x A
F ( x) =
B A
1
si x < A
si A x B
si x > B
E( X ) =
A+ B
2
V (X ) =
( B A) 2
.
12
f ( x) =
1
2
2
1 x
2
e 2
(1)
Notacin: X ~ N (, 2).
El grfico de la funcin de densidad normal tiene forma de campana con eje de simetra
en x = y puntos de inflexin en x = + y x = - .
63
2004
0.8
Densidades Normal
0.0
0.2
0.4
0.6
N(0,1)
N(0,1/4)
N(0,2)
N(0,4)
-4
-2
64
2004
f( x)= f( + x)
En efecto,
f( x)=
f( + x)=
1 ( x )2
2 2
1 ( + x )2
2 2
x2
2 2
x2
2 2
2
(x )2
1 (x )
2
1
f ( x )
1
1
2
=
e 2
e 2
(x)=0
=0
x
x 2
2
( x ) = 0 x = .
Ejercicio: Verificar que la derivada segunda en x = es menor que 0 y por lo tanto se trata
de un mximo y que la densidad tiene dos puntos de inflexin en x = + y x = - .
65
2004
1
2
2
z
2
e
2
t
z 1
( z ) = F ( z ) =
e 2 dt
2
Esta funcin est tabulada, ya que su integral no tiene una expresin analtica conocida.
Ejemplo: Z ~ N (0,1),
P(Z 1.25) = (1.25) = 0.8944
P(Z > 1.25) = 1 - P(Z 1.25) = 1 - (1.25) = 1 - 0.8944 = 0.1056
P(-0.38 Z 1.25) = (1.25) - (-0.38) = 0.5424
Percentiles de la distribucin Normal Standard: Sea 0 < p < 1, el percentil (100 p)simo de la distribucin normal standard es el valor z tal que
( z ) = p,
es decir, es el valor que deja a su izquierda un rea igual a p.
Ejemplo: Z ~ N (0,1), el percentil 99 de la distribucin es 2.33 ya que (2.33) = 0.99 .
66
2004
~ N (0,1)
FZ ( z ) = P( Z z ) = P
z = P( X z + ) = FX ( z + )
fZ ( z ) =
FZ ( z ) =
F ( z + ) = f X ( z + ) =
z
z X
1
2
1
2
2
( z + )
2 2
=
e
2
z
e 2
xp = zp +
Dem: El 100 p-simo percentil de X es el valor x p tal que F ( x p ) = p .
X xp
x
= p p
F ( x p ) = p P( X x p ) = p P
= p
xp
= zp xp = zp + .
67
2004
E( Z ) =
zf ( z )dz = z
z2
2
dz = 0
V ( Z ) = E( Z ) ( E( Z )) = E( Z ) =
2
1
2
z2
2
dz =
1
2
ze
z2
2
dz
u=z
dv =
ze
z2
2
du = dz
dz
v=
1
2
z2
2
se obtiene
V( Z ) =
1
2
ze
z2
2
1
2
z2
2
z2
dz = lim
ze 2
M
2
+ 1 .
M
1
lim
M
2 M 2
e 2
1
1
= lim
=0
2
M
M
2
2
Me
1
M
lim
M 2 M 2
e 2
1
= lim
=0
M2
M 2
Me 2
68
2004
~ N (0,1) .
X
= 0 , por linealidad de la esperanza,
Como E ( Z ) = E
(E ( X ) ) = 0 E ( X ) = .
X
= 1 , por propiedades de la varianza,
Como V ( Z ) = V
V (X ) =1V (X ) = 2 .
( ) = x 1 e x dx
0
Propiedades:
1) Si > 1, ( ) = ( 1) ( 1)
2) Si N, ( ) = ( 1)!
1
2
3) =
Dem: 1) Sea > 1. Aplicando integracin por partes con u = x 1 y dv = e x dx ,
69
( ) = x 1 e x dx = x 1 e x
0
2004
+ ( 1) x 2 e x dx =
0
M 1
+ 0 + ( 1 ) x ( 1 )1 e x dx = 0 + 0 + ( 1 )( 1 ) = ( 1 )( 1 ).
M e M
0
= lim
2) Ejercicio.
3)
1
= x 2 e x dx = x 2 e x dx
2 0
0
2
2x
dx .
Entonces,
u2
u2
u2
1
1
1
= 2 e 2 du = 2 e 2 du =
e 2 du = ,
2
2 0
2
e x x 1
I
( x)
(0, )
( )
Notacin: X ~ ( , ) o bien X ~ G ( , ).
En el siguiente grfico se muestra la densidad correspondiente a X ~ G ( , ) para
distintos valores de los parmetros.
70
2004
1.0
Densidades Gamma
0.0
0.2
0.4
0.6
0.8
G(1,1)
G(2,3)
G(2,1/2)
G(2,1)
10
f ( x) =
e x x 1
( )
I (0,) ( x )
71
2004
1.0
0.0
0.2
0.4
0.6
0.8
G(1,1)
G(2,1)
G(5,1)
10
y V (X ) = 2 .
Dem:
e x x 1
e x x
e x x ( +1)1
E( X ) = x
dx =
dx =
dx =
( )
( )
( )
0
0
0
( )
( + 1) e x x ( +1)1 +1
dx =
= .
( ) 0
( )
( + 1)
72
2004
2 e x x 1
e x x +1
e x x + 2 1
2
E(X ) = x
dx =
dx =
dx =
( )
( )
( )
0
0
0
( + 1) ( ) = ( + 1) .
( + 2) e x x + 21 + 2
dx =
2
( + 2)
2 ( )
2
( ) 0
( + 1)
= 2 + 2 2 = 2 , como queramos demostrar.
P ( X x) = P(X x ) = FX (x)
Observacin: Algunos autores, por ejemplo J. Devore, utilizan otra parametrizacin de la
distribucin Gamma, definiendo como segundo parmetro de la distribucin a 1/. es
decir: X ~ ( , ) si su funcin de densidad est dada por
1
x
f ( x) =
I
( x)
( ) (0,)
e
En este caso, E ( X ) = y V ( X ) = 2 .
73
2004
1.0
Densidades Exponencial
0.0
0.2
0.4
0.6
0.8
E(1)
E(2)
E(1/2)
10
F ( x) =
1 e x
si x 0
si x > 0
En efecto, si x > 0,
x
x
F ( x ) = e t dt = e t = e x + 1,
0
0
como queramos demostrar.
Proposicin: Si X ~ (), entonces E ( X ) =
y V (X ) =
74
2004
P(5 X 10) = F (10) F (5) = 1 e 5 1 e 5 = e 1 e 2 = 0.233.
75
FT (t ) = 1 P( X t = 0) = 1
2004
e t (t ) 0
= 1 e t ,
0!
y por lo tanto
F ( x) =
1 e x
si x 0
si x > 0
es decir, T~ ().
Ejercicio: Demostrar que el tiempo de espera hasta la segunda ocurrencia del evento
tiene distribucin (2, ).
76
2004
E( X k )
siempre que la esperanza exista.
Notemos que
E( X ) =
E( X 2 ) = 2 + 2
E( X 3 )
E( X 4 )
tx
e p X ( x)
xR X
M X (t ) = E (e tX ) =
tx
e f X ( x)dx
si X es discreta
si X es continua
E( X n ) =
n
M X (t )
t n
t =0
77
2004
g (t ) = e p( x)
tx
g (t ) = e tx f ( x)dx
converge para todo t ( h, h) para algn h > 0 , entonces existen las derivadas de orden
n de g(t) para todo t ( h, h) y para todo n entero positivo y se obtienen como
n g (t )
n e tx
=
x t n p( x)
t n
n g (t )
n e tx
=
t n f ( x)dx
t n
n M X (t ) n e tx
=
f ( x)dx
n
t n
n M X (t ) n tx
= x e f ( x)dx
t n
n M X (t )
= x n p ( x) = E ( X n )
n
t
x
t =0
n M X (t )
t n
=
t =0
f ( x)dx = E ( X n )
Ejemplos: 1) Sea X una v.a. con distribucin exponencial de parmetro , o sea con
densidad
f X ( x ) = e x I ( 0, ) ( x)
M X (t ) = E (e ) = e e
tX
tx
dx = e
0
( t ) x
dx =
( t ) e
t
0
( t ) x
dx =
78
M X (t )
t
E( X ) =
=
t =0
2004
=
t t t = 0 ( t ) 2
=
t =0
Como V ( X ) = E ( X 2 ) (E ( X ) ) , calculemos E ( X 2 ).
2
E( X 2 ) =
entonces, V ( X ) =
2 M X (t )
t 2
=
=
t =0
t ( t )2
2 ( t )
=
( t ) 4
t =0
=
t =0
2) Sea X una v.a. con distribucin Binomial de parmetros, n y p, o sea X ~ Bi(n, p). Su
funcin de probabilidad puntual es
n
p X (k ) = p k (1 p) n k
k
si 0 k n
n
n
n t k
tX
t k n
k
nk
(e p) (1 p) n k = (e t p + 1 p) n .
=
=
=
M X (t ) E (e ) e p (1 p)
k =0
k =0 k
k
E( X ) =
M X (t )
t
E( X 2 ) =
(e t p + 1 p ) n
t
=
t =0
2 M X (t )
t 2
=
t =0
( )
= n(n 1)(e t p + 1 p) n 2 pe t
= n(e t p + 1 p) n 1 pe t
t =0
n(e t p + 1 p) n 1 pe t
t
+ n(e t p + 1 p) n 1 pe t
t =0
= np .
=
t =0
= n(n 1) p 2 + np.
0
79
2004
Distribucin
Bi(n,p)
P()
M X (t )
(e p + 1 p ) n
(et 1)
t
N(, )
2
2 t 2 + t
e
E()
G(,)
U(a,b)
e tb e ta
G(p)
t (b a )
p et
1 (1 p ) e t
BN(r,p)
p et
1 (1 p ) e t
80
2004
A pesar de que fue en la dcada del 40 que las primeras computadoras modernas fueron
desarrolladas, la simulacin ya exista en forma embrionaria an antes de que la
computadora apareciera en escena. As, por ejemplo, en la segunda mitad del siglo XIX,
se realizaban experiencias arrojando agujas al azar sobre una superficie reglada con el fin
de estimar el nmero . En 1908 W. S. Gosset, bajo el seudnimo de Student, realizaba
un muestreo experimental con el fin de descubrir la distribucin de un estimador de la
correlacin en una distribucin normal bivariada. En ese momento los nmeros aleatorios
se generaban mediante mtodos observacionales (mecanismos fsicos) tales como tirar
un dado, extraer una carta de un mazo o mediante una ruleta.
Dado el esfuerzo que significaba generar nmeros aleatorios cada vez que eran
necesarios, parece razonable que se hayan construido tales nmeros y luego tabulado.
Tippett (1927) public una tabla con 41600 nmeros aleatorios tomados en forma
aleatoria de informes censales. Cada nmero era uno de los enteros 0, 1, 2, 3, 4, 5, 6, 7,
8, 9 y el usuario tomaba varios de ellos y agregaba un punto decimal para formar un
nmero aleatorio entre 0 y 1. Desde ese momento fueron propuestos una serie de
generadores de nmeros aleatorios. La primera mquina fue usada en 1939 por Kendall y
Babington-Smith con el fin de producir una tabla de 100000 dgitos aleatorios y en 1955 la
RAND Corporation utiliz extensamente una tabla de 1000000 dgitos aleatorios que fue
obtenida a partir de una ruleta electrnica especialmente diseada. ERNIE fue una
famosa mquina de nmeros aleatorios que fue usada por la lotera britnica, es decir la
British Premium Savings Bonds Lottery.
Poco despus de la aparicin de las computadoras, se comenz a buscar maneras
eficientes de obtener nmeros aleatorios, pues an cuando se podan usar las tablas
existentes ste era un recurso limitado, ya sea por el espacio de memoria necesario como
81
2004
por resultar, en algunos casos, cortas. Si bien mquinas como ERNIE podran haber
trabajado junto con una computadora, una solucin en la que la computadora provee todo
pareca ms satisfactoria. La bsqueda se orient, entonces, a la produccin de nmeros
aleatorios usando operaciones aritmticas en una computadora. John von Neumann
sugiri en un principio, alrededor de 1946, usar el mtodo del cuadrado medio. Su idea
era calcular el cuadrado del nmero aleatorio anterior y tomar los dgitos del medio del
nmero calculado. As, por ejemplo, si queremos generar un nmero aleatorio de 10
dgitos y el nmero anterior es
5772156649
33317792380594909201
6100**2 = 37210000
2100**2 = 4410000
4100**2 = 16810000
8100**2 = 65610000
Metrpolis realiz muchas pruebas con los nmeros del middle-square, en especial con
sistemas de nmeros binarios. Mostr que en secuencias de 20 dgitos, hay 13 ciclos
diferentes en los que la secuencia puede caer, el ms largo de los cuales tiene longitud
82
2004
142. Estas falencias del middle-square son algunas de las consideraciones que
debemos hacer ante un generador de nmeros aleatorios.
En principio consideraremos mtodos para generar nmeros con distribucin uniforme en
el intervalo (0,1). sto podemos lograrlo generando enteros Xn entre 0 y un nmero
natural m y luego tomando la fraccin:
Un =
Xn
m
X n +1 (aX n + c)
mod m,
n0
sto muestra que la eleccin de los nmeros m, a y c es crucial y que siempre se caer
en un loop, es decir en un ciclo de repeticiones, que se llama perodo. Es claro que cuanto
ms grande sea m, mayor es la posibilidad de que el perodo sea largo.
En realidad, las distintas elecciones de los parmetros son sometidas a una batera de
tests con los que se chequean las propiedades de los nmeros generados.
83
2004
FU (u ) =
si u 0
u
1
si 0 < u < 1
si u 1
FX ( x ) = P ( X x ) = P (G 1 (U ) x ) = P (U G ( x )) = FU (G ( x )) = G ( x )
con lo que queda demostrado el teorema.
Ejemplo: En el caso de una variable X ~ E ( ) , la funcin de distribucin acumulada es
de la forma
si x 0
FX ( x) =
1 e x
si x > 0
FX ( y ) =
ln(1 y )
Luego, si U ~ U (0,1) ,
ln(1 U ) ~ E ( )
84
2004
X =
0
si 0 < U p
si p < U 1
En efecto, la nueva variable X toma slo dos valores (0 y 1) y dado que p (0,1)
P( X = 1 ) = P( U p ) = p
y por lo tanto X tiene la distribucin deseada.
Notemos que en lugar del intervalo ( 0 , p ] podramos haber tomado cualquier intervalo en
(0,1) de longitud p .
85
2004
Vectores aleatorios
Hasta ahora hemos estudiado modelos de probabilidad para una nica variable aleatoria.
Sin embargo, en muchos casos interesa construir modelos que involucren a ms de una
variable. Consideraremos inicialmente el caso de vectores aleatorios bidimensionales y
luego extenderemos las definiciones y propiedades a vectores de dimensin mayor que 2.
Definicin: Sean X e Y v.a. discretas definidas sobre un espacio muestral S. La funcin
de probabilidad conjunta del par (X,Y), pXY(x,y) se define como
p XY ( x, y ) = P ( X = x, Y = y )
El conjunto R XY = {( x, y ) / x R X , y RY } es el recorrido o rango del vector aleatorio (X,Y).
Dado cualquier conjunto A 2 ,
P (( X , Y ) A) =
( x, y ) A
p XY ( x, y )
p XY ( x, y ) 0
p
x
XY
( x, y )
( x, y ) = 1
Ejemplos: 1) De una urna que contiene 6 bolillas blancas y 4 negras se extraen sin
reposicin 3 bolillas. Se definen
X: nmero de bolillas blancas extradas
1
Y =
0
Hallemos la funcin de probabilidad conjunta del vector (X,Y). Observemos que los
posibles valores de X son 0, 1, 2 y 3 , y los posibles valores de Y son 1 y 0. Podemos
resumir la informacin en una tabla de la forma siguiente:
X
Y
0
1
0
1/30
0
1
0
9/30
2
15/30
0
3
0
5/30
86
2004
En efecto,
1
1
+0=
30
30
9
9
=
p X (1) = p XY (1,0) + p XY (1,1) = 0 +
30 30
15
15
+0=
p X (2) = p XY (2,0) + p XY (2,1) =
30
30
5
5
=
p X (3) = p XY (3,0) + p XY (3,1) = 0 +
30 30
p X (0) = p XY (0,0) + p XY (0,1) =
Respecto a p Y ( y ),
1
15
16
pY (0) = p XY (0,0) + p XY (1,0) + p XY ( 2,0) + p XY (3,0) =
+0+
+0=
30
30
30
9
5 14
+0+
=
pY (1) = p XY (0,1) + p XY (1,1) + p XY (2,1) + p XY (3,1) = 0 +
30
30 30
Observemos que las funciones de probabilidad marginal se obtienen sumando sobre filas
o columnas las funciones de probabilidad conjunta contenidas en la tabla, de ah su
nombre.
87
X
Y
0
1
p X (x )
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
2004
pY ( y )
3
0
5/30
5/30
16/30
14/30
1
Definicin: Sea (X,Y) un vector aleatorio discreto con funcin de probabilidad conjunta
pXY(x,y), la funcin de distribucin acumulada conjunta de (X,Y) est dada por
( x, y ) 2
F XY ( x, y ) = p XY ( s, t )
s x t y
P(( X , Y ) A) = f XY ( x, y ) dx dy
A 2
En particular, si A = [a , b ] [c, d ] ,
b d
P (( X , Y ) A) = f XY ( x, y ) dy dx .
a c
f XY ( x, y ) 0
( x, y )
XY
( x, y ) dx dy = 1
Ejemplo: 1) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
k x + y 2
f XY ( x, y ) =
0
si 0 x 1, 0 y 1
en otro caso
88
2004
2
2
=
+
=
f
(
x
,
y
)
dx
dy
k
x
y
dx
dy
k
- XY
0 0
0 0 x + y dx dy =
1=
1
y y3
x2
5
1
1 1
2
2
= k + = k
= k
+ xy dy = k + y dy = k +
2
2
6
2 3
0
2 3 0
0
0
1
y, por lo tanto, k =
6
.
5
b) Calcular P 0 X
1
1
, 0 Y .
4
4
1
1
P 0 X , 0 Y =
4
4
6
=
5
=
1/ 4
1/ 4 1/ 4
6
6
x + y 2 dx dy =
5
5
1/ 4
1/ 4
x2
+ x y 2 dy =
0
2
1/ 4
1 2
6 1
1 y3
6 1
1
1 6 1
1
1
=
+
+ y dy = y +
+
=
=
5 32
4 3 0
5 32 4 4 64 3 5 128 768
16 2 4
6 7
7
=
5 768 640
89
2004
f XY ( x, y ) = k ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}.
1
1
, Y .
2
2
c) Hallar P ( X Y ).
b) Hallar P X
1 x
1 = f XY (x, y) dx dy = k (x + 2y) dy
0 0
a)
= k
0
dx =k ( xy + y 2 )
1- x
0
dx =
x2
1
= k k = 2
x(1 x) + (1 x) dx = k (1 x) dx = k x
2 0
2
1
1
b) P X , Y =
2
2
1/ 2 1/ 2
1/ 2
2 ( x + 2 y) dy dx = 2 ( xy + y
0
1/ 2
0
x 1
dx = 2 + dx =
2 4
0
1/ 2
1/ 2
x2 x
1 1 6 3
= 2
+ = 2 + = =
16 8 16 8
4 4 0
90
1/ 2
c)
P( X Y ) =
2004
1/ 2
1 x
1 x
2( x + 2 y ) dy dx = 2 ( xy + y 2 ) dx =
x
0
x
1/ 2
1/ 2
1/ 2
x2
x3
= 2 x(1 x) + (1 x) 2 x 2 x 2 dx = 2 1 x 2 x 2 dx = 2 x
2 =
2
3 0
0
0
1 1 1 14 7
=
= 2 =
2 8 12 24 12
91
si ( x, y ) A
si ( x, y ) A
k
( X , Y ) ~ U ( A) f XY ( x, y ) =
0
Es inmediato verificar que k =
2004
1
, pues
rea ( A)
1 = k dx dy = k dx dy = k rea( A) .
A
P(( X , Y ) B ) =
rea ( A B)
rea ( A)
B 2 .
Definicin: Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
f XY ( x, y ) , la funcin de distribucin acumulada conjunta de (X,Y) est dada por
x y
FXY ( x, y ) =
XY
( s, t ) dt ds
( x, y ) 2
Definicin: Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
f XY ( x, y ) , las funciones de densidad marginal de X e Y estn dadas por
f X ( x) =
XY
( x, y ) dy
XY
( x, y ) dx
f Y ( y) =
Ejemplos: 1) Sea (X,Y) un vector aleatorio continuo con funcin de densidad conjunta
6
x + y2
f XY ( x, y ) = 5
0
si 0 x 1, 0 y 1
en otro caso
92
2004
Sea x [0,1] ,
1
y3
6
6
1
6
= x + .
f X ( x) = ( x + y 2 ) dy = xy +
5
3 0 5
3
5
0
1
Entonces, f X ( x) =
6
1
x + I [0,1] ( x).
5
3
6
6 x2
61
2
f Y ( y ) = ( x + y ) dx =
+ xy 2 = + y 2 .
5
5 2
0 52
0
1
Entonces, f Y ( y ) =
61
2
+ y I [0,1] ( y ).
52
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}.
Si x [0,1], f X ( x ) = 0 pues para esos valores de x la densidad conjunta f XY ( x, y ) = 0 .
Sea x [0,1] ,
1 x
f X ( x) =
2( x + 2 y) dy = 2 (xy + y )
2 1 x
0
93
1 y
f Y ( y) =
2004
1 y
(1 y ) 2
x2
= 2
+ 2(1 y ) y = 1 + 2 y 3 y 2 .
2( x + 2 y ) dx = 2
+ 2 xy
0
2
2
Entonces, f Y ( y ) = (1 + 2 y 3 y 2 ) I [0,1] ( y ).
Definicin: Sea (X,Y) un vector aleatorio discreto con funcin de probabilidad conjunta
pXY(x,y) y marginales pX(x) y pY(y), y sea x tal que pX(x) > 0, la funcin de probabilidad
condicional de Y dado X = x est dada por
pY | X = x ( y ) =
p XY ( x, y )
.
p X ( x)
Del mismo modo, sea y tal que pY(y) > 0, la funcin de probabilidad condicional de X
dado Y = y est dada por
p X |Y = y ( x) =
p XY ( x, y )
.
pY ( y )
Se puede verificar que, en efecto estas funciones son funciones de probabilidad ya que,
por ejemplo, pY | X = x ( y ) satisface
pY | X = x ( y ) 0 para todo y
Y |X =x
( y) = 1
p
y
Y|X =x
( y) =
y
p XY ( x, y )
1
1
=
p XY ( x, y ) =
p X ( x ) = 1.
p X ( x)
p X ( x) y
p X ( x)
94
0
1
2
pX(x)
Y
2
0
0
1/16
1/16
3
0
2/16
0
2/16
4
1/16
2/16
0
3/16
X
5
2/16
2/16
0
4/16
2004
pY(y)
6
3/16
0
0
3/16
7
2/16
0
0
2/16
8
1/16
0
0
1/16
9/16
6/16
1/16
1
pY | X = 4 (0) =
p XY (4,0) 1 / 16 1
=
=
p X (4)
3 / 16 3
pY | X = 4 (1) =
p XY (4,1) 2 / 16 2
=
=
p X (4)
3 / 16 3
pY | X = 4 (2) =
p XY (4,2)
0
=
=0
p X (4)
3 / 16
y
pY | X = 4 ( y )
0
1/3
1
2/3
2
0
y
pY | X =3 ( y )
0
0
1
1
2
0
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
Y .
siendo T = {( x, y ) / 0 x 1, 0 y 1 x}, deseamos hallar P X
2
4
95
2004
1
1
P X , Y
1
1
2
4
P X Y =
1
4
2
P Y
4
Por un lado,
1
1
P X , Y =
2
4
1/ 4
=2
0
1/ 4 1/ 2
1/ 4
2( x + 2 y) dx dy = 2
0
1/ 2
x2
+ 2 xy dy =
2
0
1/ 4
1
y2
1 1
1
1
= 2 + =
+ y dy = 2 y +
2 0
8
32 32 8
8
y, por otro
P Y =
4
1/ 4
(1 + 2 y 3 y
) dy = ( y + y 2 y 3 )
1/ 4
0
1 1
1 19
.
+
=
4 16 64 64
Entonces,
1
1 1/ 8
8
= .
P X Y =
2
4 19 / 64 19
1
1
f Y | X = x ( y) =
f XY ( x, y )
.
f X ( x)
Del mismo modo, sea y tal que fY(y) > 0, la funcin de densidad condicional de X dado
Y = y est dada por
96
2004
f XY ( x, y )
.
f Y ( y)
f X |Y = y ( x) =
Se puede verificar que, en efecto estas funciones son funciones de densidad ya que, por
ejemplo, f Y | X = x ( y ) satisface
f Y | X = x ( y ) 0 para todo y
Y|X =x
( y )dy = 1
f Y | X = x ( y ) dy =
f XY ( x, y )
1
1
dy
=
f XY ( x, y ) dy =
f X ( x) = 1.
f X ( x)
f X ( x)
f X ( x)
1
1
P X Y = =
2
4
1/ 2
X |Y =1 / 4
( x) dx
f X |Y =1 / 4 ( x) =
f XY ( x,1 / 4) 2( x + 2 / 4) I ( 0,3 / 4) ( x) 32
1
=
= x + I ( 0,3 / 4) ( x) .
1 3
f Y (1 / 4)
21
2
1+
2 16
1
1
P X | Y = =
2
4
1/ 2
1/ 2
32
1
32 x 2 x
32 1 1 4
+ = + = .
x + dx =
21
2
21 2 2 0
21 8 4 7
97
2004
Luego, para probar que dos variables discretas no son independientes, es suficiente con
exhibir un punto
,
en el que
,
.
Caso 2: Si el vector (X,Y) es continuo y
,
98
X
Y
0
1
p X ( x)
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
3
0
5/30
5/30
2004
pY ( y )
16/30
14/30
1
p XY (0,1) = 0
1 14
= p X (0) pY (1).
30 30
f XY ( x, y ) = f X ( x) f Y ( y ) = e x e y I ( 0, ) ( x) I ( 0, ) ( y ) =
= 2 e ( x + y ) I ( 0, ) ( x) I ( 0, ) ( y ).
E (h( X )) = h( x) p X ( x)
E (h( X )) = h( x) f X ( x) dx
E (h( X , Y ) ) = h( x, y ) p XY ( x, y )
x
99
2004
E (h( X , Y ) ) =
h ( x, y ) f
XY
( x, y ) dx dy
E (aX + bY ) = aE ( X ) + bE (Y )
E (h( X , Y )) =
h( x, y) f XY ( x, y) dx dy = (ax + by) f XY ( x, y) dx dy =
= a x f XY ( x, y ) dx dy + b
y f
XY
( x, y ) dx dy =
= a x f XY ( x, y ) dy dx + b y f XY ( x, y ) dx dy =
= a x f X ( x) dx + b y f Y ( y ) dy = aE ( X ) + bE (Y )
como queramos demostrar.
Proposicin: Si X e Y son v.a. independientes, E ( XY ) = E ( X ) E (Y ).
Dem: Ejercicio.
100
2004
Covarianza y correlacin
Definicin: Sean X e Y dos v.a. con esperanzas X y Y respectivamente, la covarianza
entre X e Y se define como
( x X )( y Y ) p XY ( x, y )
x y
Cov( X , Y ) = E [( X X )(Y Y )] =
( x X )( y Y ) f XY ( x, y )dx dy
Idea intuitiva: Si X e Y tienen una fuerte relacin positiva, en el sentido que valores
grandes de X aparecen asociados con valores grandes de Y y valores pequeos de X
aparecen asociados con valores pequeos de Y, entonces la mayora de los productos
( x X )( y Y ) sern positivos y por lo tanto la covarianza ser positiva. Por otra parte,
si X e Y tienen una fuerte relacin negativa, en el sentido que valores grandes de X
aparecen asociados con valores pequeos de Y y valores pequeos de X aparecen
asociados con valores grandes de Y, entonces la mayora de los productos
( x X )( y Y ) sern negativos y por lo tanto la covarianza ser negativa.
101
2004
Cov(x,y) <0
Cov(x,y) >0
Cov(x,y) =0
Proposicin: Cov ( X , Y ) = E ( X Y ) E ( X ) E (Y ).
Dem: Lo haremos slo para el caso discreto. Para el caso continuo se demuestra en
forma similar. Denotemos E ( X ) = X y E (Y ) = Y ,
Cov ( X , Y ) = E [( X X )(Y Y )] = ( x X )( y Y ) p XY ( x, y ) =
x
102
2004
= ( xy x Y y X + X Y ) p XY ( x, y ) =
x
= xy p XY ( x, y ) Y x p XY ( x, y ) X y p XY ( x, y ) + X Y p XY ( x, y ) =
x
= E ( XY ) Y x p XY ( x, y ) X y p XY ( x, y ) + X Y =
x
= E ( XY ) Y x p X ( x) X y pY ( y ) + X Y =
x
= E ( XY ) X Y X Y + X Y = E ( XY ) X Y
como queramos demostrar.
Ejemplos: 1) Consideremos nuevamente el primer ejemplo presentado para el caso
discreto, cuya funcin de probabilidad conjunta y sus funciones de probabilidad marginal
estn dadas por:
X
Y
0
1
p X (x )
0
1/30
0
1/30
1
0
9/30
9/30
2
15/30
0
15/30
3
0
5/30
5/30
pY ( y )
16/30
14/30
1
Cov( X , Y ) = E ( X Y ) E ( X ) E (Y ) = k j p XY (k , j ) k p X (k ) i pY (i)
k =0 j =0
k =0
i =0
= 1
9
5 9
15
5 14 24 54 14
4
+ 3
1
+ 2
+ 3 1 =
=
30
30 30
30
30 30 30 30 30
100
6
x + y2
f XY ( x, y ) = 5
0
si 0 x 1, 0 y 1
en otro caso
103
2004
6
1
61
2
x + I [0,1] ( x) y f Y ( y ) = + y I [0,1] ( y ).
5
3
52
y marginales f X ( x) =
E ( XY ) = xy
0 0
1 1
6
6
x + y 2 dx dy = x 2 y + xy 3 dx dy =
5
500
1
1
1
6 y y3
6 y2 y4
6 x3 y x2 y3
dy = +
dy =
=
=
+
+
5 0 3
2 0
5 0 3 2
5 6
8 0
6 1 1 6 7
7
= + =
=
5 6 8 5 24 20
Por otra parte,
1
1
6
1
6 2 x
6 x 3 x 2
6 1 3
= =
E ( X ) = x x + dx = x + dx = +
5
3
5 06
3
5 3
6 0 5 2 5
0
1
1
61
6 y
6 y2 y4
+
E (Y ) = y + y 2 dy = + y 3 dy =
52
5 02
5 4
4
0
1
6 1 3
= =
0 5 2 5
Entonces,
Cov ( X , Y ) =
7 3 3
1
.
=
20 5 5
100
0
3
4
0
1/5
0
0
1
0
1/5
0
X
2
0
0
1/5
3
0
1/5
0
4
1/5
0
0
pY ( y )
2/5
2/5
1/5
104
p X (x )
1/5
1/5
1/5
1/5
1/5
2004
1 2
5 5
E ( XY ) = 1 3
1
1
1
+ 2 4 + 33 = 4
5
5
5
E( X ) = 0
1
1
1
1
1
+ 1 + 2 + 3 + 4 = 2
5
5
5
5
5
E (Y ) = 0
2
2
1
+ 3 + 4 = 2
5
5
5
Entonces, Cov ( X , Y ) = 4 2 2 = 0.
Observacin: La covarianza depende de las unidades en que se expresan las variables
aleatorias. Este inconveniente puede salvarse standarizndolas. De este modo se obtiene
una medida de la fuerza de la relacin entre las v.a. que no depende de sus unidades.
( X ,Y ) =
Cov( X , Y )
X Y
( aX + b, cY + d ) = sg (ac ) ( X , Y )
donde sg denota la funcin signo.
2) 1 ( X , Y ) 1
105
3)
2004
Dem: 1)
= ac[E ( XY ) E ( X ) E (Y )] = ac Cov ( X , Y ).
Por otra parte, aX + b = a X
(aX + b, cY + d ) =
y cY + d = c Y y, por lo tanto
Cov (aX + b, cY + d )
aX + b cY + d
ac Cov ( X , Y )
= sg (ac) ( X , Y )
a c X Y
q (t ) = E [(Y Y ) t ( X X )] = E [V tW ]
2
siendo V = Y Y y W = X X .
Observemos que q (t ) 0 t .
Como
q (t ) = E [V t W ] = E (V 2 ) 2 t E (V W ) + t 2 E (W 2 )
2
es una funcin cuadrtica en t que toma valores mayores o iguales que 0, su grfico, o no
corta al eje t o lo corta en un solo punto. Es decir que la ecuacin q (t ) = 0 tiene a lo
sumo una raz y por lo tanto su discriminante es menor o igual que 0. (Recordemos que el
discriminante de una ecuacin de segundo grado ax 2 + bx + c = 0 es b 2 4ac ). En
nuestro caso, el discriminante es
4[E (V W )] 4 E (V 2 ) E (W 2 )
2
y, por lo tanto,
106
4[E (V W )] 4 E (V 2 ) E (W 2 ) 0
[E (V W )]2
E (V 2 ) E (W 2 )
2004
[E (( X X )(Y Y ))]2
] [
E ( X X ) 2 E (Y Y ) 2
]1
[ ( X , Y )] 1 1 ( X , Y ) 1.
2
E [V t o W ] = 0 ,
2
P((Y Y ) t o ( X X ) = 0) = 1 P(Y = t o X + Y t o X ) = 1 .
Entonces, Y = aX + b con probabilidad 1, siendo a = t o y b = Y t o X . Falta verificar
que a = t o 0 .
2
En efecto, si t o fuese igual a 0, sto implicara que E (V ) = Var(Y ) = 0 .
( X , Y ) = ( X , aX + b) =
Cov ( X , aX + b)
( )
X aX +b
E ( X (aX + b) ) E ( X ) E (aX + b)
=
X a X
2
a X2
aE X 2 + bE ( X ) a[E ( X )] bE ( X ) a E ( X 2 ) E 2 ( X )
=
=
= 1
a X2
a X2
a X2
107
2004
Vectores aleatorios.
Extensin a ms de dos dimensiones
Definicin: Sean X 1 ,..., X k variables aleatorias discretas, la funcin de probabilidad
conjunta del vector aleatorio ( X 1 ,..., X k ) se define como:
pX
1 ,..., X k
( x1 ,..., x k ) = P ( X 1 = x1 ,...., X k = x k )
1 ,..., X k
( x1 ,..., x k )
p X ,..., X ( x1 ,..., x k ) 0
1
k
( x ,..., x )
1
k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de probabilidad marginal. Por ejemplo, la funcin de probabilidad marginal de X 1 est
dada por:
p X ( x1 ) = ... p X ,..., X ( x1 , x 2 ,..., x k )
1
k
1
x
x
2
108
2004
n!
xk
x2
x2
x ! x !...x ! p1 p 2 ... p k
k
1 2
p X 1 ,..., X k ( x1 ,..., x k ) =
si 0 xi n i ,
x
i =1
=n
(1)
en otro caso
x1 + x 2 + ... + x k = n .
Indicando por Ri (1 i k) cada uno de los k resultados posibles, una de las posibles
11231 12232
(alguno de los xi ' s podra ser 0, en cuyo caso no aparecera ninguno de los
correspondientes Ri ).
Como hemos supuesto independencia entre las repeticiones, esa configuracin tiene
x
x x
probabilidad p1 1 p 2 2 .... p k k , pero es slo una de las configuraciones posibles que
producen x i resultados Ri para 1 i k.
Cuntas configuraciones diferentes hay?
x
x !
n n x1 n x1 x 2
(n x1 )!
n!
...... k =
k =
x3
x k ! 0!
x1 x 2
x k x1! (n x1 )! x 2 ! (n x1 x 2 )!
n!
x1 ! x 2 !.... x k !
109
2004
3 2 4 1
( X 1 , X 2 , X 3 , X 4 ) ~ M 12, , , ,
10 10 10 10
a) Cul es la probabilidad de que se obtengan 3 bolillas rojas, 5 negras, 4 azules y
ninguna blanca?
3
pX
1, X 2 , X 3 , X 4
12! 3 2 4 1
= 0.006
3! 5! 4! 0! 10 10 10 10
(3,5,4,0) =
Como X 1 ~ Bi12,
3
, entonces
10
12 3
P( X 1 2) = p X 1 (i ) =
i =0
i = 0 i 10
2
7
10
12 i
=0.25
3 1 6
( X 1 , X 4 , Y ) ~ M 12, , ,
10 10 10
y, por lo tanto, la probabilidad pedida ser
12! 3
p X1 , X 4 ,Y (3,2,7) =
3! 2! 7! 10
1
10
6
= 0.06
10
110
( X 1 ,..., X k )
fX
1 ,..., X k
2004
1 ,..., X k
A k
f X ,..., X ( x1 ,..., x k ) 0
1
k
( x ,..., x )
1
k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de densidad marginal. Por ejemplo, la funcin de densidad marginal de X 1 est dada
por:
f X 1 ( x1 ) = .... f X
1 ,..., X k
( x1 , x 2 ,..., x k ) dx 2 ....dx k
f X 1 , X 2 ( x1 , x 2 ) = ... f X
1 ,..., X k
( x1 , x 2 ,..., x k ) dx 3 ...dx k
( x1 ,..., x k )
( x1 ,..., x k )
en el caso discreto
salvo, eventualmente, en un
111
2004
1 / 6
f X1 , X 2 , X 3 ( x1 , x 2 , x3 ) =
0
si 0 x 1 1, 0 x 2 2, 0 x3 3
en otro caso
Es inmediato verificar que las componentes del vector son variables aleatorias
independientes, ya que
3 2 1
1
dx 2 dx3 = 6 = 1
f X 1 ( x1 ) = 6
6
0 0
0
3 1 1
1
1
dx1 dx3 = 3 =
f X 2 ( x2 ) = 6
2
6
0 0
0
2 1 1
1
1
dx dx = 2 =
f X 3 ( x3 ) = 0 0 6 1 2 6
3
0
si x1 [0,1]
si x1 [0,1]
si x 2 [0,2]
si x 2 [0,2]
si x3 [0,3]
si x3 [0,3]
entonces,
f X1 , X 2 , X 3 ( x1 , x 2 , x 3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x 3 )
( x1 , x 2 , x 3 )
112
2004
i =0
i =0
P( X + Y = k ) = p XY (i, k i ) = p X (i ) pY ( k i )
por ser X e Y independientes. Entonces,
( + ) k
e i e k i e
k!
=
i k i =
i =0
i =0 i ! (k i ) !
(k i )!
i!
k!
k
P( X + Y = k ) =
( + )
k!
( + ) k .
Este resultado se extiende por induccin al caso de n v.a. : si X1,..., Xn son v.a.
independientes tales que Xi ~ P(i) para i = 1,...,n, entonces X1 +...+ Xn ~ P(1 + ...+n).
2) Sean X e Y v.a. independientes con distribucin exponencial de parmetro , o sea,
sean X ~ E() e Y ~ E() independientes, y sea V = X + Y. La v.a. V toma valores en el
intervalo (0,), por lo tanto, si v 0, FV(v)=0. Sea v > 0,
FV (v ) = P ( X + Y v ) =
XY
( x, y ) dx dy =
{( x , y ) / x + y v}
f ( x ) f ( y ) dx dy
X
{( x , y ) / x + y v}
v v y
P ( X + Y v ) = f X ( x ) f Y ( y ) dx dy = e x e
0 0
= e
0
0 0
dx dy =
v y
v
y
x dx dy = e y 1 e (v y ) dy =
113
= e
2004
dy e v dy = 1 e v e v v
0
f V ( v ) = e v + 2 e v v e v I ( 0 , ) ( v ) = 2 e v v I ( 0 , ) (v )
lo que demuestra que V tiene distribucin Gamma de parmetros (2,).
3) Se puede demostrar que, en general, si X ~ (,) e Y ~ (,) son variables aleatorias
independientes, entonces
X + Y ~ (+,)
M X +Y (t ) = M X (t ) M Y (t )
En efecto, si por ejemplo X e Y son dos v.a. continuas e independientes,
) e
M X +Y (t ) = E e t ( X +Y ) =
t ( x+ y)
f XY ( x, y ) dx dy = e tx e ty f X ( x) f Y ( y ) dx dy =
( ) ( )
= e tx f X ( x) dx e ty f Y ( y ) dy = E e tX E e tY = M X (t) M Y (t)
como queramos demostrar. Para el caso discreto, se demuestra en forma similar.
Es inmediato verificar que si X 1 , X 2 ,..., X n son v.a. independientes,
n
MX
1+ X 2
+...+ X n (t ) = M X i (t )
i =1
114
M X +Y (t ) = M X (t ) M Y (t ) = e
(et 1) (et 1)
e
=e
2004
( + ) (et 1)
M X +Y (t ) = M X (t ) M Y (t ) =
=
t t t
E (a1 X 1 + a 2 X 2 ) = a1 E ( X 1 ) + a 2 E ( X 2 ).
Qu ocurre con la varianza de una combinacin lineal de dos variables aleatorias?
) (
= E (a1 ( X 1 1 ) ) + E (a 2 ( X 2 2 ) ) + 2 E [a1 a 2 ( X 1 1 )( X 2 2 )] =
2
n
n
V ai X i = ai2 i2 + 2 ai a j cov( X i , X j )
i< j
i =1
i =1
115
2004
k +1
E a i X i = E a i X i + a k +1 X k +1 = E (Y + a k +1 X k +1 )
i =1
i =1
siendo Y =
a X
i =1
k +1
E ai X i = E (Y + a k +1 X k +1 ) = E (Y ) + a k +1 E ( X k +1 ) = E ai X i + a k +1 k +1
i =1
i =1
y, utilizando la hiptesis inductiva
k +1
k
k +1
E ai X i = ai i +a k +1 k +1 = ai i
i =1
i =1
i =1
n
n
n
V ai X i = cov ai X i , ai X i = E ai X i a j X j E ai X i E a j X j =
i =1
j =1
j =1
i =1
i =1
i =1
i =1
n n
n
n
= E ai a j X i X j ai i a j j =
j =1
i =1 j =1
i =1
n n
n n
= ai a j E (X i X j ) ai a j i j =
i =1 j =1
i =1 j =1
= ai a j (E ( X i X j ) i j ) = ai a j cov( X i , X j )
n
i =1 j =1
i =1 j =1
116
2004
n
n
E ai X i = ai i
i =1
i =1
Dem: Resulta inmediatamente del hecho que, por ser las v.a. independientes,
cov( X i , X j ) = 0
i j .
E ai X i = ai
i =1
i =1
n
n
V a i X i = 2 a i2
i =1
i =1
a) E
i =1
i = n
n
Xi
b) E (X ) = E i =1
n
V X i = n 2
i =1
n
Xi
V(X ) = V i =1
n
2
=
n
Dem: Ejercicio.
117
2004
Desigualdad de Chebyshev:
Para calcular la probabilidad de un evento descripto en trminos de una v.a. X es
necesario conocer la distribucin de la v.a. La desigualdad de Chebyshev provee una cota
que no depende de la distribucin sino slo de la esperanza y la varianza de X.
Proposicin: Sea X una v.a. con E(X) = y V(X)= 2 < , entonces
P( X > )
> 0,
2
2
Dem: Lo haremos para el caso continuo. La demostracin para el caso discreto es similar.
2 = E (( X ) 2 ) = ( x ) 2 f ( x) dx =
(x )
{ x / x > }
(x )
{ x / x > }
(x )
{ x / x }
f ( x) dx +
f ( x) dx
f ( x) dx
f ( x) dx = P( X
{ x / x > }
> )
Entonces,
2
P( X > )
2
como queramos demostrar.
Observacin: La cota que provee la desigualdad de Chebyshev puede ser grosera o, peor
an, no informativa, por ejemplo, si 2 2.
Ejemplo: Sea X ~ U(0,10), entonces E(X) = 5 y V(X)= 100/12.
Aplicando la desigualdad de Chebyshev,
P X 5 > 4
2
16
100 / 12
16
0.52
P X 5 > 4 = 1 P X 5 4 = 1 P( 4 X 5 4 ) = 1 P (1 X 9) =
= 1 F X (9) + F X (1) = 1
9
10
1
10
= 0.20
118
2004
> 0,
b)
k > 1,
c)
k > 1,
2
P( X ) 1 2
P( X > k )
1
k2
P( X k ) 1
1
k2
(En realidad, b) y c) son ciertas para todo k > 0, pero si k 1 la desigualdad es trivial)
Las dos ltimas formas muestran como el desvo standard mide el grado de
concentracin de la distribucin alrededor de = E(X).
1.5
1.6
1.7
1.8
1.9
2.0
Sea X una v.a. con funcin de densidad f(x) o funcin de probabilidad puntual p(x) y con
E(X) = . Supongamos que se desea estimar . Como hemos visto que la esperanza de
una v.a. se puede pensar como un promedio de sus valores, parece razonable estimarla
mediante el promedio de valores observados de X. Por supuesto que en una situacin
real slo tendremos un nmero finito de observaciones y nos preguntamos: usando slo
un nmero finito de valores de X, puede hacerse inferencia confiable respecto de E(X)?
La respuesta es SI y se demuestra a travs de la Ley de los Grandes Nmeros que nos
dice que el promedio X converge a cuando el nmero de observaciones (o tamao de
la muestra) tiende a infinito. Observemos lo que sucede en la siguiente figura.
200
400
600
800
1000
Figura 1:Comportamiento asinttico del promedio muestral. El promedio del nmero observado de caras,
cuando 4 monedas equilibradas son arrojadas se aproxima al valor medio =2 de la distribucin.
x,
119
2004
En qu sentido converge X a ?
Sea (Xn ) (n 1) una sucesin de variables aleatorias, diremos que Xn converge en
p
X , si
probabilidad a la v.a. X y lo notaremos X n
lim P( X n X > ) = 0
> 0
Ley de los Grandes Nmeros: Sean X1, X2, .... v.a. independientes e idnticamente
distribuidas (muestra aleatoria) con E(X) = y V(X) = 2 < , entonces
p
Xn
siendo X n =
X
i =1
2
n
Chebyshev,
P Xn >
2
=
n2
> 0
2
=0
n n 2
> 0
V (X n )
y, por lo tanto
p
Luego, X n
es decir,
P ( f A p > ) n
0
> 0
120
Dem:
2004
n p(1 p)
V( fA) =V A =
n
n
n
E ( f A ) = E A = p
n
P( f A p > )
V( fA)
p (1 p )
n2
> 0
Luego,
p(1 p)
=0
n2
> 0
Ejemplo: Cuntas repeticiones del experimento deberan hacerse para que la frecuencia
relativa difiera de p en menos de 0.01 con probabilidad mayor o igual que 0.95?
En este caso, = 0.01 y queremos encontrar n tal que
P ( f A p < 0.01) 1
p(1 p)
n (0.01) 2
p(1 p)
p (1 p)
p(1 p )
0.95
0.05 n
2
2
n (0.01)
n (0.01)
(0.01) 2 (0.05)
121
2004
X
~
Bi
ni , p .
i
i =1
i =1
X 1 , X 2 ,...., X n
X
i =1
X
i =1
~ Bi (n, p).
X i ~ P (i ) , entonces
~ P i .
i =1
n
X 1 , X 2 ,...., X n
X
i =1
f)
X
i =1
n
X
i =1
~ BN (n, p).
~ (n, ).
X i ~ (ni , ) , entonces
~ n i , .
i =1
i
i
i i ai i .
i =1
i =1
i =1
2
X ~ N ,
n
y T = X i ~ N ( n , n 2 ) .
i =1
122
X 1 , X 2 ,...., X n
n
X
i =1
son
v.a.
independientes
tales
que
2004
X i ~ ( ni , ) ,
entonces
~ ni , .
i =1
Por ser las Xi v.a. independientes, la funcin generadora de la suma es el producto de las
funciones generadoras, entonces
n
ni
n
n
i =1
(t ) = M X i (t ) =
X i ~ ni ,
=
t
i =1
Xi
i =1
i =1 t
i =1
ni
i =1
X 1 , X 2 ,....
E( X i ) =
T n
n
(a)
~ N (0,1)
n (X ) ( a )
~ N (0,1)
T n
n
Z ~ N (0,1)
n (X )
Z ~ N (0,1)
d
donde la convergencia en distribucin (
T n
a (a)
P
n
n ( X )
a (a)
P
123
2004
n
MT /
(t ) = M T (t / n ) = M
n
Xi
(t / n ) = M X i (t / n ) = M X i (t / n )
i =1
i =1
Ahora,
ln M X i (u )
u
=
u =0
2 ln M X i (u )
u
para
M X' i (u )
M X i (u )
=
u =0
M X i (0)
= =0
M X'' i (u ) M X i (u ) M X' i (u )
u =0
probar
M X' i (0)
el
[M
teorema,
Xi
(u )
u =0
demostraremos
[
(0)]
que
[M
MT /
= E ( X i2 ) = 1
Xi
(t ) e t
/2
L(t / n )
L' (t / n )t
L' (t / n )t n 3 / 2
= lim
= lim
=
2
n
n
n
1/ n
2n
2 n 1 / 2
lim
L' ' (t / n ) t 2 n 3 / 2
L' ' (t / n ) t 2 t 2
=
= .
lim
n
n
2
2
2 n 3 / 2
= lim
por lo tanto hemos probado el Teorema Central del Lmite para = 0 y 2 = 1. El caso
general resulta considerando las v.a. standarizadas
Xi
= X i* .
124
2004
1500
X
i =1
Entonces,
125
2004
T1500
15
15
15
15
= 1 P
1
+
=
1500 / 12
1500 / 12
1500 / 12
1500 / 12
1500 / 12
= 1 (1.34) + (1.34) = 0.18
Hemos usado que E ( X i ) = 0 y V ( X i ) =
1500
1
y por lo tanto E (T1500 ) = 0 y V (T1500 ) =
.
12
12
b) Cuntos nmeros pueden sumarse a fin de que el valor absoluto del error total sea
menor o igual que 10 con probabilidad mayor o igual que 0.90?
Buscamos el valor de n tal que
P ( Tn 10 ) 0.90
10
P (Tn 10) 0.90 P( 10 Tn 10) 0.90 P
Tn
n / 12
0.90
n / 12
10
10
10
10
10
0.90 2
1 0.90
0.95
n / 12
n / 12
n / 12
n / 12
10
n / 12
es decir, que se pueden sumar a lo sumo 446 nmeros para que el valor absoluto del
error total sea menor o igual que 10 con probabilidad mayor o igual que 0.90.
Aproximacin de la distribucin binomial por la normal: Sea X ~ Bi (n,p), entonces X es el
nmero de xitos en n repeticiones de un experimento binomial con probabilidad de xito
igual a p, y X / n es la proporcin muestral de xitos.
Definamos las siguientes variables aleatorias
1
Xi =
0
X
i =1
126
2004
X ( a ) p(1 p)
~ N p,
n
n
(a)
X ~ N (np, np(1 p) )
0.2
0.4
0.6
0.4
0.8
1.0
0.0
0.2
0.0
0.0
Bi(10,0.10)
0.2
0.4
0.6
Bi(5,0.10)
0.0
0.2
0.2
0.3
0.4
0.5
0.0
0.1
0.0
0.1
0.2
0.3
0.4
0.15
0.20
0.08
0.05
0.10
0.15
0.20
0.25
0.0
0.04
0.06
0.0
1.0
Bi(200,0.10)
0.12
Bi(100,0.10)
0.0
0.8
Bi(50,0.10)
0.15
0.0
0.0
0.6
0.10
Bi(20,0.10)
0.4
0.0
Figura 3: Distribucin de
0.05
0.10
X
n
Correccin por continuidad: Cuando se aproxima una distribucin discreta por una
continua, como es el caso de la aproximacin de la distribucin binomial por la normal, es
necesario efectuar una correccin. Consideremos el siguiente ejemplo:
Sea X ~ Bi (100, 0.6) y calculemos en forma aproximada P(X 50) y P(X 51).
Si aplicamos directamente el TCL, obtenemos:
X 60 50 60
P ( X 50) = P
( 2.04 ) = 0.021
24
24
X 60 51 60
P ( X 51) = P
1 (1.84) = 0.967
24
24
127
2004
Si bien, P(X 50) + P(X 51) = 1, los valores aproximados no satisfacen esta restriccin.
Para evitar este problema, se efecta la siguiente correccin, denominada correccin por
continuidad,
X 60 50.5 60
P ( X 50) = P( X 50.5) = P
( 1.94 ) = 0.026
24
24
X 60 50.5 60
P ( X 51) = P( X 50.5) = P
1 (1.94) = 0.974
24
24
En general, cuando la v.a. es discreta y xi xi-1 = 1, la correccin se realiza en la forma:
P ( X a) = P( X a + 0.5)
P ( X a) = P( X a 0.5)
Si la distancia entre dos valores sucesivos de X es k > 1, cmo aplicara la correccin
por continuidad?
Ejemplo: Sea X ~ Bi(60,1/3). Calcular en forma aproximada la probabilidad de que X sea
mayor o igual que 25.
X 60 1 24.5 60 1
3
3 1 (1.23) = 0.11
P ( X 25) = P( X 24.5) = P
1 2
1 2
60
60
3 3
3 3
X
i =1
~ P(n )
Por lo tanto, cualquier v.a. con distribucin de Poisson con parmetro suficientemente
grande puede ser aproximada por la distribucin normal.
b) Sean X 1 , X 2 ,..., X n v.a. independientes con distribucin Gamma de parmetros ni y ,
o sea X i ~ (ni , ) entonces
n
X
i =1
~ n i ,
i =1
Por lo tanto, cualquier v.a. con distribucin (m, ) con parmetro m suficientemente
grande puede ser aproximada por la distribucin normal.
128
2004
y, en general,
-
las Ti son variables aleatorias independientes y con distribucin exponencial, todas con el
mismo parmetro .
Es claro que, si a uno le interesara el tiempo que transcurre desde el inicio hasta la ksima ocurrencia, esta variable aleatoria podra expresarse como
k
T
i =1
129
2004
i =1
k
P ( X t k ) = P Wi t
i =1
Como las W1 , W2 ,...., Wk ,... son variables aleatorias independientes y con distribucin
E(1)=(1,1) , entonces
k
W
i =1
~ (k,1)
y por lo tanto
P Wi t = f S ( s )ds
i =1
t
con S =
W
i =1
~ (k,1) y en consecuencia f S ( s ) =
1
s k 1e s I ( 0, + ) ( s ) . Entonces,
(k 1)!
1
k
P Wi t =
s k 1e s ds
i =1
0 (k 1)!
t
Llamemos
t
1
s k 1e s ds
k
(
1
)!
0
Ak (t ) =
a la funcin de distribucin acumulada de una (k,1). Integrando por partes una vez, si
consideramos
u=
s k 1
(k 1) s k 2
sk -2
=
u=
(k 1)!
(k 1)!
(k - 2)!
v= e s
v = - e -s
obtenemos
130
1
1 k 1 s
Ak (t ) =
s k 1e s ds =
s e
(k 1)!
(k 1)!
0
t
2004
t
1
s k 2 e s ds
k
(
2
)!
+
0
1 k 1 t
t e + Ak 1 (t )
(k 1)!
1 k 2 t
1 k 1 t
t e +
t e + Ak 2 (t )
(k 1)!
(k 2)!
Ak (t ) = ..... = e t
k 1
ti
+ Ak M (t )
i = k M i!
Como
t
A1 (t ) = e s ds = e t + 1
0
resulta
k 1 i
k 1 i
t
t
+ A1 (t ) = e t + 1
i =1 i!
i = 0 i!
Ak (t ) = e t
y por lo tanto
k 1 i
t
k
P( X t k ) = P Wi t = Ak (t ) = 1 e t
i = 0 i!
i =1
P( X t < k ) = P( X t k 1) =
i =0
t i t
e
i!
131
2004
132
2004
133
Mariner II
Mariner IV
Mariner V
Mariner VI
Mariner VII
Pioneer VI
Pioneer VII
2004
81.3001
81.3015
81.3006
81.3011
81.2997
81.3005
81.3021
Estadstica Descriptiva
Examinaremos los datos en forma descriptiva con el fin de:
Organizar la informacin
Sintetizar la informacin
Presentar la informacin
Definimos:
Poblacin: conjunto total de los sujetos o unidades de anlisis de inters en el estudio
Muestra: cualquier subconjunto de sujetos o unidades de anlisis de la poblacin en
estudio.
Unidad de anlisis o de observacin: objeto bajo estudio. Puede ser una persona, una
familia, un pas, una institucin o en general, cualquier objeto.
Variable: cualquier caracterstica de la unidad de observacin que interese registrar y
que en el momento de ser registrada puede ser transformada en un nmero.
Valor de una variable, Dato, Observacin o Medicin: nmero que describe a la
caracterstica de inters en una unidad de observacin particular.
134
2004
Datos cuantitativos
Esquema de Tallo y Hoja
Nos da una primera aproximacin rpida a la distribucin de los datos sin perder de vista
las observaciones.
Ejemplo: La siguiente tabla contiene 45 observaciones correspondientes a la fuerza de
compresin de cierta aleacin de Aluminio-Litio.
96
108
125
112
134
120
93
94
155
135
119
103
88
148
155
132
97
113
117
156
103
111
89
124
127
139
112
125
118
138
95
142
127
104
136
113
94
117
106
125
96
107
120
139
143
95
107
117
125
139
96
108
118
127
139
96
111
119
127
142
89
103
112
120
134
148
93
103
113
124
135
155
94
104
113
125
136
155
94
106
117
125
138
156
TALLO
HOJA
89
135
9
10
11
12
13
14
15
2004
3445667
334678
122337789
00455577
2456899
238
556
0000000000000001111111122
88889999
000001111122333444
55555555666888
00113
002
2
6
En este caso cada tallo ha sido dividido en 2 lneas: en la primera se listan las hojas 0 a 4
y en la segunda las hojas 5 a 9.
Se observa asimetra a derecha y un valor alejado del resto: 7.8
136
2004
no de nios
3
7
19
27
32
35
38
38
22
16
16
6
Img
1.3
1.4
1.5
1.6
1.7
1.8
2.0
2.1
2.2
2.5
2.7
4.5
no de nios
7
9
6
2
3
3
3
2
1
1
1
1
111
22222223333333333333333333
4444444444444444444444444445555555555555555555555555*
6666666666666666666666666666666666677777777777777777*
8888888888888888888888888888888888888899999999999999*
00000000000000001111111111111111
2222223333333
444444444555555
66777
888
00011
2
5
7
En este caso cada tallo ha sido dividido en 5 lneas: en la primera se listan las hojas 0 y
1, en la segunda las hojas 2 y 3, en la tercera las hojas 4 y 5, en la cuarta las hojas 6 y 7
y por ltimo en la quinta lnea las hojas 8 y 9.
Cmo elegimos el nmero de tallos?
Hay reglas heursticas para elegir el nmero de tallos. En general se recomienda utilizar
entre 8 y 20.
137
2004
El nmero de tallos debe ser tal que permita mostrar una imagen general de la estructura
del conjunto de datos. Aunque existen algunos criterios para definir el nmero de tallos, la
decisin depende fundamentalmente del sentido comn. Demasiados detalles en general
sern poco informativos, demasiado agrupamiento puede distorsionar la imagen del
conjunto.
Cuando el volumen de datos es muy grande conviene usar otro tipo de grficos que
tambin son de fcil interpretacin .
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cpita
de protenas en 32 pases desarrollados. Los datos se presentan ordenados de menor a
mayor por simplicidad.
9.03
9.16
9.23
9.34
9.39
9.42
9.56
9.89
10.00
10.28
10.41
10.56
10.52
10.75
10.86
10.89
11.07
11.27
11.36
11.58
11.76
7
8
9
10
11
8
0445667799
01233458
02455788
02357
7
8
8
9
9
10
10
11
11
8
044
5667799
012334
58
024
55788
023
57
138
2004
Los grficos de tallo-hojas son tiles para comparar la distribucin de una variable en dos
condiciones o grupos. El grfico se denomina tallo-hojas espalda con espalda porque
ambos grupos comparten los tallos.
A continuacin se muestra un grfico de la presin arterial sistlica (PAS) a los 30
minutos de comenzada la anestesia en pacientes sometidos a dos tcnicas anestsicas
diferentes a las que nos referiremos como T1 y T2.
74
963
660
9662
821
70
2
5
6
7
8
9
10
11
12
13
14
15
16
T2
47
2
37
778999
0358
222
37
El grfico nos muestra las siguientes caractersticas de la PAS en los dos grupos de
pacientes.
-
La distribucin de PAS tiene forma similar en ambos grupos: Un pico o moda y forma
simtrica y aproximadamente acampanada.
Diferencias en posicin. Los pacientes del grupo T1 tienen niveles de PAS levemente
mayores que los pacientes del grupo T2.
Similar dispersin. Los valores de PAS de los pacientes de ambos grupos se
encuentran en rangos aproximadamente iguales, salvo por el valor atpico (outlier)
que se observa en el grupo T1.
139
2004
Histograma
frecuencia relativa =
frecuencia
cantidad total de datos
Observaciones:
Es recomendable tomar
frecuencia relativa
longitud del intervalo
87.5
87.8
88.3
90.1
91.5
96.1
87.8
88.2
89.0
90.1
92.6
88.5
88.6
89.2
90.8
92.7
89.9
90.3
90.4
90.9
93.3
90.4
91.0
91.0
91.1
94.2
91.8
91.8
92.3
92.7
94.7
92.7
93.2
93.3
93.4
94.2
140
2004
Clase
[84, 86]
(86, 88]
(88, 90]
(90,92]
(92,94]
(94,96]
(96,98]
Total
Frecuencia fi
1
4
9
14
9
4
1
42
0.0
0.05
0.10
0.15
8 10 12 14
Escala Densidad
84
86
88
90
92
octanos
94
96
98
84
86
88
90
92
octanos
94
96
98
141
Distribucin acampanada
2004
Distribucin uniforme
30
20
25
15
20
15
10
10
5
5
0
30
32
34
36
38
40
42
44
46
48
50
52
54
11
13
15
17
Asimetra a izquierda
Asimetra a derecha
20
30
24
15
18
10
12
5
6
0
0
10
3.5
4.5
5.5
6.5
7.5
8.5
9.5
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
142
2004
10
20
30
40
50
60
70
80
edad
altura de la barra =
frecuencia en el intervalo
.
longitud del intervalo
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
Escala
densidad
10.53%
8.20%
7.77%
5.89%
3.38%
0.32%
0.01%
--
143
2004
10
20
30
40
50
60
70
80
edad
En este grfico, el porcentaje de casos de rubola notificados para cada grupo est
representado en el rea de la barra. El histograma muestra que una alta proporcin de
casos ocurre en menores de 5 aos y que la proporcin desciende a medida que
aumenta la edad. En este grfico estamos representando la densidad de notificaciones
por cada ao de edad.
El siguiente ejemplo nos muestra cmo vara el aspecto del histograma segn la longitud
de las clases.
144
2004
Longitud de clase=1g/l
Medidas de Resumen
Resumiremos la informacin de los datos provenientes de variables numricas mediante
medidas de fcil interpretacin que reflejen sus caractersticas ms relevantes. La medida
a elegir depender de cada problema.
Medidas de Posicin o Centrado
Un modo de resumir un conjunto de datos numricos es a travs de un nmero que
represente a todos, en el sentido de ser un valor tpico para el conjunto.
La pregunta que intentamos responder es: Cul es el valor central o que mejor
representa a los datos?
Si la distribucin es simtrica diferentes medidas darn resultados similares. Si es
asimtrica no existe un centro evidente y diferentes criterios para resumir los datos
pueden diferir considerablemente, en tanto tratan de captar diferentes aspectos de los
mismos.
145
2004
x1 , x2 ,......, xn
Promedio o Media Muestral:
n
x=
x
i =1
x=
x
i =1
45
5350
= 118.89
45
x (1) x ( 2 ) .... x ( n )
146
2004
x ( k +1)
~
x =
x ( k ) + x ( k +1)
si n = 2k + 1
si n = 2k
La mediana es resistente a la presencia de datos atpicos. Tambin puede ser til cuando
algunos datos han sido censurados.
Ejemplos:
1) Supongamos que los datos son: 3, 5, 2, 4, 6, 8, 7, 7, 6 . Como n = 9, (n+1)/2 = 5.
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
~
x =6
2 3 4 5
7 7 8
~
x = 5 .5
Ejercicios: 1) Consideremos los dos conjuntos de datos siguientes:
xs: 1,2,2,3
ys: 1,2,2,7
x=2
y =3
~
x =2
~
y =2
147
x =
2004
+ ... + x
([n ]+1)
(n[n ])
n 2[n ]
10
14 17
21 25 28 40
x 0.10 =
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
=
= 16
8
8
10
14 17
21 25 28
40
45
x 0.10 =
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
=
= 17
10
10
Con la segunda definicin, deberamos calcular dos medias, una podando una
observacin en cada extremo de la muestra ordenada y otra podando dos observaciones
en cada extremo, e interpolar linealmente entre ambas medias. Es decir, calculamos
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
=
= 17
10
10
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
x2 =
=
= 16
8
8
x1 =
x 0.10 = 16.8
148
2004
Observemos que la media es una media - podada con = 0 y la mediana una media
podada con tan prximo a 0.5 como sea posible. En ese sentido, la media podada es
una medida intermedia entre la media y la mediana. Es ms resistente a datos atpicos
que la media.
Cmo elegimos ?
Dependiendo de cuantos outliers se pretende excluir y de cun robusta queremos que
sea la medida de posicin. Como dijimos, cuando seleccionamos = 0 tenemos la
media, si elegimos el mximo valor posible para (lo ms cercano posible a 0.5)
obtenemos la mediana. Cualquier poda intermedia representa un compromiso entre
ambas. Una eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Ejemplo: En este ejemplo calcularemos las tres medidas resumen. Los datos siguientes,
ya ordenados, corresponden al nmero de pulsaciones por minuto en pacientes con
asma durante un espasmo:
40 120 120 125 136 150 150 150 150 167
x = 130 .8
~
x = 143
0.10
= 137 .625
x>~
x
x<~
x
La mediana puede ser til cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo suele ser posible computar la mediana.
Ejemplos: a) Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los
datos que se indican entre parntesis tienen censura a derecha, es decir, se sabe que el
paciente sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia.
1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84)
n = 15
149
2004
n = 15
no es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero valor, el
que puede ocupar cualquier posicin entre la cuarta y la ltima.
Medidas de Dispersin o Variabilidad
Cun dispersos estn los datos? Cun cercanos son los datos al valor tpico?
Grafiquemos los dos conjuntos de datos siguientes y calculemos para cada uno de ellos
su media y su mediana:
xs: 0 2 6 7 10
ys: 2 3 6 6 8
x = y =5
~
x=~
y =6
A pesar de tener igual media e igual mediana, los conjuntos de datos difieren Cmo
medir la diferencia observada?
Rango Muestral: Es la diferencia entre el valor ms grande y el ms pequeo de los
datos:
Rango = mx(Xi) mn(Xi)
Ejemplo: en nuestros conjuntos de datos:
Rango (X)= 10
Rango(Y)= 6
150
2004
~
x=~
y
x=y
Rango( x) = Rango( y ) .
Varianza muestral = S 2 =
(x
i =1
x)2
n 1
S = S2
Sx= 4.258
S2y= 12.5
Sy= 3.536
El desvo estndar tiene las mismas unidades que los datos, mientras que la varianza
no.
151
2004
Coeficiente de Variacin: Es una medida que relaciona el desvo standard con la media
de una muestra.
CV =
S
x
Es una medida que est en desuso, ya que no tiene propiedades estadsticas muy
interesantes. Sin embargo no depende de las unidades y si lo multiplicamos por 100 nos
da una idea de la variabilidad relativa.
Distancia Intercuartil: Es una medida ms resistente que el desvo estndar, basada en
el rango de los datos centrales de la muestra.
Comenzaremos por definir los percentiles. El percentil 100 % de la muestra
(0 < < 1) es el valor por debajo del cual se encuentra el 100 % de los datos en la
muestra ordenada.
Para calcularlo:
Percentil
10%
25%
50%
75%
95%
3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
Posicin
0.10 (19+1) = 2
0.25 (19+1) = 5
0.50 (19+1) = 10
0.75(19+1) = 15
0.95(19+1) = 19
Valor
1
3
6
9
11
Cuartil Inferior
Mediana
Cuartil Superior
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos
cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al
percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente
pobladas (aproximadamente un 25 % de los datos en cada una de ellas). Entre los
cuartiles se halla aproximadamente el 50% central de los datos y el rango de stos es:
dI =distancia intercuartil= cuartil superior - cuartil inferior.
Observacin: Si en el ejemplo cambiramos el ltimo dato por 110, la distancia intercuartil
no cambiara, mientras que el desvo pasara de 3.2 a 24.13!!!!
152
2004
Cuartos y Distancia entre Cuartos: Medidas muy cercanas a los cuartiles inferior y
superior son el cuarto inferior y el cuarto superior. Se calculan de la siguiente manera:
Cuarto inferior=3
2 3 5
Cuarto inferior=4
6 8 9
2 3 5 6 7 8 9
Cuarto superior=8
Cuarto superior=7.5
MAD = mediana ( x i ~
x)
Cmo calculamos la MAD?
Calculamos la mediana.
153
MAD
0.675
2004
dI
1.35
1.17
1.61
1.16
1.38
3.53
1.23
3.76
1.94
0.96
4.75
CPU
0.15
2.41
0.71
0.02
1.59
0.19
0.82
0.47
2.16
2.01
0.92
0.75
2.59
3.07
1.40
Calculamos los 5 nmeros resumen y la media muestral para este conjunto de datos,
utilizando el software R.
> summary(server1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.02 0.82
1.38 1.63
2.16 4.75
Realizamos un esquema de Tallo y Hoja y graficamos un histograma para este conjunto
de datos:
stem(CPU)
0.3
N = 25 Median = 1.38
Quartiles = 0.82, 2.16
0.2
0.0
0.1
0 : 01257789
1 : 022244669
2 : 0246
3 : 158
4:7
0
CPU
Todas las medidas y los grficos muestran que se trata de una distribucin asimtrica con
cola a derecha.
154
2004
Box-Plots
Con las medidas anteriores podemos construir un grfico de fcil realizacin y lectura.
Cmo lo hacemos? Vamos a dar una versin, pero vale la pena advertir que hay
variaciones de un programa a otro.
1. Representamos una escala vertical u horizontal
2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento
que corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado que est
a lo sumo 1.5 dI del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que estn entre 1.5 dI y 3 dI de cada extremo y con
o a aquellos que estn a ms de 3 dI de cada extremo. Algunos paquetes, como el R,
indican a todos los outliers de la misma forma.
Observacin: Muchos paquetes estadsticos realizan el boxplot usando los cuartos y la
distancia entre cuartos en lugar de la distancia intercuartil. Como estas medidas son muy
prximas, en general los resultados son anlogos. Lo importante es que entre los cuartos
o entre los cuartiles yace aproximadamente el 50% central de los datos.
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier,
mientras que en el anlisis anterior esto no pareca evidente.
A partir de un box-plot podemos apreciar los siguientes aspectos de la distribucin de un
conjunto de datos:
posicin
dipersin
asimetra
longitud de las colas
puntos anmalos o outliers.
155
2004
Los box-plots son especialmente tiles para comparar varios conjuntos de datos, pues
nos dan una rpida impresin visual de sus caractersticas.
Outliers: Los mtodos que hemos visto nos permiten identificar puntos atpicos que
pueden aparecer en una o ms variables. Su deteccin es importante pues pueden
determinar o influenciar fuertemente los resultados de un anlisis estadstico clsico,
dado que muchas de las tcnicas habitualmente usadas son muy sensibles a la
presencia de datos atpicos.
Los outliers deben ser cuidadosamente inspeccionados. Si no hay evidencia de error y su
valor es posible no deberan ser eliminados. Asimismo, la presencia de outliers puede
indicar que la escala elegida no es la ms adecuada.
Boxplots Paralelos
Una aplicacin muy til de los boxplots es la comparacin de la distribucin de dos o ms
conjuntos de datos graficando en una escala comn los boxplots de cada una de las
muestras. En este sentido los boxplots se muestran como un mtodo muy efectivo de
presentar y resumir los datos, tal como veremos en el siguiente ejemplo.
10
1er. server
2do. server
156
2004
Hay una reduccin general de la concentracin de dixido de azufre a lo largo del tiempo
debida a la conversin gradual en la zona al uso de combustibles con baja concentracin
de azufre. Esta disminucin es ms fuerte para los cuartiles superiores. Tambin se
muestran concentraciones ms elevadas para los meses de invierno debido al uso de
calderas a petrleo. Claramente se ve un efecto cclico y amortiguado. Los boxplots
muestran una distribucin asimtrica a derecha, con presencia de outliers en algunos
meses, y que la dispersin de la distribucin es mayor cuando el nivel general de la
concentracin es ms alto.
QQ-plot (Normal Probability Plot): El QQ-plot es un grfico que nos sirve para evaluar
la cercana a una distribucin dada, en particular a la distribucin normal.
Consideremos la muestra aleatoria: X1, X2,....Xn y los correspondientes estadsticos de
orden
X(1) X(2) ....... X(n)
Observemos que X(1)= min(X1, X2,....Xn), mientras que X(n)= max(X1, X2,....Xn).
En particular, si U1, U2,....Un son v.a. i.i.d tales que Ui ~ U(0,1) , se puede demostrar que
E (U (i ) ) =
i
.
n +1
157
2004
1
n
, el grfico debera parecerse a una
,....,
n +1
n +1
recta.
Por otro lado, sabemos que si X es una variable continua con funcin de distribucin F
estrictamente creciente, entonces
Y = F ( X ) ~ U (0,1)
F ( X (i ) ) vs
i
n +1
o equivalentemente
X (i )
vs
i
F 1
.
n +1
x
F ( x) = G
,
o sea, si depende de un parmetro de posicin y uno de escala, como es el caso de la
normal, podemos graficar
vs
i
G 1
n +1
X (i )
vs
i
G 1
n +1
X (i )
o bien
Como,
i
X (i ) .G 1
+
n +1
el grfico ser aproximadamente una recta.
Notemos que si F 1 es la inversa de F, entonces el p-simo percentil de F, xp, es tal que
F ( x p ) = p x p = F 1 ( p)
158
2004
i
i
-percentil de F.
es el
n +1
n + 1
por lo tanto, F 1
159
Colas Livianas
Normal
Colas Pesadas
Asimetrica a derecha
0.3
0.2
0.1
0.0
-5
-1
Rojo=Mediana, Negro=Media
0.20
0.15
0.05
0.10
0.3
0.2
-0.5
0.0
0.5
1.0
-2
-1
0
-5
0.0
0.1
0.2
0.3
0.2
0.1
0.0
-5
-1
-2
-0.5
0.0
0.3
0.5
0.8
0.7
0.6
0.5
0.00
0.0
-1.0
0.9
1.0
0.0
0.1
0.2
0.4
0.6
0.4
0.8
-2
0.5
0.6
-0.5
0.7
0.0
0.8
0.5
0.9
1.0
Asimetrica a izquierda
2004
160
0.4
2004
21
= 0.21
100
161
2004
Definicin: Sea X una v.a. con funcin de probabilidad puntual p X (x) en el caso discreto
o funcin de densidad f X (x ) en el caso continuo. Se denomina momento de orden k
(k N) o momento poblacional de orden k a E(Xk), es decir
x k p X ( x)
x
E( X k ) =
k
x f X ( x) dx
-
en el caso discreto
en el caso continuo
Xi
i =1
n
Definicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin con funcin de probabilidad
puntual o funcin de densidad que depende de m parmetros 1 , 2 ,...., m . Los
estimadores de momentos de 1 , 2 ,...., m son los valores 1 , 2 ,...., m que se obtienen
igualando m momentos poblacionales con los correspondientes momentos muestrales. En
general, se obtienen resolviendo el siguiente sistema de ecuaciones
n
X
i =1
k
i
( )
=E Xk
k = 1,2,..., m
162
2004
Xi
= E(X )
i =1
X
i =1
X
i =1
1
X
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin (, ). Como hay dos parmetros a
estimar, planteamos un sistema de ecuaciones basadas en el primer y en el segundo
momento.
Usando
que
si
E( X ) =
(,),
V ( X ) = E ( X 2 ) (E ( X ) ) ,
V (X ) =
la
relacin:
n
Xi
i =1
= E( X )
n
n
X i2
i =1
2
n = E ( X )
Reemplazando
n
Xi
i =1
=
n
n
X i2
2
i =1
=
+
n
2
X
i =1
2
i
+X2
y, despejando :
n
X
i =1
2
i
X2
X
n
X
i =1
2
i
X2
163
2004
X2
n
X
i =1
2
i
X2
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Como hay un nico parmetro
a estimar, planteamos una ecuacin basada en el primer momento.
n
X
i =1
= E( X ) =
= 2 X
4) Veamos por ltimo un ejemplo que nos muestra que no siempre podemos utilizar los
momentos en el orden natural. Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(-,).
Como hay un nico parmetro a estimar, parece natural plantear una ecuacin basada en
el primer momento. Sin embargo, si lo hacemos,
n
X
i =1
= E( X ) = 0
X i2
i =1
= E( X 2 ) =
(2 )2 = 2
12
3 X i2
i =1
Mtodo de mxima verosimilitud: Este mtodo fue introducido por Fisher en la dcada
de 1920. Se basa en la idea de hallar los valores de los parmetros que hacen que la
probabilidad de obtener una muestra dada sea mxima.
Ejemplo: Se realiza una encuesta de opinin a una m.a. de 20 personas. Se les formula
una nica pregunta que ser respondida por Si o por NO. Sean X 1 , X 2 ,..., X 20 las v.a.
correspondientes a la respuesta, tales que
164
1
Xi =
0
2004
si la persona i responde SI
si la persona i responde NO
13
(1 p )
La pregunta es: qu valor de p hace que los valores muestrales obtenidos sean los ms
probables?
Es decir, buscamos el valor de p que hace mxima p ( x1 , x 2 ,..., x 20 ) o equivalentemente
0=
g ( p) 13
13(1 p) 7 p 13 20 p
7
=
=
=
p 1 p
p(1 p)
p(1 p)
p
13-20 p = 0
p =
13
20
2 g ( p)
p 2
Definicin:
Sean
=
p =13 / 20
X 1 , X 2 ,..., X n
13
7
2
(1 p ) 2
p
v.a.
con
<0
p =13 / 20
funcin
de
probabilidad
conjunta
165
2004
1 ,2 ,...,m que maximizan la funcin de verosimilitud, o sea los valores tales que
~ ~
~
L(1 , 2 ,..., m ) L( 1 , 2 ,..., m )
~ ~
~
1 , 2 ,..., m
La forma general de los EMV se obtiene reemplazando los valores observados xi por las
v.a. Xi.
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin exponencial de parmetro .
n
i =1
i =1
f ( x1 , x 2 ,..., x n ) = f X i ( x i ) = e xi = n e
n
xi
i =1
L ( ) = e
n
n
xi
i =1
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no
depende del parmetro a estimar, podemos suponer que todas las observaciones son no
negativas.
n
ln L( ) = n ln( ) xi
i =1
n
ln L( ) n
= xi = 0
i =1
X
i =1
1
X
f ( x1 , x 2 ,..., x n ) = f X i ( xi ) =
i =1
i =1
1
2
(xi )2
2 2
166
1 1 2 2 i=1( xi )
e
=
n
2
n
2004
1 1 2 2 i=1( xi )
L( , ) =
e
n
2
n
ln L( , ) = n ln 2 n ln( )
ln L( , ) 1 n
= 2 (xi ) = 0
i =1
ln L( , )
1 n
n
2
= + 3 (xi ) = 0
i =1
1
2
(x
i =1
)2
n
( x i ) = 0
i =1
n
n 2 + ( xi )2 = 0
i =1
xi
i =1
=
( x i )2
i =1
=
n
(X
n
= X
i =1
X)
167
i =1
i =1
f ( x1 , x 2 ,..., x n ) = f ( x i ) =
I ( 0, ) ( x i ) =
2004
I (0, ) ( x )
i
i =1
y la funcin de verosimilitud es
L( ) =
I (0, ) ( x )
i
i =1
L( ) = n
0
1
= n
0
= n
0
en caso contrario
si 0 < x i < i
si max( x i ) <
1 i n
en caso contrario
si > max( xi )
1 i n
si max( x i )
1 i n
= max( X i )
1i n
168
2004
h() . Por ejemplo, en el caso de una m.a. de una distribucin N(, 2) hemos visto que el
EMV de es
(X
X)
i =1
entonces el EMV de 2 es
n
2 =
(X
i =1
X )2
es el error de estimacin y una estimacin ser ms precisa cuanto menor sea este error.
Este error es tambin una v.a. dado que depende de la muestra obtenida. Para algunas
muestras ser positivo, para otras negativo. Una propiedad deseable es que la esperanza
del error sea 0, es decir que en promedio el error obtenido al estimar a partir de
diferentes muestras sea cero.
Definicin: Un estimador puntual del parmetro es insesgado si
E () =
169
2004
E () n
X
E P ( p ) = E P
n
E P ( X ) np
=
=p
=
n
n
(X
n
= X
Como E
, 2
2 =
i =1
X)
n
2
(X i X )
E 2 ( 2 ) = E 2 i =1
,
,
n
= 1E
X i2 2 X i X + X 2
2
n ,
i =1
n
1
n
1
n
E 2 X i2 2 X X i + nX 2 = E 2 X i2 2nX 2 + nX 2
,
,
n
i =1
i =1
n
i =1
170
2004
1
n
n
1
n
E 2 X i2 nX 2 = E 2 X i2 E 2 ( X 2 ) = E 2 ( X 12 ) E 2 ( X 2 )
,
,
n , i =1
n ,
n , i =1
=V
, 2
(X1) + E
, 2
(X1)
) ] [V
2
, 2
(X ) + E
, 2
) ]=
2
(X )
+
2
2
n
2 =
n 1 2
(X
n
i =1
X)
n 1
es un estimador
es = 2 X y el EMV es = max( X i ) .
1i n
E () = 2 E ( X ) = 2 =
2
Verificaremos que el EMV no lo es. Para ello, necesitamos obtener la densidad de la v.a.
U = max( X i ) .
1i n
Recordemos que, si
FU (u ) = (FX (u ) )
0
u n
=
1
si u 0
si 0 < u <
si u
entonces
u
f U (u ) = n
n 1
I (0, ) (u ) .
171
u
E (max( X i ) ) = E (U ) = u n
0
n 1
2004
n u n +1
n
du = n u du = n
=
0
n +1 0 n +1
1
1 = X
X1 + X 2
2
3 = X1
2 =
1 ) =
2 (
2 ) =
2 (
, 2
2
n
2
2
( 3 ) = 2
N(,2). Entonces X es
estimador IMVU de .
A partir de este resultado deducimos que, si se tiene evidencia de que la m.a. proviene de
una distribucin Normal, parece conveniente usar X como estimador de . Sin embargo,
si los datos no son Normales este estimador podra llegar a ser una psima eleccin.
Ejemplo: Sean las siguientes distribuciones simtricas alrededor del parmetro
a) N(,2) : f ( x) =
1
2
1 x
172
b) Cauchy de parmetro :
c) U( -1, +1) : f ( x) =
f ( x) =
2004
1
(1 + ( x ) 2 )
1
I ( 1, +1) ( x)
2
1 = X
2 = X
3 =
max( X i ) + min ( X i )
2
= V ()
Si el error standard depende de parmetros desconocidos, stos se reemplazan por un
estimador y se obtiene el error standard estimado.
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(,2). Entonces X es el
EMV de y su error standard es
X = V , 2 ( X ) =
2
n
173
2004
(X
X)
S
=
n
2
X
X =
i =1
n(n 1)
2
ECM () = E
[ ]
2
2
ECM () = E = E E () + E ()
) (
2
= E E () + E ()
)(
+ 2 E () E ()
[(
)(
2
2
= E E () + E E () + 2 E E () E ()
)]
Usando que la esperanza de una v.a. es una constante y la esperanza de una constante
es igual a sta, se obtiene
) (
)(
2
2
ECM () = E E () + E () + 2 E () E () E ()
14243
1442443
14
4
42444
3
2
0
(b( ) )
V ( )
[ ]
174
2004
{ } es
n
0 .
es decir, si > 0, P n > n
Ejemplo: Sea
X 1 , X 2 ,..., X n
E( X i ) =
desigualdad de Chebyshev,
P X >
V (X )
2
= 2 n
0
> 0
X1 + X 2
no es consistente de .
2
0
b) V (n ) n
entonces, n es consistente de .
Dem: Si el estimador es insesgado, la demostracin es inmediata, a partir de la
desigualdad de Chebyshev,. No daremos la demostracin en el caso general.
175
2004
V (X ) =
2
n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Hemos demostrado antes que
el EMV de , = max( X i ) es asintticamente insesgado pues E () =
1i n
n
. Para
n +1
probar que es consistente, verificaremos que su varianza tiende a cero cuando el tamao
de la muestra tiende a infinito. Pero
V () = E ( 2 ) E ()
n
= E ( 2 )
n + 1
u
f U (u ) = n
u
E (U ) = u n
0
2
n 1
du =
n 1
u
0
I ( 0, ) (u )
n +1
n u n+2
n
du = n
=
2.
n+2 0 n+2
Entonces,
V () =
2
n
n2
n 2 n
2
n + 2 (n + 1)2
n+2
n +1
2
n
=
2 n
0
(
+
2
)(
+
1
)
n
n
a e Yn
b , entonces:
v.a. tales que X n
a)
p
X n Yn
ab
b)
p
X n Yn
ab
176
c)
Xn p a
Yn
b
2004
si b 0
p
d) g ( X n )
g (a )
p
e) si c n es una sucesin numrica tal que c n
c , entonces c n X n
ca
y V (X i ) = 2 < ,
(X
n
S X2 =
i =1
X)
n 1
n 2
Xi
n
1
n i =1
2
2
2
=
X
X i nX =
n 1 i =1
n 1 n
p
Por la Ley de los Grandes Nmeros X
2.
X
i =1
n
Como adems
2
i
(X
, 2
) =V
( X ) + [ E 2 ( X )]
, 2
,
= 2 + 2
n
1 , se obtiene
n 1
n 2
Xi
n i =1
p
2
2
SX =
X
2 + 2 2 = 2
n 1
n
177
2004
Supongamos que
N ( , ) con varianza conocida. Por ser los datos normales, sabemos que
2
o
2
o
o2
X ~ N ,
n
~ N (0,1)
X
P 1.96 n
1.96 = 0.95
o
178
2004
, X + 1.96 o
X 1.96
n
n
contenga al verdadero valor del parmetro es 0.95. Este intervalo se denomina intervalo
de confianza para de nivel de confianza 0.95.
Definicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin que depende de un parmetro
. Dadas dos funciones de la muestra a ( X 1 , X 2 ,...., X n ) y b( X 1 , X 2 ,...., X n ) tales que
pequeo
(por
ejemplo,
0.10,
0.05,
0.01),
el
intervalo
para el parmetro .
Interpretacin: Supongamos que, en base a diferentes muestras calculamos los
correspondientes intervalos de confianza para . Entonces el (1 - ) 100% de ellos
contendrn al verdadero valor .
179
2004
n 1
2 2
T=
~ tn
n
Se dice que T tiene distribucin t de Student con n grados de libertad. Esta distribucin
est tabulada para diferentes valores de n. Su densidad es simtrica respecto al 0 y tiene
forma de campana, pero tiene colas ms pesadas que la distribucin normal standard.
Cuando n tiende a infinito, la distribucin de Student tiende a la distribucin normal
standard.
Proposicin: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin N(, 2), entonces
a)
2
X ~ N ,
n
~ N (0,1)
b)
c)
d)
(n 1) S
~ n21
con S 2 =
(X
i =1
X )2
n 1
X y S 2 son independientes
n
X
~ t n 1
S
180
2004
(n 1) S 2
~ N (0,1)
~ n21
(n 1) S 2
2 (n 1)
= n
X
~ t n 1
S
~ N (0,1)
X
P z / 2 n
z / 2 = 1
o
, X + z / 2 o
X z / 2
n
n
(1)
X
~ t n 1
S
181
2004
X
P t n 1, / 2 n
t n 1, / 2 = 1
S
S
S
, X + t n 1, / 2
X t n 1, / 2
n
n
X i o
X i o
1 1
~ 12 = ,
2 2
~ N (0,1)
1 i n
1 i n
X i o
n 1
~ n2 = ,
2 2
i =1
n
n2,1 / 2
n2, / 2
182
2004
Los elegimos de manera tal que quede un rea igual a /2 en cada extremo. Entonces,
n
( X i o )2
2
2
i =1
P n ,1 / 2
n , / 2 = 1
o
i
i =1 2
, i =1 2
n ,1 / 2
n , / 2
(n 1) S 2
~ n21
Por lo tanto,
(n 1) S 2
n21, / 2 = 1
P n21,1 / 2
2
(n 1) S 2 (n 1) S 2
, 2
2
n 1, / 2 n 1,1 / 2
Ejemplos: Sea X 1 , X 2 ,..., X 49 una m.a., X i ~ N ( , 2 ) .
a) Supongamos que el verdadero valor del desvo standard es o = 35 y que se observa
x = 160 . Construyamos un intervalo de confianza para la media de nivel 0.95.
Como las v.a. son normales y la varianza es conocida, el intervalo para ser de la forma
183
2004
X z / 2 o , X + z / 2 o
n
n
35
35
160 1.96
= (160 9.8, 160 + 9.8) = (150.2, 169.8)
, 160 + 1.96
49
49
S
S
X t n 1, / 2
, X + t n 1, / 2
n
n
35
35
= (160 10.05, 160 + 10.05) = (149.95, 170.05)
160 2.01
, 160 + 2.01
49
49
(n 1) S 2 (n 1) S 2
, 2
2
n 1, / 2 n 1,1 / 2
2
con n21, / 2 = 48
, 0.025 = 69.02 y n 1,1 / 2 = 48, 0.975 = 30.75 . Obtenemos
48 35 2 48 35 2
,
69.02 30.75
= (851.93, 1912.20 )
48 35 2 48 35 2
,
69.02
30.75
184
2004
Esto ltimo resulta de aplicar una funcin montona creciente a cada extremo del
intervalo para 2
Determinacin del tamao de muestra: Consideremos el intervalo de confianza para con
varianza conocida en el caso de una m.a. normal. La longitud del intervalo obtenido (1) es
L = 2 z / 2
o
n
y depende de
nivel de confianza ()
varianza o desvo standard de las observaciones (o)
tamao de la muestra (n)
L = 2 z / 2
2z
2z
Lo n / 2 o n / 2 o
Lo
n
Lo
2 1.96 35
n
= 188.23
10
n 189
P(a T ( X 1 , X 2 ,..., X n , ) b ) = 1
y, a partir de esta expresin, es posible obtener un intervalo de confianza para .
185
2004
X
i =1
~ (n, )
, se puede
a
demostrar que
n
2n 1
2 X i ~ 22n = ,
2 2
i =1
funcin T ( X 1 , X 2 ,..., X n , ) = 2
X
i =1
, podemos obtener un
P 22n ,1 / 2 2 X i 22n , / 2 = 1
i =1
2 n ,1 / 2
2 n , / 2
n
P n
2 X i
2 X i
i =1
i =1
=1
y el intervalo requerido es
2 nn,1 / 2 , 2nn , / 2
2 X i 2 X i
i =1
i =1
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribucin U(0,). Para obtener un intervalo
de confianza para , recordemos que el EMV de es = max ( X 1 ,..., X n ) y probemos
que la distribucin de / no depende de .
Llamemos V a la v.a. max( X 1 ,..., X n ) . Recordemos que, si X 1 , X 2 ,..., X n es una m.a. de
una distribucin FX, entonces la funcin de distribucin de V est dada por
186
2004
V
FV / ( w) = P w = P(V w) = FV ( w) = FX i ( w)
FV / ( w) = FX i (w)
si w 0
0
w n
=
1
si 0 < w <
si w
= w n
1
si w 0
si 0 < w < 1
si w 1
f V / ( w) = n w n 1 I ( 0,1) ( w)
Utilizando T ( X 1 , X 2 ,..., X n , ) =
max ( X 1 ,..., X n )
max( X 1 ,..., X n )
P a
b = 1
(2)
b
a
Cmo elegimos a y b?. Observando (2), debemos hallar a y b , 0 < a < b < 1, tales que
b
n 1
n
n w dw = w
b
a
= bn an =1
(3)
Obviamente hay infinitas soluciones de esta ecuacin, pero podramos elegir la solucin
que produce el intervalo de menor longitud esperada, es decir, buscar a y b que
minimicen E(L) sujeto a la condicin (3), siendo
187
2004
1 1
L = max( X 1 ,..., X n )
a b
n
, debemos minimizar
Como ya hemos demostrado que E (max( X 1 ,..., X n ) =
n +1
n 1 1
n +1 a b
(4)
sujeto a la condicin b n a n = 1 .
Esto puede hacerse utilizando multiplicadores de Lagrange o bien, despejando de esta
ltima expresin a en funcin de b, reemplazndola en (4) y minimizando la expresin
resultante respecto de a.
El intervalo de mnima longitud esperada es
,
n
1
la sucesin de intervalos
[a n ( X 1 , X 2 ,..., X n ), bn ( X 1 , X 2 ,..., X n )]
es una sucesin de
Porque no es posible encontrar una funcin pivote que no dependa del parmetro
Porque no se conoce la distribucin exacta de la funcin pivote
Porque en general es ms fcil encontrar la distribucin asinttica que la exacta de la
funcin pivote
188
2004
N (0,1)
Yn
Y
p
a
Un
d
U n Yn
aY
1y
1.
Luego,
N (0,1)
1
s
X d
N (0,1)
s
X
z / 2 1
P z / 2 n
s
s
s
, X + z / 2
X z / 2
n
n
189
2004
X 1 , X 2 ,..., X n una
Sea
m.a.
de
una
distribucin
Bi(1,p) . Entonces
X
p = =
n
X
i =1
p(1 p)
~ N p,
i (a)
y, por lo tanto
P z / 2
p
n
z / 2 1
p (1 p)
(5)
Hay dos formas de obtener un intervalo para p a partir de esta ltima expresin.
n
X
a) Como, por la Ley de los Grandes Nmeros,
=
n
X
i =1
p podemos aplicar la
P z / 2
X
P z / 2
n
p
n
z / 2 1
p (1 p )
X
X
1
X
n
n
p + z / 2
n
n
X
X
1
n
n
1
n
2004
n
z / 2 1
p(1 p)
2
X
2
z / 2 1
P
p(1 p )
Observemos que
2
p
n
z2
/2
p(1 p)
n
p(1 p)
X
2
p z / 2
n
n
p(1 p)
X
X
2
2
0
2 p + p z / 2
n
n
n
2
z2
p 2 1 + / 2
n
2 X z2 / 2 X
+ 0
p
+
n
n
n
[ p 1 , p 2 ] .
191
2004
Hasta ahora hemos visto como obtener, a partir de una muestra, un estimador puntual o
un intervalo de confianza para un parmetro . Frecuentemente el objetivo del estudio es
decidir, en base a la informacin que provee la muestra, entre dos hiptesis relativas a un
parmetro.
Ejemplo: Supongamos que el consumo promedio de nafta de los motores utilizados por
una empresa automotriz en uno de sus modelos es de 10 litros cada 100 km. Se presenta
un proyecto de mejora del motor que producira una disminucin en el consumo pero,
por razones de costo, se considera viable el proyecto si la reduccin lleva el consumo a
un valor menor de 9 litros cada 100 km.
Para estudiar la conveniencia o no de aplicar la mejora a los motores, se aplica esta
mejora a una muestra de 25 motores, los cules se ponen a funcionar en igualdad de
condiciones durante un periodo fijo. El consumo promedio observado es de 8.9 litros cada
100 km. Proveen estos datos evidencia de que vale la pena incorporar la mejora al motor
o se deben simplemente al azar?
Supongamos que el consumo de nafta de los motores es una v.a. con distribucin normal
con varianza igual a 1 y que la muestra es aleatoria, es decir que los 25 consumos son
independientes. Es decir, supongamos que X 1 ,..., X 25 es una m.a., X i ~ N ( ,1) .
Entonces
X ~ N ,
25
1 / 25
~ N (0, 1)
Si la media verdadera del consumo en el motor mejorado fuese de 9 litros cada 100 km.,
cul es la probabilidad de que una v.a. normal con media 9 y varianza 1/25 tome un
valor igual o menor que el observado, 8.9?
X 9 8.9 9
= (0.5) = 0.309 0.31
P (X 8.9 ) = P
1 / 5
1/ 5
Esta probabilidad se denomina p-valor.
Si el consumo promedio observado hubiese sido X = 8.6 litros cada 100 km, entonces
X 9 8.6 9
= (2) = 0.023 ,
P (X 8.6 ) = P
1 / 5
1/ 5
es decir que, en este ltimo caso, hubiese sido muy poco probable que se observase un
valor promedio de 8.6 si la media verdadera es 9.
Qu es lo que estamos tratando de decidir? Nuestras hiptesis se refieren a , y se
192
2004
= 9 litros cada 100 km. En este caso no se implementa la mejora a los motores
< 9 litros cada 100 km. En este caso conviene implementar la mejora a los motores
vs
H1 : < 9
Cmo se elige la zona de rechazo? Observemos que al tomar una decisin en base a
una muestra, podemos cometer dos tipos de error.
Ho es cierta
Ho no es cierta
No se rechaza Ho
OK
Error tipo II
Se rechaza Ho
Error tipo I
OK
X 9
~ N (0 , 1)
1/ 5
Si queremos que el test tenga nivel de significacin = 0.05, rechazaramos Ho si
193
2004
X 9
1.64 .
1/ 5
Esta es la zona de rechazo del test de nivel 0.05. Si observamos un promedio igual a 8.9,
el valor del estadstico es 0.5 y por lo tanto no se rechaza Ho, mientras que si
observamos un promedio igual a 8.6, el valor del estadstico es 2 y se rechaza Ho.
Si queremos que el test tenga nivel de significacin = 0.10, rechazaramos Ho si
X 9
1.28
1/ 5
194
2004
1.64 + 9 8.5
X 9
X 8.5
1
1
/
5
5
1
/
5
1
/
5
X 8.5
P =8.5
> 0.86 = 1 (0.86) = 1 0.805 = 0.195
1/ 5
( )
( ) =
1 ( )
si H o
si H 1
vs
H1: > o
Ho: = o ( o)
vs
H1: < o
195
2004
Hiptesis bilaterales:
Ho: = o
vs
H1: o
vs
vs
vs
X o
H1: > o
H1: < o
H1: o
. Bajo Ho: = o , T ~ N(0,1).
T z / 2
X o
X o
X o
K = 1 Po n
< K = 1 P o K < n
< K =
P o n
o
o
o
1 ( K ) + ( K ) = 2(1 ( K )) = ( K ) = 1
K = z / 2
196
2004
X o
X + o
a) ( ) = P
z = P
z
n
n
X
o
o
= 1 z +
= P
z +
o
o
n
n
n
vs
H1: > o
197
2004
X +
X
o
o
b) ( ) = P
z
z = P
o
o
n
n
X
o
o
= z +
= P
z +
o
o
o
n
n
n
( ) < . Por esta razn el test tambin es de nivel para las hiptesis
Ho: o
vs
H1: > o
o
o
c) ( ) = P
z / 2 = 1 P
< z / 2
o
n
n
X + o
= 1 P z / 2 <
< z / 2
o
198
2004
o X
o
= 1 P z / 2 +
<
< z / 2 +
o
o
o
n
n
n
o
o
+ z / 2 +
= 1 z / 2 +
o
o
n
n
Observemos que esta funcin decrece hasta o donde ( o ) = y crece a partir de all.
Tamao de muestra requerido para obtener una probabilidad de error tipo II dada para un
valor = 1 (fijo) en la alternativa: Recordemos que el error de tipo II se define como
aceptar la hiptesis nula Ho cuando es falsa. Buscamos el valor de n para que la
probabilidad de error tipo II sea menor que cuando = 1 es un valor fijo en H1.
o
a) P i
< z 1 ( 1 ) ( 1 ) 1
o
o 1
o 1
1
1 z +
z + o
1 z +
z1
o
o
o
n
n
n
199
2004
Observemos que en este caso la alternativa es H1: > o , por lo tanto, o 1 < 0 y se
obtiene
(z z1 ) o
n
1 o
(z + z ) o
=
1
o
2
o
b) Pi
> z 1 ( 1 ) ( 1 ) 1
o
o 1
1
1 z + o
z +
z
o
o
n
n
Observemos que en este caso la alternativa es H1: < o , por lo tanto, o 1 > 0 y se
obtiene
(z + z ) o
n
0 1
c) Para el caso bilateral, el clculo del tamao de muestra se hace en forma aproximada,
despreciando la ms pequea de las dos probabilidades.
vs
vs
vs
H1: > o
H1: < o
H1: o
X o
. Bajo Ho: = o , T ~ tn-1
S
200
c)
2004
T t n 1, / 2
El tamao de la zona de rechazo depende del nivel. Por ejemplo, consideremos el caso
a). Como la alternativa es > o , la forma de la regin es T K , pero como la
probabilidad de rechazar Ho siendo cierta, o sea la probabilidad de Error tipo I, debe ser ,
X o
X o
P o n
K = 1 P o n
K =
S
S
1 FT ( K ) = FT ( K ) = 1 K = t n 1,
donde FT designa la funcin de distribucin de una v.a. t con n-1 grados de libertad.
Funcin de potencia y clculo del tamao de muestra para obtener una probabilidad de
error tipo II dada: La funcin de potencia de este test es complicada porque la distribucin
del estadstico cuando o es una distribucin t no central. Aunque hay tablas y grficos
que permiten obtener probabilidades para una distribucin de este tipo, no los
estudiaremos en este curso. Por la misma razn, no calcularemos tamao de muestra
para obtener una probabilidad de error tipo II dada para una alternativa fija.
Respecto al p-valor, cuando se utilizan tablas slo es posible obtener una cota, ya que las
tablas proveen solamente algunos valores crticos de la distribucin t.
Tests para la varianza cuando la media es desconocida: Las hiptesis a testear son
a) Ho: 2 = o2 ( 2 o2 )
vs
H1: 2 > o2
b) Ho: 2 = o2 ( 2 o2 )
vs
H1: 2 < o2
c) Ho: 2 = o2
vs
H1: 2 o2
(n 1) S 2
o2
201
2004
(n 1) S 2
P 2
K = K = n21,
2
o
o
Funcin de potencia: La obtendremos slo para el caso b). Los otros dos casos se
obtienen en forma similar.
(n 1) S 2
( 12 ) = P 2
1
donde F
n21
02
(n 1) S 2 02 2
n21,1 = P 2
2 n 1,1
2
1
1
1
2
= F 2 02 n21,1
n 1
Utilizando tablas slo es posible obtener una cota para la potencia ya que las tablas
proveen solamente algunos valores crticos de la distribucin 2.
Por la misma razn, al calcular el p-valor utilizando tablas, slo es posible obtener una
cota.
Ejercicio: Qu estadstico utilizara en el caso en que la media fuese conocida?. Cul
es la distribucin de dicho estadstico? Cmo se modifican las regiones de rechazo y la
funcin de potencia de los tests?
Ejemplo: Se toman 25 determinaciones de la temperatura en cierto sector de un reactor,
obtenindose
x = 243 o C
s = 2.8 o C
vs
X 250
,
S
202
2004
T= n
X 250
t n 1, 0.05
S
En nuestro caso, n = 25 y por lo tanto t 24, 0.05 = 1.71 . Como el valor observado de T es
12.5, se rechaza Ho, es decir hay evidencia de que la temperatura media del reactor es
menor que 250 o C .
b) Las hiptesis a testear son
Ho: 2 = 4 ( 2 4 )
El estadstico del test ser U =
(n 1) S 2
H1: 2 > 4
vs
U=
(n 1) S 2
n21, 0.05
4
2
En nuestro caso, n = 25 y por lo tanto 24
, 0.05 = 36.42 . Como el valor observado de U es
47.04, se rechaza Ho. Es decir, hay evidencia de que la varianza de la temperatura del
/ n
Z ~ N (0,1)
N (0,1)
1
S
X d
N (0,1)
S
203
2004
X (a)
~ N (0,1)
S
vs
vs
vs
H1: > o
H1: < o
H1: o
T= n
X o
, las
s
siguientes regiones de rechazo proveen tests de nivel aproximado para cada una de las
hiptesis:
a) T z
b) T z
c) T z / 2
Funcin de potencia aproximada: Un estimador de la funcin de potencia puede
obtenerse reemplazando el estadstico S por su valor observado s, o sea:
X o
X o
z / 2 = 1 P
z / 2
( ) = P
s
n
n
X + o
= 1 P z / 2
z / 2
s
o X
o
= 1 P z / 2 +
z / 2 +
s
s
s
n
n
n
204
2004
o
o
1 z / 2 +
+ z / 2 +
s
s
n
n
En forma similar, se obtiene la funcin de potencia aproximada en los otros dos casos.
Ejemplo: En algunos casos, la varianza y la media dependen del mismo parmetro y no
es necesario reemplazar por un estimador. Por ejemplo sea X 1 , X 2 ,..., X n una m.a. de
una distribucin de Poisson de parmetro . Entonces , si n es suficientemente grande,
/n
(a)
~ N (0,1)
vs
H1: > o
X o
o / n
(a)
~ N (0,1)
X o
o / n
z o + o 1
X
o
1
(1 ) = P1
z = P1 X z o + o = P1
n
o
1
1
n
n
n
o o 1
1 z
+
1
1
n
205
2004
X
i =1
Xp
p(1 p)
n
Z ~ N (0,1)
vs
vs
vs
H1: p > po
H1: p < po
H1 : p p o
se basa en el estadstico
X po
p o (1 p o )
n
b)
c)
X po
p o (1 p o )
n
X po
p o (1 p o )
n
X po
p o (1 p o )
n
z / 2
206
2004
s
s
, X + t n 1, / 2
X t n 1, / 2
.
n
n
vs
H1: o
Dado que el intervalo construido contiene con alta probabilidad al valor verdadero de , si
o no pertenece al intervalo, sto nos llevara a sospechar que la hiptesis nula es falsa.
Es decir, podramos construir un test de nivel rechazando Ho si o no pertenece al
intervalo de confianza, dado que
s
s
P ( EI ) = P o o X t n 1, / 2
, X + t n 1, / 2
n
n
s
s
= 1 P o o X t n 1, / 2
, X + t n 1, / 2
= 1 (1 ) = .
n
n
vs
H 1 : o
X
i =1
207
2004
2
2
2 n ,1 / 2
2 n , / 2
IC = n
, n
2 X i 2 X i
i =1
i =1
vs
H1: o
208