Inferencia Bayesiana

Inferencia estadstica Bayesiana
ngela Corte Gonzlez

Grado en Matemticas
Junio 2013
ndice general
1. Introduccin 3
2. Probabilidad y variables aleatorias 11
2.1. Introduccin a la probabilidad . . . . . . . . . . . . . . . . . . 11
2.1.1. Probabilidad condicionada . . . . . . . . . . . . . . . . 13
2.1.2. Teorema de Bayes para sucesos . . . . . . . . . . . . . 14
2.2. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1. Distribucin discreta . . . . . . . . . . . . . . . . . . . 15
2.2.2. Distribucin continua . . . . . . . . . . . . . . . . . . 16
2.2.3. Funcin de distribucin . . . . . . . . . . . . . . . . . 17
2.3. Variables aleatorias bidimensionales . . . . . . . . . . . . . . . 17
2.3.1. Distribuciones discretas conjuntas . . . . . . . . . . . . 18
2.3.2. Distribuciones continuas conjuntas . . . . . . . . . . . 18
2.3.3. Distribuciones mixtas . . . . . . . . . . . . . . . . . . 19
2.3.4. Distribuciones marginales . . . . . . . . . . . . . . . . 19
2.3.5. Distribuciones condicionadas . . . . . . . . . . . . . . 20
2.3.6. Teorema de Bayes para variables aleatorias . . . . . . 20
2.4. Tipos de distribuciones de probabilidad . . . . . . . . . . . . 22
3. Inferencia estadstica 27
3.1. Conceptos bsicos de inferencia . . . . . . . . . . . . . . . . . 27
3.2. Inferencia estadstica clsica . . . . . . . . . . . . . . . . . . . 28
1
3.3. Inferencia estadstica bayesiana . . . . . . . . . . . . . . . . . 31
4. Inferencia sobre la proporcin 33
4.1. Enfoque clsico . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2. Enfoque bayesiano . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5. Inferencia para la media y la varianza de una normal 45
5.1. Media desconocida y varianza conocida . . . . . . . . . . . . . 45
5.1.1. Enfoque clsico . . . . . . . . . . . . . . . . . . . . . . 45
5.1.2. Enfoque bayesiano . . . . . . . . . . . . . . . . . . . . 48
5.2. Media conocida y varianza desconocida . . . . . . . . . . . . . 52
5.2.1. Enfoque clsico . . . . . . . . . . . . . . . . . . . . . . 52
5.3. Media y varianza desconocidas . . . . . . . . . . . . . . . . . 57
5.3.1. Enfoque clsico . . . . . . . . . . . . . . . . . . . . . . 57
5.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6. Familias conjugadas 76
7. Conclusiones 78
2
Captulo 1
Introduccin
En la dcada de 1720, el reverendo Thomas Bayes realiz el descubri-
miento que lleva su nombre mediante un experimento imaginario. El objetivo
ltimo era determinar la probabilidad de un acontecimiento futuro en fun-
cin de las circunstancias previas, es decir, teniendo en cuenta el nmero de
veces que dicho acontecimiento se hubiera producido. Para abordar el proble-
ma, Bayes lo redujo a sus elementos bsicos. Imagin una mesa rectangular
innita a lo largo y perfecta, de forma que al hacer rodar una pelota sobre
ella sta tuviera las mismas probabilidades de parar en un sitio de la mesa
que en otro, en el eje transversal. Se lanzaba una bola inicial, y la posicin
donde paraba era desconocida para el experimentador imaginario. Despus,
se lanzaban ms bolas y alguien informaba al experimentador imaginario de
si cada bola paraba a la derecha o a la izquierda de la bola inicial. Una vez
lanzadas un nmero suciente de bolas, se iba reduciendo progresivamente el
intervalo de su posible ubicacin en el eje transversal. De esta forma, Bayes
poda armar que la bola inicial se encontraba en un determinado intervalo,
cuya anchura se reduca con el nmero de bolas.
La regla de Bayes es un enunciado que consiste en actualizar la opinin
que inicialmente se tena sobre un suceso cuando disponemos de nueva infor-
macin objetiva. Al efectuar un nuevo clculo, la probabilidad de la creencia
3
revisada (probabilidad a posteriori) se convierte en la probabilidad de la
creencia inicial (probabilidad a priori) de la siguiente repeticin. Por tan-
to, este sistema va evolucionando cuando se aporta nueva informacin y se
aproxima cada vez ms a la certidumbre.
Si aplicamos el teorema de Bayes al experimento de lanzar bolas sobre
la mesa no hay ningun problema, pero Bayes quera abarcar todos los casos
en los que interviniera un grado de incertidumbre, incluso en los que no se
supiera nada de su historia. Esta ampliacin acab dando lugar a muchos
aos de ataques a la teora. Adems, Bayes aadi que, cuando no se contara
con informacin suciente a priori, se poda dar por supuesto que la bola tena
las mismas probabilidades de encontrarse en cualquier punto de la mesa. Con
el tiempo, asignar las mismas probabilidades a priori se llamara distribucin
de probabilidad uniforme.
No se sabe muy bien por qu, pero Bayes no envi su propuesta a la
Real Sociedad de Londres para que sta la publicase. Por lo que en el ao
1761, cuando falleci Bayes, su descubrimiento segua oculto entre sus libros.
Los parientes del reverendo pidieron a Richard Price, un amigo de Bayes,
que revisara los trabajos matemticos de Bayes. Cuando Price descubri el
ensayo mencionado y comprendi su importancia, inici los preparativos para
publicarlo. Price envi el trabajo a la Real Sociedad de Londres en 1763 y
un ao despus sera publicado en las Philosophical Transactions.
Bayes dio los primeros pasos ya que l no dedujo la versin moderna de
la regla de Bayes ni siquiera utiliz una ecuacin algebraica. Fue el autor del
preludio de los desarrollos que habran de venir despus.
Considerando los criterios actuales del mundo acadmico, deberamos
referirnos a la regla de Bayes-Price puesto que Price descubri los trabajos de
Bayes, comprendi su importancia y los enmend realizando una aportacin
propia al artculo nalmente publicado.
Thomas Bayes descubrid el teorema, pero fue Pierre-Simon Laplace,
4
uno de los matemticos y cientcos ms importantes de la historia, el que
acabara dando su forma matemtica moderna y le encontrara aplicacin
cientca.
Laplace se interes por el clculo de probabilidades porque pensaba que
le ayudara a manejar las incertidumbres del sistema solar, que era lo que l
estudiaba. Comenz as a reexionar un mtodo para deducir las causas de
los errores en las observaciones astronmicas. En 1774, Laplace re-descubri
el teorema que nos ocupa. El principio fue deducido de forma independiente
porque la perspectiva era ms general y con unas operaciones matemticas
que lo conrmaban.
Laplace dedic cuarenta aos a desarrollar dicho principio hasta darle
la forma que hoy utilizamos. El problema que resolvi con su teora fue
comprobar que la proporcin de nacimientos de nios era mayor que la de
nias. Laplace se dedicara a reunir datos de la proporcin de nacimientos
asociados con el sexo. A medida que obtena ms datos, descubri que sus
probabilidades le aproximaban a un valor lmite. Tras dcadas de trabajo,
Laplace llegara a la cauta conclusin de que el nacimiento de un mayor
nmero de nios que de nias pareca ser una ley general de la raza humana.
Al construir un modelo matemtico del pensamiento cientco, Laplace se
convirti en el primer bayesiano moderno.
Tras el fallecimiento de Laplace, los investigadores y acadmicos diran
que el mtodo que haba planteado era subjetivo y, por tanto, resultaba
inservible. Sin embargo, el teorema lograra seguir avanzando a duras penas a
lo largo del tiempo. Adems, contribuy a resolver varios problemas prcticos
de los cuales expondremos alguno a continuacin.
Joseph Louis Franois Bertrand, un matemtico francs con gran poder
poltico, reform la regla de Bayes para que resultara til a los ociales de
campaa que tenan que hacer frente a factores de incertidumbre relacio-
nados principalmente con la localizacin del enemigo. En todos los libros
5
publicados, Bertrand mantendra que la probabilidad de las causas de La-
place (es decir, la regla de Bayes) era el nico mtodo para vericar una
hiptesis a la que se hubieran aportado nuevas observaciones. Todas las re-
formas bayesianas seran utilizadas en el caso Dreyfus. Alfred Dreyfus, un
ocial de artillera francs de origen judo, fue declarado culpable por espiar
y condenado a cadena perpetua. La nica prueba que pesaba en su contra
era una carta. En la revisin del caso Dreyfus en el ao 1899, fue llamado a
declarar a Henri Poincar, ilustre matemtico y fsico de Francia. Poincar
crea en la estadstica frecuentista, pero cuando se pregunt si el documento
presentado haba sido redactado por Dreyfus o por otra persona, el matem-
tico nombr la regla de Bayes. Su discuso contribuy al perdn y liberacin
de Dreyfus.
Durante las dcadas de 1920 y 1930, la atencin matemtica se diriga
hacia los antibayesianos Ronald Fisher, Egon Pearson y Jerzy Neyman, por
lo que los trabajos bayesianos realizados por Frank P. Ramsey, mile Borel
y Bruno de Finetti quedaran apartados. Sin embargo, fue el geofsico Harold
Jereys quien mantuvo con vida el teorema de Bayes en esos aos. Dedic
gran parte de su vida a la actualizacin de observaciones y modicndolas a
medida que obtena nuevos resultados. Jereys desarroll una forma objetiva
del teorema de Bayes para poder hallarle nuevas aplicaciones y elabor unas
reglas para la seleccin de las probabilidades a priori. Jereys escribi el libro
Theory of Probability, el cual sera la nica explicacin sistemtica de las
formas de aplicacin de la regla de Bayes a los problemas cientcos durante
aos.
Durante la segunda guerra mundial, Alemania utilizaba unas mquinas
que generaba cdigos alfabticos. Cada una de estas mquinas se llamaba
Enigma. Para intentar averiguar la forma de descifrar el cdigo Enigma, se
reclutaran en secreto varios profesionales britnicos, entre ellos estaba Alan
Mathison Turing. Lo que hizo fue desarrollar un sistema bayesiano de cosecha
6
propia. Dise un dispositivo electromecnico para el descrifrado de cdigos.
Este diseo puede que fuese la mayor contribucin de Turing al descrifrado
del cdigo de la mquina Enigma.
Un amigo estadounidense de Turing, J.Good, se convirti en uno de los
impulsores de la regla de Bayes entre los aos 1950 y 1960, puesto que desa-
rroll la teora y mtodos bayesianos. Tambin escribi cerca de novecientos
artculos sobre el teorema de Bayes, de los cuales publicara la mayora.
Tras la segunda guerra mundial, un hombre de negocios llamado Arthur
Bailey dedic varios aos a estudiar la regla de Bayes. En 1950 leera su
artculo ms clebre Procedimientos de determinacin de la credibilidad: la
generalizacin que hace Laplace de la regla de Bayes y la combinacin del
conocimiento secundario con los datos observados. Debido a que falleci
con cuarenta y nueve aos, no tuvo tiempo suciente para hacer campaa a
favor del teorema de Bayes.
Gracias a los matemticos Jack Good, Leonard Jimmie Savage y Den-
nis V.Lindley, el teorema de Bayes se convirti en una metodologa lgica
y coherente. La primera publicacin que ayud en la reanimacin fue un
libro publicado por Good. Savage crea que la regla de Bayes cubra unas
necesidades que el resto de procedimientos estadsticos no eran capaces de
ocuparse y su libro Fundamentos de estadstica explicaba los mtodos ba-
yesianos aplicados en muchos mbitos. Por su parte, Lindley era profesor, lo
cual dara sus frutos en las futuras generaciones.
El cientco Jerome Corneld se bas en la regla de Bayes para identicar
las causas del cncer de pulmn y los ataques al corazn. Gracias a sus
esfuerzos, el teorema de Bayes sirvi de ayuda en la investigacin mdica. El
cncer de pulmn provoc estragos despus de la segunda mundial, por lo
que en la dcada de 1950 Corneld utilizara la regla de Bayes para intentar
averiguar sus causas. Posteriormente, estuvo estudiando por qu los ndices
de mortandad asociados a enfermedades cardiovasculares venan elevndose
7
desde 1900 en Estados Unidos. En 1962, Corneld identic los factores de
riesgo ms relevantes y gracias a ello se consigui un gran logro en la salud
pblica del siglo veinte, ya que las tasas de mortandad experimentaron un
gran descenso.
En 1957 Savage encarg a Albert Madansky, un joven doctor que haba
estudiado en su departamento de estadstica, realizar un estudio asociado con
la bomba de hidrgeno, pero aplicando las tcnicas que cosiderase convenien-
tes. Mandasky desarrollara un enfoque bayesiano de cosecha propia. De esta
forma, la regla de Bayes estaba logrando salir de la clandestinidad. Con los
avances en la estadstica bayesiana de Mandasky, se lograron identicar a
tiempo varias falsas alarmas que indicaban un ataque nuclear sovitico.
Entre los aos 1787 y 1788, tres de los fundadores de Estados Unidos,
Alexander Hamilton, John Jay y James Madison, redactaron annimamen-
te ochenta y cinco artculos periodsticos para convencer a los votantes de
Nueva York de que deban aprobar la constitucin estadounidense, son los
artculos del Federalist. Doce de estos artculos no tenan identicado el
autor todava, por lo que Frederick Mosteller, de la Universidad de Harvard,
comenz a reexionar sobre este enigma. En el ao 1955, sus investigaciones
ya haban avanzado y enrol tambin a David L. Wallace, un joven estads-
tico de la universidad de Chicago. Wallace anim a Mosteller a utilizar la
regla de Bayes en el trabajo que estaban llevando a cabo porque pens que
podra ser de gran ayuda. De esta forma, acabaron creando un protocolo
muy importante de aplicacin civil de la regla de Bayes. Wallace y Mosteller
comprendieron que era imprescindible recurrir a ordenadores, por lo que su-
plantaron la falta de una informtica potente con la fuerza intelectual de cien
estudiantes. Ambos autores publicaron conjuntamente cuatro obras relativas
a la regla de Bayes y la informtica moderna en varias cuestiones de la vida
real.
En la dcada de 1970, cuando James O. Berger se convirti al bayesia-
8
nismo, los estadsticos eles a la regla de Bayes eran todava muy pocos.
La primera conferencia internacional sobre el teorema de Bayes se cele-
brar en 1979 en Valencia, Espaa. A ella acudieron casi todos los bayesianos
de prestigio del momento, pero an as, no superaban el centenar de personas.
En 1968 el U.S.S. Scorpion, un submarino de combate de propulsin
atmica, desapareci en el ocano Atlntico. John Pia Craven, un civil y
director cientco de la ocina de proyectos especiales de la armada esta-
dounidense, y Frank A. Andrews, un ocial que tena un doctorado en fsica
por la Universidad de Yale, reunieron un equipo de investigacin como ya
haban hecho para resolver otro problema similar. Gracias a la deteccin de
unos sonidos que llamaban blips, consiguieron reducir el rea de bsque-
da del submarino. Craven organiz una bsqueda bayesiana que dara muy
buenos resultados para localizarlo. El mapa confeccionado supona un ver-
dadero avance cientco puesto que los clculos efectuados con el mtodo de
Montecarlo permitan estimar las posibles maniobras del U.S.S. Scorpion.
Las actualizaciones bayesianas se realizaban en funcin de los datos relacio-
nados con la bsqueda efectuada por la ota en cada una de las casillas del
rea investigada. Cuando se encontr una pieza de metal brillante en alguna
zona, el jefe de la ota de bsqueda orden que volvieran a intentar loca-
lizar el submarino en dicha zona, donde nalmente lo hallaron. El capitn
Andrews argument que la regla de Bayes slo llevaba algo ms de un da
de retraso respecto a la investigacin del jefe del ota. Con esto se consigui
que en el ao 1972 la actualizacin bayesiana y las tcnicas de Montecarlo se
incluyeran en el sistema de bsqueda de la guardia costera estadounidense.
Uno de los alumnos de Lindley, Adrian F.M. Smith, se dio cuenta de que
la clave para lograr que la regla de Bayes resultara til en el mbito laboral
de los estadsticos y los matemticos radicaba en la disponibilidad o no de
una mayor facilidad de clculo y no en la elaboracin de una teora ms
renada como pensaba Lindley. En 1989, Smith mostr que las cadenas de
9
Montecarlo de Mrkov se podan aplicar prcticamente a cualquier problema
bayesiano. Al sustituir la integracin por las cadenas de Mrkov se lograra
calcular las probabilidades a priori y unas funciones verosmiles, al mismo
tiempo que realizar los cmputos necesarios para obtener las probabilidades
a posteriori. Las cadenas de Montecarlo de Mrkov tambin se conocen con
el nombre de MCMC segn sus siglas inglesas (Markov Chain Monte Carlo).
La unin del teorema de Bayes y la MCMC es uno de los mecanismos ms
potentes para procesar datos y hechos conocidos.
Por tanto, el objetivo de la inferencia bayesiana es extraer conclusiones
sobre el comportamiento general de un conjunto de datos y resumir los re-
sultados mediante una distribucin de probabilidades para los parmetros
del modelo. Los mtodos bayesianos se caracterizan por usar explcitamente
las probabilidades para cuanticar la incertidumbre y esto permite utilizar
la inferencia de forma ms natural e intuitiva.
10
Captulo 2
Probabilidad y variables
aleatorias
2.1. Introduccin a la probabilidad
El Clculo de Probabilidades estudia los conceptos y resultados que
sern imprescindibles para formalizar los resultados y tcnicas de inferencia
estadstica.
La probabilidad se dene sobre los sucesos de un experimento aleatorio,
por lo que hay que tener en cuenta previamente que el espacio muestral
de un experimento aleatorio es el conjunto de todos los resultados posibles
despus de haber realizado un experimento. La notacin para el espacio
muestral es .
Se llama suceso asociado a un experimento aleatorio a cualquier enun-
ciado relativo a la realizacin de dicho experimento, tal que una vez realizado
ste pueda decidirse si es o no cierto. La clase de sucesos se denota por A.
A la clase de sucesos de inters le impondremos que tenga estructura de l-
gebra de Boole para que los sucesos sean ms manejables. Si adems la clase
de sucesos de inters es nita, ser posible establecer un isomorsmo entre
el lgebra de los sucesos de inters y un lgebra de conjuntos del espacio
11
muestral , es decir, una clase A contenida en P() tal que:
1. A.
2. Si A A, entonces A
c
A
3. Si A, B A, entonces A B A
Este isomorsmo permite identicar cada suceso asociado al experimento
aleatorio con un subconjunto del espacio muestral. De esta forma, tambin
se puede identicar las operaciones entre sucesos con operaciones entre con-
juntos.
Cuando = R hay una sigma-lgebra que contiene todos los conjuntos
reales de inters prctico que es la sigma-lgebra de Borel en R. Se dene
como: B = { C R | C puede expresarse en funcin de intervalos reales
mediante complementacin y unin/interseccin numerables}.
La probabilidad Pr se dene (axiomticamente) como cualquier funcin
desde la sigma lgebra de sucesos al intervalo [0,1] cumpliendo los siguientes
axiomas:
1. Pr(A) 0 para todo suceso A A.
2. Pr(E) = 1 donde E es el suceso seguro, es decir, si un suceso ocurre
con certeza entonces la probabilidad de ese suceso es 1.
3. Pr(A
1
A
2
. . .) = Pr(A
1
) + Pr(A
2
) + . . . si A
i
A
j
= para todo
i = j.
Enunciaremos a continuacin algunas propiedades que cumple la proba-
bilidad:
Pr(A
c
) = 1 Pr(A).
Pr() = 0.
12
Sean A,B A, se cumple que: Pr(AB) = Pr(A)+Pr(B)Pr(AB).
Sean A,B, C A, entonces:
Pr(A B C) = Pr(A) + Pr(B) + Pr(C)
Pr(A B) Pr(A C) Pr(B C)
+ Pr(A B C)
Si A B, entonces Pr(A) Pr(B)
El modelo matemtico asociado a un experimento aleatorio es el espacio
de probabilidad, formado por las componentes denidas anteriormente:
(, A, Pr)
2.1.1. Probabilidad condicionada
Sea B un suceso con Pr(B) > 0. Para cualquier suceso A se dene la
probabilidad de A condicionada a B, como la probabilidad de A ha-
biendo ocurrido B. Se tiene que:
Pr(A | B) =
Pr(A B)
Pr(B)
Un suceso A se dice que es independiente de otro suceso B si la
probabilidad de A condicionada a B es la probabilidad de A, es decir, si
Pr(A | B) = Pr(A). Por tanto, si Pr(B) > 0, de la denicin de probabilidad
condicionada resulta que:
Pr(A | B) =
Pr(A) Pr(B)
Pr(B)
= Pr(A)
Resumiendo, si dos procesos son independientes, entonces la probabilidad
de un suceso A cuando se sabe que otro suceso B ha ocurrido es la misma
que la probabilidad de A cuando no se dispone de informacin sobre B.
13
Cuando tenemos un experimento que involucra dos sucesos A y B que
no son independientes, se calcular la probabilidad Pr(A B) como:
Pr(A B) = Pr(A | B) Pr(B) = Pr(B | A) Pr(A)
Este resultado es inmediato por la denicin de probabilidad condicio-
nada y lo llamaremos el teorema del producto.
2.1.2. Teorema de Bayes para sucesos
Se dene una particin del espacio muestral como el conjunto de su-
cesos {A
1
, A
2
, ..., A
n
} tales que los sucesos A
i
son disjuntos entre s y la
unin de todos ellos es el suceso seguro. Aplicando el tercer axioma de la
probabilidad se tiene que:
Pr(A
1
A
2
. . . A
n
) = Pr(A
i
) =
n
i=1
Pr(A
i
) = 1
Teorema de la probabilidad total: Si A
1
, A
2
, . . . , A
n
es una particin
del espacio muestral, entonces para cualquier suceso B se tiene que:
Pr(B) =
n
i=1
Pr(B A
i
) =
n
i=1
Pr(B | A
i
) Pr(A
i
)
Cuando se dispone de la informacin de las probabilidades de un suceso
B condicionadas por los sucesos A
k
, es posible determinar las probabilidades
de los sucesos A
k
condicionadas por B segn la frmula de Bayes.
El teorema de Bayes dice que si A
1
, A
2
, . . . , A
n
es una particin del
espacio muestral, entonces para cualquier suceso B se tiene que:
Pr(A
k
| B) =
Pr(A
k
B)
Pr(B)
=
Pr(A
k
) Pr(B | A
k
)
n
i=1
Pr(B | A
i
) Pr(A
i
)
En efecto, por la denicin que hemos visto de probabilidad condicionada
y aplicando en el numerador el teorema del producto y en el denominador el
teorema de probabilidad total, se sigue la demostracin de este teorema.
14
La frmula de Bayes permite actualizar las probabilidades iniciales Pr(A
k
)
(denominadas probabilidades a priori) asignadas a los sucesos A
k
una vez
conocida la ocurrencia de un suceso B con probabilidad positiva, para ob-
tener tras la correccin, las probabilidades a posteriori Pr(A
k
| B). Para
obtener la actualizacin de las probabilidades se emplean las probabilidades
Pr(B | A
k
) que reciben el nombre de verosimilitudes.
2.2. Variables aleatorias
Introduciremos el concepto de variable aleatoria para facilitar el manejo
del modelo matemtico asociado a un experimento aleatorio, es decir, del
espacio de probabilidad.
Dado un espacio de probabilidad (, A, Pr), se dene una variable
aleatoria asociada a un experimento como una funcin X: R tal que
cualquiera que sea el conjunto B de Borel se satisfaga que el conjunto anti-
imagen de B por X sea un suceso de la sigma-lgebra A, es decir,
X
1
(B) = {w | X(w) B} A
En la prctica, esta denicin viene a corresponderse con que una variable
aleatoria X es una funcin que a cada resultado x
i
del espacio muestral le
asigna un nmero real X(x
i
).
Se puede determinar la distribucin de probabilidad para los posibles va-
lores de una variable aleatoria X. Sea A un subconjunto de la recta real y sea
Pr(X A) la probabilidad de que el valor de X pertenezca al subconjunto.
Entonces:
Pr(X A) = Pr{x | X(x) A}
2.2.1. Distribucin discreta
Una variable aleatoria X se dice que tiene una distribucin discreta
si X slo puede tomar un nmero nito o innito numerable de valores
15
distintos. La funcin de probabilidad de X se dene como una funcin f
tal que para cualquier nmero x R:
f(x) = Pr(X = x)
La funcin de probabilidad debe ser mayor o igual que cero para cada
valor de la variable y debe vericar que la suma de todos los posibles valores
de X es 1, es decir:
xX
f(x) = 1
La media de una variable aleatoria se denota por . Para variables con
distribucin discreta se dene como:
= E(X) =
n
i=1
x
i
f(x
i
)
La varianza se dene como:
2
= V ar(X) =
n
i=1
x
2
i
f(x
i
) [E(X)]
2
Tanto en la frmula de la media como en la de la varianza, n representa
un nmero natural o el innito numerable, es decir, n N {}.
2.2.2. Distribucin continua
Una variable aleatoria X se dice que tiene una distribucin continua
si existe una funcin f (no negativa) tal que, para cualquier intervalo A:
Pr(X A) =
_
A
f(x) dx
Esta funcin tiene que ser mayor o igual que cero para cualquier valor de
la variable y debe cumplir que la integral sobre todos los valores de X es 1,
es decir:
_

f(x) dx = 1
La funcin f recibe el nombre de funcin de densidad de la variable X.
16
La media de una variable aleatoria con distribucin continua se dene
como:
= E(X) =
_

x f(x) dx
En este caso, la varianza se dene como:
2
= V ar(X) =
_

x
2
f(x) dx [E(X)]
2
2.2.3. Funcin de distribucin
La funcin de disfribucin F de una variable aleatoria X es una apli-
cacin F: R R tal que para todo x R:
F(x) = Pr(X x) = Pr({w | X(w) x})
Satisface las cuatro propiedades siguientes:
1. lm
x
F(x) = 1
2. lm
x
F(x) = 0
3. F es no decreciente: x, y R tal que x < y F(x) F(y)
4. F es continua por la derecha en todos los puntos de R:
F(x) = lm
xx
+
F(x) = F(x
+
)
2.3. Variables aleatorias bidimensionales
Hay experimentos aleatorios en los que es necesario tener en cuenta las
propiedades de dos o ms variables aleatorias simultneamente. De modo
que se puede obtener la distribucin conjunta de ellas y las distribuciones
marginales de cada una.
Dado un espacio de probabilidad (, A, Pr) asociado a un experimento
aleatorio, una variable aleatoria bidimensional o vector aleatorio es
17
una aplicacin (X, Y ): R
2
tal que cualquiera que sea el conjunto de
Borel B se satisfaga que el conjunto anti-imagen de B por (X, Y ) sea medible
en el espacio de salida, es decir:
(X, Y )
1
(B) = {w | (X(w), Y (w)) B} A
2.3.1. Distribuciones discretas conjuntas
Sea un experimento que involucra dos variables aleatorias X e Y . Su-
poner que cada una de ellas tiene una distribucin discreta. Se dene la
funcin de probabilidad discreta conjunta como la funcin f tal que
para cualquier punto (x, y) del plano xy:
f(x, y) = Pr(X = x, Y = y)
La funcin de probabilidad conjunta debe vericar que la suma de todos
los posibles valores de (X, Y ) es 1, es decir:
(x,y)R
2
f(x, y) = 1
2.3.2. Distribuciones continuas conjuntas
Sean dos variables aleatorias X e Y , se dice que tienen una funcin de
densidad de probabilidad continua conjunta si existe una funcin f
(no negativa) tal que para cualquier subconjunto A del plano xy:
Pr[(X, Y ) A] =
_
A
_
f(x, y)dxdy
Esta funcn debe ser mayor o igual que cero para cualquier valor del
vector (X, Y ) y satisface que:
_

f(x, y)dxdy = 1
La funcin f se llama funcin de densidad de probabilidad conjunta.
18
2.3.3. Distribuciones mixtas
Hasta ahora se han tratado distribuciones de variables aleatorias que son
continuas o discretas. Pero hay ocasiones en las que se debe considerar que un
vector aleatorio bidimensional sigue una distribucin mixta puesto que la
distribucin de una de las variables aleatorias X es discreta y la distribucin
de la otra variable aleatoria Y es continua. La probabilidad de que el par
(X, Y ) pertenezca a una cierta regin del plano xy se determina sumando
los valores de f(x, y) de una variable e integrando f(x, y) para la otra.
2.3.4. Distribuciones marginales
Sean X e Y variables aleatorias discretas con funcin de probabilidad
conjunta f, se dene la funcin de probabilidad marginal f
1
de X co-
mo:
Pr(X = x) =
y
Pr(X = x, Y = y) =
y
f(x, y)
Anlogamente se dene la funcin de probabilidad marginal f
2
de
Y :
Pr(Y = y) =
x
f(x, y)
Sean X e Y variables aleatorias continuas con funcin de densidad de pro-
babilidad conjunta f, se dene la funcin de densidad de probabilidad
marginal de X como:
f
1
(x) =
_

f(x, y)dx para x R

Anlogamente denimos la funcin de densidad de probabilidad
marginal de Y :
f
2
(y) =
_

f(x, y)dy para y R

Dos variables aleatorias X e Y son independientes, si y slo si, para
todo par de nmero x e y se tiene que: f(x, y) = f
1
(x) f
2
(y).
19
En la notacin bayesiana, es habitual omitir los subndices y, por comodi-
dad, indicar solamente el parmetro a cuya densidad se reere la expresin.
Por ejemplo: f(,
2
) = f() f(
2
), siendo las tres densidades distintas.
2.3.5. Distribuciones condicionadas
Sean X e Y dos variables aleatorias que tienen distribucin discreta.
La probabilidad de la variable aleatoria X despus de haber observado el
valor y Y se denomina distribucin condicionada de X dado Y = y.
Se calcula como:
f(x | y) = Pr(X = x | Y = y) =
Pr(X = x, Y = y)
Pr(Y = y)
En el caso de que X e Y sean variables aleatorias con distribucin con-
tinua, la distribucin condicionada de X dado Y = y es:
f(x | y) =
f(x, y)
f
2
(y)
2.3.6. Teorema de Bayes para variables aleatorias
En este apartado se estudiarn los teoremas de la probabilidad total y el
de Bayes de forma paralela a los sucesos.
Teorema de probabilidad total: Sean X e Y dos variables aleatorias
discretas, entonces:
Pr(X = a) =
n
i=1
Pr(X = a | Y = i) Pr(Y = i)
En el caso de que las variables aleatorias sean continuas, se utilizar la
funcin de densidad:
f
1
(a) =
_

f(a | y) f
2
(y)dy
El teorema de Bayes para variables aleatorias se aplica como para los
sucesos, pero ahora hay que tener en cuenta que se necesitan distribuciones
20
de funciones y esto complica los clculos. Adems, un producto de una distri-
bucin a priori por una funcin de verosimilitud no siempre da una funcin
de manejo fcil o conocida.
Teorema de Bayes: Si X e Y son dos variables aleatorias discretas,
entonces:
Pr(Y = b | X = a) =
Pr(Y = b) Pr(X = a | Y = b)
n
i=1
Pr(X = a | Y = i) Pr(Y = i)
Para el caso de variables aleatorias continuas el teorema se expresa como:
f(y | a) =
f
2
(y) f(a | y)
_
f(a | y) f
2
(y)dy
Donde f(y | a) es la distribucin a posteriori de la variable Y , f
2
(y)
es la distribucin a priori y f(a | y) es la distribucin de X condicionada
a un valor de Y . Si en la distribucin condicionada f(a | y) se deja jo a, y
se evala para cada valor de la variable Y , resulta una funcin en y que se
llama funcin de verosimilitud de Y . Se denotar por f(y | X).
El denominador es un nmero constante para cada x, por lo que la expre-
sin del teorema se puede simplicar utilizando una funcin proporcional, es
decir:
f(y | a) f
2
(y) f(a | y)
De ah se sigue que:
f(y | a) = c f
2
(y) f(a | y)
donde c =
_
_
f(a | y) f
2
(y)dy
_
1
es la integral de una constante. Pode-
mos vericar fcilmente que:
_

f
2
(y) f(a | y)
_
f(a | y) f
2
(y)dy
= 1
Todos los resultados vistos para variables aleatorias bidimensionales, se
pueden extener anlogamente a un nmero nito de variables aleatorias
X
1
, . . . , X
n
.
21
2.4. Tipos de distribuciones de probabilidad
Distribucin Bernoulli
Una variable X se dira que sigue una distribucin Bernoulli de parmetro
p si toma el valor 1 (xito) con probabilidad p y el valor 0 (fracaso) con
probabilidad 1 p.
Su funcin de probabilidad es:
f(x) = p
x
(1 p)
1x
si x = {0, 1}
Algunas propiedades de esta distribucin son:
media = p
varianza = p(1 p)
moda =
_
_
0 si 1 p > p
1 si 1 p < p
0 y 1 si 1 p = p
Distribucin Binomial
Si X
1
, X
2
, . . . , X
n
son n variables aleatorias identicamente distribuidas
con la distribucin de Bernoulli con la misma probabilidad de xito p en
todas, entonces la variable aleatoria X = X
1
+ X
2
+ + X
n
sigue una
distribucin binomial, es decir, X B(n, p).
Su funcin de probabilidad es:
f(x) =
_
n
x
_
p
x
(1 p)
nx
Algunas propiedades de la distribucin binomial son:
media = np
varianza = np(1 p)
22
Distribucin Uniforme
Una variable aleatoria X se dice que sigue una distribucin uniforme en
el intervalo [a, b] si es una variable continua con funcin de densidad dada
por:
f(x) =
_
_
_
1
ba
si x [a, b]
0 en caso contrario
Se denota por U[a, b].
Los valores de su media y varianza vienen dados por:
media =
a +b
2
varianza =
(b a)
2
12
Distribucin Normal o Gaussiana
Una variable aleatoria continua X sigue una distribucin normal de pa-
rmetros y
2
, se denota por X N(,
2
), si su funcin de densidad
es:
f(x) =
1
2
2
exp
_
(x )
2
2
2
_
x R
La media, mediana y moda coinciden:
media = mediana = moda = .
La varianza de una distribucin normal es
2
.
Distribucin Beta
La funcin gamma (a) aparece como parte de muchas distribuciones
estadsticas. Su valor se puede calcular mediante: (a) = (a 1)(a 1).
Adems, como (1) = 1, cuando un nmero a es entero se tiene que (a) =
(a 1)! Otra propiedad importante de esta funcin es que (1/2) =

.
23
Una variable aleatoria X se dice que sigue una distribucin beta de pa-
rmetros a y b si su funcin de densidad es:
f(x) =
(a +b)
(a)(b)
x
a1
(1 x)
b1
si x (0, 1)
La distribucin beta es simtrica slo cuando los dos parmetros son
iguales, en caso contrario es asimtrica.
Algunas propiedades de la distribucin (a, b) son:
media =
a
a +b
moda =
a 1
a +b 2
varianza =
_
a
a+b
__
b
a+b
_
a +b + 1
Distribucin Gamma
Una variable aleatoria X se dice que sigue una distribucin gamma de
parmetros (, ) si su funcin de densidad es:
f(x) =
1
()
x
1
exp
_
_
si x > 0
Se denota por X Ga(, ).
Algunas propiedades de la distribucin gamma son:
media =
moda = ( 1)
varianza =
2
24
Distribucin Gamma-Invertida
Una variable aleatoria X se dice que sigue una distribucin gamma-
invertida de parmetros (, ) si su funcin de densidad es:
f(x) =
1
()
x
1
exp
_
1
x
_
Las distribuciones gamma-invertidas estn denidas sobre variables alea-
torias positivas y no son simtricas. Se denotar por X GaI(, ).
Algunas propiedades de la distribucin gamma son:
media =
1
( 1)
moda =
1
( + 1)
varianza =
1
2
( 1)
2
( 2)
Adems, se puede vericar fcilmente que si X Ga(, ) entonces
1
X
GaI(, ).
Distribucin t no tipicada
Una variable aleatoria X se dice que sigue una distribucin t no tipicada
de parmetros ,
2
y grados de libertad si su funcin de densidad es:
f(x) =
(
+1
2
)
(/2)
2
_
1 +
1
(x )
2
2
_
+1
2
Algunas propiedades de la distribucin t no tipicada son:
media = moda = mediana =
varianza =
2
2
25
Distribucin Normal-Gamma-Invertida
Sean X e Y dos variables aleatorias, Y no negativa, se dice que el
par (X,Y ) sigue una distribucin normal-gamma-invertida de parmetros
(m, c; a, b) si:
(X | y) N(m, yc)
Y GaI(a, b)
Se denotar por (X,Y ) NGaI(m, c; a, b).
La funcin de densidad viene dada por la siguiente expresin:
f(x, y) = f(x | y) f(y)
=
1
_
2(yc)
2
exp
_
(x m)
2
2(yc)
2
_
1
b
a
(a)
y
a1
exp
_
1
by
_
26
Captulo 3
Inferencia estadstica
El objetivo de la inferencia estadstica es estudiar los mtodos y procedi-
mientos para analizar el comportamiento general de una poblacin a partir
del comportamiento observado en los datos disponibles en una muestra de
dicha poblacin.
En este captulo expondremos de forma general la estimacin puntual y
por intervalo segn el enfoque clsico o frecuentista y tambin con un enfoque
bayesiano.
3.1. Conceptos bsicos de inferencia
Vamos a introducir algunas deniciones que sern necesarias para el es-
tudio de la inferencia estadstica.
Se considera que la poblacin es una variable aleatoria.
Denimos el parmetro de una poblacin como un valor numrico que
corresponde con una medida resumen de la distribucin de la poblacin.
Una muestra aleatoria simple es un vector aleatorio con n dimensio-
nes en el que cada variable X
i
es independiente y estn igualmente distri-
buida.
La funcin de verosimilitud de una muestra aleatoria simple se dene
27
como:
f(X
1
, . . . , X
n
| parmetro) =
n
i=1
f(X
i
| parmetro)
3.2. Inferencia estadstica clsica
La inferencia clsica considera que el parmetro de la poblacin es una
cantidad ja, luego un problema se resuelve basndose en la distribucin
muestral del estadstico en cuestin.
Estimacin puntual
El objetivo de la estimacin puntual es caracterizar una poblacin ba-
sndose en las observaciones de la misma. Para ello hay que utilizar el valor
de un estadstico y as asignar un valor al parmetro desconocido de la
poblacin.
Se llama estadstico T del parmetro a una funcin que depende de
la muestra aleatoria simple (X
1
, . . . , X
n
), pero no de los parmetros desco-
nocidos. Se trata de una variable aleatoria que resume la informacin de la
muestra. Denimos un estimador como un tipo de estadstico que intenta
estimar un parmetro de la poblacin.
Para obtener un estimador de utilizaremos dos mtodos:
Mtodo de mxima verosimilitud: Consiste en estimar el parmetro
mediante aquel valor que maximiza la funcin de verosimilitud, que habamos
denido como:
f(X
1
, . . . , X
n
| ) =
n
i=1
f(X
i
| )
La maximizacin se hace con las tcnicas habituales de optimizacin. En
general, se obtienen los mximos del logaritmo de la verosimilitud porque
son ms sencillos de calcular, es decir:
max[ln(f(X
1
, . . . , X
n
| ))]
28
Vamos a ilustrar el mtodo con un par de ejemplos.
Supongamos que X es una variable aleatoria que sigue una dis-
tribucin Bernoulli de parmetro desconocido (0 1) y se
considera una muestra aleatoria simple X
1
, . . . , X
n
. La funcin
de verosimilitud es:
f(X
1
, . . . , X
n
) =
n
i=1
X
i
(1 )
1X
i
El valor de que maximiza la funcin de verosimilitud ser el
mismo que el valor de que maximiza ln(f(X
1
, . . . , X
n
)), por
tanto:
ln
_
n
i=1
X
i
(1 )
1X
i
_
=
n
i=1
(X
i
ln + (1 X
i
) ln(1 ))
=
_
n
i=1
X
i
_
ln +
_
n
n
i=1
_
ln(1 ) = g()
Se calcula la derivada de g(), se iguala a 0 y se resuelve la
ecuacin resultante para , obtienendo as que

=

X
n
.
El siguiente ejemplo muestra como el estimador mximo-verosmil no
siempre se puede calcular derivando el logaritmo de la funcin de verosimi-
litud.
Sea X una variable aleatoria cuya distribucin es uniforme en
el intervalo (0, ). Se considera una muestra aleatoria simple
(X
1
, . . . , X
n
). La funcin de densidad de cada observacin vie-
ne dada por la siguiente expresin:
f(X | ) =
_
_
_
1
si 0 X
0 en caso contrario
Por tanto, la funcin de verosimilitud tiene la forma:
f(X
1
, . . . , X
n
) =
1
n
para 0 X
i
(i = 1, . . . , n)
29
Fijndose en la expresin anterior, se puede observar que el esti-
mador mximo-verosmil ser un valor de tal que X
i
para
i = 1, . . . , n y que maximiza 1/
n
. Como la funcin 1/
n
es de-
creciente, la estimacin tiene que ser el menor valor de tal que
X
i
para i = 1, . . . , n. Ese valor es

= max{X
1
, . . . , X
n
}, por
tanto, ya tenemos el estimador mximo-verosmil.
Mtodo de los momentos: Sea X una variable aleatoria tal que existen
los r primeros momentos poblacionales con respecto al origen y su distribu-
cin depende de una serie de parmetros
1
, . . . ,
k
desconocidos. En el caso
de que el parmetro i-simo se pueda expresar en funcin de los r primeros
momentos poblacionales con respecto al origen, es decir,
i
= g
i
(
1
, . . . ,
r
),
para una muestra (X
1
, . . . , X
n
) el estimador obtenido a travs del mtodo de
los momentos para dicho parmetro viene dado por

i
(X) = g
i
(a
1
, . . . , a
r
),
donde:
s
= E[X
s
i
]
a
s
=
n
i=1
X
s
i
n
A continuacin vamos a resolver un ejemplo.
Sea X U(0, ), considerar (X
1
, . . . , X
n
) una muestra aleatoria
simple. Sabemos que el primer momento poblacional es:
1
= E[X] =

2
= 2
1
Sustituyendo
1
por a
1
, se obtiene el estimador para :
= 2
n
i=1
X
i
n
= 2

X
Estimacin por intervalo
El objetivo de la estimacin por intervalo es asociar, como aproxima-
cin del parmetro desconocido, un intervalo contenido en el conjunto de los
posibles valores de dicho parmetro.
30
Ya hemos visto la denicin de estadstico, ahora denimos el estadsti-
co pivote T(X
1
, . . . , X
n
, ) de forma que a cada muestra de observaciones
independientes (X
1
, . . . , X
n
) de X se cumple que T(X
1
, . . . , X
n
; ) es una
funcin de continua, montona y cuya distribucin muestral es conocida
de forma exacta o aproximada.
El siguiente paso para construir un intervalo de conanza mediante el
estadstico pivote es jar un valor (0, 1), llamado coeciente de conanza.
Se eligen dos probabilidades
1
,
2
con
1
+
2
= . El criterio ptimo es
buscar
1
y
2
de manera que la longitud (o longitud esperada) sea mnima.
En los problemas ms frecuentes este criterio da resultados similares a elegir
1
=
2
= /2.
A continuacin, se buscan dos constantes
1
y
2
tales que:
Pr(T(X
1
, . . . , X
n
, p) <
1
)
1
Pr(T(X
1
, . . . , X
n
, p)
2
) 1
2
Con lo que se tiene que:
Pr(
1
T(X
1
, . . . , X
n
, p)
2
)
= Pr(T(X
1
, . . . , X
n
, p)
2
) Pr(T(X
1
, . . . , X
n
, p) <
1
) 1
3.3. Inferencia estadstica bayesiana
La inferencia bayesiana considera que el parmetro de la poblacin es una
variable aleatoria. Su distribucin se determina con los datos de una muestra
de dicha poblacin. Una vez especicada la distribucin del parmetro se
puede hacer una estimacin puntual o por intervalo.
El teorema de Bayes nos dice que para calcular la distribucin a posteriori
se necesita tanto la funcin de verosimilitud como la distribucin a priori, es
31
decir:
f( | X
1
, . . . , X
n
) =
f() f(X
1
, . . . , X
n
| )
Pr(X
1
, . . . , X
n
)
Para simplicar la escritura y comprensin de la distribucin a posteriori,
hemos visto que se puede utilizar slo el numerador de la expresin anterior,
con lo que nos queda:
f(p | X
1
, . . . , X
n
) f() f(X
1
, . . . , X
n
| )
Estimacin puntual
La estimacin puntual consiste en asignar un nico valor al parmetro
desconocido , por lo que una vez que tenemos la distribucin a posteriori
de , se puede resumir con una medida de tendencia central: media, mediana
o moda. Cualquiera de esas tres medidas se suele utilizar para obtener una
estimacin puntual.
La estimacin por intervalo consiste en dar dos valores entre los cuales
estar el verdadero valor del parmetro desconocido . Como en la inferencia
bayesiana se trabaja con la distribucin del parmetro, se puede determinar
la probabilidad de que est en dicho intervalo.
El intervalo viene determinado por dos valores a y b tales que entre ellos
hay una probabilidad prejada , vericando que:
Pr(a b) =
Pr( a) = Pr( > b)
Cuando la distribucin a priori es no informativa, la estimacin por in-
tervalo coincide numricamente con el intervalo de conanza que se obtiene
en la estadstica clsica.
32
Captulo 4
Inferencia sobre la proporcin
En este captulo se desarrollarn los mtodos de estimacin puntual y por
intervalo a una poblacin Bernoulli(p), es decir, Binomial(1, p). El parmetro
desconocido ser, por tanto, la proporcin p.
4.1. Enfoque clsico
Vamos a aplicar toda la teora clsica descrita anteriormente cuando
la poblacin es X B(1, p) y se extrae una muestra aleatoria simple
(X
1
, X
2
, . . . , X
n
).
Estimacin puntual
Un estimador razonable para p es:
p = frecuencia relativa de xitos =
1
n
X
i
=

X
Para demostrarlo, se utilizarn los mtodos de mxima verosimilitud y
el mtodo de los momentos.
33
Mtodo de mxima verosimilitud: Estimaremos el parmetro p me-
diante aquel valor que maximiza la funcin de verosimilitud:
f(X
1
, . . . , X
n
| p) =
n
i=1
f(X
i
| p) =
n
i=1
p
X
i
(1p)
1X
i
= p
X
i
(1p)
n
X
i
En este caso se obtienen los mximos del logaritmo de la verosimilitud
porque son ms sencillos de calcular.
ln(f(X
1
, . . . , X
n
| p)) = ln
_
p
n
x=1
X
i
(1 p)
n
n
x=1
X
i
_
=
_
n
x=1
X
i
_
(ln p) +
_
n
n
x=1
X
i
_
(ln(1 p)) = g(p)
Hay que tener en cuenta que a la hora de buscar el estimador mximo-
verosmil, la derivacin se hace respecto al parmetro que se desea estimar:
g
(p) =
_
n
x=1
X
i
_
1
p

_
n
n
x=1
X
i
_
1
1 p
g
( p) = 0
_
n
x=1
X
i
_
1
p

_
n
n
x=1
X
i
_
1
1 p
= 0
_
n
x=1
X
i
_
(1 p)
_
n
n
x=1
X
i
_
( p) = 0
x=1
X
i
p
n
x=1
X
i
n p + p
n
x=1
X
i
= 0
x=1
X
i
n p = 0 p =
1
n
n
x=1
X
i
Para comprobar que es un mximo, hacemos tambin la derivada segun-
da:
g
(p) =
n
x=1
X
i
p
2

n
n
x=1
X
i
(1 p)
2
0
Efectivamente, p =
1
n
n
x=1
X
i
=

X es un mximo, y por tanto, es el
estimador mximo-verosmil para la proporcin.
34
Mtodo de los momentos: Se sabe que el primer momento poblacional
es E[X] =
1
= p, luego un estimador para p resulta de sustituir
1
por a
1
,
as:
p = a
1
=
n
i=1
X
s
i
n
=

X
El estadstico pivote para la proporcin es:
T(X
1
, . . . , X
n
, p) =
p p
_
p(1 p)/n
N(0, 1)
El siguiente paso es jar el coeciente de conanza (0, 1). Se eligen
dos probabilidades
1
,
2
con
1
+
2
= .
Buscamos ahora dos constantes
1
y
2
tales que:
Pr(T(X
1
, . . . , X
n
, p) <
1
)
1
Pr(T(X
1
, . . . , X
n
, p)
2
) 1
2
Pr(
1
T(X
1
, . . . , X
n
, p)
2
)
= Pr(T(X
1
, . . . , X
n
, p)
2
) Pr(T(X
1
, . . . , X
n
, p) <
1
) 1
A continuacin se hacen operaciones para obtener las dos cotas de p:
1 = Pr(
1
T(X
1
, . . . , X
n
)
2
) = Pr
_
1

p p
_
p(1 p)/n

2
_
= Pr
_
1

_
p(1 p)/n p p
2

_
p(1 p)/n
_
= Pr
_
p +
1

_
p(1 p)/n p p +
2

_
p(1 p)/n
_
= Pr
_
p
2

_
p(1 p)/n p p +
1

_
p(1 p)/n
_
Se concluye as, que el intervalo de conanza para p con coeciente de
conanza 1 es:
_
p
2

_
p(1 p)
n
; p +
1

_
p(1 p)
n
_
35
4.2. Enfoque bayesiano
Ahora vamos a aplicar la teora bayesiana al problema. Dada una pobla-
cin X B(1, p), se extrae una muestra aleatoria simple (X
1
, X
2
, . . . , X
n
)
tal que:
X
1
B(1, p)
X
2
B(1, p)
.
.
.
X
n
B(1, p)
La funcin de probabilidad de una distribucin de Bernoulli condicionada
al parmetro p se calcula como:
f(X | p) = p
X
(1 p)
1X
Usando la denicin vista anteriormente, la funcin de verosimilitud es:
f(X
1
, . . . , X
n
| p) =
n
i=1
f(X
i
| p) =
n
i=1
p
X
i
(1p)
1X
i
= p
X
i
(1p)
n
X
i
A continuacin tenemos que calcular la expresin explcita de la distri-
bucin a posteriori para la proporcin segn el teorema de Bayes. Para ello
vamos a tener en cuenta dos casos, uno en el que la distribucin a priori es
uniforme y otro en el que la distribucin a priori es una beta.
Distribucin a priori uniforme: Se elige cuando no se tiene ninguna
informacin a priori sobre el parmetro p. Por tanto, p U(0, 1) (1, 1)
tal que f(p) = 1 si p [0, 1].
En este caso la funcin de probabilidad a posteriori quedara como:
f(p | X
1
, . . . , X
n
) p
X
i
(1 p)
n
X
i
Teniendo en cuenta la denicin de distribucin beta, se puede concluir
que la distribucin a posteriori es:
p | X
1
, . . . , X
n

_
1 +
X
i
, 1 +n
X
i
_
36
Distribucin a priori beta: Considerar ahora que p (a, b), la funcin
de densidad es:
f(p) p
a1
(1 p)
b1
si p [0, 1]
Usando de nuevo el teorema de Bayes, la funcin de probabilidad a pos-
teriori queda como:
f(p | X
1
, . . . , X
n
) p
a+
X
i
1
(1 p)
b+n
X
i
1
Hemos deducido que la distribucin a posteriori en este caso es:
p | X
1
, . . . , X
n

_
a +
X
i
, b +n
X
i
_
Estimacin puntual
Cuando denimos la distribucin beta, vimos como se calcula su media
y su moda. Sin embargo, para calcular la mediana no hay ninguna frmula
exacta, por lo que lo haremos con ayuda del programa R. El comando sera:
mediana <- qbeta (0.5, a, b)
Tenenamos que cuando la distribucin a priori es uniforme, la distribu-
cin a posteriori es:
p | X
1
, . . . , X
n

_
1 +
X
i
, 1 +n
X
i
_
Luego las medidas de tendencia central en este caso son:
media =
1 +
X
i
1 +
X
i
+ 1 +n
X
i
=
1 +
X
i
2 +n

X
moda =
1 +
X
i
1
1 +
X
i
+ 1 +n
X
i
2
=
X
i
n
=

X
mediana <- qbeta (0.5, 1 +
X
i
, 1 +n
X
i
)
37
Cuando la distribucin a priori es una (a, b), la distribucin a posteriori
vimos que es:
p | X
1
, . . . , X
n

_
a +
X
i
, b +n
X
i
_
De forma anloga al caso de a priori uniforme, se calculan las medidas
de tendencia central:
media =
a +
X
i
a +
X
i
+b +n
X
i
=
a +
X
i
a +b +n
moda =
a +
X
i
1
a +
X
i
+b +n
X
i
2
=
a +
X
i
1
a +b +n 2
mediana <- qbeta (0.5, a +
X
i
, b +n
X
i
)
Como ya sabemos la distribucin del parmetro p, el intervalo viene de-
terminado por dos valores tales que entre ellos hay una probabilidad :
Pr(a p b) =
Pr(p a) = Pr(p > b)
4.3. Ejemplo
Antes de resolver el problema, veamos la denicin de la enfermedad que
se trata.
El ojo es el rgano de la visin y tiene una forma prcticamente esfrica.
La crnea es una tejido transparente localizada al frente del ojo que nos
permite enfocar las imgenes. Una crnea normal tiene forma aesfrica y es
un poco menos gruesa en el centro. El grupo de patologas relacionadas con
la crnea son las ectasias corneales. La ms frecuente es el queratocono,
enfermedad corneal ectsica asimtrica, progresiva y no inamatoria en
38
la cual la crnea adopta una forma cnica, debido al adelgazamiento de la
misma, con el consiguiente astigmatismo irregular, mala visin y miopa.
Los tratamientos mdicos para las ectasias corneales son ciruga con lser
para quitar tejido, trasplante de crnea o segmentos de anillos intracorneales
(ICRS).
Sea una poblacin X de pacientes con queratocono tal que X B(1, p),
donde p es la proporcin de hombres en la poblacin. Se ha elegido una
muestra aleatoria simple de 980 pacientes. Tenemos que hacer una estimacin
puntual y por intervalo para p de forma clsica y bayesiana.
Enfoque clsico: La estimacin puntual de p es:
p =
1
n
X
i
= 604/980 = 0,629
Calculemos ahora el intervalo de conanza. El estadstico pivote es:
T(X
1
, . . . , X
n
, p) =
p p
_
p(1 p)/n
=
0,629 p
0,015
N(0, 1)
Se ja el coeciente de conanza 1 = 0,95 y se eligen las probabili-
dades
1
=
2
= /2 = 0,05/2 = 0,025.
A continuacin buscamos los valores
1
y
2
tales que:
Pr
_
0,629 p
0,015
<
1
_
0,025
Pr
_
0,629 p
0,015

2
_
1 0,025
Para ello utilizamos R. Las rdenes son:
qnorm(0.025,0,1) # = -1.959964
qnorm(1-0.025,0,1) # = 1.959964
Por lo que los valores buscados son, aproximadamente:
1
= 1,96 y
2
= 1,96.
0,05 = Pr(1,96 T(X
1
, . . . , X
n
) 1,96)
39
= Pr
_
1,96
0,629 p
0,015
1,96
_
= Pr(1,96 0,015 0,629 p 1,96 0,015)
= Pr(0,0294 0,629 p 0,0294)
= Pr(0,629 0,0294 p 0,629 + 0,0294)
= Pr(0,6584 p 0,5996)
= Pr(0,5996 p 0,6584)
Conclumos que el intervalo de conanza para p con coeciente de con-
anza 0,95 es:
[0,5996 ; 0,6484]
Enfoque bayesiano: Empezamos considerando que la distribucin a prio-
ri es unifome U(0, 1), es decir, p U(0, 1) (1, 1) tal que f(p) = 1 si
p [0, 1].
Teniendo en cuenta que en este ejemplo
X
i
= 604 y n = 980, la funcin
de probabilidad a posteriori segn el teorema de Bayes quedara como:
f(p | X
1
, . . . , X
n
) p
X
i
(1 p)
n
X
i
= p
604
(1 p)
980604
Por tanto, la distribucin a posteriori es:
p | X
1
, . . . , X
n
(1 + 604, 1 + 980 604) = (605, 377)
La estimacin puntual se har con las tres medidas de tendencia central
para comparar los resultados obtenidos en cada una de ellas.
media =
1 + 604
2 + 980
=
605
982
= 0,6160896
moda =

X = 604/980 = 0,6163265
mediana <- qbeta (0.5, 605, 377) # = 0.6161685
40
Finalmente, para hallar el intervalo se determinan dos valores tales que
entre ellos hay una probabilidad 0,95, es decir, hallar a y b vericando que:
Pr(a p b) = 0,95
Pr(p a) = Pr(p > b)
La orden en R es:
qbeta (c (0.025, 0.975), 605, 377) # = 0.5854704 0.6462609
Por tanto, el intervalo para p con probabilidad 0,95 es:
[0,5854704 ; 0,6462609]
En la siguiente grca estn representadas las distribuciones a priori
(azul) y a posteriori (rosa) del ejemplo resuelto.
0.0 0.2 0.4 0.6 0.8 1.0
0
5
1
0
1
5
2
0
2
5
A priori U(0,1)
Parmetro p
D
e
n
s
i
d
a
d
0.0 0.2 0.4 0.6 0.8 1.0
0
.
6
0
.
8
1
.
0
1
.
2
1
.
4
x
z
41
Supongamos ahora que se dispone de informacin a priori. El parmetro
p sigue una distribucin beta, p (65, 37) tal que:
f(p) p
651
(1 p)
371
si p [0, 1]
La funcin de probabilidad a posteriori usando el teorema de Bayes es:
f(p | X
1
, . . . , X
n
) p
a+
X
i
1
(1 p)
b+n
X
i
1
= p
65+6041
(1 p)
37+9806041
= p
668
(1 p)
412
Obtenemos que la distribucin a posteriori en este caso es:
p | X
1
, . . . , X
n
(669, 413)
Anlogamente al caso de a priori uniforme, se calculan las tres medidas
de tendencia central para la estimacin puntual.
media =
669 + 604
669 + 413 + 980
=
1273
2062
= 0,6173618
moda =
669 + 604 1
669 + 413 + 980 2
=
1272
2060
= 0,6174757
mediana <- qbeta (0.5, 669, 413) # = 0.6173997
Calcular ahora el intervalo con probabilidad 0,95.
Pr(a p b) = 0,95
Pr(p a) = Pr(p > b)
La orden en R es:
qbeta (c (0.025, 0.975), 669, 413) # = 0.5891654 0.6470192
Por tanto, el intervalo para p con probabilidad 0,95 es:
[0,5891654 ; 0,6470192]
A continuacin hay una grca para comparar la distribucin a priori
(azul) y la distribucin a posteriori (rosa).
42
0.0 0.2 0.4 0.6 0.8 1.0
0
5
1
0
1
5
2
0
2
5
A priori Beta(65,37)
Parmetro p
D
e
n
s
i
d
a
d
0.0 0.2 0.4 0.6 0.8 1.0
0
2
4
6
8
x
z
Por ltimo, vamos a considerar el caso en que la distribucin a priori es
p (300, 600). La funcin de probabilidad a posteriori quedara como:
f(p | X
1
, . . . , X
n
) p
a+
X
i
(1 p)
b+n
X
i
= p
300+6041
(1 p)
600+9806041
= p
903
(1 p)
975
Y la distribucin a posteriori en este caso es:
p | X
1
, . . . , X
n
(904, 976)
Calcular ahora las medidas de tendencia central de forma anloga a los
otros casos:
media =
904 + 604
904 + 976 + 980
=
1508
2860
= 0,5272727
moda =
904 + 604 1
904 + 976 + 980 2
=
1507
2858
= 0,5272918
43
mediana <- qbeta (0.5, 904, 976) # = 0.4808443
Calcular los valores a y b para hallar el intervalo con probabilidad 0,95.
La orden en R es:
qbeta (c (0.025, 0.975), 904 , 976) # = 0.4582939 0.5034468
Finalmente se obtiene que el intervalo para p con probabilidad 0,95 es:
[0,4582939 ; 0,5034468]
En este caso tambin estn representadas las distribuciones a priori (azul)
y a posteriori (rosa). Se puede apreciar que la distribucin a priori estaba
alejada del punto donde se encuentra la estimacin puntual, pero la distri-
bucin a posteriori se ha desplazado y, por tanto, las estimaciones puntuales
intermedias son un compromiso entre el apriori y la estimacin muestral.
0.0 0.2 0.4 0.6 0.8 1.0
0
5
1
0
1
5
2
0
2
5
3
0
3
5
A priori Beta(300,600)
Parmetro p
D
e
n
s
i
d
a
d
0.0 0.2 0.4 0.6 0.8 1.0
0
5
1
0
1
5
2
0
2
5
x
z
44
Captulo 5
Inferencia para la media y la
varianza de una normal
En este captulo se estudiar la estimacin puntual de los parmetros
de una poblacin normal y cmo calcular intervalos por el mtodo clsico
y el mtodo bayesiano. Vamos a distinguir tres casos: media desconocida y
varianza conocida, media conocida y varianza desconocida y por ltimo, el
caso ms general, de media y varianza desconocidas.
5.1. Media desconocida y varianza conocida
5.1.1. Enfoque clsico
Sea X una poblacin que sigue una distribucin normal de media y
varianza
2
conocida, X N(,
2
). Se considera una muestra aleatoria
simple (X
1
, . . . , X
n
) a partir de X.
Estimacin puntual
En este caso, el parmetro que se quiere estimar es la media . Para
obtener el estimador de se prodecer con los dos mtodos descritos ante-
45
riormente.
Mtodo de mxima verosimilitud: Estimaremos el parmetro median-
te aquel valor de que maximiza la funcin de verosimilitud. En este caso,
la funcin de verosimilitud es:
f(X
1
, . . . , X
n
| ,
2
) =
n
i=1
f(X
i
| ,
2
) =
n
i=1
_
1
2
_
exp
_
(X
i
)
2
2
2
_
=
_
1
n
(2)
n/2
_
exp
_
(X
i
)
2
2
2
_
En vez de maximizar la funcin de verosimilitud directamente, resulta
ms fcil maximizar el logaritmo de la verosimilitud.
ln(f(X
1
, . . . , X
n
| ,
2
)) = ln
__
1
n
(2)
n/2
_
exp
_
n
i=1
(X
i
)
2
2
2
_
_
= nln()
n
2
ln(2)
1
2
2
n
i=1
(X
i
)
2
= g(,
2
)
Derivamos respecto del parmetro que queremos estimar:
g(,
2
)
=
1
2
n
i=1
(X
i
) =
1
2
_
n
i=1
X
i
n
_
g( ,
2
)

= 0
1
2
_
n
i=1
X
i
n
_
= 0 =
n
i=1
X
i
n
=

X
Para comprobar que es un mximo, se hace la derivada segunda:
2
g(,
2
)
=
n
2
0
Efectivamente, =
1
n
n
x=1
X
i
=

X es un mximo, y por tanto, es el
estimador mximo-verosmil de la media.
Mtodo de los momentos: Ahora estimaremos la media de N(,
2
) por
el mtodo de los momentos. Se sabe que = E[X] =
1
, luego un estimador
para resulta de sustituir
1
por a
1
. Es decir:
= a
1
=
n
i=1
X
i
n
=

X
46
Vamos a calcular un intervalo de conanza para . Para ellos utilizaremos
el siguiente estadstico pivote:
T(X
1
, . . . , X
n
, ) =
X
n

/
n
N(0, 1)
A continuacin se ja el coeciente de conanza 1 con (0, 1).
Se eligen dos probabilidades
1
,
2
con
1
+
2
= . Por ser la normal una
distribucin continua y simtrica respecto al 0, considerar
1
=
2
= /2.
Buscamos ahora dos constantes
1
y
2
tales que:
Pr(T(X
1
, . . . , X
n
, ) <
1
)
1
Pr(T(X
1
, . . . , X
n
, )
2
) 1
2
Pr(
1
T(X
1
, . . . , X
n
, )
2
)
= Pr(T(X
1
, . . . , X
n
, )
2
) Pr(T(X
1
, . . . , X
n
, ) <
1
) 1
A continuacin buscamos dos cotas para :
1 = Pr(
1
T(X
1
, . . . , X
n
, )
2
) = Pr
_
1

X
n

/
n

2
_
= Pr
_
n

X
n

2

n
_
= Pr
_

X
n
+
1

n

X
n
n
_
= Pr
_

X
n

2

n

X
n

1

n
_
El intervalo de conanza para con coeciente de conanza 1 es:
_
x
2

n
; x
1

n
_
Donde x representa la media de la muestra de observaciones independientes.
47
5.1.2. Enfoque bayesiano
Dada una poblacin X N(,
2
), se extrae una muestra aleatoria
simple (X
1
, X
2
, . . . , X
n
) tal que:
X
1
N(,
2
)
X
2
N(,
2
)
.
.
.
X
n
N(,
2
)
La funcin de densidad de una distribucin normal condicionada a los
parmetro y
2
se calcula como:
f(X | ,
2
) =
_
1
2
_
exp
_
(X )
2
2
2
_
La funcin de verosimilitud calculada en el apartado anterior es:
f(X
1
, . . . , X
n
| ,
2
) =
n
i=1
f(X
i
| , )
=
_
1
n
(2)
n/2
_
exp
_
(X
i
)
2
2
2
_
Sumamos y restamos

X dentro de

(X
i
)
2
y desarrollamos el cua-
drado, teniendo en cuenta que

(X
i

X) = 0, es decir:
(X
i

X+

X)
2
=
((X
i

X)+(

X))
2
=
(X
i

X)
2
+n(

X)
2
La funcin de verosimilitud quedara como:
f(X
1
, . . . , X
n
| ,
2
) exp
_
(X
i

X)
2
+n(

X )
2
2
2
_
Como exp
_
(X
i
X)
2
2
2
_
es una constante dado X
1
, . . . , X
n
, se puede
simplicar la funcin de verosimilitud como:
f(X
1
, . . . , X
n
| ,
2
) exp
_
n(

X )
2
2
2
_
Para continuar con el clculo de la distribucin a posteriori, se conside-
rarn dos casos, uno en el que la distribucin a priori es uniforme y otro en
el que la distribucin a priori es una N(
0
,
2
0
).
48
Distribucin a priori uniforme: Cuando no se tiene informacin previa
se elige una funcin de probabilidad que no aporte nada y as no altere
los resultados obtenidos de los datos. El inconveniente de utilizar funciones
de probabilidad a priori no informativas es que suelen ser distribuciones
impropias, es decir, que no son realmente distribuciones de probabilidad.
Sea una variable aleatoria denida en toda la recta real. Suponer que
sigue una distribucin uniforme, entonces su funcin de densidad ser igual
a una constante y su soporte ser toda la recta real. De esta forma, por
muy pequea que sea la constante, el rea que queda debajo de s misma es
innita.
Para evitar este tipo situaciones elegiremos distribuciones localmente uni-
formes, es decir, distribuciones uniformes en un intervalo lo sucientemente
grande para que contenga todos los valores posibles de . As, no se pierde
la generalidad y se evitan situaciones de incoherencia.
Supongamos una funcin de probabilidad a priori localmente uniforme
en el intervalo [
min
,
max
]:
f() =
1
max

min
si
min

max
En este caso la funcin de probabilidad a posteriori quedara como:
f( | X
1
, . . . , X
n
) f() f(X
1
, . . . , X
n
| ,
2
)
=
1
max

min
exp
_
n(

X )
2
2
2
_
exp
_
n(

X )
2
2
2
_
Normalizar ahora la funcin de verosimilitud , es decir, dividirla por su
intengral, para conseguir as que la funcin de probabilidad est totalmente
denida.
f( | X
1
, . . . , X
n
) =
exp
_
n(

X)
2
2
2
_
_
exp
_
n(

X)
2
2
2
_
d
Llegamos a que la distribucin a posteriori de es:
| X
1
, . . . , X
n
N
_

X,

2
n
_
49
Distribucin a priori N(
0
,
2
0
): En este caso, tenemos que la funcin
de probabilidad a posteriori usando el teorema de Bayes es:
f( | X
1
, . . . , X
n
) exp
_
(
0
)
2
2
2
0
_
f(X
1
, . . . , X
n
| ,
2
)
f( | X
1
, . . . , X
n
) exp
_
(
0
)
2
2
2
0
_
exp
_
n(

X )
2
2
2
_
exp
__
1
2
_

0
0
_
2
n
2
_

X
_
2
__
= exp
__
1
2
_
(
0
)
2
2
0
_
n
2
_
(

X )
2
2
___
= exp
_
1
2
_
2
(
0
)
2
+n
2
0
(

X )
2
2
0
2
__
= exp
_
1
2
_
2
(
2
2
0
+
2
0
) +n
2
0
(

X
2
2

X +
2
)
2
0
2
__
= exp
_
1
2
_
2
2
2
0
+
2
2
0
+n
2
0

X
2
2n
2
0

X +n
2
0
2
)
2
0
2
__
= exp
_
1
2
_
2
(
2
+n
2
0
) 2(n
2
0

X +
2
0
) + (n
2
0

X
2
+
2
2
0
)
2
0
2
__
Dividiendo numerador y denominador por la constante (
2
+n
2
0
), queda:
= exp
_
_
1
2
_
_
2
2
(n
2
0
X+
2
0
)
(
2
+n
2
0
)
+
(n
2
0
X
2
+
2
2
0
)
(
2
+n
2
0
)
2
0
2
(
2
+n
2
0
)
_
_
_
_
Sumando y restando en el numerador la constante
_
n
2
0
X+
2
2
+n
2
0
_
2
se ob-
tiene la expresin del cuadrado de una diferencia ms una constante, es decir:
= exp
_
1
2
_
_
_
_

_
n
2
0
X+
2
2
+n
2
0
__
2
_
n
2
0
X+
2
2
+n
2
0
_
2
+
(n
2
0
X+
2
0
)
2
+n
2
0
2
0
2
(
2
+n
2
0
)
_
_
_
_
_
Como los dos ltimos trminos del numerador no dependen de ni el
denominador, quedara como:
f( | X
1
, . . . , X
n
) exp
_
1
2
_
_
_
_

_
n
2
0
X+
2
2
+n
2
0
__
2
2
0
2
(
2
+n
2
0
)
_
_
_
_
_
50
As, la distribucin a posteriori es proporcional a la expresin anterior.
Normalizamos ahora la expresin dividiendo por su integral:
f( | X
1
, . . . , X
n
) =
exp
_
_
1
2
_
_
n
2
0

X+
2
2
+n
2
0
2
0
2
(
2
+n
2
0
)
_
_
_
_
_
exp
_
_
1
2
_
_
n
2
0
X+
2
2
+n
2
0
2
0
2
(
2
+n
2
0
)
_
_
_
_
d
Se obtiene que la distribucin a posteriori es normal de parmetros
| X
1
, . . . , X
n
N(
n
,
2
n
)
donde
n
=
n
2
0

X +
2
2
+n
2
0
2
n
=

2
2
0
2
+n
2
0
El valor de
n
es un compromiso entre

X y
0
, cuanto mayor es n ms
peso se le da a

X. Si calculamos el lmite de la media cuando el tamao de
muestra tiende a innito, obtenemos que:
lm
n
n
= lm
n
n
2
0

X +
2
2
+n
2
0
=

X
Como es una sucesin convergente, para cualquier cantidad se puede
encontrar un n tal que la diferencia entre
n
y

X sea ms pequea que . Es
decir, la informacin a priori queda anulada cuando se dispone de sucientes
datos.
Estimacin puntual
La distribucin a posteriori se puede resumir con una medida de tenden-
cia central: media, mediana o moda.
En el caso de distribucin a priori uniforme, la distribucin a posteriori
es:
| X
1
, . . . , X
n
N
_

X,

2
n
_
51
Luego las medidas de tendencia central valen:

X
Lo que coincide con el caso clsico.
Cuando la distribucin a priori es N(
0
,
2
0
), la distribucin a posteriori
es:
| X
1
, . . . , X
n
N(
n
,
2
n
)
donde
n
=
n
2
0

X +
2
2
+n
2
0
y
2
n
=

2
2
0
2
+n
2
0
n
=
n
2
0

X +
2
2
+n
2
0
Como en la inferencia bayesiana se trabaja con la distribucin del par-
metro , el intervalo viene determinado por dos valores tales que entre ellos
hay una probabilidad prejada vericando que:
Pr(a b) =
Pr( a) = Pr( > b)
5.2. Media conocida y varianza desconocida
Consideraremos ahora una poblacin X N(,
2
) con conocida y
2
desconocida. Sea (X
1
, . . . , X
n
) una muestra aleatoria simple de X.
52
Estimacin puntual
El parmetro que se quiere estimar es la varianza
2
. Como en los casos
anteriores, se proceder con dos mtodos para obtener el estimador.
Mtodo de mxima verosimilitud: Se maximiza la funcin de verosi-
militud ya calculada en otras secciones.
f(X
1
, . . . , X
n
| ,
2
) =
_
1
(2
2
)
n/2
_
exp
_
(X
i
)
2
2
2
_
Como en el caso de la media, resulta ms fcil maximizar el logaritmo de
la verosimilitud:
ln(f(X
1
, . . . , X
n
| ,
2
)) = ln
__
1
(2
2
)
n/2
_
exp
_
n
i=1
(X
i
)
2
2
2
_
_
=
n
2
ln(
2
)
n
2
ln(2)
1
2
2
n
i=1
(X
i
)
2
= g(,
2
)
Ahora derivamos respecto al parmetro
2
puesto que es el que queremos
estimar:
g(,
2
)
2
=
n
2
2
+
1
2
4
n
i=1
(X
i
)
2
g(,
2
)

2
= 0
n
2
2
+
1
2(
2
)
2
n
i=1
(X
i
)
2
= 0

2
=
1
n
n
i=1
(X
i
)
2
Mtodo de los momentos: Vamos a estimar la varianza de una N(,
2
)
por el mtodo de los momentos. Se sabe que:
2
= E[X
2
] =
2
+
2

2
=
2

2
Sustituyendo
2
por a
2
y teniendo en cuenta que es conocido, un esti-
mador para
2
viene dado por:

2
=
n
i=1
X
2
i
n

2
53
Utilizaremos el siguiente estadstico pivote para estimar por intervalo
2
:
T(X
1
, . . . , X
n
) =
n S
2
2
=
(n 1)

S
2
2

2
n
Donde S
2
=
(X
i
)
2
n
es la varianza muestral.
El siguiente paso es jar el coeciente de conanza 1 con (0, 1).
Como la distribucin del estadstico no es simtrica, los valores estn deter-
minados por convenio y son
1
=
1/2,n1
,
2
=
/2,n1
. De esta forma,
se tiene que:
1 = Pr
_
1

n S
2
2

2
_
= Pr
_

1
n S
2

1
2

2
n S
2
_
= Pr
_
n S
2
2

2
n S
2
1
_
Si s
2
representa la varianza de la muestra de observaciones independien-
tes, se tiene fcilmente un intervalo de conanza para
2
:
_
n
2
s
2
;
n
1
s
2
_
Si se buscara un intervalo de conanza para apareceran races cuadra-
das. De modo que el intervalo de conanza sera:
__
n
2
s ;
_
n
1
s
_
2
), se extrae una muestra aleatoria
simple (X
1
, X
2
, . . . , X
n
). La funcin de verosimilitud es:
f(X
1
, . . . , X
n
| ,
2
) =
n
i=1
f(X
i
| ,
2
) =
n
i=1
_
1
2
_
exp
_
(X
i
)
2
2
2
_
=
_
1
n
(2)
n/2
_
exp
_
(X
i
)
2
2
2
_
=
_
1
n
(2)
n/2
_
exp
_
nB
2
2
2
_
54
donde B
2
=
(X
i
)
2
n
.
Luego la verosimilitud para
2
, dados y los datos, es:
f(X
1
, . . . , X
n
| ,
2
)
1
n
exp
_
nB
2
2
2
_
=
1
(
2
)
n/2
exp
_
nB
2
2
2
_
Para continuar con el clculo de la distribucin a posteriori, se plantearn
dos casos como anteriormente.
Distribucin a priori uniforme: Suponer que es una funcin localmente
uniforme en el intervalo [
2
min
,
2
max
]:
f(
2
) =
1
2
max

2
min
si
2
min

2

2
max
La distribucin a posteriori es proporcional a la funcin de verosimilitud,
por lo que se tiene:
f(
2
| X
1
, . . . , X
n
)
= f(
2
) f(X
1
, . . . , X
n
| ,
2
)
1
(
2
)
n/2
exp
_
nB
2
2
2
_
Si normalizamos esta funcin se obtiene que la distribucin a posteriori
de
2
es una distribucin gamma invertida:
2
| X
1
, . . . , X
n
GaI
_
n
2
1,
2
nB
2
_
Distribucin a priori gamma-invertida: Consideramos la funcin a
priori gamma-invertida de parmetros (, ) tal que:
f(
2
) =
1
()
(
2
)
1
exp
_
1
2
_
La funcin de probabilidad a posteriori segn la frmula de Bayes es:
f(
2
| X
1
, . . . , X
n
) f(
2
)f(X
1
, . . . , X
n
| ,
2
)
Sustituyendo cada funcin por su expresin se tiene:
f(
2
| X
1
, . . . , X
n
) (
2
)
1
exp
_
1
2
_
1
(
2
)
n/2
exp
_
nB
2
2
2
_
55
= (
2
)
n/21
exp
_
nB
2
2
2

1
2
_
=
n/21
exp
_
2
_
nB
2
2

1
__
De donde se obtiene que la distribucin a posteriori de
2
es una gamma-
invertida de parmetros:
GaI
_
n/2 +,
1
nB
2
2
+
1
_
GaI
_
n/2 +,
2
nB
2
+ 2
_
Estimacin puntual
Como en otras secciones, se caracterizar la distribucin a posteriori con
una medida de tendencia central: media, mediana o moda.
Dada una distribucin GaI(, ) no hay ninguna frmula exacta para
calcular la mediana, por lo que se obtendr con ayuda del programa R. Para
ello es necesario instalar el paquete pscl. Las rdenes seran:
install.packages("pscl")
library(pscl)
mediana <- qigamma(0.5, ,
1
)
hemos demostrado que es:
2
| X
1
, . . . , X
n
GaI
_
n
2
1,
2
nB
2
_
media =
1
2
nB
2
(
n
2
1 1)
=
1
2
nB
2
(
n
2
2)
=
1
2
nB
2
n4
2
=
nB
2
n 4
moda =
1
2
nB
2
(
n
2
1 + 1)
=
1
2
nB
2
n
2
= B
2
mediana <- qigamma(0.5,
n
2
1,
nB
2
2
)
56
Cuando la distribucin a priori es una distribucin GaI(, ), la distri-
bucin a posteriori es:
2
| X
1
, . . . , X
n
GaI
_
n/2 +,
2
nB
2
+ 2
_
media =
1
2
nB
2
+2
(n/2 + 1)
moda =
1
2
nB
2
+2
(n/2 + + 1)
mediana <- qigamma(0.5, n/2 +,
nB
2
+2
2
)
Como en otras secciones, el intervalo de conanza del parmetro
2
ven-
dr determinado por dos valores tales que entre ellos hay una probabilidad
prejada vericando que:
Pr(a
2
b) =
Pr(
2
a) = Pr(
2
> b)
5.3. Media y varianza desconocidas
En este caso, consideramos una problacin X N(,
2
) donde
y
2
son desconocidas. Considerar tambin una muestra aleatoria simple
(X
1
, . . . , X
n
) a partir de X.
57
Estimacin puntual
El estimador puntual para se hace de forma anloga al caso en el que
2
era conocida, tanto para el mtodo de mxima verosimilitud como el mtodo
de los momentos porque el estimador puntual de no depende del parmetro
2
. Por tanto, tenemos que:
=

X
El estimador puntual de
2
sera la varianza muestral. La demostracin
por el mtodo de mxima verosimilitud es anloga al caso de conocida,
pero en el ltimo paso se tiene que reemplazar por el varlor

X que se acaba
de obtener como estimador puntual. De esta forma quedara que el estimador
para
2
es:

2
=
1
n
n
i=1
(X
i

X)
2
= S
2
Para estimar la varianza por el mtodo de los momentos, se haba de-
mostrado en el caso de conocida que:
2
= E[X
2
] =
2
+
2

2
=
2

2
1
Sustituyendo ahora
2
por a
2
y
1
por su estimador, quedara que:
2
=
n
i=1
X
2
i
n

X
2
=
1
n
n
i=1
(X
i

X)
2
= S
2
A pesar del atractivo de la varianza muestral por su justicacin mximo-
verosmil y por la del mtodo de los momentos (que la hace corresponder
con la varianza de la estadstica descriptiva), no se trata del estimador ms
habitual de la varianza poblacional en el enfoque clsico. Veamos por qu.
Una propiedad deseable en un estimador es que sea insesgado, es decir,
que su valor medio sea igual al parmetro que se quiere estimar:
T(

X) es un estimador insesgado para el parmetro si E[T(

X)] = .
Por ejemplo, la media muestral

X es un estimador insesgado para la
media poblacional ya que E[

X] = , para cualquiera que sea la distribucin
de la poblacin.
58
Cuando un estimador verica que E[T(

X)] = + b(), se dir que es
sesgado o descentrado, siendo b() su sesgo. Es interesante que un estima-
dor sea insesgado porque tomar valores que estarn alrededor del valor del
parmetro .
En este caso, se tiene que la varianza muestral es el estimador de la
varianza poblacional. Comprobaremos que se trata de un estimador sesgado,
es decir, E[S
2
] =
n1
n

2
donde el sesgo es
1
n
2
.
Previamente, hay que tener en cuenta que la varianza muestral se puede
escribir como:
S
2
=
n
i=1
(X
i

X + )
2
n
=
1
n
n
i=1
_
(X
i
) (

X )
_
2
Desarrollando el cuadrado se tiene:
S
2
=
1
n
_
n
i=1
(X
i
)
2
n(

X )
2
_
Calculamos ahora la esperanza de la varianza muestral a partir de la
expresin anterior:
E[S
2
] =
1
n
_
n
i=1
E
_
(X
i
)
2
nE
_
(

X )
2
_
Como la muestra es aleatoria y simple, la media muestral verica que
E[

X] = y V ar[

X] =

2
n
. La primera de las esperanzas que aparecen en la
expresin anterior es, para todo i, E[(X
i
)
2
] =
2
y la segunda, E[(

X
)
2
] =

2
n
. Por tanto:
E[S
2
] =
1
n
_
n
i=1
2
n
2
n
_
=
1
n
_
n
2
n
2
n
_
=
n 1
n

2
Considerar ahora la cuasivarianza muestral como estimador de la varianza
poblacional. Comprobaremos que es un estimador insesgado. Para ello hay
que tener en cuenta que la cuasivarianza se puede expresar en funcin de la
varianza como

S
2
=
n
n1
S
2
. Entonces la esperanza de

S
2
es:
59
E[
S
2
] = E
_
n
n 1
S
2
_
=
n
n 1
n 1
n

2
=
2
Por tanto, ya hemos demostrado que S
2
es un estimador sesgado y que
S
2
es un estimador insesgado para la varianza poblacional
2
.
Calcularemos un intervalo de conanza para utilizando el siguiente
estadstico pivote:
T(X
1
, . . . , X
n
, ) =
X
n

S/
n
t
n1
Para construir el intervalo de conanza, el siguiente paso es jar el coe-
ciente de conanza 1 con (0, 1). Se eligen dos probabilidades
1
,
2
con
1
+
2
= . Por ser la t de Student una distribucin continua y
simtrica respecto al 0, considerar
1
=
2
= /2.
Buscar ahora dos constantes
1
y
2
tales que:
Pr(T(X
1
, . . . , X
n
, ) <
1
)
1
Pr(T(X
1
, . . . , X
n
, )
2
) 1
2
De modo que:
Pr(
1
T(X
1
, . . . , X
n
, )
2
)
= Pr(T(X
1
, . . . , X
n
, )
2
) Pr(T(X
1
, . . . , X
n
, ) <
1
) 1
1 = Pr
_
1

X
n

S/
n

2
_
= Pr
_
n

X
n

2

n
_
= Pr
_

X
n
+
1

n

X
n
+
2

n
_
60
= Pr
_

X
n

2

n

X
n

1

n
_
Si x y s representan la media y la cuasi-desviacin tpica de la muestra de
observaciones independientes, el intervalo de conanza para con coeciente
de conanza 1 es:
_
x
2

s
n
; x
1

s
n
_
Calcularemos ahora un intervalo de conanza para
2
. Se utilizar el
siguiente estadstico pivote:
T(X
1
, . . . , X
n
) =
n S
2
2
=
(n 1)

S
2
2

2
n1
El siguiente paso es jar el coeciente de conanza 1 con (0, 1).
Como la distribucin del estadstico no es simtrica, los valores estn deter-
minados por convenio y son
1
=
1/2,n1
,
2
=
/2,n1
. De esta forma,
se tiene que:
1 = Pr
_
1

n S
2
2

2
_
= Pr
_

1
n S
2

1
2

2
n S
2
_
= Pr
_
n S
2
2

2
n S
2
1
_
Si s
2
representa la varianza de la muestra de observaciones independien-
tes, se tiene fcilmente un intervalo de conanza para
2
:
_
n
2
s
2
;
n
1
s
2
_
2
), se extrae una muestra aleatoria sim-
ple (X
1
, X
2
, . . . , X
n
). La funcin de verosimilitud de una poblacin normal
es:
f(X
1
, . . . , X
n
| ,
2
) =
_
1
(2
2
)
n/2
_
exp
_
(X
i
)
2
2
2
_
61
Desarrollando la suma de cuadrados que aparece en el exponente y te-
niendo en cuenta que

(X
i

X)(

X ) = 0, se obtiene:
(X
i

X)
2
=
(X
i

X +

X )
2
=
(X
i

X)
2
+
(

X )
2
Luego la funcin de verosimilitud quedara como:
f(X
1
, . . . , X
n
| ,
2
) =
1
(2
2
)
n/2
exp
_
(X
i

X)
2
+n(

X )
2
2
2
_
Esta expresin no se puede simplicar mucho ms, como ocurra en el
primer caso, ya que tanto como
2
son ahora variables. Pero recordando que
la varianza muestral es S
2
=
(X
i
X)
2
n
y sustituyendo en la verosimilitud,
se tiene:
f(X
1
, . . . , X
n
| ,
2
) =
1
(2
2
)
n/2
exp
_
nS
2
+n(

X )
2
2
2
_
Siguiendo un paralelismo con los casos anteriores, se considerarn dos
situaciones para la distribucin a priori.
Distribucin a priori uniforme: Tanto la distribucin de y como la de
2
son localmente uniformes, por lo que la funcin de probabilidad a priori
es una constante y la funcin de probabilidad a posteriori segn el teorema
de Bayes queda como:
f(,
2
| X
1
, . . . , X
n
)
1
(
2
)
n/2
exp
_
nS
2
+n(

X )
2
2
2
_
Esta distribucin es una normal-gamma-invertida, ya que es producto de
una funcin de probabilidad normal y una funcin de probabilidad gamma
invertida. Para demostrarlo, hay que calcular la distribucin marginal de
2
y la distribucin condicionada |
2
.
Hallar la distribucin marginal de
2
:
f
2
(
2
) =
_

1
(
2
)
n/2
exp
_
nS
2
+n(

X )
2
2
2
_
d
=
_

1
(
2
)
n/2
exp
_
nS
2
2
2
_
exp
_
n(

X )
2
2
2
_
d
62
Los primeros dos trminos de la integral son constantes respecto a , por
lo que se pueden sacar fuera, y quedara:
=
1
(
2
)
n/2
exp
_
nS
2
2
2
_ _

exp
_
n(

X )
2
2
2
_
d
=
1
(
2
)
n/2
exp
_
nS
2
2
2
_ _

_
2
2
/n
_
2
2
/n
exp
_
n(

X )
2
2
2
_
d
=
1
(
2
)
n/2
exp
_
nS
2
2
2
_
_
2
2
/n
_
_

X
/
n
__
=
=
(
2
)
n/2+1/2
exp
_
nS
2
2
2
_
Esto es la distribucin gamma-invertida GaI(
n3
2
,
2
nS
2
), ya que el expo-
nente de
2
es
n
2
+
1
2
=
n1
2
+ 1 1 =
n3
2
1
Vamos a calcular tambin la distribucin marginal de . Se hace inte-
grando la funcin de probabilidad a posteriori respecto de
2
, es decir:
f
1
() =
_

_
1
(2
2
)
n/2
_
exp
_
(X
i
)
2
2
2
_
d
2
En este caso, se ha utilizado como funcin de verosimilitud aquella en la
que no se ha desarrollado el cuadrado del sumatorio.
Se dene S
=
1
2
(X
i
)
2
, de modo que la integral queda como:
f
1
() =
_

_
1
(2
2
)
n/2
_
exp
_
2
_
d
2
(
2
)
n/2
exp
_
2
_
d
2
El exponente de
2
es n/2, sumando y restando 1 se obtiene que:
n/2 + 1 1 =
n + 2
2
1 =
_
n 2
2
+ 1
_
f
1
()
_

(
2
)
(
n2
2
+1)
exp
_
2
_
d
2
Para poder hallar la integral, hay que considerar la parte positiva del eje
real como espacio paramtrico de
2
y la distribucin gamma invertida:
f
1
()
_

0
(
2
)
(
n2
2
+1)
exp
_
2
_
d
2
=
_
n2
2
_
S
n2
2
n2
2
63
=
_
1
2
(X
i
)
2
_
n2
2
(X
i
)
2
_
n2
2
Desarrollando el cuadrado del sumatorio, como ya se hizo anteriormente,
se tiene que:
f
1
()
_
(X
i

X)
2
+n(

X )
2
_
n2
2
Considerando la denicin de varianza muestral S
2
y dividiendo todo por
nS
2
, se obtiene que:
f
1
()
_
nS
2
+n(

X )
2
n2
2
=
_
1 +
(

X )
2
S
2
_
n2
2
_
1 +
(

X )
2
(n 3)

S
2
n
_
n2
2
donde

S
2
=
1
n3
n
i=1
(X
i

X)
2
Esto es el ncleo de una distribucin t no tipicada. Por tanto, la distri-
bucin a posteriori de es una t con media

X, varianza
S
2
(n 3)
n(n 5)
=
n
i=1
(X
i

X)
2
n(n 5)
=
S
2
n 5
y n 3 grados de libertad. Notar que aunque las distribuciones a priori de
y
2
son independientes, sus distribuciones a posteriori no lo son.
Calcular ahora la probabilidad condicionada de |
2
. Viene dada por:
f( |
2
) =
f(,
2
)
f
2
(
2
)
Sustituyendo cada trmino por su expresin, se obtiene:
f( |
2
)
1
(
2
)
n/2
exp
_
nS
2
2
2
_
exp
_
n(

X)
2
2
2
_
(
2
)
n/21/2
exp
_
nS
2
2
2
_ =
exp
_
n(

X)
2
2
_
(
2
)
1/2
Esto es una distribucin normal N
_

X,

2
n
_
Por tanto, hemos demostrado que (,
2
) sigue una distribucin normal-
gamma-invertida:
,
2
| X
1
, . . . , X
n
NGaI
_

X,
1
n
;
n 3
2
,
2
nS
2
_
64
Distribucin a priori normal gamma invertida NGaI(m, c; a, b): La
funcin de probabilidad a priori de (,
2
) es:
f(,
2
) = f( |
2
) f(
2
)

1
exp
_
( m)
2
2c
2
_
(
2
)
a1
exp
_
1
b
2
_
La funcin de verosimilitud ya estaba calculada anteriormente. Luego la
funcin de probabilidad a posteriori segn el teorema de Bayes es:
f(,
2
| X
1
, . . . , X
n
)

1
(
2
)
a1
exp
_
( m)
2
2c
2

1
b
2
_
(
2
)
n/2
exp
_
nS
2
+n(

X )
2
2
2
_

1
(
2
)
n/2a1
exp
_
nS
2
2
2

1
b
2
_
exp
_
n(

X )
2
2
2

( m)
2
2c
2
_
Es una distribucin normal-gamma-invertida. Para demostrarlo, hay que
hallar la distribucin marginal de
2
y la distribucin condicionada |
2
.
La distribucin marginal de
2
se calcula como:
f
2
(
2
) =
_

f(,
2
| X
1
, . . . , X
n
)d
=
_

1
(
2
)
n/2a1
exp
_
nS
2
2
2

1
b
2

n(

X )
2
2
2

( m)
2
2c
2
_
d
Los primeros cuatro trminos de la integral son constantes respecto a ,
por lo que se pueden sacar fuera, por lo que calculamos la integral:
_

exp
_
n(

X )
2
2
2

( m)
2
2c
2
_
d
=
_

exp
_
nc(

X )
2
+ ( m)
2
2c
2
_
d
=
_

exp
_
1
2
_
nc(

X )
2
+ ( m)
2
c
2
__
d
=
_

exp
_
1
2
_
nc

X
2
2nc

X +nc
2
+
2
2m +m
2
c
2
__
d
=
_

exp
_
1
2
_
2
(nc + 1) 2(nc

X +m) + (nc

X
2
+m
2
)
c
2
__
d
65
Dividimos numerador y denominador por cn + 1, obtenemos:
=
_

exp
_
1
2
_
2
2
nc

X+m
nc+1
+
nc

X
2
+m
2
nc+1
c
2
nc+1
__
d
Sumando y restando
_
nc

X+m
nc+1
_
2
en el numerador, se obtiene la expresin
del cuadrado de una diferencia ms una constante:
=
_

exp
_
1
2
_
_
_
_

_
nc

X+m
nc+1
__
2
_
nc

X+m
nc+1
_
2
+
nc

X
2
+m
2
nc+1
c
2
nc+1
_
_
_
_
_
d
Los dos ltimos trminos del numerador y el denominador no dependen
de , por lo que queda:
exp
_
1
2
_
_
_
_

_
nc

X+m
nc+1
__
2
c
2
nc+1
_
_
_
_
_
d
=
_

_
2
c
2
nc+1
_
2
c
2
nc+1
exp
_
1
2
_
_
_
_

_
nc

X+m
nc+1
__
2
c
2
nc+1
_
_
_
_
_
d
=
_
2
c
2
nc + 1

Sustituyendo el valor de la integral en la expresin de la distribucin
marginal de
2
obtenemos que:
f
2
(
2
) =
1
(
2
)
n/2a1
exp
_
nS
2
2
2

1
b
2
_

= (
2
)
n/2a1
exp
_
bnS
2
+ 2
2b
2
_
Esto es la distribucin gamma-invertida GaI
_
n+2a
2
,
2b
bnS
2
+2
_
, ya que el
exponente de
2
es n/2 a 1 =
n+2a
2
1.
La distribucin marginal de se calcula como:
f
1
() =
_

f(,
2
| X
1
, . . . , X
n
) d
2
=
_

(
2
)
n
2
a1
1
2
exp
_
nS
2
2
2

1
b
2

n(

X )
2
2
2

( m)
2
2c
2
_
d
2
66
Para poder hallar la integral, hay que considerar la parte positiva del eje
real como espacio paramtrico de
2
y la distribucin gamma invertida:
=
_

0
(
2
)
(
n+2a+1
2
+1)
exp
_
2
_
nS
2
2
+
1
b
+
n(

X )
2
2
+
( m)
2
2c
__
d
2
=
_
n + 2a + 1
2
_
_
nS
2
2
+
1
b
+
n(

X )
2
2
+
( m)
2
2c
_
n+2a+1
2
_
nS
2
2
+
1
b
+
n(

X )
2
2
+
( m)
2
2c
_
n+2a+1
2
=
_
bcnS
2
+ 2c +bcn(

X )
2
+b( m)
2
2bc
_
n+2a+1
2
=
_
bcnS
2
+ 2c +bcn

X
2
2bcn

X +bcn
2
+b
2
2bm +bm
2
2bc
_
n+2a+1
2
=
_
2
(bcn +b) 2(bcn

X +bm) +bcnS
2
+ 2c +bcn

X
2
+bm
2
2bc
_
n+2a+1
2
Dividiendo numerador y denominador por bcn +b se obtiene:
=
_
2
2
bcn

X+bm
bcn+b
+
bcnS
2
+2c+bcn

X
2
+bm
2
bcn+b
2bc
bcn+b
_
n+2a+1
2
=
_
2
2
cn

X+m
cn+1
+
cnS
2
+2c/b+cn

X
2
+m
2
cn+1
2c
cn+1
_
n+2a+1
2
Ahora sumamos y restamos en el numerador
_
cn

X+m
cn+1
_
2
, con lo que ob-
tenemos la expresin del cuadrado de una diferencia ms una constante:
=
_
_
_
_

cn

X+m
cn+1
_
2
_
cn

X+m
cn+1
_
2
+
cnS
2
+2c/b+cn

X
2
+m
2
cn+1
2c
cn+1
_
_
_
n+2a+1
2
=
_
_
_
_

cn

X+m
cn+1
_
2
+
c
2
n
2
X
2
2cnm

Xm
2
+(cn+1)cnS
2
+(cn+1)2c/b+c
2
n
2
X
2
+cn

X
2
+cnm
2
+m
2
(cn+1)
2
2c
cn+1
_
_
_
n+2a+1
2
=
_
_
_
_

cn

X+m
cn+1
_
2
+
2cnm

X+(cn+1)cnS
2
+(cn+1)2c/b+cn

X
2
+cnm
2
(cn+1)
2
2c
cn+1
_
_
_
n+2a+1
2
67
=
_
_
_
_

cn

X+m
cn+1
_
2
+
cn(

Xm)
2
+(cn+1)cnS
2
+(cn+1)2c/b
(cn+1)
2
2c
cn+1
_
_
_
n+2a+1
2
Multiplicamos numerador y denominador por cn + 1:
=
_
_
_
(cn + 1)
_

cn

X+m
cn+1
_
2
+
cn(

Xm)
2
+(cn+1)cnS
2
+(cn+1)2c/b
cn+1
2c
_
_
_
n+2a+1
2
Ahora multiplicando numerador y denominador por
2c(cn + 1)
cn(

X m)
2
+ (cn + 1)cnS
2
+ (cn + 1)2c/b
nos queda que:
_
_
_
(cn + 1)
_

cn

X+m
cn+1
_
2
cn(

Xm)
2
+(cn+1)cnS
2
+(cn+1)2c/b
cn+1
+ 1
_
_
_
n+2a+1
2
=
_
_
_
1 +
(cn + 1)
_

cn

X+m
cn+1
_
2
ncS
2
+c/b +
cn
cn+1
(

X m)
2
_
_
_
n+2a+1
2
=
_
_
_
1 +
n(c + 1/n)
_

cn

X+m
cn+1
_
2
ncS
2
+c/b +
cn
cn+1
(

X m)
2
_
_
_
n+2a+1
2
=
_
_
_
1 +
_

cn

X+m
cn+1
_
2
(n + 2a)

S
2
n
_
_
_
n+2a+1
2
donde

S
2
=
ncS
2
+c/b+
cn
cn+1
(

Xm)
2
(n+2a)(c+1/n)
.
Esto es el ncleo de una distribucin t no tipicada con media
cn

X+m
cn+1
,
varianza:
(n + 2a)
S
2
n(n + 2a 2)
= (n + 2a)
ncS
2
+c/b +
cn
cn+1
(

X m)
2
n(n + 2a)(c + 1/n)(n + 2a 2)
=
ncS
2
+c/b +
cn
cn+1
(

X m)
2
(nc + 1)(n + 2a 2)
68
y n + 2a grados de libertad.
Por ltimo, calcular la probabilidad condicionada de |
2
que viene
dada por la expresin:
f( |
2
) =
f(,
2
)
f
2
(
2
)
Sustituyendo cada trmino por su expresin, se obtiene:
f( |
2
)
1
(
2
)
n/2a1
exp
_
nS
2
2
2

1
b
2

n(

X)
2
2
2

(m)
2
2c
2
_
(
2
)
n/2a1
exp
_
bnS
2
+2
2b
2
_
=
1
exp
_
n(

X )
2
2
2

( m)
2
2c
2
_
Desarrollaremos los cuadrados y reagruparemos trminos:
f( |
2
)
1
exp
_
cn

X
2
2cn

X +cn
2
+
2
2m +m
2
2c
2
_
=
1
exp
_
2
(cn + 1) 2(cn

X +m) + (cn

X
2
+m
2
)
2c
2
_
Diviendo numerador y denominador por cn + 1 se obtiene que:
=
1
exp
_
2
2
cn

X+m
cn+1
+
cn

X
2
+m
2
cn+1
2c
2
cn+1
_
Sumando y restando en el numerador
_
cn

X+m
cn+1
_
2
, llegamos a que:
f( |
2
)
1
exp
_
_
_

cn

X+m
cn+1
_
2
_
cn

X+m
cn+1
_
2
+
cn

X
2
+m
2
cn+1
2c
2
cn+1
_
_
Como los dos ltimos trminos de la exponencial no dependen de po-
demos quitarlos y la expresin quedara:
f( |
2
)
1
exp
_
1
2
_

cn

X+m
cn+1
_
2
c
2
cn+1
_
_
Esto es una distribucin normal N
_
cn

X+m
cn+1
,
c
cn+1
2
_
.
Luego la distribucin a posteriori de (,
2
) es:
NGaI
_
cn

X +m
cn + 1
,
c
cn + 1
;
n + 2a
2
,
2b
bnS
2
+ 2
_
69
Estimacin puntual
Como en otras ocasiones, la distribucin a posteriori se caracterizar con
una medida de tendencia central: media, mediana o moda.
marginal de es:
| X
1
, . . . , X
n
t
n3

X
En este caso, la distribucin a posteriori marginal de
2
es:
2
| X
1
, . . . , X
n
GaI
_
n 3
2
,
2
nS
2
_
Por tanto, las medidas de tendencia central se calculan como:
media =
1
2
nS
2
(
n3
2
1)
=
nS
2
n 5
moda =
1
2
nS
2
(
n3
2
+ 1)
=
nS
2
n 1
n3
2
,
nS
2
2
)
Cuando la distribucin a priori es una distribucin NGaI(m, c; a, b), la
distribucin a posteriori marginal de es una t no tipicada, luego las me-
didas de tendencia central son:
cn

X +m
cn + 1
En este caso, la distribucin a posteriori marginal de
2
es:
2
| X
1
, . . . , X
n
GaI
_
n + 2a
2
,
2b
bnS
2
+ 2
_
Luego las medidas de tendencia central se calculan como:
media =
1
2b
bnS
2
+2
(
n+2a
2
1)
=
bnS
2
+ 2
bn + 2ab 2b
70
moda =
1
2b
bnS
2
+2
(
n+2a
2
+ 1)
=
bnS
2
+ 2
bn + 2ab + 2b
n+2a
2
,
bnS
2
+2
2b
)
Como en otras secciones, el intervalo para viene determinado por dos
valores entre los cuales hay una probabilidad prejada , vericando que:
Pr(a b) =
Pr( a) = Pr( > b)
Dada una distribucin t no tipicada no hay ninguna frmula exacta para
calcular los cuantiles. Es como la distribucin t de Student, pero centrada
en la media y proporcional a la varianza, por lo que los cuantiles se hallarn
con ayuda de R. Las rdenes son:
qt.notipica <- function (prob, nu, mu, sigma)
mu + sigma * qt (prob, nu)
cuantil<- qt.notipica (prob, mi.nu, mi.mu, mi.sigma)
El intervalo para
2
se calculara buscando dos valores entre los cuales
hay una probabilidad prejada .
Pr(c
2
d) =
Pr(
2
c) = Pr(
2
> d)
5.4. Ejemplo
Tenemos una poblacin de pacientes con queratocono. Se sabe que la
varible periparacentral medida antes de la operacin sigue una distribucin
normal, pero ambos parmetros son desconocidos. Se ha elegido una muestra
aleatoria simple de 980 pacientes. Tenemos que hacer una estimacin puntual
y por intervalo para y
2
de forma clsica y bayesiana.
71
Enfoque clsico: La estimacin puntual para es:
=

X
n
= 1,060814
La estimacin puntual para
2
es:

2
= S
2
= 0,3845107
Tambin se puede utilizar como estimacin puntual para
2
:

2
=

S
2
=
n
n 1
S
2
=
980
979
0,3845107 = 0,3849035
Calculemos ahora el intervalo de conanza para . Para ello se utilizar
el estadstico pivote:
T(X
1
, . . . , X
n
, ) =
X
n

S/
n
=
1,060814
_
0,3849035/980
t
979
El siguiente paso es jar el coeciente de conanza 1 = 0,95. Se eligen
dos probabilidades
1
,
2
, en este caso
1
=
2
= 0,05/2 = 0,025.
A continucin buscar dos constantes
1
y
2
tales que:
Pr
_
1,060814
_
0,3849035/980
<
1
_
0,025
Pr
_
1,060814
_
0,3849035/980

2
_
1 0,025
Los valores se calculan con R:
qt(0.025 , 979) # = -1.96239
qt(1-0.025;979) # = 1.96239
0,05 = Pr
_
1,96239
1,060814
_
0,3849035/980
1,96239
_
= Pr(1,96239 0,01981814 1,060814 1,96239 0,01981814)
= Pr(1,060814 0,03889092 1,060814 + 0,03889092)
72
= Pr(1,099705 1,021923) = Pr(1,021923 1,099705)
El intervalo de conanza para con coeciente de conanza 0,95 es:
[1,021923; 1,099705]
Calcularemos ahora un intervalo de conanza para
2
. Se utilizar el
siguiente estadstico pivote:
T(X
1
, . . . , X
n
) =
n S
2
2
=
980 0,3845107
2

2
979
El coeente de conanza se ja de nuevo en 1 = 0,95. Como la
distribucin del estadstico no es simtrica, los valores estn determinados
por convenio y son
1
=
0,025;979
= 894,1825,
2
=
10,025;979
= 1067,606.
De esta forma, se tiene que:
0,05 = Pr
_
894,1825
980 0,3845107
2
1067,606
_
= Pr
_
894,1825
376,8205

1
2

1067,606
376,8205
_
= Pr
_
376,8205
1067,606

2
376,8205
894,1825
_
= Pr
_
0,3529585
2
0,4214134
_
El intervalo de conanza para
2
es:
[0,3529585; 0,4214134]
Enfoque bayesiano: Como no disponemos de informacin previa, consi-
deramos que la distribucin a priori es localmente uniforme para y para
2
.
Por tanto, la funcin de probabilidad a priori es una constante y la funcin
de probabilidad a posteriori segn el teorema de Bayes es:
f(,
2
| X
1
, . . . , X
n
)
1
(
2
)
n/2
exp
_
nS
2
+n(

X )
2
2
2
_
Hemos demostrado anteriormente que esta es una distribucin normal-
gamma-invertida puesto que es producto de una funcin de probabilidad
normal y una funcin de probabilidad gamma invertida, es decir:
,
2
| X
1
, . . . , X
n
NGaI
_
1,060814,
1
980
;
977
2
,
2
980 0,3845107
_
73
,
2
| X
1
, . . . , X
n
NGaI(1,060814, 0,001020408; 488,5, 0,005307567)
La distribucin marginal de
2
es GaI
_
n3
2
,
2
nS
2
_
, en este caso:
GaI
_
977
2
,
2
980 0,3845107
_
= GaI(488,5; 0,005307567)
La distribucin marginal de es una t no tipicada con 977 grados de
libertad:
f
1
()
_
1 +
(

X )
2
S
2
_
n2
2
=
_
1 +
(1,060814 )
2
0,3845107
_
489
Hacer la estimacin puntual para en funcin de los resultados obtenidos:
media = moda = mediana = 1,060814
La estimacin puntual para
2
es cualquiera de las siguientes medidas
centrales:
media =
nS
2
n 3
=
980 0,3845107
977
= 0,3856914
moda =
nS
2
n + 1
=
980 0,3845107
981
= 0,3841187
mediana <- qigamma(0.5,488.5,1/0.005307567) # = 0.3859547
A continuacin, vamos a calcular el intervalo de probabilidad para
determinando dos valores entre los cuales hay una probabilidad 0,95. Hallar
los valores a y b que verican:
Pr(a b) = 0,95
Pr( a) = Pr( > b)
Utilizando la funcin denida anteriormente en R:
qt.notipica(0.025, 977, 1.060814, sqrt(0.3845107/975)) # = 1.021843
qt.notipica(0.975, 977, 1.060814, sqrt(0.3845107/975)) # = 1.099785
74
Por tanto, el intervalo de conanza para con probabilidad 0,95 es:
[1,021843 ; 1,099785]
El intervalo de probabilidad 0,95 para
2
se calculara de forma anloga:
qigamma(0.025,488.5,1/0.005307567) # = 0.3536504
qigamma(0.975,488.5,1/0.005307567) # = 0.4223161
Conclumos as que el intervalo para
2
con probabilidad 0,95 es:
[0,3536504 ; 0,4223161]
75
Captulo 6
Familias conjugadas
La estadstica bayesiana busca distribuciones a priori conjugadas porque
determinan que las distribuciones a posteriori sigan una forma paramtrica
conocida.
Si F es una familia de distribuciones muestrales f(x | ) y P es una fami-
lia de distribuciones a priori f() para , entonces la famila P es conjugada
con F si:
f( | x) P para todo f( | ) F y f() P
Veamos a continuacin unos ejemplos:
1. Dada una poblacin X B(1, p), se extrae una muestra aleatoria sim-
ple (X
1
, . . . , X
n
). Si utilizamos una distribucin a priori de la familia
beta, es decir, p (a, b), ya demostramos que la distribucin a pos-
teriori es (a +
X, b +n
X). Se dice que la distribucin beta es

conjugada con la distribucin muestral binomial.
2. Sea la poblacin X N(,
2
) con
2
conocido, se extrae una muestra
aleatoria simple (X
1
, . . . , X
n
). Considerar que la distribucin a priori
es N(
0
,
2
0
). Vimos anteriormente que la distribucin a posteriori
es N
_
n
2
0
X+
2
2
+n
2
0
,

2
2
0
2
+n
2
0
_
. La distribucin normal es conjugada
con la distribucin muestral normal.
76
3. Considerar una poblacin X N(,
2
) con ambos parmetros desco-
nocidos de la que se extrae una muestra aleatoria simple (X
1
, . . . , X
n
).
Consideramos la distribucin a priori (,
2
) NGaI(m, c; a, b), de-
mostramos que la distribucin a posteriori es
NGaI
_
cn

X +m
cn + 1
,
c
cn + 1
;
n + 2a
2
,
2b
bnS
2
+ 2
_
Luego la distribucin normal-gamma-invertida es conjugada con la dis-
tribucin muestral normal.
La ventaja de las distribuciones a priori conjugadas es que el proceso de
aprendizaje consiste simplemente en cambiar los valores de los parmetros
de la distribucin a priori. Adems, hay varios casos en los que se puede
relacionar la media a posteriori con la media a priori y el estimador mximo-
verosmil.
En el ejemplo de la binomial, la media a posteriori es:
E[p | X
1
, . . . , X
n
] =
+
X
+ +n
=
( +)

+
+n
X
n
+ +n
= wE[p] + (1 w) p
donde w =
+
++n
y p =
X es el estimador mximo-verosmil.
En el caso de la normal, la media a posteriori es:
E[ | X
1
, . . . , X
n
] = wE[] + (1 w)
donde =

X es el estimador mximo-verosmil y w =
n
2
0
2
+n
2
0
.
77
Captulo 7
Conclusiones
La principal diferencia entre la estadstica bayesiana y clsica es el enfo-
que que se hace del problema. En la estadstica bayesiana, hay una distribu-
cin a priori y se considera como una distribucin de probabilidad subjetiva
porque representa la informacin y creencias subjetivas de un experimen-
tador acerca de dnde es probable que se encuentre el verdadero valor del
parmetro desconocido . En la estadstica clsica, no se considera apropiado
hablar de una distribucin de probabilidad de , porque el verdadero valor
del parmetro es un nmero jo (desconocido) y no una variable aleatoria.
Por lo que la principal crtica a la inferencia bayesiana es que las con-
clusiones dependen de la seleccin de la distribucin a priori. Aunque para
otros esto es lo interesante de la inferencia bayesiana puesto que permite uti-
lizar la informacin subjetiva junto con la objetiva, obteniendo un resultado
teniendo en cuenta toda la informacin disponible. Este es un debate an
no cerrado. Sin embargo, se debe indicar que tambin en inferencia clsica
los conocimientos a priori son utilizados implcitamente. Por ejemplo, el co-
nocimiento a priori es utilizado para formular un modelo de verosimilitud
apropiado. Otro ejemplo est en los contrastes de hiptesis, las creencias a
priori acerca de lo creble que puede ser una hiptesis son utilizadas fre-
cuentemente para ajustar el nivel de signicacin del constraste. As, si se
78
cree que los datos pueden conducir al rechazo de la hiptesis, esto se puede
ajustar escogiendo un nivel de signicacin conveniente. En este sentido la
inferencia bayesiana formaliza la incorporacin de la informacin subjetiva.
En situaciones de completa ignorancia sobre aprioris, se utilizan las dis-
tribuciones a priori no informativas. En algunos de estos casos, las aprioris
producen estimaciones que corresponden con las usuales. A pesar de las di-
ferencias, en el ejemplo resuelto anteriormente sobre la poblacin normal, se
puede apreciar que los resultados han salido muy similares entre s. En la es-
tadstica clsica el intervalo de conanza para
2
es [0,3529585 ; 0,4214134] y
el intervalo por el mtodo bayesiano es [0,3536504 ; 0,4223161] con apriori no
informativa. Esto ilustra que el uso de distribuciones a priori no contamina
necesariamente el anlisis estadstico.
Al tratar al parmetro desconocido como una variable aleatoria, la in-
ferencia bayesiana se basa completamente en la teora de la probabilidad. El
uso directo de la probabilidad para expresar lo que intutivamente se entiende
de la estadstica en cuestiones inferenciales tiene muchas ventajas y signica
que toda inferencia puede ser tratada en trminos de declaraciones proba-
bilsticas para . Por ejemplo, un intervalo (de probabilidad) bayesiano de
un parmetro desconocido puede considerarse directamente como que tie-
ne una alta probabilidad de contener al parmetro desconocido, a diferencia
del intervalo (de conanza) clsico el cual puede ser interpretado en relacin
con la secuencia de inferencias similares que estn hechas en experimentos
repetidos.
Muchas expresiones en la inferencia bayesiana son obtenidas por integra-
cin. Esta operacin representar un papel vital en el anlisis bayesiano. Por
ejemplo, para calcular distribuciones marginales. El hecho de que la integra-
cin analtica no sea siempre factible diculta el uso del modelo. Adems,
la integracin numrica es difcil de implementar si no es para un problema
que tenga pocos parmetros.
79
Bibliografa
[1] DeGroot, Morris H.: Probabilidad y estadstica, Addison-Wesley Iberoa-
mericana (1988).
[2] Berger, James O.: Statistical Decision Theory and Bayesian Analysis,
Springer Series in Statistics. (Author)
[3] Serrano Angulo, Jos: Iniciacin a la estadstica bayesiana, Editorial La
Muralla (2003).
[4] Sorensen, Daniel; Gianola, Daniel: Likelihood, Bayesian and mcmc met-
hods in quantitative genetics, Springer (2002).
[5] Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B.:
Bayesian Data Analysis, Chapman & Hall/CRC (2009).
[6] McGrayne, Sharon B.: La teora que nunca muri, Editorial Crtica
(2012).
[7] TeLoYDisRen, grupo de investigacin: Inferencia estadstica, Universi-
dad de Cdiz.
80
ndice alfabtico
a posteriori
distribucin, 21, 31, 32, 3638,
4044, 48, 49, 51, 52, 5557,
70, 76
probabilidad, 4, 15
a priori
distribucin, 21, 31, 3638, 40
44, 48, 51, 56, 62, 70, 73, 76
79
probabilidad, 4, 15
Andrews, 9
Bailey, 7
Bayes, 3, 4
regla de, 3, 59
teorema de, 4, 6, 7, 9, 10, 14, 20,
21, 31, 36, 37, 40, 42, 50, 62,
65, 73
Berger, 8
Bertrand, 5
Borel, 6
coeciente de conanza, 31, 35, 39,
47, 54, 61, 72, 73
conjugada, 76, 77
Corneld, 7, 8
Craven, 9
De Finetti, 6
distribucin
Bernoulli, 22, 29
Beta, 24, 36, 37, 42, 76
Binomial, 22, 33, 36, 76
condicionada, 20, 62
Gamma, 24
Gamma-invertida, 25, 5557, 63,
66
marginal, 62, 63, 65, 66, 74
Normal, 23, 45, 48, 64, 69, 71, 76
Normal-gamma-invertida, 26, 62,
64, 65, 73, 77
t no tipicada, 25, 64, 71
Uniforme, 23, 29, 40
Dreyfus, 6
estadstico, 28
pivote, 31, 35, 39, 47, 54, 60, 72
estimacin
por intervalo, 27, 30, 32, 39
puntual, 27, 28, 32, 39, 40, 42, 72,
81
74
estimador, 28, 30, 33, 35, 45, 53, 58
insesgado, 5860
mximo-verosmil, 29, 30, 34, 46,
77
sesgado, 59, 60
Fisher, 6
funcin
de densidad, 16, 37
de densidad conjunta, 18
de densidad marginal, 19
de distribucin, 17
de probabilidad, 16, 36
de probabilidad conjunta, 18
de probabilidad marginal, 19
de verosimilitud, 21, 2729, 31,
34, 36, 46, 48, 53, 54, 6163,
65
Good, 7
intervalo de conanza, 31, 35, 39, 40,
47, 54, 60, 61, 72, 73
Jereys, 6
Laplace, 4, 5
Lindley, 7, 9
Mandasky, 8
Montecarlo
de Mrkov, 10
mtodo de, 9
Mosteller, 8
Neyman, 6
Pearson, 6
Poincar, 6
Price, 4
probabilidad, 12
condicionada, 13
teorema de probabilidad total, 14,
20
qt.notipica, 71
queratocono, 38, 71
Ramsey, 6
Savage, 7, 8
Smith, 9
suceso, 11, 12
independiente, 13
Turing, 6, 7
variable aleatoria, 15, 30, 31
bidimensional, 17
continua, 16
discreta, 15
independientes, 19
mixta, 19
verosimilitud, 15
Wallace, 8
82

Inferencia Bayesiana

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Inferencia Bayesiana

Hochgeladen von

Copyright:

Verfügbare Formate

Inferencia estadstica Bayesiana

ngela Corte Gonzlez

f(x, y)dx para x R

f(x, y)dy para y R

X). Se dice que la distribucin beta es

Das könnte Ihnen auch gefallen