You are on page 1of 9

Regla de Bayes

Pedro J. Rodrguez Esquerdo


Instituto de Estadstica y Sistemas Computadorizados de Informacin
Facultad de Administracin de Empresas
y
Departamento de Matemticas
Facultad de Ciencias Naturales
Recinto de Ro Piedras
Universidad de Puerto Rico

1. Ejemplos de Probabilidad condicional


El Teorema o Regla de Bayes ofrece un mtodo para invertir el evento que condiciona a otro evento al
calcular una probabilidad condicional: si A y B son eventos y se conocen P(A | B), P( B ), P(A | Bc ), entonces la
regla permite calcular P( B | A ). La necesidad de calcular este ltimo valor a partir de la informacin disponible
es imprescindible para entender las consecuencias de algunas de nuestras decisiones.
Ejemplo 1
Una fbrica de botellas cuenta con dos mquinas para producir 10,000 botellas al da. La mquina A produce
6,500 botellas diarias de las cuales 2% son defectuosas. La mquina B produce 3,500 botellas cada da de las
cuales 1% son defectuosas. El inspector de calidad de la compaa selecciona una botella al azar y encuentra
que est defectuosa. Cul es la probabilidad de que la botella haya sido producida por la mquina A?
Para visualizar mejor los datos, se representan en un diagrama de rbol. Denote por A el evento de que
la botella seleccionada haya sido producida por la mquina A y por B el evento de que haya sido producida por
la mquina B. El evento de que la botella seleccionada sea defectuosa se denota por D, mientras que su
complemento Dc representa una botella que no es defectuosa.
Comienzo

Mquina
0.65

Botella
D

Resultados
AD

0.98

Dc

ADc

0.01

BD

0.99

Dc

BDc

fabricar botella

0.35

0.02

La probabilidad de que una botella cualquiera haya sido producida por la mquina A es 0.65, pues de las
10,000 producidas, 6,500 son producidas por A. Interesa calcular P( A | D ), la cual no se puede obtener de
forma directa de los datos o del rbol que los representa. Para esto se recurre directamente a la definicin de
probabilidad condicional: P( A | D) = P( A D ) / P( D ).

Teorema de Bayes

p. 2

Las cantidades P( A D ) y P( A ) se pueden obtener del rbol. Para que una botella seleccionada al azar
sea una botella defectuosa producida por la mquina A, se selecciona primero la mquina A y de las botellas
producidas all se selecciona una defectuosa. La expresin P( A D ) = P( A ) P( D | A ) equivale a hacer una
travesa en el rbol desde su raz o comienzo, hasta la hoja final donde se obtiene el resultado A D. As
P( A D ) = 0.65 0.02.
Para encontrar P( D ) es necesario darse cuenta de que
una botella defectuosa puede ser producida por la mquina A o
BDc
por la B. Al examinar las hojas del rbol, se encuentran dos
lugares donde se obtiene una botella defectuosa: A D o B D.
ADc
Defectuosas
Esto equivale a hacer una travesa por uno de dos caminos en el
AD BD
rbol. Estos caminos son mutuamente excluyentes, pues si se
camina por uno no puede caminarse por el otro. Segn se
muestra en la Figura 1, el evento D = ( A D ) ( B D ) y su
Mquina B
Mquina A
probabilidad es entonces calculada
P( D ) = P( A D) + P( B D ).
Figura 1 Particin de la produccin de botellas.
El primero de estos trminos P( A D ) ya fue
calculado. El segundo, P( B D ), se obtiene de forma similar, P( B D ) = P( B )P( D | B ). Juntando estos
resultados, P( D ) = P( A ) P( D | A ) + P( B ) P( D | B ). Finalmente se calcula la probabilidad deseada:

6,500
.02
P(A) P( D | A)
.013
10,000
P( A | D )

.788
P( D | A)P(A) P(D | B)P(B) 6,500
3,500
.013 .0035
.02
.01

10,000
10,000

Por lo tanto, una vez se sabe que una botella seleccionada al azar est defectuosa, la probabilidad de
que haya sido producida por la mquina A es .788. Dicho de otra manera, de todas las botellas defectuosas
produdidas, aproximadamente el 79% son producidas por la mquina A.
Pregunta 1
Cmo se puede explicar que la mquina A produzca el 79% de las botellas defectuosas?
Este hecho se debe a dos factores. El primero es que la mquina A produce casi el doble de botellas que
la mquina B. An si la tasa de botellas defectuosas fuera la misma para ambas mquinas, por el mero hecho de
producir un mayor nmero de botellas, la mquina A producira casi el doble de defectuosas de la mquina B. El
segundo factor es que la tasa de produccin de defectuosas de la mquina A es el doble de la correspondiente
de la mquina B. En este caso, an si ambas mquinas produjeran la misma cantidad de botelllas, las producidas
por la mquina A contendran el doble de botellas defectuosas que las que vienen de la mquina B.
Ejemplo 2
El gobierno aprob una ley para hacer obligatorio que los cerca de 200,000 empleados pblicos se
sometan a una prueba para detectar si son usuarios de drogas. Se estima que el 1% de los empleados pblicos
del pas son usuarios de drogas. La prueba que se ofrece muestra un resultado positivo en el 98% de los casos en
que se le administra a una persona que usa drogas, es decir, detecta el 98% de los usuarios de drogas. De
manera similar, si la persona no usa droga alguna, la prueba arroja un resultado negativo en el 99% de los casos.
2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 3

Se selecciona un empleado al azar, se le administra la prueba y se obtiene un resultado positivo. Cul es la


probabilidad de que la persona sea un usuario de drogas?
Se representan los datos mediante un diagrama de rbol. Denote por U el evento de que la persona sea
un usuario de drogas, por Pos el evento de que la prueba resulte positiva y por Neg el evento de que la prueba
resulte negativa. En el lenguaje de la epidemiologa, al por ciento de personas de la poblacin de inters que
poseen la caracterstica deseada, en este caso usuarios de drogas, se le llama la prevalencia. En este ejemplo la
prevalencia del uso de drogas es del 1%.
A la capacidad de una prueba para detectar aquellas personas que poseen la caracterstica de inters se
le llama la sensitividad de la prueba. La sensitividad describe el por ciento de personas cuyo resultado de la
prueba sera positivo de entre aquellas que poseen la caracterstica deseada, en este caso, usan drogas. La
sensitividad de esta prueba para la deteccin de usuarios de drogas es 98%.
Otra medida es la especificidad. Esta indica el por ciento de personas cuyo resultado de la prueba sera
negativo de entre aquellas que no poseen la caracterstica deseada, en este caso, que no usan drogas. La
especificidad de esta prueba para la deteccin de usuarios de drogas es 99%.
As, la prevalencia indica que al seleccionar una persona al azar de entre los 200,000 empleados
pblicos, P( U ) = 0.01. La sensitividad de la prueba dice que P( Pos | U ) = 0.98 y de la misma manera la
especificidad se traduce a P( Neg | Uc ) = 0.99.1

Comienzo

Usa Drogas?

Resultados

0.98

Resultado de la
prueba
Pos

0.02

Neg

UNeg

0.01

Pos

UcPos

0.99

Neg

UcNeg

UPos

U
0.01
0.99
c

La pregunta que interesa contestar es: cunto es P( U | Pos)? Al


igual que antes la contestacin a esta pregunta no se puede obtener de
forma directa de los datos o del rbol que los representa. Por lo tanto se
recurre nuevamente a la definicin de probabilidad condicional:
P( U | Pos ) = P( U Pos ) / P( Pos ).
Del rbol se obtienen las cantidades P( U Pos ) y P( Pos ).
Siguiendo el mismo proceso de antes, P( U Pos ) = P( U ) P( Pos | U ), lo
que equivale a caminar por el rbol desde la raz hasta la hoja para obtener
el resultado U Pos. As P( U Pos ) = 0.01 0.98.

Pos
Uc
U
Figura 2 Particin de las personas

Estas dos ltimas probabilidades no se pueden sumar, ya que son valores obtenidos bajo condiciones distintas, la base de
comparacin no es la misma. En el primer caso se compara la cantidad de resultados positivos del total de usuarios de
drogas mientras que el segundo compara la cantidad de resultados negativos al total de personas que no usan drogas.

2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 4

Para encontrar P( Pos ), se considera que la prueba puede arrojar un resultado positivo cuando la
persona es un usuario de drogas o en el caso en que no lo sea. Por esta razn hay dos caminos mutuamente
excluyentes en el rbol donde se obtiene un resultado positivo. Segn se muestra tambin en la Figura 2, el
evento Pos = ( U Pos ) ( Uc Pos ) y su probabilidad es P( Pos )= P( U Pos ) + P( Uc Pos ). El trmino
P( U Pos ) ya haba sido calculado, el segundo se obtiene de forma similar. Obtenemos entonces que
P( Uc Pos ) = P( Uc ) P( Pos | Uc ). Uniendo estos resultados tenemos que
P( Pos ) = P( U ) P( Pos | U) + P( Uc ) P( Pos | Uc). La probabilidad deseada es

P(U | Pos )

P(U) P( Pos | U)
.01 .98
.0098

.497
c
c
P(U) P( Pos | U) P(U ) P(Pos | U ) .01 .98 .99 .01 .0098 .0099

La contestacin a la pregunta es P( U | Pos) = 0.497, es decir, la probabilidad de que una persona


seleccionada al azar entre los 200,000 empleados sea un usuario de drogas si la prueba da positivo, es 0.497.
Pregunta 2
De la poblacin a la que se administra la prueba, cuntos resultados positivos se esperara observar? cuntos
falsos positivos habra? Explica las razones por la cules una prueba con sensitividad y especificidad tan altas,
resulta que ms de la mitad de los resultados positivos corresponden a personas que no son usuarios.
Esta ltima pregunta se puede contestar examinando cuidadosamente el numerador y el denominador
de P( U | Pos ). Si no se cuenta con una prueba de mejor sensitividad y especificidad que sta, qu es posible
hacer, si no se puede cambiar P(Pos | U) ni P(Neg | Uc)? Ante esta limitacin tecnolgica, slo es posible
trabajar con P( U ). Este valor slo puede cambiar si al modificar la poblacin de la cual se seleccionan las
personas a quienes se administrar la prueba.
Pregunta 3
Discuta los costos asociados a ofrecer pruebas de drogas a 200,000 personas para detectar a 2,000 usuarios.
Hay costos no econmicos? Existe un plan para ayudar a las personas que son usuarios de drogas y a los que
reciben un falso positivo? Ofrecen estas pruebas una solucin al problema social del uso de drogas? Suponga
que P( U ) = 0 .25, encuentre P(U | Pos). Cmo se lograra ese aumento en P( U ) en la realidad?
Ejemplo 3
Considere una caja con 5 canicas, dos de ellas son rojas y las otras tres son azules. Se selecciona una canica al
azar, sin mirarla se guarda en el bolsillo. Luego se selecciona otra canica al azar. Esta segunda canica resulta ser
de color rojo. Cul es la probabilidad de que la primera canica haya sido tambin roja?
En la seccin anterior se resolvi una situacin similar
imaginando que antes de seleccionar la primera canica, se ha
mirado dentro de la caja y removido la canica que se observar
en la segunda seleccin, reservando la segunda canica. La
primera canica slo puede ser seleccionada de entre las restantes
4 canicas, de las cuales 1 de ellas es roja. Por esta razn la
probabilidad deseada es 1/4.

R1

R2
B1

Es de inters encontrar un mtodo formal para contestar


estas preguntas. Denote el evento de que la primera canica
Figura 3 Particin del color de la segunda
canica segn el color de la primera canica.
2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 5

seleccionada es roja por R1 y el evento de que la segunda sea roja por R2. Entonces la probabilidad buscada es
P( R1 | R2 ).

1/4
2/5
3/4

3/5

2/4
2/4

Figura 4. Diagrama de rbol que ilustra el experimento de seleccionar dos canicas de una caja
La definicin de probabilidad condicional permite escribir P( R1 | R2 ) = P( R1 R2 ) / P( R2 ). Para
encontrar el numerador se usa nuevamente la definicin de probabilidad condicional,
P( R1 R2 ) = P( R2 | R1 )P( R1 ). Ahora se calcula el denominador, P( R2 ) descomponiendo el evento R2 en dos
eventos disyuntos, tal como en la Figura 4: R2 = (B1 R2) (R1 R2). De esta manera se obtiene la probabilidad
P( R2 ) = P( B1 R2 ) + P ( R1 R2 ).
Usando nuevamente la definicin de probabilidad condicional P( B1 R2) = P( R2 | B1 )P( B1 ). Por lo
tanto, el denominador es P(R2) = P(R2 | R1)P(R1) + P(R2 | B1)P(B1). El resultado deseado es igual que antes:

1 2

P( R2 | R1 ) P( R1 )
1
4
5
P( R1 | R2 )

.
P( R2 | R1 ) P( R1 ) P( R2 | B1 ) P( B1 ) 1 2 2 3 4

4 5 4 5
Ejemplo 4
En el 1991 los contribuyentes de Puerto Rico sometieron un total de 1,320,600 planillas de contribucin
sobre ingresos al Departamento de Hacienda. Los datos se desglosan en la siguiente tabla por nivel de ingreso y
si la planilla se somete conjunta o por separado.
Nivel de ingreso

Planillas conjuntas rendidas


Planillas separadas rendidas
(miles)
(miles)
menos de 20,000
457.5
565.7
20,000 a 30,000
88.7
84.9
30,000 a 50,000
55.3
33.2
50,000 o ms
20.1
15.2
Total
621.6
699.0
Fuente: Reforma Contributiva en Puerto Rico 1994. Estudio Tcnico. Editorial UPR.
Tabla 1. Desglose de contribuyentes en Puerto Rico en el ao 1991
2012 Pedro J. Rodrguez Esquerdo

Total
1,023.2
173.6
88.5
35.3
1,320.6

Teorema de Bayes

p. 6

Pregunta 4
El Secretario de Hacienda selecciona una planilla al azar.Cul es la probabilidad de que la planilla haya sido
sometida en forma conjunta si el nivel de ingreso en ella era menor de $20,000? Cul es la probabilidad de que
el nivel de ingreso en ella era menor de $20,000 si la la planilla fue sometida en forma conjunta?
Para contestar la primera pregunta, se examina la primera fila de la Tabla 1, donde todas las planillas
sometidas, 1,023,000, reflejan un ingreso menor de $20,000. De esas, 457,500 fueron sometidas en forma
conjunta, as la probabilidad deseada es: 475.5 / 1,023.0 = 0.46.
Para contestar la segunda pregunta se examina en vez la columna correspondiente a las planillas que se
sometieron en forma conjunta. El total que se indica al final de esa columna ser la base de comparacin. Se
sometieron 621,600 planillas conjuntas de las cuales 457,500 corresponden a planillas que adems indicaron un
ingreso menor de $20,000. Por lo tanto la probabilidad buscada es 475.5 / 621.6 = 0.76.
Si se usara como base de comparacin los resultados obtenidos para describir la poblacin de planillas
recibidas, de las planillas que reflejaron un ingreso menor de $20,000, el 46% correspondan a planillas
sometidas en forma conjunta. En el otro caso, de todas las planillas sometidas en forma conjunta, el 76%
corresponde a planillas que reflejan un ingreso menor de $20,000. Estos dos porcentajes no son iguales ni
significan lo mismo pues reflejan bases de comparacin distintas.
En una tabla es muy fcil calcular probabilidades condicionales. En este caso, aunque en la prctica no se
usara el mtodo de anlisis que ofrece la regla de Bayes, es ejemplo que sigue ilustra su uso, con el fin de
presentar una forma organizada de resolver estos problemas.
Denote por C el evento de que la planilla se somete en forma conjunta, por S el evento de que la planilla
se somete por separado y por I el ingreso reflejado en la planilla. De la definicin de probabilidad condicional,

P( C { I $20,000})
P( C { I $20,000})

P( { I $20,000})
P{ C { I $20,000}} { S { I $20,000}}
P C { I $20,000}

.
P C { I $20,000}) P( S { I $20,000}
P( C | I $20,000)

Se usa nuevamente la definicin de probabilidad condicional para reescribir el denominador:


P( C { I < $20,000 } ) = P ( I < $20,000 | C) P( C ) y P( S { I < $20,000 } ) = P( I < $20,000 | S) P( S ). As,

P( C | I $20,000)

P( I $20,000 | C ) P(C )
.
P( I $20,000 | C)P(C) P( I $20,000 | S) P( S )

Pregunta 5
Representa estos datos usando un diagrama de Venn.

2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 7

2. Probabilidad total y la regla de Bayes


Los ejemplos anteriores permiten el descubrimiento, formulacin y desarrollo de resultados formales
para calcular estas probabilidades condicionales, cuando su valor no se puede obtener directamente de los
datos. En esos ejemplos, primero se us la definicin de probabilidad condicional para expresarla en trminos
de otros eventos cuyas probabilidades son conocidas. Como segundo paso, se descompuso el evento deseado,
sin condicin alguna, en la unin de eventos disyuntos cuyas probabilidades son conocidas y finalmente se
calcul la probabilidad deseada.
Teorema 1 (Frmula de la probabilidad total)
Sea S un espacio muestral, P una medida de probabilidad en S y
B un evento en S. Sea A1, A2, , An una particin de S, es decir,
eventos disyuntos tal que S

A2

A3

A4

A5

A , entonces
i

i 1

P( B) P( Ai ) P( B | Ai ) .

i 1

Prueba.
Ya que A1, A2, , An es una particin de S, sique que el evento B
se puede rescribir B = B S = B (

A6

A ) = ( B A ) . Ahora
i

i 1

i 1

Figura 5 Particin del evento B

se usa el hecho de que los eventos B Ai, i = 1, , n son


disyuntos y la definicin de probabilidad condicional para
calcular la probabilidad de B:
n

A1

( B A )) P( B A ) P( A ) P( B | A ) .

P(B) = P(

i 1

i 1

i 1

La Figura 5 arriba muestra la particin de B. En este ejemplo, cada trmino B Ai i = 1, 2, 3, 4, 5, 6


corresponde a cada uno de los "pedacitos" en que fue dividido B. La interseccin del evento A6 con el evento B
es vaca, por lo cual P( B A6) = 0. Para calcular la probabilidad de cada pedacito, se usa la definicin de
probabilidad condicional, as P( B Ai ) = P( B | Ai )P( Ai ), i = 1, 2, 3, 4, 5, 6.
Imagine que la Figura 5 representa un tablero de dardos y que la probabilidad de que el dardo caiga en
una determinada regin del tablero es igual a su rea. Se lanza el dardo y se conoce que cay en la regin
marcada por B, entonces, cul es la probabilidad de que haya caido en A2? Para contestar esta pregunta es
necesario usar la regla de Bayes.
Teorema 2 (Regla de Bayes)
Sea S un espacio muestral, P una medida de probabilidad en S y B un evento en S. Sea A1, A2, , An una particin
de S. Entonces para cada i = 1, 2, 3, ..., n

P( Ai | B)

P( Ai ) P( B | Ai )
n

P( A ) P( B | A )
j 1

2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 8

Prueba.

P( B Ai )
. Para calcular el numerador se usa
P( B)
nuevamente la definicin, esta vez condicionando por Ai, P( B Ai ) P( B | Ai ) P( Ai ). El denominador se
De la definicin de probabilidad condicional P( Ai | B)

obtiene aplicando la Frmula de probabilidad total, para obtener

P( Ai | B)

P( B Ai ) P( Ai ) P( B | Ai )

P( B)
P( B)

P( Ai ) P( B | Ai )
n

P( A ) P( B | A )
j 1

Pregunta 6
Expresa los problemas presentados en los ejemplos 1,2, 3 y 4 en trminos de la regla de Bayes. Indica a qu
corresponden la particin y el evento B.

3. Problemas y ejercicios
1. Una fbrica tiene tres mquinas para producir bombillas. La mquina A produce el 35% del total de bombillas,
la mquina B produce el 50% y la mquina C produce el 15% de las bombillas. Sin embargo, las mquinas no son
perfectas, la mquina A daa el 10% de las bombillas que produce. La mquina B daa el 5% y la mquina C daa
el 20%.
a. Representa estos datos en un diagrama de rbol.
b. La fbrica produce 10,000 bombillas sin defectos en un da. Cuntas de stas corresponden a la
mquina A? Cuntas daa en un da?
c. Si seleccionamos una bombilla de la mquina C, cul es la probabilidad de que est defectuosa?
d. Luego de fabricadas, pero antes de probarlas, las bombillas se colocan juntas en un saln. Si se
selecciona una bombilla al azar, cul es la probabilidad de que est defectuosa?
e. Si se comprueba que una bombilla est defectuosa, cul es la probabilidad de que provenga de la
mquina B?
2. Una muestra de 400 adultos varones con angina de pecho son clasificados por peso y estatura como sigue:
Peso (libras)
Edad (aos)
130-149
150-169
170-189
190 o ms
30-39
10
20
20
40
40-49
10
15
50
70
50-59
5
15
50
40
60-69
5
10
15
25
Un individuo se selecciona al azar de entre los 400 participantes. Encuentra la probabilidad de que:
a. tiene entre 40-49 aos de edad
b. est en el intervalo de 40-49 aos y pesa 170-189 libras
c. est en el intervalo 40-49 aos entre 60-69 aos
d. est en el intervalo 30-39 o 50-59 aos y pesa 150-169 libras
e. pesa menos de 170 libras
f. pesa menos de 190 libras y es mayor de 49 aos
g. pesa menos de 170 libras dado que es menor de 50 aos
h. Son los eventos {tiene 60-69 aos} , {pesa 130-149 libras} independientes? Explica.
i. Son los eventos {tiene 50-59 aos} , {pesa 130-149 libras} mutuamente excluyentes? Explica.
2012 Pedro J. Rodrguez Esquerdo

Teorema de Bayes

p. 9

3. Un estudio neurolgico sobre la relacin entre la presin sangunea alta y la incidencia de derrame cerebral
encontr que:
a. para personas mayores de 70 aos, el 10% tendr un derrame dentro de los prximos cinco aos
b. de todos los pacientes de 70 aos o ms que han tenido un derrame, el 40% tena presin alta
c. para personas de 70 aos o mas que no ha sufrido de derrame, el 20% tiene presin alta.
d. Un paciente de 74 aos visita a su mdico y ste le encuentra con la presin alta. Cul es la
probabilidad de que sufra un derrame cerebral en los prximos cinco aos?

2012 Pedro J. Rodrguez Esquerdo