You are on page 1of 31

Bayesian Networks and Decision Graphs 2ed_Finn V.

Jensen traduo

1. Pr-requisitos sobre Teoria da Probabilidade


Neste captulo, analisamos alguns resultados e definies padro da teoria de
probabilidade. Supe-se que o leitor tenha tido algum contato com a teoria da probabilidade
antes, e o propsito desta seo simplesmente aperfeioar alguns dos conceitos bsicos e
introduzir algumas das noes usadas nos captulos posteriores. As Sees 1.1-1.3 so pr-
requisitos para a Seo 2.3 e, posteriormente, a Seo 1.4 um pr-requisito para o Captulo 4
e a Seo 1.5 um pr-requisito para o Captulo 6 e o Captulo 7.

1.1 Duas Perspectivas sobre Teoria da Probabilidade

Em muitos domnios, a probabilidade de ver um determinado resultado de um


experimento pode ser interpretada como a frequncia relativa de ver esse resultado particular
em todas as experincias realizadas. Por exemplo, se voc lanar um dado de seis lados, ento
voc diria que a probabilidade de obter um trs 1/6, porque se jogarmos este dado um
grande nmero de vezes que esperaramos ver um trs em aproximadamente 1 / 6 das jogadas.
Na mesma linha de raciocnio, diramos tambm que se tirarmos aleatoriamente uma carta de
um baralho composto por 52 cartas, ento a probabilidade de que seja uma p seja 13/52. Esta
interpretao da probabilidade assenta no pressuposto de que existe algum processo
estocstico que pode ser repetido vrias vezes e a partir do qual as frequncias relativas
podem ser contadas. Por outro lado, muitas vezes falamos sobre a probabilidade de ver um
determinado evento, embora no podemos especificar uma frequncia para ele. Por exemplo,
posso estimar que a probabilidade de que a equipe de futebol dinamarquesa vena a Copa do
Mundo em 2010 p. Esta probabilidade o meu prprio juzo pessoal de como provvel
que a equipe dinamarquesa realmente ganhe, e baseado na minha crena, experincia e
estado atual de informao. Entretanto, outra pessoa pode especificar outra probabilidade para
o mesmo evento, e no tem nenhum significado procurar maneiras de determinar que de ns
direito, se qualquer um. Essas probabilidades so referidas como probabilidades subjetivas.
Uma maneira de interpretar minha probabilidade subjetiva de a Dinamarca vencer a Copa do
Mundo em 2010 imaginar as seguintes duas apostas:
1. Se a equipe de futebol dinamarquesa ganhar a copa do mundo em 2010, vou receber
$ 100.
2. Eu desenharei uma bola de uma urna contendo 100 bolas, das quais n so brancas e
100-n so pretas. Se a bola branca, ento vou receber $ 100 em 2010.
Se todas as bolas so brancas, ento eu prefiro a segunda aposta, e se todas as bolas
so pretas, ento eu prefiro a primeira. No entanto, para um certo n entre 0 e 100 vou ser
indiferente sobre as duas apostas, e para este n, n / 100 ser a minha probabilidade subjetiva
de que a equipe de futebol dinamarquesa vai ganhar a Copa do Mundo.

1.2 Fundamentos da Teoria da Probabilidade

Para ambas as vises sobre probabilidade descritas acima, vamos nos referir ao
conjunto de possveis resultados de uma experincia como o espao de amostra da
experincia. Aqui usamos o termo um tanto abstrato "experimento" para se referir a qualquer
tipo de processo para o qual o resultado incerto, por exemplo, o lanamento de um dado e o
vencedor da Copa do Mundo. Tambm assumiremos que o espao amostral de uma
experincia contm todos os resultados possveis da experincia e que cada par de resultados
so mutuamente exclusivos. Essas premissas garantem que o experimento garantido para
acabar em exatamente um dos resultados especificados no espao de amostra. Por exemplo,
para o exemplo acima, o espao amostral seria S = {1, 2, 3, 4, 5, 6}, e para o exemplo de
futebol o espao amostral seria S = {yes, no}, supondo que estou interessado apenas em saber
se a equipe dinamarquesa vai ganhar; ambos os espaos de amostra satisfazem as suposies
acima. Um subconjunto de um espao de exemplo chamado de evento. Por exemplo, o
evento que
Ns obteremos um valor de trs ou mais com um dado de seis lados corresponde ao
subconjunto {3, 4, 5, 6} {1, 2, 3, 4, 5, 6} e o evento ocorrer se o O resultado do
lanamento um elemento do conjunto. Em geral, dizemos que um evento A verdadeiro
para uma experincia se o resultado da experincia um elemento de A. Quando um evento
contm apenas um elemento, tambm nos referiremos ao evento como um resultado.
Para medir nosso grau de incerteza sobre uma experincia, atribumos uma probabilidade P
(A) a cada evento A S. Essas probabilidades devem obedecer aos seguintes trs axiomas:
O evento S de que obteremos um resultado no espao de amostra certo que ocorrer e,
portanto, atribuda a probabilidade 1.

Axioma 1 P (S) = 1.

Qualquer evento A deve ter uma probabilidade no negativa.

Axioma 2 Para todos os A S considera que P (A) 0.

Se dois eventos A e B so disjuntos (ver Figura 1.1 (a)), ento a probabilidade do evento
combinado a soma das probabilidades para os dois eventos individuais:

Axioma 3 Se A S, B S e AB = , ento P (AB) = P (A) + P (B).

Por exemplo, o evento em que um dado ir aparecer 3, B = {3} e o evento que o dado ter um
nmero par, A = {2, 4, 6}, so dois eventos disjuntos, e a probabilidade de um desses dois
eventos ocorrer , portanto,

FIG. 1.1. Na figura (a) os dois eventos A e B so disjuntos, enquanto que na figura (b),
AB .

Por outro lado, se A e B no so disjuntos (ver Figura 1.1 (b)), ento pode ser facilmente
mostrado que

P(AB) = P(A) + P(B) P(AB),


Onde AB a interseco entre A e B e representa o evento que tanto A como B iro ocorrer.
Considere novamente um baralho com 52 cartas. O evento A que eu desenharei uma p e o
evento B que eu desenharei um rei claramente no so eventos disjuntos; Sua interseo
especifica o evento que eu vou chamar o rei de espadas, A B = {rei de espadas}. Assim, a
probabilidade de eu atrair um rei ou uma

Notao: s vezes vamos enfatizar que uma probabilidade baseada em uma frequncia (em
vez de ser uma probabilidade subjetiva), caso em que vamos usar a notao P #. Se o evento A
contm apenas um resultado a, escrevemos P (a) em vez de P ({a}).

1.2.1 Probabilidades condicionais

Sempre que dada uma declarao sobre a probabilidade P (A) de um evento A, ento
ela implicitamente condicionada por outros fatores conhecidos. Por exemplo, uma afirmao
como "a probabilidade de o dado virar 6 1 6" normalmente tem o pr-requisito no
declarado de que um dado justo, ou melhor, enquanto eu no sei mais nada, eu acho que
uma feira morrer. Isso significa que a declarao deve ser "dado que um dado justo, a
probabilidade. . . . "Desta forma, qualquer declarao sobre probabilidades uma declarao
condicionada ao que mais conhecido. Esses tipos de probabilidades so chamados
probabilidades condicionais e so geralmente declaraes do seguinte tipo:
"Dado o evento B, a probabilidade do evento A p."
A notao para a afirmao anterior P (A | B) = p. Deve-se ressaltar que P (A | B) = p
no significa que sempre que B verdadeiro, ento a probabilidade de A p. Significa que se
B verdadeiro, e tudo o mais irrelevante para A, ento a probabilidade de A p.
Suponha que atribumos probabilidades a todos os subconjuntos do espao de amostra S, e
que A e B sejam subconjuntos de S (Figura 1.1 (b)). A questo se a atribuio de
probabilidade para S pode ser usada para calcular P (A | B). Se conhecemos o evento B, ento
todos os resultados possveis so elementos de B, e os resultados para os quais A pode ser
verdadeiro so AB. Ento, ns procuramos a atribuio de probabilidade para AB dado
que sabemos B. Saber B no muda a proporo entre as probabilidades de A B e outro
conjunto C B (se, por exemplo, eu apostaria duas vezes mais em A B como em C B,
depois de saber B, ainda aposto duas vezes mais em AB como em C B). Podemos concluir
que as propores P (A B) / P (C B) e P (A | B) / P (C | B) devem ser iguais.
Definindo C = B, e como sabemos do Axioma 1 que P (B | B) = 1, justificamos a seguinte
propriedade, que deve ser considerada um axioma.

Propriedade 1.1 (Probabilidade condicional). Para dois eventos A e B, com P (B) > 0, a
probabilidade condicional para A dada B

Por exemplo, a probabilidade condicional de que um dado venha para cima 4 dado que temos
um nmero par P (A = {4} | B = {2, 4, 6}) = P ({4}) / P ({2, 4, 6}), e assumindo que o dado
1/6
justo, obtemos = 1/3.
3 /6
Obviamente, ao trabalhar com probabilidades condicionais tambm podemos condicionar em
mais de um evento, caso em que a definio de uma probabilidade condicional generaliza
como
1.2.2 Clculo da Probabilidade

A expresso na propriedade 1.1 pode ser reescrita de modo que obtemos a chamada regra
fundamental para clculo de probabilidade:

Teorema 1.1 (A regra fundamental).

P(A|B) P(B) = P(AB). (1.1)

Ou seja, a regra fundamental nos diz como calcular a probabilidade de ver tanto A quanto B
quando sabemos a probabilidade de A dado B e a probabilidade de B.
Por condicionamento em outro evento C, a regra fundamental tambm pode ser escrita como

P(A|B C) P(B |C) = P(AB|C).

Como P (AB) = P (BA) (e tambm P (AB | C) = P (BA | C)), obtemos que P (A | B)


P(B) = P (A B) = P (B | A) P (A) da regra fundamental. Isso gera a conhecida regra de
Bayes:

Teorema 1.2 (regra de Bayes).

A regra de Bayes nos fornece um mtodo para atualizar nossas crenas sobre um
evento A, uma vez que obtemos informaes sobre outro evento B. Por esta razo, P (A)
geralmente chamada a probabilidade prvia de A, enquanto que P (A | B) Chamada
probabilidade posterior de A dado B; A probabilidade P (B | A) chamada probabilidade de A
dado B. Para uma explicao desse uso estranho do termo, veja o Exemplo 1.1.
Finalmente, quanto regra fundamental, tambm podemos afirmar a regra de Bayes
num contexto C:

Exemplo 1.1. Temos duas doenas a1 e a2, as quais podem causar o sintoma b. Seja P (b | a1) =
0,9 e P (b | a2) = 0,3. Suponha que as probabilidades anteriores para a1 e a2 so as mesmas
(P(a1) = P (a2)). Agora, se b ocorre, a regra de Bayes d

Mesmo que no possamos calcular as probabilidades posteriores, podemos concluir que a1


trs vezes mais provvel que a2 dado o sintoma b.
Se tambm sabemos que a1 e a2 so as nicas causas possveis de b, podemos ir ainda mais
longe (assumindo que a probabilidade de ter ambas as doenas 0). Ento P (a1 | b) + P (a2 |
b) = 1, e obtemos
1.2.3 Independncia condicional

s vezes, informaes sobre um evento B no mudam nossa crena sobre a ocorrncia de


outro evento A, e neste caso dizemos que A e B so independentes.

Definio 1.1 (Independncia). Os eventos A e B so independentes se

P (A | B) = P (A).

Por exemplo, se jogarmos dois dados justos, ento vendo que o primeiro dado aparece 2 no
vai mudar nossas crenas sobre o resultado do segundo dado.
Esta noo de independncia simtrica, de modo que se A independente de B, ento B
independente de A:

A prova requer que P (A) > 0, portanto, se P (A) = 0, os clculos no so vlidos. No entanto,
para nossas consideraes no importa; Se A impossvel por que se preocupar considerando
isso?
Quando dois eventos so independentes, ento a regra fundamental pode ser reescrita como

P (AB) = P (A | B) P (B) = P (A) P (B).

Ou seja, podemos calcular a probabilidade de que ambos os eventos ocorrero multiplicando


as probabilidades para os eventos individuais.
O conceito de independncia tambm aparece quando estamos condicionados em vrios
eventos. Especificamente, se a informao sobre o evento B no mudar nossa crena sobre o
evento A quando j conhecemos o evento C, ento dizemos que A e B so condicionalmente
independentes dados C.

Definio 1.2 (Independncia condicional). Os eventos A e B so condicionalmente


independentes dado o evento C se

P (A | B C) = P (A | C).

Similar situao acima, a declarao de independncia condicional simtrica. Se A


condicionalmente independente de B dado C, ento B condicionalmente independente de
A dado C:

Alm disso, quando dois eventos so condicionalmente independentes, ento podemos usar
uma regra de multiplicao semelhante acima quando calcular a probabilidade de que ambos
os eventos ocorrero:
P (AB | C) = P (A | C) P (B | C).

Note que quando dois eventos so independentes na verdade um caso especial de


independncia condicional mas com C = .

1.3 Clculo de Probabilidade para Variveis

At agora, falamos sobre probabilidades de eventos simples e resultados com relao a


um determinado espao de amostra. Neste livro, no entanto, estaremos trabalhando com uma
coleo de espaos de amostra, tambm chamados de variveis, e agora estenderemos os
conceitos acima para probabilidades sobre variveis. Uma varivel pode ser considerada uma
experincia, e para cada resultado da experincia a varivel tem um estado correspondente. O
conjunto de estados associados a uma varivel A denotado por sp (A) = (a1, a2, ..., an), e
semelhante ao espao de amostra esses estados devem ser mutuamente exclusivos e
exaustivos. A ltima suposio garante que a varivel est em um de seus estados (embora
possamos no saber qual), e a primeira suposio garante que a varivel est em apenas um
estado. Por exemplo, se D for uma varivel representando o resultado de rolar um dado, ento
seu espao de estado seria sp (D) = (1, 2, 3, 4, 5, 6). Usaremos letras maisculas para
variveis e letras minsculas para estados e, a menos que indicado de outra forma, uma
varivel tem um nmero finito de estados.
Para uma varivel A com estados a1,. . . ,an, expressamos nossa incerteza sobre seu
estado atravs de uma distribuio de probabilidade P (A) sobre esses estados:

Onde xi a probabilidade de A estar no estado ai. Uma distribuio chamada de uniforme


(ou mesmo) se todas as probabilidades forem iguais.
Notao: Em geral, a probabilidade de A estar no estado ai denotada por P (A = ai), e
denotada por P (ai) se a varivel bvia do contexto.
Como falamos sobre probabilidades condicionais para eventos, tambm podemos falar
sobre probabilidades condicionais para variveis: Se a varivel B tem estados b 1,. . . , bm,
ento P (A | B) contm n m probabilidades condicionais P (ai | bj) que especificam a
probabilidade de ver ai dado bj. Isto , a probabilidade condicional para uma varivel dada a
outra varivel um conjunto de probabilidades (normalmente organizadas em uma tabela n
m) com uma probabilidade para cada configurao dos estados das variveis envolvidas (ver
Tabela 1.1 para um exemplo). Alm disso, como P (A | B) especifica uma distribuio de
probabilidade para cada evento B = bj, sabemos a partir do Axioma 1 que as probabilidades
sobre A devem somar 1 para cada estado de B:

Tabela 1.1. Um exemplo de uma tabela de probabilidade condicional P (A | B) para a varivel


binria A dada a varivel ternria B. Note que para cada estado de B as probabilidades de A
somam at 1.

A probabilidade de ver resultados conjuntos para diferentes experimentos pode ser expressa
pela probabilidade conjunta de duas ou mais variveis: Para cada configurao (ai, bj) das
variveis A e B, P (A, B) especifica a probabilidade de ver tanto A = ai e B = bj. Assim, P (A,
B) constitudo por nmeros n m e, semelhante a P (A | B), P (A, B) normalmente
representado em uma tabela n m (ver Tabela 1.2 para um exemplo). Note-se que, uma vez
que os espaos de estados de A e B so mutuamente exclusivos e exaustivos, segue-se que
todas as combinaes de seus estados (o produto cartesiano) so tambm mutuamente
exclusivas e exaustivas, podendo, portanto, ser consideradas um espao de amostra. Assim,
pelo Axioma 1,

Tabela 1.2. Um exemplo de uma tabela de probabilidade conjunta P (A, B) para a varivel
binria A e a varivel ternria B. Note que a soma de todas as entradas 1.

Quando a regra fundamental (equao (1.1)) usada nas variveis A e B, o procedimento


aplicar a regra a cada uma das configuraes n m (ai, bj) das duas variveis:

Isto significa que na tabela P (A | B), cada probabilidade em P (A | bj) multiplicada por P (bj)
para obter a tabela P (A, bj), e fazendo isto para cada bj obtemos P (A, B). Se P (B) = (0,4, 0,4,
0,2), ento a Tabela 1.2 o resultado da utilizao da regra fundamental na Tabela 1.1 (ver
tambm Tabela 1.3).

Tabela 1.3. A Tabela de Probabilidade Conjunta P (A, B) na Tabela 1.2 pode ser encontrada
multiplicando P (B) = (0,4, 0,4, 0,2) por P (A | B) na Tabela 1.1.

Quando aplicada a variveis, a regra fundamental expressa da seguinte forma:

Teorema 1.3 (A regra fundamental para variveis).

P (A, B) = P (A | B) P (B),

E condicionada a outra varivel C temos

P (A, B | C) = P (A | B, C) P (B | C).

A partir de uma tabela de probabilidade conjunta P (A, B), a distribuio de probabilidade P


(A) pode ser calculada considerando os resultados de B que podem ocorrer em conjunto com
cada estado ai de A. Existem exatamente m resultados diferentes para os quais A est em
Estado ai, ou seja, os resultados mutuamente exclusivos (ai, b1),. . . , (ai, bm).
Portanto, pelo Axioma 3,
Esse clculo chamado de marginalizao, e dizemos que a varivel B marginalizada de
P(A, B) (resultando em P (A)). A notao

Ao marginalizar B da Tabela 1.2, obtemos


P(A) = (0.16 + 0.12 + 0.12, 0.24 + 0.28 + 0.08) = (0.4, 0.6),

E marginalizando A, obtemos

P (B) = (0,16 + 0,24, 0,12 + 0,28, 0,12 + 0,08) = (0,4, 0,4, 0,2).

Ou seja, a operao de marginalizao nos permite remover variveis de uma distribuio de


probabilidade conjunta.
A regra de Bayes para eventos (Teorema 1.2) tambm pode ser estendida a variveis, tratando
a diviso da mesma maneira que tratamos a multiplicao acima.

Teorema 1.4 (regra de Bayes para variveis).

E condicionada a outra varivel C temos

Observe que as duas igualdades nas equaes seguem de (1) a regra fundamental e (2) o
operador de marginalizao descrito acima.
Aplicando a regra de Bayes usando P (A), P (B) e P (A | B) como especificado acima,
obtemos P (B | A) mostrados na Tabela 1.4.

Tabela 1.4. A probabilidade condicional P (B | A) obtida aplicando a regra de Bayes a P (A |


B) na Tabela 1.1, P (A) = (0,4, 0,6) e P (B) = (0,4, 0,4, 0,2). Observe que as probabilidades
sobre B somam 1 para cada estado de A.

O conceito de independncia (condicional) tambm definido para as variveis.

Definio 1.3 (Independncia condicional para variveis). Duas variveis A e C so


consideradas condicionalmente independentes, dada a varivel B se
P (ai | ck, bj) = P (ai | bj)
Para cada ai sp (A), bj sp (B) e ck sp (C).

Como notao abreviada, escreveremos P (A | C, B) = P (A | B).


Isto significa que quando o estado de B conhecido, ento nenhum conhecimento de C
alterar a probabilidade de A. Observe que exigimos que a declarao de independncia seja
vlida para cada estado de B; se o conjunto de condicionamento estiver vazio,
Digamos que A e C so marginalmente independentes ou apenas independentes (escritos
como P (A | C) = P (A)).
Quando duas variveis A e C so condicionalmente independentes, dado B, ento a regra
fundamental (Teorema 1.3) pode ser simplificada:
P (A, C | B) = P (A | B, C) P (C | B) = P (A | B) P (C | B).
Na expresso acima, multiplicamos duas tabelas de probabilidade condicional em domnios
diferentes. Felizmente, o mtodo para fazer esta multiplicao uma extenso direta do que
fizemos at agora:

P(ai, ck | bj) = P(ai | bj)P(ck | bj).

Por exemplo, ao multiplicar P (A | B) e P (C | B) (especificados na Tabela 1.1 e Tabela 1.5,


respectivamente) obtemos a probabilidade conjunta P (A, C | B) na Tabela 1.6.

Tabela 1.5. A tabela de probabilidades condicionais P (C | B) para a varivel ternria C dada a


varivel ternria B.

Tabela 1.6. Se A e C so condicionalmente independentes dados B, ento P (A, C | B) pode ser


encontrado multiplicando P (A | B) e P (C | B) conforme especificado na Tabela 1.1 e Tabela
1.5, respectivamente.

1.3.1 Clculos com tabelas de probabilidade: um exemplo

Para ilustrar os teoremas acima, assumimos que tem trs variveis, A, B, e C, com as
probabilidades que na Tabela 1.7. Recebemos evidncias A = a2 e C = c1 e agora gostaramos
de calcular a tabela de probabilidade condicional P (B | a2, c1).

Tabela 1.7. Uma tabela de probabilidade conjunta para as variveis A, B e C. Os trs nmeros
em cada entrada correspondem aos estados c1, c2 e c3.

Primeiro, focamos na parte da tabela correspondente a A = a2 e C = c1, e obtemos

P (a2, B, c1) = (0.1, 0.1, 0.2). (1.2)

Para calcular P (B | a2, c1), podemos usar o Teorema 1.4:


Marginalizando B fora da equao (1.2) obtemos
P (a2, c1) = 0,1 + 0,1 + 0,2 = 0,4.
Finalmente, ao realizar a diviso na equao (1.3) obtemos

Outra maneira de fazer o mesmo dizer que queremos transformar P (a2, B, c1) em uma
distribuio de probabilidade. Como os nmeros no somam um, normalizamos a distribuio
dividindo cada nmero pela soma de todos os nmeros.
Suponha agora que nos foi dada apenas a evidncia A = a2, e queremos calcular P (B | a2, C).
O clculo desta tabela de probabilidade segue as mesmas etapas acima, exceto que agora
trabalhamos com tabelas durante os clculos. Como antes, comeamos por focar na parte de P
(A, B, C) correspondente a A = a2 e obtemos o resultado na Tabela 1.8.
Para calcular P (B | a2, C) usamos

A probabilidade P (a2, C) encontrada marginalizando B fora da Tabela 1.8:

P (a2, C) = (0.1 + 0.1 + 0.2, 0.1 + 0 + 0.0 + 0.1 + 0.05) = (0.4, 0.1, 0.15), (1.5)

E inserindo isso na equao (1.4) obtemos o resultado mostrado na Tabela 1.2.

Tabela 1.8. A tabela de probabilidades P (a2, B, C) que corresponde parte da tabela de


probabilidades da Tabela 1.8 restrita a A = a2.

Tabela 1.9. O clculo de P (B | a2, C) usando P (a2, B, C) (Tabela 1.1) e P (a2, C) (equao
(1.5)).

1.4 Uma lgebra de Potenciais

Abaixo listamos algumas propriedades da lgebra de multiplicao e marginalizao de


tabelas. As tabelas no precisam ser probabilidades (condicionais), e geralmente so
chamadas de potenciais.
Um potencial uma funo de valor real sobre um domnio de variveis finitas X:

O domnio de um potencial denotado por dom (). Por exemplo, o domnio


Do potencial P (A, B | C) dom (P (A, B | C)) = {A, B, C}.
Dois potenciais podem ser multiplicados, indicados por um ponto (frequentemente
suprimido).
Multiplicao tem as seguintes propriedades:
1. dom (12) = dom (1) dom (2).
2. A lei comutativa: 12 = 21.
3. A lei associativa: (12) 3 = 1 (23).
4. Existncia da unidade: O potencial unitrio 1 um potencial que contm apenas
1 e definido sobre qualquer domnio tal que 1 = , para todos os potenciais .
O operador de marginalizao definido na Seo 1.3 pode ser generalizado para potenciais
De modo que A um potencial sobre dom () \ {A}. Alm disso, a marginalizao
comutativo:

Para potenciais da forma P (A | V), onde V um conjunto de variveis, temos

5. A propriedade potencial unitria: A P (A | V) = 1.

Para a marginalizao de um produto, as seguintes

6. A lei distributiva: Se A dom (1), ento A 12 = 1A 2.

A lei distributiva usualmente conhecida como ab + ac = a (b + c), e a frmula precedente


na verdade a mesma lei aplicada s tabelas. Para verificar isso, considere os clculos nas
Tabelas 1.10-1.14. Aqui vemos que a Tabela 1.12 e a Tabela 1.14 so iguais e correspondem
aos lados esquerdo e direito da lei distributiva.

Tabela 1.11. 1 (A, B) 2 (C, B). Os dois nmeros em cada entrada correspondem aos
estados c1 e c2.

Tambm usamos o termo projeo para marginalizao. Por exemplo, se A e B so


marginalizados fora de (A, B, C), podemos dizer que projetado para baixo para C, e
usamos a notao C. Com esta notao, as propriedades da marginalizao aparecem da
seguinte forma (V e W denotam conjuntos de variveis):
7. A lei comutativa: (V) W = (W) V.
8. A lei distributiva: Se dom (1) V, ento (12) V = 1 ( V 2)
1.5 Variveis Aleatrias

Seja S um espao de amostra. Uma varivel aleatria uma funo de valor real em S; V: S
R . Se, por exemplo, voc lana um dado e ganha $ 1 se obtiver 4 ou mais e perde $ 1 se
tiver 3 ou menos, ento a varivel aleatria correspondente uma funo com valor -1 Em {1,
2, 3} e 1 em {4, 5, 6}.
O valor mdio de uma varivel aleatria V em S definido como

Para o exemplo acima, o valor mdio 1 1/6 + 1 1/ 6+ 1 1/ 6 + 1/ 6+ 1/ 6+ 1/ 6 = 0


(Desde que o dado seja justo). O valor mdio tambm chamado de valor esperado.
Uma medida de quanto uma varivel aleatria varia entre seus valores a varincia, 2.
definida como a mdia do quadrado da diferena entre valor e mdia:

Para o exemplo acima temos

1.5.1 Distribuies Contnuas


Considere uma experincia, onde uma flecha lanada no [0, 1] [0, 1] quadrado. Os
resultados possveis so os pontos (x, y) no quadrado unitrio. Como a probabilidade zero
para qualquer resultado particular, a distribuio de probabilidade atribuda a subconjuntos
da unidade quadrada. Podemos pensar nesta atribuio como um processo de distribuio de
uma massa de probabilidade de 1 sobre o espao de amostra. Podemos, por exemplo, atribuir
uma probabilidade de pouso no quadrado pequeno [x, x + ] [y, y + ]. Para ser mais
sistemtico, seja n um nmero natural, ento o quadrado unitrio pode ser dividido em
pequenos quadrados do tipo [
i i+1
+
n n ][
x +
n
j j+ 1
n ], e podemos atribuir probabilidades P (
1
[ i i+1
+
n n ][
x +
n
j j+ 1
n ]) a estes quadrados com rea
n2
. Agora, se P (

[ i i+1
+
n n ][
x +
n
j j+ 1
n ]) = x, ento voc pode dizer que a massa de probabilidade x
distribuda sobre o pequeno quadrado com uma densidade mdia de n 2x e definimos a
(Tambm chamada funo de freqncia) f (x, y) como

Em geral, se S um espao de amostra contnuo, a funo de densidade uma funo real no


valorizada negativa f em S, para a qual ele sustenta que para qualquer subconjunto A de S,
Em particular,

Quando S um intervalo [a, b] (possivelmente infinito), os resultados so nmeros reais


(como altura ou peso), e voc pode estar interessado na mdia (altura ou peso). definido
como

E a varincia dada por

Matematicamente, a mdia e a varincia so a mdia e a varincia da funo de identidade I


(x)= x, mas usamos o termo "mdia e varincia da distribuio".

Parte I
Probabilistic Graphical Models
Modelos Grficos Probabilsticos

2. Redes causais e bayesianas

Neste captulo, apresentamos redes causais, que so a caracterstica grfica bsica para
(quase) tudo neste livro. Damos regras para o raciocnio sobre a relevncia em redes causais;
O conhecimento de A relevante para a minha crena sobre B? Essas sees tratam do
raciocnio sob incerteza em geral. Em seguida, as redes bayesianas so definidas como redes
causais com a fora das ligaes causais representadas como probabilidades condicionais.
Finalmente, apresentada a regra de cadeia para redes bayesianas. A regra de cadeia a
propriedade que torna as redes bayesianas uma ferramenta muito poderosa para representar
domnios com incerteza inerente. As sees sobre as redes bayesianas assumem o
conhecimento do clculo da probabilidade, como descrito nas Sees 1.1-1.4.

2.1 Raciocnio sob Incerteza

2.1.1 Problema de incio de carro

O seguinte um exemplo do tipo de raciocnio que os seres humanos fazem


diariamente.
"De manh, meu carro no vai comear. Posso ouvir o motor de partida, mas nada acontece.
Pode haver vrias razes para o meu problema. Posso ouvir o rolo de partida, ento deve
haver energia da bateria. Portanto, as causas mais provveis so que o combustvel foi
roubado durante a noite ou que as velas so sujas. Tambm pode ser devido sujeira no
carburador, uma conexo solta no sistema de ignio, ou algo mais grave. Para descobrir, eu
primeiro olho para o medidor de combustvel. Mostra metade cheio, assim que eu decido
limpar as velas de ignio. "
Para que um computador faa o mesmo tipo de raciocnio, precisamos de respostas a
perguntas como: "O que me fez concluir que entre as provveis causas" combustvel roubado
"e" velas de ignio sujas "so as duas causas mais provveis? "O que me fez decidir olhar
para o medidor de combustvel, e como uma observao de combustvel pode me fazer
concluir sobre as velas de ignio aparentemente no relacionadas?" Para ser mais preciso,
precisamos de maneiras de representar o problema e realizando inferncia nessa representao
de tal forma que um computador pode simular esse tipo de raciocnio e talvez faz-lo melhor
e mais rpido do que os seres humanos.
Para a lgica proposicional, a lgica booleana a estrutura de representao, e vrias
estruturas derivadas, como tabelas de verdade e diagramas de deciso binrios, foram
inventadas juntamente com algoritmos eficientes para inferncia.
No raciocnio lgico, usamos quatro tipos de conectivos lgicos: conjuno, disjuno,
implicao e negao. Em outras palavras, declaraes lgicas simples so do tipo "se chove,
ento o gramado est molhado", "Joo e Maria pegaram a gripe", "ou ficam em casa ou vo
ao cinema", ou "O gramado no est molhado." De um conjunto de afirmaes lgicas,
podemos deduzir novas declaraes. Das duas afirmaes "se chove, ento o gramado est
molhado" e "o gramado no est molhado", podemos inferir que no est chovendo.
Quando estamos lidando com eventos incertos, seria bom se pudssemos usar
conectivos similares com certezas em vez de valores de verdade anexados, ento podemos
estender os valores de verdade da lgica proposicional para "certezas", que so nmeros entre
0 e 1. A Certeza 0 significa "certamente no verdade", e quanto maior o nmero, maior a
certeza. Certeza 1 significa "certamente verdade".
Poderamos ento trabalhar com declaraes como "se eu tomar uma xcara de caf
durante a pausa, vou com certeza 0.5 ficar acordado durante a prxima palestra" ou "se eu dar
uma curta caminhada durante a pausa, vou com certeza 0,8 Fique acordado durante a prxima
palestra. "Agora, suponha que eu d um passeio, assim como tomar uma xcara de caf. Quo
certo posso ser para ficar acordado? Para responder a isso, preciso de uma regra para
combinar certezas. Em outras palavras, eu preciso de uma funo que leva as duas certezas
0,5 e 0,8 e retorna um nmero, que deve ser a certeza resultante da combinao da certeza das
duas declaraes.
O mesmo necessrio para o encadeamento: "se a ento b com certeza x" e "se b
ento c com certeza y". Eu sei a, ento qual a certeza de c? Verificou-se que qualquer funo
de combinao e encadeamento em algumas situaes levar a concluses erradas.
Outro problema, que tambm um problema de raciocnio lgico, a abduo: Eu
tenho a regra "uma mulher tem cabelo comprido com certeza 0,7". Eu vejo uma pessoa de
cabelos compridos. O que posso inferir sobre o sexo da pessoa?

2.1.2 Uma perspectiva causal sobre o problema de partida de carro

Uma maneira de estruturar uma situao para o raciocnio sob incerteza construir um grfico
representando relaes causais entre eventos.

Exemplo 2.1 (A reduzido Car Start Problema).


Para simplificar a situao, suponha que temos os eventos {yes, no} para Fuel ?, {yes,
no} para Clean Spark Plugs ?, {full, 1/2, empty} para Fuel Meter e {yes, no} Para Iniciar ?.
Em outras palavras, os eventos so agrupados em torno de variveis, cada uma com um
conjunto de resultados, tambm chamados estados. Sabemos que o estado de Combustvel? E
o estado de Clean Spark Plugs? Ter um impacto causal
O estado de incio?. Alm disso, o estado de Combustvel? Tem um impacto sobre o estado de
posio do medidor de combustvel. Isso representado pelo grfico da Figura 2.1.

FIG. 2.1. Uma rede causal para o problema reduzido do comeo do carro.

Se adicionarmos uma direo de no a sim dentro de cada varivel (e de vazia a


completa), tambm podemos representar direes do impacto. Para a situao atual, podemos
dizer que todos os impactos so positivos (com a direo); isto , quanto mais a certeza da
causa for movida em direo positiva, mais a certeza da varivel afetada tambm ser movida
em direo positiva. Para indicar isso, podemos rotular os links com o sinal "+" como feito
na Figura 2.2.

FIG. 2.2. Uma rede causal para o problema reduzido do comeo do carro com um sinal que
indica a direo do impacto.

Podemos usar o grfico da Figura 2.2 para realizar algum raciocnio. Obviamente, se
eu sei que as velas de ignio no so limpas, ento a certeza para nenhum comeo
aumentar. No entanto, minha situao o oposto. Eu percebo que eu tenho um problema de
incio. Como minha certeza no Start? movido em uma direo negativa, eu acho que as
causas possveis (Clean Spark Plugs? E Fuel?) Para tal movimento mais certo; ou seja, o sinal
"+" vlido para ambas as direes. Agora, porque a certeza de combustvel? = no
aumentou, eu terei uma maior expectativa de que a posio do medidor de combustvel est
vazia no estado.
O movimento da certeza para a posio do medidor de combustvel diz-me que lendo
o medidor de combustvel eu comearei a informao relacionada ao problema do comeo. Eu
li o medidor de combustvel, diz 1/2, e raciocnio para trs rendimentos que a certeza de
combustvel? movido em direo negativa.
At agora, o raciocnio foi governado por regras simples que podem ser facilmente
formalizadas. A concluso mais dura: "Falta de combustvel no parece ser a razo para o
meu problema de incio, por isso, muito provavelmente, as velas no so limpas." Existe uma
regra formalizada que permite este tipo de raciocnio sobre um causal ser computadorizada?
Retornaremos a esse problema na Seo 2.2.

Nota: O raciocnio tem se concentrado em mudanas de certeza. No clculo de certeza, se a


certeza real de um evento especfico deve ser calculada, ento o conhecimento de certezas
antes de qualquer informao tambm necessrio. Em particular, so necessrias certezas
prvias para os eventos que no so efeitos de causas na rede. Se, por exemplo, o meu carro
no pode comear, a certeza real de que o combustvel foi roubado depende da minha
vizinhana.

2.2 Redes Causal e d-Separao


Uma rede causal consiste em um conjunto de variveis e um conjunto de links
direcionados (tambm chamados arcos) entre variveis. Matematicamente, a estrutura
chamada de grafo direcionado. Quando falamos sobre as relaes em um grfico direcionado,
usamos a redao das relaes familiares: se existe uma ligao de A para B, dizemos que B
uma criana de A, e A pai de B.
As variveis representam proposies (ou espaos de amostra), ver tambm Seo 1.3.
Uma varivel pode ter qualquer nmero de estados (ou resultados). Uma varivel pode ser,
por exemplo, a cor de um carro (estados azul, verde, vermelho, marrom), o nmero de
crianas em uma famlia especfica (estados 0, 1, 2, 3, 4, 5, 6, > 6), Ou uma doena (estados
bronquite, tuberculose, cncer de pulmo). As variveis podem ter um conjunto contvel ou
um estado contnuo, mas consideramos apenas variveis com um nmero finito de estados
(retornaremos questo dos espaos de estado contnuo na Seo 3.3.8).
Numa rede causal, uma varivel representa um conjunto de possveis estados de
coisas. Uma varivel est exatamente em um de seus estados; que pode ser desconhecido para
ns.

Como ilustrado na Seo 2.1.2, as redes causais podem ser usadas para seguir como uma
mudana de certeza em uma varivel pode mudar a certeza para outras variveis.
Apresentamos nesta seo um conjunto de regras para esse tipo de raciocnio. As regras so
independentes do clculo particular para a incerteza.

Conexes Seriais

Considere a situao na Figura 2.3. Aqui A tem uma influncia sobre B, que por sua
vez tem uma influncia sobre C. Obviamente, a evidncia sobre A influenciar a certeza de B,
que ento influencia a certeza de C. Da mesma forma, a evidncia sobre C influenciar a
certeza de A a B Por outro lado, se o estado de B conhecido, ento o canal bloqueado, e A
e C tornam-se independentes; dizemos que A e C so d-separados dados de B. Quando o
estado de uma varivel conhecido, dizemos que a varivel instanciada.
Conclumos que a evidncia pode ser transmitida atravs de uma conexo serial, a
menos que o estado da varivel na conexo seja conhecido.

FIG. 2.3. Conexo serial. Quando B instanciado, bloqueia a comunicao entre


A e C.

Exemplo 2.2. A Figura 2.4 mostra um modelo causal para as relaes entre Precipitao (no,
leve, mdio, pesado), nvel de gua (baixo, mdio, alto) e Inundao (sim, no). Se eu no
tiver observado o nvel da gua, ento sabendo que houve uma inundao aumentar a minha
crena de que o nvel da gua alto, que por sua vez vai me dizer algo sobre a precipitao. A
mesma linha de raciocnio se mantm na outra direo. Por outro lado, se eu j sei o nvel da
gua, ento sabendo que houve inundaes no vai me dizer nada de novo sobre a
precipitao.
FIG. 2.4. Um modelo causal para precipitao, nvel de gua e inundao

Conexes divergentes
A situao na Figura 2.5 chamada de conexo divergente. Influncia pode passar entre todos
os filhos de A, a menos que o estado de A conhecido. Isto , B, C, . . . , E so d-separados,
dado A.
As evidncias podem ser transmitidas atravs de uma conexo divergente, a menos que seja
instanciada.

FIG. 2.5. Conexo divergente. Se A instanciado, bloqueia a comunicao entre


Seus filhos.

Exemplo 2.3. A Figura 2.6 mostra as relaes causais entre Sexo (masculino, feminino),
comprimento do cabelo (longo, curto) e estatura (<168 cm, 168 cm).

FIG. 2.6. Sexo tem um impacto no comprimento do cabelo, bem como estatura.

Se no sabemos o sexo de uma pessoa, ver o comprimento do seu cabelo vai nos dizer mais
sobre o sexo, e isso por sua vez ir concentrar a nossa crena na sua estatura. Por outro lado,
se sabemos que a pessoa um homem, ento o comprimento de seu cabelo no nos d
nenhuma pista extra sobre sua estatura.

Conexes Convergentes
A descrio da situao na Figura 2.7 requer um pouco mais de cuidado. Se nada se sabe
sobre A, exceto o que pode ser inferido do conhecimento de seus pais B, . . . , E, ento os pais
so independentes: a evidncia sobre um deles no pode influenciar as certezas dos outros
atravs de A. O conhecimento de uma possvel causa de um evento no nos diz nada sobre as
outras causas possveis. No entanto, se alguma coisa conhecida sobre as consequncias,
ento informaes sobre uma possvel causa pode nos dizer algo sobre as outras causas. Este
o efeito explicao de distncia ilustrado no problema de partida de carro: o carro no pode
comear, e as causas potenciais incluem velas de ignio sujas e um tanque de combustvel
vazio. Se ns comeamos agora a informao que h o combustvel no tanque, ento nossa
certeza nas velas de ignio que esto sujas aumentar (desde que isto explicar porque o
carro no pode comear). Por outro lado, se obtivermos a informao de que no h
combustvel no carro, ento a nossa certeza nas velas de ignio estar sujo vai diminuir (uma
vez que a falta de combustvel explica por que o carro no pode comear). Na Figura 2.8, so
mostrados dois exemplos. Observe que no segundo exemplo observamos apenas A
indiretamente atravs de informaes sobre F; sabendo que o estado de F nos diz algo sobre o
estado de E, que por sua vez nos diz algo sobre A.

FIG. 2.7. Conexo convergente. Se A muda a certeza, abre a comunicao entre seus pais.

FIG. 2.8. Exemplos nos quais os pais de A so dependentes. As linhas pontilhadas indicam a
insero de evidncias.

A concluso que as provas podem ser transmitidas atravs de uma conexo


convergente somente se a varivel na conexo ou um de seus descendentes tiver
recebido evidncia.

Observao: A evidncia sobre uma varivel uma declarao das certezas de seus estados.
Se a varivel instanciada, chamamos-lhe evidncia dura; caso contrrio, ele chamado soft.
No exemplo acima, podemos dizer que as evidncias concretas sobre a varivel F fornecem
evidncias suaves sobre a varivel A. O bloqueio no caso de conexes seriais e divergentes
requer provas concretas, enquanto a abertura no caso de conexes convergentes vlida para
todos os tipos de evidncias.
Exemplo 2.4. A Figura 2.9 mostra as relaes causais entre infeco por Salmonela, gripe,
nusea e palidez.

FIG. 2.9. Salmonela e gripe podem causar nusea, que por sua vez provoca palidez.
Se no sabemos nada de nusea ou palidez, ento a informao sobre se a pessoa tem uma
infeco por Salmonela no vai nos dizer nada sobre a gripe. No entanto, se tivermos notado
que a pessoa est plida, ento a informao que ele / ela no tem uma infeco por
Salmonela vai fazer-nos mais dispostos a acreditar que ele / ela tem a gripe.

2.2.1 d-separao

Os trs casos anteriores abrangem todas as formas pelas quais as provas podem ser
transmitidas atravs de uma varivel e, seguindo as regras, possvel decidir por qualquer par
de variveis numa rede causal se so independentes tendo em conta as evidncias introduzidas
na rede. As regras so formuladas na seguinte definio.

Definio 2.1 (d-separao). Duas variveis distintas A e B em uma rede causal so d-


separadas ("d" para "grfico direcionado") se para todos os caminhos entre A e B, houver uma
varivel intermediria V (distinta de A e B)
- a conexo serial ou divergente e V instanciado
ou
- a conexo convergente, e nem V nem nenhum dos descendentes de V tem recebido
evidncia.
Se A e B no so separados por d, ns os chamamos d-conectados.

Se A e B no so separados por d, ns os chamamos d-conectados.

A Figura 2.10 d um exemplo de uma rede maior. As evidncias introduzidas em B e


M representam instncias. Se a evidncia inserida em A, ela pode ser transmitida para D. A
varivel B est bloqueada, portanto a evidncia no pode passar por B para E, no entanto, ela
pode ser passada para H e K. Uma vez que a criana M de K recebeu evidncia, A evidncia
de H pode passar para I e para alm de E, C, F, J e L, ento o caminho A - D - H - K - I - E - C
- F - J - L um caminho de conexo d. A Figura 2.11 d dois outros exemplos.
Observe que, embora A e B estejam conectados a d, mudanas na crena em A no mudaro
necessariamente a crena em B. Para enfatizar esta diferena, iremos s vezes dizer que A e B
so estruturalmente independentes se forem d-separados Tambm Exerccio 2.23).
Em conexo com a separao d, um conjunto especial de ns para um n A a chamada
manta de Markov para A:

Definio 2.2. O cobertor de Markov de uma varivel A o conjunto constitudo pelos pais de
A, os filhos de A e as variveis que compartilham uma criana com A. A manta de Markov
tem a propriedade de que, quando instanciada, A separada do restante da rede (Ver Figura
2.12).
Voc pode se perguntar por que ns introduzimos d-separao como uma definio e no
como um teorema. Um teorema deve ser o seguinte.

Afirmao: Se A e B so d-separados, ento mudanas na certeza de A no tm impacto sobre


a certeza de B.
No entanto, a afirmao no pode ser estabelecida como um teorema sem uma descrio mais
precisa do conceito de "certeza". Voc pode tomar a separao-d como uma propriedade do
raciocnio humano e exigir que qualquer clculo de certeza deve cumprir com a afirmao.
FIG. 2.10. Uma rede causal com M e B instanciadas. O n A d-separado de G apenas.

FIG. 2.11. Redes causais com provas concretas inseridas (as variveis so instanciadas). (A)
Embora todos os vizinhos de E sejam instanciados, ele d-conectado a F, B e A. (b) F d-
separado das demais variveis no-substanciadas.
FIG. 2.12. A manta de Markov para I {C, E, H, K, L}. Observe que se apenas os vizinhos de
I so instanciados, ento J no d-separado de I.

A partir da definio de separao-d vemos que, para testar se duas variveis, digamos
A e B, so d-separadas, dadas evidncias em um conjunto de variveis C, voc teria que
verificar se todos os caminhos que conectam A e B so d -separando caminhos. Uma maneira
mais fcil de realizar este teste, sem ter que considerar os vrios tipos de conexes, a
seguinte: Primeiro voc constri o chamado grfico ancestral consistindo em A, B e C,
juntamente com todos os ns dos quais h um caminho direcionado para A, B ou C (ver
Figura 2.13 (a)). Em seguida, voc insere um link no direcionado entre cada par de ns com
um filho comum e, em seguida, voc faz todos os links no direcionados. O grfico resultante
(ver Figura 2.13 (b)) conhecido como o grfico moral da Figura 2.13 (a). O grfico moral
pode agora ser usado para verificar se A e B so d-separados, dado C: se todos os caminhos
que ligam A e B interceptam C, ento A e B so d-separados dados C.
O procedimento acima se generaliza de forma direta para o caso em que trabalhamos
com conjuntos de variveis em vez de variveis simples: basta construir o grfico ancestral
usando estes conjuntos de variveis e executar as mesmas etapas acima: A e B so ento d-
separados dados C Se todos os caminhos que conectam uma varivel em A com uma varivel
em B interceptam uma varivel em C.

2.3 Redes Bayesianas


2.3.1 Definio de Redes Bayesianas

As relaes causais tambm tm um lado quantitativo, ou seja, sua fora. Isso pode ser
expresso anexando nmeros aos links.
FIG. 2.13. Para testar se A d-separado de F dado evidncia em B e M na Figura 2.10,
primeiro construmos o grfico ancestral para {A, B, F, M} (figura (a)).
Em seguida, adicionamos um link no direcionado entre pares de ns com uma criana
comum e, em seguida, a direo descartada em todos os links (figura (b)). No grfico
resultante temos que o caminho A-D-H-K-I-E-C-F no intercepta B e M, portanto A e F so d-
conectados dado B e M.

Seja A um pai de B. Usando clculo de probabilidade, seria natural deixar P (B | A) ser a fora
da ligao. No entanto, se C tambm um pai de B, ento as duas probabilidades condicionais
P (B | A) e P (B | C) por si s no do qualquer pista sobre como os impactos de A e C
interagem. Eles podem cooperar ou neutralizar de vrias maneiras, ento precisamos de uma
especificao de P (B | A, C).
Pode acontecer que o domnio a ser modelado contenha ciclos de feedback causal (veja a
Figura 2.14).
Os ciclos de realimentao so difceis de modelar quantitativamente. Para redes causais,
nenhum clculo foi desenvolvido que possa lidar com ciclos de feedback, mas certos modelos
no-causais tm sido propostos para lidar com esta questo. Para redes bayesianas, exigimos
que a rede no contenha ciclos.

Definio 2.3. Uma rede bayesiana consiste no seguinte:


- Um conjunto de variveis1 e um conjunto de arestas direcionadas entre variveis.
- Cada varivel tem um conjunto finito de estados mutuamente exclusivos.
- As variveis juntamente com as arestas dirigidas formam um grafo dirigido acclico
(tradicionalmente abreviado DAG); um grafo dirigido acclico se no houver nenhum
caminho dirigido A1 An de modo que A1 = An.
FIG. 2.14. Um grfico direcionado com um ciclo de feedback. Isso no permitido em redes
bayesianas.

- A cada varivel A com os pais B1, . . . , Bn, anexada uma tabela de probabilidade
condicional P (A | B1, ..., Bn).

Note que se A no tem pais, ento a tabela se reduz tabela de probabilidade incondicional P
(A). Para o DAG na Figura 2.15, as probabilidades prvias P (A) e P (B) devem ser
especificadas. Foi alegado que as probabilidades prvias so uma introduo indesejada de
vis ao modelo, e os clculos foram inventados para o evitar. Contudo, conforme discutido na
Seo 2.1.2, as probabilidades prvias so necessrias no por razes matemticas, mas
porque as avaliaes de certeza prvia so parte integrante do raciocnio humano sobre
certeza (ver tambm Exerccio 1.12).

FIG. 2.15. Um grafo acclico dirigido (DAG). As probabilidades para especificar so P (A), P
(B), P (C | A, B), P (E | C), P (D | C), P (F | E) e P (G | D, E, F).

A definio de redes Bayesiana no se refere causalidade, e no h nenhuma exigncia de


que as ligaes representam impacto causal. Ou seja, ao construir a estrutura de um modelo de
rede Bayesiano, no precisamos insistir em links vo em uma direo causal. No entanto,
precisamos verificar as propriedades de separao do modelo e garantir que elas
correspondem nossa percepo das propriedades de independncia condicional do mundo. O
modelo no deve incluir independncias condicionais que no sejam vlidas no mundo real.
Isto tambm significa que se A e B so d-separados, dadas evidncias e, ento o
clculo de probabilidade usado para redes bayesianas deve render P (A | e) = P (A | B, e) (ver
Seo 2.3.2).
Exemplo 2.5 (Uma rede bayesiana para o problema de partida de carro).
A rede Bayesiana para o Problema de Car Start reduzido a da Figura 2.16.

FIG. 2.16. A rede causal para o problema de partida de carro reduzido. Utilizamos as
abreviaturas Fu (Combustvel?), SP (Clean Spark Plugs?), St (Start?) E FM (Fuel Meter
Standing).

Para a modelagem quantitativa, necessitamos das avaliaes de probabilidade P (Fu), P (SP),


P (St | Fu, SP), P (FM | Fu). Para evitar ter que lidar com nmeros que so muito pequenos, P
(Fu) = (0,98, 0,02) e P (SP) = (0,96, 0,04). As tabelas restantes so apresentadas na Tabela 2.1.
Observe que a tabela para P (FM | Fu) reflete o fato de que o medidor de combustvel pode
estar funcionando mal, e a tabela para P (St | Fu, SP) deixa espao para outras causas que no
combustvel e velas de ignio sujas atribuindo P ( St = no | Fu = sim, SP = sim)> 0.

2.3.2 A Regra da Cadeia para as Redes Bayesianas

Seja U = {A1, . . ., An} ser um universo de variveis. Se tivermos acesso tabela de


probabilidade conjunta P (U) = P (A1, ..., An), ento tambm podemos calcular P (Ai) assim
como P (Ai | e), onde e evidncia de alguns Das variveis na rede Bayesiana (ver, por
exemplo, Seo 1.3.1). No entanto, P (U) cresce exponencialmente com o nmero de
variveis, e U no precisa ser muito grande antes da tabela torna-se intratvel grande.
Portanto, procuramos uma representao mais compacta de P (U), ou seja, um modo de
armazenar informaes a partir das quais P (U) pode ser calculado se necessrio.
Seja BN uma rede Bayesiana sobre U e seja P (U) uma distribuio de probabilidade
que reflita as propriedades especificadas por BN: (i) as probabilidades condicionais para uma
varivel dada a seus pais em P (U) devem ser como especificados em BN, E (ii) se as
variveis A e B so d-separadas em BN dado o conjunto C, ento A e B so independentes
dados C em P (U).

Tabela 2.1. Probabilidades condicionais para o modelo na Figura 2.16. Os nmeros (x, y) na
tabela inferior representam (St = sim, St = no).

Com base nessas duas propriedades, que outras propriedades podem ser deduzidas sobre P
(U)? Se o universo consiste em apenas uma varivel A, ento BN especifica P (A), e P (U)
determinado unicamente. Vamos mostrar que isso vlido em geral.
Para distribuies de probabilidade em conjuntos de variveis, temos uma equao chamada
regra de cadeia. Para redes bayesianas esta equao tem uma forma especial. Primeiro, a regra
geral da cadeia:

Proposio 2.1 (A regra geral da cadeia). Seja U = {A 1, . . . , An} ser um conjunto de


variveis. Ento para qualquer distribuio de probabilidade P (U) temos

P (U) = P (An | A1, ..., An-1) P (An-1 | A1, ..., An-2). . . P (A2 | A1) P (A1).

Prova. Uso iterativo da regra fundamental:

Teorema 2.1 (A regra da cadeia para redes bayesianas). Seja BN uma rede Bayesiana sobre U
= {A1,. . .,An}. Ento BN especifica uma nica probabilidade de distribuio conjunta P (U)
dada pelo produto de todas as tabelas de probabilidade condicional especificadas em BN:

Onde pa (Ai) so os pais de Ai em BN, e P (U) reflete as propriedades de BN.


Prova. Primeiro, devemos mostrar que P (U) de fato uma distribuio de probabilidade.
Ou seja, precisamos mostrar que os Axiomas 1-3 so vlidos. Isto deixado como um
exerccio (veja o Exerccio 2.15).
Em seguida, provamos que a especificao de BN consistente, de modo que P (U)
reflete as propriedades de BN. No difcil provar que a distribuio de probabilidade
especificada pelo produto na regra de cadeia reflete as probabilidades condicionais de BN (ver
Exerccio 2.16). Tambm precisamos provar que o produto reflete as propriedades de
separao-d. Isto feito atravs da induo no nmero de variveis em BN.
Quando BN tem uma varivel, bvio que as propriedades de separao d
especificadas por BN so vlidas para o produto de todas as probabilidades condicionais
especificadas.
Suponha que, para qualquer rede bayesiana com n - 1 variveis e uma distribuio P
(U) especificada como o produto de todas as probabilidades condicionais, ela sustenta que se
A e B so d - separados em funo de C, ento P (A | B, C) = P (A | C). Seja BN uma rede
bayesiana com n variveis {A1,. . . , A}. Suponha que An no tem filhos e deixe BN? Ser o
resultado da remoo de An de BN. Claramente BN? uma rede Bayesiana com as mesmas
distribuies de probabilidade condicional como BN (exceto para An) e com as mesmas
propriedades de separao-d sobre {A1, . . . , An-1} como BN. Alm disso,
E pela hiptese de induo P (U \ {An}) reflete as propriedades de BN? Agora, se A e B so
d-separados dados C em BN, ento eles tambm so separados em D em BN ?, e portanto P
(A B, C) = P (A | C). Para provar que ele tambm vlido para as propriedades de separao d
envolvendo An, consideramos o caso em que An C e o caso em que A = An. Para o
primeiro caso, temos que, uma vez que An participa somente em uma conexo convergente,
ela sustenta que se A e B so d-separados, dado C, ento eles tambm so separados por D,
dado C \ {An} e obtemos a situao acima. Para o segundo caso, observamos primeiro que

Agora, se An e B so d-separados dados C, ento pa (An) e B tambm so separados dado C,


e uma vez que An no est envolvido, temos P (pa (An) | B, C) = P (pa (An) | C). Ento
precisamos provar somente que P (An | B, C, pa (An)) = P (An | pa (An)). Usando a regra
fundamental e a regra da cadeia, obtemos

Para provar a singularidade, vamos {A1,. . . , An} ser uma ordenao topolgica das variveis.
Ento, para cada varivel Ai com pais pa (Ai) temos que Ai d-separado de {A 1,. . . , Ai-1} \
pa (Ai) dada pa (Ai) (ver Exerccio 2.11).
Isto significa que para qualquer distribuio P que reflita as especificaes por BN devemos
ter P (Ai | A1, ..., Ai-1) = P (Ai | pa (Ai) Substituindo isto na regra de cadeia geral resulta que
qualquer distribuio Refletindo as especificaes por BN deve ser o produto das
probabilidades condicionais especificadas em BN.

A regra de cadeia produz que uma rede bayesiana uma representao compacta de uma
distribuio de probabilidade conjunta. O exemplo a seguir ilustra como explorar isso para o
raciocnio sob incerteza.
Exemplo 2.6 (The Car Start Problem revisitado).
Neste exemplo, aplicamos as regras de clculo de probabilidade ao Problema de incio de
carro. Isso feito para ilustrar que clculo de probabilidade pode ser usado para executar o
raciocnio no exemplo, em particular, explicando distncia. No Captulo 4, damos algoritmos
gerais para a atualizao de probabilidades em redes bayesianas. Usaremos a rede bayesiana
do Exemplo 2.5 para executar o raciocnio na Seo 2.1.1.
Usaremos a tabela de probabilidade conjunta para o raciocnio. A tabela de probabilidade
conjunta calculada a partir da regra de cadeia para redes bayesianas,

P (Fu, FM, SP, St) = P (Fu) P (SP) P (FM | Fu) P (St | Fu, SP).

O resultado dado nas Tabelas 2.2 e 2.3.


A evidncia St = no nos diz que estamos no contexto da Tabela 2.3. Ao marginalizar FM e Fu
da Tabela 2.3 (somando cada linha), obtemos

P (SP, St = no) = (0,02864, 0,03965).

Tabela 2.2. A tabela de probabilidade conjunta para P (Fu, FM, SP, St = sim).

Tabela 2.3. A tabela de probabilidade conjunta para P (Fu, FM, SP, St = no). Os nmeros (x,
y) na tabela representam (Fu = sim, Fu = no).

Obtemos a probabilidade condicional P (SP | St = no) dividindo por P (St = no). Isto fcil,
uma vez que P (St = no) = P (SP = sim, St = no) + P (SP = no, St = no) = 0,02864 +
0,03965 = 0,06829 e obtemos

Outra maneira de dizer isso que a distribuio que acabamos com ser um conjunto de
nmeros que somam a 1. Se no o fizerem, normalize dividindo pela soma.
Da mesma forma, obtemos P (Fu | St = no) = (0.71, 0.29).
Em seguida, obtemos a informao de que FM = 1/2 e o contexto de clculo limitado parte
com FM = 1/2 e St = no. Os nmeros so dados na Tabela 2.4.

Ao marginalizar Sp e normalizar, obtemos P (SP | St = no, FM = 1/2) = (0.999, 0.001), e


marginalizando Fu e normalizando obtemos P / 2) = (0,196, 0,804). A probabilidade de SP =
sim aumentou observando FM = 1/2, ento o clculo captou o efeito de explicao.
2.3.3 Inserindo Evidncias
As redes bayesianas so usadas para calcular novas probabilidades quando voc obtm novas
informaes. A informao at agora tem sido do tipo "A = a", onde A

Uma varivel e um um estado de A. Vamos A ter n estados com P (A) = (x 1, ..., xn), e
assumir que obtemos a informao e que A pode ser apenas no estado i ou j. Esta declarao
expressa que todos os estados exceto i e j so impossveis, e temos a distribuio de
probabilidade P (A, e) = (0, ..., 0, xi, 0, ..., 0, xj, 0, . . . , 0). Note-se que P (e), a probabilidade
prvia de e, obtida marginalizando A de P (A, e). Observe tambm que P (A, e) o resultado
da multiplicao de P (A) por (0, ..., 0, 1, 0, ..., 0, 1, 0, ..., 0) O 1's esto no i'th e j'th lugares.

Definio 2.4. Seja A uma varivel com n estados. Um achado em A uma tabela n
dimensional de zeros e uns.
Para distinguir entre a afirmao e, "A est no estado i ou j", e o correspondente 0/1-vetor de
localizao, s vezes usamos a notao em negrito e para a descoberta. Semanticamente, uma
descoberta uma afirmao de que certos estados de A so impossveis.
Agora, suponha que voc tenha uma tabela de probabilidade conjunta, P (U), e seja e a
descoberta precedente. A tabela de probabilidade conjunta P (U, e) a tabela obtida de P (U)
substituindo todas as entradas por A no no estado i ou j pelo valor zero e deixando as outras
entradas inalteradas. Isto o mesmo que multiplicar P (U) por e,

Observe que P (e) = U P (U, e) = U (P (U) e). Usando a regra de cadeia para redes
bayesianas, temos o seguinte teorema.

Teorema 2.2. Seja BN uma rede Bayesiana sobre o universo U, e deixe e 1, . . . ,em ser
concluses. Ento

E para A U temos

Alguns tipos de evidncia no podem ser representados como achados. Voc pode, por
exemplo, receber uma declarao de algum que a chance de A estar no estado a1 duas
vezes maior do que para a2. Esse tipo de evidncia chamado prova de verossimilhana.
possvel tratar esse tipo de evidncia em redes bayesianas.
A declarao anterior ento representada pela distribuio (0.67, 0.33), e o Teorema 2.2
ainda mantm. No entanto, como no est claro o que significa que uma declarao de
verossimilhana verdadeira, P (e) no pode ser interpretada como a probabilidade da
evidncia, e P (U, e), portanto, tem uma semntica obscura. Ns no vamos lidar mais com
provas de probabilidade.

2.3.4 Calculando Probabilidades na Prtica

Como descrito na Seo 2.3.3 e ilustrado no Exemplo 2.6, a atualizao de


probabilidade em redes bayesianas pode ser realizada usando a regra de cadeia para calcular P
(U), a tabela de probabilidade conjunta do universo. No entanto, U no precisa ser grande
antes P (U) torna-se intratvel grande. Nesta seo, ilustramos como os clculos podem ser
realizados sem ter que lidar com a tabela de articulao completa. No Captulo 4, damos um
tratamento detalhado de algoritmos para a atualizao de probabilidade.
Considere a rede Bayesiana na Figura 2.17, e suponha que todas as variveis tm dez estados.
Suponhamos que temos a evidncia e = {D = d, F = f}, e desejamos calcular P (A | e).

FIG. 2.17. Uma rede bayesiana.


Da regra da cadeia temos
P (U, e) = P (A, B, C, d, f, G, H)
= P (A) P (H) P (B | A, H) P (C | B, H) P (f | B, C) P (G | C),

Onde, por exemplo, P (d | B, H) denota a tabela sobre B e H resultante da fixao da entrada


D para o estado d. Dizemos que a tabela de probabilidade condicional foi instanciada para D
= d. Observe que no precisamos calcular a tabela completa P (U) com 107 entradas. Se
esperarmos at que a evidncia seja inserida, neste caso precisaremos trabalhar com uma
tabela com apenas 105 entradas. Mais tarde, vemos que no precisamos trabalhar com tabelas
maiores que 1000 entradas.
Para calcular P (A, e), marginalizamos as variveis B, C, G e H de P (A, B, C, d, f, G, H). A
ordem em que marginalizamos no afeta o resultado (Seo 1.4), por isso vamos comear
com G; ou seja, desejamos calcular

No produto do lado direito, apenas a ltima tabela contm G em seu domnio, e devido lei
distributiva (Seo 1.4) temos

Em seguida, marginalizamos H. Usando a lei distributiva novamente,

Multiplicamos as trs tabelas P (H), P (B | A, H) e P (d | B, H), e marginalizamos H do


produto. O resultado uma tabela T (d, B, A), e temos

P (A, B, C, d, f) = P (A) P (C | A) P (f | B, C) T (d, B, A).

Finalmente, calculamos este produto e marginalizamos B e C dele.


Observe que nunca trabalhamos com uma tabela de mais de trs variveis (a tabela produzida
multiplicando P (H), P (B | A, H) e P (d | B, H)) em relao s cinco variveis em P (A, B, C,
d, f, G, H).
O mtodo que acabamos de usar chamado de eliminao de varivel e pode ser descrito da
seguinte maneira: comeamos com um conjunto T de tabelas, e sempre que desejamos
marginalizar uma varivel X, tomamos de T todas as tabelas com X em seus domnios,
calculamos O produto deles, marginalize X fora dele, e coloque a tabela resultante em T.

2.4 Modelos Grficos - Linguagens Formais para Especificao de Modelo

Do ponto de vista matemtico, a propriedade bsica das redes bayesianas a regra da


cadeia: uma rede bayesiana uma representao compacta da tabela de probabilidade
conjunta sobre o seu universo. Nesse sentido, uma rede bayesiana um tipo de representao
compacta entre muitos outros. No entanto, h mais do que isso: Do ponto de vista da
engenharia do conhecimento, uma rede bayesiana um tipo de modelo grfico. A estrutura da
rede formulada em uma linguagem grfica de comunicao para a qual as caractersticas da
linguagem tm uma semntica muito simples, a saber, causalidade. Isso no significa que a
"causalidade" seja um conceito fcil. Pode ser muito difcil experimentar a causalidade, e
filosoficamente o conceito no totalmente compreendido. No entanto, na maioria das vezes
os seres humanos podem se comunicar sensatamente sobre as relaes causais em um
domnio do conhecimento. Alm disso, a especificao grfica tambm especifica os
requisitos para a parte quantitativa do modelo (as probabilidades condicionais). No Captulo
3, estendemos a linguagem de modelagem, e na Parte II apresentamos outros tipos de modelos
grficos.
Como mencionado, os modelos grficos so linguagens de comunicao. Eles consistem de
uma parte qualitativa, onde so utilizadas caractersticas da teoria dos grafos, e uma parte
quantitativa composta de potenciais, que so funes real-avaliadas sobre conjuntos de ns do
grfico; em redes Bayesianas os potenciais so tabelas de probabilidade condicional. A parte
grfica especifica o tipo de potenciais e seus domnios.
Modelos grficos podem ser usados para comunicao interpessoal: A especificao
grfica fcil de ler para os seres humanos, e ajuda a focar a ateno, por exemplo, em um
grupo trabalhando em conjunto na construo de um modelo. Para a comunicao
interpessoal, a semntica das vrias caractersticas grficas-tericas deve ser bastante bem
delineada para evitar mal-entendidos.
O prximo passo no uso de modelos grficos tem a ver com a comunicao com um
computador. Voc deseja comunicar um modelo grfico para um computador, e o computador
deve ser capaz de processar o modelo e dar respostas a vrias consultas. Para conseguir isso, a
linguagem de especificao deve ser formalmente definida com uma sintaxe bem definida e
semntica.
A primeira preocupao na construo de uma linguagem de modelagem grfica
assegurar que ela seja suficientemente bem definida para que possa ser comunicada a um
computador. Isso abrange a parte grfica, bem como a especificao de potenciais.
A prxima preocupao o escopo da linguagem: qual o intervalo de domnios e
tarefas que voc ser capaz de modelar com esse idioma? A preocupao final traabilidade:
voc tem algoritmos tais que em um tempo razovel o computador pode processar um modelo
e consulta para fornecer respostas?
A rede bayesiana uma linguagem suficientemente bem definida e por trs da
especificao grfica na interface do usurio, os sistemas computacionais para processamento
de redes bayesianas possuem uma linguagem de especificao alfanumrica, que para alguns
sistemas est aberta ao usurio. Na verdade, a linguagem para redes bayesianas uma
linguagem sem contexto com um nico aspecto sensvel ao contexto (sem ciclos
direcionados).
O escopo da linguagem da rede bayesiana difcil de definir, mas os exemplos no
prximo captulo mostram que ele tem um escopo muito amplo.
Traabilidade no um problema de sim ou no. Conforme descrito no Captulo 4,
existem algoritmos para a atualizao de probabilidades em redes bayesianas, mas
basicamente a atualizao de probabilidade NP-rgida. Isso significa que alguns modelos
tm um tempo de atualizao exponencial no nmero de ns.
Por outro lado, os tempos de execuo dos algoritmos podem ser facilmente
calculados sem realmente execut-los. No Captulo 4 e Parte II, tratamos questes de
complexidade para as vrias linguagens grficas apresentadas.
2.5 Resumo

D-Separao em Redes Causal


Duas variveis distintas A e B em uma rede causal so d-separadas se, para todos os caminhos
entre A e B, houver uma varivel intermediria V (distinta de A e B) tal que, ou
a conexo serial ou divergente e V instanciada, ou
a conexo convergente, e nem V nem nenhum dos descendentes de V tem recebido
evidncia.

Definio de Redes Bayesianas


Uma rede bayesiana consiste no seguinte:
Existe um conjunto de variveis e um conjunto de arestas direcionadas entre variveis.
Cada varivel tem um conjunto finito de estados mutuamente exclusivos.
As variveis, juntamente com as arestas direcionadas, formam uma
Grfico (DAG).
A cada varivel A com os pais B1,. . . , Bn anexado um condicional
Tabela de probabilidade P (A | B1, ..., Bn).

A Regra da Cadeia para as Redes Bayesianas


Seja BN uma rede Bayesiana sobre U = {A1,. . . , A}. Ento BN especifica uma nica
probabilidade de distribuio conjunta P (U) dada pelo produto de todas as tabelas de
probabilidade condicional especificadas em BN:

Onde pa (Ai) so os pais de Ai em BN, e P (U) reflete as propriedades de BN.


Admisso de d-Separao em Redes Bayesianas
Se A e B so d-separados em uma rede bayesiana com a evidncia e introduzida, ento P (A |
B, e) = P (A | e).

Inserindo provas
Vamos e1,. . . , em concluses e, em seguida,