Beruflich Dokumente
Kultur Dokumente
Tutoriel
Rseaux Baysiens
Introduction et apprentissage
Modlisation et dcouverte de
connaissances
Organisateur :
Philippe LERAY (Univ. Nantes)
Rsum
La reprsentation des connaissances et le raisonnement partir de ces reprsentations a donn
naissance de nombreux modles. Les modles graphiques probabilistes, et plus prcisment les
rseaux baysiens (RB), initis par Judea Pearl dans les annes 1980, se sont rvls des outils trs
pratiques pour la reprsentation de connaissances incertaines et le raisonnement partir
dinformations incompltes, dans de nombreux domaines comme la bio-informatique, la gestion du
risque, le marketing, la scurit informatique, le transport, etc.
La partie graphique des RB offre un outil intuitif ingalable et attractif dans de nombreuses applications
o les utilisateurs ont besoin de "comprendre" ce que raconte le modle quils utilisent. La construction
de ces modles partir de donnes permet aussi de dcouvrir des connaissances utiles aux experts,
en allant sous certaines rserves - jusqu' la dcouverte de relations causales.
Ce tutoriel se propose tout d'abord de dfinir la notion de rseau baysien puis de donner un apercu de
l'utilisation de ces modles pour rpondre diffrentes requtes (notion d'infrence ou de
raisonnement probabiliste). Nous aborderons ensuite le problme de l'apprentissage des rseaux
baysiens partir de donnes compltes ou incompltes, en commenant par la dtermination des
distributions de probabilit conditionnelles dfinies par un graphe donn (apprentissage des
paramtres), et en essayant ensuite de dterminer le graphe mme partir des donnes
(apprentissage de la structure). Pour finir, nous aborderons le cas plus particulier des rseaux
baysiens causaux, et verrons comment l'apprentissage de la structure de ces modles peut mener
la dcouverte de relations causales.
Mots-cls
Rseaux baysiens, apprentissage, donnes compltes, donnes incompltes, dcouverte de
causalit
Plan
Le tutoriel propos est inspir des formations rseaux baysiens effectues pour le rseau RISC du
RISC en 2005 et 2006, et des cours dispenss en formation ingnieur l'INSA de Rouen et en Master
Recherche l'Universit de Rouen. Le plan est le suivant :
MATIN
notion d'infrence, principe des principaux algorithmes (message passing, junction tree)
exemples d'utilisation
APRES-MIDI
Rfrences
Jensen, F. V. (1996). An introduction to Bayesian Networks. Taylor and Francis, London, United
Kingdom.
Maes, S., Meganck, S., and Leray, P. (2007). An integral approach to causal inference with
latent variables. In Russo, F. and Williamson, J., editors, Causality and Probability in the
Sciences. Texts In Philosophy series, London College Publications, pp 17-41.
Misc. (2007). Modles graphiques probabilistes. In Leray, P., editor, Revue d'Intelligence
Artificielle, number 21:3/2007. Herms.
Nam, P., Wuillemin, P.-H., Leray, P., Pourret, O., and Becker, A. (2004). Rseaux baysiens.
Eyrolles, Paris.
Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press,
Cambridge, England.
R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Au programme ...
Matin
= Notions g
en
erales
Definition, D-separation, Notion dinference
Matin
Apprentissage de la structure
RB et causalit
e
2/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Un peu dhistoire
1970-1990 : L`
ere des syst`
emes experts
syst`emes `a base de r`egles de production
si X=vrai et Y=absent alors Z=faux
moteur dinference (chainage avant, arri`ere)
Judea Pearl (1936) : les r
eseaux bay
esiens
1982 : Reverend Bayes on inference engines: A
distributed hierarchical approach
P(X=vrai)=0.3 et P(Z=faux)=0.2 ...
P(Y=absent)=?
1988 : Probabilistic Reasoning in Intelligent
Systems: Networks of Plausible Inference.
Morgan Kaufmann
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
3/31
Inf
erence
R
ef
erences
Rappels de probabilit
es
Probabilit
e conditionnelle
A et M deux evenements
information a priori sur A :
P(A)
M sest produit :
P(M) 6= 0
Philippe Leray
P(A|M) =
P(A,M)
P(M)
4/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Rappels de probabilit
es
Ind
ependance
A et B sont independants ssi :
P(A, B) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
Ind
ependance conditionnelle
A et B sont independants conditionnellement `a C ssi :
P(A|B, C ) = P(A|C )
Philippe Leray
Introduction et rappels
D
efinition
5/31
Notions g
en
erales
Inf
erence
R
ef
erences
Rappels de probabilit
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs
Marginalisation :
P(A) =
P(A, Mi )
Th
eor`
eme des probabilit
es totales
Un evenement A peut resulter de plusieurs causes Mi . Quelle est la
probabilite de A connaissant :
les probabilites elementaires P(Mi) (a priori)
les probabilites conditionnelles de A pour chaque Mi
P(A) =
P(A|Mi )P(Mi )
6/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Rappels de probabilit
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs
Th
eor`
eme de Bayes
Un evenement A sest produit. Quelle est la probabilite que ce soit
la cause Mi qui lait produit ?
P(Mi |A) =
P(A|Mi )P(Mi )
P(A)
Introduction et rappels
D
efinition
Notions g
en
erales
7/31
Inf
erence
R
ef
erences
D
efinition dun r
eseau bay
esien
Principe
prendre en compte les independances conditionnelles entre les
variables pour simplifier la loi jointe donnee par le theor`eme
de Bayes generalise.
D
efinition
Un reseau bayesien est defini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray
8/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
ordre topologique : C , S, A, R, T (non unique)
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
9/31
Inf
erence
R
ef
erences
Int
er
ets et motivation
Int
er
ets des r
eseaux bay
esiens
outil de repr
esentation graphique des connaissances
representation de lincertain
raisonnement `a partir de donnees incompl`etes : inf
erence
Motivation
comment determiner la structure, avec des donnees compl`etes
ou incompl`etes ?
Philippe Leray
10/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Int
er
ets et motivation
Autre int
er
et
outil de d
ecouverte de connaissances `a partir de donnees
Motivation
comment decouvrir des connaissances : relations causales,
variables latentes ?
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
11/31
Inf
erence
R
ef
erences
Int
er
ets et motivation
Des domaines dapplication vari
es
diagnostic, fiabilite, maintenance, securite informatique
psychologie, sciences de la cognition, matrise des risques
Motivation
fournir des outils pour la modelisation de syst`emes complexes
Philippe Leray
12/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
RB et ind
ependance conditionnelle
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
13/31
Inf
erence
R
ef
erences
Connexion s
erie
A et B sont dependants
A et B sont independants conditionnellement `a C
si C est connue, A napporte aucune information sur B
P(S5 |S4 , S2 ) = P(S5 |S4 ) = P(S5 |parents(S5 ))
Philippe Leray
14/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Connexion divergente
A et B sont dependants
A et B sont independants conditionnellement `a C
si C est connue, A napporte aucune information sur B
P(S4 |S2 , S3 ) = P(S4 |S2 ) = P(S4 |parents(S4 ))
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
15/31
Inf
erence
R
ef
erences
A et B sont independants
A et B sont dependants conditionnellement `a C
si C est connue, A apporte une information sur B
P(S3 |S1 , S2 ) = P(S3 |parents(S3 ))
Philippe Leray
16/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Cons
equence
Rappel du th
eor`
eme de Bayes g
en
eralis
e
P(S) = P(S1 ) P(S2 |S1 ) P(S3 |S1 , S2 ) P(Sn |S1 . . . Sn1 )
Cons
equence dans un RB
P(Si |S1 . . . Si1 ) = P(Si |parents(Si )) do`
u
P(S) = ni=1 P(Si |parents(Si ))
La loi jointe (globale) se decompose en un produit de lois
conditionnelles locales
RB = representation compacte de la loi jointe P(S)
Philippe Leray
Introduction et rappels
D
efinition
17/31
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
Philippe Leray
P(S4 |S2 )
P(S5 |S4 )
18/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
D-s
eparation
Principe
Determiner si deux variables quelconques sont independantes
conditionnellement `a un ensemble de variables instantiees
D
efinition
Deux variables A et B sont d-separees si pour tous les chemins
entre A et B, il existe une variable intermediaire V differente
de A et B telle que lune des deux propositions est vraie :
la connexion est serie ou divergente et V est instancie
la connexion est convergente et ni V ni ses descendants ne
sont instancies
Philippe Leray
Introduction et rappels
D
efinition
19/31
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
D-s
eparation
la connexion est serie ou
divergente et V est instancie
la connexion est convergente
et ni V ni ses descendants ne
sont instancies
Philippe Leray
20/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
RB = mod`
ele g
en
eratif
Principe
RB = representation compacte de la loi jointe P(S)
Utilisation de methodes dechantillonnage pour generer des
donnees qui suivent cette loi
Exemple : forward sampling
si rand1 < 0.001,
C = O, sinon N
si rand2 < 0.0001,
S = O, sinon N
si rand3 < P(A = O|C = ..., S = ...), A = O, sinon N
...
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
21/31
Inf
erence
R
ef
erences
Notion dinf
erence
Inf
erence
calcul de nimporte quelle P(Si |Sj = x)
(NP-complet)
22/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Introduction et rappels
D
efinition
Notions g
en
erales
23/31
Inf
erence
R
ef
erences
Message Passing
Les messages
Pour chaque enfant Y de X ,
X
Y (X = x) =
P(Y = y |X = x)(Y = y )
y
24/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Message Passing
Les messages
Pour Z lunique parent de X ,
Y
X (Z = z) = (Z = z)
U (Z = z)
UEnf (Z )\{X }
Introduction et rappels
D
efinition
Notions g
en
erales
25/31
Inf
erence
R
ef
erences
Moralisation = ???
Triangulation = ???
Cliques = ???
Philippe Leray
26/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Junction Tree
Moralisation
marier les parents de chaque nud
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
27/31
Inf
erence
R
ef
erences
Junction Tree
Triangulation
tout cycle de longueur au moins 4 doit contenir une corde
(arete reliant deux sommets non consecutifs sur le cycle)
(= aucun sous-graphe cyclique de longueur 4)
Triangulation optimale pour des graphes non-diriges =
NP-difficile (comment choisir les meilleures cordes?)
Philippe Leray
28/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Junction Tree
Clique
sous-graphe dont les nuds sont completement connectes
Clique maximale
lajout dun autre nud `a cette clique ne donne pas une clique
Philippe Leray
Introduction et rappels
D
efinition
Notions g
en
erales
29/31
Inf
erence
R
ef
erences
Junction Tree
Th
eor`
eme
Si le graphe est moralise et triangule, alors les cliques peuvent
etre organisees en un arbre de jonction
30/31
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007
Philippe Leray
31/31
R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin
Apprentissage de la structure
RB et causalit
e
2/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
D
efinition dun r
eseau bay
esien
Un r
eseau bay
esien est d
efini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
3/18
R
ef
erences
Notion dapprentissage
Construire un r
eseau bay
esien
1
on cherche la structure
`a partir de donnees compl`etes / incompl`etes
dans quel espace ?
connat-on toutes les variables ?
Philippe Leray
4/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Estimation de param`
etres
Donn
ees compl`
etes D
Determiner les param`etres des differentes CPD `a partir de D
Approche statistique classique = max. de vraisemblance (MV)
MV = argmax P(D|)
Probabilite dun evenement = frequence dapparition de
levenement
Maximum de vraisemblance (MV)
i = xk |Pa(Xi ) = xj ) = MV = PNi,j,k
P(X
i,j,k
k Ni,j,k
Ni,j,k = nb doccurences de {Xi = xk et Pa(Xi ) = xj }
Philippe Leray
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
5/18
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Autre approche
Approche bayesienne = max. `a posteriori (MAP)
MAP = argmax P(|D) = argmax P(D|)P()
besoin dune loi a priori sur les param`etres P()
souvent distribution conjuguee `a la loi de X
si P(X ) multinomiale, P() conjuguee = Dirichlet :
P()
qi Y
ri
n Y
Y
(i,j,k )i,j,k 1
o`
u i,j,k sont les cfficients de la distribution de Dirichlet
associee au coefficient i,j,k
Philippe Leray
6/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Maximum a Posteriori (MAP)
i = xk |Pa(Xi ) = xj ) = MAP = P Ni,j,k + i,j,k 1
P(X
i,j,k
k (Ni,j,k + i,j,k 1)
Autre approche bay
esienne
esperance `a posteriori (EAP) : calculer lesperance a posteriori
de i,j,k au lieu du max.
i = xk |Pa(Xi ) = xj ) = EAP = P Ni,j,k + i,j,k
P(X
i,j,k
k (Ni,j,k + i,j,k )
Philippe Leray
Introduction
Donn
ees compl`
etes
7/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees compl`etes (MV)
P(M
= m0 ) = 6/15 = 0.4
P(M
= m1 ) = 8/15 = 0.53
P(M
= m2 ) = 1/15 = 0.07
= OK |M = m0 ) = 1/6 = 0.17
P(F
= BAD|M = m0 ) = 5/6 = 0.83
P(F
etc . . .
Probl`eme :
= BAD|M = m2 ) = 0/1
P(F
car cette configuration ne figure pas
dans notre (petite) base dexemples
Philippe Leray
M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
8/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees compl`etes (EAP)
A priori de Dirichlet sur les i,j,k
pseudo tirage a priori de N
mesures
Exemples
A priori de Dirichlet sur M reparti
sur m0 et m1 = [50 50 0]
P(M
= m0 ) = (6 + 50)/(15 + 100) = 0.487
P(M
= m1 ) = (8 + 50)/(15 + 100) = 0.5043
P(M
= m2 ) = (1 + 0)/(15 + 100) = 0.0087
A priori de Dirichlet sur (F |M = mi )
= [9 1]
= BAD|M = m2 )
P(F
Philippe Leray
Introduction
M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
Donn
ees compl`
etes
9/18
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees incompl`
etes)
Plusieurs types de donn
ees incompl`
etes
(Rubin, 1976)
10/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
11/18
R
ef
erences
(Dempster 1977)
12/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees manquantes (EM+MV)
Exemple sur lestimation de P(M)
(0) (M) = [1/3 1/3 1/3]
Initialisation P
Philippe Leray
Introduction
Donn
ees compl`
etes
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
13/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5
P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8
Philippe Leray
P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2
Iterato 1
[E]
14/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5
P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8
Philippe Leray
Introduction
Donn
ees compl`
etes
P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2
Iterato 1
[E]
[M] :
(1) (m0 )
P
= 5/15
= 0.333
(1) (m1 )
P
= 8/15
= 0.533
(1) (m2 )
P
= 2/15
= 0.133
15/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5
P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6
Philippe Leray
P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4
Iterato 2
[E]
16/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5
P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6
Philippe Leray
Introduction
Donn
ees compl`
etes
P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4
Iterato 2
[E]
[M] :
(2) (m0 )
P
= 5/15
= 0.333
(2) (m1 )
P
= 8.6/15
= 0.573
(2) (m2 )
P
= 1.4/15
= 0.093
Donn
ees incompl`
etes
17/18
R
ef
erences
R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007
Philippe Leray
18/18
R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction
IC
Score
Autre espace
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin
= Apprentissage de la structure
RB et causalit
e
2/33
Introduction
IC
Score
Autre espace
R
ef
erences
D
efinition dun r
eseau bay
esien
Un r
eseau bay
esien est d
efini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray
Introduction
IC
Score
Autre espace
3/33
R
ef
erences
Notion dapprentissage
Construire un r
eseau bay
esien
1
on cherche la structure
`a partir de donnees compl`etes / incompl`etes
dans quel espace ?
connat-on toutes les variables ?
Philippe Leray
4/33
Introduction
IC
Score
Autre espace
R
ef
erences
Probl`
eme complexe
Philippe Leray
Introduction
IC
Score
Autre espace
5/33
R
ef
erences
Dimension dun r
eseau bay
esien
D
efinition
Nombre de param`etres (independants) necessaires pour decrire
lensemble des CPD associees au RB
Exemples
Dim(B) = 1 + 1 + 4 + 2 + 2
Graphe vide : Dim(B0 ) = ?
completement connecte : Dim(Bc ) = ?
Philippe Leray
6/33
Introduction
IC
Score
Autre espace
R
ef
erences
Equivalence de Markov
D
efinition
B1 et B2 sont equivalents au sens de Markov ssi ils ont le meme
squelette et decrivent les memes dependances et independances
conditionnelles
Cons
equences
B1 et B2 partagent les memes V-structures et arcs inferes
tous les graphes equivalents peuvent etre representes par un
graphe partiellement oriente (squelette, V-structure et arcs
inferes) (CPDAG)
on appelle ce CPDAG le representant de la classe
dequivalence
Philippe Leray
Introduction
IC
Score
7/33
Autre espace
R
ef
erences
Philippe Leray
8/33
Introduction
IC
Score
Autre espace
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Philippe Leray
Introduction
IC
Score
Autre espace
9/33
R
ef
erences
Recherche dIC
Deux algorithmes de r
ef
erence
Pearl et Verma : IC et IC*
Spirtes, Glymour et Scheines : SGS, PC, CI, FCI
Principe commun
construire un graphe non dirige contenant les relations entre
les variables (tests du 2 )
par ajout daretes (Pearl et Verma)
par suppression daretes (SGS)
Philippe Leray
10/33
Introduction
IC
Score
Autre espace
R
ef
erences
Recherche dIC
Probl`
emes principaux
Fiabilite du test dindependance conditionnellement `a un
grand nb de variables (et avec un nb de donnees restreint)
Heuristique SGS : si df <
N
10 ,
alors dependance
Philippe Leray
Introduction
IC
Score
11/33
Autre espace
R
ef
erences
Algorithme PC
Etape 0 : Graphe non orient
e reliant tous les nuds
A gauche, le reseau theorique utilise pour generer 5000 exemples.
A
Philippe Leray
12/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Etape 1a : Suppression des IC dordre 0
2 : SA LA BA OA X A DA T S LT OB X B
A
Philippe Leray
Introduction
IC
Score
13/33
Autre espace
R
ef
erences
Algorithme PC
Etape 1b : Suppression des IC dordre 1
2 : T A|O
OS|L
X S|L
BT |S
X T |O
DT |O ...
Philippe Leray
14/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Etape 1c : Suppression des IC dordre 2
2 : DS|{L, B} X O|{T , L} DO|{T , L}
A
Philippe Leray
Introduction
IC
Score
15/33
Autre espace
R
ef
erences
Algorithme PC
Etape 2 : Recherche des V-structures
2 : decouverte de la V-structure T O L
A
Etape 3 : Orientation r
ecursive de certaines ar
etes
aucune ici
Philippe Leray
16/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Instanciation du PDAG
Orientation des arcs restants
(seule condition : ne pas introduire de nouvelle V-structure)
A
Philippe Leray
Introduction
IC
Score
17/33
Autre espace
R
ef
erences
Algorithme PC
R
eseau obtenu vs. th
eorique
Le test du 2 sur 5000 exemples na pas reussi `a retrouver
A T , O X et O D
A
Philippe Leray
18/33
Introduction
IC
Score
Autre espace
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Recherche dun bon r
eseau bay
esien
Premi`ere methode : rechercher directement les independances
conditionnelles
Autre methode : associer un score `a chaque structure
calculable rapidement / decomposable localement
Score(B, D) = constante +
n
X
score(Xi , pai )
i=1
Philippe Leray
Introduction
IC
Score
Autre espace
19/33
R
ef
erences
Notion de score
Principe g
en
eral : rasoir dOccam
Pluralitas non est ponenda sine neccesitate
(La pluralite (des notions) ne devrait pas etre posee sans
necessite)
Frustra fit per plura quod potest fieri per pauciora
(Cest en vain que lon fait avec plusieurs ce que lon peut
faire avec un petit nombre)
= Principe de parcimonie = trouver le mod`
ele
qui represente le mieux les donnees D :
vraisemblance : L(D|, B)
et qui soit le plus simple possible :
nb de param`etres pour decrire B : Dim(B)
Philippe Leray
20/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemples de score
AIC et BIC
Compromis vraisemblance / complexite
Application des crit`eres AIC (Akake 70) et BIC (Schwartz 78)
SAIC (B, D) = log L(D|MV , B) Dim(B)
1
SBIC (B, D) = log L(D|MV , B) Dim(B) log N
2
Scores bay
esiens : BD, BDe, BDeu
SBD (B, D) = P(B, D)
qi
n Y
Y
i=1 j=1
Philippe Leray
Introduction
IC
(Heckerman 94)
ri
Y
(Nijk + ijk )
(ij )
(Nij + ij )
(ijk )
k=1
Score
Autre espace
21/33
R
ef
erences
Apprentissage (donn
ees compl`
etes)
espace E
Greedy Equivalence Search
Philippe Leray
22/33
Introduction
IC
Score
Autre espace
R
ef
erences
Restriction `
a lespace des arbres
Principe
quel est le meilleur arbre passant par tous les nuds,
i.e. maximisant un score defini pour chaque arc possible ?
R
eponse : Arbre de recouvrement maximal
MWST : Maximum Weight Spanning Tree
(Chow et Liu 68) : information mutuelle :
W (XA , XB ) =
X Nab
a,b
log
Nab N
Na. N.b
Introduction
IC
Score
Autre espace
23/33
R
ef
erences
Restriction `
a lespace des arbres
D
eroulement
MWST donne un arbre non oriente reliant toutes les variables.
arbre non oriente = CPDAG representant dans lespace des
equivalents de Markov de tous les arbres diriges qui partagent
cette meme structure !
transformation en arbre oriente en choisissant arbitrairement
un nud racine et en dirigeant chaque arete `a partir de ce
nud.
Philippe Leray
24/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
Philippe Leray
Introduction
IC
Score
Autre espace
25/33
R
ef
erences
Principe
Parcours de lespace `a laide doperateurs classiques :
ajout darc
inversion darc
suppression darc
Philippe Leray
26/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
Philippe Leray
Introduction
IC
Score
27/33
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
Philippe Leray
28/33
Introduction
IC
Score
Autre espace
R
ef
erences
Probl`
eme
= calculer le score lorsque les donnees sont incompl`etes
X = {D, H}
Une solution : Structural EM (Friedman 97)
Greedy Search + EM sur les param`etres
EM parametrique pour ameliorer (i) pour un B (i) fixe
recherche de B (i+1) parmi les voisins de B (i) , avec des donnees
completees selon (i)
et ainsi de suite ...
Philippe Leray
Introduction
IC
Score
Autre espace
29/33
R
ef
erences
30/33
Introduction
IC
Score
Autre espace
R
ef
erences
Philippe Leray
Introduction
IC
Score
31/33
Autre espace
R
ef
erences
Philippe Leray
32/33
Introduction
IC
Score
Autre espace
R
ef
erences
R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007
Philippe Leray
33/33
R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin
Apprentissage de la structure
= RB et causalit
e
2/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Confusion
lorsque le graphe est construit par un expert, le graphe est
souvent causal
lorsque le graphe est appris avec des donnees, il na aucune
raison detre causal !
Pas toujours grave ...
graphes equivalents meme loi jointe, donc meme resultat
pour les algorithmes dinference (probabiliste)
la causalite nest pas utile pour linference (probabiliste)
Philippe Leray
Introduction
RB causal
Apprentissage
3/17
Var. latentes
R
ef
erences
R
eseau bay
esien causal
R
eseau bay
esien causal
chaque A B represente une relation de causalite directe,
i.e. le fait que A est bien la cause directe qui gen`ere B
Philippe Leray
4/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
exemple avec A B
P(A|do(B = b)) = P(A),
P(B|do(A = a)) = P(B|A = a)
exemple avec A B
P(A|do(B = b)) = P(A|B = b),
P(B|do(A = a)) = P(B)
Philippe Leray
Introduction
RB causal
Apprentissage
5/17
Var. latentes
R
ef
erences
Manipulation Theorem
Specifier comment la loi jointe change apr`es une manipulation
do(M = m)
Version intuitive
on oublie les causes officielles de M (ses parents dans le
graphe)
on garde le fait que M = m pour les effets que cela declenche
(les enfants de M)
Version officielle
P(v |do(m)) =
Y
Vi V \M
Philippe Leray
P(vi |Pa(Vi ))
M=m
6/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Introduction
RB causal
Apprentissage
7/17
Var. latentes
R
ef
erences
Algorithme MyCaDo
!"#
!
%
%
$!
Philippe Leray
8/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Algorithme MyCaDo
1
Realisation de lexperience
do(M = m) pour toutes les valeurs possibles m
observation des variables C candidates (C M)
Philippe Leray
Introduction
RB causal
Apprentissage
9/17
Var. latentes
R
ef
erences
10/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Suffisance Causale
Philippe Leray
Introduction
RB causal
Apprentissage
11/17
Var. latentes
R
ef
erences
Mod
elisation explicite vs. implicite
Mod
elisation explicite
Adaptation de Structural EM
Avantages
inference probabiliste : OK
Inconvenients
complexite de la methode
inference causale : NON (le graphe nest pas causal)
Mod
elisation implicite
Mod`ele plus leger
pas besoin de determiner la cardinalite de H
12/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
A B : cause commune
latente
A B : cause commune
latente
A B : relation de
causalite directe
A B dependance entre A
et B
existence de chemins induits
Philippe Leray
Introduction
RB causal
Apprentissage
13/17
Var. latentes
R
ef
erences
Philippe Leray
14/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Inf
erence causale : OK dans les SMCM
Inf
erence probabiliste : il manque une parametrisation
efficace des SMCM
Philippe Leray
Introduction
RB causal
Apprentissage
15/17
Var. latentes
R
ef
erences
16/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Causality: Models, Reasoning, and Inference - J. Pearl
(Cambridge University Press) 2000
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007
Philippe Leray
17/17