Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

8mes Journes Francophones
Extraction et Gestion des Connaissances

Sophia Antipolis 29 janvier 2008
Tutoriel
Rseaux Baysiens
Introduction et apprentissage
Modlisation et dcouverte de
connaissances
Organisateur :
Philippe LERAY (Univ. Nantes)
Responsables des tutoriels EGC

Hicham Behja (INRIA, Sophia Antipolis)
Bernard Senach (INRIA, Sophia Antipolis)
Rseaux baysiens - introduction et apprentissage

modlisation et dcouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COD
Laboratoire d'Informatique de Nantes Atlantique
Site Ecole Polytechnique de l'Universit de Nantes
La Chantrerie - rue Christian Pauc - BP 50609
44306 Nantes Cedex 3
Rsum
La reprsentation des connaissances et le raisonnement partir de ces reprsentations a donn
naissance de nombreux modles. Les modles graphiques probabilistes, et plus prcisment les
rseaux baysiens (RB), initis par Judea Pearl dans les annes 1980, se sont rvls des outils trs
pratiques pour la reprsentation de connaissances incertaines et le raisonnement partir
dinformations incompltes, dans de nombreux domaines comme la bio-informatique, la gestion du
risque, le marketing, la scurit informatique, le transport, etc.
La partie graphique des RB offre un outil intuitif ingalable et attractif dans de nombreuses applications
o les utilisateurs ont besoin de "comprendre" ce que raconte le modle quils utilisent. La construction
de ces modles partir de donnes permet aussi de dcouvrir des connaissances utiles aux experts,
en allant sous certaines rserves - jusqu' la dcouverte de relations causales.
Ce tutoriel se propose tout d'abord de dfinir la notion de rseau baysien puis de donner un apercu de
l'utilisation de ces modles pour rpondre diffrentes requtes (notion d'infrence ou de
raisonnement probabiliste). Nous aborderons ensuite le problme de l'apprentissage des rseaux
baysiens partir de donnes compltes ou incompltes, en commenant par la dtermination des
distributions de probabilit conditionnelles dfinies par un graphe donn (apprentissage des
paramtres), et en essayant ensuite de dterminer le graphe mme partir des donnes
(apprentissage de la structure). Pour finir, nous aborderons le cas plus particulier des rseaux
baysiens causaux, et verrons comment l'apprentissage de la structure de ces modles peut mener
la dcouverte de relations causales.
Mots-cls
Rseaux baysiens, apprentissage, donnes compltes, donnes incompltes, dcouverte de
causalit
Plan
Le tutoriel propos est inspir des formations rseaux baysiens effectues pour le rseau RISC du
RISC en 2005 et 2006, et des cours dispenss en formation ingnieur l'INSA de Rouen et en Master
Recherche l'Universit de Rouen. Le plan est le suivant :
MATIN
Rseaux baysiens : dfinition et notion d'infrence
dfinition, notion de d-sparation
les rseaux baysiens comme modles gnratifs
notion d'infrence, principe des principaux algorithmes (message passing, junction tree)
exemples d'utilisation
Rseaux baysiens : apprentissage des paramtres
maximum de vraisemblance vs. maximum a posteriori
donnes compltes vs. donnes incompltes
APRES-MIDI
Rseaux baysiens : apprentissage de la structure
recherche d'indpendances conditionnelles vs. maximisation d'un score d'adquation
les diffrents espaces de recherche
donnes compltes vs. donnes incompltes
Rseaux baysiens et causalit
un rseau baysien n'est pas forcment un modle causal
dfinition d'un rseau baysien causal
intervention/manipulation vs. observation
suffisance causale vs. variables latentes
Rfrences
Jensen, F. V. (1996). An introduction to Bayesian Networks. Taylor and Francis, London, United
Kingdom.
Maes, S., Meganck, S., and Leray, P. (2007). An integral approach to causal inference with
latent variables. In Russo, F. and Williamson, J., editors, Causality and Probability in the
Sciences. Texts In Philosophy series, London College Publications, pp 17-41.
Misc. (2007). Modles graphiques probabilistes. In Leray, P., editor, Revue d'Intelligence
Artificielle, number 21:3/2007. Herms.
Nam, P., Wuillemin, P.-H., Leray, P., Pourret, O., and Becker, A. (2004). Rseaux baysiens.
Eyrolles, Paris.
Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press,
Cambridge, England.
R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes
Introduction et rappels
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Au programme ...
Matin
= Notions g
en
erales
Definition, D-separation, Notion dinference
Matin
Apprentissage des param`

etres
Maximum de vraisemblance / a posteriori

Donnees complètes / incomplètes
Apr`
es-midi
Apprentissage de la structure
Recherche dindependances / maximisation score

Quel espace ? Donnees complètes / incomplètes
Apr`
es-midi
RB et causalit
e
RB causal, intervention / observation, suffisance causale

Philippe Leray
Tutoriel EGC 2008
2/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Un peu dhistoire
1970-1990 : L`
ere des syst`
emes experts
systèmes à base de règles de production
si X=vrai et Y=absent alors Z=faux
moteur dinference (chainage avant, arrière)
Judea Pearl (1936) : les r
eseaux bay
esiens
1982 : Reverend Bayes on inference engines: A
distributed hierarchical approach
P(X=vrai)=0.3 et P(Z=faux)=0.2 ...
P(Y=absent)=?
1988 : Probabilistic Reasoning in Intelligent
Systems: Networks of Plausible Inference.
Morgan Kaufmann
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
3/31
Inf
erence
R
ef
erences
Rappels de probabilit
es
Probabilit
e conditionnelle
A et M deux evenements
information a priori sur A :
P(A)
M sest produit :
P(M) 6= 0
sil existe un lien entre A et M, cet evenement va modifier

notre connaissance sur A
information a posteriori :
Philippe Leray
P(A|M) =
Tutoriel EGC 2008
P(A,M)
P(M)
4/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
es
Ind
ependance
A et B sont independants ssi :
P(A, B) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
Ind
ependance conditionnelle
A et B sont independants conditionnellement à C ssi :
P(A|B, C ) = P(A|C )
Philippe Leray
D
efinition
Tutoriel EGC 2008
5/31
Notions g
en
erales
Inf
erence
R
ef
erences
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs
Marginalisation :
P(A) =
P(A, Mi )
Th
eor`
eme des probabilit
es totales
Un evenement A peut resulter de plusieurs causes Mi . Quelle est la
probabilite de A connaissant :
les probabilites elementaires P(Mi) (a priori)
les probabilites conditionnelles de A pour chaque Mi
P(A) =
P(A|Mi )P(Mi )
mais comment repondre à la question inverse ?

Philippe Leray
Tutoriel EGC 2008
6/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs
Th
eor`
eme de Bayes
Un evenement A sest produit. Quelle est la probabilite que ce soit
la cause Mi qui lait produit ?
P(Mi |A) =
P(A|Mi )P(Mi )
P(A)
P(Mi|A) : probabilite a posteriori

P(A) : constante (pour chaque Mi ) cf. th. probas totales
Th
eor`
eme de Bayes g
en
eralis
e (Chain rule)
P(A1 . . . An ) = P(A1 )P(A2 |A1 )P(A3 |A1 , A2 ) . . . P(An |A1 . . . An1 )
Philippe Leray
Tutoriel EGC 2008
D
efinition
Notions g
en
erales
7/31
Inf
erence
R
ef
erences
D
efinition dun r
eseau bay
esien
Principe
prendre en compte les independances conditionnelles entre les
variables pour simplifier la loi jointe donnee par le theorème
de Bayes generalise.
D
efinition
Un reseau bayesien est defini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray
Tutoriel EGC 2008
8/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
ordre topologique : C , S, A, R, T (non unique)
Philippe Leray
Tutoriel EGC 2008
D
efinition
Notions g
en
erales
9/31
Inf
erence
R
ef
erences
Int
er
ets et motivation
Int
er
ets des r
eseaux bay
esiens
outil de repr
esentation graphique des connaissances
representation de lincertain
raisonnement à partir de donnees incomplètes : inf
erence

Motivation
comment determiner la structure, avec des donnees complètes
ou incomplètes ?
Philippe Leray
Tutoriel EGC 2008
10/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Int
er
ets et motivation
Autre int
er
et
outil de d
ecouverte de connaissances à partir de donnees
Motivation
comment decouvrir des connaissances : relations causales,
variables latentes ?
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
11/31
Inf
erence
R
ef
erences
Int
er
ets et motivation
Des domaines dapplication vari
es
diagnostic, fiabilite, maintenance, securite informatique
psychologie, sciences de la cognition, matrise des risques
Motivation
fournir des outils pour la modelisation de systèmes complexes
Philippe Leray
Tutoriel EGC 2008
12/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
RB et ind
ependance conditionnelle
Les RB representent graphiquement les independances

conditionnelles
Exemple sur 3 nuds
3 types de relations (simples) entre A, B et C :
A C B : connexion serie
A C B : connexion divergente
A C B : connexion convergente (V-structure)
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
13/31
Inf
erence
R
ef
erences
Connexion s
erie
A et B sont dependants
A et B sont independants conditionnellement à C
si C est connue, A napporte aucune information sur B
P(S5 |S4 , S2 ) = P(S5 |S4 ) = P(S5 |parents(S5 ))
Philippe Leray
Tutoriel EGC 2008
14/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Connexion divergente
A et B sont dependants
A et B sont independants conditionnellement à C
si C est connue, A napporte aucune information sur B
P(S4 |S2 , S3 ) = P(S4 |S2 ) = P(S4 |parents(S4 ))
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
15/31
Inf
erence
R
ef
erences
Connexion convergente V-structure
A et B sont independants
A et B sont dependants conditionnellement à C
si C est connue, A apporte une information sur B
P(S3 |S1 , S2 ) = P(S3 |parents(S3 ))
Philippe Leray
Tutoriel EGC 2008
16/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Cons
equence
Rappel du th
eor`
eme de Bayes g
en
eralis
e
P(S) = P(S1 ) P(S2 |S1 ) P(S3 |S1 , S2 ) P(Sn |S1 . . . Sn1 )
Cons
equence dans un RB
P(Si |S1 . . . Si1 ) = P(Si |parents(Si )) do`
u
P(S) = ni=1 P(Si |parents(Si ))
La loi jointe (globale) se decompose en un produit de lois
conditionnelles locales
RB = representation compacte de la loi jointe P(S)
Philippe Leray
D
efinition
Tutoriel EGC 2008
17/31
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
P(Cambriolage, Seisme, Alarme, Radio, Tele) =

P(S1 )P(S2 |S1 )P(S3 |S1 , S2 )P(S4 |S1 , S2 , S3 )P(S5 |S1 , S2 , S3 , S4 )
P(S1 ) P(S2 ) P(S3 |S1 , S2 )
Philippe Leray
P(S4 |S2 )
Tutoriel EGC 2008
P(S5 |S4 )
18/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
D-s
eparation
Principe
Determiner si deux variables quelconques sont independantes
conditionnellement à un ensemble de variables instantiees
D
efinition
Deux variables A et B sont d-separees si pour tous les chemins
entre A et B, il existe une variable intermediaire V differente
de A et B telle que lune des deux propositions est vraie :
la connexion est serie ou divergente et V est instancie
la connexion est convergente et ni V ni ses descendants ne
sont instancies
Si A et B ne sont pas d-separes, ils sont d-connectes
Philippe Leray
D
efinition
Tutoriel EGC 2008
19/31
Notions g
en
erales
Inf
erence
R
ef
erences
Exemple
D-s
eparation
la connexion est serie ou
divergente et V est instancie
la connexion est convergente
et ni V ni ses descendants ne
sont instancies

Philippe Leray
Tutoriel EGC 2008
20/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
RB = mod`
ele g
en
eratif
Principe
RB = representation compacte de la loi jointe P(S)
Utilisation de methodes dechantillonnage pour generer des
donnees qui suivent cette loi
Exemple : forward sampling
si rand1 < 0.001,
C = O, sinon N
si rand2 < 0.0001,
S = O, sinon N
si rand3 < P(A = O|C = ..., S = ...), A = O, sinon N
...
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
21/31
Inf
erence
R
ef
erences
Notion dinf
erence
Inf
erence
calcul de nimporte quelle P(Si |Sj = x)
(NP-complet)
lobservation {Sj = x} est appelee evidence

Algorithmes exacts
Message Passing (Pearl 1988) pour les arbres
Junction Tree (Jensen 1990)
Shafer-Shenoy (1990)
Problème = explosion combinatoire de ces methodes pour des
graphes fortement connectes.
Algorithmes approch
es
Echantillonnage
Methodes variationnelles
Philippe Leray
Tutoriel EGC 2008
22/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Message Passing (Pearl 1988)

Principe
Chaque nud envoie des messages à ses voisins
Lalgorithme ne marche que dans le cas des arbres
(mais est generalisable au cas des poly-arbres)
E = ensemble de variables instanciees.
E = N x Dx
2 types de messages et serviront à calculer
(X ) P(Dx |X )
(X ) P(X |Nx )
et ensuite on peut montrer que

P(X |E = e) (X )(X )
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
23/31
Inf
erence
R
ef
erences
Message Passing
Les messages
Pour chaque enfant Y de X ,
X
Y (X = x) =
P(Y = y |X = x)(Y = y )
y
Comment calculer en chaque nud ?

Calcul de
Si X instancie, (X ) = [001 . . . 0]
(la position du 1 correspond à la valeur donnee à X )
sinon
si X est une feuille, (X ) = [1 . . . 1]
sinon (X = x) = Y Enf (X ) Y (X = x)
Philippe Leray
Tutoriel EGC 2008
24/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Message Passing
Les messages
Pour Z lunique parent de X ,
Y
X (Z = z) = (Z = z)
U (Z = z)
UEnf (Z )\{X }
Comment calculer en chaque nud ?

Calcul de
Si X instancie, (X ) = [001 . . . 0]
(la position du 1 correspond à la valeur donnee à X )
sinon
si X est la racine, (X
P ) = P(X )
sinon (X = x) = z P(X = x|Z = z)X (Z = z)
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
25/31
Inf
erence
R
ef
erences
Junction Tree (Jensen 1990)

Message Passing ne sapplique bien quaux arbres
Besoin dun algorithme plus general
Principe
Transformer le graphe en un arbre (non oriente)...
Arbre = arbre de jonction des cliques maximales du graphe
moralise et triangule
Moralisation = ???
Triangulation = ???
Cliques = ???
Philippe Leray
Tutoriel EGC 2008
26/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Junction Tree
Moralisation
marier les parents de chaque nud
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
27/31
Inf
erence
R
ef
erences
Junction Tree
Triangulation
tout cycle de longueur au moins 4 doit contenir une corde
(arete reliant deux sommets non consecutifs sur le cycle)
(= aucun sous-graphe cyclique de longueur 4)
Triangulation optimale pour des graphes non-diriges =
NP-difficile (comment choisir les meilleures cordes?)
Philippe Leray
Tutoriel EGC 2008
28/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
Junction Tree
Clique
sous-graphe dont les nuds sont completement connectes
Clique maximale
lajout dun autre nud à cette clique ne donne pas une clique
Philippe Leray
D
efinition
Tutoriel EGC 2008
Notions g
en
erales
29/31
Inf
erence
R
ef
erences
Junction Tree
Th
eor`
eme
Si le graphe est moralise et triangule, alors les cliques peuvent
etre organisees en un arbre de jonction
P(S) = (S1, S2, S3)(S2, S4)(S4, S5)

Linference se fait au niveau des
Philippe Leray
Tutoriel EGC 2008
30/31
D
efinition
Notions g
en
erales
Inf
erence
R
ef
erences
R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007
Philippe Leray
Tutoriel EGC 2008
31/31
R
eseaux bay
esiens
mod
elisation et d
Philippe LERAY
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Matin
= Apprentissage des param`

etres

Apr`
es-midi

Apr`
es-midi
RB et causalit
e

Philippe Leray
Tutoriel EGC 2008
2/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
D
efinition dun r
eseau bay
esien
Un r
eseau bay
esien est d
efini par
Philippe Leray
Introduction
Donn
ees compl`
etes
Tutoriel EGC 2008
Donn
ees incompl`
etes
3/18
R
ef
erences
Notion dapprentissage
Construire un r
eseau bay
esien
1
structure fixee, on cherche seulement les CPD

à partir dexpertises : elicitation de connaissances
à partir de donnees complètes / incomplètes
on cherche la structure
dans quel espace ?
connat-on toutes les variables ?
Philippe Leray
Tutoriel EGC 2008
4/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Estimation de param`
etres
Donn
ees compl`
etes D
Determiner les paramètres des differentes CPD à partir de D
Approche statistique classique = max. de vraisemblance (MV)
MV = argmax P(D|)
Probabilite dun evenement = frequence dapparition de
levenement
Maximum de vraisemblance (MV)
i = xk |Pa(Xi ) = xj ) = MV = PNi,j,k
P(X
i,j,k
k Ni,j,k
Ni,j,k = nb doccurences de {Xi = xk et Pa(Xi ) = xj }
Philippe Leray
Introduction
Tutoriel EGC 2008
Donn
ees compl`
etes
Donn
ees incompl`
etes
5/18
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Autre approche
Approche bayesienne = max. à posteriori (MAP)
MAP = argmax P(|D) = argmax P(D|)P()
besoin dune loi a priori sur les paramètres P()
souvent distribution conjuguee à la loi de X
si P(X ) multinomiale, P() conjuguee = Dirichlet :
P()
qi Y
ri
n Y
Y
(i,j,k )i,j,k 1
i=1 j=1 k=1
o`
u i,j,k sont les cfficients de la distribution de Dirichlet
associee au coefficient i,j,k
Philippe Leray
Tutoriel EGC 2008
6/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Maximum a Posteriori (MAP)
i = xk |Pa(Xi ) = xj ) = MAP = P Ni,j,k + i,j,k 1
P(X
i,j,k
k (Ni,j,k + i,j,k 1)
Autre approche bay
esienne
esperance à posteriori (EAP) : calculer lesperance a posteriori
de i,j,k au lieu du max.
i = xk |Pa(Xi ) = xj ) = EAP = P Ni,j,k + i,j,k
P(X
i,j,k
k (Ni,j,k + i,j,k )
Philippe Leray
Introduction
Tutoriel EGC 2008
Donn
ees compl`
etes
7/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees complètes (MV)
P(M
= m0 ) = 6/15 = 0.4
P(M
= m1 ) = 8/15 = 0.53
P(M
= m2 ) = 1/15 = 0.07
= OK |M = m0 ) = 1/6 = 0.17
P(F
= BAD|M = m0 ) = 5/6 = 0.83
P(F
etc . . .
Problème :
= BAD|M = m2 ) = 0/1
P(F
car cette configuration ne figure pas
dans notre (petite) base dexemples
Philippe Leray
Tutoriel EGC 2008
M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
8/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees complètes (EAP)
A priori de Dirichlet sur les i,j,k
pseudo tirage a priori de N
mesures
Exemples
A priori de Dirichlet sur M reparti
sur m0 et m1 = [50 50 0]
P(M
= m0 ) = (6 + 50)/(15 + 100) = 0.487
P(M
= m1 ) = (8 + 50)/(15 + 100) = 0.5043
P(M
= m2 ) = (1 + 0)/(15 + 100) = 0.0087
A priori de Dirichlet sur (F |M = mi )
= [9 1]
= BAD|M = m2 )
P(F
Philippe Leray
Introduction
M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
(0 + 1)/(1 + 10) = 0.09

Tutoriel EGC 2008
Donn
ees compl`
etes
9/18
Donn
ees incompl`
etes
R
ef
erences
Apprentissage (donn
ees incompl`
etes)
Plusieurs types de donn
ees incompl`
etes
(Rubin, 1976)
MCAR : Missing Completly At Random

absence de donnees = completement aleatoire
comment estimer MV ou MAP ?
Complete / Available Case Analysis ...
MAR : Missing At Random

probabilite quune donnee soit manquante depend des variables
observees
comment estimer MV ou MAP ?
Expectation Maximisation ...
NMAR : Not Missing At Random

absence de donnees depend de phenom. externes
besoin de connaissances supplem. dans le modèle
Philippe Leray
Tutoriel EGC 2008
10/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Complete / Available Case Analysis

Complete Case Analysis
Extraire de la base de donnees incomplète les individus
complètement mesures
Avantage : on retombe dans le cas des donnees complètes
Inconvenient : taux dincompletude important peu de
donnees complètes
Available Case Analysis
Principe : pas besoin de savoir si C est mesure pour estimer
les paramètres de P(A|B)
Pour estimer P(A|B), extraire de la base de donnees
incomplète les individus pour lesquels A et B sont mesures
Avantage : on retombe dans le cas des donnees complètes
Philippe Leray
Introduction
Tutoriel EGC 2008
Donn
ees compl`
etes
Donn
ees incompl`
etes
11/18
R
ef
erences
Algorithme Expectation Maximisation

Algorithme tr`
es g
en
eral
(Dempster 1977)
Algorithme general destimation de paramètres avec des

donnees incomplètes
Principe
Algorithme iteratif
initialiser les paramètres (0) (random, CCA / ACA)
E estimer les valeurs manquantes à partir des paramètres
actuels (t)
= calculer P(Xmanquant |Xmesures ) dans le RB actuel
= faire des inferences dans le RB muni des paramètres (t)
M re-estimer les paramètres (t+1) à partir des donnees

completees
en utilisant MV, MAP, ou EAP
Philippe Leray
Tutoriel EGC 2008
12/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
Donnees manquantes (EM+MV)
Exemple sur lestimation de P(M)
(0) (M) = [1/3 1/3 1/3]
Initialisation P
Philippe Leray
Introduction
Donn
ees compl`
etes
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
Tutoriel EGC 2008
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
13/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5
P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8
Philippe Leray
P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2
Tutoriel EGC 2008
Iterato 1
[E]
14/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5
P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8
Philippe Leray
Introduction
Donn
ees compl`
etes
P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2
Iterato 1
[E]
[M] :
(1) (m0 )
P
= 5/15
= 0.333
(1) (m1 )
P
= 8/15
= 0.533
(1) (m2 )
P
= 2/15
= 0.133
Tutoriel EGC 2008
15/18
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5
P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6
Philippe Leray
P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4
Tutoriel EGC 2008
Iterato 2
[E]
16/18
Introduction
Donn
ees compl`
etes
Donn
ees incompl`
etes
R
ef
erences
Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL
F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK
R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5
P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6
Philippe Leray
Introduction
Donn
ees compl`
etes
P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4
Iterato 2
[E]
[M] :
(2) (m0 )
P
= 5/15
= 0.333
(2) (m1 )
P
= 8.6/15
= 0.573
(2) (m2 )
P
= 1.4/15
= 0.093
Tutoriel EGC 2008
Donn
ees incompl`
etes
17/18
R
ef
erences
R
ef
erences
Les R
eseaux Bay
Hall) 2003
1998
2007
Philippe Leray
Tutoriel EGC 2008
18/18
R
eseaux bay
esiens
mod
elisation et d
Philippe LERAY
Introduction
IC
Score
Autre espace
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Matin

etres

Apr`
es-midi
= Apprentissage de la structure

Apr`
es-midi
RB et causalit
e

Philippe Leray
Tutoriel EGC 2008
2/33
Introduction
IC
Score
Autre espace
R
ef
erences
D
efinition dun r
eseau bay
esien
Un r
eseau bay
esien est d
efini par
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
3/33
R
ef
erences
Notion dapprentissage
Construire un r
eseau bay
esien
1
structure fixee, on cherche seulement les CPD

à partir dexpertises : elicitation de connaissances
on cherche la structure
dans quel espace ?
connat-on toutes les variables ?
Philippe Leray
Tutoriel EGC 2008
4/33
Introduction
IC
Score
Autre espace
R
ef
erences
Probl`
eme complexe
Taille de lespace de recherche

le nombre de structures possibles à partir de n nuds est
super-exponentiel (Robinson 77)

,
n = 0 ou 1
1
NS(n) = Pn
n i(n1)
i+1
NS(n i),
n>1
i=1 (1)
i 2
NS(5) = 29281
NS(10) = 4.2 1018
recherche exhaustive impossible / taille de lespace
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
5/33
R
ef
erences
Dimension dun r
eseau bay
esien
D
efinition
Nombre de paramètres (independants) necessaires pour decrire
lensemble des CPD associees au RB
Exemples
Dim(B) = 1 + 1 + 4 + 2 + 2
Graphe vide : Dim(B0 ) = ?
completement connecte : Dim(Bc ) = ?
Philippe Leray
Tutoriel EGC 2008
6/33
Introduction
IC
Score
Autre espace
R
ef
erences
Equivalence de Markov
D
efinition
B1 et B2 sont equivalents au sens de Markov ssi ils ont le meme
squelette et decrivent les memes dependances et independances
conditionnelles
Cons
equences
B1 et B2 partagent les memes V-structures et arcs inferes
tous les graphes equivalents peuvent etre representes par un
graphe partiellement oriente (squelette, V-structure et arcs
inferes) (CPDAG)
on appelle ce CPDAG le representant de la classe
dequivalence
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
7/33
Autre espace
R
ef
erences
Equivalence de Markov - exemple
Philippe Leray
Tutoriel EGC 2008
8/33
Introduction
IC
Score
Autre espace
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Recherche dun bon r

eseau bay
esien
Un RB resume des dependances et independances
conditionnelles
Trouver la structure == trouver ces infos dans les donnees
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
9/33
R
ef
erences
Recherche dIC
Deux algorithmes de r
ef
erence
Pearl et Verma : IC et IC*
Spirtes, Glymour et Scheines : SGS, PC, CI, FCI
Principe commun
construire un graphe non dirige contenant les relations entre
les variables (tests du 2 )
par ajout daretes (Pearl et Verma)
par suppression daretes (SGS)
detecter les V-structures (idem)

propager les orientations de certains arcs
Philippe Leray
Tutoriel EGC 2008
10/33
Introduction
IC
Score
Autre espace
R
ef
erences
Recherche dIC
Probl`
emes principaux
Fiabilite du test dindependance conditionnellement à un
grand nb de variables (et avec un nb de donnees restreint)
Heuristique SGS : si df <
N
10 ,
alors dependance
Explosion du nb de tests à effectuer

Heuristique PC : commencer par lordre 0 (XA XB ) puis
lordre 1 (XA XB | XC ), etc ...
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
11/33
Autre espace
R
ef
erences
Algorithme PC
Etape 0 : Graphe non orient
e reliant tous les nuds
A gauche, le reseau theorique utilise pour generer 5000 exemples.
A
Philippe Leray
Tutoriel EGC 2008
12/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Etape 1a : Suppression des IC dordre 0
2 : SA LA BA OA X A DA T S LT OB X B
A
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
13/33
Autre espace
R
ef
erences
Algorithme PC
Etape 1b : Suppression des IC dordre 1
2 : T A|O
OS|L
X S|L
BT |S
X T |O
DT |O ...
Philippe Leray
Tutoriel EGC 2008
14/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Etape 1c : Suppression des IC dordre 2
2 : DS|{L, B} X O|{T , L} DO|{T , L}
A
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
15/33
Autre espace
R
ef
erences
Algorithme PC
Etape 2 : Recherche des V-structures
2 : decouverte de la V-structure T O L
A
Etape 3 : Orientation r
ecursive de certaines ar
etes
aucune ici
Philippe Leray
Tutoriel EGC 2008
16/33
Introduction
IC
Score
Autre espace
R
ef
erences
Algorithme PC
Instanciation du PDAG
Orientation des arcs restants
(seule condition : ne pas introduire de nouvelle V-structure)
A
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
17/33
Autre espace
R
ef
erences
Algorithme PC
R
eseau obtenu vs. th
eorique
Le test du 2 sur 5000 exemples na pas reussi à retrouver
A T , O X et O D
A
Philippe Leray
Tutoriel EGC 2008
18/33
Introduction
IC
Score
Autre espace
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Recherche dun bon r
eseau bay
esien
Première methode : rechercher directement les independances
conditionnelles
Autre methode : associer un score à chaque structure
calculable rapidement / decomposable localement
Score(B, D) = constante +
n
X
score(Xi , pai )
i=1
notion de score equivalence

Un score S est dit score equivalent ssi pour deux structures B1
et B2 equivalentes on a S(B1 , D) = S(B2 , D).
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
19/33
R
ef
erences
Notion de score
Principe g
en
eral : rasoir dOccam
Pluralitas non est ponenda sine neccesitate
(La pluralite (des notions) ne devrait pas etre posee sans
necessite)
Frustra fit per plura quod potest fieri per pauciora
(Cest en vain que lon fait avec plusieurs ce que lon peut
faire avec un petit nombre)
= Principe de parcimonie = trouver le mod`
ele
qui represente le mieux les donnees D :
vraisemblance : L(D|, B)
et qui soit le plus simple possible :
nb de paramètres pour decrire B : Dim(B)
Philippe Leray
Tutoriel EGC 2008
20/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemples de score
AIC et BIC
Compromis vraisemblance / complexite
Application des critères AIC (Akake 70) et BIC (Schwartz 78)
SAIC (B, D) = log L(D|MV , B) Dim(B)
1
SBIC (B, D) = log L(D|MV , B) Dim(B) log N
2
Scores bay
esiens : BD, BDe, BDeu
SBD (B, D) = P(B, D)
(Cooper et Herskovits 92)
BDe = BD + score equivalence

SBD (B, D) = P(B)
qi
n Y
Y
i=1 j=1
Philippe Leray
Introduction
IC
(Heckerman 94)
ri
Y
(Nijk + ijk )
(ij )
(Nij + ij )
(ijk )
k=1
Tutoriel EGC 2008
Score
Autre espace
21/33
R
ef
erences
Apprentissage (donn
ees compl`
etes)
Recherche dun bon r

eseau bay
esien
Heuristique de recherche :
espace B
restriction aux arbres : Chow&Liu, MWST
ordonnancement des nuds : K2
recherche gloutonne : Greedy Search
espace E
Greedy Equivalence Search
Philippe Leray
Tutoriel EGC 2008
22/33
Introduction
IC
Score
Autre espace
R
ef
erences
Restriction `
a lespace des arbres
Principe
quel est le meilleur arbre passant par tous les nuds,
i.e. maximisant un score defini pour chaque arc possible ?
R
eponse : Arbre de recouvrement maximal
MWST : Maximum Weight Spanning Tree
(Chow et Liu 68) : information mutuelle :
W (XA , XB ) =
X Nab
a,b
log
Nab N
Na. N.b
(Heckerman 94) : score local quelconque :

W (XA , XB ) = score(XA , Pa(XA ) = XB ) score(XA , )
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
23/33
R
ef
erences
Restriction `
a lespace des arbres
D
eroulement
MWST donne un arbre non oriente reliant toutes les variables.
arbre non oriente = CPDAG representant dans lespace des
equivalents de Markov de tous les arbres diriges qui partagent
cette meme structure !
transformation en arbre oriente en choisissant arbitrairement
un nud racine et en dirigeant chaque arete à partir de ce
nud.
Philippe Leray
Tutoriel EGC 2008
24/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
Ce type dalgorithme ne peut pas decouvrir de V-structures, ni de

cycles ...
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
25/33
R
ef
erences
Recherche gloutonne (greedy search)
Principe
Parcours de lespace à laide doperateurs classiques :
ajout darc
inversion darc
suppression darc
sous reserve que le graphe obtenu soit toujours un DAG (pas

de circuit)
possibilite de commencer à partir dun graphe precis
Philippe Leray
Tutoriel EGC 2008
26/33
Introduction
IC
Score
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
On tombe surement dans un optimum local
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
27/33
Autre espace
R
ef
erences
Exemple : r
eseau obtenu vs. th
eorique
A
Initialisation de la recherche par larbre obtenu par MWST :

on arrive à un meilleur resultat
Philippe Leray
Tutoriel EGC 2008
28/33
Introduction
IC
Score
Autre espace
R
ef
erences
Et avec des donn

ees incompl`
etes
Probl`
eme
= calculer le score lorsque les donnees sont incomplètes
X = {D, H}
Une solution : Structural EM (Friedman 97)
Greedy Search + EM sur les paramètres
EM parametrique pour ameliorer (i) pour un B (i) fixe
recherche de B (i+1) parmi les voisins de B (i) , avec des donnees
completees selon (i)
et ainsi de suite ...
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
Autre espace
29/33
R
ef
erences
Et si on changeait despace de recherche

Remarques
IC/PC : on obtient en realite le PDAG representant la classe
dequivalence de Markov
MWST : idem (arbre non dirige)
La plupart des scores ne distinguent pas des reseaux
equivalents, do`
u des problèmes de convergence
Recherche dans E
E = espace des representants des classes dequiv. de Markov
Meilleures proprietes : OUI
2 structures equivalentes = une seule structure dans E
Meilleure taille : NON

E est quasiment de meme taille que lespace des RB (ratio
asymptotique de 3,7 : Gillispie et Perlman 2001)
Philippe Leray
Tutoriel EGC 2008
30/33
Introduction
IC
Score
Autre espace
R
ef
erences
Greedy Equivalent Search
Principe (Chickering 2002)

Recherche gloutonne dans E
Phase 1 : ajout darcs jusquà convergence
Phase 2 : suppression darcs jusquà convergence
Adaptation aux donnees incomplètes : GES-EM (Borchani et
al. 2006)
Philippe Leray
Introduction
IC
Tutoriel EGC 2008
Score
31/33
Autre espace
R
ef
erences
Exemple dajout darcs dans E

Philippe Leray
Tutoriel EGC 2008
32/33
Introduction
IC
Score
Autre espace
R
ef
erences
R
ef
erences
Les R
eseaux Bay
Hall) 2003
1998
2007
Philippe Leray
Tutoriel EGC 2008
33/33
R
eseaux bay
esiens
mod
elisation et d
Philippe LERAY
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Au programme ...
Matin
Notions g
en
erales
Matin

etres

Apr`
es-midi

Apr`
es-midi
= RB et causalit
e

Philippe Leray
Tutoriel EGC 2008
2/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Un RB nest pas un mod`

ele causal
RB classique :
A B ne signifie pas forcement causalite entre A et B,
seuls les arcs du CPDAG representant de la classe
dequivalence de Markov representent des causalites
Confusion
lorsque le graphe est construit par un expert, le graphe est
souvent causal
lorsque le graphe est appris avec des donnees, il na aucune
raison detre causal !
Pas toujours grave ...
graphes equivalents meme loi jointe, donc meme resultat
pour les algorithmes dinference (probabiliste)
la causalite nest pas utile pour linference (probabiliste)
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
3/17
Var. latentes
R
ef
erences
R
eseau bay
esien causal
R
eseau bay
esien causal
chaque A B represente une relation de causalite directe,
i.e. le fait que A est bien la cause directe qui genère B
si la causalite nest pas utile pour linference (probabiliste), à

quoi peut servir un reseau bayesien causal ?
Philippe Leray
Tutoriel EGC 2008
4/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Intervention vs. Observation

Inference classique :
on observe B = b,
on calcule P(A|B = b)
Inference causale [Pearl 00]:

on agit/manipule/intervient sur B : do(B = b)
exemple avec A B
P(A|do(B = b)) = P(A),
P(B|do(A = a)) = P(B|A = a)
exemple avec A B
P(A|do(B = b)) = P(A|B = b),
P(B|do(A = a)) = P(B)
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
5/17
Var. latentes
R
ef
erences
Manipulation Theorem
Specifier comment la loi jointe change après une manipulation
do(M = m)
Version intuitive
on oublie les causes officielles de M (ses parents dans le
graphe)
on garde le fait que M = m pour les effets que cela declenche
(les enfants de M)
Version officielle
P(v |do(m)) =
Y
Vi V \M
Philippe Leray
[Spirtes et al. 00]
P(vi |Pa(Vi ))
M=m
Tutoriel EGC 2008
6/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Apprentissage dune structure causale

En general, utilisation de donnees dobservation
quelle que soit la methode, resultat = representant de la classe
dequivalence
determination partielle des relations causales
Solutions pour trouver un graphe compl`

etement causal
utiliser uniquement des donnees dexperimentation, et decider
au fur et à mesure quelle experience sera la plus utile à realiser
(active learning [Murphy 01], ...)
Id
ee : algorithme MyCaDo
[Meganck, Leray & Manderick 06]
tirer partie des donnees dobservations souvent existantes et
nombreuses
utiliser des donnees dexperimentation uniquement pour finir
dorienter le CPDAG
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
7/17
Var. latentes
R
ef
erences
Algorithme MyCaDo

!"#

!

%

%

$!
Philippe Leray
Tutoriel EGC 2008
8/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Algorithme MyCaDo
1
Choix de lexperience = choix dune variable M à manipuler

orientant potentiellement le plus darcs
en tenant compte deventuels co
uts dexperimentation et/ou
dobservation des variables
Realisation de lexperience
do(M = m) pour toutes les valeurs possibles m
observation des variables C candidates (C M)
Analyse des resultats

P(C |M) (observation) P(C |do(M)) (experience) ?
si egalite, alors C M, sinon M C
propagation eventuelle de larc decouvert
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
9/17
Var. latentes
R
ef
erences
Mais ce nest pas fini ...

Exemple simple, avec 2 variables
S (la Seine deborde) et P (jai pris mon parapluie)
Des donnees dobservation montrent que ces deux variables ne
sont pas independantes :
SP
On decide dagir sur S et dobserver P : pas de modification
S nest pas la cause de P
Faut-il en conclure que P est la cause de S ?
En agissant aussi sur P, on aurait vu que P nest pas la cause
de S
Interet = decouverte dune variable latente (il pleut...)
Philippe Leray
Tutoriel EGC 2008
10/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
Suffisance Causale
Les algorithmes precedents se basent tous sur lhypothèse de

suffisance causale
Suffisance causale
Toutes les variables necessaires à la modelisation sont connues
Abandonner lhypothèse de suffisance causale = Essayer de
decouvrir des variables latentes lors de lapprentissage de
structure
de facon explicite (methodes à base de score)
de facon implicite (SMCM vs. MAG)
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
11/17
Var. latentes
R
ef
erences
Mod
elisation explicite vs. implicite
Mod
elisation explicite
Adaptation de Structural EM
Avantages
inference probabiliste : OK
Inconvenients
complexite de la methode
inference causale : NON (le graphe nest pas causal)
Mod
elisation implicite
Modèle plus leger
pas besoin de determiner la cardinalite de H
Deux formalismes aux objectifs differents

inference causale : SMCM, Semi Markovian Causal Model
apprentissage de la structure : MAG, Maximum Ancestral
Graph
Philippe Leray
Tutoriel EGC 2008
12/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
SMCM vs. MAG

SMCM [Pearl 00]
MAG [Richardson & Spirtes 02]
A B : cause commune
latente
A B : cause commune
latente
A B : relation de
causalite directe
A B dependance entre A
et B
existence de chemins induits
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
13/17
Var. latentes
R
ef
erences
SMCM vs. MAG

SMCM [Pearl 00]
MAG [Richardson & Spirtes 02]
Inf. causale : en theorie
Inf. causale : partielle
Inference prob. : NON
Inference prob. : NON
Apprent. structure : NON
Apprent. structure : partielle
Philippe Leray
Tutoriel EGC 2008
14/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
SMCM vs. MAG

Apprentissage à partir dobservations : OK, mais obtention
du representant de la classe dequivalence (CPAG)
CPAG MAG : inutile, un MAG nest pas causal
Inf
erence causale : OK dans les SMCM
Inf
erence probabiliste : il manque une parametrisation
efficace des SMCM
Philippe Leray
Introduction
RB causal
Tutoriel EGC 2008
Apprentissage
15/17
Var. latentes
R
ef
erences
Une approche globale : MyCaDo++

Apprentissage à partir dobservations : OK, mais obtention
du representant de la classe dequivalence (CPAG)
Notre id
ee :
[Meganck, Maes, Leray & Manderick 06]
passer directement du CPAG à un SMCM à partir de donnees
dexperimentation
Inf
erence causale : OK dans les SMCM
Inf
erence probabiliste : il manque une parametrisation
efficace des SMCM
Notre id
ee :
[Meganck, Maes, Leray & Manderick 06]
proposer une parametrisation efficace dun SMCM
Philippe Leray
Tutoriel EGC 2008
16/17
Introduction
RB causal
Apprentissage
Var. latentes
R
ef
erences
R
ef
erences
Les R
eseaux Bay
Causality: Models, Reasoning, and Inference - J. Pearl
(Cambridge University Press) 2000
Hall) 2003
1998
2007
Philippe Leray
Tutoriel EGC 2008
17/17

Behja, Hicham &amp; Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Behja, Hicham &amp; Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

Hochgeladen von

Copyright:

Verfügbare Formate

8mes Journes Francophones

Extraction et Gestion des Connaissances

Responsables des tutoriels EGC

Rseaux baysiens - introduction et apprentissage

Rseaux baysiens : dfinition et notion d'infrence

dfinition, notion de d-sparation

les rseaux baysiens comme modles gnratifs

Rseaux baysiens : apprentissage des paramtres

maximum de vraisemblance vs. maximum a posteriori

donnes compltes vs. donnes incompltes

Rseaux baysiens : apprentissage de la structure

recherche d'indpendances conditionnelles vs. maximisation d'un score d'adquation

les diffrents espaces de recherche

donnes compltes vs. donnes incompltes

Rseaux baysiens et causalit

un rseau baysien n'est pas forcment un modle causal

dfinition d'un rseau baysien causal

intervention/manipulation vs. observation

suffisance causale vs. variables latentes

Apprentissage des param`

Maximum de vraisemblance / a posteriori

Recherche dindependances / maximisation score

RB causal, intervention / observation, suffisance causale

Tutoriel EGC 2008

Tutoriel EGC 2008

sil existe un lien entre A et M, cet evenement va modifier

Tutoriel EGC 2008

Tutoriel EGC 2008

mais comment repondre `a la question inverse ?

Tutoriel EGC 2008

P(Mi|A) : probabilite a posteriori

Tutoriel EGC 2008

Tutoriel EGC 2008

Tutoriel EGC 2008

           

Tutoriel EGC 2008

Tutoriel EGC 2008

Tutoriel EGC 2008

Les RB representent graphiquement les independances

Tutoriel EGC 2008

Tutoriel EGC 2008

Tutoriel EGC 2008

Connexion convergente V-structure

Tutoriel EGC 2008

Tutoriel EGC 2008

P(Cambriolage, Seisme, Alarme, Radio, Tele) =

Tutoriel EGC 2008

Si A et B ne sont pas d-separes, ils sont d-connectes

Tutoriel EGC 2008

Tutoriel EGC 2008

Tutoriel EGC 2008

lobservation {Sj = x} est appelee evidence

Tutoriel EGC 2008

Message Passing (Pearl 1988)

et ensuite on peut montrer que

Tutoriel EGC 2008

Comment calculer en chaque nud ?

Tutoriel EGC 2008

Comment calculer en chaque nud ?

Tutoriel EGC 2008

Junction Tree (Jensen 1990)

Tutoriel EGC 2008

Tutoriel EGC 2008

Tutoriel EGC 2008

Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)

Behja, Hicham & Senach, Bernard - Tutoriel Réseaux Bayésiens (EGC, 2008)