Sie sind auf Seite 1von 55

8mes Journes Francophones

Extraction et Gestion des Connaissances


Sophia Antipolis 29 janvier 2008

Tutoriel

Rseaux Baysiens
Introduction et apprentissage
Modlisation et dcouverte de
connaissances
Organisateur :
Philippe LERAY (Univ. Nantes)

Responsables des tutoriels EGC


Hicham Behja (INRIA, Sophia Antipolis)
Bernard Senach (INRIA, Sophia Antipolis)

Rseaux baysiens - introduction et apprentissage


modlisation et dcouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COD
Laboratoire d'Informatique de Nantes Atlantique
Site Ecole Polytechnique de l'Universit de Nantes
La Chantrerie - rue Christian Pauc - BP 50609
44306 Nantes Cedex 3

Rsum
La reprsentation des connaissances et le raisonnement partir de ces reprsentations a donn
naissance de nombreux modles. Les modles graphiques probabilistes, et plus prcisment les
rseaux baysiens (RB), initis par Judea Pearl dans les annes 1980, se sont rvls des outils trs
pratiques pour la reprsentation de connaissances incertaines et le raisonnement partir
dinformations incompltes, dans de nombreux domaines comme la bio-informatique, la gestion du
risque, le marketing, la scurit informatique, le transport, etc.
La partie graphique des RB offre un outil intuitif ingalable et attractif dans de nombreuses applications
o les utilisateurs ont besoin de "comprendre" ce que raconte le modle quils utilisent. La construction
de ces modles partir de donnes permet aussi de dcouvrir des connaissances utiles aux experts,
en allant sous certaines rserves - jusqu' la dcouverte de relations causales.
Ce tutoriel se propose tout d'abord de dfinir la notion de rseau baysien puis de donner un apercu de
l'utilisation de ces modles pour rpondre diffrentes requtes (notion d'infrence ou de
raisonnement probabiliste). Nous aborderons ensuite le problme de l'apprentissage des rseaux
baysiens partir de donnes compltes ou incompltes, en commenant par la dtermination des
distributions de probabilit conditionnelles dfinies par un graphe donn (apprentissage des
paramtres), et en essayant ensuite de dterminer le graphe mme partir des donnes
(apprentissage de la structure). Pour finir, nous aborderons le cas plus particulier des rseaux
baysiens causaux, et verrons comment l'apprentissage de la structure de ces modles peut mener
la dcouverte de relations causales.

Mots-cls
Rseaux baysiens, apprentissage, donnes compltes, donnes incompltes, dcouverte de
causalit

Plan
Le tutoriel propos est inspir des formations rseaux baysiens effectues pour le rseau RISC du
RISC en 2005 et 2006, et des cours dispenss en formation ingnieur l'INSA de Rouen et en Master
Recherche l'Universit de Rouen. Le plan est le suivant :

MATIN

Rseaux baysiens : dfinition et notion d'infrence

dfinition, notion de d-sparation

les rseaux baysiens comme modles gnratifs

notion d'infrence, principe des principaux algorithmes (message passing, junction tree)

exemples d'utilisation

Rseaux baysiens : apprentissage des paramtres

maximum de vraisemblance vs. maximum a posteriori

donnes compltes vs. donnes incompltes

APRES-MIDI

Rseaux baysiens : apprentissage de la structure

recherche d'indpendances conditionnelles vs. maximisation d'un score d'adquation

les diffrents espaces de recherche

donnes compltes vs. donnes incompltes

Rseaux baysiens et causalit

un rseau baysien n'est pas forcment un modle causal

dfinition d'un rseau baysien causal

intervention/manipulation vs. observation

suffisance causale vs. variables latentes

Rfrences

Jensen, F. V. (1996). An introduction to Bayesian Networks. Taylor and Francis, London, United
Kingdom.

Maes, S., Meganck, S., and Leray, P. (2007). An integral approach to causal inference with
latent variables. In Russo, F. and Williamson, J., editors, Causality and Probability in the
Sciences. Texts In Philosophy series, London College Publications, pp 17-41.

Misc. (2007). Modles graphiques probabilistes. In Leray, P., editor, Revue d'Intelligence
Artificielle, number 21:3/2007. Herms.

Nam, P., Wuillemin, P.-H., Leray, P., Pourret, O., and Becker, A. (2004). Rseaux baysiens.
Eyrolles, Paris.

Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press,
Cambridge, England.

R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Au programme ...
Matin
= Notions g
en
erales
Definition, D-separation, Notion dinference
Matin

Apprentissage des param`


etres

Maximum de vraisemblance / a posteriori


Donnees compl`etes / incompl`etes
Apr`
es-midi

Apprentissage de la structure

Recherche dindependances / maximisation score


Quel espace ? Donnees compl`etes / incompl`etes
Apr`
es-midi

RB et causalit
e

RB causal, intervention / observation, suffisance causale


Philippe Leray

Tutoriel EGC 2008

2/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Un peu dhistoire
1970-1990 : L`
ere des syst`
emes experts
syst`emes `a base de r`egles de production
si X=vrai et Y=absent alors Z=faux
moteur dinference (chainage avant, arri`ere)
Judea Pearl (1936) : les r
eseaux bay
esiens
1982 : Reverend Bayes on inference engines: A
distributed hierarchical approach
P(X=vrai)=0.3 et P(Z=faux)=0.2 ...
P(Y=absent)=?
1988 : Probabilistic Reasoning in Intelligent
Systems: Networks of Plausible Inference.
Morgan Kaufmann
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

3/31

Inf
erence

R
ef
erences

Rappels de probabilit
es

Probabilit
e conditionnelle
A et M deux evenements
information a priori sur A :

P(A)

M sest produit :

P(M) 6= 0

sil existe un lien entre A et M, cet evenement va modifier


notre connaissance sur A
information a posteriori :

Philippe Leray

P(A|M) =

Tutoriel EGC 2008

P(A,M)
P(M)

4/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Rappels de probabilit
es

Ind
ependance
A et B sont independants ssi :
P(A, B) = P(A) P(B)
P(A|B) = P(A)
P(B|A) = P(B)
Ind
ependance conditionnelle
A et B sont independants conditionnellement `a C ssi :
P(A|B, C ) = P(A|C )

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

5/31

Notions g
en
erales

Inf
erence

R
ef
erences

Rappels de probabilit
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs

Marginalisation :

P(A) =

P(A, Mi )

Th
eor`
eme des probabilit
es totales
Un evenement A peut resulter de plusieurs causes Mi . Quelle est la
probabilite de A connaissant :
les probabilites elementaires P(Mi) (a priori)
les probabilites conditionnelles de A pour chaque Mi
P(A) =

P(A|Mi )P(Mi )

mais comment repondre `a la question inverse ?


Philippe Leray

Tutoriel EGC 2008

6/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Rappels de probabilit
es
{Mi } ensemble complet d
ev
enements mutuellement exclusifs

Th
eor`
eme de Bayes
Un evenement A sest produit. Quelle est la probabilite que ce soit
la cause Mi qui lait produit ?
P(Mi |A) =

P(A|Mi )P(Mi )
P(A)

P(Mi|A) : probabilite a posteriori


P(A) : constante (pour chaque Mi ) cf. th. probas totales
Th
eor`
eme de Bayes g
en
eralis
e (Chain rule)
P(A1 . . . An ) = P(A1 )P(A2 |A1 )P(A3 |A1 , A2 ) . . . P(An |A1 . . . An1 )
Philippe Leray

Introduction et rappels

Tutoriel EGC 2008

D
efinition

Notions g
en
erales

7/31

Inf
erence

R
ef
erences

D
efinition dun r
eseau bay
esien
Principe
prendre en compte les independances conditionnelles entre les
variables pour simplifier la loi jointe donnee par le theor`eme
de Bayes generalise.
D
efinition
Un reseau bayesien est defini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)

Philippe Leray

Tutoriel EGC 2008

8/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Exemple
ordre topologique : C , S, A, R, T (non unique)

Philippe Leray

Introduction et rappels

Tutoriel EGC 2008

D
efinition

Notions g
en
erales

9/31

Inf
erence

R
ef
erences

Int
er
ets et motivation
Int
er
ets des r
eseaux bay
esiens
outil de repr
esentation graphique des connaissances
representation de lincertain
raisonnement `a partir de donnees incompl`etes : inf
erence


 









 



 











 



 



               


 
 
 
 





   

Motivation
comment determiner la structure, avec des donnees compl`etes
ou incompl`etes ?
Philippe Leray

Tutoriel EGC 2008

10/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Int
er
ets et motivation
Autre int
er
et
outil de d
ecouverte de connaissances `a partir de donnees

Motivation
comment decouvrir des connaissances : relations causales,
variables latentes ?
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

11/31

Inf
erence

R
ef
erences

Int
er
ets et motivation
Des domaines dapplication vari
es
diagnostic, fiabilite, maintenance, securite informatique
psychologie, sciences de la cognition, matrise des risques

Motivation
fournir des outils pour la modelisation de syst`emes complexes
Philippe Leray

Tutoriel EGC 2008

12/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

RB et ind
ependance conditionnelle

Les RB representent graphiquement les independances


conditionnelles
Exemple sur 3 nuds
3 types de relations (simples) entre A, B et C :
A C B : connexion serie
A C B : connexion divergente
A C B : connexion convergente (V-structure)

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

13/31

Inf
erence

R
ef
erences

Connexion s
erie

A et B sont dependants
A et B sont independants conditionnellement `a C
si C est connue, A napporte aucune information sur B
P(S5 |S4 , S2 ) = P(S5 |S4 ) = P(S5 |parents(S5 ))

Philippe Leray

Tutoriel EGC 2008

14/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Connexion divergente

A et B sont dependants
A et B sont independants conditionnellement `a C
si C est connue, A napporte aucune information sur B
P(S4 |S2 , S3 ) = P(S4 |S2 ) = P(S4 |parents(S4 ))
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

15/31

Inf
erence

R
ef
erences

Connexion convergente V-structure

A et B sont independants
A et B sont dependants conditionnellement `a C
si C est connue, A apporte une information sur B
P(S3 |S1 , S2 ) = P(S3 |parents(S3 ))
Philippe Leray

Tutoriel EGC 2008

16/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Cons
equence
Rappel du th
eor`
eme de Bayes g
en
eralis
e
P(S) = P(S1 ) P(S2 |S1 ) P(S3 |S1 , S2 ) P(Sn |S1 . . . Sn1 )
Cons
equence dans un RB
P(Si |S1 . . . Si1 ) = P(Si |parents(Si )) do`
u
P(S) = ni=1 P(Si |parents(Si ))
La loi jointe (globale) se decompose en un produit de lois
conditionnelles locales
RB = representation compacte de la loi jointe P(S)

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

17/31

Notions g
en
erales

Inf
erence

R
ef
erences

Exemple

P(Cambriolage, Seisme, Alarme, Radio, Tele) =


P(S1 )P(S2 |S1 )P(S3 |S1 , S2 )P(S4 |S1 , S2 , S3 )P(S5 |S1 , S2 , S3 , S4 )
P(S1 ) P(S2 ) P(S3 |S1 , S2 )

Philippe Leray

P(S4 |S2 )

Tutoriel EGC 2008

P(S5 |S4 )

18/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

D-s
eparation
Principe
Determiner si deux variables quelconques sont independantes
conditionnellement `a un ensemble de variables instantiees
D
efinition
Deux variables A et B sont d-separees si pour tous les chemins
entre A et B, il existe une variable intermediaire V differente
de A et B telle que lune des deux propositions est vraie :
la connexion est serie ou divergente et V est instancie
la connexion est convergente et ni V ni ses descendants ne
sont instancies

Si A et B ne sont pas d-separes, ils sont d-connectes

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

19/31

Notions g
en
erales

Inf
erence

R
ef
erences

Exemple
D-s
eparation
la connexion est serie ou
divergente et V est instancie
la connexion est convergente
et ni V ni ses descendants ne
sont instancies







Philippe Leray

Tutoriel EGC 2008

20/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

RB = mod`
ele g
en
eratif
Principe
RB = representation compacte de la loi jointe P(S)
Utilisation de methodes dechantillonnage pour generer des
donnees qui suivent cette loi
Exemple : forward sampling
si rand1 < 0.001,
C = O, sinon N
si rand2 < 0.0001,
S = O, sinon N
si rand3 < P(A = O|C = ..., S = ...), A = O, sinon N
...
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

21/31

Inf
erence

R
ef
erences

Notion dinf
erence
Inf
erence
calcul de nimporte quelle P(Si |Sj = x)

(NP-complet)

lobservation {Sj = x} est appelee evidence


Algorithmes exacts
Message Passing (Pearl 1988) pour les arbres
Junction Tree (Jensen 1990)
Shafer-Shenoy (1990)
Probl`eme = explosion combinatoire de ces methodes pour des
graphes fortement connectes.
Algorithmes approch
es
Echantillonnage
Methodes variationnelles
Philippe Leray

Tutoriel EGC 2008

22/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Message Passing (Pearl 1988)


Principe
Chaque nud envoie des messages `a ses voisins
Lalgorithme ne marche que dans le cas des arbres
(mais est generalisable au cas des poly-arbres)
E = ensemble de variables instanciees.
E = N x Dx
2 types de messages et serviront `a calculer
(X ) P(Dx |X )
(X ) P(X |Nx )

et ensuite on peut montrer que


P(X |E = e) (X )(X )
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

23/31

Inf
erence

R
ef
erences

Message Passing
Les messages
Pour chaque enfant Y de X ,
X
Y (X = x) =
P(Y = y |X = x)(Y = y )
y

Comment calculer en chaque nud ?


Calcul de
Si X instancie, (X ) = [001 . . . 0]
(la position du 1 correspond `a la valeur donnee `a X )
sinon
si X est une feuille, (X ) = [1 . . . 1]
sinon (X = x) = Y Enf (X ) Y (X = x)
Philippe Leray

Tutoriel EGC 2008

24/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Message Passing
Les messages
Pour Z lunique parent de X ,
Y

X (Z = z) = (Z = z)

U (Z = z)

UEnf (Z )\{X }

Comment calculer en chaque nud ?


Calcul de
Si X instancie, (X ) = [001 . . . 0]
(la position du 1 correspond `a la valeur donnee `a X )
sinon
si X est la racine, (X
P ) = P(X )
sinon (X = x) = z P(X = x|Z = z)X (Z = z)
Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

25/31

Inf
erence

R
ef
erences

Junction Tree (Jensen 1990)


Message Passing ne sapplique bien quaux arbres
Besoin dun algorithme plus general
Principe
Transformer le graphe en un arbre (non oriente)...
Arbre = arbre de jonction des cliques maximales du graphe
moralise et triangule

Moralisation = ???
Triangulation = ???
Cliques = ???
Philippe Leray

Tutoriel EGC 2008

26/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Junction Tree
Moralisation
marier les parents de chaque nud

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

27/31

Inf
erence

R
ef
erences

Junction Tree
Triangulation
tout cycle de longueur au moins 4 doit contenir une corde
(arete reliant deux sommets non consecutifs sur le cycle)
(= aucun sous-graphe cyclique de longueur 4)
Triangulation optimale pour des graphes non-diriges =
NP-difficile (comment choisir les meilleures cordes?)

Philippe Leray

Tutoriel EGC 2008

28/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

Junction Tree
Clique
sous-graphe dont les nuds sont completement connectes
Clique maximale
lajout dun autre nud `a cette clique ne donne pas une clique

Philippe Leray

Introduction et rappels

D
efinition

Tutoriel EGC 2008

Notions g
en
erales

29/31

Inf
erence

R
ef
erences

Junction Tree
Th
eor`
eme
Si le graphe est moralise et triangule, alors les cliques peuvent
etre organisees en un arbre de jonction

P(S) = (S1, S2, S3)(S2, S4)(S4, S5)


Linference se fait au niveau des
Philippe Leray

Tutoriel EGC 2008

30/31

Introduction et rappels

D
efinition

Notions g
en
erales

Inf
erence

R
ef
erences

R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007

Philippe Leray

Tutoriel EGC 2008

31/31

R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin

= Apprentissage des param`


etres

Maximum de vraisemblance / a posteriori


Donnees compl`etes / incompl`etes
Apr`
es-midi

Apprentissage de la structure

Recherche dindependances / maximisation score


Quel espace ? Donnees compl`etes / incompl`etes
Apr`
es-midi

RB et causalit
e

RB causal, intervention / observation, suffisance causale


Philippe Leray

Tutoriel EGC 2008

2/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

D
efinition dun r
eseau bay
esien

Un r
eseau bay
esien est d
efini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray

Introduction

Donn
ees compl`
etes

Tutoriel EGC 2008

Donn
ees incompl`
etes

3/18

R
ef
erences

Notion dapprentissage

Construire un r
eseau bay
esien
1

structure fixee, on cherche seulement les CPD


`a partir dexpertises : elicitation de connaissances
`a partir de donnees compl`etes / incompl`etes

on cherche la structure
`a partir de donnees compl`etes / incompl`etes
dans quel espace ?
connat-on toutes les variables ?

Philippe Leray

Tutoriel EGC 2008

4/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Apprentissage (donn
ees compl`
etes)
Estimation de param`
etres
Donn
ees compl`
etes D
Determiner les param`etres des differentes CPD `a partir de D
Approche statistique classique = max. de vraisemblance (MV)
MV = argmax P(D|)
Probabilite dun evenement = frequence dapparition de
levenement
Maximum de vraisemblance (MV)
i = xk |Pa(Xi ) = xj ) = MV = PNi,j,k
P(X
i,j,k
k Ni,j,k
Ni,j,k = nb doccurences de {Xi = xk et Pa(Xi ) = xj }
Philippe Leray

Introduction

Tutoriel EGC 2008

Donn
ees compl`
etes

Donn
ees incompl`
etes

5/18

R
ef
erences

Apprentissage (donn
ees compl`
etes)
Autre approche
Approche bayesienne = max. `a posteriori (MAP)
MAP = argmax P(|D) = argmax P(D|)P()
besoin dune loi a priori sur les param`etres P()
souvent distribution conjuguee `a la loi de X
si P(X ) multinomiale, P() conjuguee = Dirichlet :
P()

qi Y
ri
n Y
Y

(i,j,k )i,j,k 1

i=1 j=1 k=1

o`
u i,j,k sont les cfficients de la distribution de Dirichlet
associee au coefficient i,j,k
Philippe Leray

Tutoriel EGC 2008

6/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Apprentissage (donn
ees compl`
etes)
Maximum a Posteriori (MAP)
i = xk |Pa(Xi ) = xj ) = MAP = P Ni,j,k + i,j,k 1
P(X
i,j,k
k (Ni,j,k + i,j,k 1)
Autre approche bay
esienne
esperance `a posteriori (EAP) : calculer lesperance a posteriori
de i,j,k au lieu du max.
i = xk |Pa(Xi ) = xj ) = EAP = P Ni,j,k + i,j,k
P(X
i,j,k
k (Ni,j,k + i,j,k )

Philippe Leray

Introduction

Tutoriel EGC 2008

Donn
ees compl`
etes

7/18

Donn
ees incompl`
etes

R
ef
erences

Exemple
Donnees compl`etes (MV)

P(M
= m0 ) = 6/15 = 0.4

P(M
= m1 ) = 8/15 = 0.53

P(M
= m2 ) = 1/15 = 0.07
= OK |M = m0 ) = 1/6 = 0.17
P(F
= BAD|M = m0 ) = 5/6 = 0.83
P(F
etc . . .
Probl`eme :
= BAD|M = m2 ) = 0/1
P(F
car cette configuration ne figure pas
dans notre (petite) base dexemples
Philippe Leray

Tutoriel EGC 2008

M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

8/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Exemple
Donnees compl`etes (EAP)
A priori de Dirichlet sur les i,j,k
pseudo tirage a priori de N
mesures

Exemples
A priori de Dirichlet sur M reparti
sur m0 et m1 = [50 50 0]

P(M
= m0 ) = (6 + 50)/(15 + 100) = 0.487

P(M
= m1 ) = (8 + 50)/(15 + 100) = 0.5043

P(M
= m2 ) = (1 + 0)/(15 + 100) = 0.0087
A priori de Dirichlet sur (F |M = mi )
= [9 1]
= BAD|M = m2 )
P(F

Philippe Leray

Introduction

M
m0
m0
m0
m0
m0
m0
m1
m1
m1
m1
m1
m1
m1
m1
m2

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
OK
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

(0 + 1)/(1 + 10) = 0.09


Tutoriel EGC 2008

Donn
ees compl`
etes

9/18

Donn
ees incompl`
etes

R
ef
erences

Apprentissage (donn
ees incompl`
etes)
Plusieurs types de donn
ees incompl`
etes

(Rubin, 1976)

MCAR : Missing Completly At Random


absence de donnees = completement aleatoire
comment estimer MV ou MAP ?
Complete / Available Case Analysis ...

MAR : Missing At Random


probabilite quune donnee soit manquante depend des variables
observees
comment estimer MV ou MAP ?
Expectation Maximisation ...

NMAR : Not Missing At Random


absence de donnees depend de phenom. externes
besoin de connaissances supplem. dans le mod`ele
Philippe Leray

Tutoriel EGC 2008

10/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Complete / Available Case Analysis


Complete Case Analysis
Extraire de la base de donnees incompl`ete les individus
compl`etement mesures
Avantage : on retombe dans le cas des donnees compl`etes
Inconvenient : taux dincompletude important peu de
donnees compl`etes
Available Case Analysis
Principe : pas besoin de savoir si C est mesure pour estimer
les param`etres de P(A|B)
Pour estimer P(A|B), extraire de la base de donnees
incompl`ete les individus pour lesquels A et B sont mesures
Avantage : on retombe dans le cas des donnees compl`etes
Philippe Leray

Introduction

Tutoriel EGC 2008

Donn
ees compl`
etes

Donn
ees incompl`
etes

11/18

R
ef
erences

Algorithme Expectation Maximisation


Algorithme tr`
es g
en
eral

(Dempster 1977)

Algorithme general destimation de param`etres avec des


donnees incompl`etes
Principe
Algorithme iteratif
initialiser les param`etres (0) (random, CCA / ACA)
E estimer les valeurs manquantes `a partir des param`etres
actuels (t)
= calculer P(Xmanquant |Xmesures ) dans le RB actuel
= faire des inferences dans le RB muni des param`etres (t)

M re-estimer les param`etres (t+1) `a partir des donnees


completees
en utilisant MV, MAP, ou EAP
Philippe Leray

Tutoriel EGC 2008

12/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Exemple
Donnees manquantes (EM+MV)
Exemple sur lestimation de P(M)
(0) (M) = [1/3 1/3 1/3]
Initialisation P

Philippe Leray

Introduction

Donn
ees compl`
etes

M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK

Tutoriel EGC 2008

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N
13/18

Donn
ees incompl`
etes

R
ef
erences

Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5

P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8

Philippe Leray

P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2

Tutoriel EGC 2008

Iterato 1
[E]

14/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

P(M
= m0 )
1
1
1/3
1
1/3
1
0
0
1/3
0
0
0
0
0
0
5

P(M
= m1 )
0
0
1/3
0
1/3
0
1
1
1/3
1
1
1
1
1
0
8

Philippe Leray

Introduction

Donn
ees compl`
etes

P(M
= m2 )
0
0
1/3
0
1/3
0
0
0
1/3
0
0
0
0
0
1
2

Iterato 1
[E]
[M] :
(1) (m0 )
P
= 5/15
= 0.333
(1) (m1 )
P
= 8/15
= 0.533
(1) (m2 )
P
= 2/15
= 0.133

Tutoriel EGC 2008

15/18

Donn
ees incompl`
etes

R
ef
erences

Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5

P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6

Philippe Leray

P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4

Tutoriel EGC 2008

Iterato 2
[E]

16/18

Introduction

Donn
ees compl`
etes

Donn
ees incompl`
etes

R
ef
erences

Exemple
M
m0
m0
?
m0
?
m0
m1
m1
?
m1
m1
m1
m1
m1
m2
TOTAL

F
BAD
BAD
BAD
BAD
BAD
OK
BAD
BAD
OK
OK
OK
OK
?
OK
OK

R
O
O
O
O
N
O
O
N
O
N
O
N
O
N
N

P(M
= m0 )
1
1
0.333
1
0.333
1
0
0
0.333
0
0
0
0
0
0
5

P(M
= m1 )
0
0
0.533
0
0.533
0
1
1
0.533
1
1
1
1
1
0
8.6

Philippe Leray

Introduction

Donn
ees compl`
etes

P(M
= m2 )
0
0
0.133
0
0.133
0
0
0
0.133
0
0
0
0
0
1
1.4

Iterato 2
[E]
[M] :
(2) (m0 )
P
= 5/15
= 0.333
(2) (m1 )
P
= 8.6/15
= 0.573
(2) (m2 )
P
= 1.4/15
= 0.093

Tutoriel EGC 2008

Donn
ees incompl`
etes

17/18

R
ef
erences

R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007

Philippe Leray

Tutoriel EGC 2008

18/18

R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes

Introduction

IC

Score

Autre espace

R
ef
erences

Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin

Apprentissage des param`


etres

Maximum de vraisemblance / a posteriori


Donnees compl`etes / incompl`etes
Apr`
es-midi

= Apprentissage de la structure

Recherche dindependances / maximisation score


Quel espace ? Donnees compl`etes / incompl`etes
Apr`
es-midi

RB et causalit
e

RB causal, intervention / observation, suffisance causale


Philippe Leray

Tutoriel EGC 2008

2/33

Introduction

IC

Score

Autre espace

R
ef
erences

D
efinition dun r
eseau bay
esien

Un r
eseau bay
esien est d
efini par
la description qualitative des dependances (ou des
independances conditionnelles) entre des variables
graphe oriente sans circuit (DAG)
la description quantitative de ces dependances
probabilites conditionnelles (CPD)
Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

3/33

R
ef
erences

Notion dapprentissage

Construire un r
eseau bay
esien
1

structure fixee, on cherche seulement les CPD


`a partir dexpertises : elicitation de connaissances
`a partir de donnees compl`etes / incompl`etes

on cherche la structure
`a partir de donnees compl`etes / incompl`etes
dans quel espace ?
connat-on toutes les variables ?

Philippe Leray

Tutoriel EGC 2008

4/33

Introduction

IC

Score

Autre espace

R
ef
erences

Probl`
eme complexe

Taille de lespace de recherche


le nombre de structures possibles `a partir de n nuds est
super-exponentiel (Robinson 77)

,
n = 0 ou 1
1
NS(n) = Pn
n i(n1)
i+1
NS(n i),
n>1
i=1 (1)
i 2
NS(5) = 29281

NS(10) = 4.2 1018

recherche exhaustive impossible / taille de lespace

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

5/33

R
ef
erences

Dimension dun r
eseau bay
esien
D
efinition
Nombre de param`etres (independants) necessaires pour decrire
lensemble des CPD associees au RB

Exemples
Dim(B) = 1 + 1 + 4 + 2 + 2
Graphe vide : Dim(B0 ) = ?
completement connecte : Dim(Bc ) = ?
Philippe Leray

Tutoriel EGC 2008

6/33

Introduction

IC

Score

Autre espace

R
ef
erences

Equivalence de Markov
D
efinition
B1 et B2 sont equivalents au sens de Markov ssi ils ont le meme
squelette et decrivent les memes dependances et independances
conditionnelles
Cons
equences
B1 et B2 partagent les memes V-structures et arcs inferes
tous les graphes equivalents peuvent etre representes par un
graphe partiellement oriente (squelette, V-structure et arcs
inferes) (CPDAG)
on appelle ce CPDAG le representant de la classe
dequivalence
Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

7/33

Autre espace

R
ef
erences

Equivalence de Markov - exemple

Philippe Leray

Tutoriel EGC 2008

8/33

Introduction

IC

Score

Autre espace

R
ef
erences

Apprentissage (donn
ees compl`
etes)

Recherche dun bon r


eseau bay
esien
Un RB resume des dependances et independances
conditionnelles
Trouver la structure == trouver ces infos dans les donnees

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

9/33

R
ef
erences

Recherche dIC
Deux algorithmes de r
ef
erence
Pearl et Verma : IC et IC*
Spirtes, Glymour et Scheines : SGS, PC, CI, FCI
Principe commun
construire un graphe non dirige contenant les relations entre
les variables (tests du 2 )
par ajout daretes (Pearl et Verma)
par suppression daretes (SGS)

detecter les V-structures (idem)


propager les orientations de certains arcs

Philippe Leray

Tutoriel EGC 2008

10/33

Introduction

IC

Score

Autre espace

R
ef
erences

Recherche dIC

Probl`
emes principaux
Fiabilite du test dindependance conditionnellement `a un
grand nb de variables (et avec un nb de donnees restreint)
Heuristique SGS : si df <

N
10 ,

alors dependance

Explosion du nb de tests `a effectuer


Heuristique PC : commencer par lordre 0 (XA XB ) puis
lordre 1 (XA XB | XC ), etc ...

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

11/33

Autre espace

R
ef
erences

Algorithme PC
Etape 0 : Graphe non orient
e reliant tous les nuds
A gauche, le reseau theorique utilise pour generer 5000 exemples.
A

Philippe Leray

Tutoriel EGC 2008

12/33

Introduction

IC

Score

Autre espace

R
ef
erences

Algorithme PC
Etape 1a : Suppression des IC dordre 0
2 : SA LA BA OA X A DA T S LT OB X B
A

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

13/33

Autre espace

R
ef
erences

Algorithme PC
Etape 1b : Suppression des IC dordre 1
2 : T A|O

OS|L

X S|L

BT |S

X T |O

DT |O ...

Philippe Leray

Tutoriel EGC 2008

14/33

Introduction

IC

Score

Autre espace

R
ef
erences

Algorithme PC
Etape 1c : Suppression des IC dordre 2
2 : DS|{L, B} X O|{T , L} DO|{T , L}
A

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

15/33

Autre espace

R
ef
erences

Algorithme PC
Etape 2 : Recherche des V-structures
2 : decouverte de la V-structure T O L
A

Etape 3 : Orientation r
ecursive de certaines ar
etes
aucune ici
Philippe Leray

Tutoriel EGC 2008

16/33

Introduction

IC

Score

Autre espace

R
ef
erences

Algorithme PC
Instanciation du PDAG
Orientation des arcs restants
(seule condition : ne pas introduire de nouvelle V-structure)
A

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

17/33

Autre espace

R
ef
erences

Algorithme PC
R
eseau obtenu vs. th
eorique
Le test du 2 sur 5000 exemples na pas reussi `a retrouver
A T , O X et O D
A

Philippe Leray

Tutoriel EGC 2008

18/33

Introduction

IC

Score

Autre espace

R
ef
erences

Apprentissage (donn
ees compl`
etes)
Recherche dun bon r
eseau bay
esien
Premi`ere methode : rechercher directement les independances
conditionnelles
Autre methode : associer un score `a chaque structure
calculable rapidement / decomposable localement
Score(B, D) = constante +

n
X

score(Xi , pai )

i=1

notion de score equivalence


Un score S est dit score equivalent ssi pour deux structures B1
et B2 equivalentes on a S(B1 , D) = S(B2 , D).

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

19/33

R
ef
erences

Notion de score
Principe g
en
eral : rasoir dOccam
Pluralitas non est ponenda sine neccesitate
(La pluralite (des notions) ne devrait pas etre posee sans
necessite)
Frustra fit per plura quod potest fieri per pauciora
(Cest en vain que lon fait avec plusieurs ce que lon peut
faire avec un petit nombre)
= Principe de parcimonie = trouver le mod`
ele
qui represente le mieux les donnees D :
vraisemblance : L(D|, B)
et qui soit le plus simple possible :
nb de param`etres pour decrire B : Dim(B)
Philippe Leray

Tutoriel EGC 2008

20/33

Introduction

IC

Score

Autre espace

R
ef
erences

Exemples de score
AIC et BIC
Compromis vraisemblance / complexite
Application des crit`eres AIC (Akake 70) et BIC (Schwartz 78)
SAIC (B, D) = log L(D|MV , B) Dim(B)
1
SBIC (B, D) = log L(D|MV , B) Dim(B) log N
2
Scores bay
esiens : BD, BDe, BDeu
SBD (B, D) = P(B, D)

(Cooper et Herskovits 92)

BDe = BD + score equivalence


SBD (B, D) = P(B)

qi
n Y
Y
i=1 j=1

Philippe Leray

Introduction

IC

(Heckerman 94)

ri
Y
(Nijk + ijk )
(ij )
(Nij + ij )
(ijk )
k=1

Tutoriel EGC 2008

Score

Autre espace

21/33

R
ef
erences

Apprentissage (donn
ees compl`
etes)

Recherche dun bon r


eseau bay
esien
Heuristique de recherche :
espace B
restriction aux arbres : Chow&Liu, MWST
ordonnancement des nuds : K2
recherche gloutonne : Greedy Search

espace E
Greedy Equivalence Search

Philippe Leray

Tutoriel EGC 2008

22/33

Introduction

IC

Score

Autre espace

R
ef
erences

Restriction `
a lespace des arbres
Principe
quel est le meilleur arbre passant par tous les nuds,
i.e. maximisant un score defini pour chaque arc possible ?
R
eponse : Arbre de recouvrement maximal
MWST : Maximum Weight Spanning Tree
(Chow et Liu 68) : information mutuelle :
W (XA , XB ) =

X Nab
a,b

log

Nab N
Na. N.b

(Heckerman 94) : score local quelconque :


W (XA , XB ) = score(XA , Pa(XA ) = XB ) score(XA , )
Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

23/33

R
ef
erences

Restriction `
a lespace des arbres

D
eroulement
MWST donne un arbre non oriente reliant toutes les variables.
arbre non oriente = CPDAG representant dans lespace des
equivalents de Markov de tous les arbres diriges qui partagent
cette meme structure !
transformation en arbre oriente en choisissant arbitrairement
un nud racine et en dirigeant chaque arete `a partir de ce
nud.

Philippe Leray

Tutoriel EGC 2008

24/33

Introduction

IC

Score

Autre espace

R
ef
erences

Exemple : r
eseau obtenu vs. th
eorique
A

Ce type dalgorithme ne peut pas decouvrir de V-structures, ni de


cycles ...

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

25/33

R
ef
erences

Recherche gloutonne (greedy search)

Principe
Parcours de lespace `a laide doperateurs classiques :
ajout darc
inversion darc
suppression darc

sous reserve que le graphe obtenu soit toujours un DAG (pas


de circuit)
possibilite de commencer `a partir dun graphe precis

Philippe Leray

Tutoriel EGC 2008

26/33

Introduction

IC

Score

Autre espace

R
ef
erences

Exemple : r
eseau obtenu vs. th
eorique
A

On tombe surement dans un optimum local

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

27/33

Autre espace

R
ef
erences

Exemple : r
eseau obtenu vs. th
eorique
A

Initialisation de la recherche par larbre obtenu par MWST :


on arrive `a un meilleur resultat

Philippe Leray

Tutoriel EGC 2008

28/33

Introduction

IC

Score

Autre espace

R
ef
erences

Et avec des donn


ees incompl`
etes

Probl`
eme
= calculer le score lorsque les donnees sont incompl`etes
X = {D, H}
Une solution : Structural EM (Friedman 97)
Greedy Search + EM sur les param`etres
EM parametrique pour ameliorer (i) pour un B (i) fixe
recherche de B (i+1) parmi les voisins de B (i) , avec des donnees
completees selon (i)
et ainsi de suite ...

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

Autre espace

29/33

R
ef
erences

Et si on changeait despace de recherche


Remarques
IC/PC : on obtient en realite le PDAG representant la classe
dequivalence de Markov
MWST : idem (arbre non dirige)
La plupart des scores ne distinguent pas des reseaux
equivalents, do`
u des probl`emes de convergence
Recherche dans E
E = espace des representants des classes dequiv. de Markov
Meilleures proprietes : OUI
2 structures equivalentes = une seule structure dans E

Meilleure taille : NON


E est quasiment de meme taille que lespace des RB (ratio
asymptotique de 3,7 : Gillispie et Perlman 2001)
Philippe Leray

Tutoriel EGC 2008

30/33

Introduction

IC

Score

Autre espace

R
ef
erences

Greedy Equivalent Search

Principe (Chickering 2002)


Recherche gloutonne dans E
Phase 1 : ajout darcs jusqu`a convergence
Phase 2 : suppression darcs jusqu`a convergence
Adaptation aux donnees incompl`etes : GES-EM (Borchani et
al. 2006)

Philippe Leray

Introduction

IC

Tutoriel EGC 2008

Score

31/33

Autre espace

R
ef
erences

Exemple dajout darcs dans E












































































































































Philippe Leray

Tutoriel EGC 2008

32/33

Introduction

IC

Score

Autre espace

R
ef
erences

R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Probabilistic reasoning in Intelligent Systems: Networks
of plausible inference - J. Pearl (Morgan Kaufman) 1988
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007

Philippe Leray

Tutoriel EGC 2008

33/33

R
eseaux bay
esiens
introduction et apprentissage
mod
elisation et d
ecouverte de connaissances
Philippe LERAY
philippe.leray@univ-nantes.fr
Equipe COnnaissances et Decision
Laboratoire dInformatique de Nantes Atlantique UMR 6241
Site de lEcole Polytechnique de luniversite de Nantes

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Au programme ...
Matin
Notions g
en
erales
Definition, D-separation, Notion dinference
Matin

Apprentissage des param`


etres

Maximum de vraisemblance / a posteriori


Donnees compl`etes / incompl`etes
Apr`
es-midi

Apprentissage de la structure

Recherche dindependances / maximisation score


Quel espace ? Donnees compl`etes / incompl`etes
Apr`
es-midi

= RB et causalit
e

RB causal, intervention / observation, suffisance causale


Philippe Leray

Tutoriel EGC 2008

2/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Un RB nest pas un mod`


ele causal
RB classique :
A B ne signifie pas forcement causalite entre A et B,
seuls les arcs du CPDAG representant de la classe
dequivalence de Markov representent des causalites

Confusion
lorsque le graphe est construit par un expert, le graphe est
souvent causal
lorsque le graphe est appris avec des donnees, il na aucune
raison detre causal !
Pas toujours grave ...
graphes equivalents meme loi jointe, donc meme resultat
pour les algorithmes dinference (probabiliste)
la causalite nest pas utile pour linference (probabiliste)
Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

3/17

Var. latentes

R
ef
erences

R
eseau bay
esien causal

R
eseau bay
esien causal
chaque A B represente une relation de causalite directe,
i.e. le fait que A est bien la cause directe qui gen`ere B

si la causalite nest pas utile pour linference (probabiliste), `a


quoi peut servir un reseau bayesien causal ?

Philippe Leray

Tutoriel EGC 2008

4/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Intervention vs. Observation


Inference classique :
on observe B = b,
on calcule P(A|B = b)

Inference causale [Pearl 00]:


on agit/manipule/intervient sur B : do(B = b)

exemple avec A B
P(A|do(B = b)) = P(A),
P(B|do(A = a)) = P(B|A = a)
exemple avec A B
P(A|do(B = b)) = P(A|B = b),
P(B|do(A = a)) = P(B)
Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

5/17

Var. latentes

R
ef
erences

Manipulation Theorem
Specifier comment la loi jointe change apr`es une manipulation
do(M = m)
Version intuitive
on oublie les causes officielles de M (ses parents dans le
graphe)
on garde le fait que M = m pour les effets que cela declenche
(les enfants de M)
Version officielle

P(v |do(m)) =

Y
Vi V \M

Philippe Leray

[Spirtes et al. 00]

P(vi |Pa(Vi ))

M=m

Tutoriel EGC 2008

6/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Apprentissage dune structure causale


En general, utilisation de donnees dobservation
quelle que soit la methode, resultat = representant de la classe
dequivalence
determination partielle des relations causales

Solutions pour trouver un graphe compl`


etement causal
utiliser uniquement des donnees dexperimentation, et decider
au fur et `a mesure quelle experience sera la plus utile `a realiser
(active learning [Murphy 01], ...)
Id
ee : algorithme MyCaDo
[Meganck, Leray & Manderick 06]
tirer partie des donnees dobservations souvent existantes et
nombreuses
utiliser des donnees dexperimentation uniquement pour finir
dorienter le CPDAG
Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

7/17

Var. latentes

R
ef
erences

Algorithme MyCaDo


  



 

 
  



!"#


 
 

!

%



%


 

 $!

Philippe Leray

Tutoriel EGC 2008

8/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Algorithme MyCaDo
1

Choix de lexperience = choix dune variable M `a manipuler


orientant potentiellement le plus darcs
en tenant compte deventuels co
uts dexperimentation et/ou
dobservation des variables

Realisation de lexperience
do(M = m) pour toutes les valeurs possibles m
observation des variables C candidates (C M)

Analyse des resultats


P(C |M) (observation) P(C |do(M)) (experience) ?
si egalite, alors C M, sinon M C
propagation eventuelle de larc decouvert

Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

9/17

Var. latentes

R
ef
erences

Mais ce nest pas fini ...


Exemple simple, avec 2 variables
S (la Seine deborde) et P (jai pris mon parapluie)
Des donnees dobservation montrent que ces deux variables ne
sont pas independantes :
SP
On decide dagir sur S et dobserver P : pas de modification
S nest pas la cause de P
Faut-il en conclure que P est la cause de S ?
En agissant aussi sur P, on aurait vu que P nest pas la cause
de S
Interet = decouverte dune variable latente (il pleut...)
Philippe Leray

Tutoriel EGC 2008

10/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

Suffisance Causale

Les algorithmes precedents se basent tous sur lhypoth`ese de


suffisance causale
Suffisance causale
Toutes les variables necessaires `a la modelisation sont connues
Abandonner lhypoth`ese de suffisance causale = Essayer de
decouvrir des variables latentes lors de lapprentissage de
structure
de facon explicite (methodes `a base de score)
de facon implicite (SMCM vs. MAG)

Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

11/17

Var. latentes

R
ef
erences

Mod
elisation explicite vs. implicite
Mod
elisation explicite
Adaptation de Structural EM
Avantages

inference probabiliste : OK



Inconvenients



complexite de la methode
inference causale : NON (le graphe nest pas causal)

Mod
elisation implicite
Mod`ele plus leger
pas besoin de determiner la cardinalite de H





Deux formalismes aux objectifs differents


inference causale : SMCM, Semi Markovian Causal Model
apprentissage de la structure : MAG, Maximum Ancestral
Graph
Philippe Leray

Tutoriel EGC 2008

12/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

SMCM vs. MAG


SMCM [Pearl 00]

MAG [Richardson & Spirtes 02]

A B : cause commune
latente

A B : cause commune
latente

A B : relation de
causalite directe

A B dependance entre A
et B
existence de chemins induits
Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

13/17

Var. latentes

R
ef
erences

SMCM vs. MAG


SMCM [Pearl 00]

MAG [Richardson & Spirtes 02]

Inf. causale : en theorie

Inf. causale : partielle

Inference prob. : NON

Inference prob. : NON

Apprent. structure : NON

Apprent. structure : partielle

Philippe Leray

Tutoriel EGC 2008

14/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

SMCM vs. MAG


Apprentissage `a partir dobservations : OK, mais obtention
du representant de la classe dequivalence (CPAG)
CPAG MAG : inutile, un MAG nest pas causal

Inf
erence causale : OK dans les SMCM
Inf
erence probabiliste : il manque une parametrisation
efficace des SMCM

Philippe Leray

Introduction

RB causal

Tutoriel EGC 2008

Apprentissage

15/17

Var. latentes

R
ef
erences

Une approche globale : MyCaDo++


Apprentissage `a partir dobservations : OK, mais obtention
du representant de la classe dequivalence (CPAG)
Notre id
ee :
[Meganck, Maes, Leray & Manderick 06]
passer directement du CPAG `a un SMCM `a partir de donnees
dexperimentation
Inf
erence causale : OK dans les SMCM
Inf
erence probabiliste : il manque une parametrisation
efficace des SMCM
Notre id
ee :
[Meganck, Maes, Leray & Manderick 06]
proposer une parametrisation efficace dun SMCM
Philippe Leray

Tutoriel EGC 2008

16/17

Introduction

RB causal

Apprentissage

Var. latentes

R
ef
erences

R
ef
erences
Les R
eseaux Bay
esiens - P. Nam, P.H. Wuillemin, Ph.
Leray, O. Pourret, A. Becker (Eyrolles) 2007
Causality: Models, Reasoning, and Inference - J. Pearl
(Cambridge University Press) 2000
An introduction to Bayesian Networks - F. Jensen
(Springer Verlag) 1996
Probabilistic Networks and Expert Systems - R.G. Cowell
& al. (Springer Verlag) 1999
Learning Bayesian Networks - R. Neapolitan (Prenctice
Hall) 2003
Learning in Graphical Models - Jordan M.I. ed. (Kluwer)
1998
An integral approach to causal inference with latent
variables - S. Maes et al. In Russo, F. and Williamson, J.,
editors, Causality and Probability in the Sciences. Texts In
Philosophy series, London College Publications, pp 17-41.
2007

Philippe Leray

Tutoriel EGC 2008

17/17

Das könnte Ihnen auch gefallen