Sie sind auf Seite 1von 19

Représentation condensée à base d’intervalles d’un

ensemble de motifs
M. L. Balde1,2 , C. T. Diop1,2 , A. Giacometti2 , P. Marcel2 , A. Soulet2

1 LANI - Université Gaston Berger de Saint-Louis 2 LI - Université François-Rabelais de Tours


BP 234 Saint-Louis (Sénégal) 41000 Blois (France)
mlbalde@gmail.com arnaud.giacometti@univ-tours.fr
cdiop@ugb.sn patick.marcel,arnaud.soulet@univ-tours.fr

Résumé représentations minimales à base d’intervalles


et leur important gain en compression.
Les motifs sont à l’origine de nombreuses
découvertes de connaissances dans les bases Mots clés : Fouille de données, représenta-
de données, mais leur nombre, trop important, tions condensées, intervalles de motifs.
limite encore bien souvent leur usage. Afin de
lever cette difficulté, une collection de motifs 1 Introduction
peut être condensée en une représentation La découverte de motifs est l’une des tâches
équivalente, mais de taille inférieure. La les plus utilisées ces dernières années pour
plupart des travaux se focalisent uniquement l’Extraction de Connaissances dans les Bases
sur les représentations condensées de requêtes de Données (ECBD). En effet, les motifs
booléennes monotones et/ou anti-monotones. qui traduisent des relations subtiles entre les
données, permettent d’établir de nouvelles
Dans cet article, nous déterminons un connaissances, et, désormais, de nombreuses
ensemble minimal d’intervalles permettant méthodes existent pour leur extraction, mal-
de représenter de manière compacte et de gré les difficultés algorithmiques inhérentes à
régénérer un ensemble de motifs issu d’une cette tâche. En revanche, les bases de données
requête quelconque. Notre stratégie, pour manipulées ont des volumes de plus en plus
l’obtention de ces représentations minimales importants et les algorithmes de fouille pro-
à base d’intervalles, se déroule en deux étapes. duisent de très grandes collections de motifs.
Dans la première étape, nous calculons les Ces tailles gigantesques limitent encore, bien
intervalles maximaux, appelés noyaux, inclus souvent, l’analyse individuelle de chaque
dans l’ensemble de motifs à condenser. Dans motif et leurs usages pour d’autres tâches
la seconde, une représentation minimale de la automatiques telles que la classification.
collection initiale est déterminée, en choisis-
sant un sous-ensemble des noyaux calculés à Dans le cadre des bases de données induc-
la première étape. Les expérimentations préli- tives [28, 38, 14], le processus d’extraction de
minaires montrent la faisabilité du calcul des connaissances est ramené à l’évaluation de
séquences de requêtes. Une approche itérative cadre théorique des travaux de De Raedt et
pose alors le problème du stockage des ré- al. [35, 36, 37, 38].
ponses aux requêtes déjà posées ainsi que celui
de l’évaluation de nouvelles requêtes. Dans le L’ensemble des travaux actuels se limite
cas de l’extraction de règles d’associations, presque exclusivement aux représenta-
Nag et al. [33], Jeudy et al. [22] ont proposé tions condensées des réponses de requêtes
des solutions basées sur l’utilisation de caches. composées de contraintes monotones et anti-
Giacometti et al. [15, 16, 17] ont également monotones. Dans cet article, nous souhaitons
proposé des solutions utilisant des représenta- aller plus loin en condensant la réponse de
tions condensées, afin de lever ces difficultés n’importe quelle requête. Pour cela, nous nous
dans l’extraction itérative de requêtes. Beau- appuyons sur la notion d’intervalle qui est
coup de travaux [27, 35, 36, 37] ont porté sur une structure de granularité plus fine que les
l’évaluation des requêtes inductives (prédicats espaces de versions. Un intervalle a le double
exprimant des contraintes sur les motifs). avantage d’être une structure compacte et
Ainsi, des solutions, relativement efficaces, générique. En effet, il est seulement constitué
existent lorsque les requêtes sont formées de deux bornes qui résument tous les motifs
de combinaisons booléennes de contraintes plus spécifiques que la première borne et plus
monotones ou anti-monotones par rapport généraux que la seconde. Par ailleurs, les dif-
à la relation de généralisation/spécialisation férents résultats des algorithmes d’extraction
du langage des motifs. Des contraintes syn- de motifs (e.g., motifs simples, intervalles,
taxiques peuvent également être prises en espaces de versions) se modélisent facilement
compte dans la formulation de certaines sous la forme d’ensembles d’intervalles et
requêtes. Dans cette perspective, l’espace de peuvent donc être condensés par notre ap-
recherche est généralement un treillis et les proche.
ensembles solutions sont des sous-ensembles
convexes de celui-ci, correspondant à des
espaces de versions [30, 19, 20, 18]. Dans cet article, nous introduisons la
notion de représentation minimale à base
d’intervalles qui est un ensemble minimal
Le concept d’espace de versions s’est d’intervalles permettant de représenter de
révélé très utile dans la caractérisation des manière compacte et de régénérer un ensemble
ensembles solutions des requêtes formées de motifs issu d’une requête quelconque. Nous
de conjonctions de prédicats monotones et proposons un algorithme efficace dans le cadre
antimonotones [27, 35, 36, 37]. Il permet de des motifs ensemblistes, à chacune des deux
caractériser les motifs intéressants, grâce aux étapes de notre stratégie, pour l’obtention
frontières basses et hautes obtenues à partir de ces représentations minimales. Le premier
d’un élagage efficace de l’espace de recherche. calcule les intervalles maximaux (appelés
Pour une représentation compacte des en- noyaux ) inclus dans l’ensemble de motifs à
sembles solutions de requêtes booléennes condenser. Puis, le second détermine une re-
formées de conjonctions et disjonctions de présentation minimale de la collection initiale,
prédicats monotones et anti-monotones, Sau en choisissant un sous-ensemble de cardinalité
Dan Lee [25] a introduit les espaces de ver- minimale, parmi les noyaux obtenus à la
sions généralisés, fournissant, dans sa thèse, première étape. Les expérimentations menées
une synthèse ainsi qu’une formalisation du sur des données synthétiques montrent non
seulement la faisabilité du calcul mais un gain Définition 1 (Théorie). Soient un prédicat de
en compression avec notre approche. sélection q ∈ Q, un ensemble de motifs L ⊆ L
et un ensemble de données D ∈ D. L’ensemble
Nous introduirons dans la section 2 quelques des motifs de L intéressants dans D relative-
définitions et notations préliminaires et dans ment à q, est appelé théorie de L relativement
la section 3 nous donnons une formulation du à q et D et est noté T h(q, L, D) i.e.
problème. Puis la section 4 sera consacrée à
la construction des noyaux d’un ensemble de T h(q, L, D) = {ϕ ∈ L | q(ϕ, D) = true}
motifs, tandis que dans la section 5, nous four-
nirons un algorithme déterminant une repré- Le prédicat de sélection q représente l’en-
sentation minimale d’une collection de motifs, semble des contraintes que doit respecter
à partir de l’ensemble de ses noyaux. Ensuite, un motif ϕ ∈ L pour être considéré comme
les résultats des expérimentations menées sur intéressant dans D. L’ensemble des motifs de
quelques jeux de données seront présentés à la L satisfaisant le prédicat q dans D est appelé
section 6. La section 7 conclura l’article. réponse ou ensemble solution de q dans D.

2 Contexte et état de l’art Dans ce formalisme, le problème de l’ex-


traction de motifs intéressants se ramène à
L’étude des représentations condensées
un problème de recherche dont l’espace à
commença avec la définition générale pro-
parcourir est l’ensemble L de tous les motifs.
posée par Mannila et Toivonen [26]. Dans
Ce dernier, muni de la relation de généralisa-
cette section, nous rappelons, brièvement, les
tion/spécialisation , aura une structure de
notations de base de leur cadre théorique,
treillis.
ainsi qu’un état de l’art sur les représentations
condensées.
Cet espace est de taille exponentielle (il
existe 2n motifs pour une table possédant
2.1 Notations et définitions n attibuts) or, dans les applications réelles,
Soit : les bases de données possédent souvent des
– Un ensemble D d’ensembles de données. milliers d’attributs. D’où l’impossibilité, en
– Un ensemble de motifs L, muni d’une re- pratique, de le parcourir exhaustivement.
lation d’ordre partielle . Etant donnés Toutefois, certaines propriétés des requêtes
deux motifs ϕ1 et ϕ2 de L, on dit que d’extraction, par rapport à la relation de
ϕ1 est plus général que ϕ2 (ou inverse- généralisation/spécialisation, fournissent
ment que ϕ2 est plus spécifique que ϕ1 ) si des critères d’élagages rendant possible un
ϕ1  ϕ2 . On dit aussi que  est une rela- parcours optimisé de l’ensemble des motifs.
tion de généralisation/spécialisation sur
les motifs de L. Pour tout ensemble de données D ∈ D et
– Un ensemble de prédicats de sélection Q. pour tout couple de motifs (ϕ1 , ϕ2 ) ∈ L × L,
Un prédicat de sélection q ∈ Q est une nous dirons qu’un prédicat de sélection q est :
fonction booléenne définie sur L × D. – monotone, si :
Etant donnés un motif ϕ ∈ L et un en- (ϕ1  ϕ2 ∧ q(ϕ1 , D)) ⇒ q(ϕ2 , D) ;
semble de données D ∈ D, on dit que ϕ – anti-monotone, si :
est intéressant dans D relativement à q si (ϕ1  ϕ2 ∧ q(ϕ2 , D)) ⇒ q(ϕ1 , D).
q(ϕ, D) = true.
Apriori [1], le plus célèbre des algorithmes Soit alors L ⊆ L l’ensemble des mo-
d’extraction de motifs fréquents, est une ins- tifs {A, C, D, AB, AC, AD, BC, ABC, BDE,
tance de l’algorithme générique de Mannila et BCDE, BDEF, BCDEF }.
Toivonen [27]. Son efficacité repose, essentiel-
lement, sur l’utilisation de l’anti-monotonie 2.2 Etat de l’art
de la contrainte de fréquence, pour parcourir Différentes sortes de représentations
l’espace de recherche. condensées ont été proposées dans la littéra-
ture. On peut citer, dans le cas le plus étudié
Les représentations condensées fournissent des motifs fréquents, les motifs clés [2] (ou
une solution au problème du grand nombre libres [4] ou générateurs [23]), les fermés [34],
des motifs, dans l’extraction des motifs in- les libres disjonctifs [6], les motifs non dé-
téressants, en permettant l’obtention d’un rivables [8], les motifs k-libres [9]. Casali
sous-ensemble de motifs de taille plus ré- et al. [10, 11] ont dernièrement introduit
duite permettant leur régénération complète. le concept de motif essentiel. Ces travaux
Sans reprendre la définition formelle donnée spécifiques aux requêtes relatives à la fré-
dans [26], nous retiendrons les caractéristiques quence ne peuvent donc pas être exploités
fondamentales des représentations condensées pour condenser la réponse d’une requête
dans la définition suivante : quelconque.

Définition 2 (Représentation condensée). De nombreux travaux portent sur la


Etant donné un ensemble de motifs L ⊆ L. On condensation d’ensembles solutions et les
appelle représentation condensée exacte de L résultats se présentent alors, soit sous forme
tout ensemble X qui est à la fois : de collections de motifs, soit comme des
– succinct : la taille de X est très réduite réunions d’espaces de versions. Les motifs
par rapport à celle de L ; intéressants les plus spécifiques (resp. les plus
– exact : l’ensemble X permet de regénérer généraux) constituent la bordure positive de
tous les motifs de L ainsi que la valeur de l’ensemble solution, pour une requête anti-
toute mesure sur ceux-ci, sans accès aux monotone (resp. monotone). Ces ensembles de
données initiales. motifs suffisent pour regénérer complètement
Dans ce travail, nous ne prendrons pas en les motifs intéressants par rapport à une
compte de mesures associées aux motifs. Nous requête d’extraction monotone ou antimo-
cherchons à condenser la théorie résultante notone. Lorsque celle-ci est une conjonction
d’une requête q quelconque présentée sous q = q1 ∧ . . . ∧ qn où pour tout i ∈ {1, . . . , n}, qi
forme d’une collection de motifs, comme dans est un prédicat monotone ou anti-monotone,
l’exemple suivant : De Raedt et al. [35] montrent que son en-
semble solution est un espace de versions et
Exemple 1. Considérons un ensemble d’ar- donnent un algorithme le calculant. Leurs
ticles, noté Items = {A, B, C, D, E, F }, dans principaux résultats sont systématisés par
le cadre des bases de données transaction- Lee [25] qui introduit les espaces de versions
nelles. Soit L = 2Items l’ensemble de tous généralisés. Dans le cas de requêtes simples
les motifs (itemsets) possibles. Par la suite, ou de séquences de requêtes booléennes
un motif est représenté par la concaténa- formées de conjonctions et de disjonctions
tion des items qu’il contient, i.e. le motif de prédicats monotones ou anti-monotones,
{A, C, E} est noté plus simplement ACE. des représentations condensées combinant à
la fois motifs fermés, motifs clés et espaces 3 Formulation du problème
de versions sont proposées dans [15, 16, 17]. Dans ce travail, nous considérons des bases
En 2005, Mielikäinen [29] a présenté dans sa de données transactionnelles, l’espace de re-
thèse plusieurs techniques de condensation cherche L est donc le treillis des parties d’un
d’une collection de motifs. ensembles d’articles (les items). Il est muni de
la relation d’inclusion et les motifs sont des
ensembles d’items (itemsets). Nous utiliserons
D’autres propositions ont fourni en sor-
des intervalles selon le sens suivant :
tie des listes d’intervalles. Tout d’abord,
DualMiner [5] fut le premier algorithme Définition 3 (Intervalle de motifs). Soient
à utiliser simultannément des contraintes ϕ, γ ∈ L. L’ intervalle de motifs d’extrémités
monotones et anti-monotones pour éla- ϕ et γ, noté [ϕ, γ], est défini par :
guer l’espace de recherche. Etant donné
une requête d’extraction q, conjonction [ϕ, γ] = {ζ ∈ L | ϕ ⊆ ζ ⊆ γ}
d’un prédicat monotone et d’un prédicat Par exemple, [A, ABC] correspond à l’en-
anti-monotone, il retourne un ensemble d’in- semble de motifs {A, AB, AC, ABC}.
tervalles X = {[ϕ1 , γ1 ], . . . , [ϕn , γn ]} tel que
l’ensemble solution de q est la réunion des Un intervalle de motifs possède donc la
intervalles [ϕi , γi ], (i = 1, . . . , n). Toutefois, capacité de désigner un grand nombre de
le nombre d’intervalles obtenus n’est pas motifs, par la seule donnée de ses bornes. Ce
toujours minimal. qui le rend intéressant pour la manipulation
des grands ensembles de motifs.
Plus récemment, avec Music-DFS [40],
Soulet a proposé un algorithme d’extraction Notations. Soit L ⊆ L un ensemble de
de motifs sous contraintes qui parcourt motifs, Int(L) l’ensemble des intervalles in-
l’espace de recherche en considérant des inter- clus dans L et X ⊆ Int(L). Si X =
valles de motifs. Cet algorithme extrait une {[ϕ1 , γ1 ], . . . , [ϕn , γn ]}, on notera X l’ensemble
[n
collection d’intervalles sans chevauchement des motifs définis par X = [ϕi , γi ].
formant une représentation condensée des i=1
motifs satisfaisant des contraintes variées. Par une représentation d’un ensemble par
Néanmoins, l’ensemble d’intervalles extraits un autre, nous entendons, non seulement, la
est à nouveau de taille très supérieure à la possibilité d’établir une correspondance bijec-
représentation minimale. A la différence de tive entre ces ensembles, mais aussi, le pouvoir
ces méthodes, les représentations condensées de coder un ensemble par un autre plus com-
fondées sur des intervalles que nous proposons pact tel qu’on puisse stocker et/ou manipuler
dans la suite, sont minimales. l’ensemble initial plus efficacement.
Définition 4 (Représentation basée sur un
De manière générale, notre approche se dis- ensemble). Soit L ⊆ L un ensemble de mo-
tingue par le fait de ne pas extraire directe- tifs et X ⊆ Int(L) tel que X = L. On ap-
ment une représentation condensée, et de se pelle représentation de L basée sur X, tout en-
positionner en aval des méthodes d’extraction semble d’intervalles Y ⊆ X vérifiant : Y = L.
afin de pouvoir traiter n’importe quel résultat Lorsque Y est de cardinalité minimale, elle est
de requête. dite minimale.
Lorsqu’on parle de représentation sans bien kN (L)k ≤ kXk.
préciser la base, il s’agit d’une représentation Il en découle que la taille d’une représenta-
basée sur tous les intervalles (à savoir Int(L)). tion minimale de L basée sur l’ensemble de
ses noyaux N (L) est toujours inférieure ou
Dans ce papier, étant donné un ensemble égale à la taille d’une représentation minimale
de motifs L ⊆ L, le problème posé est celui de L basée sur un ensemble X ⊆ Int(L). Il
de trouver une représentation minimale de L s’en suit que kN (L)k ≤ kInt(L)k, en prenant
par des intervalles. X = Int(L).
Le deuxième sens de cette inégalité est trivial.
Construire tous les sous-ensembles de En effet, puisque N (L) ⊆ Int(L), toute repré-
Int(L) et en choisir un de plus petite taille sentation, minimale ou non, basée sur N (L)
n’est pas toujours envisageable, face au grand est également une représentation basée sur
nombre d’intervalles qu’on peut former à par- Int(L). Donc kInt(L)k ≤ kN (L)k.
tir de L. Face à cette difficulté, nous recher- On en déduit que kN (L)k = kInt(L)k. D’où
chons les représentations minimales basées sur la Propriété 1.
un sous-ensemble de Int(L), celui des inter-
valles maximaux (appelés noyaux ). Cette propriété démontre toute l’impor-
tance du concept de noyau, dans notre ap-
Définition 5 (Noyau). Soit L ⊆ L un en- proche. Aussi, notre stratégie de résolution se
semble de motifs. On appelle noyau de L tout décline en deux étapes : étant donné un en-
intervalle maximal (au sens de l’inclusion) semble de motifs L ⊆ L,
dans L. On note N (L) l’ensemble des noyaux
1. Déterminer tous les noyaux de L à par-
de L.
tir d’un ensemble quelconque d’intervalles
Cette reformulation du problème est perti- X ⊆ Int(L) tel que X = L (cf. Sec-
nente, car l’ensemble des noyaux est en général tion 4).
très réduit par rapport à l’ensemble de tous les 2. Chercher un sous-ensemble de noyaux de
intervalles. Mieux, nous avons : cardinalité minimale (cf. Section 5).
Propriété 1. Soit L ⊆ L un ensemble de mo- Notons que le problème posé est une ins-
tifs. Une représentation minimale de L basée tance particulière du problème classique de re-
sur N (L) est une représentation minimale de cherche d’une couverture par ensembles (set
L basée sur Int(L). covering problem) dont la résolution exacte est
N P -difficile [13], pour s ≥ 3 (où s est la taille
Démonstration. Soit L ⊆ L et X ⊆ Int(L) du plus grand ensemble considéré). Nous en
tel que X = L. Notons kXk la taille com- proposons ici une résolution exacte, lorsque les
mune des représentations minimales de L ba- ensembles considérés sont des sous-treillis [7]
sées sur X. On montre que : kN (L)k ≤ kXk. du treillis des parties d’un ensemble d’items.
En effet, soit Z une représentation minimale
de L basée sur X. Posons Z = {I1 , . . . , In }. 4 Construction des noyaux
Comme Z ⊆ X, pour chaque k ∈ {1, . . . , n}, Dans cette section, nous donnons deux
il existe un noyau Nk ∈ N (L) tel que Ik ⊆ Nk . propriétés fondamentales des intervalles de
On a donc N = {N1 , . . . , Nn } qui est une re- motifs permettant de définir un opérateur qui
présentation de L basée sur N (L). Comme détermine (s’il existe) l’intervalle maximal
kN (L)k ≤ |N | et |N | = |Z| = kXk, on a intersectant chacun de ses opérandes. Ensuite,
nous proposons un algorithme d’obtention 2. J1 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I1 et
des noyaux d’un ensemble de motifs donné. J2 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ] ⊆ I2 où ζ
est l’unique élément de (ϕ1 \ϕ2 )∩(γ1 \γ2 ).
4.1 Propriétés des intervalles de motifs
De plus, dans les deux cas :
Les opérations ensemblistes habituelles (in- J ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I1 ∪ I2 .
clusion, intersection et différence) sont bien
définies pour les intervalles de motifs. Cepen- Démonstration. Si J = J1 ∪ J2 avec J1 ∩ J2 =
dant la réunion d’intervalles n’est pas toujours ∅, est un intervalle tel que J = [α, β], alors il
un intervalle. La Propriété 2 suivante (tirée de existe ζ ∈ β \α tel que J1 = [α, β \{ζ}] et J2 =
[5]) indique dans quel cas, la fusion de deux [α ∪ {ζ}, β], ou inversement J1 = [α ∪ {ζ}, β]
intervalles en un seul ou la subdivision d’un et J2 = [α, β \ {ζ}] (Propriété 2). Les deux
intervalle en deux intervalles disjoints, est réa- cas étant symétriques, on ne considérera que
lisable. le premier cas.
J1 ⊆ I1 et J2 ⊆ I2 impliquent respecti-
Propriété 2 (Fusion et division). [5] Soient vement que ϕ1 ⊆ α ⊆ (β \ {ζ}) ⊆ γ1 et
I = [ϕ, γ], I1 = [ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] trois ϕ2 ⊆ (α ∪ {ζ}) ⊆ β ⊆ γ2 . Par conséquent,
intervalles de motifs. Alors I = I1 ∪ I2 avec on a ϕ1 ⊆ α ⊆ (α ∪ {ζ}) et ϕ2 ⊆ (α ∪ {ζ}),
I1 ∩ I2 = ∅ si et seulement si, il existe un item ce qui implique que (ϕ1 ∪ ϕ2 ) ⊆ (α ∪ {ζ}) et
ζ ∈ γ \ ϕ, tel que : (ϕ1 ∪ ϕ2 ) \ {ζ} ⊆ α.
1. I1 = [ϕ, γ \ {ζ}] et I2 = [ϕ ∪ {ζ}, γ] ; ou De même, on a (β \ {ζ}) ⊆ γ1 et (β \ {ζ}) ⊆
symétriquement, β ⊆ γ2 , ce qui implique que (β \ {ζ}) ⊆
2. I1 = [ϕ ∪ {ζ}, γ] et I2 = [ϕ, γ \ {ζ}]. (γ1 ∩ γ2 ) et β ⊆ (γ1 ∩ γ2 ) ∪ {ζ}. On en déduit
directement que J1 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ]
Lorsque l’intersection de deux intervalles de et J2 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}].
motifs est non vide, nous dirons que l’un em- Montrons maintenant que ζ ∈ (ϕ2 \ ϕ1 ) ∩
piéte sur l’autre. Soit I1 et I2 deux intervalles (γ2 \γ1 ). Tout d’abord (α∪{ζ}) ⊆ γ2 implique
de motifs. Considérons J un intervalle qui em- que ζ ∈ γ2 . Supposons que ζ ∈ γ1 . On a alors
piéte sur I1 et I2 , égal à l’union de deux sous- ϕ1 ⊆ α ⊆ (β \ {ζ}) ⊆ β ⊆ γ1 , ce qui contredit
intervalles de I1 et I2 . La propriété suivante que J 6⊆ I1 . Par conséquent, on a ζ 6∈ γ1 et
montre alors que J est inclus dans un inter- ζ ∈ γ2 , i.e ζ ∈ (γ2 \ γ1 ). D’un autre côté, ζ ∈
valle maximal, union de deux sous-intervalles β \ α implique que ζ 6∈ α. Comme ϕ1 ⊆ α, on
de I1 et I2 , empiétant sur I1 et I2 . Ce résultat en déduit que ζ 6∈ ϕ1 . Supposons que ζ 6∈ ϕ2 .
fournit, en même temps, cet intervalle maxi- Dans ce cas, comme ϕ2 ⊆ (α ∪ {ζ}), on aurait
mal. ϕ2 ⊆ α ⊆ β ⊆ γ2 , ce qui contredit que J 6⊆ I2 .
Par conséquent, on a ζ ∈ ϕ2 et ζ 6∈ ϕ1 , i.e
Propriété 3 (Empiètement). Soient I1 = ζ ∈ (ϕ2 \ ϕ1 ). Nous avons donc démontré que
[ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] tels que I1 6⊆ I2 et ζ ∈ (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ).
I2 6⊆ I1 . Soit J1 un sous-intervalle de I1 et J2 Il reste à démontrer que ζ est unique. Si ζ
un sous-intervalle de I2 . Si J = J1 ∪ J2 est un n’est pas unique, soit ζ1 et ζ2 deux éléments
intervalle tel que J 6⊆ Ii pour i = 1, 2, alors de (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). ζ1 et ζ2 appartiennent
l’une des propriétés suivantes est vérifiée : aussi à β \ α. On en déduit que si ζ2 6= ζ1 ,
1. J1 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ] ⊆ I1 et alors ζ2 ∈ (β \ {ζ1 }). Par conséquent, comme
J2 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I2 où ζ (β \ {ζ1 }) ⊆ γ1 , on en déduit que ζ2 ∈ γ1 ,
est l’unique élément de (ϕ2 \ϕ1 )∩(γ2 \γ1 ). ce qui est contradictoire avec l’hypothèse que
ζ2 ∈ (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). Par suite, ζ1 ne peut candidats Xi tous les empiétants maximaux
être différent de ζ2 ce qui prouve l’unicité de obtenus par composition des noyaux candidats
ζ dans (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). déterminés à l’étape précédente (ligne 5). Il re-
tourne ensuite les intervalles maximaux dans
Définissons, à présent, l’opérateur ⊗, qui Xi (ligne 7). NOYAUX s’arrête lorsque plus
donne, lorsqu’il existe, l’intervalle maximal aucun nouveau noyau n’est construit (ligne 9).
empiétant sur chacun de ses opérandes.
Définition 6 (Empiétant maximal). Soient Algorithme 1 NOYAUX(X)
I1 = [ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] tels que (ϕ2 \ Entrée : Un ensemble X = {I1 , . . . , IN }
ϕ1 ) ∩ (γ2 \ γ1 ) = {ζ} et (ϕ1 ∪ ϕ2 ) \ {ζ} ⊆ d’intervalles Ii (i ∈ [1, N ])
(γ1 ∩ γ2 ) ∪ {ζ}. On appelle empiétant maxi- Sortie : L’ensemble N (X) des noyaux de X
mal sur I1 et I2 , l’intervalle noté I1 ⊗I2 , défini 1: let X0 = max⊆ (X) and Y = X0
par : I1 ⊗ I2 = [(ϕ1 ∪ ϕ2 ) \ {ζ}, (γ1 ∩ γ2 ) ∪ {ζ}]. 2: let i = 0
3: do
Notons que ⊗ n’est pas commutative. 4: i=i+1
Mieux, lorsque I1 ⊗ I2 est un intervalle, son 5: Y = {I ⊗ I ′ | I ∈ Xi−1 , I ′ ∈ Y
symétrique I2 ⊗ I1 n’est pas défini. 6: et I ⊗ I ′ est défini}
7: Xi = max⊆ (Xi−1 ∪ Y )
Lorsque I1 ⊗I2 est défini et qu’en plus I1 ∪I2 8: Y = Y ∩ Xi
est un intervalle, alors : 9: while (Xi 6= Xi−1 )
10: return Xi
I1 ⊗ I2 = I1 ∪ I2 .

Exemple 2. Considérons I1 = [A, ABC], Exemple 3. Considérons l’ensemble


I2 = [ACD, ABCDE], I3 = [AD, ABCD], et des motifs de l’Exemple 1 et sa re-
I4 = [E, EF ]. Alors I1 ⊗ I2 = [AC, ABCD], présentation suivante : X = {[A, AD],
I1 ⊗I3 = [A, ABCD] et I1 ⊗I4 n’est pas défini. [A, ABC], [C, BC], [D, AD], [BDE, BCDE],
On notera aussi que I1 ⊗ I3 correspond exac- [BDEF, BCDEF ]}.
tement à la réunion I1 ∪ I3 , mais ce n’est pas L’exécution de NOYAUX retourne l’ensemble
le cas de I1 ⊗ I2 . de ses noyaux : N (X) = { [A, ABC], [A, AD],
[C, ABC], [D, AD], [BDE, BCDEF ]}.
C’est sur cet opérateur que repose l’algo-
rithme de détermination des noyaux d’un Afin de démontrer que l’algorithme
ensemble de motifs. NOYAUX permet de calculer tous les noyaux
recherchés, on commence par introduire la
4.2 Algorithme de construction des notion d’arbre de décomposition d’un noyau.
noyaux On démontre ensuite trois lemmes avant
NOYAUX (cf. Algorithme 1) détermine d’énoncer dans le Théorème 1 la complétude
tous les noyaux d’un ensemble de motifs et la correction de NOYAUX.
L ⊆ L, à partir d’un ensemble d’intervalles
X couvrant tous les motifs de L. Cet algo- Par la suite, étant donné un ensemble X
rithme est principalement basé sur l’opérateur d’intervalles, notons S(X) l’ensemble de tous
⊗ permettant de calculer l’empiétant maxi- les sous-intervalles des intervalles de X, i.e
mal sur deux intervalles. A chaque itération,
NOYAUX ajoute à un ensemble de noyaux S(X) = {I ∈ Int(X) | ∃I ′ ∈ X : I ⊆ I ′ }
Définition 7 (Arbre de décomposition). Soit de base de NOYAUX.
X un ensemble d’intervalles, et I un intervalle
inclus dans X. Un arbre de décomposition A Lemme 1. L’algorithme NOYAUX vérifie les
de I selon X est un arbre binaire dont l’en- deux propriétés suivantes.
semble des nœuds, notés nik et associés à des 1. Pour tout entier i ≥ 0, si Xi est calculé,
intervalles Iki ⊆ I, est tel que : alors Xi = X.
– Le nœud racine de A, noté n10 , est associé
2. Étant donné un intervalle I, s’il existe un
à l’intervalle I01 = I.
entier i ≥ 0 tel que I ∈ S(Xi ), alors pour
– Si nik est un nœud de A, alors :
tout Xj calculé, si j > i, alors I ∈ S(Xj ).
– soit Iki appartient à S(X). Dans ce cas,
nik n’a pas de fils. Démonstration. La première propriété du
– soit Iki = [ϕik , γki ] n’appartient pas à lemme peut être démontrée par induction.
S(X). Dans ce cas, nik a deux fils notés Tout d’abord, il est aisé de vérifier que pour
2i−1
nk+1 et n2i i i
k+1 , et il existe ζ ∈ (γk \ ϕk ) tout ensemble d’intervalles Z, max⊆ (Z) = Z.
2i−1 i i
tel que Ik+1 = [ϕk , γk \ {ζ}] est l’inter- Par conséquent, on a X0 = X. Supposons
2i−1 2i
valle associé à nk+1 , et Ik+1 = [ϕik ∪ maintenant que Xi−1 = X et montrons que
{ζ}, γki ] est l’intervalle associé à n2i
k+1 . Xi = X. Pour toute paire d’intervalles I1 et
Par la suite, on note A(I, X) l’ensemble des I2 , I1 ⊗ I2 ⊆ I1 ∪ I2 . Il est ainsi aisé de véri-
arbres de décomposition possibles de I selon fier que Xi = max⊆ (Xi−1 ∪ Y ) = Xi−1 ∪ Y =
X. Xi−1 = X.
Par construction, notons que pour tout La deuxième propriété du lemme découle
arbre de décomposition A ∈ A(I, X) et simplement de l’étape 7 de l’algorithme
tout nœud nik ∈ A, si nik a deux fils, alors NOYAUX. En effet, si I ∈ S(Xi ), alors I ∈
2i−1
Iki = Ik+1 2i
∪ Ik+1 . De plus, I est égal à l’union S(Xi ∪ Y ). Par conséquent, comme Xi+1 =
des intervalles des feuilles de A, tous ces max⊆ (Xi ∪ Y ), on a I ∈ S(Xi+1 ). Par récur-
intervalles étant disjoints. Un exemple d’arbre rence, il en découle que I ∈ S(Xj ) pour tout
de décomposition est donné sur la Figure 1. j > i.

La racine d’un arbre binaire étant de ni-


veau zéro, la hauteur de l’arbre correspond au
nombre de niveaux augmenté d’une unité. Le
second lemme s’énonce alors comme suit :

Lemme 2. Soient X un ensemble d’inter-


valles, un noyau N ∈ N (X) et A ∈ A(N, X)
un arbre de décomposition de A de hauteur
K + 1. Si Zk est l’ensemble des intervalles de
niveau k de A, alors Zk contient uniquement
I = (I21 ∪ (I33 ∪ I34 )) ∪ (I23 ∪ (I37 ∪ I38 )) des sous-intervalles d’intervalles de l’ensemble
XK−k construit par l’algorithme NOYAUX
i.e.
Fig. 1 – Arbre de décomposition d’un noyau Zk ⊆ S(XK−k ) (Pk )

Dans le Lemme 1, on énonce deux propriétés De plus, N appartient à XK .


Démonstration. Démontrons ce lemme par Z0 = {I01 = N } ⊆ S(XK ), ce qui signifie qu’il
induction en commençant par vérifier que existe I ∈ XK tel que N ⊆ I. Par ailleurs,
la propriété PK est vraie. Par définition, d’après le Lemme 1, on a I ⊆ X. Comme N
tous les intervalles des feuilles d’un arbre est un noyau (ce qui signifie qu’il est maxi-
de décomposition d’un intervalle sont des mal dans X), il en découle nécessairement que
éléments de S(X), donc de S(X0 ), ce qui I = N et donc que N appartient à XK .
montre que ZK ⊆ S(X0 ) et que PK est vraie.
Le Lemme 2 montre que tout noyau est
construit si l’algorithme NOYAUX effectue
Supposons maintenant que la propriété
un nombre suffisant d’itérations. Le Lemme 3
Pk+1 est vraie, et montrons que Pk est vraie.
montre que l’algorithme NOYAUX ne peut
Soit Iki ∈ Zk , on distingue deux cas de figure :
pas s’arrêter prématurément.
1. Si Iki est une feuille de l’arbre de dé- Lemme 3. L’algorithme NOYAUX est tel que
composition A de N , cela signifie que Iki pour tout noyau N , si N n’appartient pas à Xi
est un sous-intervalle d’un intervalle de alors l’algorithme ne s’arrête pas, i.e s’il existe
X, donc de X0 . Par conséquent, d’après N ∈ N (X) tel que N ∈ / Xi , alors Xi 6= Xi−1 .
le Lemme 1, on en déduit que Iki ∈
S(XK−k ). Démonstration. Il est aisé de vérifier que si
un noyau est construit par NOYAUX, alors
2. Si Iki n’est pas une feuille de l’arbre de il ne peut être supprimé aux itérations sui-
2i−1
décomposition A de N , alors Iki = Ik+1 ∪ vantes. Par conséquent, si N est un noyau tel
2i
Ik+1 . Comme Pk+1 est vraie, on a : que N ∈ / Xi , alors on a également N ∈ / Xi−1 .
2i−1
– Ik+1 ⊆ J1 avec J1 ∈ XK−(k+1) , et Soit A un arbre de décomposition de N se-
2i
– Ik+1 ⊆ J2 avec J2 ∈ XK−(k+1) . lon Xi−1 . Puisque N ∈ / Xi−1 , cet arbre pos-
De plus J1 6⊆ J2 et J2 6⊆ J1 . sède nécessairement deux feuilles de même
2i−1 2i
On peut maintenant distinguer les deux père. Soient Ik+1 et Ik+1 les intervalles as-
sous-cas suivants : sociés à ces deux feuilles. Par définition de
– Si Iki n’est pas inclus dans J1 et J2 , alors A, le père des deux feuilles est associé à l’in-
2i−1 2i
d’après la Propriété 3, on a : Iki ⊆ J1 ⊗ tervalle Iki = Ik+1 ∪ Ik+1 . De plus, il existe
2i−1
J2 ou Iki ⊆ J2 ⊗ J1 , ce qui montre en I1 et I2 dans Xi−1 tels que Ik+1 ⊆ I1 et
2i
examinant l’étape 5 de NOYAUX que Ik+1 ⊆ I2 . Lors de la construction de Xi à par-
Iki sera un sous-invervalle de XK−k . tir de Xi−1 , I1 ⊗ I2 est ajouté à Y à l’étape 5
– Si Iki est inclus dans J1 ou J2 qui sont de NOYAUX. Par conséquent, il existe I ∈ Xi
des éléments de XK−(k+1) , on a Iki ∈ tel que Iki ⊆ I1 ⊗ I2 ⊆ I. Comme I ne peut
S(XK−(k+1) ). Par conséquent, d’après appartenir à Xi−1 (sinon Iki serait une feuille
le Lemme 1, on a Iki ∈ S(XK−k ). de A), il en découle que Xi 6= Xi−1 , ce qui
termine la preuve du Lemme 3.
En résumé, on vient de montrer que tout
intervalle Iki de Zk appartient à S(XK−k ), ce En utilisant les Lemmes 1, 2 et 3, on peut
qui montre que la propriété Pk est vraie et maintenant prouver le théorème suivant.
termine la preuve de la première partie du Théorème 1. L’algorithme NOYAUX est
Lemme 2. complet, correct et se termine au bout d’un
nombre d’itérations borné par :
Démontrons maintenant que N ∈ XK .
D’après la première partie du Lemme 2, on a max { min (hauteur(A))}
N ∈N (X) A∈A(N,X)
Démonstration. La complétude de NOYAUX construction, grâce à une décomposition
découle directement des Lemmes 2 et 3 qui en composantes connexes de l’ensemble des
montrent que tous les noyaux sont construits. intervalles candidats.
De plus, le Lemme 2 montre que le nombre
d’itérations nécessaires pour déterminer tout 5.1 Réduction de l’espace de recherche
noyau N est borné par hauteur(A) où A est Soit L un ensemble de motifs et X ⊆ Int(L)
n’importe quel arbre de décomposition de N tel que X = L. En vue d’obtenir une repré-
selon X. Par conséquent, il existe un entier sentation minimale de L basée sur X, les
i ≤ maxN ∈N (X) {minA∈A(N,X) (hauteur(A))} Propriétés 4 et 5 suivantes permettent de
tel que N (X) ⊆ Xi . réduire l’espace de recherche.
L’étape 7 de NOYAUX implique que Xi ne
peut contenir que des intervalles maximaux. Intuitivement, deux types d’intervalles
Par conséquent, on a N (X) = Xi , ce qui peuvent simplifier la résolution du problème :
montre que NOYAUX est correct. Enfin, il (1) ceux qui appartiennent obligatoirement à
est aisé de vérifier que si Xi = N (X), alors la représentation minimale cherchée (élagage
Xi+1 = Xi . En effet, tous les intervalles insé- positif ) et (2) ceux que l’on peut éliminer
rés dans Y lors de la construction de Xi+1 sont tout en garantissant l’obtention finale d’une
nécessairement inclus dans un noyau. On en représentation minimale basée sur X (élagage
déduit ainsi que NOYAUX s’arrête toujours négatif ). Ces deux catégories d’intervalles
au bout d’un nombre fini d’itérations. correspondent respectivement aux intervalles
essentiels, formalisés ci-dessous par la Pro-
5 Construction d’une représen- priété 4, et aux intervalles superflus (cf.
tation minimale Propriété 5). Dans ces deux propriétés, X est
un ensemble initial d’intervalles de motifs tel
Dans cette section, nous donnons un algo-
que X correspond aux motifs à condenser et
rithme de construction d’une représentation
Y une partie de la représentation minimale
minimale basée sur un ensemble d’intervalles
basée sur X en construction.
quelconque. Ainsi, nous pouvons déterminer
une représentation minimale d’un ensemble de
Soit X un ensemble d’intervalles de motif et
motifs L basée sur l’ensemble de ses noyaux
ϕ ∈ X. Notons X/ϕ = {I ∈ X | ϕ ∈ I}.
N (L) obtenu avec l’algorithme NOYAUX de
la section précédente. Propriété 4 (Intervalle essentiel). Soient X,
Y deux ensembles d’intervalles et un motif
Nous commençons par établir deux proprié- ϕ ∈ X\Y . Si X/ϕ = {I}, alors l’intervalle
tés des intervalles de motifs (donc également I est dit essentiel relativement à X ∪ Y . De
applicables aux noyaux) permettant de plus, il appartient à toute représentation mi-
réduire assez efficacement le nombre d’in- nimale de X ∪ Y basée sur X ∪Y et contenant
tervalles candidats. Ensuite, un algorithme Y.
de type séparation et évaluation (branch
and bound ) qui construit une représentation Démonstration. Soient X et Y deux en-
minimale basée sur un ensemble d’intervalles sembles d’intervalles et un motif ϕ ∈ X\Y
fourni en entrée, est proposé. Dans la der- tel que X/ϕ = {I}. Soit Z ⊇ Y une représen-
nière partie de cette section, nous donnons tation minimale de X ∪ Y basée sur X ∪ Y .
une propriété permettant d’optimiser cette Comme ϕ ∈ X ∪ Y , au moins un intervalle de
X ou Y doit couvrir ϕ. Or par définition de 3. il existe j < k tel que Ik \Y = Ij \Y .
ϕ, aucun intervalle de Y ne le couvre. Donc,
au moins un intervalle de X doit le couvrir. Démonstration. Soient X = {I1 , . . . , In }, Y
Comme I est le seul intervalle le couvrant, on deux ensembles d’intervalles et Ik ∈ X. Soit
a nécessairement I ∈ Z. Z une représentation minimale de X ∪ Y ba-
sée sur X ∪ Y telle que Y ⊆ Z.
La Propriété 4 montre que si le motif Cas 1 : on a Ik ⊆ Y . Posons Y ′ = Z\{Ik }.
ϕ ∈ X\Y n’est couvert que par un seul Alors, on a Y ⊆ Y ′ ⊆ (X\Ik ) ∪ Y et Y ′ =
intervalle de X alors cet intervalle appartient (X\Ik ) ∪ Y = X ∪ Y car Ik ⊆ Y . On a
à toutes les représentations minimales de donc |Y ′ | ≤ |Z|. Or Z est une représentation
X ∪ Y basées sur X ∪ Y contenant Y . minimale de X ∪ Y basée sur X ∪ Y , donc
|Z| ≤ |Y ′ |. On en déduit que |Z| = |Y ′ | et
La Propriété 5 indique trois configurations Y ′ est une représentation minimale de X ∪ Y
dans lesquelles éliminer un intervalle I, dit in- basée sur (X\Ik ) ∪ Y .
tervalle superflu, n’empêche pas de pouvoir Cas 2 : il existe j 6= k tel que Ik \Y ⊂ Ij \Y .
compléter Y afin d’obtenir une représentation Si Ik 6∈ Z, on peut directement conclure que
minimale de X ∪ Y basée sur X ∪Y . Elles cor- Z est une représentation minimale de X ∪ Y
respondent aux cas suivants : basée sur X \ {Ik } ∪ Y telle que Y ⊆ Z ⊆
1. L’intervalle I est déjà couvert par un ou ((X\Ik ) ∪ Y ). Sinon, on a Ik ∈ Z et on pose
plusieurs intervalles de la représentation Y ′ = Z\{Ik } ∪ {Ij }. On vérifie alors que Y ⊆
partielle Y . Il n’y a donc aucun intérêt à Y ′ ⊆ (X\Ik ) ∪ Y . On a Y ′ = Z\{Ik } ∪ {Ij } ⊇
ajouter I à Y . Z car Ik \Y ⊂ Ij \Y . Or, comme Z = X ∪ Y et
2. La partie non couverte d’un intervalle Ii Y ′ ⊆ X ∪ Y , on en conclut que Y ′ = X ∪ Y .
est couverte par un autre intervalle Ij plus Enfin, comme Z est une représentation mini-
grand. Plutôt que d’ajouter Ii à Y , il sera male de X ∪ Y basée sur X ∪ Y et que Y ′ est
toujours plus intéressant d’ajouter Ij qui de même taille que Z, Y ′ est également une
couvre plus de motifs. représentation minimale de X ∪ Y basée sur
(X\Ik ) ∪ Y .
3. Deux intervalles couvrent exactement les
Cas 3 : un raisonnement similaire au cas 2
mêmes motifs. Par conséquent, l’un des
permet de démontrer le cas 3.
doublons peut être éliminé sans affecter
la construction d’une représentation mi- 5.2 Algorithme de construction d’une re-
nimale. présentation minimale
Etant donné L un ensemble de motifs et
Propriété 5 (Intervalle superflu). Soient
X ⊆ Int(L) tel que X = L. Cette section
X = {I1 , . . . , In }, Y deux ensembles d’inter-
présente l’algorithme MINIMAL (cf. Algo-
valles et un intervalle Ik ∈ X. Pour toute
rithme 2) qui construit récursivement une
représentation minimale Z basée sur X ∪ Y
représentation minimale de L basée sur X,
contenant Y , il existe une représentation mi-
avec une méthode de type branch and bound.
nimale Y ′ basée sur (X\Ik ) ∪ Y contenant Y
telle que Z = Y ′ si l’une des propriétés sui-
Plus précisément, MINIMAL prend trois
vantes est vérifiée :
arguments en entrée : l’ensemble des inter-
1. Ik ⊆ Y , valles X restant à couvrir, Y une partie de la
2. il existe j 6= k tel que Ik \Y ⊂ Ij \Y , représentation minimale de X ∪ Y basée sur
Algorithme 2 MINIMAL (X, Y, α) principales : une phase d’élagage pour réduire
Entrée : X = {I1 , . . . , In } ensemble des in- l’espace de recherche correspondant aux lignes
tervalles candidats, Y une partie de la 1 et 8, une phase d’arrêt (lignes 9 et 10) et
représentation minimale basée sur X en une phase exploratoire (lignes 11 à 18).
construction, α > |X| taille maximale de
la représentation recherchée Dans un premier temps, la phase d’élagage
Sortie : Ymin une représentation minimale de est répétée tant que le cardinal de X diminue
X basée sur X grâce aux Propriétés 4 (ligne 4) ou 5 (lignes 5-
// Elagage de l’espace de recherche 7). Les trois cas d’intervalles superflus sont
1: Xanc = ∅ repris, dans l’ordre, entre les lignes 5 à 7. Par
2: while X 6= Xanc do ailleurs, chaque intervalle ajouté à Y (ligne 4)
3: Xanc = X est de suite retiré de X (ligne 5).
4: Y = Y ∪ {Ik ∈ X|∃ϕ ∈ X\Y :
X/ϕ = {Ik }} Ensuite, MINIMAL s’arrête si la représen-
5: X = X\{Ik ∈ X|Ik ⊆ Y } tation en construction Y n’est pas de taille
6: X = X\{Ik ∈ X|∃j 6= k : satisfaisante puisqu’elle possède plus de α
Ik \Y ⊂ Ij \Y } intervalles (ligne 9). Cet échec se traduit par
7: X = X\{Ik ∈ X|∃j < k : le renvoi de l’ensemble vide. Au contraire, si
Ik \Y = Ij \Y } X est vide (ligne 10), cela signifie que tous les
8: od motifs sont couverts et par conséquent, MI-
// Conditions d’arrêt NIMAL retourne la représentation minimale
9: if |Y | ≥ α then return ∅ de X basée sur X.
10: if X = ∅ then return Y
// Exploration de l’espace de recherche Enfin, la phase d’exploration appelle récursi-
11: Ymin = ∅ vement MINIMAL, pour chaque intervalle Ik
12: for all Ik ∈ X do de X, en ajoutant Ik à Y . Le test (ligne 14)
13: Ycur =MINIMAL (X\{Ik }, Y ∪ {Ik }, α) garantit la conservation de la plus petite
14: if Ycur 6= ∅ and |Ycur | < α then représentation retournée. Par ailleurs, on
15: Ymin = Ycur prend soin de mettre à jour α (ligne 16) pour
16: α = |Ycur | améliorer l’élagage de l’espace de recherche.
17: end if
18: end for A la fin, la meilleure représentation (i.e celle
19: return Ymin contenant le moins d’intervalles) est retournée
ligne 19. On notera que cette dernière est égale
à l’ensemble vide lorsqu’aucune représentation
X ∪ Y en cours de construction et la taille de taille plus petite que α et contenant Y ne
maximale α d’une représentation minimale peut être trouvée.
de X ∪ Y basée sur X ∪ Y . Il retourne alors
soit une représentation Z de taille minimale Exemple 4. Partant de l’ensemble des
couvrant X ∪ Y (où Y ⊆ Z et |Z| < α), soit noyaux obtenus à l’Exemple 3, MINIMAL
l’ensemble vide (i.e., échec dans la construc- renvoie la représentation concise suivante :
tion d’une représentation minimale). Y = {[A, ABC], [C, ABC], [BDE, BCDEF ],
[D, AD] }. Ici, le noyau [A, AD] est superflu.
MINIMAL est composé de trois phases Le résultat suivant montre que
l’Algorithme 2 est correct : arêtes. La Propriété 6 montre que la construc-
tion d’une représentation minimale de L basée
Théorème 2 (Correction). Soit X un en- sur X peut s’effectuer séparément sur chaque
semble d’intervalles et α > |X| un nombre composante connexe du graphe G associé à X,
entier. MINIMAL (X, ∅, α) retourne une re- sans altérer le résultat final.
présentation minimale de l’ensemble de motifs
X basée sur X. Propriété 6 (Décomposition en composantes
connexes). Soit X = X1 ∪ · · · ∪ Xk , vérifiant
Démonstration. Soit un ensemble d’intervalles pour tout i 6= j, Xi ∩ Xj = ∅, la décomposi-
X. Dans un premier temps, ignorons les lignes tion en composantes connexes d’un ensemble
1 à 8. Intuitivement, l’Algorithme 2 corres- de motifs. Alors l’union des représentations
pondrait alors à un algorithme branch and minimales des Xi basées sur les ensembles Xi
bound qui énumère en profondeur tous les est une représentation minimale de X basée
sous-ensembles de X pour trouver une repré- sur X.
sentation minimale Ymin de X basée sur X.
Lors de la phase d’élagage de l’espace de re- Démonstration. Soit X = X1 ∪ · · · ∪ Xk , véri-
cherche MINIMAL ajoute dans Ymin les inter- fiant pour tout i 6= j, Xi ∩ Xj = ∅, la décom-
valles essentiels et retire de X les intervalles position en composantes connexes d’un en-
superflus. Malgré cet élagage, à chaque étape, semble d’intervalles. Pour tout i ∈ {1, . . . , k},
les Propriétés 4 et 5 garantissent que Ymin soit Yi une représentation minimale de Xi ba-
demeure une représentation minimale de X. sée sur Xi . Posons Y = Y1 ∪ · · · ∪ Yk . Tout
L’Algorithme 2 atteint donc cette solution et d’abord, on a Y1 ∪ · · · ∪ Yk = X1 ∪ . . . ∪Xk .
la retourne. Or, par définition des composantes connexes
Xi , on a X1 ∪ · · · ∪ Xk = X. On a donc
Nous avons déja signalé que toute repré- Y = Y1 ∪ · · · ∪ Yk = X. Maintenant, sup-
sentation minimale d’un ensemble de motifs posons que Y ne soit pas une représentation
L basée sur l’ensemble de ses noyaux est de X basée sur X de cardinalité minimale.
également une représentation minimale de L. Alors, il existe Y ′ , une représentation mini-
Aussi, pour en déterminer une, au lancement male de X basée sur X telle que |Y ′ | < |Y |.
de MINIMAL, il suffit que X coı̈ncide avec Il s’en suit qu’il existe l ∈ {1, . . . , k} tel que
l’ensemble N (L) de tous les noyaux de L, que |Y ′ ∩ Xl | < |Yl |. Comme aucune autre compo-
l’ensemble Y soit vide et α choisi strictement sante connexe de X ne peut couvrir Xl , Y ′ ∩Xl
supérieur à |X|. On obtient alors une repré- couvre entièrement Xl . Ce qui est impossible
sentation minimale de l’ensemble de motifs L. car Yl est alors une représentation minimale
et pourtant elle est de taille strictement supé-
5.3 Optimisation de la recherche d’une rieure. D’où la Propriété 6.
représentation minimale
Soit L ⊆ L un ensemble de motifs et X ⊆ Dans la Propriété 6, comme les ensembles
Int(L) tel que X = L. Posons : d’intervalles Xi correspondent aux compo-
santes connexes de X, on notera qu’aucun in-
F = {(Ij , Ik ) ∈ X × X | Ij ∩ Ik 6= ∅} tervalle ne peut empiéter sur des intervalles
de deux composantes connexes distinctes. Ce
Considérons G = (X, F), le graphe non qui permet de subdiviser la construction d’une
orienté associé à L, dont les sommets sont représentation minimale basée sur X, et donc
les intervalles de X et F l’ensemble de ses facilite la résolution du problème.
Données N K KΦ KΓ a b ε
Mushroom 50 40 à 120 0 40 0.4 0.6 10%
Connect-4 50 40 à 110 0 30 0.5 0.6 5%
Pumsb 50 200 à 7000 0 200 0.01 0.05 10%
Pumsb* 50 200 à 7000 0 200 0.01 0.05 10%

Fig. 2 – Données et paramètres des tests expérimentaux.

Exemple 5. L’ensemble des noyaux de tive IncMiner permet de générer des requêtes
W
l’ensemble de motifs L considéré dans inductives booléennes de la forme : q = N i=1 qi
l’Exemple 1 est constitué de deux compo- où chaque qi est une requête conjonctive de la
santes connexes. On peut en effet voir que forme :
N (L) peut s’écrire comme la réunion dis- qi (ϕ, D) = (Φi ⊆ ϕ ⊆ Γi ) ∧
jointe des sous-ensembles de noyaux N1 = sup(ϕ, D) ∈ [ai , bi ]
{[A, ABC], [C, ABC], [A, AD], [D, AD]} et
N2 = {[BDE, BCDEF ]}. où :
– Φi et Γi sont des itemsets constants ti-
MINIMAL renvoie alors les représentations rés aléatoirement de l’ensemble des items
concises Y1 = {[A, ABC], [C, ABC], [D, AD]} Items. Plus précisément, étant donné
et Y2 = N2 . Leur réunion donne bien trois paramètres KΦ , KΓ et K du généra-
la représentation minimale Y obtenue dans teur de requêtes tels que KΦ ≤ KΓ ≤ K,
l’Exemple 4. les itemsets constants Φi et Γi sont ti-
rés aléatoirement dans un sous-ensemble
6 Expérimentations de taille K de Items tels que Φi ⊆ Γi ,
Les algorithmes que nous avons proposés |Φi | = KΦ et |Γi | = KΓ . Notez que si
aux Sections 4 et 5 ont été implémentés en KΓ = K, alors tous les itemsets constants
C++. Dans cette section, nous décrivons Γi seront égaux. Par ailleurs, pour KΓ
d’abord le cadre expérimental adopté. En- constant, si K augmente, alors la proba-
suite, nous donnons les résultats obtenus. bilité que Γi ∩ Γj (i 6= j) soit non vide
diminue.
6.1 Cadre expérimental – sup est la fonction classique de support,
|{ϕ′ ∈D | ϕ⊆ϕ′ }|
Dans nos expériences, nous utilisons le i.e. sup(ϕ | D) = |D|
.
système d’extraction itérative IncMiner pré- – ai et bi sont des seuils minimaux
senté dans [14] afin de générer des requêtes et maximaux de supports tirés aléa-
inductives complexes et de calculer leurs toirement. Plus précisément, étant
ensembles solutions. Ces derniers sont ensuite donnés les trois paramètres a, b et
utilisés en entrée des algorithmes NOYAUX ε du générateur de requête, ai et
et MINIMAL, afin d’évaluer la pertinence de bi sont tirés aléatoirement tels que
notre approche pour condenser des représen- 0 ≤ ai ≤ bi ≤ 1, (1 − ε)a ≤ ai ≤ (1 + ε)a
tations de réponses à des requêtes inductives. et (1 − ε)b ≤ bi ≤ (1 + ε)b.

Plus précisément, étant donné un ensemble Notons que chaque requête qi est la conjonc-
d’items Items, le système d’extraction itéra- tion d’une requête motonone (Φi ⊆ ϕ) ∧
K |X| |N (X)| |Ymin | gain % K |X| |N (X)| |Ymin | gain %
40 12 3 3 75 200 42 26 23 45
45 46 15 11 76 400 365 100 73 80
50 73 15 11 84 600 410 224 190 53
55 89 19 14 84 800 494 387 305 23
60 204 26 20 90 1000 473 337 316 33
70 297 56 36 87 2000 474 396 377 35
80 274 77 55 79 3000 515 463 418 18
90 299 94 74 75 4000 485 415 398 17
100 279 78 57 79 5000 699 679 587 16
110 313 137 86 72 6000 428 388 372 13
120 243 127 99 59 7000 523 484 466 10

Fig. 3 – Résultats avec Mushroom. Fig. 5 – Résultats avec Pumsb.

K |X| |N (X)| |Ymin | gain %


40 44 7 7 84 K |X| |N (X)| |Ymin | gain %
45 154 20 16 89 200 21 17 17 66
50 173 119 59 65 400 88 41 40 54
60 175 153 89 49 600 146 85 75 48
70 207 202 108 47 800 167 108 92 44
80 329 434 236 28 1000 219 150 128 41
85 536 623 354 33 2000 365 299 277 24
90 380 506 296 22 3000 385 332 319 17
95 722 680 426 40 4000 408 352 345 15
100 675 765 444 34 5000 419 369 358 14
110 654 727 438 33 6000 508 456 428 15
7000 459 422 416 9
Fig. 4 – Résultats avec Connect-4.
Fig. 6 – Résultats avec Pumsb*.

(sup(ϕ, D) ≤ bi ) et d’une requête anti-


monotone (ϕ ⊆ Γi ) ∧ (ai ≤ sup(ϕ, D)). Par
constant, en augmentant la valeur de K, on
conséquent, la réponse T h(qi ) à une requête qi
diminue la probabilité que les solutions des
est un espace de versions, représentable par
requêtes qi soient disjointes.
l’ensemble d’intervalles Xi = {[ϕ, γ] | ϕ ∈
G(qi ) ∧ γ ∈ S(qi )} où G(qi ) = min(T h(qi ))
et S(qi ) = max(T h(qi )) sont respectivement Dans les expérimentations réalisées à la sec-
les frontières basse et haute de T h(qi ). tion suivante, pour différents jeux de données
De manièreW générale, la réponse à une et valeurs de paramètres du générateur de re-
requête q = N i=1 qi n’est pas un espace de quêtes q, on évalue la taille des représentations
versions, mais un espace de versions généra- minimales obtenues par rapport à la taille de
lisé [25]. Par ailleurs, pour le paramètre KΓ l’ensemble d’intervalles X = ∪N i=1 Xi .
6.2 Résultats des tests sentations minimales et des ensembles d’inter-
Nous avons généré des résultats de re- valles de départ, on constate en général des
quêtes complexes pour réaliser des tests sur gains de compression souvent assez élevés.
quatre bases de données transactionnelles
(Mushroom, Pumsb, Pumsb* et Connect-4 ) 7 Conclusion
du répertoire du workshop FIMI’2003 1 . Nous avons présenté dans cet article la
notion de représentation minimale par des
La figure 2 récapitule les paramètres utilisés intervalles qui est une forme de représenta-
sur chacune des bases de données considérées. tion condensée d’un ensemble quelconque
On notera que seul le paramètre K varie pour de motifs. Pour obtenir ces représentations,
une même base de données. notre approche basée sur deux étapes com-
mence par construire les noyaux qui sont les
Les tableaux 3, 4, 5, 6 reportent les résul- intervalles maximaux inclus dans l’ensemble
tats des tests effectués pour chaque base de de motifs considéré. Ensuite, un second
données en fonction de la variation de K. algorithme sélectionne une partie de ces
Dans ces tableaux, le gain en compression est noyaux afin de constituer une représentation
le rapport |X|−|Y
|X|
min |
traduisant la proportion minimale de l’ensemble de motifs considéré.
des intervalles initiaux qui a été réduite. Les expérimentations démontrent que les
représentations minimales contiennent très
On observe que le nombre de noyaux est peu de noyaux par rapport à l’ensemble initial
souvent inférieur (et parfois très inférieur) au d’intervalles.
nombre d’intervalles de départ. En d’autres
termes, l’étape de construction des noyaux Dans nos travaux à venir, nous voudrions
élimine déjà des redondances présentes entre approfondir les expérimentations en calculant
les différents intervalles. Ce phénomène des représentations minimales de résultats
s’accentue particulièrement sur des ensembles de requêtes sur des bases de données réelles.
d’intervalles conséquents. Par exemple, pour A terme, nous sommes très intéressés par
K = 60 sur Mushroom, les 204 intervalles sont l’utilisation de ces représentations minimales
transformés en seulement 26 noyaux. Néan- avec des intervalles dans un cadre itératif.
moins, il peut arriver des cas où le nombre En particulier, nous avons l’intention de
de noyaux dépasse le nombre d’intervalles calculer la réponse d’une nouvelle requête
de départ. C’est le cas sur Connect-4, pour en exploitant des représentations minimales
K = 80, 85, 90, 100, 110. Cela dépend donc des précédemment calculées.
transactions des bases de données rencontrées.
Remerciements. M. L. Balde a bénéficié d’un
Bien entendu, la taille des représentations financement du projet SARIMA/LANI/INRIA et
minimales est toujours inférieure (ou égale) au remercie le Professeur Mary Teuw Niane de l’Uni-
nombre des noyaux. L’une des plus fortes com- versité Gaston Berger de Saint-Louis (Sénégal).
pressions constatées est la taille de seulement
59 noyaux pour la représentation minimale de Références
Connect-4, lorsque K = 50, en partant de 119 [1] R. Agrawal and R. Srikant. Fast algorithms
noyaux. En comparant les tailles des repré- for mining association rules in large data-
bases. In Proceedings of 20th International
1
Consulter http://fimi.cs.helsinki.fi/. Conference on Very Large Data Bases, Sep-
tember 12-15, pages 487-499, Morgan Kauf- In Proc. 20ème Journées Bases de Données
mann, 1994. Avancées BDA’2004, Montpellier (France),
[2] Y. Bastide, R. Taouil, N. Pasquier, G. pages 535-554, Novembre 2004.
Stumme and L. Lakhal. Levelwise search of [11] A. Casali, R. Cicchetti, L. Lakhal et S.
frequent patterns with counting inference. In Lopes. Couvertures parfaites des motifs fré-
16èmes journées de bases de données avan- quents. Numéro thématique Base de données
cées, 2000. avancées pour XML et le web de la revue
[3] J.-F. Boulicaut and A. Bykowski. Frequent Ingénierie des Systèmes d’Information (ISI),
closures as a concise representation for bi- 10(2) :117-138, 2005.
nary data mining. In Lecture Notes in Arti- [12] C. T. Diop. Etude et mise en oeuvre des as-
ficial Intelligence, PaKDD’00, volume 1805, pects itératifs de l’extraction de règles d’as-
pages 62-73, Kyoto(Japan), April 18-20, sociation dans une base de données. Thèse de
Springer-Verlag, 2000. Doctorat, Université de Tours, France, 2003.
[4] J.-F. Boulicaut, A. Bykowski and C. Rigotti. [13] M. R. Garey and D. S. Johnson. Computers
Free-sets : a condensed representation of boo- and Intractability : A Guide to the Theory
lean data for the approximation of frequency of NP-Completeness, Freeman, New York,
queries. Data Mining and Knowledge Disco- 1979.
very, 7 (1), 5-22, 2003. [14] A. Giacometti. Une contribution au dévelop-
pement de base de données inductives. Rap-
[5] C. Bucila, J. Gehrke, D. Kifer, and W. M.
port d’Habilitation à Diriger des Recherches,
White. Dualminer : A dual-pruning algo-
Laboratoire d’informatique (LI), Université
rithm for itemsets with constraints. Data Mi-
François-Rabelais de Tours, 2005.
ning and Knowledge Discovery, 7(3) : 241-
272, 2003. [15] A. Giacometti, D. Laurent, and C. T. Diop.
Condensed representations for sets of mining
[6] A. Bykowski and C. Rigotti. A condensed
queries. In First ECML/PKDD-2002 Inter-
representation to find frequent patterns. In
national Workshop on Knowledge Discovery
PODS Int. Conf. Principles of Database Sys-
in Inductive Databases (KDID02), pages 5-
tems, 2001.
19, 2002.
[7] B. A. Davey and H. A. Priestley. Introduc- [16] A. Giacometti, D. Laurent, and C. T. Diop.
tion to lattices and order, Cambridge Uni- Condensed representations for sets of mining
versity Press, second edition, 2002. queries. In P.L. Lanzi and R. Meo, editors,
[8] T. Calders et B. Goethals. Mining all non- Database Support for Data Mining Applica-
derivable frequent itemsets. In Proceedings of tions, LNCS 2682, pages 250-269. Springer
the 6th European Conference on Principles Verlag, 2004.
and Practice of Knowledge Discovery in Da- [17] A. Giacometti, D. Laurent, and C. T. Diop.
tabases, PKDD 2002, LNCS, volume 2431, Iterative computation of mining queries ba-
pages 74-85, Springer 2002. sed on condensed representations. In 19ièmes
[9] T. Calders et B. Goethals. Minimal k-free journées de Bases de Données Avancées
representations of frequent sets. In Proc. of (BDA2003), pages 187-206, 2003.
the 7th European Conference on Principles [18] C. A. Gunter, T.-H. Ngair, and D. Subrama-
and Practice of Knowledge Discovery in Da- nian. The common order-theoretic structure
tabases, PKDD 2003, LNCS, volume 2838, of version spaces and ATMS’s. Artificial In-
pages 71-82, Springer, 2003. telligence, 95(2) :357-407, 1997.
[10] A. Casali, R. Cicchetti, L.Lakhal et S. Lopes. [19] H. Hirsh. Generalizing Version Spaces. Ma-
Motifs essentiels et inférence des fréquences. chine Learning, Vol. 17(1) : 5-46, 1994.
[20] H. Hirsh. Theoretical underpinnings of ver- [30] T. Mitchell. Version Spaces : An Approach
sion spaces. In Proc. of the 12th Interna- to Concept Learning. PhD thesis, Stanford
tional Joint Conference on Artificial Intelli- University, 1978.
gence, Morgan Kaufmann, 1991. [31] T. Mitchell. Generalization as Search. Arti-
[21] T. Imielinski and H. Mannila. A database ficial Intelligence, Vol. 18 (2), pp. 203-226,
perspective on knowledge discovery. Coomu- 1980.
nications of the ACM, 39 (11) : 58-64, No- [32] T. Mitchell. Machine Learning. McGraw-
vember 1996. Hill, 1997.
[22] B. Jeudy, J.-F. Boulicaut. Using conden- [33] B. Nag, P. Deshpande and D.J. DeWitt.
sed representations for interactive associa- Using a knowledge cache for interactive dis-
tion rule mining. In Proc. of ECML/PKDD covery of association rules. In Proc. of
2002, Helsinki, LNAI vol. 2431, pp. 225-236, KDD’99, pp. 244-253, San Diego, USA, 1999.
Springer-Verlag, 2002.
[34] N. Pasquier, Y. Bastide, R. Taouil and L.
[23] M. Kryszkiewicz. Concise representation of Lakhal. Discovering frequent closed itemsets
frequent patterns bases on disjunction-free for association rules. In ICDT’99 : Procee-
generators. In IEEE Int., Conf., on Data Mi- ding of the 7th International Conference on
ning, pages 305-312, 2001. Database Theory, pages 398-416. Springer-
[24] S. D. Lee, L. De Raedt. An algebra for in- Verlag, 1999.
ductive query evaluation. In Proceedings of [35] L. De Raedt and S. Kramer. The levelwise
the 2nd International Workshop on Know- version space algorithm and its application to
ledge Discovery in Inductive Databases molecular fragment finding. In Proceedings
(KDID’03), 2003. of the Seventeenth International Joint Confe-
[25] S. D. Lee. Constrained mining of patterns rence on Artificial Intelligence, pages 853-
in large databases. PhD Thesis, Albert- 862. Morgan Kaufmann, 2001.
Ludwigs-Universitat, Freiburg im Brisgau, [36] L. De Raedt, M. Jaeger, S.D. Lee, H. Man-
2005. nila. A theory of inductive querying. In Pro-
[26] H. Mannila, H. Toivonen. Multiple uses of ceedings of the 2nd IEEE Conference on
frequent sets and condensed representations. Data Mining, Maebashi, Japan, 2002.
In Proc. of the 2nd International Confe- [37] L. De Raedt. Query evaluation and optimi-
rence on Knowledge Discovery and Data Mi- sation in inductive databases using version
ning (KDD’96), pp. 189-194, Portland, USA, spaces. In Proceedings of the DTDM Work-
1996. shop, EDBT 2002.
[27] H. Mannila and H. Toivonen. Levelwise [38] L. De Raedt. A perspective on inductive da-
search and borders of theories in knowledge tabases. SIGKDD Explorations, 4(2) : 66-77,
discovery, Data Mining and Knowledge Dis- 2002.
covery, Vol. 1(3) : 241-258, 1997.
[39] R. Rymon. Search through Systematic Set
[28] H. Mannila. Inductive databases and conden- Enumeration. In Proc. of Third Int’l Conf.
sed representations for data mining. In on Principles of Knowledge Representation
ILPS’97, pages 21-30, 1997. and Reasoning, 539-550, 1992.
[29] T. Mielikäinen. Summarization Techniques [40] A. Soulet. Un cadre générique de découverte
for Pattern Collections in Data Mining. de motifs sous contraintes fondées sur des
PhD Thesis. Report A-2005-1. Department primitives. Thèse de Doctorat, Université de
of Computer Science, University of Helsinki, Caen Basse-Normandie, France, 2006.
2005.

Das könnte Ihnen auch gefallen