Article BDA2008

Représentation condensée à base d’intervalles d’un
ensemble de motifs
M. L. Balde1,2 , C. T. Diop1,2 , A. Giacometti2 , P. Marcel2 , A. Soulet2
1 LANI - Université Gaston Berger de Saint-Louis 2 LI - Université François-Rabelais de Tours

BP 234 Saint-Louis (Sénégal) 41000 Blois (France)
mlbalde@gmail.com arnaud.giacometti@univ-tours.fr
cdiop@ugb.sn patick.marcel,arnaud.soulet@univ-tours.fr
Résumé représentations minimales à base d’intervalles

et leur important gain en compression.
Les motifs sont à l’origine de nombreuses
découvertes de connaissances dans les bases Mots clés : Fouille de données, représenta-
de données, mais leur nombre, trop important, tions condensées, intervalles de motifs.
limite encore bien souvent leur usage. Afin de
lever cette difficulté, une collection de motifs 1 Introduction
peut être condensée en une représentation La découverte de motifs est l’une des tâches
équivalente, mais de taille inférieure. La les plus utilisées ces dernières années pour
plupart des travaux se focalisent uniquement l’Extraction de Connaissances dans les Bases
sur les représentations condensées de requêtes de Données (ECBD). En effet, les motifs
booléennes monotones et/ou anti-monotones. qui traduisent des relations subtiles entre les
données, permettent d’établir de nouvelles
Dans cet article, nous déterminons un connaissances, et, désormais, de nombreuses
ensemble minimal d’intervalles permettant méthodes existent pour leur extraction, mal-
de représenter de manière compacte et de gré les difficultés algorithmiques inhérentes à
régénérer un ensemble de motifs issu d’une cette tâche. En revanche, les bases de données
requête quelconque. Notre stratégie, pour manipulées ont des volumes de plus en plus
l’obtention de ces représentations minimales importants et les algorithmes de fouille pro-
à base d’intervalles, se déroule en deux étapes. duisent de très grandes collections de motifs.
Dans la première étape, nous calculons les Ces tailles gigantesques limitent encore, bien
intervalles maximaux, appelés noyaux, inclus souvent, l’analyse individuelle de chaque
dans l’ensemble de motifs à condenser. Dans motif et leurs usages pour d’autres tâches
la seconde, une représentation minimale de la automatiques telles que la classification.
collection initiale est déterminée, en choisis-
sant un sous-ensemble des noyaux calculés à Dans le cadre des bases de données induc-
la première étape. Les expérimentations préli- tives [28, 38, 14], le processus d’extraction de
minaires montrent la faisabilité du calcul des connaissances est ramené à l’évaluation de
séquences de requêtes. Une approche itérative cadre théorique des travaux de De Raedt et
pose alors le problème du stockage des ré- al. [35, 36, 37, 38].
ponses aux requêtes déjà posées ainsi que celui
de l’évaluation de nouvelles requêtes. Dans le L’ensemble des travaux actuels se limite
cas de l’extraction de règles d’associations, presque exclusivement aux représenta-
Nag et al. [33], Jeudy et al. [22] ont proposé tions condensées des réponses de requêtes
des solutions basées sur l’utilisation de caches. composées de contraintes monotones et anti-
Giacometti et al. [15, 16, 17] ont également monotones. Dans cet article, nous souhaitons
proposé des solutions utilisant des représenta- aller plus loin en condensant la réponse de
tions condensées, afin de lever ces difficultés n’importe quelle requête. Pour cela, nous nous
dans l’extraction itérative de requêtes. Beau- appuyons sur la notion d’intervalle qui est
coup de travaux [27, 35, 36, 37] ont porté sur une structure de granularité plus fine que les
l’évaluation des requêtes inductives (prédicats espaces de versions. Un intervalle a le double
exprimant des contraintes sur les motifs). avantage d’être une structure compacte et
Ainsi, des solutions, relativement efficaces, générique. En effet, il est seulement constitué
existent lorsque les requêtes sont formées de deux bornes qui résument tous les motifs
de combinaisons booléennes de contraintes plus spécifiques que la première borne et plus
monotones ou anti-monotones par rapport généraux que la seconde. Par ailleurs, les dif-
à la relation de généralisation/spécialisation férents résultats des algorithmes d’extraction
du langage des motifs. Des contraintes syn- de motifs (e.g., motifs simples, intervalles,
taxiques peuvent également être prises en espaces de versions) se modélisent facilement
compte dans la formulation de certaines sous la forme d’ensembles d’intervalles et
requêtes. Dans cette perspective, l’espace de peuvent donc être condensés par notre ap-
recherche est généralement un treillis et les proche.
ensembles solutions sont des sous-ensembles
convexes de celui-ci, correspondant à des
espaces de versions [30, 19, 20, 18]. Dans cet article, nous introduisons la
notion de représentation minimale à base
d’intervalles qui est un ensemble minimal
Le concept d’espace de versions s’est d’intervalles permettant de représenter de
révélé très utile dans la caractérisation des manière compacte et de régénérer un ensemble
ensembles solutions des requêtes formées de motifs issu d’une requête quelconque. Nous
de conjonctions de prédicats monotones et proposons un algorithme efficace dans le cadre
antimonotones [27, 35, 36, 37]. Il permet de des motifs ensemblistes, à chacune des deux
caractériser les motifs intéressants, grâce aux étapes de notre stratégie, pour l’obtention
frontières basses et hautes obtenues à partir de ces représentations minimales. Le premier
d’un élagage efficace de l’espace de recherche. calcule les intervalles maximaux (appelés
Pour une représentation compacte des en- noyaux ) inclus dans l’ensemble de motifs à
sembles solutions de requêtes booléennes condenser. Puis, le second détermine une re-
formées de conjonctions et disjonctions de présentation minimale de la collection initiale,
prédicats monotones et anti-monotones, Sau en choisissant un sous-ensemble de cardinalité
Dan Lee [25] a introduit les espaces de ver- minimale, parmi les noyaux obtenus à la
sions généralisés, fournissant, dans sa thèse, première étape. Les expérimentations menées
une synthèse ainsi qu’une formalisation du sur des données synthétiques montrent non
seulement la faisabilité du calcul mais un gain Définition 1 (Théorie). Soient un prédicat de
en compression avec notre approche. sélection q ∈ Q, un ensemble de motifs L ⊆ L
et un ensemble de données D ∈ D. L’ensemble
Nous introduirons dans la section 2 quelques des motifs de L intéressants dans D relative-
définitions et notations préliminaires et dans ment à q, est appelé théorie de L relativement
la section 3 nous donnons une formulation du à q et D et est noté T h(q, L, D) i.e.
problème. Puis la section 4 sera consacrée à
la construction des noyaux d’un ensemble de T h(q, L, D) = {ϕ ∈ L | q(ϕ, D) = true}
motifs, tandis que dans la section 5, nous four-
nirons un algorithme déterminant une repré- Le prédicat de sélection q représente l’en-
sentation minimale d’une collection de motifs, semble des contraintes que doit respecter
à partir de l’ensemble de ses noyaux. Ensuite, un motif ϕ ∈ L pour être considéré comme
les résultats des expérimentations menées sur intéressant dans D. L’ensemble des motifs de
quelques jeux de données seront présentés à la L satisfaisant le prédicat q dans D est appelé
section 6. La section 7 conclura l’article. réponse ou ensemble solution de q dans D.
2 Contexte et état de l’art Dans ce formalisme, le problème de l’ex-

traction de motifs intéressants se ramène à
L’étude des représentations condensées
un problème de recherche dont l’espace à
commença avec la définition générale pro-
parcourir est l’ensemble L de tous les motifs.
posée par Mannila et Toivonen [26]. Dans
Ce dernier, muni de la relation de généralisa-
cette section, nous rappelons, brièvement, les
tion/spécialisation , aura une structure de
notations de base de leur cadre théorique,
treillis.
ainsi qu’un état de l’art sur les représentations
condensées.
Cet espace est de taille exponentielle (il
existe 2n motifs pour une table possédant
2.1 Notations et définitions n attibuts) or, dans les applications réelles,
Soit : les bases de données possédent souvent des
– Un ensemble D d’ensembles de données. milliers d’attributs. D’où l’impossibilité, en
– Un ensemble de motifs L, muni d’une re- pratique, de le parcourir exhaustivement.
lation d’ordre partielle . Etant donnés Toutefois, certaines propriétés des requêtes
deux motifs ϕ1 et ϕ2 de L, on dit que d’extraction, par rapport à la relation de
ϕ1 est plus général que ϕ2 (ou inverse- généralisation/spécialisation, fournissent
ment que ϕ2 est plus spécifique que ϕ1 ) si des critères d’élagages rendant possible un
ϕ1 ϕ2 . On dit aussi que est une rela- parcours optimisé de l’ensemble des motifs.
tion de généralisation/spécialisation sur
les motifs de L. Pour tout ensemble de données D ∈ D et
– Un ensemble de prédicats de sélection Q. pour tout couple de motifs (ϕ1 , ϕ2 ) ∈ L × L,
Un prédicat de sélection q ∈ Q est une nous dirons qu’un prédicat de sélection q est :
fonction booléenne définie sur L × D. – monotone, si :
Etant donnés un motif ϕ ∈ L et un en- (ϕ1 ϕ2 ∧ q(ϕ1 , D)) ⇒ q(ϕ2 , D) ;
semble de données D ∈ D, on dit que ϕ – anti-monotone, si :
est intéressant dans D relativement à q si (ϕ1 ϕ2 ∧ q(ϕ2 , D)) ⇒ q(ϕ1 , D).
q(ϕ, D) = true.
Apriori [1], le plus célèbre des algorithmes Soit alors L ⊆ L l’ensemble des mo-
d’extraction de motifs fréquents, est une ins- tifs {A, C, D, AB, AC, AD, BC, ABC, BDE,
tance de l’algorithme générique de Mannila et BCDE, BDEF, BCDEF }.
Toivonen [27]. Son efficacité repose, essentiel-
lement, sur l’utilisation de l’anti-monotonie 2.2 Etat de l’art
de la contrainte de fréquence, pour parcourir Différentes sortes de représentations
l’espace de recherche. condensées ont été proposées dans la littéra-
ture. On peut citer, dans le cas le plus étudié
Les représentations condensées fournissent des motifs fréquents, les motifs clés [2] (ou
une solution au problème du grand nombre libres [4] ou générateurs [23]), les fermés [34],
des motifs, dans l’extraction des motifs in- les libres disjonctifs [6], les motifs non dé-
téressants, en permettant l’obtention d’un rivables [8], les motifs k-libres [9]. Casali
sous-ensemble de motifs de taille plus ré- et al. [10, 11] ont dernièrement introduit
duite permettant leur régénération complète. le concept de motif essentiel. Ces travaux
Sans reprendre la définition formelle donnée spécifiques aux requêtes relatives à la fré-
dans [26], nous retiendrons les caractéristiques quence ne peuvent donc pas être exploités
fondamentales des représentations condensées pour condenser la réponse d’une requête
dans la définition suivante : quelconque.
Définition 2 (Représentation condensée). De nombreux travaux portent sur la

Etant donné un ensemble de motifs L ⊆ L. On condensation d’ensembles solutions et les
appelle représentation condensée exacte de L résultats se présentent alors, soit sous forme
tout ensemble X qui est à la fois : de collections de motifs, soit comme des
– succinct : la taille de X est très réduite réunions d’espaces de versions. Les motifs
par rapport à celle de L ; intéressants les plus spécifiques (resp. les plus
– exact : l’ensemble X permet de regénérer généraux) constituent la bordure positive de
tous les motifs de L ainsi que la valeur de l’ensemble solution, pour une requête anti-
toute mesure sur ceux-ci, sans accès aux monotone (resp. monotone). Ces ensembles de
données initiales. motifs suffisent pour regénérer complètement
Dans ce travail, nous ne prendrons pas en les motifs intéressants par rapport à une
compte de mesures associées aux motifs. Nous requête d’extraction monotone ou antimo-
cherchons à condenser la théorie résultante notone. Lorsque celle-ci est une conjonction
d’une requête q quelconque présentée sous q = q1 ∧ . . . ∧ qn où pour tout i ∈ {1, . . . , n}, qi
forme d’une collection de motifs, comme dans est un prédicat monotone ou anti-monotone,
l’exemple suivant : De Raedt et al. [35] montrent que son en-
semble solution est un espace de versions et
Exemple 1. Considérons un ensemble d’ar- donnent un algorithme le calculant. Leurs
ticles, noté Items = {A, B, C, D, E, F }, dans principaux résultats sont systématisés par
le cadre des bases de données transaction- Lee [25] qui introduit les espaces de versions
nelles. Soit L = 2Items l’ensemble de tous généralisés. Dans le cas de requêtes simples
les motifs (itemsets) possibles. Par la suite, ou de séquences de requêtes booléennes
un motif est représenté par la concaténa- formées de conjonctions et de disjonctions
tion des items qu’il contient, i.e. le motif de prédicats monotones ou anti-monotones,
{A, C, E} est noté plus simplement ACE. des représentations condensées combinant à
la fois motifs fermés, motifs clés et espaces 3 Formulation du problème
de versions sont proposées dans [15, 16, 17]. Dans ce travail, nous considérons des bases
En 2005, Mielikäinen [29] a présenté dans sa de données transactionnelles, l’espace de re-
thèse plusieurs techniques de condensation cherche L est donc le treillis des parties d’un
d’une collection de motifs. ensembles d’articles (les items). Il est muni de
la relation d’inclusion et les motifs sont des
ensembles d’items (itemsets). Nous utiliserons
D’autres propositions ont fourni en sor-
des intervalles selon le sens suivant :
tie des listes d’intervalles. Tout d’abord,
DualMiner [5] fut le premier algorithme Définition 3 (Intervalle de motifs). Soient
à utiliser simultannément des contraintes ϕ, γ ∈ L. L’ intervalle de motifs d’extrémités
monotones et anti-monotones pour éla- ϕ et γ, noté [ϕ, γ], est défini par :
guer l’espace de recherche. Etant donné
une requête d’extraction q, conjonction [ϕ, γ] = {ζ ∈ L | ϕ ⊆ ζ ⊆ γ}
d’un prédicat monotone et d’un prédicat Par exemple, [A, ABC] correspond à l’en-
anti-monotone, il retourne un ensemble d’in- semble de motifs {A, AB, AC, ABC}.
tervalles X = {[ϕ1 , γ1 ], . . . , [ϕn , γn ]} tel que
l’ensemble solution de q est la réunion des Un intervalle de motifs possède donc la
intervalles [ϕi , γi ], (i = 1, . . . , n). Toutefois, capacité de désigner un grand nombre de
le nombre d’intervalles obtenus n’est pas motifs, par la seule donnée de ses bornes. Ce
toujours minimal. qui le rend intéressant pour la manipulation
des grands ensembles de motifs.
Plus récemment, avec Music-DFS [40],
Soulet a proposé un algorithme d’extraction Notations. Soit L ⊆ L un ensemble de
de motifs sous contraintes qui parcourt motifs, Int(L) l’ensemble des intervalles in-
l’espace de recherche en considérant des inter- clus dans L et X ⊆ Int(L). Si X =
valles de motifs. Cet algorithme extrait une {[ϕ1 , γ1 ], . . . , [ϕn , γn ]}, on notera X l’ensemble
[n
collection d’intervalles sans chevauchement des motifs définis par X = [ϕi , γi ].
formant une représentation condensée des i=1
motifs satisfaisant des contraintes variées. Par une représentation d’un ensemble par
Néanmoins, l’ensemble d’intervalles extraits un autre, nous entendons, non seulement, la
est à nouveau de taille très supérieure à la possibilité d’établir une correspondance bijec-
représentation minimale. A la différence de tive entre ces ensembles, mais aussi, le pouvoir
ces méthodes, les représentations condensées de coder un ensemble par un autre plus com-
fondées sur des intervalles que nous proposons pact tel qu’on puisse stocker et/ou manipuler
dans la suite, sont minimales. l’ensemble initial plus efficacement.
Définition 4 (Représentation basée sur un
De manière générale, notre approche se dis- ensemble). Soit L ⊆ L un ensemble de mo-
tingue par le fait de ne pas extraire directe- tifs et X ⊆ Int(L) tel que X = L. On ap-
ment une représentation condensée, et de se pelle représentation de L basée sur X, tout en-
positionner en aval des méthodes d’extraction semble d’intervalles Y ⊆ X vérifiant : Y = L.
afin de pouvoir traiter n’importe quel résultat Lorsque Y est de cardinalité minimale, elle est
de requête. dite minimale.
Lorsqu’on parle de représentation sans bien kN (L)k ≤ kXk.
préciser la base, il s’agit d’une représentation Il en découle que la taille d’une représenta-
basée sur tous les intervalles (à savoir Int(L)). tion minimale de L basée sur l’ensemble de
ses noyaux N (L) est toujours inférieure ou
Dans ce papier, étant donné un ensemble égale à la taille d’une représentation minimale
de motifs L ⊆ L, le problème posé est celui de L basée sur un ensemble X ⊆ Int(L). Il
de trouver une représentation minimale de L s’en suit que kN (L)k ≤ kInt(L)k, en prenant
par des intervalles. X = Int(L).
Le deuxième sens de cette inégalité est trivial.
Construire tous les sous-ensembles de En effet, puisque N (L) ⊆ Int(L), toute repré-
Int(L) et en choisir un de plus petite taille sentation, minimale ou non, basée sur N (L)
n’est pas toujours envisageable, face au grand est également une représentation basée sur
nombre d’intervalles qu’on peut former à par- Int(L). Donc kInt(L)k ≤ kN (L)k.
tir de L. Face à cette difficulté, nous recher- On en déduit que kN (L)k = kInt(L)k. D’où
chons les représentations minimales basées sur la Propriété 1.
un sous-ensemble de Int(L), celui des inter-
valles maximaux (appelés noyaux ). Cette propriété démontre toute l’impor-
tance du concept de noyau, dans notre ap-
Définition 5 (Noyau). Soit L ⊆ L un en- proche. Aussi, notre stratégie de résolution se
semble de motifs. On appelle noyau de L tout décline en deux étapes : étant donné un en-
intervalle maximal (au sens de l’inclusion) semble de motifs L ⊆ L,
dans L. On note N (L) l’ensemble des noyaux
1. Déterminer tous les noyaux de L à par-
de L.
tir d’un ensemble quelconque d’intervalles
Cette reformulation du problème est perti- X ⊆ Int(L) tel que X = L (cf. Sec-
nente, car l’ensemble des noyaux est en général tion 4).
très réduit par rapport à l’ensemble de tous les 2. Chercher un sous-ensemble de noyaux de
intervalles. Mieux, nous avons : cardinalité minimale (cf. Section 5).
Propriété 1. Soit L ⊆ L un ensemble de mo- Notons que le problème posé est une ins-
tifs. Une représentation minimale de L basée tance particulière du problème classique de re-
sur N (L) est une représentation minimale de cherche d’une couverture par ensembles (set
L basée sur Int(L). covering problem) dont la résolution exacte est
N P -difficile [13], pour s ≥ 3 (où s est la taille
Démonstration. Soit L ⊆ L et X ⊆ Int(L) du plus grand ensemble considéré). Nous en
tel que X = L. Notons kXk la taille com- proposons ici une résolution exacte, lorsque les
mune des représentations minimales de L ba- ensembles considérés sont des sous-treillis [7]
sées sur X. On montre que : kN (L)k ≤ kXk. du treillis des parties d’un ensemble d’items.
En effet, soit Z une représentation minimale
de L basée sur X. Posons Z = {I1 , . . . , In }. 4 Construction des noyaux
Comme Z ⊆ X, pour chaque k ∈ {1, . . . , n}, Dans cette section, nous donnons deux
il existe un noyau Nk ∈ N (L) tel que Ik ⊆ Nk . propriétés fondamentales des intervalles de
On a donc N = {N1 , . . . , Nn } qui est une re- motifs permettant de définir un opérateur qui
présentation de L basée sur N (L). Comme détermine (s’il existe) l’intervalle maximal
kN (L)k ≤ |N | et |N | = |Z| = kXk, on a intersectant chacun de ses opérandes. Ensuite,
nous proposons un algorithme d’obtention 2. J1 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I1 et
des noyaux d’un ensemble de motifs donné. J2 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ] ⊆ I2 où ζ
est l’unique élément de (ϕ1 \ϕ2 )∩(γ1 \γ2 ).
4.1 Propriétés des intervalles de motifs
De plus, dans les deux cas :
Les opérations ensemblistes habituelles (in- J ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I1 ∪ I2 .
clusion, intersection et différence) sont bien
définies pour les intervalles de motifs. Cepen- Démonstration. Si J = J1 ∪ J2 avec J1 ∩ J2 =
dant la réunion d’intervalles n’est pas toujours ∅, est un intervalle tel que J = [α, β], alors il
un intervalle. La Propriété 2 suivante (tirée de existe ζ ∈ β \α tel que J1 = [α, β \{ζ}] et J2 =
[5]) indique dans quel cas, la fusion de deux [α ∪ {ζ}, β], ou inversement J1 = [α ∪ {ζ}, β]
intervalles en un seul ou la subdivision d’un et J2 = [α, β \ {ζ}] (Propriété 2). Les deux
intervalle en deux intervalles disjoints, est réa- cas étant symétriques, on ne considérera que
lisable. le premier cas.
J1 ⊆ I1 et J2 ⊆ I2 impliquent respecti-
Propriété 2 (Fusion et division). [5] Soient vement que ϕ1 ⊆ α ⊆ (β \ {ζ}) ⊆ γ1 et
I = [ϕ, γ], I1 = [ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] trois ϕ2 ⊆ (α ∪ {ζ}) ⊆ β ⊆ γ2 . Par conséquent,
intervalles de motifs. Alors I = I1 ∪ I2 avec on a ϕ1 ⊆ α ⊆ (α ∪ {ζ}) et ϕ2 ⊆ (α ∪ {ζ}),
I1 ∩ I2 = ∅ si et seulement si, il existe un item ce qui implique que (ϕ1 ∪ ϕ2 ) ⊆ (α ∪ {ζ}) et
ζ ∈ γ \ ϕ, tel que : (ϕ1 ∪ ϕ2 ) \ {ζ} ⊆ α.
1. I1 = [ϕ, γ \ {ζ}] et I2 = [ϕ ∪ {ζ}, γ] ; ou De même, on a (β \ {ζ}) ⊆ γ1 et (β \ {ζ}) ⊆
symétriquement, β ⊆ γ2 , ce qui implique que (β \ {ζ}) ⊆
2. I1 = [ϕ ∪ {ζ}, γ] et I2 = [ϕ, γ \ {ζ}]. (γ1 ∩ γ2 ) et β ⊆ (γ1 ∩ γ2 ) ∪ {ζ}. On en déduit
directement que J1 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ]
Lorsque l’intersection de deux intervalles de et J2 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}].
motifs est non vide, nous dirons que l’un em- Montrons maintenant que ζ ∈ (ϕ2 \ ϕ1 ) ∩
piéte sur l’autre. Soit I1 et I2 deux intervalles (γ2 \γ1 ). Tout d’abord (α∪{ζ}) ⊆ γ2 implique
de motifs. Considérons J un intervalle qui em- que ζ ∈ γ2 . Supposons que ζ ∈ γ1 . On a alors
piéte sur I1 et I2 , égal à l’union de deux sous- ϕ1 ⊆ α ⊆ (β \ {ζ}) ⊆ β ⊆ γ1 , ce qui contredit
intervalles de I1 et I2 . La propriété suivante que J 6⊆ I1 . Par conséquent, on a ζ 6∈ γ1 et
montre alors que J est inclus dans un inter- ζ ∈ γ2 , i.e ζ ∈ (γ2 \ γ1 ). D’un autre côté, ζ ∈
valle maximal, union de deux sous-intervalles β \ α implique que ζ 6∈ α. Comme ϕ1 ⊆ α, on
de I1 et I2 , empiétant sur I1 et I2 . Ce résultat en déduit que ζ 6∈ ϕ1 . Supposons que ζ 6∈ ϕ2 .
fournit, en même temps, cet intervalle maxi- Dans ce cas, comme ϕ2 ⊆ (α ∪ {ζ}), on aurait
mal. ϕ2 ⊆ α ⊆ β ⊆ γ2 , ce qui contredit que J 6⊆ I2 .
Par conséquent, on a ζ ∈ ϕ2 et ζ 6∈ ϕ1 , i.e
Propriété 3 (Empiètement). Soient I1 = ζ ∈ (ϕ2 \ ϕ1 ). Nous avons donc démontré que
[ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] tels que I1 6⊆ I2 et ζ ∈ (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ).
I2 6⊆ I1 . Soit J1 un sous-intervalle de I1 et J2 Il reste à démontrer que ζ est unique. Si ζ
un sous-intervalle de I2 . Si J = J1 ∪ J2 est un n’est pas unique, soit ζ1 et ζ2 deux éléments
intervalle tel que J 6⊆ Ii pour i = 1, 2, alors de (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). ζ1 et ζ2 appartiennent
l’une des propriétés suivantes est vérifiée : aussi à β \ α. On en déduit que si ζ2 6= ζ1 ,
1. J1 ⊆ [(ϕ1 ∪ ϕ2 ) \ {ζ}, γ1 ∩ γ2 ] ⊆ I1 et alors ζ2 ∈ (β \ {ζ1 }). Par conséquent, comme
J2 ⊆ [ϕ1 ∪ ϕ2 , (γ1 ∩ γ2 ) ∪ {ζ}] ⊆ I2 où ζ (β \ {ζ1 }) ⊆ γ1 , on en déduit que ζ2 ∈ γ1 ,
est l’unique élément de (ϕ2 \ϕ1 )∩(γ2 \γ1 ). ce qui est contradictoire avec l’hypothèse que
ζ2 ∈ (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). Par suite, ζ1 ne peut candidats Xi tous les empiétants maximaux
être différent de ζ2 ce qui prouve l’unicité de obtenus par composition des noyaux candidats
ζ dans (ϕ2 \ ϕ1 ) ∩ (γ2 \ γ1 ). déterminés à l’étape précédente (ligne 5). Il re-
tourne ensuite les intervalles maximaux dans
Définissons, à présent, l’opérateur ⊗, qui Xi (ligne 7). NOYAUX s’arrête lorsque plus
donne, lorsqu’il existe, l’intervalle maximal aucun nouveau noyau n’est construit (ligne 9).
empiétant sur chacun de ses opérandes.
Définition 6 (Empiétant maximal). Soient Algorithme 1 NOYAUX(X)
I1 = [ϕ1 , γ1 ] et I2 = [ϕ2 , γ2 ] tels que (ϕ2 \ Entrée : Un ensemble X = {I1 , . . . , IN }
ϕ1 ) ∩ (γ2 \ γ1 ) = {ζ} et (ϕ1 ∪ ϕ2 ) \ {ζ} ⊆ d’intervalles Ii (i ∈ [1, N ])
(γ1 ∩ γ2 ) ∪ {ζ}. On appelle empiétant maxi- Sortie : L’ensemble N (X) des noyaux de X
mal sur I1 et I2 , l’intervalle noté I1 ⊗I2 , défini 1: let X0 = max⊆ (X) and Y = X0
par : I1 ⊗ I2 = [(ϕ1 ∪ ϕ2 ) \ {ζ}, (γ1 ∩ γ2 ) ∪ {ζ}]. 2: let i = 0
3: do
Notons que ⊗ n’est pas commutative. 4: i=i+1
Mieux, lorsque I1 ⊗ I2 est un intervalle, son 5: Y = {I ⊗ I ′ | I ∈ Xi−1 , I ′ ∈ Y
symétrique I2 ⊗ I1 n’est pas défini. 6: et I ⊗ I ′ est défini}
7: Xi = max⊆ (Xi−1 ∪ Y )
Lorsque I1 ⊗I2 est défini et qu’en plus I1 ∪I2 8: Y = Y ∩ Xi
est un intervalle, alors : 9: while (Xi 6= Xi−1 )
10: return Xi
I1 ⊗ I2 = I1 ∪ I2 .
Exemple 2. Considérons I1 = [A, ABC], Exemple 3. Considérons l’ensemble

I2 = [ACD, ABCDE], I3 = [AD, ABCD], et des motifs de l’Exemple 1 et sa re-
I4 = [E, EF ]. Alors I1 ⊗ I2 = [AC, ABCD], présentation suivante : X = {[A, AD],
I1 ⊗I3 = [A, ABCD] et I1 ⊗I4 n’est pas défini. [A, ABC], [C, BC], [D, AD], [BDE, BCDE],
On notera aussi que I1 ⊗ I3 correspond exac- [BDEF, BCDEF ]}.
tement à la réunion I1 ∪ I3 , mais ce n’est pas L’exécution de NOYAUX retourne l’ensemble
le cas de I1 ⊗ I2 . de ses noyaux : N (X) = { [A, ABC], [A, AD],
[C, ABC], [D, AD], [BDE, BCDEF ]}.
C’est sur cet opérateur que repose l’algo-
rithme de détermination des noyaux d’un Afin de démontrer que l’algorithme
ensemble de motifs. NOYAUX permet de calculer tous les noyaux
recherchés, on commence par introduire la
4.2 Algorithme de construction des notion d’arbre de décomposition d’un noyau.
noyaux On démontre ensuite trois lemmes avant
NOYAUX (cf. Algorithme 1) détermine d’énoncer dans le Théorème 1 la complétude
tous les noyaux d’un ensemble de motifs et la correction de NOYAUX.
L ⊆ L, à partir d’un ensemble d’intervalles
X couvrant tous les motifs de L. Cet algo- Par la suite, étant donné un ensemble X
rithme est principalement basé sur l’opérateur d’intervalles, notons S(X) l’ensemble de tous
⊗ permettant de calculer l’empiétant maxi- les sous-intervalles des intervalles de X, i.e
mal sur deux intervalles. A chaque itération,
NOYAUX ajoute à un ensemble de noyaux S(X) = {I ∈ Int(X) | ∃I ′ ∈ X : I ⊆ I ′ }
Définition 7 (Arbre de décomposition). Soit de base de NOYAUX.
X un ensemble d’intervalles, et I un intervalle
inclus dans X. Un arbre de décomposition A Lemme 1. L’algorithme NOYAUX vérifie les
de I selon X est un arbre binaire dont l’en- deux propriétés suivantes.
semble des nœuds, notés nik et associés à des 1. Pour tout entier i ≥ 0, si Xi est calculé,
intervalles Iki ⊆ I, est tel que : alors Xi = X.
– Le nœud racine de A, noté n10 , est associé
2. Étant donné un intervalle I, s’il existe un
à l’intervalle I01 = I.
entier i ≥ 0 tel que I ∈ S(Xi ), alors pour
– Si nik est un nœud de A, alors :
tout Xj calculé, si j > i, alors I ∈ S(Xj ).
– soit Iki appartient à S(X). Dans ce cas,
nik n’a pas de fils. Démonstration. La première propriété du
– soit Iki = [ϕik , γki ] n’appartient pas à lemme peut être démontrée par induction.
S(X). Dans ce cas, nik a deux fils notés Tout d’abord, il est aisé de vérifier que pour
2i−1
nk+1 et n2i i i
k+1 , et il existe ζ ∈ (γk \ ϕk ) tout ensemble d’intervalles Z, max⊆ (Z) = Z.
2i−1 i i
tel que Ik+1 = [ϕk , γk \ {ζ}] est l’inter- Par conséquent, on a X0 = X. Supposons
2i−1 2i
valle associé à nk+1 , et Ik+1 = [ϕik ∪ maintenant que Xi−1 = X et montrons que
{ζ}, γki ] est l’intervalle associé à n2i
k+1 . Xi = X. Pour toute paire d’intervalles I1 et
Par la suite, on note A(I, X) l’ensemble des I2 , I1 ⊗ I2 ⊆ I1 ∪ I2 . Il est ainsi aisé de véri-
arbres de décomposition possibles de I selon fier que Xi = max⊆ (Xi−1 ∪ Y ) = Xi−1 ∪ Y =
X. Xi−1 = X.
Par construction, notons que pour tout La deuxième propriété du lemme découle
arbre de décomposition A ∈ A(I, X) et simplement de l’étape 7 de l’algorithme
tout nœud nik ∈ A, si nik a deux fils, alors NOYAUX. En effet, si I ∈ S(Xi ), alors I ∈
2i−1
Iki = Ik+1 2i
∪ Ik+1 . De plus, I est égal à l’union S(Xi ∪ Y ). Par conséquent, comme Xi+1 =
des intervalles des feuilles de A, tous ces max⊆ (Xi ∪ Y ), on a I ∈ S(Xi+1 ). Par récur-
intervalles étant disjoints. Un exemple d’arbre rence, il en découle que I ∈ S(Xj ) pour tout
de décomposition est donné sur la Figure 1. j > i.
La racine d’un arbre binaire étant de ni-

veau zéro, la hauteur de l’arbre correspond au
nombre de niveaux augmenté d’une unité. Le
second lemme s’énonce alors comme suit :
Lemme 2. Soient X un ensemble d’inter-

valles, un noyau N ∈ N (X) et A ∈ A(N, X)
un arbre de décomposition de A de hauteur
K + 1. Si Zk est l’ensemble des intervalles de
niveau k de A, alors Zk contient uniquement
I = (I21 ∪ (I33 ∪ I34 )) ∪ (I23 ∪ (I37 ∪ I38 )) des sous-intervalles d’intervalles de l’ensemble
XK−k construit par l’algorithme NOYAUX
i.e.
Fig. 1 – Arbre de décomposition d’un noyau Zk ⊆ S(XK−k ) (Pk )
Dans le Lemme 1, on énonce deux propriétés De plus, N appartient à XK .

Démonstration. Démontrons ce lemme par Z0 = {I01 = N } ⊆ S(XK ), ce qui signifie qu’il
induction en commençant par vérifier que existe I ∈ XK tel que N ⊆ I. Par ailleurs,
la propriété PK est vraie. Par définition, d’après le Lemme 1, on a I ⊆ X. Comme N
tous les intervalles des feuilles d’un arbre est un noyau (ce qui signifie qu’il est maxi-
de décomposition d’un intervalle sont des mal dans X), il en découle nécessairement que
éléments de S(X), donc de S(X0 ), ce qui I = N et donc que N appartient à XK .
montre que ZK ⊆ S(X0 ) et que PK est vraie.
Le Lemme 2 montre que tout noyau est
construit si l’algorithme NOYAUX effectue
Supposons maintenant que la propriété
un nombre suffisant d’itérations. Le Lemme 3
Pk+1 est vraie, et montrons que Pk est vraie.
montre que l’algorithme NOYAUX ne peut
Soit Iki ∈ Zk , on distingue deux cas de figure :
pas s’arrêter prématurément.
1. Si Iki est une feuille de l’arbre de dé- Lemme 3. L’algorithme NOYAUX est tel que
composition A de N , cela signifie que Iki pour tout noyau N , si N n’appartient pas à Xi
est un sous-intervalle d’un intervalle de alors l’algorithme ne s’arrête pas, i.e s’il existe
X, donc de X0 . Par conséquent, d’après N ∈ N (X) tel que N ∈ / Xi , alors Xi 6= Xi−1 .
le Lemme 1, on en déduit que Iki ∈
S(XK−k ). Démonstration. Il est aisé de vérifier que si
un noyau est construit par NOYAUX, alors
2. Si Iki n’est pas une feuille de l’arbre de il ne peut être supprimé aux itérations sui-
2i−1
décomposition A de N , alors Iki = Ik+1 ∪ vantes. Par conséquent, si N est un noyau tel
2i
Ik+1 . Comme Pk+1 est vraie, on a : que N ∈ / Xi , alors on a également N ∈ / Xi−1 .
2i−1
– Ik+1 ⊆ J1 avec J1 ∈ XK−(k+1) , et Soit A un arbre de décomposition de N se-
2i
– Ik+1 ⊆ J2 avec J2 ∈ XK−(k+1) . lon Xi−1 . Puisque N ∈ / Xi−1 , cet arbre pos-
De plus J1 6⊆ J2 et J2 6⊆ J1 . sède nécessairement deux feuilles de même
2i−1 2i
On peut maintenant distinguer les deux père. Soient Ik+1 et Ik+1 les intervalles as-
sous-cas suivants : sociés à ces deux feuilles. Par définition de
– Si Iki n’est pas inclus dans J1 et J2 , alors A, le père des deux feuilles est associé à l’in-
2i−1 2i
d’après la Propriété 3, on a : Iki ⊆ J1 ⊗ tervalle Iki = Ik+1 ∪ Ik+1 . De plus, il existe
2i−1
J2 ou Iki ⊆ J2 ⊗ J1 , ce qui montre en I1 et I2 dans Xi−1 tels que Ik+1 ⊆ I1 et
2i
examinant l’étape 5 de NOYAUX que Ik+1 ⊆ I2 . Lors de la construction de Xi à par-
Iki sera un sous-invervalle de XK−k . tir de Xi−1 , I1 ⊗ I2 est ajouté à Y à l’étape 5
– Si Iki est inclus dans J1 ou J2 qui sont de NOYAUX. Par conséquent, il existe I ∈ Xi
des éléments de XK−(k+1) , on a Iki ∈ tel que Iki ⊆ I1 ⊗ I2 ⊆ I. Comme I ne peut
S(XK−(k+1) ). Par conséquent, d’après appartenir à Xi−1 (sinon Iki serait une feuille
le Lemme 1, on a Iki ∈ S(XK−k ). de A), il en découle que Xi 6= Xi−1 , ce qui
termine la preuve du Lemme 3.
En résumé, on vient de montrer que tout
intervalle Iki de Zk appartient à S(XK−k ), ce En utilisant les Lemmes 1, 2 et 3, on peut
qui montre que la propriété Pk est vraie et maintenant prouver le théorème suivant.
termine la preuve de la première partie du Théorème 1. L’algorithme NOYAUX est
Lemme 2. complet, correct et se termine au bout d’un
nombre d’itérations borné par :
Démontrons maintenant que N ∈ XK .
D’après la première partie du Lemme 2, on a max { min (hauteur(A))}
N ∈N (X) A∈A(N,X)
Démonstration. La complétude de NOYAUX construction, grâce à une décomposition
découle directement des Lemmes 2 et 3 qui en composantes connexes de l’ensemble des
montrent que tous les noyaux sont construits. intervalles candidats.
De plus, le Lemme 2 montre que le nombre
d’itérations nécessaires pour déterminer tout 5.1 Réduction de l’espace de recherche
noyau N est borné par hauteur(A) où A est Soit L un ensemble de motifs et X ⊆ Int(L)
n’importe quel arbre de décomposition de N tel que X = L. En vue d’obtenir une repré-
selon X. Par conséquent, il existe un entier sentation minimale de L basée sur X, les
i ≤ maxN ∈N (X) {minA∈A(N,X) (hauteur(A))} Propriétés 4 et 5 suivantes permettent de
tel que N (X) ⊆ Xi . réduire l’espace de recherche.
L’étape 7 de NOYAUX implique que Xi ne
peut contenir que des intervalles maximaux. Intuitivement, deux types d’intervalles
Par conséquent, on a N (X) = Xi , ce qui peuvent simplifier la résolution du problème :
montre que NOYAUX est correct. Enfin, il (1) ceux qui appartiennent obligatoirement à
est aisé de vérifier que si Xi = N (X), alors la représentation minimale cherchée (élagage
Xi+1 = Xi . En effet, tous les intervalles insé- positif ) et (2) ceux que l’on peut éliminer
rés dans Y lors de la construction de Xi+1 sont tout en garantissant l’obtention finale d’une
nécessairement inclus dans un noyau. On en représentation minimale basée sur X (élagage
déduit ainsi que NOYAUX s’arrête toujours négatif ). Ces deux catégories d’intervalles
au bout d’un nombre fini d’itérations. correspondent respectivement aux intervalles
essentiels, formalisés ci-dessous par la Pro-
5 Construction d’une représen- priété 4, et aux intervalles superflus (cf.
tation minimale Propriété 5). Dans ces deux propriétés, X est
un ensemble initial d’intervalles de motifs tel
Dans cette section, nous donnons un algo-
que X correspond aux motifs à condenser et
rithme de construction d’une représentation
Y une partie de la représentation minimale
minimale basée sur un ensemble d’intervalles
basée sur X en construction.
quelconque. Ainsi, nous pouvons déterminer
une représentation minimale d’un ensemble de
Soit X un ensemble d’intervalles de motif et
motifs L basée sur l’ensemble de ses noyaux
ϕ ∈ X. Notons X/ϕ = {I ∈ X | ϕ ∈ I}.
N (L) obtenu avec l’algorithme NOYAUX de
la section précédente. Propriété 4 (Intervalle essentiel). Soient X,
Y deux ensembles d’intervalles et un motif
Nous commençons par établir deux proprié- ϕ ∈ X\Y . Si X/ϕ = {I}, alors l’intervalle
tés des intervalles de motifs (donc également I est dit essentiel relativement à X ∪ Y . De
applicables aux noyaux) permettant de plus, il appartient à toute représentation mi-
réduire assez efficacement le nombre d’in- nimale de X ∪ Y basée sur X ∪Y et contenant
tervalles candidats. Ensuite, un algorithme Y.
de type séparation et évaluation (branch
and bound ) qui construit une représentation Démonstration. Soient X et Y deux en-
minimale basée sur un ensemble d’intervalles sembles d’intervalles et un motif ϕ ∈ X\Y
fourni en entrée, est proposé. Dans la der- tel que X/ϕ = {I}. Soit Z ⊇ Y une représen-
nière partie de cette section, nous donnons tation minimale de X ∪ Y basée sur X ∪ Y .
une propriété permettant d’optimiser cette Comme ϕ ∈ X ∪ Y , au moins un intervalle de
X ou Y doit couvrir ϕ. Or par définition de 3. il existe j < k tel que Ik \Y = Ij \Y .
ϕ, aucun intervalle de Y ne le couvre. Donc,
au moins un intervalle de X doit le couvrir. Démonstration. Soient X = {I1 , . . . , In }, Y
Comme I est le seul intervalle le couvrant, on deux ensembles d’intervalles et Ik ∈ X. Soit
a nécessairement I ∈ Z. Z une représentation minimale de X ∪ Y ba-
sée sur X ∪ Y telle que Y ⊆ Z.
La Propriété 4 montre que si le motif Cas 1 : on a Ik ⊆ Y . Posons Y ′ = Z\{Ik }.
ϕ ∈ X\Y n’est couvert que par un seul Alors, on a Y ⊆ Y ′ ⊆ (X\Ik ) ∪ Y et Y ′ =
intervalle de X alors cet intervalle appartient (X\Ik ) ∪ Y = X ∪ Y car Ik ⊆ Y . On a
à toutes les représentations minimales de donc |Y ′ | ≤ |Z|. Or Z est une représentation
X ∪ Y basées sur X ∪ Y contenant Y . minimale de X ∪ Y basée sur X ∪ Y , donc
|Z| ≤ |Y ′ |. On en déduit que |Z| = |Y ′ | et
La Propriété 5 indique trois configurations Y ′ est une représentation minimale de X ∪ Y
dans lesquelles éliminer un intervalle I, dit in- basée sur (X\Ik ) ∪ Y .
tervalle superflu, n’empêche pas de pouvoir Cas 2 : il existe j 6= k tel que Ik \Y ⊂ Ij \Y .
compléter Y afin d’obtenir une représentation Si Ik 6∈ Z, on peut directement conclure que
minimale de X ∪ Y basée sur X ∪Y . Elles cor- Z est une représentation minimale de X ∪ Y
respondent aux cas suivants : basée sur X \ {Ik } ∪ Y telle que Y ⊆ Z ⊆
1. L’intervalle I est déjà couvert par un ou ((X\Ik ) ∪ Y ). Sinon, on a Ik ∈ Z et on pose
plusieurs intervalles de la représentation Y ′ = Z\{Ik } ∪ {Ij }. On vérifie alors que Y ⊆
partielle Y . Il n’y a donc aucun intérêt à Y ′ ⊆ (X\Ik ) ∪ Y . On a Y ′ = Z\{Ik } ∪ {Ij } ⊇
ajouter I à Y . Z car Ik \Y ⊂ Ij \Y . Or, comme Z = X ∪ Y et
2. La partie non couverte d’un intervalle Ii Y ′ ⊆ X ∪ Y , on en conclut que Y ′ = X ∪ Y .
est couverte par un autre intervalle Ij plus Enfin, comme Z est une représentation mini-
grand. Plutôt que d’ajouter Ii à Y , il sera male de X ∪ Y basée sur X ∪ Y et que Y ′ est
toujours plus intéressant d’ajouter Ij qui de même taille que Z, Y ′ est également une
couvre plus de motifs. représentation minimale de X ∪ Y basée sur
(X\Ik ) ∪ Y .
3. Deux intervalles couvrent exactement les
Cas 3 : un raisonnement similaire au cas 2
mêmes motifs. Par conséquent, l’un des
permet de démontrer le cas 3.
doublons peut être éliminé sans affecter
la construction d’une représentation mi- 5.2 Algorithme de construction d’une re-
nimale. présentation minimale
Etant donné L un ensemble de motifs et
Propriété 5 (Intervalle superflu). Soient
X ⊆ Int(L) tel que X = L. Cette section
X = {I1 , . . . , In }, Y deux ensembles d’inter-
présente l’algorithme MINIMAL (cf. Algo-
valles et un intervalle Ik ∈ X. Pour toute
rithme 2) qui construit récursivement une
représentation minimale Z basée sur X ∪ Y
représentation minimale de L basée sur X,
contenant Y , il existe une représentation mi-
avec une méthode de type branch and bound.
nimale Y ′ basée sur (X\Ik ) ∪ Y contenant Y
telle que Z = Y ′ si l’une des propriétés sui-
Plus précisément, MINIMAL prend trois
vantes est vérifiée :
arguments en entrée : l’ensemble des inter-
1. Ik ⊆ Y , valles X restant à couvrir, Y une partie de la
2. il existe j 6= k tel que Ik \Y ⊂ Ij \Y , représentation minimale de X ∪ Y basée sur
Algorithme 2 MINIMAL (X, Y, α) principales : une phase d’élagage pour réduire
Entrée : X = {I1 , . . . , In } ensemble des in- l’espace de recherche correspondant aux lignes
tervalles candidats, Y une partie de la 1 et 8, une phase d’arrêt (lignes 9 et 10) et
représentation minimale basée sur X en une phase exploratoire (lignes 11 à 18).
construction, α > |X| taille maximale de
la représentation recherchée Dans un premier temps, la phase d’élagage
Sortie : Ymin une représentation minimale de est répétée tant que le cardinal de X diminue
X basée sur X grâce aux Propriétés 4 (ligne 4) ou 5 (lignes 5-
// Elagage de l’espace de recherche 7). Les trois cas d’intervalles superflus sont
1: Xanc = ∅ repris, dans l’ordre, entre les lignes 5 à 7. Par
2: while X 6= Xanc do ailleurs, chaque intervalle ajouté à Y (ligne 4)
3: Xanc = X est de suite retiré de X (ligne 5).
4: Y = Y ∪ {Ik ∈ X|∃ϕ ∈ X\Y :
X/ϕ = {Ik }} Ensuite, MINIMAL s’arrête si la représen-
5: X = X\{Ik ∈ X|Ik ⊆ Y } tation en construction Y n’est pas de taille
6: X = X\{Ik ∈ X|∃j 6= k : satisfaisante puisqu’elle possède plus de α
Ik \Y ⊂ Ij \Y } intervalles (ligne 9). Cet échec se traduit par
7: X = X\{Ik ∈ X|∃j < k : le renvoi de l’ensemble vide. Au contraire, si
Ik \Y = Ij \Y } X est vide (ligne 10), cela signifie que tous les
8: od motifs sont couverts et par conséquent, MI-
// Conditions d’arrêt NIMAL retourne la représentation minimale
9: if |Y | ≥ α then return ∅ de X basée sur X.
10: if X = ∅ then return Y
// Exploration de l’espace de recherche Enfin, la phase d’exploration appelle récursi-
11: Ymin = ∅ vement MINIMAL, pour chaque intervalle Ik
12: for all Ik ∈ X do de X, en ajoutant Ik à Y . Le test (ligne 14)
13: Ycur =MINIMAL (X\{Ik }, Y ∪ {Ik }, α) garantit la conservation de la plus petite
14: if Ycur 6= ∅ and |Ycur | < α then représentation retournée. Par ailleurs, on
15: Ymin = Ycur prend soin de mettre à jour α (ligne 16) pour
16: α = |Ycur | améliorer l’élagage de l’espace de recherche.
17: end if
18: end for A la fin, la meilleure représentation (i.e celle
19: return Ymin contenant le moins d’intervalles) est retournée
ligne 19. On notera que cette dernière est égale
à l’ensemble vide lorsqu’aucune représentation
X ∪ Y en cours de construction et la taille de taille plus petite que α et contenant Y ne
maximale α d’une représentation minimale peut être trouvée.
de X ∪ Y basée sur X ∪ Y . Il retourne alors
soit une représentation Z de taille minimale Exemple 4. Partant de l’ensemble des
couvrant X ∪ Y (où Y ⊆ Z et |Z| < α), soit noyaux obtenus à l’Exemple 3, MINIMAL
l’ensemble vide (i.e., échec dans la construc- renvoie la représentation concise suivante :
tion d’une représentation minimale). Y = {[A, ABC], [C, ABC], [BDE, BCDEF ],
[D, AD] }. Ici, le noyau [A, AD] est superflu.
MINIMAL est composé de trois phases Le résultat suivant montre que
l’Algorithme 2 est correct : arêtes. La Propriété 6 montre que la construc-
tion d’une représentation minimale de L basée
Théorème 2 (Correction). Soit X un en- sur X peut s’effectuer séparément sur chaque
semble d’intervalles et α > |X| un nombre composante connexe du graphe G associé à X,
entier. MINIMAL (X, ∅, α) retourne une re- sans altérer le résultat final.
présentation minimale de l’ensemble de motifs
X basée sur X. Propriété 6 (Décomposition en composantes
connexes). Soit X = X1 ∪ · · · ∪ Xk , vérifiant
Démonstration. Soit un ensemble d’intervalles pour tout i 6= j, Xi ∩ Xj = ∅, la décomposi-
X. Dans un premier temps, ignorons les lignes tion en composantes connexes d’un ensemble
1 à 8. Intuitivement, l’Algorithme 2 corres- de motifs. Alors l’union des représentations
pondrait alors à un algorithme branch and minimales des Xi basées sur les ensembles Xi
bound qui énumère en profondeur tous les est une représentation minimale de X basée
sous-ensembles de X pour trouver une repré- sur X.
sentation minimale Ymin de X basée sur X.
Lors de la phase d’élagage de l’espace de re- Démonstration. Soit X = X1 ∪ · · · ∪ Xk , véri-
cherche MINIMAL ajoute dans Ymin les inter- fiant pour tout i 6= j, Xi ∩ Xj = ∅, la décom-
valles essentiels et retire de X les intervalles position en composantes connexes d’un en-
superflus. Malgré cet élagage, à chaque étape, semble d’intervalles. Pour tout i ∈ {1, . . . , k},
les Propriétés 4 et 5 garantissent que Ymin soit Yi une représentation minimale de Xi ba-
demeure une représentation minimale de X. sée sur Xi . Posons Y = Y1 ∪ · · · ∪ Yk . Tout
L’Algorithme 2 atteint donc cette solution et d’abord, on a Y1 ∪ · · · ∪ Yk = X1 ∪ . . . ∪Xk .
la retourne. Or, par définition des composantes connexes
Xi , on a X1 ∪ · · · ∪ Xk = X. On a donc
Nous avons déja signalé que toute repré- Y = Y1 ∪ · · · ∪ Yk = X. Maintenant, sup-
sentation minimale d’un ensemble de motifs posons que Y ne soit pas une représentation
L basée sur l’ensemble de ses noyaux est de X basée sur X de cardinalité minimale.
également une représentation minimale de L. Alors, il existe Y ′ , une représentation mini-
Aussi, pour en déterminer une, au lancement male de X basée sur X telle que |Y ′ | < |Y |.
de MINIMAL, il suffit que X coı̈ncide avec Il s’en suit qu’il existe l ∈ {1, . . . , k} tel que
l’ensemble N (L) de tous les noyaux de L, que |Y ′ ∩ Xl | < |Yl |. Comme aucune autre compo-
l’ensemble Y soit vide et α choisi strictement sante connexe de X ne peut couvrir Xl , Y ′ ∩Xl
supérieur à |X|. On obtient alors une repré- couvre entièrement Xl . Ce qui est impossible
sentation minimale de l’ensemble de motifs L. car Yl est alors une représentation minimale
et pourtant elle est de taille strictement supé-
5.3 Optimisation de la recherche d’une rieure. D’où la Propriété 6.
représentation minimale
Soit L ⊆ L un ensemble de motifs et X ⊆ Dans la Propriété 6, comme les ensembles
Int(L) tel que X = L. Posons : d’intervalles Xi correspondent aux compo-
santes connexes de X, on notera qu’aucun in-
F = {(Ij , Ik ) ∈ X × X | Ij ∩ Ik 6= ∅} tervalle ne peut empiéter sur des intervalles
de deux composantes connexes distinctes. Ce
Considérons G = (X, F), le graphe non qui permet de subdiviser la construction d’une
orienté associé à L, dont les sommets sont représentation minimale basée sur X, et donc
les intervalles de X et F l’ensemble de ses facilite la résolution du problème.
Données N K KΦ KΓ a b ε
Mushroom 50 40 à 120 0 40 0.4 0.6 10%
Connect-4 50 40 à 110 0 30 0.5 0.6 5%
Pumsb 50 200 à 7000 0 200 0.01 0.05 10%
Pumsb* 50 200 à 7000 0 200 0.01 0.05 10%
Fig. 2 – Données et paramètres des tests expérimentaux.
Exemple 5. L’ensemble des noyaux de tive IncMiner permet de générer des requêtes
W
l’ensemble de motifs L considéré dans inductives booléennes de la forme : q = N i=1 qi
l’Exemple 1 est constitué de deux compo- où chaque qi est une requête conjonctive de la
santes connexes. On peut en effet voir que forme :
N (L) peut s’écrire comme la réunion dis- qi (ϕ, D) = (Φi ⊆ ϕ ⊆ Γi ) ∧
jointe des sous-ensembles de noyaux N1 = sup(ϕ, D) ∈ [ai , bi ]
{[A, ABC], [C, ABC], [A, AD], [D, AD]} et
N2 = {[BDE, BCDEF ]}. où :
– Φi et Γi sont des itemsets constants ti-
MINIMAL renvoie alors les représentations rés aléatoirement de l’ensemble des items
concises Y1 = {[A, ABC], [C, ABC], [D, AD]} Items. Plus précisément, étant donné
et Y2 = N2 . Leur réunion donne bien trois paramètres KΦ , KΓ et K du généra-
la représentation minimale Y obtenue dans teur de requêtes tels que KΦ ≤ KΓ ≤ K,
l’Exemple 4. les itemsets constants Φi et Γi sont ti-
rés aléatoirement dans un sous-ensemble
6 Expérimentations de taille K de Items tels que Φi ⊆ Γi ,
Les algorithmes que nous avons proposés |Φi | = KΦ et |Γi | = KΓ . Notez que si
aux Sections 4 et 5 ont été implémentés en KΓ = K, alors tous les itemsets constants
C++. Dans cette section, nous décrivons Γi seront égaux. Par ailleurs, pour KΓ
d’abord le cadre expérimental adopté. En- constant, si K augmente, alors la proba-
suite, nous donnons les résultats obtenus. bilité que Γi ∩ Γj (i 6= j) soit non vide
diminue.
6.1 Cadre expérimental – sup est la fonction classique de support,
|{ϕ′ ∈D | ϕ⊆ϕ′ }|
Dans nos expériences, nous utilisons le i.e. sup(ϕ | D) = |D|
.
système d’extraction itérative IncMiner pré- – ai et bi sont des seuils minimaux
senté dans [14] afin de générer des requêtes et maximaux de supports tirés aléa-
inductives complexes et de calculer leurs toirement. Plus précisément, étant
ensembles solutions. Ces derniers sont ensuite donnés les trois paramètres a, b et
utilisés en entrée des algorithmes NOYAUX ε du générateur de requête, ai et
et MINIMAL, afin d’évaluer la pertinence de bi sont tirés aléatoirement tels que
notre approche pour condenser des représen- 0 ≤ ai ≤ bi ≤ 1, (1 − ε)a ≤ ai ≤ (1 + ε)a
tations de réponses à des requêtes inductives. et (1 − ε)b ≤ bi ≤ (1 + ε)b.
Plus précisément, étant donné un ensemble Notons que chaque requête qi est la conjonc-
d’items Items, le système d’extraction itéra- tion d’une requête motonone (Φi ⊆ ϕ) ∧
K |X| |N (X)| |Ymin | gain % K |X| |N (X)| |Ymin | gain %
40 12 3 3 75 200 42 26 23 45
45 46 15 11 76 400 365 100 73 80
50 73 15 11 84 600 410 224 190 53
55 89 19 14 84 800 494 387 305 23
60 204 26 20 90 1000 473 337 316 33
70 297 56 36 87 2000 474 396 377 35
80 274 77 55 79 3000 515 463 418 18
90 299 94 74 75 4000 485 415 398 17
100 279 78 57 79 5000 699 679 587 16
110 313 137 86 72 6000 428 388 372 13
120 243 127 99 59 7000 523 484 466 10
Fig. 3 – Résultats avec Mushroom. Fig. 5 – Résultats avec Pumsb.
K |X| |N (X)| |Ymin | gain %

40 44 7 7 84 K |X| |N (X)| |Ymin | gain %
45 154 20 16 89 200 21 17 17 66
50 173 119 59 65 400 88 41 40 54
60 175 153 89 49 600 146 85 75 48
70 207 202 108 47 800 167 108 92 44
80 329 434 236 28 1000 219 150 128 41
85 536 623 354 33 2000 365 299 277 24
90 380 506 296 22 3000 385 332 319 17
95 722 680 426 40 4000 408 352 345 15
100 675 765 444 34 5000 419 369 358 14
110 654 727 438 33 6000 508 456 428 15
7000 459 422 416 9
Fig. 4 – Résultats avec Connect-4.
Fig. 6 – Résultats avec Pumsb*.
(sup(ϕ, D) ≤ bi ) et d’une requête anti-

monotone (ϕ ⊆ Γi ) ∧ (ai ≤ sup(ϕ, D)). Par
constant, en augmentant la valeur de K, on
conséquent, la réponse T h(qi ) à une requête qi
diminue la probabilité que les solutions des
est un espace de versions, représentable par
requêtes qi soient disjointes.
l’ensemble d’intervalles Xi = {[ϕ, γ] | ϕ ∈
G(qi ) ∧ γ ∈ S(qi )} où G(qi ) = min(T h(qi ))
et S(qi ) = max(T h(qi )) sont respectivement Dans les expérimentations réalisées à la sec-
les frontières basse et haute de T h(qi ). tion suivante, pour différents jeux de données
De manièreW générale, la réponse à une et valeurs de paramètres du générateur de re-
requête q = N i=1 qi n’est pas un espace de quêtes q, on évalue la taille des représentations
versions, mais un espace de versions généra- minimales obtenues par rapport à la taille de
lisé [25]. Par ailleurs, pour le paramètre KΓ l’ensemble d’intervalles X = ∪N i=1 Xi .
6.2 Résultats des tests sentations minimales et des ensembles d’inter-
Nous avons généré des résultats de re- valles de départ, on constate en général des
quêtes complexes pour réaliser des tests sur gains de compression souvent assez élevés.
quatre bases de données transactionnelles
(Mushroom, Pumsb, Pumsb* et Connect-4 ) 7 Conclusion
du répertoire du workshop FIMI’2003 1 . Nous avons présenté dans cet article la
notion de représentation minimale par des
La figure 2 récapitule les paramètres utilisés intervalles qui est une forme de représenta-
sur chacune des bases de données considérées. tion condensée d’un ensemble quelconque
On notera que seul le paramètre K varie pour de motifs. Pour obtenir ces représentations,
une même base de données. notre approche basée sur deux étapes com-
mence par construire les noyaux qui sont les
Les tableaux 3, 4, 5, 6 reportent les résul- intervalles maximaux inclus dans l’ensemble
tats des tests effectués pour chaque base de de motifs considéré. Ensuite, un second
données en fonction de la variation de K. algorithme sélectionne une partie de ces
Dans ces tableaux, le gain en compression est noyaux afin de constituer une représentation
le rapport |X|−|Y
|X|
min |
traduisant la proportion minimale de l’ensemble de motifs considéré.
des intervalles initiaux qui a été réduite. Les expérimentations démontrent que les
représentations minimales contiennent très
On observe que le nombre de noyaux est peu de noyaux par rapport à l’ensemble initial
souvent inférieur (et parfois très inférieur) au d’intervalles.
nombre d’intervalles de départ. En d’autres
termes, l’étape de construction des noyaux Dans nos travaux à venir, nous voudrions
élimine déjà des redondances présentes entre approfondir les expérimentations en calculant
les différents intervalles. Ce phénomène des représentations minimales de résultats
s’accentue particulièrement sur des ensembles de requêtes sur des bases de données réelles.
d’intervalles conséquents. Par exemple, pour A terme, nous sommes très intéressés par
K = 60 sur Mushroom, les 204 intervalles sont l’utilisation de ces représentations minimales
transformés en seulement 26 noyaux. Néan- avec des intervalles dans un cadre itératif.
moins, il peut arriver des cas où le nombre En particulier, nous avons l’intention de
de noyaux dépasse le nombre d’intervalles calculer la réponse d’une nouvelle requête
de départ. C’est le cas sur Connect-4, pour en exploitant des représentations minimales
K = 80, 85, 90, 100, 110. Cela dépend donc des précédemment calculées.
transactions des bases de données rencontrées.
Remerciements. M. L. Balde a bénéficié d’un
Bien entendu, la taille des représentations financement du projet SARIMA/LANI/INRIA et
minimales est toujours inférieure (ou égale) au remercie le Professeur Mary Teuw Niane de l’Uni-
nombre des noyaux. L’une des plus fortes com- versité Gaston Berger de Saint-Louis (Sénégal).
pressions constatées est la taille de seulement
59 noyaux pour la représentation minimale de Références
Connect-4, lorsque K = 50, en partant de 119 [1] R. Agrawal and R. Srikant. Fast algorithms
noyaux. En comparant les tailles des repré- for mining association rules in large data-
bases. In Proceedings of 20th International
1
Consulter http://fimi.cs.helsinki.fi/. Conference on Very Large Data Bases, Sep-
tember 12-15, pages 487-499, Morgan Kauf- In Proc. 20ème Journées Bases de Données
mann, 1994. Avancées BDA’2004, Montpellier (France),
[2] Y. Bastide, R. Taouil, N. Pasquier, G. pages 535-554, Novembre 2004.
Stumme and L. Lakhal. Levelwise search of [11] A. Casali, R. Cicchetti, L. Lakhal et S.
frequent patterns with counting inference. In Lopes. Couvertures parfaites des motifs fré-
16èmes journées de bases de données avan- quents. Numéro thématique Base de données
cées, 2000. avancées pour XML et le web de la revue
[3] J.-F. Boulicaut and A. Bykowski. Frequent Ingénierie des Systèmes d’Information (ISI),
closures as a concise representation for bi- 10(2) :117-138, 2005.
nary data mining. In Lecture Notes in Arti- [12] C. T. Diop. Etude et mise en oeuvre des as-
ficial Intelligence, PaKDD’00, volume 1805, pects itératifs de l’extraction de règles d’as-
pages 62-73, Kyoto(Japan), April 18-20, sociation dans une base de données. Thèse de
Springer-Verlag, 2000. Doctorat, Université de Tours, France, 2003.
[4] J.-F. Boulicaut, A. Bykowski and C. Rigotti. [13] M. R. Garey and D. S. Johnson. Computers
Free-sets : a condensed representation of boo- and Intractability : A Guide to the Theory
lean data for the approximation of frequency of NP-Completeness, Freeman, New York,
queries. Data Mining and Knowledge Disco- 1979.
very, 7 (1), 5-22, 2003. [14] A. Giacometti. Une contribution au dévelop-
pement de base de données inductives. Rap-
[5] C. Bucila, J. Gehrke, D. Kifer, and W. M.
port d’Habilitation à Diriger des Recherches,
White. Dualminer : A dual-pruning algo-
Laboratoire d’informatique (LI), Université
rithm for itemsets with constraints. Data Mi-
François-Rabelais de Tours, 2005.
ning and Knowledge Discovery, 7(3) : 241-
272, 2003. [15] A. Giacometti, D. Laurent, and C. T. Diop.
Condensed representations for sets of mining
[6] A. Bykowski and C. Rigotti. A condensed
queries. In First ECML/PKDD-2002 Inter-
representation to find frequent patterns. In
national Workshop on Knowledge Discovery
PODS Int. Conf. Principles of Database Sys-
in Inductive Databases (KDID02), pages 5-
tems, 2001.
19, 2002.
[7] B. A. Davey and H. A. Priestley. Introduc- [16] A. Giacometti, D. Laurent, and C. T. Diop.
tion to lattices and order, Cambridge Uni- Condensed representations for sets of mining
versity Press, second edition, 2002. queries. In P.L. Lanzi and R. Meo, editors,
[8] T. Calders et B. Goethals. Mining all non- Database Support for Data Mining Applica-
derivable frequent itemsets. In Proceedings of tions, LNCS 2682, pages 250-269. Springer
the 6th European Conference on Principles Verlag, 2004.
and Practice of Knowledge Discovery in Da- [17] A. Giacometti, D. Laurent, and C. T. Diop.
tabases, PKDD 2002, LNCS, volume 2431, Iterative computation of mining queries ba-
pages 74-85, Springer 2002. sed on condensed representations. In 19ièmes
[9] T. Calders et B. Goethals. Minimal k-free journées de Bases de Données Avancées
representations of frequent sets. In Proc. of (BDA2003), pages 187-206, 2003.
the 7th European Conference on Principles [18] C. A. Gunter, T.-H. Ngair, and D. Subrama-
and Practice of Knowledge Discovery in Da- nian. The common order-theoretic structure
tabases, PKDD 2003, LNCS, volume 2838, of version spaces and ATMS’s. Artificial In-
pages 71-82, Springer, 2003. telligence, 95(2) :357-407, 1997.
[10] A. Casali, R. Cicchetti, L.Lakhal et S. Lopes. [19] H. Hirsh. Generalizing Version Spaces. Ma-
Motifs essentiels et inférence des fréquences. chine Learning, Vol. 17(1) : 5-46, 1994.
[20] H. Hirsh. Theoretical underpinnings of ver- [30] T. Mitchell. Version Spaces : An Approach
sion spaces. In Proc. of the 12th Interna- to Concept Learning. PhD thesis, Stanford
tional Joint Conference on Artificial Intelli- University, 1978.
gence, Morgan Kaufmann, 1991. [31] T. Mitchell. Generalization as Search. Arti-
[21] T. Imielinski and H. Mannila. A database ficial Intelligence, Vol. 18 (2), pp. 203-226,
perspective on knowledge discovery. Coomu- 1980.
nications of the ACM, 39 (11) : 58-64, No- [32] T. Mitchell. Machine Learning. McGraw-
vember 1996. Hill, 1997.
[22] B. Jeudy, J.-F. Boulicaut. Using conden- [33] B. Nag, P. Deshpande and D.J. DeWitt.
sed representations for interactive associa- Using a knowledge cache for interactive dis-
tion rule mining. In Proc. of ECML/PKDD covery of association rules. In Proc. of
2002, Helsinki, LNAI vol. 2431, pp. 225-236, KDD’99, pp. 244-253, San Diego, USA, 1999.
Springer-Verlag, 2002.
[34] N. Pasquier, Y. Bastide, R. Taouil and L.
[23] M. Kryszkiewicz. Concise representation of Lakhal. Discovering frequent closed itemsets
frequent patterns bases on disjunction-free for association rules. In ICDT’99 : Procee-
generators. In IEEE Int., Conf., on Data Mi- ding of the 7th International Conference on
ning, pages 305-312, 2001. Database Theory, pages 398-416. Springer-
[24] S. D. Lee, L. De Raedt. An algebra for in- Verlag, 1999.
ductive query evaluation. In Proceedings of [35] L. De Raedt and S. Kramer. The levelwise
the 2nd International Workshop on Know- version space algorithm and its application to
ledge Discovery in Inductive Databases molecular fragment finding. In Proceedings
(KDID’03), 2003. of the Seventeenth International Joint Confe-
[25] S. D. Lee. Constrained mining of patterns rence on Artificial Intelligence, pages 853-
in large databases. PhD Thesis, Albert- 862. Morgan Kaufmann, 2001.
Ludwigs-Universitat, Freiburg im Brisgau, [36] L. De Raedt, M. Jaeger, S.D. Lee, H. Man-
2005. nila. A theory of inductive querying. In Pro-
[26] H. Mannila, H. Toivonen. Multiple uses of ceedings of the 2nd IEEE Conference on
frequent sets and condensed representations. Data Mining, Maebashi, Japan, 2002.
In Proc. of the 2nd International Confe- [37] L. De Raedt. Query evaluation and optimi-
rence on Knowledge Discovery and Data Mi- sation in inductive databases using version
ning (KDD’96), pp. 189-194, Portland, USA, spaces. In Proceedings of the DTDM Work-
1996. shop, EDBT 2002.
[27] H. Mannila and H. Toivonen. Levelwise [38] L. De Raedt. A perspective on inductive da-
search and borders of theories in knowledge tabases. SIGKDD Explorations, 4(2) : 66-77,
discovery, Data Mining and Knowledge Dis- 2002.
covery, Vol. 1(3) : 241-258, 1997.
[39] R. Rymon. Search through Systematic Set
[28] H. Mannila. Inductive databases and conden- Enumeration. In Proc. of Third Int’l Conf.
sed representations for data mining. In on Principles of Knowledge Representation
ILPS’97, pages 21-30, 1997. and Reasoning, 539-550, 1992.
[29] T. Mielikäinen. Summarization Techniques [40] A. Soulet. Un cadre générique de découverte
for Pattern Collections in Data Mining. de motifs sous contraintes fondées sur des
PhD Thesis. Report A-2005-1. Department primitives. Thèse de Doctorat, Université de
of Computer Science, University of Helsinki, Caen Basse-Normandie, France, 2006.
2005.

Article BDA2008

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Article BDA2008

Hochgeladen von

Copyright:

Verfügbare Formate

Représentation condensée à base d’intervalles d’un

1 LANI - Université Gaston Berger de Saint-Louis 2 LI - Université François-Rabelais de Tours

Résumé représentations minimales à base d’intervalles

2 Contexte et état de l’art Dans ce formalisme, le problème de l’ex-

Définition 2 (Représentation condensée). De nombreux travaux portent sur la

Exemple 2. Considérons I1 = [A, ABC], Exemple 3. Considérons l’ensemble

La racine d’un arbre binaire étant de ni-

Lemme 2. Soient X un ensemble d’inter-

Dans le Lemme 1, on énonce deux propriétés De plus, N appartient à XK .

Fig. 2 – Données et paramètres des tests expérimentaux.

Fig. 3 – Résultats avec Mushroom. Fig. 5 – Résultats avec Pumsb.

K |X| |N (X)| |Ymin | gain %

(sup(ϕ, D) ≤ bi ) et d’une requête anti-

Das könnte Ihnen auch gefallen