Sie sind auf Seite 1von 34

Convergence de produits logiciels et

d’information en Fouille de Données (Data


Mining) et Extraction de Connaissance à
partir de Bases de Données (Knowledge
Discovery in Databases)

Xavier Polanco
URI-INIST-CNRS
polanco@inist.fr

Séminaire ADEST - 15 février 2000


X. Polanco Séminaire ADEST - 15/02/2000 1
Plan

● Distinction et concept: Fouille de données (DM) et


Extraction de Connaissance à partir de BD (KDD)
● Fouille de textes (Text Mining)
– Données factuelles versus bibliographiques et
textuelles
● Applications et produits
● Références utiles

X. Polanco Séminaire ADEST - 15/02/2000 2


Emergence du domaine
● Workshops
– 1991, 1993, 1994
● International Conf. on KDD and DM
– 1995, 1996, 1997, 1998, 1999
● European Symposiums
– 1997, 1998, 1999
● Data Mining and Knowledge Discovery Journal
(1997)
X. Polanco Séminaire ADEST - 15/02/2000 3
SIGKDD est créé en 1999

● Special Interest Group Knowledge Discovery in


Databases (1999) de l’Association for Computing
Machinery (ACM)
● SIGMOD (Database Research), SIGIR
(Information Retrieval), and SIGART (artificial
intelligence)
● http://www.acm.org/sigkdd/charter.html

X. Polanco Séminaire ADEST - 15/02/2000 4


Distinction et concept

X. Polanco Séminaire ADEST - 15/02/2000 5


Expressions synonymes

● «Knowledge Discovery in Databases


(KDD), also known as Data Mining, has
emerged in the last decade
● «in reponse to the challenge of turning large
and ubiquitous databases into knowledge
that can be used in practice»
– (Second European Symposium, PKDD’98)
X. Polanco Séminaire ADEST - 15/02/2000 6
Tâche commune
● A partir de données brutes (raw data), il
s’agit de produire de la connaissance utile
(useful knowledge)
– «The notion of finding useful patterns (or nuggest of
knowledge) in raw data has been given various names,
including knowledge discovery in data bases, data
mining, knowledge extraction, information discovery,
information harvesting, data archaeology, and data
pattern processing»
● (Fayyad et al., 1996, p. 3)

X. Polanco Séminaire ADEST - 15/02/2000 7


Extraction de Connaissances à
partir de Bases de Données
(KDD)
● Le terme knowledge discovery in databases,
(KDD), est utilisé depuis 1989
● pour signifier le processus d’extraire de la
connaissance à partir des données, et
● pour souligner le «high-level» dans l’application
de méthodes de fouille de données (data mining)
– (Fayyad et al., 1996, p. 1-34)

X. Polanco Séminaire ADEST - 15/02/2000 8


Distinction

● Le terme «data mining», ou «fouille de données»,


a été habituellement utilisé par les statisticiens, les
analystes de données, et la communauté de
systèmes de gestion de l’information
● Tandis que KDD a été principalement utilisé par
les chercheurs en intelligence artificielle et
apprentissage automatique

X. Polanco Séminaire ADEST - 15/02/2000 9


Pour signifier l’ensemble du
processus
● Le point de vue adopté (en Fayyad et al., 1996) est que
«KDD» désigne l’ensemble du processus d’extraction de
connaissances utiles à partir des données
● Tandis que «data mining» se réfère
– à l’application d’algorithmes pour l’extraction de
formes à partir des données,
– sans considérer les étapes où il est question
d’incorporer la connaissance du domaine et
– de l’interprétation des résultats

X. Polanco Séminaire ADEST - 15/02/2000 10


Concept
● Le processus total de trouver et d’interpréter des
formes (patterns) à partir des données, est reconnu
sous le nom de ECBD (KDD)
– un processus homme-machine interactif et
itératif, basé sur des algorithmes de «data
mining»,
– et qui suppose l’interprétation des formes
générées par ces algorithmes

X. Polanco Séminaire ADEST - 15/02/2000 11


Convergence de domaines
● ECBD est le résultat de la ● Les systèmes de ECBD
convergence de sont donc basés sur de
recherches en : – méthodes
– apprentissage automatique – algorithmes
– reconnaissance de formes – techniques
– bases de données ● provenant de ces
– statistique
différents domaines
– intelligence artificielle
– visualisation de données

X. Polanco Séminaire ADEST - 15/02/2000 12


Etapes du processus
● 1. Compréhension du domaine d’application
● 2. Création du fichier cible (target data set)
● 3. Traitement des données brutes (data cleaning and preprocessing)
● 4. Réduction des données (data reduction and projection)
● 5. Définition des tâches de fouille de données
● 6. Choix des algorithmes appropriés de fouille de données
● 7. Fouille de données (data mining)
● 8. Interprétation des formes extraites (mined patterns)
● 9. Validation des connaissances extraites
– (source : Fayyat et al., 1996, p. 1-34)

X. Polanco Séminaire ADEST - 15/02/2000 13


Text-Mining : Fouille de textes
et/ou données textuelles

X. Polanco Séminaire ADEST - 15/02/2000 14


«Data Mining» et «Text
Mining»
● L’expression «Data Mining» est en général
utilisée quand on travaille sur des données
structurées dans des bases relationnelles
● On parle de «Text Mining» lorsqu’il s’agit de
données textuelles (textual data)
● «Text Mining» est l’extraction d’information utile
à partir des formes non manifestes (hidden
patterns) dans des grands corpus de textes
– (Feldman et al. 1998)
X. Polanco Séminaire ADEST - 15/02/2000 15
Fouille de données textuelles
● «Text Mining» est un nouveau domaine de recherche qui
essaye de résoudre le problème de la surabondance
d’information textuelle
● utilisant des techniques de :«data mining», «machine
learning», «information retrieval», «natural-language
understanding», «case-based reasoning», «statistics», and
«knowledge management»
● le but est d’aider les personnes à gagner de la connaissance
à partir de grandes quantités de textes semi-structurés ou
non-structurés
– (source : IJCAI’99 - Text Mining Workshop)
X. Polanco Séminaire ADEST - 15/02/2000 16
Processus de la fouille de textes
(IJCAI’99 Text Mining Workshop)

Les processus que la fouille de textes implique sont :


● Pré-traitements de la collection de documents
– (p. ex. catégorisation des textes ou extraction de termes)
● Stockage et Indexation des documents
● Analyse des représentations intermédiaires
– (via p. ex. analyse de distribution, classification
automatique (clustering), analyse de tendances,
découverte de règles d’association)
● Visualisation des résultats.

X. Polanco Séminaire ADEST - 15/02/2000 17


Etapes de la fouille de textes
● 1. Sélection du corpus (data selection)
● 2. Extraction terminologique
– extraction des termes
– filtrage des termes extraits
● 3. Classification
– automatique (clustering)
– taxonomie (classement)
● 4. Visualisation des données : cartographie (graphes, ...)
● 5. Interprétation des résultats

X. Polanco Séminaire ADEST - 15/02/2000 18


Au niveau inter-document

● Les opérations de «Text mining» ont pour


objet la distribution de concepts au niveau
inter-document
● Le but est de découvrir les concepts et leurs
rapports tels qu’ils se trouvent dans la
collection considérée comme un tout
– (Feldman et al. 1998)

X. Polanco Séminaire ADEST - 15/02/2000 19


Relations conceptuelles

● Un instrument central de la fouille de


données textuelles est l’analyse des
relations conceptuelles (concept
relationships)
– Une collection d’éléments séparés (documents)
– Chaque document représente un ensemble de
concepts (termes)

X. Polanco Séminaire ADEST - 15/02/2000 20


Analyse des relations
conceptuelles

● L’analyse des relations conceptuelles


cherche à découvrir les rapports entre
concepts, tels que nous pouvons les dégager
de la totalité du corpus disponible

X. Polanco Séminaire ADEST - 15/02/2000 21


Exemple
● Un nombre croissant de documents
(articles, brevets) à propos de la société Y et
le produit Z peut indiquer un changement
d’orientation concernant les intérêts de la
firme
● Il faut voir que l’information n’est pas
fournie par un seul document isolé, mais par
l’ensemble de la collection
X. Polanco Séminaire ADEST - 15/02/2000 22
Marché et Produits

X. Polanco Séminaire ADEST - 15/02/2000 23


Evaluation de l’ACM (1)
● Le domaine de l’Extraction de Connaissances et
de la Fouille de Données se trouve aujourd’hui au
niveau où était 15 ans auparavant le domaine des
bases de données
● Il y a plus d’une centaine de sociétés fournissant
des outils de fouille de données, des applications,
de conseil (consulting), de la formation et des
séminaires, et même de «hardware» spécialisé

X. Polanco Séminaire ADEST - 15/02/2000 24


Evaluation de l’ACM (2)
● Le domaine se trouve au début de la phase
d’adoption par le marché, et l’on prévoit que dans
3 à 5 ans, la phase de produits commerciaux
passera à l’état de maturité
● Dans les prochains 10 ans, la technologie de la
Fouille de Données et de l’Extraction de
Connaissance à partir de Données deviendra une
partie intégrante des technologies de l’information
dans le monde des entreprises
X. Polanco Séminaire ADEST - 15/02/2000 25
Produits et Sociétés

● 109 produits logiciels (12 européens)


– http://www.kdnuggets.com/companies/products.html
● 67 sociétés consultant et formation
– http://www.kdnuggets.com/companies/consulting.html
– voir aussi «Yahoo List of Data Mining Companies»

X. Polanco Séminaire ADEST - 15/02/2000 26


Exemples de produits
d’information
● IST
– space : sur des données de l’observatoire Palomar
(SKICAT), et sur des images des volcans de Venus
(clustering)
– chimie : fouille de données sur des articles et des
brevets en chimie (CLARIT, IBM)
– biologie : sur la séquence des protéines

X. Polanco Séminaire ADEST - 15/02/2000 27


Exemples de produits
d’information
● Santé
– sur des données de santé (KEFIR), pour la détection de
fraudes dans l’assurance maladie (arbres de décisions)
● Marchés financiers
– prédiction de risques en crédit (arbres de décisions)
● Marketing
– pour l’analyse de consommateurs (facturation, code
barre)

X. Polanco Séminaire ADEST - 15/02/2000 28


Références utiles

X. Polanco Séminaire ADEST - 15/02/2000 29


Sites dans la Toile
● Knowledge Discovery Nuggets Directory: Data Mining
and Knowledge Discovery Ressources
– http://www.kdnuggets.com/index_kdm.htm
● ACM Special Interest Group (SIGKDD) home page
– http://www.acm.org/sigkdd
● Data Mining and Knowledge Discovery Journal
– http://www.wkap.nl/jrnltoc.htm
● Pour les deux derniers symposiums européens
– http://www.sciences.univ-nantes.fr/pkdd98/
– http://lisp.vse.cz/pkdd99/

X. Polanco Séminaire ADEST - 15/02/2000 30


Définitions et Terminologie
● Data Mining Glossary
– http://www.twocrows.com/glossary.htm
● Glossary of Data Mining Terms
– http://www.pilotsw.com/r_and_t/whtpaper/datamine/dmglos.htm
● Glossary of Machine Learning and KDD Terms
– http://orgwis.gmd.de/projects/explora/terms.html
● Data Warehouse Terminology
– http://www.credata.com/research/terminology.html

X. Polanco Séminaire ADEST - 15/02/2000 31


Bibliographie
● Fayyad et al., Advances in Knowledge Discovery and Data
Maning. Menlo Park, Calif., AAAI Press / The MIT Press,
1996 (611 p.)
● IEEE Expert, 1996, vol. 11, n° 5, numéro consacré au
«data mining»
● Y. Kodratoff «L’Extraction de Connaissances à partir de
Données», Reveu Electronique sur l’Apprentissage par les
Données, vol. 1, n° 1, juin 1997, p. 1-28
– http://chirouble.univ-lyon2.fr/gtra/numero1/Kodratoff_Mai97_fr.htm

X. Polanco Séminaire ADEST - 15/02/2000 32


Bibliographie (suite)
● Principles of Data Mining and Knowledge Discovery (J.M.
Zytkow et M. Quafafou, eds). Berlin, Springer Verlag,
1998 (482 p.)
– Sur «text mining», voir Feldman et al. in Principles (ci-
dessus)
– Sur «visualisation», voir Polanco et al. in Principles
(ci-dessus)
● Carla E. Brodley et al. «Knowledge Discovery and Data
Mining», American Scientist, vol. 87, January-February
1999, p. 54-61

X. Polanco Séminaire ADEST - 15/02/2000 33


Bibliographie (suite)
● IEEE Computer, Special Issue on Data Mining, vol. 32, n°
8, 1999

X. Polanco Séminaire ADEST - 15/02/2000 34

Das könnte Ihnen auch gefallen