Beruflich Dokumente
Kultur Dokumente
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Data Mining, fouille de donnes: Data Mining, fouille de donnes: Concepts et techniques Concepts et techniques
Ce cours est trs proche du cours diffus sur le net par Jiawei Han et Micheline Kamber Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada http://www.cs.sfu.ca Quils en soient remercis
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Introduction Introduction
Motivation: Pourquoi le data mining (fouille de donnes)? Quest-ce que le data mining? Fouille de donnes: Sur quel type de donnes? Fonctionnalits de la fouille de donnes Classification des systmes de data mining
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Submergs par les donnes, manque de connaissance! Solution: Entrepts de donnes et fouille de donnes
Entrepts de donnes et analyse on-line Extraction de la connaissance intressante (rgles, rgularits, patterns, contraintes) partir de grandes bases de donnes
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Evolution de la technologie des bases de Evolution de la technologie des bases de donnes donnes
1970: Bases de donnes relationnelles (RDBMS) 1980: RDBMS, modles de donnes avancs (extension du relationnel, OO, ...) et DBMS orients application (spatial, scientifique, ) 1990 - 2000: Fouilles de donnes et entrepts de donnes, BDD multimdia, bases de donnes Web
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Data Mining: Un processus de dcouverte de connaissance Data Mining: Un processus de dcouverte de connaissance
Evaluation du modle Data Mining Donnes pertinentes Data Warehouse Data Cleaning Intgration de donnes Slection Connaissance
Bases de donnes
Mars 2005 M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Etapes dun processus de dcouverte de connaissance Etapes dun processus de dcouverte de connaissance
Connatre le domaine dapplication
Connaissance pertinente dj tablie et buts de lapplication
Slection des donnes cibles Data cleaning, pr traitement Rduction de donnes et transformation: Choix des fonctions du data mining
Synthse, rsum, classification, rgression, association, clustering.
Utilisation de la connaissance
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Architecture dun systme type de data mining Architecture dun systme type de data mining
Interface utilisateur
Evaluation du Pattern Moteur de Data mining Serveur de base de donnes ou dentrept de donnes Filtrage Base de connaissance
Bases de donnes
Mars 2005 M. Fieschi Data mining
Data Warehouse
Master EISIS Fvrier 2006
Data mining: Sur quel type de donnes? Data mining: Sur quel type de donnes?
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Intrt des modles (patterns) dcouverts Intrt des modles (patterns) dcouverts
Un systme de data mining gnre des milliers de patterns, tous ne sont pas intressants. Intrt
Un pattern est intressant si il est
facilement compris par les humains, valide sur donnes nouvelles ou testes avec un certain degr de certitude, potentiellement utile, nouveau, ou validant certaines hypothses que lon cherche confirmer
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Statistiques
Fouille de donnes
Visualisation
Science de linformation
Autres disciplines
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Connaissance fouiller
Caractrisation, discrimination, association, classification, dviation et analyse des outliers
Techniques utilises
Bases de donnes, data warehouse (OLAP), machine learning, statistiques, visualisation, rseaux de neurones.
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Entrepts de donnes (data warehousing) Entrepts de donnes (data warehousing) et technologies pour la fouille de donnes et technologies pour la fouille de donnes (data mining) (data mining)
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Traitement de linformation
Pour requtes, analyse statistique de base, rapports, tableaux croiss, diagrammes, graphiques
Traitement analytique ++
Analyse multidimensionnelle des donnes
Data mining
Dcouverte de connaissances et de modles Pour raliser des classifications, des analyses de prdiction.
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Data Warehousing et technologies pour la fouille Data Warehousing et technologies pour la fouille de donnes de donnes
Quest-ce quun data warehouse? Un modle de donnes multi dimensionnelles Architecture du data warehouse Implmentation dun data warehouse Du data warehousing la fouille de donnes
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Une base de donnes daide la dcision qui est entretenue de manire spare de la base de donnes oprationnelle de lorganisation Aide au traitement de linformation en fournissant une plateforme de donnes historiques consolides pour lanalyse. Data warehousing: Le processus de construction et dutilisation du data warehouse
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Organis autour des sujets majeurs, tels que personne, client, Sujet= Faits + dimensions Centr sur la modlisation et lanalyse de donnes pour les dcideurs, non pour des oprations quotidiennes Fournit une vue simple, concise sur des sujets particuliers en excluant des donnes inutiles dans le processus daide la
Produits
Priodes
IDper anne trimestre mois jour
Magasins
IDmag nom ville dpartement pays
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
La mise jour de donnes oprationnelles nest pas ralise dans le data warehouse
Ne demande pas de transactionnel et mcanismes de contrle daccs concurrentiels Demande uniquement deux oprations en accs aux donnes: Chargement initial de donnes et accs aux donnes.
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Enregistrements accs. dizaines Nb utilisateurs Taille de la Bdd Mtrique milliers 100MB-GB transaction
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Laide la dcision (AAD) demande des donnes historiques. Les Bdd oprationnelles ne les grent pas toujours Consolidation de donnes: LAAD demande la consolidation (agrgation, rsum) de donnes issues de sources htrognes Qualit des donnes: Habituellement diffrentes sources utilisent des reprsentations de donnes non cohrentes, des codes et des formats rconcilier
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Un data warehouse est bas sur un modle de donnes multidimensionnel qui voit les donnes sous forme de data cube Un data cube , comme par exemple les ventes, permet de modliser et de voir les donnes relatives aux ventes en de multiples dimensions
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
Une hirarchie de concepts: Dimension (lieu) Une hirarchie de concepts: Dimension (lieu)
Tous hpital Timone Tous ... Nord
service
UF
consultation
...
hospitalisation ...
HdJ
Mars 2005
M. Fieschi
Data mining
Master EISIS
Fvrier 2006
H pi ta
Activit
Actes
Mois
Mars 2005 M. Fieschi Data mining Master EISIS Fvrier 2006
Date
Mars 2005
M. Fieschi
Data mining
Master EISIS
Etablissement
Fvrier 2006
4trim
Ac t