Sie sind auf Seite 1von 17

Introduction aux entrepts de

PROJET
donnes
(2)
Bernard ESPINASSE
Professeur Aix-Marseille Universit (AMU)
Ecole Polytechnique Universitaire de Marseille
Septembre 2013

Introduction et dfinition dun entrept de donnes


Architecture fonctionnelle dun entrept
Modlisation d'un entrept de donnes
Implantation dun ED
Alimentation dun entrept de donnes
Exploitation dun entrept
Domaines dapplication des entrepts, succs stories

Introduction au entrepts de donnes - Bernard ESPINASSE -

Bibliographie
Ouvrages :
! Benitez-Guerrero E., C. Collet, M. Adiba, Entrepts de donnes : Synthse et
analyse , Rapport de recherche IMAG NIMAG-RR - 99-1017-I, 1999.
! Franco J-M., Le Data Warehouse (Le Data Mining) . Ed. Eyrolles, Paris,
1997. ISBN 2-212-08956-2
! Gardarin G., Internet/intranet et bases de donnes , Ed. Eyrolles, 1999,
ISBN 2-212-09069-2.
! Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan
Kaufmann Publishers, 2004.
! Kimball R., M. Ross, Entrepts de donnes : guide pratique de modlisation
dimensionnelle , 2dition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1.
Cours :
! Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2
! Cours de P. Marcel, Univ. de Tours
! Cours de G. Gardarin, Univ. de Versailles
! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble
! Cours de G. Gamper, Univ. Bolzano.

Introduction au entrepts de donnes - Bernard ESPINASSE -

Plan
1. Introduction et dfinition dun entrept de donnes (ED)
2. Architecture fonctionnelle dun ED

1. Introduction et dfinition dun


entrept de donnes

3. Modlisation d'un ED
4. Implantation d'un ED

!
!
!
!

5. Alimentation dun ED
6. Exploitation dun ED

Dfinition dun entrept de donnes


Entrept de donnes versus bases de donnes oprationnelles
Entrept de donnes versus infocentre
Processus gnral de construction et exploitation dun entrept

7. Domaines dapplication des entrepts et succes stories

Introduction au entrepts de donnes - Bernard ESPINASSE -

Introduction au entrepts de donnes - Bernard ESPINASSE -

Dfinition dun entrept de donnes (Data Warehouse)


Caractristiques des donnes dun ED
Orientes sujet : un ED rassemble et organise des donnes
associes aux diffrentes structures fonctionnelles de
lentreprise, pertinentes pour un sujet ou thme et ncessaire aux
besoins danalyse
Intgres : les donnes rsultent de lintgration de donnes
provenant de diffrentes sources pouvant tre htrognes
Historises : les donnes dun ED reprsentent lactivit dune
entreprise durant une certaine priode (plusieurs annes)
permettant de danalyser les variations dune donne dans le
temps
Non-volatiles : les donnes de lED sont essentiellement utilises
en interrogation (consultation) et ne peuvent pas tre modifies
(sauf certain cas de rafrachissement).

Dfinition de Inmon (1992) :


Lentrept de donnes (ED) est une
collection de donnes thmatiques,
intgres, non volatiles et historises,
organises pour le support d'un processus
d'aide la dcision

Introduction au entrepts de donnes - Bernard ESPINASSE -

De lentrept laide la dcision

Entrept de donnes versus Bases de donnes


oprationnelles

Entreposage des donnes : avant dtre charges dans lentrept, les donnes
slectionnes doivent tre :
extraites des sources (internes : BD oprationnelles, externes : BD et fichiers
notamment issus du Web)
soigneusement pures afin dliminer des erreurs et rconcilier les diffrentes
smantiques associes aux sources)

BD oprationnelles
Niveau de dtail des
! Trs dtaill
informations
Homognit des
! Informations homognes
informations

Exploitation des donnes de lED : systmes dcisionnels


A partir des donnes dun ED diverses analyses peuvent tre faites, notamment par
des techniques On-Line Analitical processing (OLAP) ou de fouille de donnes (Data
Mining) et de visualisation.
Notons que les informations et connaissances obtenues par exploitation de lED ont un
impact direct sur les bnfices de lentreprise (augmentation des ventes par un
marketing plus cibl, amlioration de la rotation des stocks, )
Introduction au entrepts de donnes - Bernard ESPINASSE -

Introduction au entrepts de donnes - Bernard ESPINASSE -

Fonctions de lentreprise
! Donnes organises par
concernes par les
processus fonctionnel
donnes
Comparaison de donnes ! Non : Archivage ou mise
sur plusieurs annes jour des donnes
! Consultation, mais surtout
Oprations ralises sur les
mise jour et ajout de
donnes
donnes

Introduction au entrepts de donnes - Bernard ESPINASSE -

Entrept de donnes
! Donnes agrges,
mtadonnes
! Information pas
ncessairement homognes,
! intgration de donnes
souvent ncessaire
! Donnes orientes sujet
! Oui : Donnes non volatiles,
donnes historises
! Consultation de donnes
uniquement

Entrept de donnes versus Infocentre

Processus gnral de construction et exploitation dun ED


Processus en 3 phases :

Infocentre

Entrept

= collection de donnes orientes sujet,


intgres, volatiles, actuelles,
organises pour le support d'un processus
de dcision ponctuel

= collection de donnes orientes sujet,


intgres, non volatiles et historises,
organises pour le support d'un processus
d'aide la dcision

1 - Construction de la BD dcisionnelle :
!
!
!
!

Modlisation conceptuelle des donnes multiformes et multi-sources


Conception de lentrept de donnes
Alimentation de lentrept (extraire, nettoyer, transformer, charger)
Stockage physique des donnes

2 - Slection des donnes analyser :


!
!
!
!

Besoins danalyse de lutilisateur


Data marts (Magasins de donnes)
Cubes multidimensionnels
Tableaux ou tables bidimensionnels

3 - Analyse des donnes :


! Stastiques et reporting, OLAP, Data Mining

Introduction au entrepts de donnes - Bernard ESPINASSE -

Introduction au entrepts de donnes - Bernard ESPINASSE -

10

Processus gnral de construction et exploitation dun ED


Processus en 3 phases :

2. Architecture fonctionnelle
dun entrept de donnes
!
!
!
!

Introduction au entrepts de donnes - Bernard ESPINASSE -

11

Axes historique et synthtique des donnes


Entrepts de donnes (ED) et Magasins de donnes (MD)
Architecture fonctionnelle dun ED
Composants logiciels dun ED

Introduction au entrepts de donnes - Bernard ESPINASSE -

12

Axes historique et synthtique des donnes dun ED (1)

Axes historique et synthtique des donnes dun ED (1)

Les donnes dun ED se structurent selon 2 axes : synthtique et historique :

Axe synthtique :
tablit une hirarchie dagrgation comprenant :

Donnes fortement
agrges

les donnes dtailles reprsentant les vnements les plus rcents au


bas de la hirarchie

Axe
synthtique

les donnes agrges synthtisant les donnes dtailles


les donnes fortement agrges synthtisant un niveau suprieur les
donnes agrges

Donnes agrges

Axe historique :
Donnes dtailles

comprenant les donnes dtailles historises reprsentant les


vnements passs

Donnes dtailles
historises

Ncessaire de stocker des mta-donnes : informations concernant les donnes


de lED (provenance, structure, mthode utilises pour lagrgation, )

Axe historique

Introduction au entrepts de donnes - Bernard ESPINASSE -

13

14

Entrepts et magasins de donnes (2)

Entrept et Magasins de donnes (1)

Les entrepts de donnes :

L'entrept de donnes - ED (Data Warehouse - DW) :

ncessitent de puissantes machines pour grer de trs grandes bases de


donnes contenant des donnes de dtail historises

! collecte l'ensemble de l'information utile aux dcideurs partir des


sources de donnes (BD oprationnelle, BD externes, Web )

est le lieu de stockage centralis d'un extrait des bases de production.

! centralise l'information dcisionnelle en assurant l'intgration des


donnes extraites, leur prennit dans le temps

lorganisation des donnes est faite selon un modle facilitant la gestion efficace
des donnes et leur historisation.

Les magasins de donnes MD (Data Marts - DM) :


! objectif : supporter efficacement des processus d'analyse de type OLAP
! extraire pour chacun une partie de l'information dcisionnelle de
l'entrept dune partie des donnes utile :

Les magasins de donnes (Data Marts) :


sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en
uvre plus rapidement (6 mois environs)
conus pour laide la dcision partir de donnes extraites dun ED plus
consquent ou de BD sources existantes

! pour une classe d'utilisateurs ou

les donnes extraites sont adaptes pour laide la dcision (pour classe de
dcideurs, usage particulier, recherche de corrlation, logiciel de statistiques,...)

! pour un besoin d'analyse spcifique


! ils sont orients sujet

Introduction au entrepts de donnes - Bernard ESPINASSE -

Introduction au entrepts de donnes - Bernard ESPINASSE -

lorganisation des donnes est faite selon un modle facilitant les traitements
dcisionnels
15

Introduction au entrepts de donnes - Bernard ESPINASSE -

16

Architecture fonctionnelle dun ED : 3 niveaux

Entrepts et magasins de donnes (3)

Prsentation

Niveau exploitation

Entrept
Bd entrept

Exploration

Analyse

Client dcisionnel

Transformation,
fusion

Niveau fusion

Extraction, filtrage

Extraction, filtrage

Extraction, filtrage
Source
ODS Operational Data Store : regroupe les donnes intgres rcupres des sources
CDW Corporate Data Warehouse : regroupe les vues agrges
Introduction au entrepts de donnes - Bernard ESPINASSE -

17

Donnes externes

Niveau extraction

Donnes oprationnelles

BD lgataires

18

Introduction au entrepts de donnes - Bernard ESPINASSE -

Composants logiciels dun ED

Architecture fonctionnelle dun entrept : 3 niveaux


Niveau extraction :

Niveau exploitation

Extraction de donnes des BD oprationnelles (SGBD traditionnel en OLTP) et de


lextrieur :
approche push : dtection instantane des mises jour sur les BD
oprationnelles pour intgration dans lED
approche pull : dtection priodique des mises jour des BD
oprationnelles pour intgration dans lED

Entrept

Exploration

Bd entrept

Client dcisionnel
Analyse

mdiateur

Niveau fusion

Niveau fusion :

Transformation, fusion

Intgration, chargement et stockage des donnes dans la BD entrept


organise par sujets
Rafrachissement au fur et mesure des mises jour

Extraction, filtrage
adaptateur
moniteur

Niveau exploitation :
Rapports, tableaux de bords, visualisation graphiques diverses,
Analyse et lexploration des donnes entreposes (OLAP)
Requtes complexes pour analyse de tendance, extrapolation, dcouverte de
connaissance, (Fouille de donnes)
Introduction au entrepts de donnes - Bernard ESPINASSE -

BD source

BD source

19

Source
Donnes externes

Extraction, filtrage
adaptateur
moniteur
BD source
BD lgataires

Extraction, filtrage
adaptateur
moniteur
BD source
Donnes oprationnelles

Niveau extraction
Introduction au entrepts de donnes - Bernard ESPINASSE -

20

Niveau extraction : sources dinformations htrognes

Niveaux extraction : Moniteur et Adaptateur de sources

Les donnes sources alimentant lED sont :


! gnralement modifies quotidiennement
! fortement htrognes :
! issues de diffrentes sources : BD relationnelles, BD objets, BD
rseaux, fichiers (flat files), documents HTML, bases de connaissances,
! issues de diffrents environnements
Exemple dhtrognit (Goglin 88):
Source dinformation
Environnement
gestion commerciale
progiciel sybase/unix
gestion marketing
progiciel SQL server/NT
gestion financire, paye
mainframe DB2/IBM
suivi de production
oracle/NT
contrle qualit
oracle/NT
gestion du temps
progiciel oracle/unix
gestion des stocks
progiciel oracle/HP
fichier mailings
fichier ASCII
rfrences nationales
document excel

composant logiciel dtectant les mises jour effectues sur la source dinformation
et reprerant les donnes envoyer lED pour sa mise jour ultrieure :
! Utilisation de triggers si les SGBD en disposent
! Sinon interrogation priodique de chaque base locale ou son journal afin
de rcuprer les mises jour effectues durant la dernire priode

Ladaptateur de source (source wrapper) :


composant logiciel traduisant les requtes et les donnes depuis le modle dune
source dinformation locale vers le modle de lED et vice-versa :

Ncessit de composants dalimentation pour lhomognisation et


lintgration de donnes
Introduction au entrepts de donnes - Bernard ESPINASSE -

Le moniteur (source monitor) :

21

! Les bases locales prexistent et sont souvent relationnelles, voire


hirarchiques ou rseaux ou parfois des fichiers

Introduction au entrepts de donnes - Bernard ESPINASSE -

Niveau fusion : Mdiateur

Niveau exploitation : Moteur OLAP et Outils de fouille

Le mdiateur (mediator) :

Moteur OLAP :
composant logiciel permettant sur les donnes de lED ou des Magasins de
donnes :

composant logiciel capable de :

dexcuter des requtes interactives complexes

donner une vision intgre des diffrentes sources dinformation

danalyser interactivement les donnes selon des axes danalyse et niveaux


de dtail particuliers : changement de points de vue, de niveau de dtail

dextraire par des requtes des parties de ces vues intgres :

visualiser des rsultats de ces analyses

! avant dtre dverses dans lED, les donnes doivent tre nettoyes,
transformes, rorganises et souvent filtres

deffectuer les oprations OLTP classiques

! les donnes, en provenance de sources multiples, doivent gnralement tre


intgres ou fusionnes
! cette fusion en gnral assure par union ou jointures de sources multiples,
des slections et agrgats

Outils de fouille de donnes (Data Mining) :


composants logiciels permettant sur les donnes de lED ou des Magasins de
donnes :
lextraction automatique de proprits caches
lextraction automatique de connaissances : connaissances valides,
nouvelles, comprhensibles, pertinentes, implicites, )

le mdiateur sappuie principalement sur le SGBD de lED

Introduction au entrepts de donnes - Bernard ESPINASSE -

22

23

Introduction au entrepts de donnes - Bernard ESPINASSE -

24

Dictionnaire et mta-donnes
Le dictionnaire contient des informations (mta donnes) sur :
! toutes les donnes de lED.
! sur chaque tape lors de la construction de lED;
! sur le passage dun niveau de donnes un autre lors de lexploitation
de lED

Le rle de ces mta-donnes est ainsi de permettre :


! la dfinition des donnes

3 - Modlisation d'un entrept de


donnes
!
!
!
!

! la fabrication des donnes


! le stockage des donnes
! laccs aux donnes

Problmatique de la modlisation multidimensionnelle


concept de fait
concept de dimension
paramtres de hirarchies de dimension

! la prsentation des donnes

Introduction au entrepts de donnes - Bernard ESPINASSE -

25

Introduction au entrepts de donnes - Bernard ESPINASSE -

26

Modlisation multidimensionnelle (1)

Problmatique de la modlisation multidimensionnelle

Soit les donnes relatives aux ventes de 1999 dune entreprise de distribution :

Les analyses dcisionnelles (OLAP) sont directement relies une


modlisation de l'information conceptuelle :
! proche de la perception qu'en a l'analyste
! base sur une vision multidimensionnelle des donnes

On peut distinguer diffrentes perspectives pour observer ces donnes :


une dimension relative la catgorie des produits
une dimension relative la rgion

Cest la modlisation multidimensionnelle :


considre un sujet analys comme un point dans un espace
plusieurs dimensions
les donnes y sont organises de faon mettre en vidence le sujet
analys et les diffrentes perspectives de l'analyse.

Introduction au entrepts de donnes - Bernard ESPINASSE -

27

Introduction au entrepts de donnes - Bernard ESPINASSE -

28

Modlisation multidimensionnelle (2)

Modlisation multidimensionnelle : concept de fait

Considrons plusieurs tables des ventes de chaque anne entre 1997 et 1999
On peut alors observer les donnes dans un espace 3 dimensions :
la dimension catgories produit
la dimension rgions
la dimension temps
Chaque intersection de ces dimensions reprsente une cellule comportant le montant
des ventes :

Un fait :
modlise le sujet de l'analyse
est form de mesures correspondant aux informations de l'activit analyse.
ces mesures sont numriques et gnralement valorises de faon continue,
on peut les additionner, les dnombrer ou bien calculer le minimum, le
maximum ou la moyenne.
Exemple : le fait de Vente peut tre constitu des mesures d'activits
suivantes :
quantit de produits vendus et
montant total des ventes
VENTE

fait
quantit
montant

La modlisation multidimensionnelle a donn naissance aux concepts de fait et de


dimension [Kimball 1996]
29

Introduction au entrepts de donnes - Bernard ESPINASSE -

Modlisation multidimensionnelle : concept de dimension


Le sujet analys, le fait, est analys suivant diffrentes perspectives ou axes
caractrisant ses mesures de lactivit : on parle de dimensions.

mesure d'activit

Introduction au entrepts de donnes - Bernard ESPINASSE -

30

Modlisation multidimensionnelle : hirarchie des


paramtres dune dimension
en OLAP les mesures dun fait sont gnralement analyses selon les
dimensions qui le caractrisent

Une dimension :
modlise un axe d'analyse

ncessaire de dfinir pour chaque dimension ses diffrents niveaux de dtail


dfinissant ainsi une (ou plusieurs) hirarchie(s) de paramtres

se compose de paramtres correspondant aux informations faisant varier les


mesures de l'activit.

La hirarchie de paramtre dune dimension :

Ex: Dans l'exemple prcdent, le fait Vente peut tre analys suivant
diffrentes perspectives correspondant trois dimensions : la dimension Temps, la
dimension Geographie et la dimension Categorie :
TEMPS

GEOGRAPHIE

anne
trimestre
saison
mois
jour

rgion
dpartement
ville

Introduction au entrepts de donnes - Bernard ESPINASSE -

CATEGORIE

dfinis des niveaux de dtail de l'analyse sur cette dimension


Ex:
Dimension temps : H1 : jour ! mois ! trimestre ! anne ; H2 : jour ! mois
! trimestre ! anne ; H3 : jour ! mois ! saison ! anne ;
Dimension gographie : ville ! dpartement ! rgion (chaque ville
appartient un dpartement qui est situ dans une rgion)

typeProduit
gamme
nomProduit
couleur

Dimension catgorie : couleur ! nomProduit ! gamme ! typeProduit


(chaque produit appartient une gamme de produit qui appartient un type de
produit)
31

Introduction au entrepts de donnes - Bernard ESPINASSE -

32

Stratgies dimplantation dun ED


3 stratgies :

1 - Usage dun SGBD Relationnel (systmes ROLAP)

4 - Implantation d'un entrept de


donnes
!
!
!
!

Stratgies dimplantation dun ED


Schma en toile (star schema)
Schma en flocon (snowflake schema)
Schma en constellation (fact constellation schema)

Introduction au entrepts de donnes - Bernard ESPINASSE -

! les SGBDR reprsentant plus de 80% des SGBD : ils sont principalement
envisags pour le dveloppement dED mais doivent tre adapts
! Ils doivent cependant tre adapts car ils nont pas les caractristiques
adquates pour rpondre aux besoins des ED.

2 - Usage dun SGBD Multidimensionnel (systmes MOLAP)


! Un SGBD Multidimensionnel (SGBDM) est un SGBD capable de stocker et
traiter des donnes multidimensionnelles
! A ce jour pas encore de cadre technologique commun pour le dveloppement
de tels systmes : chaque produit est spcifique

3 - Usage dun SGBD Hybride (systmes HOLAP)


! Tire profit des avantages des technologies ROLAP et MOLAP :
! un ROLAP pour stocker, grer les donnes dtailles ET
! un MOLAP pour stocker, grer les donnes agrges

33

Introduction au entrepts de donnes - Bernard ESPINASSE -

34

Schma en toile (1)

Schma dun entrept de donnes

Caractristiques :

Niveau logique ROLAP :

structure simple

3 grands types de schmas :

une table centrale : la table des faits :

schma en toile (star schema)

objets de l'analyse

schma en flocon (snowflake schema)

taille trs importante

schma en constellation (fact constellation)

nombreux champs
des table priphriques : les tables de dimensions :

le schma en toile est souvent utilis pour l'implantation physique

dimensions de l'analyse
taille peu importante
peu de champs

Introduction au entrepts de donnes - Bernard ESPINASSE -

35

Introduction au entrepts de donnes - Bernard ESPINASSE -

36

Schma en toile (2)

Schma en toile (3)

Ex 1 : Vente de mdicaments dans des pharmacies

Ex 2 : Ventes darticles dans un supermarch

TEMPS
VENTE
anne
trimestre
saison
mois
jour

anne
rgion
typProduit
quantit
montant

BASKET

CATEGORIE

PRODUCT
SALE

basketId
payment

typeProduit
gamme
nomProduit
couleur

basketId
customerId
promotionId
storeId
dateId
productId
quantit
prix

CUSTOMER
customerId
income
income range
gender
age
age range

GEOGRAPHIE
rgion
dpartement
ville

Schma en toile modlisant les analyses des quantits et des montants des mdicaments
dans les pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique

productId
productName
brand
brandGroup
subCategory
price
priceRange

DATE

PROMOTION

LOCATION

promotionId
startDate
endDate
discountType

storeId
storeName
city
region
country

dateId
day
month
quarter
year

Table de faits : Vente


Tables de dimension : Temps, Catgorie, Gographie
Introduction au entrepts de donnes - Bernard ESPINASSE -

37

Introduction au entrepts de donnes - Bernard ESPINASSE -

Schma en toile (4)

Schma en toile (5)

Associ Ex 2 :

Normalisation de la table de faits :

un fait :

38

! normalisation en Boyce-Codd Normal Form (BCNF)


Rappel : une relation R est en BCNF si :
"x ! y DF dfinie sur r , x contient une cl de R
soit : chaque attribut non cl dpend fonctionnellement de la seule cl de
la relation

il a t achet 3 exemplaires 1 euro (SALE)


du produit pid3
par le client cid1
la date did3
dans le magasin mid2 (store)

Normalisation des tables de dimensions :

dans le chariot cid8 (basket)


correspondant la promotion prid1

elles reprsentent une ou plusieurs hirarchies


elles contiennent des donnes redondantes
faut-il les normaliser ?
la table des faits constitue l'essentiel du stockage
pas/peu de mises jour des dimensions
la perte d'espace n'est donc pas significative
! tables de dimensions : NON normalises

un lment de la dimension location :


store id mid2
store name rondpoint
city blois
region centre
country France

Introduction au entrepts de donnes - Bernard ESPINASSE -

39

Introduction au entrepts de donnes - Bernard ESPINASSE -

40

Schma en flocon (1)

Schma en flocon (2)


Ex 3: Vente de mdicaments dans des pharmacies

Un modle en flocon : une volution du schma en toile avec :


une dcomposition des dimensions du modle en toile en sous hirarchies.
le fait est conserv et les dimensions sont clates conformment sa hirarchie des
paramtres
cela conduit une normalisation des tables de dimensions :
! structure hirarchique des dimensions
! un niveau infrieur identifie un niveau suprieur

SAISON

VENTE

nomSaison

jour
ville
nomProduit
quantit
montant

TYPE

TEMPS
jour
nomMois
nomSaison

MOIS
nomMois
numeroMois
trimestre

Avantage de cette modlisation :

GEOGRAPHIE

typeProduit

CATEGORIE
nomProduit
typeproduit
nomGame
nomCouleur

GAMME
nomGamme

ville
dpartement

TRIMESTRE

! formaliser une hirarchie au sein d'une dimension.


! maintenance des tables de dimensions simplifie
! rduction de la redondance

trimestre
anne

dpartement
codePostal
rgion

ANNEE

Inconvnient de cette modlisation :

anne

! induit une dnormalisation des dimensions gnrant une plus grande


complexit en termes de lisibilit et de gestion.
! navigation coteuse

COULEUR
nomCouleur

REGION
rgion

Chaque dimension du schma en toile prcdent est dnormalise


41

Introduction au entrepts de donnes - Bernard ESPINASSE -

DEPARTEMENT

Schma en constellation

Introduction au entrepts de donnes - Bernard ESPINASSE -

42

Pr-agrgation

Un modle en constellation :
fusionne plusieurs modles en toile qui utilisent des dimensions communes.
comprend en consquence plusieurs faits et des dimensions communes ou non
Ex : Vente de mdicaments dans des pharmacies
TEMPS

VENTE

anne
trimestre
saison
mois
jour

MEDICAMENTS

PRESCRIPTION

catgorie
molcule
effetsSecondaires
posologie

anne
catgorie
rgion
nbMdicament
honoraires

anne
typeproduit
rgion
quantit
montant

Agrgation des faits selon une ou plusieurs dimensions


2 moyens de les reprsenter :

CATEGORIE

1. une table des faits spars/ddis avec les tables pour les dimensions
correspondantes

typeproduit
gamme
nomProduit
couleur

2. dans la mme table des faits, en codant les niveaux hirarchiques dans
les tables de dimensions

GEOGRAPHIE
rgion
dpartement
ville

une constellation est constitue de 2 schmas en toile :


! l'un correspond aux VENTEs effectues dans les pharmacies et
! l'autre analyse les PRESCRIPTIONs des mdecins
les dimensions Temps et Gographie sont partages par les faits PRESCRIPTION et
VENTE.
Introduction au entrepts de donnes - Bernard ESPINASSE -

43

Introduction au entrepts de donnes - Bernard ESPINASSE -

44

Processus dalimentation dun ED


Le processus dalimentation dun ED (ou entreposage des donnes)
consiste :
! rassembler de multiples donnes sources souvent htrognes
! les homogniser

5 - Alimentation dun Entrept


de donnes
!
!
!
!
!

Homognisation faite selon des rgles prcises


Ces rgles :
! sont mmorises sous forme de mta-donnes (information sur les
donnes) stockes dans le dictionnaire de donnes

Processus gnral dalimentation dun ED


Prparation des donnes
Intgration des donnes
Agrgation des donnes
Personnalisation des donnes (customisation)

Introduction au entrepts de donnes - Bernard ESPINASSE -

! permettent dassurer des tches dadministration et de gestion des


donns entreposes.

45

Processus dalimentation dun ED

ETL tools (Extract Transform Load)


Support et/ou automatisation des tches suivantes :

Aprs avoir conu le modle des donnes, comment alimenter lED ?

! problmatique de lETL (Extracting Transforming and Loading)


4 tapes :

1.

Slection des donnes sources

2.

Extraction des donnes

3.

Nettoyage et Transformation

4.

Chargement

Introduction au entrepts de donnes - Bernard ESPINASSE -

46

Introduction au entrepts de donnes - Bernard ESPINASSE -

TACHES
Extraction
Nettoyage
Transformation
Chargement
Rplication
Analyse
Transfert de donnes haut dbit
Test de qualit
Analyse des mta donnes

47

Introduction au entrepts de donnes - Bernard ESPINASSE -

SUPPORT
accs aux diffrentes sources
recherche et rsolution des
inconsistances dans les sources
entre diffrents formats, langages, etc.
des donnes dans lentrept
des sources dans lentrept
Ex : dtection de valeurs non valides ou
inattendues
pour les trs grands entrepts
Ex : pour correction et compltude
aide la conception

48

1 - Tche de slection des donnes sources

2 - Tche dExtraction des donnes

Quelles donnes de production faut-il slectionner pour alimenter lED?

Un extracteur (wrapper) est associ chaque source de


donnes :

! Toutes les donnes sources ne sont forcment pas utiles


Ex : Doit-on prendre ladresse complte ou sparer le code postal ?

! Il slectionne et extrait les donnes

! Les donnes slectionnes seront rorganises pour devenir des


informations.

! Il les formate dans un format cible commun


! Utilisation dinterfaces comme ODB, OCI, JDBC.

! La synthse de ces donnes sources a pour but de les enrichir.

! Le format cible est en gnral le modle Relationnel

! La dnormalisation des donnes cre des liens entre les donnes et


permet des accs diffrents

Introduction au entrepts de donnes - Bernard ESPINASSE -

49

3 - Tche de Nettoyage et Transformation des donnes

3.1 Tche de Nettoyage des donnes


! fonctions de normalisation

Objectifs du nettoyage :
! rsoudre le problme de consistance des donnes au sein de chaque
source
! une centaine de type dinconsistances ont t rpertories
! 5 30 % des donnes des BD commerciales sont errones

! fonctions de conversion
! usage de dictionnaires de synonymes ou dabrviations
Dfinition de table de rgles :

Types dinconsistances :
! prsence de donnes fausses ds leur saisie :
! fautes de frappe
! diffrents formats dans une mme colonne
! texte masquant de linformation (e.g., N/A)
! valeur nulle
! incompatibilit entre la valeur et la description de la colonne
! duplication dinformation,
! persistance de donnes obsoltes
! confrontation de donnes smantiquement quivalentes mais syntaxiquement
diffrentes

Introduction au entrepts de donnes - Bernard ESPINASSE -

50

Introduction au entrepts de donnes - Bernard ESPINASSE -

51

valeur source
Mr
monsieur
Masculin
M
Msieur

remplac par

Valeur cible
M
M
M
M
M

Exemple de conversions :

nettoyage = jointure + projection

Introduction au entrepts de donnes - Bernard ESPINASSE -

52

3.2 Tche de Transformation des donnes

4 - Tche de Chargement des donnes

Objectifs :

Objectif :
charger les donnes nettoyes et prpares dans lED

Suppression des incohrences smantiques entre les sources pouvant


survenir lors de lintgration :
! des schmas :
! problme de modlisation : diffrents modles de donnes sont utiliss
! problmes de terminologie : un objet est dsign par 2 noms diffrents, un
mme nom dsigne 2 objets diffrents
! incompatibilits de contraintes : 2 concepts quivalents ont des
contraintes incompatibles
! conflit smantique : choix de diffrents niveaux dabstraction pour un mme
concept
! conflits de structures : choix de diffrentes proprits pour un mme
concept
! conflits de reprsentation : 2 reprsentations diffrentes choisies pour les
mmes proprits dun mme objet

Cest une opration :


! qui risque dtre assez longue
! plutt mcanique et la moins complexe.
Il est ncessaire de dfinir et mettre en place :
! des stratgies pour assurer de bonnes conditions sa
ralisation
! une politique de rafrachissement.

! des donnes :
! Equivalence de champs
! Equivalence denregistrements : fusion denregistrements

Introduction au entrepts de donnes - Bernard ESPINASSE -

53

Introduction au entrepts de donnes - Bernard ESPINASSE -

54

Principales applications autour dun ED


Ralisation de rapports divers (Reporting)
Ralisation de tableaux de bords (Dashboards)

6 Exploitation dun entrept de


donnes

Fouille de donnes (Data Mining)


Visualisations autour dun ED (visualizations)

Stratgies dimplantation dun ED:


Exploitation dun ED
Visualisation autour dun ED

Introduction au entrepts de donnes - Bernard ESPINASSE -

Analyse en ligne diverses (OLAP)

55

Introduction au entrepts de donnes - Bernard ESPINASSE -

56

,.."//#*+#',3+18)*'+,#',#),#,+0$/&-/&,&'.-1,2
!

Exploitation dun ED (1)

58;8?#15)&@*'45#+>51>'5<#+7#*15,20929:#&+()&#60)&*6#)4*6+1'*'0-#84-*#-0,7#8+,*6&;#10%+1*-#*+#
-*)*0#+33'(0! A+*#6-576&#7+1#
Exploitation !"#$%%&'()*'+,-.#!)-/0+)12dun ED (2)
!

! /0%+1*#'-#703',07#<;#)#3*"%2#
=84&*'%&0#>401'0-?#),7#)#+,2$*&#
! Pour des les utilisateurs qui ont
besoin d'un accs rgulier des informations
d'une manire presque statique
=7')21)8-:#6'-*+21)8-:#0*(9?
Ex: les hpitaux doivent envoyer des rapports mensuels des agences
.#/0%+1*',2
nationales
! @),#<0#14,#)4*+8)*'()&&;#
! Un rapport est dfini par une requte (plusieurs requtes) et une mise en page
-#56+#,007#)#%")*+,%(diagrammes, histogrammes,+1#8),4)&&;
etc)
#',#),#,+0$/&-/&,&'.-1,2
Rapports (Reporting) :

'*'0-#84-*#-0,7#8+,*6&;#10%+1*-#*+#
! Les rapports peuvent tre excuts

Tableaux de bords (Dashboards) :


(+4%&5B#),2#
! !"#$%&"'(##2'-%&)3#)#&'4'*52#)4+6,*#+7#
! Affichent une quantit limite d'informations dans un format graphique facile lire
',7+14)*'+,#',#)#)"#*+,&+')"(-.'"/$01"2-3&'4",8
! Frquemment utilis par les cadres suprieurs qui ont besoin d'un rapide aperu
25*)'&52#),)&3-'! 915:65,*&3#6-52#03#-5,'+1#4),);51-#</+#,552#)#
des changements les plus importants
:6'(=#+>51>'5<#+7#*/5#4+-*#-';,'7'(),*#(/),;5Ex : un aperu
en temps rel dvolutions
! 58;8?#15)&@*'45#+>51>'5<#+7#*15,2! Pas vraiment utile
pour une analyse complexe et dtaille

! A+*#6-576&#7+1#
(+4%&5B#),2#
25*)'&52#),)&3-'-

automatiquement ou manuellement

3*"%2#
#)#+,2$*&#
:#0*(9?
)&&;#

!
61
J. Gamper,
Free University of Bolzano, DWDM 2012-13

Introduction au entrepts de donnes - Bernard ESPINASSE -

61

57

J. Gamper, Free University of Bolzano, DWDM 2012-13

J. Gamper,
Free University of Bolzano, DWDM 2012-13
Introduction au entrepts de donnes - Bernard ESPINASSE -

Exploitation dun ED (3)

Exploitation dun ED (4)

Analyse OLAP (On-Line Analytical processing) :

Visualisation autour dun ED

! Techniques OLAP apparues en recherche dans les annes 70 mais ont t


dveloppes dans les annes 90 dans lindustrie
! Permettent de raliser des synthses, des analyses et de la consolidation
dynamique de donnes multidimensionnelles
! Constitue la faon la plus naturelle dexploiter un ED du fait de son
organisation multidimensionnelle
-> Trait en dtail plus loin

67

58

Facilitent lanalyse
et linterprtation de donnes
!"#$%%&'()*'+,-.#/'-0)&'1)*'+,
convertissent des donnes complexes en images, graphiques en 2 et 3
! 23)%4'()&#%35-5,*)*'+,#+6#(+7%&58#35-0&*
dimensions, voire en animations
! 9+&+3:#-'15:#),;#6+37#45&%#*+#<'=5#)#>5**53#+=53='5?
Sont de plus en plus intgres dans les ED

Fouille de donnes (Data Mining) :


! Recherche de connaissance, sous forme de modle de comportement,
cachs dans les donnes
! Domaine jeune lintersection de lIntelligence Artificielle, les Statistiques, les BD
! Nombreuses techniques de fouille : rgression linaire, induction darbres de
dcision, algorithmes gnriques, rseaux de neurones,
! Les techniques de fouille sont en pleine volution et sont de plus en plus
intgres dans les ED
-> Trait en dtail plus loin
J. Gamper, Free University of Bolzano, DWDM 2012-13

Introduction au entrepts de donnes - Bernard ESPINASSE -

59

Introduction au entrepts de donnes - Bernard ESPINASSE -

68

60

Domaines privilgis : Bancaire

6 Domaines dapplication des


entrepts et succs stories
Les domaines privilgis :
! Domaine bancaire
! Domaine de la grande distribution
! Domaine des tlcommunications
! Domaines de lassurance et de la pharmacie
! Domaine de la sant,
Succs stories :
! Casino, Walmart, Camaieu,
! FranceTlcom,

Introduction au entrepts de donnes - Bernard ESPINASSE -

Domaine bancaire : un des premiers utilisateurs des ED


! Pour une banque, il est important de pouvoir regrouper les informations
relatives un client afin de rpondre ses demandes de crdit par exemple
! Des mailing cibls doivent aussi tre rapidement labors partir de toutes
les informations disponibles sur un client lors de la commercialisation dun nouveau
produit
! Lutilisation de cartes de crdit ncessite des contrles posteriori, par
exemple pour la recherche de fraudes : la mmorisation des mouvements peut
rendre de grands services
! Les changes dactions et de conseils de courtages sont facilits par une
mmorisation de lhistoire et une exploitation par des outils dcisionnels avancs
par exemple pour dterminer des tendances de marchs

61

Introduction au entrepts de donnes - Bernard ESPINASSE -

Domaines privilgis : Grande distribution

Domaines privilgis : Tlcommunications

Domaine de la grande distribution fortement demandeur dED :

Domaine trs concurrentiel des tlcommunications : utilise


beaucoup les ED

! intressant de regrouper les informations de ventes pour dterminer les


produits succs, mieux suivre les modes, dtecter les habitudes dachats,
les prfrences des clients par secteur gographique
! La fouille de donnes (Data Mining) a permis de dvelopper des techniques
sophistiques dexploitation de donnes qui aident mettre en vidence les
rgles de consommation
! Explorer le panier de la mnagre est devenu un exercice dcole : il sagit de
trouver partir de lenregistrement des transactions quelles sont les habitudes
dachats, plus prcisment quels sont les produits achets en mme temps

Apports constats dans la grande distribution :

62

! grande masse de donnes concernant les abonns et les appels est enregistre
! Plusieurs mois de description dtaille des appels comprenant, pour chaque
appel appelant, appel, heure et dure sont disponibles chez les oprateurs
En respectant les lois de scurit et libert, que peut-on faire de telles donnes ?
Couples ou non avec des informations comptables, lexploitation de ces
donnes regroupes en ED par des techniques danalyse et dexploration permet :
! Danalyser le trafic
! De mieux cerner les besoins des clients,

! augmentation des ventes grce un meilleur marketing

! De classer les clients par catgories,

! amlioration des taux de rotation de stocks

! De comprendre pourquoi certains changent doprateurs et mieux


rpondre leur besoins

! limination des produits obsoltes


! rduction des rabais, remises, ristournes
! meilleure ngociation des achats
Introduction au entrepts de donnes - Bernard ESPINASSE -

63

Introduction au entrepts de donnes - Bernard ESPINASSE -

64

Domaines privilgis : Assurance et de la pharmacie

Succs story dans la grande distribution (1)


Exemple du groupe Casino :

Domaines de lassurance et de la pharmacie : trs friands de


techniques dcisionnelles
! Lexercice de base de lassureur est de dterminer le facteur de risque dun
assur
! Celui dun producteur pharmaceutique est de dtecter limpact dun
mdicament
! Plus gnralement, le suivi des informations relatives la liaison produitclient sur un ED est souvent synonyme de gains importants : meilleure
connaissance des produits, dtection des dfauts, meilleure connaissance des
clients, dtection de rejets, ciblage du marketing, etc
! Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour
le suivi des produits, des clients, des concurrents : notion mergente de Data
Webhouse

Introduction au entrepts de donnes - Bernard ESPINASSE -

65

Projet :
! un des premiers entrepts en France
! plusieurs millions de dollars conomiss en sapercevant que les stocks de
coca-cola faisaient souvent dfaut...
! 1994 : 80 Go et 50 utilisateurs
! 2002 : + de 10 To, 1500 utilisateurs, 25000 requtes/jour
Solution : Teradata

Exemple du groupe Walmart :


Projet :
! le plus gros entrept de donnes du monde, en 2006 : 0.5 Po de donnes
! distributeurs, magasins, clients (> 108 ), produits (> 109 )...
! un des plus secret galement...
Solution : Teradata
Wal-Mart, for example, discovered that people who buy Pampers often buy beer, so they
moved Pampers and beer close together. The result was that sales of both increased
(Computer Business Review, October 1996).
Introduction au entrepts de donnes - Bernard ESPINASSE -

Succs story dans la grande distribution (2)

Succs story dans les tlcommunications

Exemple du groupe Camaieu:

Exemple de France Tlcom :

Projet :

Le projet :
! 12 BD sources
! rcupration des donnes : 1,5 anne
! donnes rgionales et nationales
! parfois chez des prestataires de services
! parfois au prix dun intense lobbying
! en 2003 : environ 5 annes de travail
Solution :
! entreposage : SQL server
! DW de 3 bimestres, vid priodiquement
! 1,2 million dindividus
! 1 fait = 1 client
! 250 colonnes
! intgration faite la main priodiquement
Exploitation : progiciel de DM dvelopp spcifiquement

! plusieurs systmes de production (magasin, logistique, comptable, etc.)


Solution :
! 1996 : agrgs dans un entrept de donnes, via lETL Sunopsis
! base Oracle dcoupe en rfrentiels mtier (datamarts achat, marketing...)
! consultation des datamarts via le systme de reporting de Business Objects
! 2003 : ajout d'un cube OLAP intgr la base relationnelle Oracle9i :
! meilleure ergonomie,
! permet des requtes complexes avec prise en compte de plusieurs
niveaux au sein de la BD (types d'articles, collections, produits, zones
gographiques, )
! base de composants Java (BI Beans) livre par l'diteur au sein de son
environnement de dveloppement (JDeveloper).

Introduction au entrepts de donnes - Bernard ESPINASSE -

67

Introduction au entrepts de donnes - Bernard ESPINASSE -

66

68

Das könnte Ihnen auch gefallen