Beruflich Dokumente
Kultur Dokumente
Cours:
Cours Datawarehouse Travaux dirigs Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining
Evaluation:
2 Contrles continus:
1 contrle continu crit en Datawarehouse 1 contrle continu en Datamining
DATA WAREHOUSES
ARCHITECTURES, FONCTIONNALITES CONCEPTION
ANALYSE MULTIDIMENSIONNELLE
Pr. A. EL OUARDIGHI jalilardighi@menara.ma
A. EL OUARDIGHI
Data warehouse
PLAN
Partie 1: Notions et architectures dun DW Partie 2: OLAP et Analyse multidimensionnelle Partie 3: Modlisation et Conception dun DW Partie 4: Travaux dirigs
A. EL OUARDIGHI
Data warehouse
Contenu d'un DW
Architecture dun DW
Notion de Datamart
A. EL OUARDIGHI
Data warehouse
Historique
Phase 1 Systme de gestion de bases de donnes: modle relationnel Feuille de calcul & tableur
Phase 2
A. EL OUARDIGHI
Data warehouse
A. EL OUARDIGHI
Data warehouse
A. EL OUARDIGHI
Data warehouse
A. EL OUARDIGHI
Data warehouse
A. EL OUARDIGHI
Data warehouse
10
La prvision des interrogations est difficile car elles sont du ressort de lutilisateur. Les questions vont varier selon les rponses obtenus:
Si le produit X sest vendu moins bien que lanne prcdente, il va tre utile de comprendre les raisons: Dtailler les ventes par rgion par type de magasin,
Des questions ouvertes vont ncessiter la mise en place de mthodes dextraction dinformations
A. EL OUARDIGHI
Data warehouse
11
Connaissances
Dans X%, le produit Y est vendu en mme temps que le produit Z,
Dcisions
Lancer la promotion de Y & Z dans R auprs des clients plus g que A, ...
A. EL OUARDIGHI
Data warehouse
12
6 8 10 12 14 16 18
A. EL OUARDIGHI
L M M J V S D
Data warehouse 13
A. EL OUARDIGHI
Data warehouse
14
Donnes
Utilisateurs
Utilisation
Nb Utilisat. Taille BD
A. EL OUARDIGHI
Naissance du Datawarehouse
A. EL OUARDIGHI
Data warehouse
17
Datawarehouse : Dfinition
Collection de donnes orientes sujets, intgres, non volatiles et historises, organises pour le support du processus daide la dcision Base de donnes dans laquelle sont dposes aprs nettoyage et
A. EL OUARDIGHI
Data warehouse
18
Intgres
Construit en intgrant des sources de donnes multiples et htrognes
BD relationnelles, fichiers, enregistrements de transactions
A. EL OUARDIGHI
Les donnes doivent tre mises en forme et unifies afin davoir un tat cohrent Phase la plus complexe (60 90 % de la charge totale dun projet DW)
Data warehouse 19
Non volatiles
Consquence de lhistorisation
Une mme requte effectue intervalle de temps, en prcisant la date rfrence de linformation donnera le mme rsultat Stockage indpendant des BD oprationnelles Pas de mises jour des donnes dans le DW
Data warehouse 20
A. EL OUARDIGHI
Contenu d'un DW
Des donnes agrges
Correspondent des lments danalyse, par des fonctions de calcul, reprsentatifs des besoins utilisateurs Constituent dj un rsultat danalyse et une synthse de linformation
A. EL OUARDIGHI
Data warehouse
21
Contenu d'un DW
Des mta donnes
Elles constituent une vritable aide en ligne permettant de connatre les informations contenue dans le DW
A. EL OUARDIGHI
Donnes multidimensionnelles
Notion de dimension
Cest une catgorie linguistique selon laquelle les donnes sont organises:
Nom dun attribut Valeur dun attribut Autre lment linguistique
A. EL OUARDIGHI
Data warehouse
23
Reprsentation
DureMoy
5 5 18 7 12 8 9 15 18 12 22 25
Dpart.
Info Phys Philo Droit Info Phys Philo Droit Info Phys Philo Droit
Mois Janv Janv Janv Janv Fvr Fvr Fvr Fvr Mars Mars Mars Mars
Anne 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998
A. EL OUARDIGHI
Data warehouse
24
Janv 5 5 18 7
Fvr
Mars
12 8 9 15
18 12 22 25
A. EL OUARDIGHI
Data warehouse
25
1998 30 25 20 15 10 5
Droit Philo
Phys
Info
A. EL OUARDIGHI
Data warehouse
26
5 5 8 12
5 5
12 18
A. EL OUARDIGHI
Data warehouse
27
Fonctionnalits dun DW
Extraction de donnes sources
Ralisation d'un transformateur de modles Modle source vers modle du DW Rgles de transformation entre modles htrognes
A. EL OUARDIGHI
Data warehouse
28
Fonctionnalits dun DW
Lagrgation des donnes
Synthse produisant des indicateurs pour l'aide la dcision utilisant:
Fonctions statistiques simples: Sum, Min, Max,
Analyse de donnes
Techniques d'apprentissage
A. EL OUARDIGHI
Data warehouse
29
Notion de Datamart
Dfinition:
C'est un sous-ensemble de donnes drives du DW cibl sur un sujet unique. Caractristiques:
A. EL OUARDIGHI
Donnes fortement agrges Organisation multidimensionnelle (cubique) Lien dynamique avec le DW Interfaces simples et conviviales
Data warehouse 30
Comportement de la clientle
Comportement du rseau 5 ans pour le suivi du march 1 an pour le comportement de la clientle 1 mois pour le comportement du rseau Fichiers clients labors par les agences Fichiers de facturation
Historique
Sources
A. EL OUARDIGHI
Data warehouse
32
Requtes
Comportement clientle
Nombre moyen d'heures par client, par mois et par rgion Rpartition des appels clients sur la journe Nombre moyen de numros appels Dure moyenne d'une communication urbaine par ville Dure moyenne d'une communication internationale Etc
A. EL OUARDIGHI
Data warehouse
33
Les donnes sources sont nettoyes, transformes et intgres avant dtre stockes dans lentrept
Lentrept est en lecture seulement et est dfini spcifiquement pour la prise de dcision Les usagers accdent lentrept partir dinterfaces et dapplications (clients)
A. EL OUARDIGHI
Data warehouse
34
Il sagit de la version centralise et intgre dun entrept regroupant lensemble des donnes de lentreprise. Les diffrentes bases de donnes sources sont intgres et sont distribues partir de la mme plate-forme physique
A. EL OUARDIGHI
Data warehouse 35
Il sagit de la version intgre dun entrept o les donnes sont introduites dans les marchs de donnes orients selon les diffrentes fonctions de lentreprise
A. EL OUARDIGHI
Data warehouse 36
Il sagit dune variante de larchitecture fdre o les donnes sont divises par niveau de dtail
A. EL OUARDIGHI
Data warehouse
37
Conception
Construction Administration Restitution
A. EL OUARDIGHI
Data warehouse
38
A. EL OUARDIGHI
(internes ou externes)
Nettoyage des donnes, rgles dhomoginisation des donnes sous formes de mta donnes.
Techniques dalimentation
A. EL OUARDIGHI
Data warehouse
40
A. EL OUARDIGHI
Data warehouse
41
Elle doit permettre toutes la analyses ncessaires pour la construction des indicateurs recherchs.
A. EL OUARDIGHI
Data warehouse
42
Concepts OLAP
Les 12 rgles OLAP Configurations OLAP Oprations OLAP Outils OLAP
A. EL OUARDIGHI
Data warehouse
43
OLAP
Il sagit dune catgorie de logiciels axs sur lexploration et lanalyse rapide des donnes selon une approche multidimensionnelle plusieurs niveaux dagrgation . OLAP vise assister lusager dans son analyse en lui facilitant lexploration de ses donnes et en lui donnant la possibilit de le faire rapidement.
Lusager na pas matriser des langages dinterrogation et des interfaces complexes Lusager interroge directement les donnes, en interagissant avec celles-ci
A. EL OUARDIGHI
Data warehouse
44
Modles conceptuel
Approche multidimensionnelle
Souvent reprsents par une structure plusieurs dimensions Une dimension est un attribut ou un ensemble dattributs:
Temps Gographie Produits Clients Nombre dunits vendues Chiffre dAffaire Cot Relations, Cube de donnes, hyper cube de donnes
Data warehouse 45
Reprsentations:
A. EL OUARDIGHI
Modle conceptuel
Vue multidimensionnelle:
A. EL OUARDIGHI
Data warehouse
46
A. EL OUARDIGHI
Data warehouse
47
A. EL OUARDIGHI
Data warehouse
48
Concepts OLAP
A. EL OUARDIGHI
Data warehouse
49
A. EL OUARDIGHI
Data warehouse
50
Architecture Client/Serveur
A. EL OUARDIGHI
Data warehouse
51
A. EL OUARDIGHI
Data warehouse
52
A. EL OUARDIGHI
Data warehouse
53
A. EL OUARDIGHI
Data warehouse
54
Configurations OLAP
Oprations OLAP Outils OLAP
A. EL OUARDIGHI
Data warehouse
55
Configurations OLAP
Selon le type de base de donnes accd, plusieurs configurations sont possibles :
OLAP Multidimensionnelle: MOLAP OLAP Relationnelle: ROLAP OLAP Hybride: HOLAP
A. EL OUARDIGHI
Data warehouse
56
Caractristiques
MOLAP sappuis sur une base de donnes multidimensionnelle Implmentent les cubes comme des matrices en mmoire Nombreuses oprations sur les cubes (Pivot, Slice & Dice, ...)
Exemple
Hyperion, Essbase, http://www.hyperion.com/fr/products.cfm
A. EL OUARDIGHI
Data warehouse
57
Caractristiques
ROLAP implmentent les cubes comme des tables relationnelles Lutilisateur interroge directement la base de donnes relationnelle Configuration supportant les gros volumes de donnes
Microstrategy, Microstrategy 7i, Business Objects, Business Objects, http://www.microstrategy.fr/Software/OLAP.asp http://www.businessobjects.fr/
Exemples
A. EL OUARDIGHI
Data warehouse
58
Prsente lavantage de mixer les avantages des deux systmes MOLAP et ROLAP
A. EL OUARDIGHI
Data warehouse
59
Oprations OLAP
A. EL OUARDIGHI
Data warehouse
60
A. EL OUARDIGHI
Data warehouse
61
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6
Droit Philo Phys Info Janv 7 18 5 5 Fvr 15 9 5 12 8 12 Mars 25 2 12 18 8 18 17 15 2 12 18 1996 25 22 1997 1998
<>
<>
<>
<>
<>
<>
6
8
25
18 18
Pivot
A. EL OUARDIGHI
Data warehouse
62
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12
12
8 6
18 18
Switch
A. EL OUARDIGHI
Data warehouse
63
Split: Dcomposition
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Fvr Mars 15 25 9 22 8 12 12 12 6 18 18
8
Fvr 15 Mars 25
<> <>
Info
Janv
Philo 1998 1997 1996 Janv Fvr 18 12 9 <> <> 24 <> <>
64
8 <>
15 <>
Fvr 12 Mars 18
A. EL OUARDIGHI
Fvr 8 Mars 12
<> <>
Mars 22
Data warehouse
Roll-up (passage au grain suprieur) Drill-down (passage au grain infrieur) Slice (Restriction) Dice (Projection)
A. EL OUARDIGHI
Data warehouse
65
13,5
13,5
Restriction (Slice)
Sapplique sur les valeurs du cube ou les valeurs des dimensions
18 18
A. EL OUARDIGHI
Data warehouse
67
Projection (Dice)
Rduit le nombre de dimension
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 7 18 5 5 5 17 Janv Fvr Mars 15 25 9 22 8 12 12
12 8
Dice
18 18
A. EL OUARDIGHI
Data warehouse
68
Slice
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Fvr 15 18 Mars 25 22 12 18
A. EL OUARDIGHI
Data warehouse
69
Jointure Union
A. EL OUARDIGHI
Data warehouse
70
Jointure (Join)
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr Mars 25 15 9 22 8 12 12
12 8 6
Droit
18
Philo
Phys Info
80 15 80
80 24 80 7
18 18
75 12 75 25 75 8 60 5 60 60
60
75
75
80 76
60 18 60 5
60 18 60 5 9 70
60 5
80 72 70
15 70
8 70 12 70
70 65
60
60 70 65
70
65
80 72 70
25 65 22 65 12 65 18 65
Data warehouse
71
Union
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Fvr 15 Mars 25 9 22 8 12 12
12 8 6
18 18
Droit Philo Phys Info 1996 15 17 717 25 1997 7 14 21 12 25 1998 12 2 7 16 12 25 16 20 3 12 23 7 16 Avr 12 12 16 8 27 42 Mai 20 Juin 22 28 32 27 27
A. EL OUARDIGHI
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 18 5 Phys Droit5 Philo Info Janv 7 8 12 17 717 256 9 8 12 Fvr 15 15 25 7 14 21 12 18 12 22 12 18 Mars 25 25 12 2 7 16 16 20 3 7 16 Avr 12 23 12 Mai Juin 20 8 27 42 12 16
22
28
32
27 27
Data warehouse
72
Concepts OLAP Les 12 rgles OLAP Composantes OLAP Configurations OLAP Oprations OLAP
Outils OLAP
A. EL OUARDIGHI
Data warehouse
73
Outils OLAP
Exemples doutils OLAP
BusinessObjects, BusinessObjects, http://www.businessobjects.fr/ SAS, SAS, http://www.sas.com/offices/europe/france/software/technologies/olap/index.html HarrySoftware , HarryPilot, HarryCube , http://www.harrysoftware.com/jahia/Jahia/pid/61
A. EL OUARDIGHI
Data warehouse
74
Conception d'un DW
Etude pralable
Modlisation
Alimentation
A. EL OUARDIGHI
Data warehouse
75
Le Datawarehouse nest pas un produit ou un logiciel mais un environnement, qui se btit et ne sachte pas.
A. EL OUARDIGHI
Data warehouse
76
A. EL OUARDIGHI
Data warehouse
77
La conception d'un DW
Etude pralable
Modlisation
Alimentation
A. EL OUARDIGHI
Data warehouse
78
Etude pralable
Etude des besoins:
Dfinir les objectifs du DW Dterminer le contenu du DW et son organisation, daprs:
Les rsultats attendus par les utilisateurs, Les requtes quils formuleront, Les projets qui ont t dfinie
A. EL OUARDIGHI
Data warehouse
79
Etude pralable
Etude des besoins:
Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...
A. EL OUARDIGHI
Data warehouse
80
Etude pralable
Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle
A. EL OUARDIGHI
A. EL OUARDIGHI
Data warehouse
82
Modles de donnes
Niveau conceptuel:
Un DW est bas sur une modlisation multidimensionnelle qui reprsente les donnes dans un cube Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions La table des faits contient les mesures et les cls des dimensions
A. EL OUARDIGHI
Data warehouse
83
Schma en flocon;
A. EL OUARDIGHI
Data warehouse
84
Schma en toile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions.
A. EL OUARDIGHI
Data warehouse
85
Schma en flocons
Raffinement du schma toile avec des tables normalises par dimensions.
A. EL OUARDIGHI
Data warehouse
86
Fait Semi-additivit
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivit :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1 Exemple : plus grand CA pour lensemble des magasins
A. EL OUARDIGHI
Data warehouse
87
Exemples de DW
Dans la grande distribution Quelques tables de faits :
Dtailles et volumineuses Classiques : produit, fournisseur, temps, tablissement (structure gographique, fonctionnelle), ... Stratgiques : Client, Promotions, ....
Tables de dimensions :
Tables de dimensions :
A. EL OUARDIGHI
Data warehouse
88
Estimer la taille du DW
Les grandes surfaces :
Dimensions
Temps : 4 ans * 365 = 1460 jours
Magasin : 300
Produit : 200000 rfrences (10% vendus chaque jour) Promotion : un article est dans une seule condition de promotion par jour et par magasin 1460 * 300 * 200000 * 1 = 8,76 milliards denregistrements Nombre de champs de cl = 4 Nombre de champs de fait = 4
Fait
A. EL OUARDIGHI
Data warehouse
89
Estimer la taille du DW
Faits
A. EL OUARDIGHI
Data warehouse
90
Alimentation
A. EL OUARDIGHI
Data warehouse
91
Alimentation
Lalimentation est la procdure qui permet de transfrer des donnes du systme oprationnel vers le DW La conception de cette opration est une tche complexe
60 90 % de la charge totale dun projet DW
Elle doit tre faite en collaboration avec ladministrateur des bases de productions Il est ncessaire de dterminer:
A. EL OUARDIGHI
Data warehouse
92
Alimentation du DW
Alimentation dun DW (ETL)
Extraction (Extract) Transformation (Transform)
Filtrer Homogniser Nettoyer Etc
Chargement (Loading)
A. EL OUARDIGHI
Data warehouse
93
Extraction
Extraction:
Depuis les bases sources Priodique et Rpte
A. EL OUARDIGHI
Data warehouse
94
Transformation
Cest une suite doprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente. Unification des modles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d attributs Nettoyer ( Valeurs manquantes, aberrantes)
A. EL OUARDIGHI
Data warehouse
95
Chargement
Cest lopration qui consiste charger les donnes nettoyes et prpares dans le DW. Cest une opration qui peut tre longue Mettre en place des stratgies pour assurer de bonnes conditions sa ralisation Dfinir la politique de rafrachissement. Cest une phase plutt mcanique et la moins complexe
A. EL OUARDIGHI
Data warehouse
96
Outils ETL
Exemples doutils ETL
BusinessObjects, Data Integrator, http://www.businessobjects.fr/ Oracle Corporation, Warehouse builder, http://www.oracle.com/technology/products/warehouse/index.html/ IBM, Websphere Datastage , http://www.ascential.com/products/datastage.html
A. EL OUARDIGHI
Data warehouse
97