Beruflich Dokumente
Kultur Dokumente
1. OLTP et OLAP
Appli. Appli. Appli. Reports & Analysis
OLAP
ETL
OLTP
DW
DM
Aides la dcision
Introduction DW
Explosion de l OLAP
Facteurs conomiques & technologiques
18 16
CA en Milliards de $
Introduction DW
accder toutes les donnes de lentreprise regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP) Grande distribution : marketing, maintenance, ...
Introduction DW
Datawarehouse : dfinition
Entrept de donnes
Ensemble de donnes historises variant dans le temps, organis par sujets, consolid dans une base de donnes unique, gr dans un environnement de stockage particulier, aidant la prise de dcision dans lentreprise. collecte de donnes de bases existantes et chargement gestion des donnes dans lentrept analyse de donnes pour la prise de dcision
Introduction DW
Architecture type
Introduction DW
Bases multidimensionnelles
Data Marts
SGBD relationnel
Introduction DW
Bases relationnelles
2. Concevoir le DW
Export de donnes des sources
Conception DW
Exemple: ventes Exemple: Ventes (N, produit, priode, magasin, ) Exemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)
Conception DW
Schmas en toile
Une table de faits encadres par N tables de dimensions Produits
Periodes
IDper anne trimestre mois jour
Magasins
IDmag nom ville dpartement pays
Conception DW
Schmas en flocons
Raffinement du schma toile avec des tables normalises par dimensions Produits Fournisseurs
IDprod description couleur taille IDfour IDfour description type Adresse
Ventes Avantages
vite les redondances Conduit aux constellations (plusieurs tables de faits dimensions partages)
Conception DW
Intgrer l'ensemble
(constellation dtoiles)
Conception DW
Bilan conception
Le datawarehouse regroupe, historise, rsume les donnes de l'entreprise Le concepteur dfinit schma exports et intgrs
Conception DW
3. Alimenter le DW
ETL = Extracteur+Intgrateur
Extraction
Push = rgles (triggers) Pull = requtes (queries) Dater ou marquer les donnes envoyes Ne pas perturber les applications OLTP
Priodique et rpte
Difficult
L'alimentation
Transformation
Accs unifis aux donnes
Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche Rowset, SQL limit, SQL complet,
Appeler pareil les mmes choses et diffremment les choses diffrentes Application des "business rules"
Data Cleaning
Valeurs manquantes (nulles)
Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne Gnres en prsence de bruits Dtecter par une analyse de voisinage
Chargement
Pas de mise jour
Insertion de nouvelles donnes Archivage de donnes anciennes Priodicit parfois longue Chargement en blocs (bulk load) Mise jour des index et rsums
Cohabitation avec l'OLAP ? Procdures de reprises ?
De gros volumes
Problmes
L'alimentation
ETI
ETI.Extract
Parfois cite comme plate-forme ETL de rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. Mais il n'est pas question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction diffrents. datamining / transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante.
Ascential Software
DataStage XE
Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.
Hummingbird
Genio Suite 5
Computer Associates
DecisionBase
Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.
Informatica
PowerCenter 5
Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes et Siebel, SQL/Teradata : Oracle, Sybase,MQ (IBM, les middleware Teradata, Hyperion Tibco...). Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.
http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
4. Grer l'entrept
Base relationnelle
Support de larges volumes (qq 100 gigas qq tras) Historisation des donnes (fentres) Importance des agrgats et chargements en blocs
Base multidimensionnelle Combinaison des deux Multiprocesseurs Mmoire partage, cluster, bus partag, etc.
Base spcialise
Le multidimensionnel
NCR
Teradata Database
Entrept de donnes multi-dimensionnel avec des extensions de divers types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.
Les solutions qui accdent Teradata sont a priori un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.
IBM
DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).
Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.
Oracle
Oracle 9i
Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.
Sybase Microsoft
SQL Server 2000 La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining. Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows
Adaptive Server IQ
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
Le multidimensionnel
Dimensions:
Indicateurs:
Le multidimensionnel
Cube de donnes
Date
NumFou
NumPro
2000 250
200
F1
F2
P1
Le multidimensionnel
P2
P3
Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Le multidimensionnel Axes d'analyse: dimensions Variables analyses: indicateurs
Mois
Trimestres
Annes
Gographie
Villes
Rgions
Pays
Produits
Le multidimensionnel
Numros
Types
Gammes
Marques
Exemple
Montant des ventes fonction de (Mois, rgion, Produit)
Granularit des dimensions : Type Rgion Anne Trimestre Mois Semaine Jour
Catgorie Pays
Produit
Produit
Ville
Magasin
Mois
Le multidimensionnel
La navigation multidimensionnelle
Projection en 2 dimensions
Produits
Coupe d un cube
Produits pour une rgion donne
CA
Rgion
CA
Temps en semaines
CA
Temps en mois
Est Lyon
Sud
Ouest Nice
Marseille
Le multidimensionnel
Semaine Mois
Drill down :
Mois Semaine
Slice et Dice:
Pivot :
(Rgion,Produit)(Rgion, Mois)
Le multidimensionnel
NumPro
Le multidimensionnel
NumFou
Date
Bilan Gestion
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel
transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation Combien de datacubes partir de N variables ?
Questions ?
Le multidimensionnel
5. Implmentation
Multidimensional OLAP (MOLAP)
implmentent les cubes comme des tables relationnelles certaines donnes en matrices en mmoires, d'autres en tables sur disques
Implmentation
SQL
Analyseur Optimiseur Oprateurs relationnels Cache SGBD
Oprateurs relationnels
Implmentation
Rank, Moving Average, Rollup, Cube, ... Pivot, Standard dviation, Covariance, Corrlation
Fonctions statistiques:
Implmentation
Vues Concrtes
CREATE MATERIALIZED VIEW <Table> (column_list) AS SELECT La vue est pr-calcule par le SGBD
Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager
Implmentation
Exemple
Table:
Emp(#emp, job, salary)
Dfinition de la vue:
CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp GROUP BY job;
Interrogation de la vue:
SELECT job FROM job_avg_sal WHERE avg_sal > 10000
Implmentation
Extension de SQL
ROLLUP:
CUBE:
Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupage n, n-1, n-2,0 colonnes
Implmentation
Exemple CUBE
Animal Chien Chat Tortue Chien Chat Chien Tortue Lieu Paris Paris Rome Rome Naples Naples Naples Quantite 12 18 4 14 9 5 1
SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE
Implmentation
Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -
Lieu Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome
Quantite 18 9 27 12 5 14 31 1 4 5 63 30 15 18
Exemple ROLLUP
Animal Chien Chat Tortue Chien Chat Chien Tortue Lieu Paris Paris Rome Rome Naples Naples Naples Quantite 12 18 4 14 9 5 1
SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP
Implmentation
Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -
Quantite 18 9 27 12 5 14 31 1 4 5 63
Mta-donnes
Standard en mergence CWM
Mta-mta-modle
MOF
Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations
Mta-modle
UML
CWM
EJB
Modle
Mta-donnes
Instance
Objet
Transformation OLAP
ObjectOriented
(ObjectModel)
Relational
Foundation
Business Data Keys Type Software Expressions Information Types Index Mapping Deployment
ObjectModel
(Core, Behavioral, Relationships, Instance)
Cognos
Business Object
Hyperion
Implmentation
6. Le march du BI
BI= Business Intelligence
Conclusion
Datamart
Datamining
Datacube
Datawebhouse
Conclusion