Sie sind auf Seite 1von 52

Entrepôts de données spatiales,

OLAP et SOLAP

D'après Cours Géomatique Laval

1
Table des matières

Entrepôts de données :
– Systèmes transactionnels vs systèmes d’analyse
– Définition d’un entrepôt de données
– Définition d’un marché de données
– Composantes d’un entrepôt de données
– Différentes architectures d’entrepôt de données
– Approches d’implantation
– Centralisation vs distribution
– Entrepôts de données spatiales
– Outils clients d’un entrepôt de données

2
Table des matières

OLAP :
– Définition
– Concepts
– Opérations OLAP

SOLAP :
– Définition
– Concepts

3
Entrepôts de données

4
Le marché traditionnel

• Les outils traditionnels de gestion et


d’exploitation des données spatiales sont du
type transactionnel ou OLTP (On-Line
Transaction Processing) :
• SGBD (Système de gestion de base de données)
• SIG (Système d’information géographique)
• Serveurs SIG-WEB

5
Systèmes transactionnels

• Le transactionnel réfère à un mode


d’exploitation de données tourné vers la
saisie, le stockage, la mise à jour, la sécurité
et l’intégrité des données.
• Par exemple, les systèmes de gestion des
transactions boursières ou bancaires, dont
les guichets automatiques ou les systèmes
d’inventaire dans les magasins
6
Systèmes transactionnels

(Operational Data Store ou Legacy System)


« Le système transactionnel est
généralement une base de données,
développée par application, stockant les
données courantes d’une organisation,
c’est-à-dire qu’il n’y a pas de données
d’archives dans les systèmes
transactionnels » (Bédard et al. 1997)
7
Systèmes transactionnels

• Le système transactionnel réfère aux bases


de données développées afin de gérer les
transactions quotidiennes
• Ces bases de données supportent
habituellement des applications
particulières telles que les inventaires de
magasins, les réservations d’hôtel, etc

8
Systèmes transactionnels

• Le contenu est fait de données actuelles, pas


d’archives
• Les données sont très détaillées (détails de
chacune des transactions)
• La mise à jour s’effectue par de nouvelles
transactions
• Très souvent plusieurs de ces systèmes existent
indépendamment les uns des autres dans les
grandes organisations

9
Systèmes transactionnels

La plupart des systèmes


transactionnels sont implantés selon
une structure relationnelle normalisée
(à différents degrés) :
– Redondance minimum
– Intégrité des données
– Facilité de mise à jour

10
Systèmes transactionnels

Opérations dans les systèmes transactionnels

• Ajout
• Effacement
• Mise à jour
des enregistrements (habituellement, gros
volume de transactions impliquant chacune
un petit volume de données détaillées)

• Requêtes simples (de type non-agrégatif)


11
Obstacles à l’analyse dans
les systèmes transactionnels
• Les bases de données transactionnelles sont habituellement
normalisées de telle sorte que la duplication des données est à son
minimum :
– Assure l’intégrité des données
– Simplifie la mise à jour des données

• Cependant, une très forte normalisation complexifie l’analyse des


données :
– Nombre élevé de tables donc nombre élevé de jointures
nécessaires entre les tables (performance pauvre)
– Temps de traitement long
– Élaboration complexe des requêtes

 Difficulté d’optimiser le fonctionnement des systèmes


transactionnels et des systèmes d’aide à la décision qui partagent
la même structure de données.
12
Obstacles à l’analyse dans
les systèmes transactionnels
• De plus, les types d’analyses servant aux processus de décision
des organisations nécessitent :
– Données sommaires (agrégées ou résumées) sur l’ensemble de
l’organisation (provenant des différentes BD dispersées de
l’organisation et intégrées)
– Données historiques
– Réponses rapides (requêtes surtout de type agrégatif), interfaces à
l’usager faciles à utiliser

 Besoin de systèmes dédiés à


l’analyse

13
Systèmes d’analyse

• Les nouveaux outils d’exploitation des


données spatiales sont de type analytique:
• Entrepôts de données (Data Warehouses)
• Marchés de données (Data Marts)
Clients :
• Requêteurs et rapporteurs (Querying and Reporting
Tools)
• OLAP (On-Line Analytical Processing)
• Forage de données automatique (Data Mining)

14
Entrepôts de données

« Un entrepôt de données est une collection


de données portant sur des sujets touchant
une organisation, intégrée, variant dans le
temps, et non-volatile pour supporter le
processus de prise de décision d’une
organisation » (Inmon et al. 1996)

15
Entrepôts de données
Reports
&
Appli.
Appli.
Appli.
OLAP Analysis

ETL
OLTP DW

DM Aides à
la décision
16
Entrepôts de données
• Sujets touchant une organisation :
– Par exemple, les ventes et les produits
• Données intégrées :
– Proviennent de différentes sources : systèmes
transactionnels, systèmes d’archivage, sources externes
à l’organisation
• Données qui varient dans le temps :
– Données courantes et données historiques
• Données non-volatiles :
– Aucune mise à jour, seulement des ajouts
• Données qui servent à supporter les processus de
décision :
– Serviront à l’analyse 17
Entrepôts de données

• L’entrepôt de données réfère aux bases de


données développées afin d’analyser un grand
volume de données
• Le contenu est fait des données actuelles et
d’archives
• Les données sont agrégées ou résumées
• Aucune mise à jour n’est effectuée, mais l’ajout
de nouvelles données est possible
• Un système global existe dans les grandes
organisations
18
Marché de données

« Le marché de données est une


implantation localisée d’un entrepôt de
données à usage unique » (traduction libre
Devlin 1997)

« L’entrepôt de données est prévu pour


l’entreprise dans son ensemble alors que le marché
de données est sectoriel (il peut être un sous-
ensemble exact ou modifié de l’entrepôt de
données) » (Bédard et al, 1997)
19
Résumé des concepts

Systèmes Entrepôts de données Marchés de données


transactionnels (ST)
Construit pour les Construit pour l'analyse Construit pour l'analyse
transactions (OLTP)
Données détaillées Données détaillées et Données détaillées et
résumées résumées
Intégré selon les Intégré pour l'entreprise Intégré par sujet ou
applications département
Mis à jour continuellement Jamais mis à jour, Jamais mis à jour,
seulement ajout de seulement ajout de
nouvelles données nouvelles données
Données actuelles Données actuelles et Données actuelles et
d’archive d’archive
Source originale des Données importées des Données importées des
données ST ST et/ou d’entrepôts
Structure normalisée Structure dénormalisée Structure dénormalisée

20
Composantes de l’entrepôt
I I- -Gestion I et VI : activités d’extraction, de chargement, de
Gestiondes
desdonnées
données
mise à jour et de rafraîchissement des données
II-II- III-
III- IV-
IV- V-
V-
Sources Construc- Construc- Accès II: données des systèmes transactionnels,
Sources Construc- Construc- Accès
de
de tion
tionde de tion
tiondes
des etet internes ou externes à l’entreprise
données l’entrepôt marchés
l’entrepôt marchés usage
usage
données
III et IV: outils de modélisation, de nettoyage et
VI-
d’intégration
VI-Gestion
Gestiondes
desmétadonnées
métadonnées
V: outils de création de rapports, requêteurs,
VII-
VII-Transport
Transport OLAP et de forage de données (clients)

VIII-
VIII-Infrastructure
Infrastructure VII : réseaux, protocoles de communication,
logiciels middleware* et outils de réplication
Peut déjà exister dans l ’entreprise

Tiré de Gill & Rao, 1996 VIII: hardware, système d’exploitation et SGBD

21
*Middleware
• Le middleware est un logiciel qui permet à une application
d’interopérer avec d’autres logiciels dans un environnement client-
serveur.
• Il existe différents types de middlewares pour répondre à
différents objectifs.
• Ces outils doivent respecter des normes reconnues pour parvenir
à interopérer.

Exemples : OLE-DB, ADO, ODBC, JDBC, CORBA, …

22
Architecture des entrepôts
de données
• Une architecture d’entrepôt de données possède
les caractéristiques suivantes :
– les données sources sont extraites de systèmes, de bases
de données et de fichiers
– les données sources sont nettoyées, transformées et
intégrées* avant d’être stockées dans l’entrepôt
– l’entrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision
organisationnelle
– les usagers accèdent à l’entrepôt à partir d’interfaces et
d’applications (clients)

23
Architecture des entrepôts
de données
* Inconsistances :
– d’identification
– de format
– sémantiques
– de domaines
– d’échelles

24
Architecture centralisée
(Corporated architecture)

Entrepôt de données
Systèmes centralisé, unique et intégré
transactionnels de l’organisation
Clients distribués
de l’organisation

Il s’agit de la version centralisée et intégrée d’un entrepôt


regroupant l’ensemble des données de l’entreprise. Les
différentes bases de données sources sont intégrées et sont
distribuées à partir de la même plate-forme physique
25
Architecture fédérée
(Federated architecture)
Département A

Département B

Département C
Entrepôt de données
de l’organisation
Systèmes
transactionnels Marchés de données Clients
de l’organisation distribués par distribués
département

Il s’agit de la version intégrée d’un entrepôt où les


données sont introduites dans les marchés de
données orientés selon les différentes fonctions de
l’entreprise 26
Architecture trois-tiers
(Three-tier architecture)
Tiers 3 Tiers 2 Tiers 1

Département A

Département B

Département C
Entrepôt de données
(données détaillées)
Systèmes transactionnels Marchés de données Clients distribués
(données très détaillées) (données résumées et agrégées)

Il s’agit d’une variante de l’architecture fédérée où les


données sont divisées par niveau de détail
27
Architecture à niveaux multiples
(Multiple-tiers architecture)
Tiers 4 Tiers 3 Tiers 2 Tiers 1

Département A

Département B

Département C
Entrepôt Entrepôt
(données détaillées) (données résumées)
Systèmes Clients
transactionnels Marchés de données distribués
(données très détaillées) (données résumées et agrégées)

Il s’agit d’une variante de l’architecture trois-tiers où l’entrepôt se


compose de deux niveaux de détail (utile pour entrepôt de données
spatiales) 28
Approches d’implantation

Entrepôt de
données

Marchés de
données

Bottom up
29
Approches d’implantation

Approche Bottom up
Avantages :
• permet de répondre rapidement à des besoins extrêmement urgents dans des départements
où la gestion est décentralisée
• utile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la
construction d'un système global intégré
• permet de voir des résultats à court terme
• permet de justifier la poursuite des développements plus globaux
• nécessite des coûts moindres en termes d’équipements et autres ressources à court terme
• peut être utilisée lorsque la gestion des données est déjà décentralisée et que les données
gérées sont propres à chacun des groupes de l’organisation

Inconvénients :
• peut entraîner des problèmes d’évolutivité vers une architecture plus robuste
• doit faire partie d’un processus global pour être réussi
• des problèmes de redondance et d’inconsistances sont possibles
30
Approches d’implantation

Entrepôt de
données

Marchés de
données

Top down
31
Approches d’implantation

Approche Top down


Avantages :
• définition des données intégrée et très consistante
• fonctionne habituellement bien lorsque la gestion des données est déjà
centralisée à un certain niveau

Inconvénients :
• demande des efforts très importants de planification, d’analyse et de conception
au début du projet
• coût de réalisation significatif
• présente des délais avant que l’implantation finale puisse être fonctionnelle
• retour d’investissement et bénéfices visibles seulement à long terme
• demande une bonne coordination entre les différents groupes de l’organisation et
les consensus peuvent être difficiles à obtenir 32
Entrepôts physiques et virtuels

Entrepôt physique Entrepôt virtuel


- Données persistantes - Aucune donnée persistante
- Intégration a priori - Intégration à la volée (on the fly)
- Toutes les données sont intégrées - Intégration lorsque requis
- Nécessite un SGBD - Aucune nécessité d’un SGBD
- Temps de réponse rapides - Temps de réponse plus lents
- Adapté pour les grandes bases de - Fonctionne pour les petites bases de
données données

33
Logiciels

• CubeWerx CubeStor
• Hyperion Essbase
• IBM Red Brick Warehouse
• NCR Teradata Warehouse
• …

34
Entrepôts de données spatiales

« Un entrepôt de données spatiales est une


collection de données spatiales de qualité,
orientée par sujet, non-volatile, variable
dans le temps, qui inclut un ensemble
d’outils de base permettant d’accéder et
d’extraire l’information. » (Traduction libre,
Rawling et al 1997)

35
Entrepôts de données spatiales

La nature des données spatiales nécessite de tenir compte


des possibles incompatibilités :
• dans la référence spatiale (position, forme, orientation, taille)
• dans les systèmes de référence
• dans les unités de mesure
• dans l’incertitude spatiale
• dans la précision
• dans le format
•…
→ Besoin d’outils d’intégration ou d’accès spécialisés (ex.
FME, OGDI)
36
Entrepôts de données spatiales

Autres éléments à prendre en considération lors de


l’intégration des données spatiales :
• la topologie
• les contraintes d’intégrité spatiale
• la consistance entre les échelles
•…
→ Traitements longs, complexes et coûteux
Afin d’éviter de répéter les efforts d’intégration, il peut être
utile de stocker le résultat des différentes étapes
d’intégration, par exemple dans une architecture à niveaux
multiples
37
Outils clients d’un entrepôt
de données
 Différents types d’usagers nécessitent
différents outils d’exploitation de données.
Il en existe trois principaux types :
• Les logiciels requêteurs (Cognos Impromptu,
Crystal Decisions Crystal analysis, …)
• Les outils de forage de données (SPSS
Clementine, SGI Mineset, …)
• Les outils OLAP (Hyperion Analyzer, Cognos
Powerplay, ProClarity, …)

38
OLAP

39
OLAP

« Il s’agit d’une catégorie de logiciels axés


sur l’exploration et l’analyse rapide des
données selon une approche
multidimensionnelle à plusieurs niveaux
d’agrégation » (Caron, 1998)

40
OLAP

• Catégorie de logiciels :
– S’exprime par une grande quantité de produits
logiciels disponibles sur le marché
• Exploration et analyse rapide :
– OLAP vise à assister l’usager dans son analyse
en lui facilitant l’exploration de ses données et
en lui donnant la possibilité de le faire
rapidement
Rapidité et facilité

41
OLAP
• Facilité
– L’usager n’a pas à maîtriser des langages
d’interrogation et des interfaces complexes
– L’usager interroge directement les données, en
interagissant avec celles-ci
• Rapidité
– OLAP exploite une dénormalisation maximale des
données, sous la forme d’une pré-agrégation stockée
– L’usager devient opérationnel en très peu de
temps
L’usager peut se concentrer sur son analyse
et non sur le processus (les moyens utilisés
pour l’analyse) 42
OLAP

• Approche multidimensionnelle :
– Basée sur des thèmes d’analyse (dimensions)
– Plus intuitive
• Plusieurs niveaux d’agrégation :
– Les données peuvent être groupées à différents niveaux
de granularité (les regroupements sont pré-calculés, par
exemple, le total des ventes pour le mois dernier calculé
à partir de la somme de toutes les ventes du mois).
– Granularité : niveau de détail des données
emmagasinées dans une base de données.

43
Composantes OLAP
• L’architecture OLAP consiste en trois services :
Base de données :
– Doit supporter les données agrégées ou résumées
– Peut provenir d’un entrepôt ou d’un marché de données*
– Doit posséder une structure multidimensionnelle (SGDB
multidimensionnel ou relationnel)
Serveur OLAP :
– Gère la structure multidimensionnelle dans le SGBD
– Gère l’accès aux données de la part des usagers
Module client :
– Permet aux usagers de manipuler et d’explorer les données
– Affiche les données sous forme de graphiques statistiques et de tableaux
• Selon le type de base de données accédé, plusieurs configurations sont
possibles : multidimensionnelle, relationnelle ou hybride
44
Opérations OLAP

Les outils OLAP utilisent des opérateurs


particuliers afin de « naviguer » dans les cubes
multidimensionnels :
– Pivoter (pivot, swap) : Permet d’interchanger deux
dimensions
– Forer (drill-down) : Permet de descendre dans la hiérarchie
de la dimension. Ex. visualiser le nombre d’accidents par mois au
lieu de par année.
– Remonter (drill-up, roll-up) : Permet de remonter dans la
hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par
année au lieu de par mois.
– Forer latéralement (drill-across) :
– Permet de passer d’une mesure à l’autre. Ex. visualiser le coût des
travaux au lieu du nombre d’accidents
– Permet de passer d’un membre de dimension à un autre. Ex. visualiser
les données de Montrpellier au lieu de celles du Languedoc-Roussillon 45
OLTP vs OLAP

OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Priorité à la sécurité et l’intégrité ♦ Priorité à l’analyse et l’exploration
des données. des données
♦ Optimisation du rapport “espace de ♦ Optimisation du temps de réponse
stockage vs. quantité de données” aux requêtes (redondance
(non-redondance des données). encouragée s’il y a gain de
♦ BD mise à jour fréquemment performance)
(transactions). ♦ Gestion de données pré-agrégées,
en mode lecture (mise à jour
contrôlée)

46
OLTP vs OLAP
OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Outil de requête tributaire de la ♦ Absence d’outil de requête i.e.
structure de données (un usager l’usager interagit directement avec
doit connaître la structure de la les données
base de données pour l’interroger
efficacement). ♦ Requêtes principalement du type
♦ Requêtes “non-agrégatives” i.e. “agrégatif” i.e. calculs de totaux,
visitent peu d’enregistrements, variance, maxima et minima, etc…
mais mettent à contribution les
techniques d’indexation pour
retourner un nombre relativement
restreint d’enregistrements
répondant à certains critères.

47
SOLAP

48
SOLAP

• Environ 80% des données ont une composante


spatiale qui est souvent inexploitée

123, rue S Sainte-Foy


t-Jean G1K 7P4
Route 138
Québec
Amérique du Nord

Besoin de nouveaux outils d’analyse spatio-temporelle


pour exploiter cette composante

49
SOLAP

• SIG ? : Il est bien connu que les SIG seuls ne présentent


pas l’efficacité requise par les applications analytiques
(langages d’interrogation, interfaces complexes, temps de
traitement longs)
• OLAP ? : L’intérêt d’OLAP pour l’analyse spatio-
temporelle a été démontré [Caron, 1997].
Cependant, sans volet cartographique, il est
impossible de visualiser la composante géométrique
des données
• SIG + OLAP ? : Une solution pourrait être de
combiner des technologies spatiales et non-spatiales : SIG
et OLAP
50
SOLAP

SOLAP : Une plate-forme visuelle supportant


l’exploration et l’analyse spatio-temporelle faciles
et rapides des données selon une approche
multidimensionnelle à plusieurs niveaux
d’agrégation via un affichage cartographique,
tabulaire ou en diagramme statistique.

51
Exemple d’interface SOLAP

52