AIDE13 VF

Les entrepts de donnes pour les nuls. . . ou pas !
Ccile Favre , Fadila Bentayeb , Omar Boussaid , Jrme Darmont , Grald Gavin , Nouria Harbi , Nadia Kabachi , Sabine Loudcher Universit de Lyon ERIC - Lyon 2 {prenom.nom}@univ-lyon2.fr ERIC - Lyon 1 {prenom.nom}@univ-lyon1.fr Rsum. Dans cet article, nous portons notre regard sur laide la dcision du point de vue des systmes dcisionnels au sens des entrepts de donnes et de lanalyse en ligne. Aprs avoir dni les concepts qui sous-tendent ces systmes, nous nous proposons daborder les problmatiques de recherche qui leur sont lies selon quatre points de vue : les donnes, les environnements de stockage, les utilisateurs et la scurit.
Introduction
Le processus dcisionnel ou les systmes dcisionnels au sens des entrepts de donnes sont ns dun besoin exprim par les entreprises qui ntait pas satisfait par les systmes traditionnels de bases de donnes. En intgrant la technologie des entrepts de donnes (data warehouses), le processus dcisionnel apporte une rponse au problme de la croissance continuelle des donnes pouvant tre de formats diffrents. De plus, il supporte efcacement les processus danalyse en ligne (On-Line Analytical Processing - OLAP) (Chaudhuri et Dayal, 1997; Chaudhuri et al., 2011). Lentreposage de donnes est donc n dans les entreprises. Ainsi, les "grands comptes" sont les principaux utilisateurs de ces technologies qui font partie intgrante de lentreprise comme outil daide la dcision (le terme de Business Intelligence est aussi largement utilis). Nous pouvons citer les secteurs de la grande distribution, des banques et des assurances, ainsi que ceux de lautomobile et des institutions mdicales. Mais bien au-del, lentreposage de donnes suscite de plus en plus dintrt, avec une ouverture vers des entreprises plus petites mais qui peuvent tirer parti aujourdhui de ces outils. Notons aussi que plusieurs domaines dapplication ont vu le jour autour du Web, des systmes dinformations gographiques, des ux de donnes, etc. Le Web est par ailleurs devenu une source de donnes part entire. Dans cet article, nous nous attachons aborder la thmatique de laide la dcision au travers du prisme de ces systmes dcisionnels en exposant leur fonctionnement, en faisant tat des travaux de recherche raliss. Mais il sagit aussi de tenter de cerner les enjeux des recherches futures dans ce domaine par rapport lvolution du contexte actuel, et ce aux niveaux technologique et conomique en particulier avec le succs de linformatique dans le
Entrepts de donnes et aide la dcision
nuage (Cloud Computing) et des outils libres (Open Source) entre autres. En effet la prolifration des outils libres et la possibilit de dlocaliser les donnes dans le nuage ouvre un accs ce processus dcisionnel un plus grand nombre dutilisateurs et cre de nouveaux verrous scientiques. Cet article est organis de la faon suivante. Dans un premier temps, nous dnissons les concepts cls du domaine des entrepts de donnes et de lanalyse en ligne dans la section 2. Nous abordons ensuite les quatre volets qui nous apparaissent cruciaux, savoir les donnes (section 3), les environnements de stockage de ces donnes (section 4), les utilisateurs (section 5) et la scurit (section 6), en dtaillant pour chacun de ces volets les tendances qui se dessinent pour lavenir. Nous concluons nalement dans la section 7.
2
2.1
Linformatique dcisionnelle dans tous ses tats

Prambule
Contrairement certains processus fonds uniquement sur lutilisation doutils logiciels, un processus dcisionnel est un projet qui se construit. Il doit sinsrer dans un cadre pouvant prendre en compte des donnes, des informations et des connaissances. Lapproche dentreposage de donnes ("data warehousing") constitue un champ de recherche important dans lequel de nombreux problmes restent rsoudre. Les entrepts de donnes sont gnralement intgrs dans un systme daide la prise de dcision o lon distingue deux espaces de stockage : lentrept de donnes et les magasins de donnes. Une architecture du processus dcisionnel est reprsente dans la Figure 1 (Bentayeb et al., 2009).
F IG . 1 Architecture gnrale dun systme dcisionnel.
Plusieurs auteurs ont dni le concept dentrept de donnes. Selon Inmon (1996), cest une collection de donnes oriente sujets, intgre, non volatile et en mode de lecture seule, importe partir de sources de donnes htrognes et stocke diffrents niveaux de granularit dans un but de prise de dcision. Ainsi, un entrept de donnes est gnralement vu comme
C. Favre et al.
un espace de stockage centralis regroupant dans un format homogne les donnes issues de diffrentes sources, qui peuvent faire lobjet de transformations et dhistorisation, des ns danalyse pour la prise de dcision. Un magasin de donnes peut constituer un extrait de lentrept, o les donnes sont prpares de manire spcique pour faciliter leur analyse et leur exploitation par un groupe dutilisateurs, en fonction par exemple dune orientation mtier. Finalement, les possibilits danalyse des donnes slectionnes sont trs varies. Elles dpendent des besoins des utilisateurs et font appel des techniques diffrentes : le reporting avec la construction de tableaux de bord, dindicateurs, de graphiques ; la navigation multidimensionnelle dans les donnes avec la technologie OLAP ; la fouille dans les donnes laide des mthodes de Data Mining.
2.2
2.2.1
Modlisation et alimentation de lentrept

Modlisation multidimensionnelle
Les modles multidimensionnels ont pour objectif de proposer un accs aux donnes intuitif et trs performant. Pour cela, les donnes sont organises autour des faits que lon cherche analyser, caractriss laide dindicateurs (appels mesures) qui sont des donnes normalement numriques et additives, permettant de mesurer lactivit modlise. Ces faits sont dcrits par un ensemble daxes danalyse, ou dimensions, do le terme de modle multidimensionnel. Ce modle de base correspond au modle en toile (Kimball et al., 2000; Chaudhuri et Dayal, 1997). Citons lexemple classique de faits concernant des ventes, dont les mesures sont la quantit commande et le prix correspondant. Les dimensions (clients, produits concerns, dates, etc.) sont des descripteurs des faits de vente. Ainsi, pour un client donn, un produit, une date, nous disposons de la quantit commande et du prix correspondant. Si lon considre une implmentation en relationnel (ROLAP), les faits seront dans une table (table de faits) et chacune des dimensions sera dans une table respectivement (tables de dimension), chacune tant relie la table des faits. Les avantages de ce modle sont la facilit de navigation, grce la table de faits centrale, de bonnes performances en raison du faible nombre de jointures effectuer pour lanalyse sur une dimension donne et des agrgations faciles des mesures. La modlisation en ocons est une premire variante du modle en toile. Il consiste dcomposer les dimensions dun modle en toile en des hirarchies explicites, chacun des niveaux de la hirarchie correspondant une table dans une implmentation ROLAP. Cette modlisation permet de rduire le volume de stockage et autorise des analyses par paliers sur la dimension hirarchise. En revanche, les jointures ncessaires pour accder aux donnes entranent une dgradation des performances. Finalement, la modlisation en constellation consiste fusionner plusieurs modles en ocons, permettant le partage de certaines dimensions par plusieurs ensemble de faits. 2.2.2 Alimentation
Lalimentation dun entrept de donnes est une phase essentielle dans le processus dentreposage. Elle se droule en plusieurs tapes : extraction, transformation, chargement et rafrachissement des donnes, qui sont prises en charge par le processus dETL (Extracting, Transforming and Loading). Ce processus constitue la phase de migration des donnes de production
dans le systme dcisionnel aprs quelles ont subi des oprations de slection, de nettoyage et de reformatage dans le but de les homogniser. Cette phase constitue une tape importante et trs chronophage dans la mesure o on lestime environ 80% du temps de mise en place de la solution dcisionnelle. Ainsi cette phase fait lobjet de nombreux travaux de recherche, en terme de modlisation, dautomatisation du processus (Simitsis et al., 2010; Jovanovic et al., 2012; Papastefanatos et al., 2012; Akkaoui et al., 2011; Muoz et al., 2009).
2.3
Analyse en ligne
Lanalyse en ligne constitue un autre aspect du processus dentreposage des donnes. Codd (1993) a dni lOLAP comme "lanalyse dynamique dune entreprise qui est requise pour crer, manipuler, animer et synthtiser linformation des modles danalyse de donnes. Cela inclut la capacit discerner des relations nouvelles ou non anticipes entre les variables, la capacit identier les paramtres ncessaires pour traiter des grosses quantits de donnes, la cration dun nombre illimit de dimensions". Un systme OLAP est un dispositif muni doprateurs spciques permettant lanalyse en ligne des donnes. Il est galement considr comme un serveur dapplications pouvant traiter directement les donnes dun entrept ou pouvant tre utilis comme un outil dexploration de donnes grce une navigation interactive. Les applications OLAP permettent entre autres de travailler sur des donnes historiques pour tudier les tendances ou les prvisions dune activit, ou de travailler sur des donnes rcapitulatives pour crer de linformation stratgique pour la prise de dcision. Lanalyse en ligne peut aussi bien sappliquer aux donnes de lentrept qu celles dun magasin de donnes. Gnralement, elle est plutt effectue sur une collection de donnes encore plus ne appele cube de donnes. 2.3.1 Cubes de donnes
Le modle multidimensionnel permet dorganiser les donnes selon des axes reprsentant des lments essentiels de lactivit dune entreprise. Trois niveaux de reprsentation des donnes sont dnis dans le processus dcisionnel : lentrept qui regroupe des donnes transversales lensemble des mtiers de lentreprise, le magasin de donnes qui est une reprsentation verticale des donnes portant sur un mtier particulier et enn le cube de donnes (ou hypercube). Le cube correspond une vue mtier o lanalyste choisit les mesures observer selon certaines dimensions. Un cube est une collection de donnes agrges et consolides pour rsumer linformation et expliquer la pertinence dune observation. Le cube de donnes est explor laide de nombreuses oprations qui permettent sa manipulation. 2.3.2 Oprateurs OLAP
De manire gnrale, il existe deux classes doprations. La premire, lie la structure des donnes, permet de la manipuler pour mettre en relief la pertinence de certaines informations. Les oprations de manipulation des donnes multidimensionnelles permettent de rorienter la vue multidimensionnelle ou den changer lagencement en agissant sur la position des membres des dimensions et des mesures : rotation (rotate), permutation (switch) , division (split), emboitement (nest), enfoncement (push) et retrait (pull) . La deuxime classe doprations est lie la granularit des donnes. Ces oprations agrgent et rsument les donnes
C. Favre et al.
ou les dtaillent et permettent une analyse par paliers : agrgation (roll up), forage vers le bas (drill down). Dans ce cas, on a recours une opration dagrgation qui est applique sur la (ou les) mesure(s) tudie(s) (somme, moyenne, max, min, etc.). Ces deux derniers oprateurs sont largement voqus dans les travaux de recherche contrairement ceux de la premire catgorie. En effet, ils se basent sur les hirarchies et soulvent donc les problmes de complexit des hirarchies modliser (Malinowski et Zimnyi, 2004) et dadditivit des donnes (Mazn et al., 2009).
2.4
Un point sur le positionnement par rapport aux bases de donnes classiques
Gnralement, le processus dcisionnel est bas sur un entrept de donnes qui constitue son lment central. Il est alors intressant de comprendre ce quest ce concept de stockage des donnes et de le positionner par rapport aux bases de donnes classiques. La rgle-clef du dveloppement dune base de donnes traditionnelle est doptimiser le traitement efcace dun ensemble de transactions. En effet, les bases de donnes classiques sont dites transactionnelles car elles sont conues pour des oprations quotidiennes. Ces transactions ncessitent des donnes dtailles et actualises. Elles lisent ou mettent jour des enregistrements accessibles par leur identiant. Elles sont conues pour reter une smantique plutt oprationnelle en minimisant les conits et en garantissant la persistance des donnes avec un minimum de redondance et un maximum de contrle dintgrit. Les requtes visent un nombre relativement peu important denregistrements. Le but est de mettre jour les donnes pour garder une trace des vnements de lentreprise. Ces bases de donnes sont qualies alors de production. Elles sont orientes vers des applications de type OLTP (On-Line Transactional Processing). OLAP, autrement dit lanalyse en ligne, est une dmarche oriente "aide la dcision". Les donnes sont stockes dans un entrept de donnes, o elles sont historises, rsumes et consolides. Le volume de donnes des entrepts est important et va de centaines de gigaoctets des traoctets, voire mme encore davantage de nos jours. Les entrepts de donnes stockent des donnes collectes au cours du temps, en provenance de plusieurs bases de donnes oprationnelles. Le temps de rponse doit tre court. Pour cela, il est ncessaire dagrger les donnes an dapporter des rponses rapides des requtes pouvant tre poses de multiples niveaux. Il est ncessaire doptimiser les requtes les plus frquemment utilises an damliorer les temps de rponse. Divers travaux se sont intresss cette question de loptimisation de performances qui est cruciale dans ce contexte danalyse en ligne. Un entrept de donnes vise rpondre un utilisateur en termes dinformations et non en termes dapplications (Franco, 1997). Ainsi les systmes transactionnels et les systmes danalyse en ligne ne peuvent coexister dans un mme environnement de base de donnes de par leurs caractristiques diffrentes (Codd, 1993), mme si un entrept de donnes peut tre stock de manire relationnelle.
2.5
Outils
Le domaine des entrepts de donnes est n dans les entreprises. Et cest aujourdhui un secteur en pleine expansion avec de nombreux projets dcisionnels qui se construisent. La question de la mesure du retour sur investissement se pose alors. Le recours des technologies de type "Open Source" peut constituer une alternative au cot de mise en place de tels projets.
Les outils proposs actuellement sont de plus en plus nombreux galement et il est souvent difcile de sy retrouver. Lobjectif nest pas ici den faire une liste exhaustive. Notons dailleurs, lintrt dun ventuel travail qui viserait recenser et positionner (cartographier) tous ces outils, un tel travail tant pour le moment inexistant notre connaissance, malgr son intrt indniable. Nous pouvons distinguer les outils selon ce quils couvrent comme fonctionnalits. Citons par exemple les deux ETL Open Source les plus connus : Kettle (Pentaho Data Integration) et Talend. Mentionnons galement les moteurs OLAP tels que Mondrian (Open Source) qui permettent, partir den entrept stock dans un systme de gestion de bases de donnes relationnelles, de pouvoir construire les cubes de donnes, qui peuvent tre ensuite interfacs avec des applications de visualisation (telles que JPivot, Pentaho Analyzer, Pentaho Analysis Tool, Geo Analysis Tool, etc.) Nous pouvons galement citer dautres outils connus qui sont ddis au reporting tels que JasperSoft (Open Source), QlikView, BusinessObject.
3
3.1
Des donnes tous les niveaux

Complexit des donnes
Les entrepts de donnes et lOLAP sont des technologies relativement bien matrises quand il sagit de donnes "simples". Cependant, la communaut scientique saccorde pour dire que, avec lavnement du Web et la profusion des donnes multimdias (son, image, vido, texte...), les donnes sont de plus en plus htrognes, diverses et quelles sont devenues complexes. Lavnement des donnes complexes a remis en cause le processus dentreposage et danalyse des donnes ; il a induit lmergence de nouveaux problmes de recherche comme lintgration des donnes complexes dans les entrepts, le stockage, la reprsentation ou la modlisation, lanalyse en ligne et la fouille de telles donnes. Linformatique dcisionnelle tente de sadapter aux donnes complexes depuis plusieurs annes. De nombreuses adaptations ou volutions pourraient tre cites. Par exemple, les oprateurs OLAP, comme celui dagrgation (souvent bas sur la somme ou la moyenne), sont dnis pour des donnes classiques (numriques) et ils deviennent inadapts quand il sagit de donnes complexes, par exemple composes de textes, dimages, de sons ou de vidos. Plusieurs quipes de recherche travaillent sur ce problme clef dagrgation des donnes complexes, par exemple textuelles (Ravat et al., 2008), ou images (Jin et al., 2010). Dautres quipes travaillent sur lassociation des Systmes dInformation Gographique, des entrepts de donnes et de lanalyse OLAP pour crer le SOLAP (Spatial OLAP) (Bdard et Han, 2009). Les donnes spatiales sont une forme de donnes complexes. En effet, dans un cube de donnes spatiales, les dimensions et les mesures peuvent contenir des composantes spatiales ou gomtriques. Un autre exemple de donnes complexes est celui des ux de donnes (data stream). Dans ces ux, les analystes souhaitent dtecter des changements dynamiques par une analyse en ligne. On parle de fouille de ots de donnes multidimensionnelles, dOLAPing Stream Data ou de Stream cube (Han et al., 2005). Enn, le XOLAP (ou XML OLAP) cherche faire des analyses OLAP sur des documents XML tout en tenant compte de leurs spcicits (hirarchies multiples, imbriques, incompltes...) (Wang et al., 2005).
C. Favre et al.
Ces dclinaisons de lOLAP sont des exemples dadaptation des entrepts de donnes et de lOLAP aux diffrents types de donnes, mais elles ne portent souvent que sur la structure des donnes et non pas sur leur contenu. Une autre spcicit des donnes complexes rside dans la smantique quelles vhiculent. Par consquent, un nouveau problme merge : comment prendre en compte la smantique contenue dans les donnes complexes pour la modlisation et lanalyse ? Le recours des solutions telles que les ontologies constitue une issue prometteuse explore dans diffrents travaux (Cao et al., 2006; Selma et al., 2012).
3.2
Volume des donnes
Paralllement cette problmatique de la smantique des donnes, la question du volume de ces donnes peut galement poser problme au niveau de leur requtage en terme de performance. En effet, les requtes dcisionnelles sappliquent sur de trs grandes quantits de donnes. Elles ncessitent pourtant des temps de rponse ne dpassant pas quelques secondes ou quelques minutes. Il existe plusieurs techniques traitant le problme de lamlioration des performances des requtes avec un souci constant de loptimisation en utilisant des techniques issues des bases de donnes : la matrialisation des vues, lindexation, la fragmentation, etc. (Aouiche et Darmont, 2009; Benkrid et Bellatreche, 2011) (se basant souvent sur lexploitation dalgorithmes de fouille de donnes) La production croissante de donnes, le partage des informations entre utilisateurs, la diffusion des donnes via les rseaux engendrent de trs gros volumes de donnes disponibles et intressantes analyser. Lexpression anglaise Big Data est utilise pour dsigner des donnes dont le volume est tel quil devient difcile de les stocker, de les interroger, de les modliser, de les analyser et de les visualiser avec les outils et architectures informatiques existants, du fait galement de leur manque de structure. En effet, la prolifration de trs grandes quantits de donnes, produites principalement par le Web, notamment par les grands acteurs dInternet et les rseaux sociaux, engendre des volutions technologiques qui posent de rels problmes scientiques. Les volumes de donnes trs grandes chelles ncessitent des moyens de stockage appropris (Agrawal et al., 2011). Lutilisation de nouvelles units de mesures de stockage, telles que les peta-octets voire les zeta-octets sont aujourdhui des ralits. Outre le stockage, lexploitation de telles donnes soulve galement de nouveaux challenges scientiques. De nombreux travaux de recherche proposent aujourdhui des solutions de gestion de donnes trs grande chelle. Disposer en ligne de plus en plus de donnes historises pour lanalyse est un besoin rel pour les grands acteurs dInternet ainsi que pour dautres entreprises, entrainant une expansion des bases de donnes orientes analyse, tels que les entrepts de donnes. Linformatique dans le nuage tente dapporter des rponses ces problmes.
Environnement de stockage
Linformatique dcisionnelle (Business Intelligence) a beaucoup volu depuis une trentaine dannes passant dune discipline exclusivement rserve un groupe dutilisateurs, les dcideurs, pour se dmocratiser en dlocalisant la prise de dcision du haut de la pyramide au plus proche du terrain pour une meilleure ractivit. Lenjeu est de disposer de la bonne
information an de dlivrer la bonne connaissance la bonne personne. Cela passe par le dploiement dun environnement de stockage qui doit permettre de rendre accessible, de mettre en forme et de prsenter les informations cls aux diffrents utilisateurs concerns an de faciliter la prise de dcision.
4.1
Au-del du relationnel, les entrepts continuent
Comme nous lavons vu, larchitecture dun systme dcisionnel est gnralement vue comme une architecture trois niveaux : les sources dinformation qui correspondent lensemble des bases de donnes de production et sites dont sont extraites les informations ; lentrept qui contient lensemble des donnes extraites de ces sources ; les magasins extraits de lentrept et ddis aux diffrentes classes de dcideurs. Les sources dinformations utiles aux dcideurs peuvent tre stockes sur des sites de nature diverse (sites Web, bases de donnes...). Cependant, avec lavnement des donnes trs volumineuses, peu ou pas structures (Big Data), le monde traditionnel des bases de donnes relationnelles, support des entrepts de donnes, nest plus adapt pour grer et traiter ces grandes masses de donnes de type texte, image, etc. provenant du Web, des publications sur les mdia sociaux, les logs des serveurs Web et des applications, etc. Pour faire face ces normes volumes de donnes, de nouvelles technologies sont apparues comme Hadoop, MapReduce ou les bases de donnes NoSQL (Not only SQL) (Cattell, 2011; Leavitt, 2010). Pour autant, est-ce que lmergence de ces nouvelles technologies Big Data signe la n des entrepts de donnes ? Nous pensons que les bases de donnes NoSQL nont pas la vocation de remplacer les bases de donnes relationnelles, mais de les complter selon les besoins des entreprises en proposant une alternative pour adapter le fonctionnement des bases de donnes des besoins spciques. Le terme NoSQL fait en fait rfrence une diversit dapproches, classes en quatre catgories de bases de donnes : les bases de donnes orientes colonnes (comme MonetDB 1 ) , les bases de donnes orientes graphes (comme Neo4J 2 ), les bases de donnes orientes cl/valeur (comme Riak 3 ) et les bases de donnes orientes documents (comme MongoDB 4 ). Les diffrents systmes de gestion de bases de donnes qui supportent les bases de donnes NoSQL sont destins manipuler de gigantesques bases de donnes pour des sites Web tels que Google, Amazon, ou Facebook. En abandonnant les proprits ACID (Atomicit, Cohrence, Isolation et Durabilit) des bases de donnes relationnelles, les bases de donnes NoSQL permettent une monte en charge leve et assurent une grande performance. Larchitecture dcisionnelle "traditionnelle" avec sa base de donnes centralise nest donc plus lunique architecture de rfrence. En effet, nous pensons que dans un contexte Big Data, il est important de mettre en place dautres architectures dcisionnelles, notamment pour la prise en compte la fois de donnes peu ou pas structures et le passage lchelle.
1. 2. 3. 4. http ://www.monetdb.org/ http ://neo4j.org/ http ://basho.com/ http ://www.mongodb.org/
C. Favre et al.
4.2
Jusque dans les nuages
Les solutions de bases de donnes orientes analyses doivent vrier les mmes proprits que celles des environnements dans le nuage, savoir : abilit, volutivit, scurit, bonne performance, tolrance aux pannes, capacit de fonctionner dans un environnement htrogne, exibilit de requtes... Les problmes lis aux entrepts de donnes et lanalyse en ligne (OLAP) sont rtudier dans le cadre des environnements de Cloud Computing et cela augure des perspectives prometteuses de combinaisons de ces deux technologies. Entreposer des donnes trs grande chelle suppose des moyens de traitements grande chelle galement. Le Cloud Computing offre ces moyens grce une association de plusieurs clusters regroupant un trs grand nombre dordinateurs. Cependant, le recours une telle infrastructure nest pas gratuit. Il fonctionne selon un modle de facturation lutilisation. Ceci engendre un ensemble de problmes scientiques tudier pour mettre au point des approches techniquement et conomiquement viables. Par ailleurs, lun des points cruciaux prendre en charge porte sur la virtualisation des donnes. Cest un problme ouvert. La rpartition, la rplication et la distribution des donnes travers les nuds des clusters ncessitent des modles de donnes appropris aux environnements du Cloud. Ceux-ci doivent permettre lutilisateur de ne voir que ses donnes. Un autre point crucial considrer porte sur les traitements des donnes. Il existe dj des travaux dans la littrature, dont certains prconisent des approches bases sur les bases de donnes parallles privilgiant les performances (Abouzeid et al., 2009). Dautres sont plus favorables des solutions utilisant le paradigme de MapReduce, mettant en avant son adquation avec des traitements rpartis sur des donnes distribues (Stonebraker et al., 2010). Cependant, MapReduce est plutt adapt pour les donnes non structures et sillustre par sa congruence des environnements tels le Cloud. Cependant, le traitement de requtes rparties sur plusieurs nuds ainsi que lquilibrage des charges (requtes) et des donnes sur les diffrents nuds sont de rels challenges. Lapparition de nouveaux nuds peut impliquer des changements de stratgie de rpartition, de rplication et de distribution des donnes et des traitements. Ceci demeure un problme ouvert. La conception de dmarches, utilisant les deux techniques de paralllisation et de partitionnement des donnes, constitue certainement une perspective prometteuse pour les entrepts de donnes dans le Cloud. Construire des entrepts de donnes sur le Cloud devrait tenir compte des contraintes de ce dernier et plus particulirement de la tarication de lusage des ressources. Il sagit de la notion dlasticit qui constitue un argument nancier convaincant. Lutilisateur peut demander des ressources selon ses prfrences. Il peut avoir besoin soit de hautes performances avec des prix levs, soit de basses performances avec un prix moindre. Du fait de lhtrognit des ressources, il faut lui laisser la possibilit de louer des ressources sur mesure. Pour cela, il faut dnir des mtriques pour mieux valuer et dcider des performances des ressources utiliser. Ces objectifs sont galement des challenges relever mme si le dploiement dun entrept sur le Cloud doit tre totalement automatis. La construction de modle de cots est galement un objectif important du fait que la construction dentrepts de donnes sur le Cloud ne porte pas seulement sur des aspects techniques, la dimension conomique reprsente un point crucial. Dans les environnements de Cloud, les vitesses de communication (via LAN) peuvent tre irrgulires selon la proximit des nuds les uns des autres et larchitecture des rseaux. Ceci peut avoir un impact sur les
transferts de trs grands volumes de donnes qui peuvent sexprimer en tera-octets, voire en peta-octets. Ceci ncessite alors des techniques de compression de donnes. Une partie des problmes de recherche classiques qui se posent encore dans le domaine des entrepts de donnes trouve une nouvelle expression lorsque lon se situe dans le nuage. Faut-il continuer de dnormaliser les modles physiques dans un cadre NoSQL pour bncier de meilleures performances, demeurer dans un environnement SQL qui garantit lintgrit des donnes, ou encore tenter de travailler intgralement en mmoire vive ? Llasticit est-elle la rponse tous les problmes de performance, ou ne vaut-il pas mieux adapter des techniques doptimisation bien connues (index, vues matrialises...) pour minimiser le cot en ressources (et donc, montaire) des requtes dans le nuage (Nguyen et al., 2012) ? Doit-on inclure dans la notion dlasticit la prise en compte des donnes situationnelles (Pedersen, 2010) et les problmes dintgration des donnes qui en dcoulent ? De plus, travailler au moins en partie partir de donnes situationnelles impose daccepter une perte de contrle sur les donnes du systme dcisionnel, notamment sur leur abilit et leur prnit, et donc de se contenter danalyses de tendances plutt que dhistoriques avrs (Middelfart, 2012). Evaluer ce degr de contrle est donc important. Ltude de Kandel et al. (2012) constitue un point de dpart tout fait intressant pour ces rexions. Dautres problmes sont davantage lis au paradigme de linformatique dans le nuage et aux usages dcisionnels plus personnels et collaboratifs quil permet. Par exemple, classiquement, linvestissement (en gnral trs important) dans un systme dcisionnel doit tre effectu a priori par les entreprises. En revanche, dans le nuage, la construction dun systme dcisionnel peut tre incrmentale, collaborative et exploiter au mieux le paiement la demande (Darmont et al., 2012). Il est tout fait possible de "partir petit", voire de "rester petit", dadaptant la cible des utilisateurs. Nous abordons alors prsent ce volet utilisateurs si crucial pour des systmes qui, par dnition, sont centrs utilisateurs.
Des entrepts pour tous : utilisateurs tous les tages
Linformatique dcisionnelle, en raison des architectures matrielles, logicielles et des comptences requises, na longtemps t accessible quaux grandes entreprises. Pourtant, les besoins en dcisionnel existent dans de plus petites structures, que ce soient des PME (Petites et Moyennes Entreprises) ou TPE (Trs Petites Entreprises), des ONG (Organisations Non Gouvernementales), des associations, des communauts en ligne ou mme de simples citoyens (les indigns espagnols ont, par exemple, exprim une forte demande de donnes publiques ouvertes). Pour ce type dutilisateurs, des solutions bon march, lgres, faciles utiliser, exibles et rapides, sont ncessaires (Grabova et al., 2010). Avec lavnement de linformatique dans le nuage, le dcisionnel la demande (cloud BI, personal BI, self-service BI, on-demand BI ou encore collaborative BI, dans la terminologie anglo-saxonne encore non standardise, avec BI pour Business Intelligence) sous forme de service est devenu possible et accessible avec un simple navigateur Web depuis une tablette ou un smartphone. Ce nouveau type de services en ligne doit permettre des utilisateurs non-experts de prendre des dcisions claires en enrichissant le processus dcisionnel par des donnes situationnelles, cest--dire trs cibles, de porte limite dans le temps et pertinentes pour un petit groupe dutilisateurs (Abello et al., 2013), soit typiquement des donnes glnes sur le Web.
C. Favre et al.
A lheure o linformatisation tend diminuer les relations inter-personnes, dans la mesure o beaucoup de ces relations se transforment en relations homme-machine, le besoin d"humaniser" les systmes se fait ressentir pour permettre le processus daide la dcision. Cette humanisation ncessite de rendre linteraction systme-utilisateur plus personnelle, an dassurer ladaptation de linformatique aux utilisateurs, avec pour objectif de rpondre leurs propres besoins. Ceci passe donc initialement par une conception de lentrept de donnes o les utilisateurs naux sont considrs.
5.1
Implication de lutilisateur dans le processus dcisionnel
Lun des points cls de lentreposage de donnes rside dans la conception du schma de lentrept. En effet, les possibilits danalyse sont conditionnes par ce dernier. Il est donc important que les utilisateurs soient impliqus dans la conception de lentrept pour une bonne prise en compte de leurs besoins danalyse. Dans un second temps, pour permettre un processus dcisionnel centr utilisateurs, la prise en compte de leurs prfrences et de leurs caractristiques travers un prol constitue une piste intressante. Dans lexploitation des donnes, il sagit alors de proposer la personnalisation du systme (visualisation des donnes, par exemple), et la recommandation, par rapport une aide la navigation dans les donnes (Aligon et al., 2011), qui permet terme une aide la dcision. En effet, par rapport au volume considrable de donnes, laccs une information pertinente devient un enjeu crucial pour lutilisateur. Mais au-del de cet aspect, il sagit aussi pour lutilisateur davoir limpression que le systme informatique ait t fait pour lui et quil sadresse lui "personnellement". Par ailleurs, si les outils mthodologiques et technologiques permettant de mettre en uvre des solutions dcisionnelles la demande existent depuis quelques annes (entrepts de donnes Web, de documents, de donnes XML, logiciels ETL et OLAP libres, systmes de gestion de bases de donnes en mmoire vive... (Grabova et al., 2010)), le tout premier service a t le prototype Google Fusion Tables (Gonzalez et al., 2010). Ce dernier permet dintgrer des donnes prives et situationnelles dans un tableur simple, de les visualiser, de les analyser et de les partager de faon trs intuitive. Les applications en ligne de nombreux diteurs de solutions dcisionnelles proposent dsormais galement ce type de fonctionnalits. De plus, il a t propos dtendre le principe de fusion de tables des cubes de donnes (fusion cubes dont le schma et les instances peuvent tre modis la vole et qui intgrent des donnes situationnelles ainsi que les mtadonnes dcrivant leur provenance et leur qualit (Abello et al., 2013). Dun point de vue technique, Essaidi (2010) a propos une plateforme dcisionnelle la demande. Toutefois, si cette plateforme est bien disponible en tant que service dans le nuage (en mode SaaS : Software as a Service), lintgration dynamique de donnes situationnelles nest pas mentionne. Thiele et Lehner (2011) proposent une solution ce problme en combinant des donnes existantes chez lutilisateur des services Web qui crent de nouveaux contenus partir de sources externes. Ainsi, le processus habituel dETL est conduit par lutilisateur luimme, de faon interactive. Toutefois, il ny a aucune garantie quant la qualit et lintgrit des donnes recueillies. Pour cela, il est toutefois possible dutiliser les travaux de Jrg et Dessloch (2009), qui garantissent lintgrit dun entrept quand les donnes sources sont fournies avec une faible latence, comme cest le cas pour des donnes situationnelles.
Enn, laspect collaboratif du dcisionnel est apparu ds 2007, avec lannotation de cubes pour modliser et permettre le partage de lexpertise des utilisateurs dOLAP (Cabanac et al., 2007). Une architecture dcisionnelle collaborative a ensuite t propose par Berthold et al. (2010), qui inclut des fonctionnalits dites sociales an denrichir le processus de dcision grce aux opinions dexperts. Une dernire approche rpartit des magasins de donnes dans une architecture pair pair (Golfarelli et al., 2012). Bien que le processus de dcision soit amlior dynamiquement grce au partage de connaissances dans toutes ces approches, lintgration de donnes situationnelles la vole ny est pas envisage.
5.2
La visualisation pour aider lutilisateur dcider
La phase danalyse de donnes est bien videmment cruciale par rapport laide la dcision et au pilotage. Ainsi, la production de tableaux de bord et la visualisation interactive de linformation constituent des tapes phares, dautant plus que lexploration de donnes massives est un problme difcile, en particulier pour lil humain. Nous pouvons distinguer deux types de travaux de recherche dans ce domaine : les travaux sur la visualisation elle-mme et les besoins mergents par rappport aux nouveaux supports de communication. Le premier porte sur lamlioration de la visualisation par des algorithmes. Ainsi, on a vu se dvelopper la combinaison de lanalyse en ligne avec des techniques de fouille de donnes (Messaoud et al., 2006). Et les chercheurs spcialiss en visualisation commencent sintresser au domaine de lOLAP. Citons en particulier la possibilit de navigation OLAP en 3D (Sureau et al., 2009). Paralllement, lvolution technologique en matire de support modie considrablement le rapport des utilisateurs la visualisation de donnes. Il est ncessaire de considrer ladaptation doutils danalyse aux nouveaux supports de diffusion. Selon K. Bornauw 5 , "si nous parvenons relever ce d de la visualisation des donnes et la rendre conviviale et accessible depuis nimporte quel appareil (ordinateur, smartphone, tablette,..), elle sera non seulement conomiquement utile, mais galement agrable lutilisateur de systmes dinformation dcisionnels, qui se verra soulag du fardeau des modles complexes et douloureux dexploration des donnes". Si les outils traditionnels tels que Cognos ou BusinessObjects sont encore dactualit, on a vu merger de nouveaux outils comme Spotre, QlikView, Tableau 7. Et lusage de nouveaux supports a ncessit le dveloppement dapplications spciales par les terminaux mobiles (Roambi-ESX pour Ipad, Yellown, etc.). En effet, le dploiement des applications de Business Intelligence sur des terminaux mobiles complique la problmatique de visualisation. Ds lavnement des premiers tlphones intelligents, la question de laccs au systme dinformation de lentreprise depuis tout lieu et tout instant sest pose. Dici 2014, les accs internet seront majoritairement mobiles. Les applications mobiles transforment la communication et donc lorganisation mme des entreprises, commente Benoit Herr 6 , lauteur de ltude. Lessor des tlphones intelligents et autres tablettes modient les usages de la Business Intelligence puisque laccs distance au systme dinformation depuis son terminal portable est devenu rel. Ces possibilits daccs distance de donnes fort potentiel stratgique reposent
5. Kris Bornauw , BI Expert, EoZen, Groupe SQLI,- www.eozen.com, 2012. 6. Proginov, "Cloud, SaaS et mobilit : nouveaux outils, nouveaux usages". Mars 2012, Journal Solutions & Logiciels, N28.
C. Favre et al.
bien videmment la question de la scurit, que nous nous proposons daborder dans la section suivante.
Scurit
Chaque jour de nouvelles vulnrabilits sont dcouvertes sur tous les types de composants dun systme dinformation classique, et aussi dcisionnel a fortiori. Lorsquelles sont exploites par des individus malveillants, elles risquent de perturber gravement le systme dinformation dcisionnel : indisponibilit (partielle ou totale, temporaire ou prolonge), pertes de donnes, vol dinformations condentielles, pertes dexploitation, la liste nest malheureusement pas exhaustive... La protection du systme dinformation dcisionnel est une lutte incessante. Elle exige des administrateurs systme et rseau en charge de la maintenance informatique de sastreindre : surveiller les menaces qui psent sur les systmes dinformation mettre en uvre rapidement les parades permettant de rduire les possibilits dattaque Pour cela, il faut dnir le primtre de surveillance : systmes dexploitation ou applications, et ceci pour les quipements rseaux, serveurs, postes de travail, et priphriques. Nous constatons que la veille technologique, dans le domaine de la scurit, concerne jusqu prsent le suivi des nouvelles technologies disponibles sur le march, mais concerne galement le suivi des alertes de scurit ou plus prcisment des nouvelles vulnrabilits dcouvertes sur les systmes informatiques. Renforcer la scurit des systmes dinformation dcisionnelle consiste pour la plupart des acteurs ajouter des quipements supplmentaires : serveurs, pare-feux... ou complexier et sophistiquer la gestion des accs ... Nous sommes persuads que la scurit doit aussi tre intgre dans la phase de conception, dans les mcanismes darchitecture des entrepts de donnes pour imposer des mthodes et des outils. Cette dmarche permet de pallier dventuelles dfaillances des dispositifs mis en place au niveau des infrastructures et des systmes de dtection dintrusions (IDS). Les systmes dinformation dcisionnels sont souvent stocks sur des machines virtuelles diffrentes pour des raisons de volumtrie et doptimisation. La communication entre les diffrentes machines est trs vulnrable. Cette faille doit tre supprime par des moyens de communication naturellement scuriss. En considrant ces machines virtuelles comme des parties indpendantes, des primitives cryptographiques peuvent permettre de scuriser les communications. Base sur la cryptographie asymtrique, la signature numrique (parfois appele signature lectronique) est un mcanisme permettant de garantir lintgrit dun document lectronique et den authentier lauteur, par analogie avec la signature manuscrite dun document papier. Un mcanisme de signature numrique doit permettre au lecteur dun document (une couche) didentier lexpditeur (une couche) qui a appos sa signature. Il doit garantir que le document na pas t altr entre linstant o lauteur la sign et le moment o le lecteur le consulte. La condentialit des donnes peut tre assure classiquement par des cryptosystmes symtriques. Le problme qui se pose est le stockage de la cl prive. Il sagit en effet de prmunir les systmes contre des attaques visant la recouvrer. Aucune solution ne permet de se prmunir totalement contre ce risque. Cependant, on assiste depuis quelques annes lmergence de cryptosystmes compltement homomorphiques. Ces cryptosystmes permettent de faire des calculs sur des valeurs encryptes sans avoir les dcrypter. Ils peuvent
donc grandement limiter lusage de la cl prive. Toutefois, ces cryptosystmes ncessitent de grosses ressources et ne sont pas encore oprationnels en pratique. Les questions relatives la scurit et la condentialit des donnes sur le Cloud ont t les premires proccupations des fournisseurs et des usagers du Cloud. Il en est de mme dans le cas des entrepts de donnes dans le Cloud. Diffrents scnarios peuvent tre envisags : soit la soustraction des donnes sensibles de lanalyse partir du Cloud ; soit lencryptage de celles-ci. Des travaux commencent merger portant sur lanalyse des donnes encryptes. Ces questions reprsentent sans doute des pistes de recherche intressantes. Cependant, elles ne sont pas les seules proccupations, les nombreux problmes cits ci-dessus montrent galement la diversit des pistes de recherche que suscite cette nouvelle problmatique des entrepts dans le Cloud. Celle-ci souffre aujourdhui dun manque de conceptualisation du fait de son mergence rcente. Ainsi, les problmes de scurit intrinsques au stockage de donnes dans le nuage demeurent : espionnage de la part du fournisseur de service ou dun sous-traitant, garantie de disponibilit des donnes, croisements incontrls de donnes... (Chow et al., 2009). Il existe cependant des pistes de recherche prometteuses, notamment au niveau de lanonymisation des donnes qui, mme cryptes, restent interrogeables et utilisables dans certains traitements. Stocker des donnes volontairement altres, mlanges dans le Cloud peut tre aussi une possibilit pour assurer la condentialit des donnes. Cette solution soulve galement des questions au niveau du cryptage et dcryptage pour les interrogations. De plus, le calcul multi-parties permet des individus distincts de construire de faon collaborative un rsultat danalyse commun sans pour autant dvoiler leurs sources de donnes. Ces techniques de cryptographie ne sont toutefois pas encore assez matures pour permettre lanalyse en ligne ou la fouille de donnes, ni pour un dploiement lchelle du nuage. Ce dernier soulve des problmes de temps de traitement qui pousse ne scuriser que certaines donnes : les plus sensibles, les plus rcentes ...
Conclusion
Dans cet article, nous avons prsent le domaine de laide la dcision au travers du prisme des entrepts de donnes et de lanalyse en ligne. Ainsi, laide la dcision apparat ainsi dans ce domaine comme la proposition de mthodes et doutils permettant aux dcideurs de naviguer dans les donnes consolides ddies lanalyse. Aprs avoir prsent les concepts fondateurs de ce domaine, nous nous sommes penchs sur quatre aspects pouvant tre considrs comme structurants par rapport la recherche dans ce domaine, savoir : les donnes, les environnements de stockage de ces donnes, les utilisateurs et la scurit. Par ailleurs, ce travail a permis de synthtiser les problmes ouverts de ce domaine, qui se posent dans un nouveau contexte conomique et technologique. Ce contexte est fortement corrl avec lmergence du Cloud, des outils Open Source qui modient en profondeur le rapport des utilisateurs aux donnes et leur analyse, posant de rels problmes de scurit. Laide la dcision du point de vue des entrepts de donnes et de lanalyse est amene voluer en fonction de ce nouveau contexte, assurant aux professionnels du domaine un dveloppement dactivit croissant et, aussi, un avenir scientique prometteur avec des verrous identiables nombreux, comme nous avons pu le constater.
C. Favre et al.
Rfrences
Abello, A., J. Darmont, L. Etcheverry, M. Golfarelli, J.-N. Mazon, F. Naumann, T.-B. Pedersen, S. Rizzi, J. Trujillo, P. Vassiliadis, et G. Vossen (2013). Fusion cubes : Towards self-service business intelligence. International Journal of Data Warehousing and Mining 9(2). Abouzeid, A., K. Bajda-Pawlikowski, D. Abadi, A. Silberschatz, et A. Rasin (2009). Hadoopdb : an architectural hybrid of mapreduce and dbms technologies for analytical workloads. Proc. VLDB Endow. 2(1), 922933. Agrawal, D., S. Das, et A. El Abbadi (2011). Big data and cloud computing : current state and future opportunities. In Proceedings of the 14th International Conference on Extending Database Technology, EDBT/ICDT 11, New York, NY, USA, pp. 530533. ACM. Akkaoui, Z. E., E. Zimnyi, J.-N. Mazn, et J. Trujillo (2011). A model-driven framework for etl process development. In 14th International Workshop on Data Warehousing and OLAP, Glasgow, United Kingdom (DOLAP 2011), pp. 4552. ACM. Aligon, J., M. Golfarelli, P. Marcel, S. Rizzi, et E. Turricchia (2011). Mining preferences from olap query logs for proactive personalization. In 15th International Conference on Advances in Databases and Information Systems, Vienna, Austria (ADBIS 2011), Volume 6909 of Lecture Notes in Computer Science, pp. 8497. Springer. Aouiche, K. et J. Darmont (2009). Data mining-based materialized view and index selection in data warehouses. J. Intell. Inf. Syst. 33(1), 6593. Bdard, Y. et J. Han (2009). Geographic Data Mining and Knowledge Discovery, Chapter Fundamentals of Spatial Data Warehousing for Geographic Knowledge Discovery. Taylor & Francis. Benkrid, S. et L. Bellatreche (2011). Une dmarche conjointe de fragmentation et de placement dans le cadre des entrepts de donnes parallles. Technique et Science Informatiques 30(8), 953973. Bentayeb, F., O. Boussaid, C. Favre, F. Ravat, et O. Teste (2009). Personnalisation dans les entrepts de donnes : bilan et perspectives. In 5mes journes francophones sur les Entrepts de Donnes et lAnalyse en ligne (EDA 2009), Montpellier, Volume B-5 of RNTI, Toulouse, pp. 722. Cpadus. Berthold, H., P. Rsch, S. Zller, F. Wortmann, A. Carenini, S. Campbell, P. Bisson, et F. Strohmaier (2010). An architecture for ad-hoc and collaborative business intelligence. In Proceedings of the EDBT/ICDT Workshops. Cabanac, G., M. Chevalier, F. Ravat, et O. Teste (2007). An annotation management system for multidimensional databases. In 9th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2007), Regensburg, Germany, Volume 4654 of LNCS, pp. 8998. Springer. Cao, L., J. Ni, et D. Luo (2006). Ontological engineering in data warehousing. In 8th AsiaPacic Web Conference (APWeb 2006), Harbin, China, Volume 3841 of Lecture Notes in Computer Science, pp. 923929. Springer. Cattell, R. (2011). Scalable sql and nosql data stores. SIGMOD Rec. 39(4), 1227.
Chaudhuri, S. et U. Dayal (1997). An Overview of Data Warehousing and OLAP Technology. SIGMOD Rec. 26(1), 6574. Chaudhuri, S., U. Dayal, et V. Narasayya (2011). An overview of business intelligence technology. Commun. ACM 54(8), 8898. Chow, R., P. Golle, M. Jakobsson, E. Shi, J. Staddon, R. Masuoka, et J. Molina (2009). Controlling data in the cloud : Outsourcing computation without outsourcing control. In First ACM Cloud Computing Security Workshop (CCSW 2009), Chicago, IL, USA, pp. 8590. Codd, E. (1993). Providing olap (on-line analytical processing) to user-analysts : an it mandate. Technical report, E.F. Codd and Associates. Darmont, J., T.-B. Pedersen, et M. Middelfart (2012). Cloud intelligence : What is really new ? Panel. Essaidi, M. (2010). ODBIS : towards a platform for on-demand business intelligence services. In Proceedings of the EDBT/ICDT Workshops, Lausanne, Switzerland. Franco, J. M. (1997). Le Data Warehouse, le Data Mining. Eyrolles. Golfarelli, M., F. Mandreoli, W. Penzo, S. Rizzi, et E. Turricchia (2012). OLAP query reformulation in peer-to-peer data warehousing. Information Systems 5(32), 393411. Gonzalez, H., A. Y. Halevy, C. S. Jensen, A. Langen, J. Madhavan, R. Shapley, W. Shen, et J. Goldberg-Kidon (2010). Google fusion tables : web-centered data management and collaboration. In 2010 ACM International Conference on Management of Data (SIGMOD 2010), Indianapolis, USA, pp. 10611066. Grabova, O., J. Darmont, J.-H. Chauchat, et I. Zolotaryova (2010). Business intelligence for small and middle-sized enterprises. SIGMOD Record 39(2), 3950. Han, J., Y. Chen, G. Dong, J. Pei, B. Wah, J. Wang, et Y. Cai (2005). Stream Cube :An Architecture for Multidimensional analysis of Data Streams. Distributed and Parallel Databases 18, 173187. Inmon, W. H. (1996). Building the Data Warehouse. John Wiley & Sons. Jin, X., J. Han, L. Cao, J. Luo, B. Ding, et C. X. Lin (2010). Visual cube and on-line analytical processing of images. In 19th ACM Conference on Information and Knowledge Management, CIKM 2010, Toronto, Ontario, Canada, pp. 849858. Jrg, T. et S. Dessloch (2009). Near real-time data warehousing using state-of-the-art etl tools. In Enabling Real-Time Business Intelligence Third International Workshop (BIRTE 2009), Lyon, France, Volume 41 of LNBIP, pp. 100117. Springer. Jovanovic, P., O. Romero, A. Simitsis, et A. Abell (2012). Integrating etl processes from information requirements. In 14th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2012), Vienna, Austria, Volume 7448 of Lecture Notes in Computer Science, pp. 6580. Springer. Kandel, S., A. Paepcke, J. M. Hellerstein, et J. Heer (2012). Enterprise data analysis and visualization : An interview study. IEEE Trans. Vis. Comput. Graph. 18(12), 29172926. Kimball, R., L. Reeves, M. Ross, et W. Thornthwaite (2000). Concevoir et dployer un data warehouse. Eyrolles. Leavitt, N. (2010). Will nosql databases live up to their promise ? Computer 43(2), 1214.
C. Favre et al.
Malinowski, E. et E. Zimnyi (2004). Olap hierarchies : A conceptual perspective. In 16th International Conference on Advanced Information Systems Engineering (CAiSE 2004), Riga, Latvia, Volume 3084 of Lecture Notes in Computer Science, pp. 477491. Springer. Mazn, J.-N., J. Lechtenbrger, et J. Trujillo (2009). A survey on summarizability issues in multidimensional modeling. Data Knowl. Eng. 68(12), 14521469. Messaoud, R. B., O. Boussaid, et S. L. Rabasda (2006). A multiple correspondence analysis to organize data cubes. In Databases and Information Systems IV - Selected Papers from the Seventh International Baltic Conference, DB&IS 2006, July 3-6, 2006, Vilnius, Lithuania, Volume 155 of Frontiers in Articial Intelligence and Applications, pp. 133146. IOS Press. Middelfart, M. (2012). Analytic lessons : in the cloud, about the cloud. Indistrial keynote. Muoz, L., J.-N. Mazn, et J. Trujillo (2009). Automatic generation of etl processes from conceptual models. In 12th International Workshop on Data Warehousing and OLAP (DOLAP 2009), Hong Kong, China, pp. 3340. ACM. Nguyen, T.-V.-A., L. dOrazio, S. Bimonte, et J. Darmont (2012). Cost models for view materialization in the cloud. In Workshop on Data Analytics in the Cloud (EDBT-ICDT/DanaC 12), Berlin, Germany. Papastefanatos, G., P. Vassiliadis, A. Simitsis, et Y. Vassiliou (2012). Metrics for the prediction of evolution impact in etl ecosystems : A case study. J. Data Semantics 1(2), 7597. Pedersen, T. B. (2010). Research challenges for cloud intelligence : invited talk. In 2010 EDBT/ICDT Workshops, Lausanne, Switzerland. Ravat, F., O. Teste, R. Tournier, et G. Zuruh (2008). A top keyword extraction method for olap document. In International Conference on Data Warehousing and Knowledge Discovery (DAWAK 2008), Volume 5182, pp. 5564. Springer Verlag, LNCS. Selma, K., B. IlyS, B. Ladjel, S. Eric, J. StPhane, et B. Michael (2012). Ontology-based structured web data warehouses for sustainable interoperability : requirement modeling, design methodology and tool. Comput. Ind. 63(8), 799812. Simitsis, A., D. Skoutas, et M. Castellanos (2010). Representation of conceptual etl designs in natural language using semantic web technology. Data Knowl. Eng. 69(1), 96115. Stonebraker, M., D. Abadi, D. J. DeWitt, S. Madden, E. Paulson, A. Pavlo, et A. Rasin (2010). Mapreduce and parallel dbmss : friends or foes ? Commun. ACM 53(1), 6471. Sureau, F., F. Bouali, et G. Venturini (2009). Optimisation heuristique et gntique de visualisations 2d et 3d dans olap : premiers rsultats. In 5mes journes francophones sur les Entrepts de Donnes et lAnalyse en ligne (EDA 2009), Montpellier, Volume B-5 of RNTI, Toulouse, pp. 6578. Cpadus. Thiele, M. et W. Lehner (2011). Real-time BI and situational analysis. In Business Intelligence Applications and the Web : Models, Systems and Technologies, pp. 285309. Hershey, PA : IGI Global. Wang, H., J. Li, Z. He, et H. Gao (2005). OLAP for XML data. In Proceedings of the 1st International Conference on Computer and Information Technology (CIT2005), Shangai, China, pp. 233237. IEEE Computer Society.
Summary
In this paper, we present the background regarding decisional processes in terms of data warehousing and OLAP. We present the main related concepts and the research challenges according to four points of view: data, storage, users and security.

AIDE13 VF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

AIDE13 VF

Hochgeladen von

Copyright:

Verfügbare Formate

Les entrepts de donnes pour les nuls. . . ou pas !

Entrepts de donnes et aide la dcision

Linformatique dcisionnelle dans tous ses tats

F IG . 1 Architecture gnrale dun systme dcisionnel.

Modlisation et alimentation de lentrept

Entrepts de donnes et aide la dcision

Un point sur le positionnement par rapport aux bases de donnes classiques

Entrepts de donnes et aide la dcision

Des donnes tous les niveaux

Volume des donnes

Entrepts de donnes et aide la dcision

Au-del du relationnel, les entrepts continuent

Jusque dans les nuages

Entrepts de donnes et aide la dcision

Des entrepts pour tous : utilisateurs tous les tages

Implication de lutilisateur dans le processus dcisionnel

Entrepts de donnes et aide la dcision

La visualisation pour aider lutilisateur dcider

Entrepts de donnes et aide la dcision

Entrepts de donnes et aide la dcision

Entrepts de donnes et aide la dcision

Das könnte Ihnen auch gefallen