Beruflich Dokumente
Kultur Dokumente
VALENTIN Pauline
Sommaire
Prsentation de la B.I. et SQL Server 2008 ...................................................................................... 3 1.1 1.2 Prsentation rapide de SQL Server 2008................................................................................. 3 La B.I. : dfinition et apport lentreprise .............................................................................. 3
Le datawarehouse ........................................................................................................................... 4 2.1 2.2 Dfinition du datawarehouse .................................................................................................. 4 Conception du datawarehouse ............................................................................................... 5
Premires notions dIntegration Services ....................................................................................... 6 3.1 3.2 3.3 LETL ......................................................................................................................................... 6 Package : unit de travail de S.S.I.S. ........................................................................................ 6 Tches de S.S.I.S. ..................................................................................................................... 8
Introduction Analysis Services ...................................................................................................... 9 4.1 4.2 Linfrastructure OLAP .............................................................................................................. 9 Le data mining ....................................................................................................................... 11
5 6
Moteur BD
IS
AS
RS
SQL Server 2008
Ces trois services seront expliqus en dtails dans des chapitres complmentaires. Ce cours abordera nanmoins les notions gnrales pour apprhender au mieux ces plateformes. Pour commencer, il est important de comprendre la dfinition et lutilit dun projet BI au sein dune entreprise.
Introduction la B.I. avec SQL Server 2008 indicateurs, avec sa vrit et ses critres. Ainsi, si lon veut considrer les donnes de lentreprise dans son ensemble, la tche savre rude voire parfois impossible. Pourtant, cela constituerait une utilit vidente et un rel apport la socit. En effet, une mise en relation et une analyse de toutes les donnes permettraient de raliser des tudes et des prvisions sur le comportement et la sant de lentreprise.
Solution BI
Analyser mes donnes agrges (indicateurs) Obtenir une valuation de mon entreprise
Figure 2: Solution BI
Le but de la BI est dapporter une vision globale des donnes de lentreprise, afin de rpondre aux problmatiques de celle-ci, ou tout simplement, afin de lvaluer. Pour y arriver, SQL Server 2008 met donc disposition trois plateformes qui illustrent ce cheminement (cf. figure 2). Avant dvoquer les bases de celles-ci, il est essentiel de connaitre le concept du datawarehouse.
2 Le datawarehouse
2.1 Dfinition du datawarehouse
Comme expliqu prcdemment, la premire tape dun projet BI est de crer un entrept central pour avoir une vision globale des donnes de chaque service. Cet entrept porte le nom de datawarehouse. On peut galement parler de datamart, si seulement une catgorie de services ou mtiers est concerne. Par dfinition, un datamart peut tre contenu dans un datawarehouse, ou il peut tre seulement issu de celui-ci.
Datamart RH
Datawarehouse
Figure 3: Datawarehouse et Datamart
Introduction la B.I. avec SQL Server 2008 Un datawarehouse reprsente en fait une base de donnes, celles-ci tant intgres (elles auront subi une sorte de nettoyage qui les normalisera), non volatiles (c'est--dire quune fois les donnes rentres dans lentrept, elles y restent pour de bon), et historises (ou dates). Cest l la diffrence avec des sources de donnes transactionnelles (systmes OLTP). Grce la plateforme SQL Server Integration Services, cet entrept central sera rempli. Mais avant, il est indispensable de dfinir sa structure.
Une table de dimension contient des colonnes, chaque colonne correspondant un attribut. Une dimension organise ainsi les donnes contenues dans la table en fonction dun domaine dintrt. Exemples de dimension : le temps, le lieu, le type de produit Les colonnes dune table de faits reprsentent les faits ou les mesures. Ses donnes sont gnralement numriques, quantifiables et agrgeables. Exemples : un montant, une quantit de produits Les mesures sont en fait les critres ou indicateurs que lon veut tudier en fonction de diffrents axes ou dimensions. Une table de faits contient donc les mesures dont on a besoin, mais aussi les identifiants qui font rfrences aux tables de dimensions situes tout autour de la table de fait. On parle alors de schma en toile, et parfois de schma en flocon de neige quand le schma stend encore plus. On peut en effet inclure des dimensions hirarchiques, par exemple, si lon choisit dadmettre une dimension temps qui concernerait des annes, celle-ci peut tre dcompose en semestre, puis en trimestre Une fois les dimensions et les faits identifis, on cre les tables directement sur SQL Server, en tant que simples tables. Pour les diffrencier, on peut spcifier dans le nom sil sagit dune table de faits ou de dimension. Le schma du datawarehouse est, en fait, une simple base de donnes avec nos tables de fait et de dimensions. Cette partie de conception demande une connaissance pointue des besoins et attentes de lentreprise concerne. Il faut tout prendre en compte et poser les bonnes questions : Arrivera t-il que les dirigeants de lentreprise changent davis sur la priodicit des rapports de leur activit (toutes les semaines au lieu de tous les mois par exemple) ? Au lieu davoir un compte rendu statique, bas sur des critres fixes, le but ici est dapporter une plus grande libert qui reposerait sur les dsirs et les besoins des dirigeants. Aprs la conception du datawarehouse, vient son remplissage avec Integration Services.
3.1 LETL
Une fois la structure du datawarehouse dfinie, les donnes doivent tre insres. Loutil qui va permettre le remplissage de notre base est lETL (Extract-Transform-Loading). Comme son nom lindique, il commence par extraire les donnes provenant de diffrentes sources (Excel, MySQL), les transforme si besoin est, puis les charge dans le datawarehouse.
Ce processus se droule donc en trois tapes : o Extraction des donnes partir dune ou plusieurs sources de donnes telles que fichier plat, fichier brut, OLE DB (source relationnelles telles que SQL Server, Access), Excel ; o Transformation des donnes agrges ; o Chargement des donnes dans la banque de donnes de destination (datawarehouse). La phase dETL est ici incontournable car elle conditionne et influence la qualit du projet par la suite.
Chaque package contient toutes les tches dintgration et fonctionne grce au principe du glisser-dposer , ce qui facilite son utilisation. Lenchainement des tches dun package est orchestr par le flux de contrle (Control Flow). Lorsquune tche a pour objectif dassurer la transformation des donnes, elle est nomme tche de flux de donnes . A lintrieur de cette tche se trouve un flux de donnes (Data Flow) contenant au minimum une source, une transformation et une destination (cf. figure 7).
On remarque galement quun package contient un onglet Event Handlers (cf. figure 6), il permet de grer des vnements qui peuvent survenir durant les tapes dun package. Quant longlet Package Explorer , il dcrit, de faon arborescente, tous les lments qui composent le package. On retient donc quun package S.S.I.S. se compose dun flux de contrle et, ventuellement, dun ou plusieurs flux de donnes. La cration et la gestion des packages sont maitrises grce des assistants et outils fournis par S.S.I.S. Exemples : assistant configuration de packages, assistant importation et exportation, concepteur S.S.I.S (outil graphique pour la cration de packages)
Les dimensions dun cube peuvent tre affines par une reprsentation hirarchique (cf. figure 8).
10
Une telle structure permet daccder un niveau plus prcis de donnes, on parle alors de forage : le drill down dsigne le forage avant, c'est--dire le passage un niveau plus dtaill (on zoome sur la dimension), et le drill up dsigne le forage arrire (on ralise une jointure des composants qui dtaillent la dimension). Ces forages sont utiles lors de la cration de cubes. On ralise des glisser-dposer des dimensions choisis jusqu un tableau, qui ressemble dailleurs beaucoup aux tableaux croiss dynamiques que lon trouve sur Excel. Lexemple ci-dessous (cf. figure 9) prsente le nombre de ventes ralises par pays et types darticles, puis par ville et modles darticles (aprs un drill down).
Grce au signe , on peut effectuer un forage avant dans la hirarchie des dimensions, et avec le signe , un forage arrire. Les mesures que contient un cube peuvent tre dj existantes dans la table de fait (mesures physiques), ou elles peuvent rsulter dun calcul (mesures calcules). On peut choisir de mettre plus dune mesure lintersection des axes (cf. figure 9). Les croisements entre les diffrents axes nous permettent alors daccder plusieurs indicateurs ou mesures. Dotnet France Association Valentin Pauline
11
Le langage qui permet dinterroger les cubes OLAP est le langage MDX (Multidimensional Expressions). Cest aussi ce langage qui est utilis par Analysis Services pour construire les cubes. La notion de procdures stockes est galement prise en compte dans Analysis Services, elles permettent dtoffer les fonctions basiques du langage MDX. Il est possible den crire sous diffrents langages (VB, C++, C#...). Les analyses ralises par les fonctions OLAP sont utilises pour valuer lentreprise. Vient donc la notion de KPI. Les KPI (Key Performance Indicator) sont, comme leur nom lindique, des indicateurs cls de performance qui montrent lvolution de lentreprise en matire de qualit et les objectifs atteindre. Un KPI indique par une valeur ou une couleur (chelle prdfinie) la tendance dune mesure vis--vis des objectifs requis.
12
Par cette mthodologie et ses nombreux algorithmes, le data mining permet de concevoir des schmas et modles dexploration de donnes. Le data mining propose une srie de tches pour aider dans lexamen des donnes : o la classification en fonction de caractristiques dfinies ; o la rgression linaire qui prsente les relations entre les donnes ; o la segmentation qui permet la division dune population en groupes homognes ; o lassociation qui examine le comportement de ces groupes ; o lanalyse de squences qui identifie les chemins pris par les clients (sur un site web par exemple).
13
6 Conclusion
Pour conclure ce chapitre, il est important de se rendre compte de lutilit de linformatique dcisionnelle. La BI est riche en solutions et concepts, et elle permet de mettre en place des projets pour les grandes entreprises daujourdhui. Microsoft la compris en amliorant ses trois services sus SQL Server 2008.