Beruflich Dokumente
Kultur Dokumente
Big Data
PREAMBULE
SMILE
Smile est une socit dingnieurs experts dans la mise en uvre de solutions open source et lintgration de systmes appuys sur lopen source. Smile est membre de lAPRIL, lassociation pour la promotion et la dfense du logiciel libre, du PLOSS le rseau des entreprises du Logiciel Libre en Ile-de-France et du CNLL le conseil national du logiciel libre. Smile compte prs de 700 collaborateurs dans le monde, dont plus de 500 en France (fvrier 2014), ce qui en fait le premier intgrateur franais et europen de solutions open source. Depuis 2000 environ, Smile mne une action active de veille technologique qui lui permet de dcouvrir les produits les plus prometteurs de lopen source, de les qualifier et de les valuer, de manire proposer ses clients les produits les plus aboutis, les plus robustes et les plus prennes. Cette dmarche a donn lieu toute une gamme de livres blancs couvrant diffrents domaines dapplication. La gestion de contenus (2004), les portails (2005), la business intelligence (2006), la virtualisation (2007), la gestion lectronique de documents (2008), les PGIs/ERPs (2008), les VPN open source (2009), les Firewall et Contrle de flux (2009), les Middleware orients messages (2009), lecommerce et les Rseaux Sociaux d'Entreprise (2010), le Guide de lopen source et NoSQL (2011) et plus rcemment, Mobile et Recensement et audit (2012). Chacun de ces ouvrages prsente une slection des meilleures solutions open source dans le domaine considr, leurs qualits respectives, ainsi que des retours dexprience oprationnels. Au fur et mesure que des solutions open source solides gagnent de nouveaux domaines, Smile sera prsent pour proposer ses clients den bnficier sans risque. Smile apparat dans le paysage informatique franais comme le prestataire intgrateur de choix pour accompagner les plus grandes entreprises dans ladoption des meilleures solutions open source. Ces dernires annes, Smile a galement tendu la gamme des services proposs. Depuis 2005, un dpartement consulting accompagne nos clients, tant dans les phases davant-projet, en recherche de solutions, quen accompagnement de projet. Depuis 2000, Smile dispose dun studio graphique, devenu en 2007 Smile Digital agence interactive, proposant outre la cration graphique, une expertise e-marketing, ditoriale, et interfaces riches. Smile dispose aussi dune agence spcialise dans la TMA (support et lexploitation des applications) et dun centre de formation complet, Smile Training. Enfin, Smile est implant Paris, Lille, Lyon, Grenoble, Nantes, Bordeaux, Marseille et Montpellier. Et prsent galement en Espagne, en Suisse, au Benelux, en Ukraine, au Maroc et en Cte dIvoire.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Sites Internet EMI Music, Salon de lAgriculture, Mazars, Areva, Socit Gnrale, Gtes de France, Patrice Pichet, Groupama, Eco-Emballage, CFnews, CEA, Prisma Pub, Veolia, NRJ, JCDecaux, Spie, PSA, Boiron, Larousse, Dassault Systmes, Action Contre la Faim, BNP Paribas, Air Pays de Loire, Forum des Images, IFP, BHV, ZeMedical, Gallimard, Cheval Mag, Afssaps, Bnteau, Carrefour, AG2R La Mondiale, Groupe Bayard, Association de la Prvention Routire, Secours Catholique, Canson, BNP Paribas, Bouygues Telecom, CNIL, Eiffage, Poweo, Mazars, Kering Portails, Intranets et Systmes dInformation HEC, Bouygues Telecom, Prisma, Veolia, Arjowiggins, INA, Primagaz, Croix Rouge, Eurosport, Invivo, Faceo, Chteau de Versailles, Eurosport, Ipsos, VSC Technologies, Sanef, Explorimmo, Bureau Veritas, Rgion Centre, Dassault Systmes, Fondation dAuteuil, INRA, Gaz Electricit de Grenoble, Ville de Niort, Ville de Saint-Etienne, Ministre de la Culture, PagesJaunes Annonces, Feu Vert, Bouygues Immobilier, Biomrieux, Generali E-Commerce Krys, La Halle, Gibert Joseph, De Dietrich, Adenclassifieds, Macif, Furet du Nord, Gtes de France, Camif Collectivits, GPdis, Projectif, ETS, Bain & Spa, Yves Rocher, Bouygues Immobilier, Nestl, Stanhome, AVF Primdical, CCI, Pompiers de France, Commissariat lEnergie Atomique, Snowleader, Darjeeling, Le Bon March, VF Corporation, Histoire dOr, MyEvian, Chantelle, Yamaha, Wesco ERP et Dcisionnel Veolia, La Poste, Christian Louboutin, Eveha, SunR, Home Cin Solutions, Pub Audit, Effia, France 24, Publicis, iCasque, Nomadvantage, Gets, Nouvelles Frontires, Anevia, Jus de Fruits de Moora, Espace Loggia, Bureau Veritas, Skyrock, Lafarge, Cadremploi, Meilleurmobile.com, Groupe Vinci, IEDOM (Banque de France), Carrefour, Jardiland, Trsorerie Gnrale du Maroc, Ville de Genve, ESCP, Sofia, Faiveley Transport, INRA, Deloitte, Yves Rocher, ETS, DGAC, Generalitat de Catalunya, Gilbert Joseph, Perouse Mdical, VLille, Casden, Corsair
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Gestion documentaire Generali, HEC, JCDecaux, Serimax, Pierre Audoin Consultant, Alstom Power services, NetasQ, CS informatique, SNCF - Direction du matriel, Mazars, EDF R&D, EDF Nuclaire, Conseil Rgional du Centre, Leroy Merlin, Primagaz, Renault F1, INRIA, Ministre belge de la Communaut Franaise, APAVE, Conseil Gnral de Loire Atlantique, CNIL, Services du Premier Ministre... Infrastructure et Hbergement
WWW.SMILE.FR
Agence Nationale pour les Chques Vacances, Pierre Audoin Consultants, Rexel, Motor Presse, OSEO, Sport24, Eco-Emballage, Institut Mutualiste Montsouris, ETS, Ionis, Osmoz, SIDEL, Atel Hotels, Cadremploi, SETRAG, Institut Franais du Ptrole, Mutualit Franaise, Orange, Bouygues Tlcom, Fiducial, Ministre du Dveloppement Durable
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
SOMMAIRE
PREAMBULE................................................................................................ 2
SMILE ................................................................................................................................................................... 2 QUELQUES REFERENCES DE SMILE............................................................................................................................... 3
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
IMPLANTATION DE POINTS DE VENTE ................................................................................................................ 22 LOGISTIQUE ET CHAINE DAPPROVISIONNEMENT .......................................................................................................... 22 LE BIG DATA AU SERVICE DE LA TRAABILITE ...................................................................................................... 22 LE BIG DATA FACTEUR DOPTIMISATION DE LA CHAINE D'APPROVISIONNEMENT ........................................................ 23 TELECOMS ........................................................................................................................................................... 23
PANORAMA DES SOLUTIONS BIG DATA POUR LA BI ................................. 24 COMPOSANTS DINTEGRATION ET DE TRAITEMENT DE DONNEES ............ 25
SYNTHESE ................................................................................................................................................... 25 HADOOP .................................................................................................................................................... 26 ETL TALEND FOR BIG DATA............................................................................................................................ 28 ETL PENTAHO DATA INTEGRATION .................................................................................................................. 34
WWW.SMILE.FR
REMERCIEMENTS ...................................................................................... 52
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
EN RESUME
LE BIG DATA GENERATEUR DOPPORTUNITES
POUR LES ENTREPRISES ET COLLECTIVITES Chaque jour, la quantit de donnes cres et manipules ne cesse daugmenter, et ce quel que soit le secteur dactivit concern. Cette croissance, exponentielle, est lie : lvolution du nombre dutilisateurs des solutions IT lvolution des primtres couverts et des usages (mobile,...) la gnration de donnes par des machines la finesse de linformation trace la croissance des volumes oprationnels lvolution de lhistorique de donnes disponible. Ces donnes sont issues de sources multiples : RFID, compteurs dnergie, oprations commerciales en volumes, transactions financires, blogs, rseaux de capteurs industriels, rseaux sociaux, tlphonie, indexation Internet, parcours de navigation GPS, dtails d'appels en call center, e-commerce, dossiers mdicaux, informatique embarque, Internet des objets, donnes biologiques, textes de tickets ou mails, sondages,... Ces masses de donnes apportent des opportunits danalyses plus larges et plus fines ainsi que de nouveaux usages de linformation, quelle soit pleinement ou partiellement structure la source. La question n'est plus "Le Big Data peut-il devenir un avantage concurrentiel pertinent ?" mais "Comment pouvons-nous exploiter les possibilits offertes par ces solutions pour optimiser nos processus danalyse et de prise de dcision ?. En effet, les masses de donnes constituent un matriau brut. Au del de leur exploitabilit (pertinence, disponibilit et qualit), cest la capacit les transformer en analyse et en service qui apporte une valeur maximale.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Le Big Data transforme progressivement les organisations autour de la valorisation de linformation. Avec la finesse dinformation sur les oprations passes et de plus en plus dinformations prospectives, le Big Data va permettre lclosion de modles prdictifs plus pertinents.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Nous relevons aussi les possibilits de consolidation de donnes (massives) et htrognes la vole en complment de lentrept de donnes : la fdration de donnes.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
identifier des leviers de gain dexploitation de masses de donnes sur les activits de lentreprise identifier le primtre (lgal, technique, historique) dinformation disponible : SI interne, donnes fournies par des partenaires, OpenData, ... identifier le ou les cas d'utilisation rsultant de ladquation entre les leviers de gain et le primtre dinformation disponible
Cadrer larchitecture
dfinir une architecture flexible adapte au(x) cas dutilisation; il nexiste pas un modle darchitecture Big Data idal adapt tous les usages valider la disponibilit et lexploitabilit des donnes sources valider larchitecture (matrielle, rseau, applicative) par un test de monte en charge.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
CE LIVRE BLANC
Cet ouvrage constitue le premier livre blanc de Smile sur le sujet. Nous esprons quil vous apportera linformation souhaite et quil vous sera agrable parcourir. Comme les autres livres blancs publis par Smile, cet ouvrage sefforce de runir : une approche gnrale de la thmatique, ici : lanalyse et la valorisation de masses de donnes, ses concepts, ses champs dapplication, ses besoins spcifiques. un recensement des meilleures solutions Open Source dans ce domaine. une prsentation assez complte de ces solutions, de leurs forces, de leurs limites, de leur maturit et de leur aptitude satisfaire des besoins oprationnels. Cette tude, ralise par notre quipe de consultants, a t fonde sur plusieurs annes de travail de recherche et de premiers dploiements effectifs de solutions Big Data. Cet ouvrage vient complter livres blancs Business Intelligence et NoSQL. Les marques et logos prsents dans ce livre blanc sont la proprit des entreprises concernes.
WWW.SMILE.FR
SUJETS TRAITES
Ce livre blanc est concentr sur les solutions applicatives danalyse et de valorisation de masses de donnes. Dautres aspects de lexploitation des masses de donnes sont importants mais non dcrits ici : Qualit des donnes : prendre en compte la qualit et le nettoyage des donnes, ainsi que la gestion du cycle de vie des donnes rfrentielles dans le scope du projet vite daboutir une masse de donnes inexploitable. Des solutions de traitement, qualification et nettoyage automatique des donnes existent : fonctionnalits intgres aux flux de donnes ETL, briques complmentaires telles DataQuality de Talend. Infrastructures techniques : les solutions Big Data ncessitent une architecture rpartie. La composante systme et rseaux est un facteur cl de performance et dexploitabilit dune solution Big Data. Scurit de linformation : les aspects de scurisation des accs et de gestion de lintgrit des donnes sont importants pour la mise en oeuvre dune solution prenne.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Respect de la vie prive : les solutions Big Data peuvent apporter une puissance informative importante. Cette puissance doit respecter les liberts individuelles. Solutions : lcosystme des solutions Big Data est riche et volutif. Il nous serait difficile de dtailler toutes les solutions. Nous nous sommes concentrs sur les solutions les plus pertinentes lheure actuelle.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
CONCEPTS ET DEFINITIONS
BIG DATA
Le Big Data consiste en un/des ensemble(s) de donnes plus ou moins structures qui deviennent tellement volumineux qu'ils sont difficiles travailler avec des outils classiques de gestion de base de donnes. En 2012, Gartner a pos les bases de la dfinition du Big Data, base sur les 3V : Volume Vitesse Varit des donnes. "Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization." Sans seuil ni repre, beaucoup de bases de donnes classiques peuvent prtendre rpondre ces trois critres. Dans le prsent livre blanc, pour les usages d'analyse, nous complterons pragmatiquement la combinaison des 3V avec une considration de volumtries en dizaines de millions d'enregistrements minimum.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Il est actuellement impossible dobtenir ces trois proprits en mme temps dans un systme distribu. Sur de nombreux SGBDR classiques, la rplication devient plus complexe avec de fortes volumtries et une forte vlocit des donnes.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
La souplesse du modle de donnes, les performances et les capacits de requtage orientent lusage des bases documentaires vers du stockage oprationnel de masse (ODS) dans un systme dcisionnel. Type graphe Au del du moteur de stockage sous la forme dune base documentaire, ce type de base propose galement des relations entre objets. Ces derniers sont orients et peuvent porter des proprits. Type orient colonnes La colonne reprsente lentit de base de la structure de donnes. Chaque colonne dun objet est dfini par un couple cl / valeur. Une colonne contenant dautres colonnes est nomme supercolonne.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Ces types de bases sont adapts au stockage oprationnel de masse (ODS) et de source danalyses massives dans un systme dcisionnel. Type cl/valeur Dans ce modle, chaque objet/enregistrement est identifi par une cl unique. La structure de lobjet est libre.
Dans ce modle on ne dispose gnralement que des quatre oprations Create, Read, Update, Delete (CRUD) en utilisant la cl de lenregistrement manipuler. Du fait des limites fonctionnelles daccs aux donnes de ces types de base, nous ne leur voyons pas dapplication dcisionnelle.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
ETL
Afin dalimenter un datawarehouse partir des diffrentes sources de donnes ou de synchroniser en batch des donnes entre systmes, on utilise une gamme doutils appels ETL, pour Extract, Transform, Load . Comme le nom lindique, ces outils permettent dextraire des donnes partir de diffrentes sources, de les transformer (rapprochement, format, dnomination, calculs), et de les charger dans la base de donnes cible, comme un datawarehouse dans le cas dun projet dcisionnel. LETL permet de masquer, grce une modlisation visuelle, la complexit de manipulations (rparties) des donnes (htrognes) au sein des traitements et ainsi den rduire fortement les cots de dveloppement et maintenance. Un ETL est gnralement compos dun studio de modlisation des traitements ainsi que dun ou plusieurs environnements dexcution et des outils dadministration voire de visualisation de donnes suivant les versions.
WWW.SMILE.FR
LANALYSE
MULTIDIMENSIONNELLE OU
OLAP
Lanalyse multidimensionnelle permet lanalyse de mesures suivant diffrents aspects mtiers appels dimensions ou axes danalyse et ce, plusieurs niveaux de regroupement. Par exemple, la mesure de Montant HT dune ligne de facture peut tre agrge par : jour mois trimestre anne produit catgorie de produits ligne de produits client segment de client.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
REQUETAGE AD-HOC EN
LANGAGE NATUREL Le requtage ad-hoc permet des non informaticiens de construire visuellement des requtes, en sappuyant sur un dictionnaire dinformations en langage naturel (mtadonnes) faisant abstraction du langage technique daccs aux bases de donnes (SQL, JSON).
DATA MINING
WWW.SMILE.FR
Le data mining consiste rechercher des informations statistiques utiles caches dans un grand volume de donnes. Lutilisateur est la recherche dune information statistique quil nidentifie pas encore.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
CAS DUSAGES
USAGES COUVERTS PAR LES SOLUTIONS BIG DATA POUR LANALYSE ET LA VALORISATION
WWW.SMILE.FR
Il existe de nombreux cas dusage des solutions de valorisation et danalyse massive de donnes. Nous en avons dtaill quelques une ci-dessous mais nous pouvons aussi citer lanalyse fine de processus, la recherche scientifique, les analyses politiques et sociales, lanalyse de donnes de capteurs sur les chanes industrielles...
MARKETING
Le Big Data transforme en profondeur les mtiers du marketing, avec les facilits suivantes :
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
E-commerce
Les principales solutions danalyse daudience web (pages visites, recherches,...) du march utilisent des solutions Big Data. Des solutions danalyse Big Data complmentaires peuvent apporter un plus : analyse des critres et freins de transformation en fonction dinformations complmentaires aux mesures daudience web corrlation avec les retours, livraisons et donnes financires analyse fine des interactions des utilisateurs avec le site e-commerce : Real User Monitoring. Elles permettent galement de faire le lien avec lanalyse dachat : analyse du tunnel de vente analyse des comportements dachat ou dusage des clients afin doptimiser leur exprience dtection de fraudes les bases NoSQL documentaires sont particulirement adaptes l'entreposage et lanalyse de donnes souples et complexes, telles les caractristiques de produits.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Ces solutions facilitent les oprations de suivi des voyages dans le temps : geo corridoring, analyse des voyages et taux de rotation
WWW.SMILE.FR
TELECOMS
Les tlcoms gnrent des masses de donnes sur les flux transits. Le Big Data est une solution utile pour : lanalyse de capacit la segmentation des usagers et des comportements dusage des rseaux la corrlation avec les processus de vente et de support la qualit de service de rseaux complexes, la corrlation avec les appels aux call center.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
COMPOSANTS DINTEGRATION ET DE
TRAITEMENT DE DONNEES
Synthse
Type Solution Apache Flume Apache Hive Apache Pig Cloudera Impala Site web de la solution http://flume.apache.org http://hive.apache.org https://pig.apache.org http://www.cloudera.com/c ontent/cloudera/en/product s-andservices/cdh/impala.html http://fr.talend.com/product s/big-data http://www.pentaho.fr/expl ore/pentaho-dataintegration http://www.mulesoft.org https://hadoop.apache.org http://storm-project.net
WWW.SMILE.FR
ETL ETL
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Hadoop
Editeur : Fondation Apache Licence : Apache License V2 et commerciales (suivant la distribution et la version) Version actuelle : 2 (+ suivant les composants) Prsentation Hadoop est un ensemble de projets et doutils Open source de la fondation Apache permettant de stocker et traiter massivement des donnes. Hadoop a t dvelopp lorigine par Facebook et Yahoo. Il existe plusieurs distributions dHadoop, parmi lesquelles on distinguera les principales lheure actuelle : HortonWorks, Cloudera et MapR. Framework de traitements parallliss Map-Reduce Hadoop Map-Reduce est un puissant framework Java de traitement de donnes massives. A noter que dans le cas de lutilisation conjointe avec HDFS et HBase et suivant la configuration du cluster Hadoop, il est possible quune partie des traitements soient effectus au niveau des noeuds de stockage, afin de limiter les changes de donnes massives entre noeuds du cluster. HDFS : Hadoop Distributed File System HDFS est un systme de fichiers distribu sur des noeuds dun cluster Hadoop. HDFS est adapt au stockage et la rplication de fichiers de grande taille (>256MB). Hbase HBase est une base de donnes NoSQL rpartie en colonnes, inspire de Google BigTable. La mise en oeuvre de HBase repose gnralement sur un systme de fichiers rpartis HDFS. Hive Hadoop Hive permet dexploiter des traitements MapReduce de manire analogue une base de donnes. En effet, des connecteurs JDBC et ODBC pour Hive sont disponibles. Oozie Oozie est un moteur de workflow et de coordination de tches Hadoop (Mapr-Reduce, Pig). Mahout Mahout est une librairie Java qui permet dimplmenter diffrents algorithmes de data mining sur un cluster Hadoop.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Ces algorithmes sont dvelopps partir de MapReduce. Cependant, ils ne se limitent pas uniquement Hadoop et certains fonctionnent sur dautres environnements, dont non distribus. Hue Hue est un portail web dexploitation de clusters Hadoop : requtes Hive (Beeswax) :
WWW.SMILE.FR
Usages et possibilits Big Data Lensemble Hadoop fournit plusieurs briques puissantes pour le dcisionnel Big Data : lentreposage de donnes oprationnelles (ODS HDFS ou Hbase) ou en entrept de donnes (Hbase et Hive). lintgration et le traitement paralllis de donnes (YARN/Map-Reduce, Pig) le requtage et lanalyse de masses de donnes (Hive+YARN/Map-Reduce, Pig) le datamining (Mahout) Notons que les principaux portails dcisionnels Open Source intgrent directement un connecteur Hive pour une exploitation des donnes traites dans un cluster Hadoop.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Prsentation
WWW.SMILE.FR
diteur et solutions Talend est un diteur bas en France (Talend SA) et en Californie (Talend Inc.). La socit Talend, fonde en 2005, est soutenue dans son dveloppement par des investisseurs tels Idinvest Partners (AGF Private Equity), Silver Lake Sumeru, Balderton Capital, Bpifrance et Iris Capital. Talend a russi une leve de fonds de 40 millions de dollars fin 2013. Talend offre un large ventail de solutions middleware rpondant aux besoins de gestion de donnes et dintgration dapplications, au travers une plateforme unifie et flexible : lintgration de donnes (ETL) la qualit de donnes (DQ) les architectures orientes services (ESB) la gestion de rfrentiels de donnes (MDM) la gestion de processus dinformation (BPM). Talend obtient une reconnaissance forte de la part des observateurs tel le Gartner (magic quadrants). Les solutions sont disponibles en version communautaire (Talend Open Studio for Data Integration / Big Data) et en version commerciale avec des fonctionnalits supplmentaires et un support diteur. Les fonctionnalits ETL classiques de Talend sont prsentes plus en dtail dans le livre blanc BI (http://www.smile.fr/Livres-blancs/Erp-et-decisionnel/Le-decisionnel-open-source). Talend et le Big Data Talend propose depuis dbut 2012 une gamme de solutions Big Data, allant de la version Open Studio la plateforme dintgration massive de donnes (Talend Platform for Big Data). Talend a tabli des partenariats avec des acteurs majeurs du Big Data, notamment : Cloudera, EMC Greenplum, Google, HortonWorks, MapR. Plus dinformations : http://fr.talend.com/solutions/etl-analytics
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
http://www.talend.com/solutions/big-data http://fr.talend.com/products/platform-for-big-data
Fonctionnalits ETL Talend Open Studio for Big Data Talend est un ETL de type gnrateur de code , cest--dire quil offre la capacit de crer graphiquement des processus (rpartis) de manipulation et de transformation de donnes puis de gnrer lexcutable correspondant sous forme de programme Java (et scripts Pig). Ce programme peut ensuite tre dploy sur un ou plusieurs serveur(s) dexcution. La modlisation des traitements se fait dans le Studio Talend, qui permet d'utiliser des connexions prdfinies et les tches de transformations pour collecter, transformer et charger les donnes par simple glisser-dposer dans l'espace de modlisation. Palette de connecteurs Big Data L'ETL Talend fournit nativement une large palette de connecteurs permettant de sinterfacer la plupart des systmes existants (bases de donnes, fichiers locaux ou distants, web services, annuaires,...). Si lETL classique Talend peut se connecter aux principales bases NoSQL via des connecteurs communautaires ou APIs, la version Talend Open Studio for Big Data fournit nativement toute la flexibilit et les connecteurs dintgration de masses de donnes, dont : les bases NoSQL : MongoDB, Apache Hadoop/Hive, Cassandra, Google BigQuery, Neo4j HDFS, HCatalog le chargement massif de bases NoSQL MongoDB et Cassandra ainsi quApache Sqoop. Composants de transformation Les composants de transformation permettent entre autres : les multiplexages et jointures les filtrages (lignes, colonnes), le ddoublonage lexcution doprations sur des vnements en base ou sur des fichiers les manipulations de fichiers locaux ou distants
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
La liste des composants Talend est disponible l'adresse suivante : http://www.talendforge.org/components/index.php La palette peut mme tre tendue grce aux composants disponibles sur Talend Exchange ou du code Java spcifique. Gestion des diffrents environnements dexcution des traitements LETL Talend gre des contextes dexcution permettant dexternaliser lensemble des paramtres d'accs et variables dexcution utiliss dans les composants / jobs. Les utilisateurs peuvent ainsi configurer les paramtres la vole lors de lexcution ou utiliser des paramtres diffrents pour chaque contexte dexcution : le dveloppement, la recette et la production. Intgration Hadoop Gnration de traitements rpartis Pig : Talend for BigData propose de gnrer des traitements (rpartis) Hadoop Pig avec des composants graphiques prdfinis. Il est galement possible dutiliser le mode ELT (Extract, Load and Transform) avec Hive pour rpartir des traitements sur un cluster Hadoop. De plus, le framework de traitement Hadoop YARN est intgr. Coordination et intgration aux plateformes Hadoop : Talend utilise Oozie pour la coordination des jobs sur un cluster Hadoop. Lintgration est facilite avec les outils des distributions HortonWorks, Cloudera et MapR :
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Talend Enterprise for Big Data De manire analogue Talend Enterprise for Data Integration pour lETL, cette version commerciale apporte notamment : La gestion et le partage de mtadonnes connexion aux bases des donnes (relationnelles ou NoSQL) connexion aux clusters Hadoop mtadonnes de tables, fichiers,.... analyse dimpacts.
WWW.SMILE.FR
La console Talend Administration Center gestion des rfrentiels des projets dintgration, utilisateurs et droits associs ordonnancement des traitements (Job Conductor) console de monitoring AMC (Activity Monitoring Console) web gestion des reprises de traitements sur erreur dexcution gestion des environnements dexcution des traitements.
Autres fonctionnalits de productivits et dexploitabilit Cette version apporte galement : le versionning des traitements la capacit de dfinir des points de reprise des traitements en cas derreur dexcution un moteur de rgles (Drools) joblets : morceaux de jobs rutilisables pour la factorisation des dveloppements design de jobs partir de templates visualisateur de donnes en sortie des composants change data capture
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Jobs MapReduce Cette version offre la possibilit de dvelopper visuellement des traitements MapReduce, dont lexcution peut se faire sur un cluster Hadoop. Lexcution de jobs MapReduce depuis le studio offre un suivi davancement visuel de chaque tape map et reduce. Talend Platform for Big Data Cette version apporte notamment des fonctionnalits complmentaires et intgres de qualit de donnes et de gestion de mapping complexes (XML, EDI) :
WWW.SMILE.FR
Profilage des donnes Les analyses modlises depuis le studio unifi, se font sur des sources, dont la dfinition peut tre partage avec les mtadonnes dfinies au niveau de lintgration. Loutil produit des mtriques sur le taux dunicit, de remplissage, la conformit un format, la diversit des formats ... Des rapports, tableaux de bords et donnes requtables peuvent tre produits et publis sur un portail dcisionnel intgr (bas sur SpagoBI, prsent plus loin dans le document) partir des analyses de donnes afin de piloter le processus damlioration de la qualit des donnes :
Composants de correction et enrichissement des donnes Le studio de modlisation est enrichi de composants de traitement et correction supplmentaires de qualit des donnes : correction/enrichissement d'adresses postales via des services tiers QAS, Google rapprochements complexes en utilisant des technologies de logique floue cration de tches de correction manuelle des donnes.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Workflow web de correction des donnes La solution intgre la console web Data Stewardship avec la dfinition de workflows de correction et validation de donnes :
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Editeur et solutions Pentaho est un diteur bas en Floride et en Californie, avec des bureaux en France. Lditeur est un acteur impliqu de lOpen Source, qui a ralli ds le dbut des produits Open Source comme Kettle ou Mondrian et qui anime sa communaut. Au del de la solution dintgration de donnes, Pentaho fournit aussi une solution complte danalyse et dexploitation dcisionnelle des donnes : Pentaho Business Analytics, prsents plus loin dans le document. Pentaho et le Big Data Pentaho a tabli des partenariats avec des acteurs majeurs du Big Data, notamment : MongoDB, HortonWorks, Cloudera, MapR et DataStax. Lditeur publie galement un portail web ddi aux problmatiques Big Data : http://www.pentahobigdata.com Fonctionnalits Pentaho Data Integration (PDI) est un ETL qui permet de concevoir et excuter des oprations de manipulation et de transformation de donnes. Grce un modle graphique base dtapes, il est possible de crer dans le studio de modlisation (Spoon), sans programmation, des processus composs dimports et dexports de donnes, et de diffrentes oprations de transformation (conversions, jointures, application de filtres, ou mme excution de fonctions Javascript si besoin). Les fonctionnalits ETL classiques de Pentaho Data Integration sont prsentes plus en dtail dans le livre blanc BI. PDI Community Edition LETL Pentaho Data Integration propose des connecteurs aux principales Bases NoSQL/Big Data telles Hadoop (HDFS, HBase, Hive et MapReduce), Cassandra, CouchDb, MongoDB,
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
ElasticSearch ainsi quaux bases de donnes Amazon S3 et aux rseaux sociaux Twitter et Facebook. Pour les traitements en masse, la connectivit avec Hadoop Map-Reduce et le moteur MongoDB Map-reduce sont intressants, tout comme les capacits de rpartition de charge des traitements ETL dans une configuration cluster de PDI. En sus des composants et techniques ddies aux technologies Big Data, il y a d'autres options de PDI qui permettent une meilleure gestion de grosses volumtries de donnes : lecture en parallle de fichiers plats de grande taille tels que des fichiers de logs excution concurrente de plusieurs copies d'une mme tape d'une transformation avec distribution alatoire en entre des donnes en consquence partitionnement, mme option que la prcdente avec une distribution plus intelligente des donnes l'aide d'algorithmes proposs ou possibilit de dvelopper des algorithmes de rpartition spcifiques pour un environnement distribu, possibilit depuis la version 5.0 de faire du load balancing pour la distribution des donnes entre deux tapes d'une transformation. PDI Enterprise Edition La version Enterprise apporte plusieurs outils pour plus de productivit dans la manipulation de donnes massives. Les possibilits de visualisation et danalyse intgres Instaview sont utiles aux Data Scientists 1 pour dvelopper rapidement des applications analytiques Big Data, en limitant les allers-retours entre outils :
WWW.SMILE.FR
1
http://blog.smile.fr/Pentaho-4-8-l-analyse-instantanee-et-interactive-des-donnees-mobiles-et-big-data
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Perspective Instaview de Pentaho Data Integration Enterprise Edition En effet, dans le cadre de la mthodologie AgileBI, cette perspective intgre au studio de modlisation des traitements ETL permet danalyser avec loutil Analyzer Pentaho des donnes, Big Data ou non, issues des transformations et mises en cache dans une base MongoDB. Fdration de donnes La version Enterprise propose galement des possibilits de fdration de donnes au travers dun connecteur JDBC. Ce dernier permet de projeter une transformation PDI comme source de donnes JDBC : cela ouvre des perspectives intressantes de connectivit et de restitutions en quasi temps rel sur des processus mtiers distribus au niveau applicatif. Cela permet galement de faire une interface entre des technologies Big Data, NoSQL et certains outils de restitutions plutt orients SQL (workbench/Mondrian). Et ainsi, permet d'viter dans certains cas une structure de stockage hybride (NoSQL / SQL). Pentaho MapReduce Pentaho MapReduce permet le dveloppement de traitements MapReduce (mettant en oeuvre 1 transformation pour ltape map et 1 transformation pour ltape reduce) depuis le studio de modlisation des traitements ETL.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Ils sont ensuite excutables sur un cluster Hadoop. Pentaho Predictive Analytics En plus des mthodes d'analyse classiques (analyse d'vnements passs et/ou prsents), un des enjeux du Big Data notamment dans le domaine scientifique est de faire parler ces gros volumes de donnes pour de la prvision. Weka est un projet data mining open source dont Pentaho est un acteur majeur, dans ce contexte de nombreux plugins sont disponibles par dfaut ou non pour l'utilisation de certaines briques de Weka (Scoring, Knowledge Flow, ...) via Pentaho Data Integration. Pour plus de prcision sur les possibilits en termes de Data Mining via Pentaho, rendez-vous sur : http://wiki.pentaho.com/display/DATAMINING/Pentaho+Data+Mining+Community+Document ation.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
NoSQL Colonne
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Par contre, il faut bien garder lesprit les limites de ce modle : limites de performances techniques du moteur de la base de donnes fdratrice par rapport un systme de traitement rparti (agrgation de masses de donnes notamment) perte de performance due lintgration dun systme tiers mapping rigide des champs entre la base NoSQL et les tables virtuelles de la base de donnes fdratrice.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
MongoDB
Type NoSQL : document Editeur : MongoDB Licences : GNU AGPL v3.0 et commerciale (suivant la version) Version actuelle : 2.4 Prsentation MongoDB est une base de donnes NoSQL de type document, la dfinition des donnes est trs souple et chaque enregistrement a sa propre structure, dont les objets sont stocks au format JSON binaire (BSON). Persistance MongoDB permet de grer la rplication et la rpartition de donnes sur un ensemble de serveurs (cluster). Connectivit, requtage et traitement Lavantage du format JSON est son utilisation native dans de nombreux langages de programmation, notamment le Javascript; la console MongoDB est dailleurs un interprteur Javascript. MongoDB fournit galement des fonctions JavaScript de traitement rparti MongoDB Mapreduce. Usages Big Data BI MongoDB peut servir dOperating Data Store. Avec ses connecteurs disponibles au sein de la plupart des solutions BI OpenSource, MongoDB peut aussi servir dentrept de donnes de masse des fins de requtage et de reporting. Lanalyse multidimensionnelle (OLAP) avec MongoDB ncessite actuellement lemploi combin dun composant supplmentaire, tel : Hadoop Hive+Map-Reduce une fdration de donnes JDBC : lETL Pentaho Data Integration avec son connecteur JDBC et du moteur MapReduce de MongoDB Foreign Data Wrapper de PostGreSQL. Conclusion A lheure o nous crivons ces lignes, MongoDB est la base NoSQL la plus populaire daprs le site db-engines.com, bnficiant dune relative facilit de mise en oeuvre ainsi que dun scope fonctionnel utile l'entreposage oprationnel de masse de donnes.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
ElasticSearch
Type NoSQL : document Editeur : ElasticSearch Licence : Apache V2 Version actuelle : 0.90 Prsentation Sous le systme de recherche dElasticSearch, propuls par Apache Lucene, se cache un moteur de base de donnes NoSQL documentaire. Persistance ElasticSearch permet la mise en cluster pour la rplication et la rpartition de donnes A noter que les indexes (de recherche/requtage) gnrs sont de type colonne. Connectivit, requtage et traitement Laccs et la manipulation de donnes se fait simplement via lAPI REST et le format JSON. Le moteur de requtage propose des capacits d'agrgation et danalyse, utile pour du requtage dcisionnel. Usages Big Data BI ElasticSearch peut servir dOperating Data Store et la mise en oeuvre de datamarts combins avec des outils de restitution compatibles. Conclusion Cette solution est intressante et prometteuse sur le plan technologique. Notons toutefois quelle est relativement jeune et encore peu intgre aux portails dcisionnels classiques, malgr une API trs accessible.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Synthse
Type Solution Pentaho Business Analytics JasperSoft BI Suite Spago BI ElasticSearch Kibana Vanilla Platform Site web de la solution http://www.pentaho.fr http://www.jaspersoft.com/fr http://www.spagobi.org http://www.elasticsearch.org/ overview/kibana http://bpm-conseil.com
WWW.SMILE.FR
Portail dcisionnel complet Portail dcisionnel complet Portail dcisionnel complet Portail de tableaux de bord web Portail dcisionnel complet
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Page daccueil de Pentaho Business Analytics Pentaho est propos en version communautaire et en version entreprise soumise souscription annuelle, avec des modules supplmentaires (Pentaho Analyzer) ainsi quun support produit. La communaut enrichit le portail en version communautaire sous forme de modules disponibles depuis le Pentaho MarketPlace, parmi lesquels linterface danalyse Saiku et les CTools qui ont le vent en poupe. Fonctionnalits Pentaho fournit un portail dcisionnel complet, permettant aux utilisateurs finaux : lanalyse multidimensionnelle : Pentaho Analyzer, Saiku Analytics le requtage ad-hoc : Interactive Report, Saiku Reporting, WAQR lexploitation de tableaux de bords dynamiques (CTools). Les capacits de rpartition de charge (load balancing) entre plusieurs instances Pentaho Business Analytics sont intressantes dans le cadre danalyses en masses.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Connectivit NoSQL et exploitation de donnes massives Pentaho fournit nativement des connecteurs Big Data au niveau des connections du portail pour les sources NoSQL offrant une connectivit JDBC : Hive Impala connecteur JDBC gnrique. A noter quil est galement possible daccder dautres sources de donnes NoSQL au sein du portail en passant par de la fdration de donnes, en utilisant lETL PDI ou un mcanisme de stockage externe dune base relationnelle. Loutil Pentaho Report Designer permet de plus dlaborer et de publier des rapports partir dune source MongoDB.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
JasperSoft BI Suite
Editeur : JasperSoft Licences : GPL et commerciale (suivant la version) Version actuelle : 5.5 Prsentation JasperSoft BI Suite est la plateforme dcisionnelle de JasperSoft, socit qui dveloppe galement le gnrateur dtats JasperReports, disponible depuis 2001. La plateforme propose des fonctionnalits de reporting et danalyse et est disponible sous deux licences : GPL et commerciale. Fonctionnalits JasperServer, en versions Professionnelle et Entreprise, offre des fonctionnalits supplmentaires par rapport la version open source, limite la publication et la diffusion de rapports : outil de cration de rapports ad-hoc en ligne (listes, graphiques ou tableaux croiss), accessible tout utilisateur outil de composition de tableaux de bord.
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Connectivit NoSQL et exploitation de donnes massives JasperSoft BI fournit nativement, en versions commerciales Profesionnal et Entreprise, un outil de requtage et danalyse ad-hoc qui permet une exploitation directe de sources de donnes NoSQL : MongoDB Hadoop via Hive Un systme de cache de donnes est prsent, pour optimiser le temps de rponse des requtes.
WWW.SMILE.FR
JasperSoft Studio fournit galement une large palette de connecteurs au del du JDBC classique pour le reporting et les tableaux de bord : MongoDB Hadoop via Hive Cassandra JSON. Il existe aussi des connecteurs communautaires pour dautres bases NoSQL, comme Google BigQuery ou Neo4j.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
SpagoBI
Editeur : Engineering Group / OW2 Consortium Licence : Mozilla Public License V2 Version actuelle : 4.1 Prsentation SpagoBI est une suite dcisionnelle uniquement distribue sous licence Open Source, dveloppe par la socit italienne Engineering Ingegneria Informatica au sein du consortium OW2. Fonctionnalits Afin de couvrir les diffrents besoins fonctionnels propres la valorisation et lanalyse de donnes, SpagoBI propose une vingtaine de modules (ou moteurs ) complmentaires, offrant des fonctionnalits de reporting/dashboarding, requtage et analyse OLAP ad-hoc, geoBI, KPI et datamining :
WWW.SMILE.FR
Exemples de restitutions SpagoBI Ces modules sappuient sur un ensemble de projets Open Source phares, offrant ainsi une richesse de modules fonctionnels unique : lETL Talend, le moteur MOLAP Palo, les moteurs de reporting BIRT et Jasper, R et weka datamining.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
WWW.SMILE.FR
Modules de SpagoBI
Connectivit NoSQL et exploitation de donnes massives Afin de rpondre la problmatique du Big Data, SpagoBI dvelopp de nouveaux connecteurs permettant le requtage de bases de donnes NoSQL via des datasets : HBase: dveloppement de requte HBQL, langage de requte Hbase, intgr nativement dans SpagoBI Hive: dveloppement de requte HQL, langage de requte Hive, intgr nativement dans SpagoBI Impala: connecteur Cloudera Impala JDBC, rcemment rendu disponible par Cloudera Cassandra: dveloppement de requtes CQL, langage de requte Cassandra
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Dans la version 4 de SpagoBI, la dfinition de dataset a volu afin de permettre des temps de rponses plus courts sur les larges volumes de donnes : possibilit de planifier lalimentation des datasets pour une restitution diffre possibilit de dfinir des datasets persistants o les donnes sont stockes en cache.
WWW.SMILE.FR
Dfinition dun dataset persistant SpagoBI travaille actuellement introduire les problmatiques daccs en temps rel ainsi qu la mise en place dune couche smantique sur les donnes Big Data.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
ElasticSearch Kibana
Editeur : ElasticSearch Licence : Apache V2 Version actuelle : 3m4 Prsentation Kibana est le module de dashboard dElasticSearch. Il permet dassocier la puissance du moteur de recherche dElasticSearch (des recherches complexes peuvent tre faites pour filtrer les donnes pertinentes lanalyse) aux modules de reporting classiques. Cette solution est jeune : la premire publication sur github date de dbut 2013. Toutefois, lditeur ElasticSearch propose un service de support en production pour ce composant. Linterface est entirement crite en javascript, avec les frameworks angular.js, bootstrap et jquery notamment. Un simple serveur web suffit donc dployer la solution.
WWW.SMILE.FR
Tableau de bord Kibana Fonctionnalits Lusage unique de Kibana est la publication de tableaux de bords visuels, souples, hautement paramtrables par lutilisateur final, grce aux fonctionnalits de recherche et de filtrage offertes par ElasticSearch. Loutil propose un rafrachissement automatique, adapt des problmatiques de monitoring de processus en temps quasi rel. Le design des tableaux de bord se fait via linsertion de panels (graphiques, listes, tendances, cartographies,...) dans une structure de type tableau. Un tableau de bord peut ainsi tre bti en quelques minutes. Les panels communiquent entre eux : recherche, zoom,... Notons toutefois que cette solution, jeune, ne permet pas encore de mise en forme complexe et les composants de restitution intgrables sont en nombre limit.
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
Les tableaux de bord peuvent tre enregistrs dans une base ElasticSearch afin dtre rexcuts et partags. Laccs Kibana peut tre protg (authentification au niveau du virtualhost dApache). Par contre cette solution ne permet pas encore de grer compltement une bibliothque de tableaux de bords (arborescence de tableaux de bords, droits daccs aux tableaux de bord).
WWW.SMILE.FR
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation
Big Data
REMERCIEMENTS
Un grand remerciement toutes les personnes ayant travaill sur le livre blanc : Florent BERANGER, Elise BENZAGLOU, Laury GIRONDIN, Aurlien FOUCRET, Adrien FUTSCHIK, Pierre-Antoine MARC.
WWW.SMILE.FR
Nhsitez pas nous transmettre vos avis et valuations sur ce livre blanc. Une seule adresse : contact@smile.fr
Edition fvrier 2014 Copyright Smile Open Source Solutions Toute reproduction interdite sans autorisation