Sie sind auf Seite 1von 120

2014 / 2015

GUIDE DU BIG DATA


LANNUAIRE DE RFRENCE
DESTINATION DES UTILISATEURS

by
ditorial

le Big Data: une nouvelle


apprhension de la socit et de lconomie
Ces 3 dernires annes ont marqu un pas important pour le Big Data en France. En 2012, lorsque
nous initiions le congrs Big Data Paris, seule une communaut restreinte dinitis utilisait ce terme
et en connaissait les enjeux. En 2013, les fournisseurs de solutions se sont empars du march,
prenant conscience du potentiel conomique, appuys par les pronostics des plus grands cabinets
dtudes mondiaux. 2014 a vu les grands projets Big Data se multiplier, prsentant des retours parti-
culirement encourageants et retenant lattention des instances publiques, qui ont annonc les pre-
mires mesures et investissements dans le secteur.
Prescripteurs, utilisateurs, consultants ou gouvernement, on peut dsormais considrer que len-
semble de lcosystme est engag sur la thmatique. Le caractre multisectoriel du Big Data conti-
nue dimpressionner et laisse la porte ouverte aux projets les plus ambitieux. Marketing, Finance,
Assurances, E-commerce, Sant, RH, Transports, Logistique, Maintenance, Industrie lourde, Environ-
nement, Recherche, Culture et mme Humanitaire trouvent leurs usages au Big Data et en retirent
souvent des bnfices ingals. La richesse des domaines dapplication se rvle au fil des annes,
confirmant la ralit conomique de la vague Big Data.

Au-del dun march mondial prometteur- 8.9milliards de dollars prvus en 2014- le Big Data cest
galement une nouvelle apprhension de la socit et de lconomie. La donne est au cur des nou-
veaux processus, apportant une approche fonde sur lobservation du rel.
Ce guide vise dresser le tableau du Big Data aujourdhui, son histoire, quelques projets, les princi-
paux enjeux actuels et quelques personnalits qui se sont dmarques sur le sujet.
Sans se vouloir exhaustif, le guide du Big Data permettra aux non-initis de se familiariser avec la
thmatique et proposera aux spcialistes un recueil de tmoignages, points de vue, chiffres et ana-
lyses qui donnent un clairage sur le Big Data en France et ltranger.

Sophie DAVIAUD
Directrice de publication
+33 (0) 1 58 12 06 88 / sdaviaud@corp-agency.com

Le Guide du Big Data est ralis par la socit Corp.


3
Sommaire PARTIE DITORIALE MARCH, ENJEUX ET APPLICATIONS (PAGES 3 41)
EDITO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . page 3
CONTEXTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . page 5
BIG DATA : nouvelles dfinitions et concept approfondi
Le march et les enjeux : chiffres, croissance, secteurs dapplication
- Dans le monde
Les Etats-Unis, prcurseur du Big Data
Les pays mergents
Ladoption du Big Data en entreprise

- En France/Europe
Le cas franais : offre et demande, une incompatibilit ?
Donnes personnelles et cyber-scurit : enjeux technologiques et rglementaires
Vers une cohsion europenne
Lopen data et la cration de valeur

Focus Big Data et formation : les programmes, les profils, la cration demplois
- Mise en place du Big Data : le rle des mtiers, la place de la DSI
- Les formations
- La cration demploi

PORTRAITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . page 15
Axelle LEMAIRE Henri VERDIER Anne LAUVERGEON Gilles BABINET
Pashu DEWAILLY CHRISTENSEN Doug CUTTING

HADOOP : enfin une solution dentreprise ? Par Jos DIZ . . . . . . . . . . . . . . . . . . page 24


Hadoop 1 : la nouvelle star de lanalytique est ne
- 10 ans : des origines de MapReduce Hadoop 2.x
- Le centre nvralgique HDFS et MapReduce
- Quelques briques de ldifice Hadoop
- Des manques importants fragilisant Hadoop 1

La revolution Hadoop 2
- Naissance de Yarn et rduction de MapReduce
- Une gestion des fichiers amplement amliore
- Petit panorama de quelques modules Hadoop 2
- Sans oublier : scurit, administration et gouvernance

PROJETS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . page 29
Un projet humanitaire : le dveloppement conomique et le Big Data
Un projet culturel : le data journalisme pour les flux migratoires en Europe
Un projet de lutte contre la fraude : la dtection de la contrefaon en ligne
Un projet dans le secteur automobile : lassurance volutive
Un projet dans le secteur des loisirs : les communauts virtuelles
Un projet de recherche et dveloppement dans lindustrie : lenergy-monitoring
Un projet de recherche : lInstitut de Gnomique du CEA
Un projet dans les transports : la scurit arienne
Un projet en climatologie : lvolution climatique au niveau mondial

PARTIE FOURNISSEURS ANNUAIRE DES ANNONCEURS ( PARTIR DE LA PAGE42)


37 fournisseurs: une double page par annonceur (1 page profil entreprise +1 page PROJET)

ACTUATE / A.I.D. / AMAZON WEB SERVICES / BIME ANALYTICS / BITTLE / BLUESTONE / CAPGEMINI /
CENTRALE PARIS Executive Education / CLOUDERA / Club Decision DSI / CSC / DATASTAX / EDIS CONSULTING
/ EKIMETRICS / EXALEAD / GFI INFORMATIQUE / Hewlett-Packard / IBM France / KEYRUS / MICROPOLE
/ Neo Technology / PENTAHO / PIVOTAL / QLIK / SAP France / SAS / SCINETIK / SEMDEE / SENTELIS /
SINEQUA / SPLUNK / SYNCSORT / TABLEAU SOFTWARE / TIBCO JASPERSOFT / TALEND / TERADATA
France / VISEO.
4
CONTEXTE La notion de volume peut sexprimer en
chiffres: aujourdhui on parle de stocker et
La notion de Varit est un peu plus technique:
les donnes pralablement utilises taient
traiter des exaoctets (1018) voire zettaoctets hautement formates, renseignes selon des
BIG DATA: NOUVELLES (1021) alors quil y a peine 10 ans on parlait de critres communs qui eux seuls garantissaient
DFINITIONS ET CONCEPT mgaoctets (106), stocks sur des disquettes. la capacit de comparaison et de traitement de
Linformation est cependant peu intelligible si
APPROFONDI elle nest pas mise en relief: il est estim que
linformation. Ce que le Big Data apporte, cest
90% des donnes rcoltes depuis le dbut de la possibilit de traiter tout type de donnes,
Cest officiel, on lappellera dsormais lhumanit ont t gnres durant les 2 der- dans sa forme originelle, en intgrant les nou-
megadonnes. Le Big Data est un terme si nires annes. Le plus impressionnant rside veaux modes dexpression, de mesure et din-
frquemment utilis que la Commission gn- dans le fait que la cration de donnes est ex- teractions. On peut alors traiter images, sons,
rale de terminologie et de nologie sen est em- ponentielle. Le graphique ci-dessous donne vido, commentaires de blogs, logs
par, rvlant le 22 Aot dernier sa traduction quelques exemples de donnes gnres, leurs
officielle en franais. La dfinition associe est volumes, et leur impact. (source: tude EMC). ces 3V, on ajoute dsormais le V de Valeur et
la suivante: donnes structures ou non dont
celui de Vracit, qui expriment le besoin de
le trs grand volume requiert des outils dana- La notion de Vitesse ncessite lillustration par
lyse adapts. La commission prcise que lon disposer de donnes fiables, pertinentes et si-
lexemple: quand une entreprise traitait ses
trouve galement lexpression donnes mas- donnes, en mgaoctets auparavant, en plu- gnificatives pour donner suffisamment de sens
sives, dailleurs souvent privilgie ces der- sieurs jours parfois, elle peut dsormais rali- et dintrt conomique des analyses menes.
nires annes. ser la mme tude, sur des volumes Big Data,
Leffervescence autour de ce phnomne apparu en quelques heures voire minutes. Limpact La relle ide derrire le terme Big Data, celle
il y quelques annes, gnre une certaine confu- conomique et le gain defficacit sont alors qui justifie quon parle bien dune rvolution
sion de dfinition, si tant est que certains dtrac- vidents. et non pas dune simple amlioration du trai-
teurs y trouvent un argument de lassitude. tement de la donne, cest le fait que ces 3V
Sil est vrai que le mot Big Data semble parfois changent entirement la faon dont on aborde
utilis outrance, noublions pas que le phno-
linformation. La donne est au centre de cette
mne est bien rel. Rappelons ici quelques no-
transformation.
tions, pour les initis et ceux qui le sont moins. Il est estim que 90% Dans un premier temps, ce sont les entreprises
De faon assez communment admise, le Big
et institutions qui en exploitent ces nouvelles
Data est dfini par les 3V, voire les 4 ou 5V. des donnes rcoltes capacits de traitement et analyse de la don-
Cest la faon la plus schmatique et synth-
tique possible pour expliquer ce que renferme ne. En effet, 70% des donnes cres le sont
cette notion. depuis le dbut de par des individus, mais ce sont les entreprises
qui stockent et grent 80% dentre elles.
Les 3V expliquent en quoi le Big Data repr- lhumanit ont t Parler du Big Data implique donc que lon
sente larrive de technologies permettant une aborde les consquences sur lconomie, les
toute nouvelle approche de la donne. Le Big gnres durant les 2 entreprises et organisations qui lutilisent, et la
Data, cest traiter des Volumes de donnes
faon dont il y est mis en place.
consquemment suprieurs ceux traits au- dernires annes Ce que les premiers projets montrent, cest que
paravant, une Vitesse incomparable, le tout
en intgrant une Varit de donnes largement le Big Data dcuple les possibilits danalyse
plus riche. Chacun de ces V mrite quelques dans tous les secteurs et ouvre de nouveaux
prcisions. horizons la prise de dcision.

Infographie : les donnes sont le nouvel or noir par EMC


5
LE MARCH ET LES ENJEUX:
CHIFFRES, CROISSANCE,
SECTEURS DAPPLICATION
DANS LE MONDE
Les tats-Unis, prcurseur du Big Data
Google, Yahoo, Apache. Ces 3 noms sont ind-
niablement lis aux origines du Big Data. Une
histoire qui trouve ses dbuts dans les annes
2000, alors que Google asseyait son leadership
en tant que moteur de recherche, et que les
spcialistes sinterrogeaient sur la technologie
qui permettait au gant en devenir de proposer
un service incomparable ses concurrents.
En 2003, Google publie un premier papier sur le
Google File System, et rvle ainsi les premiers
secrets de son succs. En 2004 on dcouvre
le fonctionnement de MapReduce, et lanne
suivante, Doug Cutting et Michael Cafarella,
lpoque employs chez Yahoo et inspirs par les
travaux de Google, crent Nutch Search Engine,
qui deviendra Hadoop. Le Big Data est n.
En 2006, Yahoo lgue le projet Apache, qui
reste depuis le cur nvralgique dHadoop.
Cette petite histoire montre bien en quoi le Big
Data est n, sest construit et a lu domicile
outre Atlantique. De faon assez logique, les
premiers projets de grande ampleur ont eu lieu
en Amrique du Nord, comme celui de la so-
cit de retail TESCO, qui reste aujourdhui lun
des cas dcole du Big Data.

Cependant il est important de noter que les


principaux clients seraient, encore ce jour,
principalement les gouvernements nord-am-
ricains, qui demeurent les principaux investis-
seurs et les early-adopteurs du Big Data.
Le gouvernement Obama ny est pas pour
rien. En 2012, ltat amricain annonait la
mise disposition de 200millions de dollars
pour un fond de recherche sur la thmatique
du Big Data. Ds sa campagne, Obama avait
pressenti lutilit du Big Data et les possibili-
ts dapplication multisectorielles. En 2012 on
apprend lexistence dtudes Big Data menes
grce des informaticiens venus de Google et
Facebook. Il est rvl en quoi elles ont per-
mis de cibler les potentiels nouveaux lecteurs
pour Obama, et en quoi elles sont alles contre
toutes les prdictions de suffrages en annon-
ant, et en permettant, sa rlection. Le terme Sarah A. King
Big Data President faisait alors son appa-
rition. Cest donc tout naturellement que le se-
cond mandat du prsident Obama a t porteur Formation, recherche, scurit nationale, san- le Big Data permettrait
de lourds investissements dans le domaine du t, services publics Des programmes aux
Big Data. Lorganisme MeriTalk, charg den- noms les plus intrigants, tels ADAMS, Minds
courager la collaboration dans le domaine de Eye ou encore TCGA ont pour objectif de d-
ltat amricain de
lIT au niveau national, a publi en juin2013 une cupler les capacits et lutilisation du Big Data
tude estimant que le Big Data permettrait dans les diverses administrations. raliser 14% dconomies,
ltat amricain de raliser 14% dconomies, Le dpartement de la dfense qui lui seul
soit 500milliards de dollars. regroupe plus de 10 projets Big Data et bn- soit 500milliards de
ficie de plus de 250millions de dollars din-
vestissement annuel - mne notamment le dollars.
programme ADAMS. Ce dernier a pour objectif
de reprer des comportements anormaux, des
VOIR LINFOGRAPHIE SMARTER UNCLE SAM: changements dattitude inquitants chez un
THE BIG DATA FORECAST DE MERITALK soldat ou un citoyen amricain. motivation du gouvernement amricain pour le
Minds Eye est galement un projet de la DARPA
Big Data.
(Defense Advanced Research Projects Agency).
Il vise amliorer les performances de recon- Si ltat amricain est capable destimer rapi-
naissance vido et danalyse automatise. dement limmensit des gains conomiques
Le projet TCGA, port par les archives natio- que lui permettrait le Big Data, certaines en-
nales du cancer (The Cancer Imaging Archive), treprises prives ont fait le mme calcul. En
permettra danalyser plusieurs pta-octets de termes dinvestissement, suivraient donc les
donnes de squences gntiques issues de compagnies dassurances, les banques, le
patients atteints. secteur de la sant, le retail
Les exemples sont nombreux, et rvlent la Dbut 2014, la trs mdiatique opration
6
mais les pays mergents ne se limitent pas rect avec les consommateurs, ces fonctions ont
a. Services, industries, finance, programmes rapidement peru les apports du Big Data pour
Le dpartement de de dveloppement conomique: le Big Data sti-
mule toutes ces conomies, qui ont lavantage
leur activit. Rentabilit, efficacit et person-
nalisation sont les matres mots. Les concepts
dtre jeunes, agiles et innovantes. de RTB (real time bidding), la golocalisation,
la dfense lui seul les cookies, le suivi du parcours client, lindivi-
IBM a men une tude auprs de dcideurs dualisation et loptimisation du CRM ont alors
regroupe plus de et dinfluenceurs IT au Nigeria et au Kenya. rvolutionn la fonction marketing. Des acteurs
64% dentre eux dclarent prvoir adopter comme Criteo, notre champion franais dsor-
10 projets Big Data. le Big data dans les prochaines annes et le mais expatri aux tats-Unis, ont apport une
peroivent comme un outil pour asseoir leur nouvelle approche de la vente. Une approche
leadership dans leur zone. LAfrique, en plein fonde sur la philosophie du Big Data. Le
dveloppement conomique, nest pas si en re- numro un mondial du e-commerce Amazon
dAmazon a marqu un nouveau pas dans la tard quon pourrait le croire. LAfrique du Sud na pas investi massivement sur le Big data
faon daborder la relation commerciale et le est un rel pionnier en la matire: avec plus sans raison. Si en 2014 lentreprise a initi la
processus de vente. Le leader mondial de la de 10 datacenters sur le territoire et une p- refonte de son processus de livraison, cest
vente en ligne a en effet annonc quil tait d- ntration du Big Data dans 60% des entre- que le management avait dj fait la preuve de
sormais en mesure de prdire le prochain acte prises, le pays saffiche comme un prcurseur la rentabilit dune bonne analyse de statis-
dachat de chacun de ses clients, et donc de le sur le continent, et au niveau mondial. tiques commerciales. En effet, Amazon rali-
prparer lexpdition avant mme quil ne soit Le Brsil, frquemment associ au Big Data serait environ 30% de ses revenus grce aux
command. lors de la coupe du monde, voit se dvelopper ventes croises, soit les suggestions dachats
Le buzzword du Big Data se cache derrire des projets dignes des plus grandes oprations effectues grce aux paniers et profils de ses
cette opration. Une bonne campagne marke- amricaines. clients.
ting a fait le reste. Car ce queffectue le gant
du e-commerce, cest une analyse Big Data Ladoption du Big Data en entreprise
prdictive et presque classique. La relle in- 8,9milliards de dollars, cest le chiffre daffaires
novation, cest de transformer toute la chane que devrait gnrer le march du Big data en
logistique en adquation avec les conclusions 2014, selon une tude du cabinet Transparency
8,9milliards de
des analyses menes. En dautres termes, ce Market Research. Avec une croissance de prs
qui diffrencie Amazon rside dans le fait quils de 40% par an, le march reprsenterait dj dollars, cest le chiffre
investissent et se fient aux analyses Big Data, plus de 24.6milliards en 2016.
et ne craignent pas de mtamorphoser leur Malgr toutes ces promesses et prvisions, daffaires que devrait
organisation qui pourtant ne montrait pas de ladoption du Big Data dans les entreprises
failles majeures. Amazon joue l son rle de franaises et europennes reste encore trs gnrer le march
leader, en prenant les devants sur une ten- limite. Selon une tude mene par EMC fin
dance qui ne devrait que se dvelopper dans 2013, 74% des entreprises en France sont
les annes venir. convaincues de lintrt du Big Data pour leur
du Big data en 2014.

74
activit, mais 41% dentre elles nont encore

%
engag aucunes dpenses sur la question.
Les pays mergents En cause, la faible prvisibilit du retour co-
LAmrique du Nord est indniablement en nomique de ces investissements (35% des
avance sur le sujet du Big Data. LEurope suit la dcideurs sinterrogent encore sur le retour
tendance, tout comme la plupart des pays d- sur investissement, selon un sondage EMC).
velopps, o le tissu conomique constitu de Rassurons-nous, les entreprises franaises
nombreuses startups et de grands groupes n- ne sont pas les seules. Contrairement lide
cessite et facilite ladoption du Big Data. dune Amrique fortement convaincue et enga-
Les regards se portent donc souvent sur le ge sur le sujet, une tude du cabinet Gartner
gant amricain, alors que des investisse- aux tats-Unis rvle que 56% des entreprises
ments colossaux ont lieu sur le continent ne savent pas comment tirer profit du Big Data.
africain par exemple. Une tude mene par Jusqu prsent, les projets impliquant un trai- DES ENTREPRISES EN FRANCE
MarketsandMarkets indique que les pays mer- tement massif de donnes ntaient mens que SONT CONVAINCUES DE LINTRT
gents sont vous grappiller leur retard dans par quelques leaders du march. Une tude DU BIG DATA
les annes venir et reprsenteront une part publie par DELL en avril2014 affirme cepen-
importante de la croissance du march du Big dant que 41% des entreprises de middle
Data. market - les challengers - ont dsormais Au sein de lopinion publique, le Big Data est
Quelques chiffres rendent compte du potentiel entam un ou plusieurs projets Big Data. dailleurs souvent associ au marketing et la
que reprsentent les pays mergents, ne se- Parmi eux, 89% ont ds prsent identifi des vente, parfois avec une connotation ngative.
rait-ce quau niveau des tlcommunications. retours positifs de leurs projets. Encourageant Lide dun client pi, dissqu et harcel fait
Selon la Banque Mondiale, il existe 6milliards donc. souvent peur. Or un courant nouveau assure
dappareils mobiles sur Terre, dont 5milliards quen tant que consommateur nous ne pour-
se trouvent dans les pays mergents. Les ap- La source de ces interrogations se situe prin- rons pas chapper cette tendance et ferions
plications marketing sont assez videntes, cipalement sur le retour sur investissement. A mieux den savourer les bnfices: une meil-
priori, en matire de technologies, hardware et leure connaissance de nos gots, des promo-
software, les outils se dmocratisent, notam- tions personnalises, des recommandations
ment grce lapparition du Cloud. Cependant, cibles. Tout le monde y trouverait alors son
le Big Data renferme dautres cots, moins me- compte. Reste la question de la protection des
surables et relatifs lapproche culturelle de donnes personnelles, que nous aborderons
Il existe 6milliards lentreprise et son organisation interne. plus tard.
Considrer le Big Data comme un serviteur du
dappareils mobiles sur Si au niveau mondial il faut admettre que le marketing serait cependant extrmement r-
secteur priv reste prudent sur les dpenses ducteur. On connat davantage les projets lis
Terre, dont 5milliards lies au Big Data, on peut sinterroger sur son au marketing et la vente parce que ce sont
ceux qui sont les plus facilement intelligibles
adoption sectorielle. Y a-t-il des domaines
dactivit o le Big Data est plus reconnu, adop- par le grand public et qui laffectent directement.
se trouvent dans les t et accept? De faon assez unanime, les Les plus beaux projets Big Data se trouvent
spcialistes saccordent dire que les acteurs pourtant dans des secteurs que lon observe
pays mergents. du e-commerce et les fonctions marketing ont moins, mais qui nous concernent tout autant.
t les premires se lancer sur le sujet. Par Logistique, maintenance prdictive, recherche,
nature ancres dans linnovation et en lien di- sant, nergie, culture et humanitaire mme.
7
Les domaines dapplications sont vastes. La partie projet de ce guide prsente quelques-uns de ces EN FRANCE / EUROPE
projets dans des domaines varis. Le cas franais: offre et demande,
Conduire plus prudemment grce au laboratoire daccidentologie PSA-Renault, optimiser les une incompatibilit?
consommations nergtiques dun btiment avec Cofely, dtecter une pidmie avec des outils
comme OpenHealth ou encore endiguer la pauvret avec les Nations Unies: le Big Data est bien une
rvolution de la socit dans son intgralit. On parlait plus haut des impressionnants pro-
grammes dinvestissement amricains dans le
Chaque secteur doit donc dvelopper sa propre connaissance du Big Data, son intrt stratgique, Big Data pour ses administrations. Le cas de
financier et les moyens mettre en uvre. la France est bien diffrent, pour linstant du
En termes dimage, la perception selon le domaine dapplication est souvent connote, positivement moins.
ou ngativement. Le plan Big Data pour la Nouvelle France in-
dustrielle, port par Franois Bourdoncle et
laide dune coute mene sur plus de 150K messages, sur la priode du 27/10/2013 au 04/09/2014, Paul Hermelin, et dont la feuille de route a t
avec Focusmatic, nous avons tent de comprendre quels termes et sentiments sont le plus souvent valide en juillet2014, est ce jour la premire
associs au Big Data, et cela par secteur dactivit. Les Tlcoms reprsentent la majorit des relle impulsion conomique manant de ltat
messages connots, quel que soit laspect voqu. En dehors des Tlcoms, la sant, la grande visant dvelopper lcosystme Big Data en
consommation et la publicit sont les secteurs le plus souvent associs des inquitudes et la vie France.
prive. Dans les domaines dactivits des RH et de la grande consommation, le Big Data est encore
un terme et procd peru comme complexe. (% des messages associs , en audience). Une question dapproche et de stratgie se pose
alors, et on remarque, comme cest souvent le
cas, que la dmarche amricaine est bien diff-
rente de celle mene par ltat franais.
Les deux gouvernements sont certes, dsor-
mais, tous deux persuads que le Big Data
est un secteur davenir, multisectoriel, plein
de promesses conomiques, sociales et envi-
ronnementales. Mais les deux gouvernements
nont pas la mme faon de stimuler le secteur.
Outre Atlantique, la prise de position du gouver-
nement Obama passe par le dveloppement de
projets financs par les administrations et d-
di leur propre utilisation. Ce sont ces grands
projets denvergure qui sont censs servir les
objectifs de ltat mais aussi montrer la voie.
La connaissance du Big Data en elle-mme est discutable en France. Qui parle rellement du sujet? Si ltat est rellement persuad de lintrt de
Est-il si rpandu quon le dit? Ou sommes-nous encore aux prmices de ce phnomne? lutilisation du Big Data, pourquoi ne commen-
cerait-il pas par lutiliser lui-mme? Le raison-
Sur la mme priode, nous avons observ le profil des auteurs qui parlent le plus du Big Data. Il nement est pragmatique, mais efficace.
sagit ici danalyser lactivit des auteurs ayant renseign leur profil twitter sur le rseau utilis. On
remarque alors que pour les auteurs se rclamant tre des spcialistes du Big Data, les thma- On ne procde pas exactement pareil en France.
tiques principalement abordes sont dans lordre le Big Data, lopen data, le cloud, la dataviz puis Tout dabord, nous avons pris du retard par rap-
lopensource. Les auteurs spcialistes du cloud ont une activit aussi importante que les sp- port nos voisins amricains. Nous connais-
cialistes du Big Data, bien que moins varie en termes de thmatiques. Fait intressant, ce sont les sons nos forces de trs bonnes comptences
spcialistes de la sant qui ddient proportionnellement le plus de leurs messages lopen data. (% en mathmatiques et statistiques mais nous
des messages associs , en activit. Du 27/10/2013 au 02/09/2014) devons dvelopper nos potentiels. Pour ce faire,
le choix du gouvernement est de construire les
conditions de lpanouissement dune filire
Big Data en France. Le discours, les structures
daccueil, et les enveloppes budgtaires, sont
l pour atteindre cet objectif. Quelques projets
seront galement mens au sein des adminis-
trations, et on ne peut pas ignorer limportant
engagement sur le sujet de lOpen Data, no-
tamment via Etalab. Cependant, il est vident
que lapproche nest pas la mme.
Si la France souffre encore fortement de la
crise conomique et peine dfendre son sta-
tut linternational, elle dispose encore de
grands groupes industriels puissants et agiles.
Cest l que laction du gouvernement sur le
sujet du Big Data trouve un appui non ngli-
geable. Les besoins de financements, les res-
sources humaines, la capacit dinnovation et
les structures de R & D sont disponibles au sein
du CAC40. Le plan de la nouvelle France indus-
trielle, et sa nouvelle feuille de route, puise sa
force exactement dans cet environnement fa-
vorable. Orange, La Poste, GDF Suez, Alstom,
AXA, Socit Gnrale, Cova (le groupe MMA,
GMF et MAAF) Ces grandes entreprises ont
t choisies pour participer aux grands travaux

fraude
du plan initi par Arnaud Montebourg, et d-
objets sormais chapeaut par Franois Bourdoncle et
connects Paul Hermelin.

donnespersonnelles Quatorze initiatives qui couvrent la protection


des donnes personnelles, la fraude, le dve-
loppement des objets connects, la ville intel-
ville intelligente ligente et dautres applications sectorielles.
8
Franois Bourdoncle et Paul Hermelin louverture de la confrence BIG DATA Paris 2014

Objectif affich: contrer limpressionnante su- La question de la rglementation est bien dif- par un numro et interconnectant les fichiers.
prmatie et capacit dinnovation des groupes frente. Laction de la CNIL, les discussions SAFARI, ctait son nom, a alors t vivement
amricains comme Google, Apple, Amazon ou au niveau europen, les disparits au niveau dcri, entrainant la cration dune commis-
Facebook. mondial: les lments de rglementation sont sion informatique et liberts qui proposa la loi
En dfinitive, lapproche franaise est bien dif- complexes, pris en tau entre intrts cono- en 1978. Lopinion publique tait alors sensibi-
frente de lapproche amricaine. Elle prend miques, protection des donnes personnelles lise lutilisation de ses donnes.
cependant en compte ses forces, tente de et scurit de la proprit intellectuelle. Le d-
contrer ses faiblesses, et sautorise de grandes bat mrite plus de dtails. Les donnes marketing que nous voquions
ambitions. Une dynamique positive donc. Reste plus haut sont fortement concernes. Le
savoir quelle sera rellement lenveloppe al- concept de lopt-in est ce jour la principale
loue ces projets via la Bpi notamment Donnes personnelles et cyber-scurit: mesure permettant de contrler linformation
limplication des diverses parties prenantes et enjeux technologiques et rglementaires personnelle que nous divulguons, mais les ou-
le rsultat oprationnel. On parle de dizaines
de millions deuros, vraisemblablement pui- tils numriques sous-entendent un minimum
Le Big Data ne peut dsormais plus tre disso- douverture de linformation.
ss dans les 215millions dbloqus par Fleur ci des problmatiques de scurit. Le terme
Pellerin en 2013. Il semble que suivre les tendances des nou-
est vaste et renferme en ralit plusieurs no-
Reste noter quelques absents non-abords veaux modes de consommation et communi-
tions bien distinctes.
dans cette feuille de route, et pourtant abords cation et parfaitement protger ses donnes
dans la construction du plan Big Data: la for- Il renvoie dans un premier temps, et cest l personnelles soit incompatible. Sen suit une
mation, lvanglisation, et la rglementation. que se situe lessentiel du dbat public, la certaine schizophrnie de la socit, hsitant
Sur le point de vue de la formation, nous en protection des donnes personnelles. Une don- entre un dsir de modernit et la volont de
reparlerons plus loin, mais les initiatives sont ne personnelle telle quelle est dfinie par la prserver son intimit et ses liberts.
nombreuses et les besoins en termes de re- CNIL (Commission Nationale de lInformatique
crutement gnrent plus ou moins naturel- et des Liberts) est toute donne permet-
lement les formations suprieures adaptes. tant didentifier directement ou indirectement
Lenseignement primaire et secondaire reste une personne physique. On parle donc bien
tudier. On enseigne le latin au collge, je ne ici dindividus et non pas dorganismes, entre-
vois pas pourquoi on ny enseignerait pas lin- prises ou associations. Sont exclues les don-
formatique dclarait Fred Potter, CEO et fon- nes utilises dans le cadre dune activit per-
dateur de Netatmo, lors du dernier Hack4france. sonnelle comme un rpertoire tlphonique VOIR LE SITE DE LA CNIL
Sur le plan de lvanglisation, cest--dire le par exemple. Leur utilisation est soumise la
discours de vulgarisation auprs des poten- loi Informatique et Liberts et la directive du
tiels utilisateurs du Big Data en France, on peut 24 octobre 1995 sur la protection des donnes
galement se demander si le march agira par personnelles. Lhistoire de la loi Informatique
lui-mme. Le meilleur moyen de promouvoir le et Liberts remonte bien avant lapparition du
Big Data dans les entreprises est de montrer Big Data. Elle a t depuis adapte de nom-
des cas dapplications concrets, succs et re- breuses reprises, mais lorigine la loi est ne
productibles. Si les quatorze initiatives du plan dun scandale digne de la trs mdiatise af-
Big Data affichent un bilan positif, ltat tiendra faire PRISM. Le gouvernement franais avait
alors les meilleurs ambassadeurs possibles. alors pour projet la cration dun fichier ad-
Le reste suivra, a priori. ministratif national identifiant chaque citoyen

9
Les objets connects seront donc part int-
grante de notre quotidien. L o ils soulvent
Le volume de donnes encore davantage dinquitudes, cest lorsquils
concernent la sant connecte. Bracelets, po-
domtres, balances, tensiomtres, appareils
produites par les sportifs, assistants de confort, aide aux per-
sonnes ges, contrles mdicamenteux Les
internautes doublerait donnes de sant sont considres comme
particulirement sensibles. Elles permettent
tous les 18 24 mois. de caractriser un individu sur des lments
extrmement prcis et privs. Ces donnes
sont traites part dans les actions de la CNIL.
Les acteurs du monde de la sant sont tenus
Les objets connects sont au cur du dbat. de sengager sur lanonymisation totale des
Ils vhiculent invitablement une masse im- donnes sensibles, donnes de sant com-
portante dinformations sur nos modes de vie, prises. La recherche mdicale en est parfois
notre faon de consommer, nos habitudes, pr- pnalise, mais limportance de la scurisa-
frences ou sur notre profil. Daprs les esti- tion de ces donnes est dsormais accepte.
Quelques scandales ont particip cette prise
mations, en 2018, chacun dentre nous pos-
de conscience, notamment lorsque certains
sdera en moyenne 8 objets connects titre
patients ont retrouv leur dossier mdical en
personnel. En 2020, nous en aurons dj 10.
accs libre sur internet aprs un passage
La tendance ne risque pas de sattnuer, tant
lhpital. Comme lexplique Pierre-Yves Lastic,
donn que, selon un sondage publi par Havas
Chief Privacy Officer chez SANOFI, lutilisation
Media France en janvier2014, 60% des inter-
des donnes de sant doit tre particulire-
nautes envisagent la gnralisation des objets ment prcautionneuse. Sassurer que les infor-
connects dici 5 ans, et les peroivent comme mations sont parfaitement anonymises est un
source de progrs (75%) qui facilitent la vie prrequis, quel que soit le pays o se droule
(71%). Le quantified self, en franais le leur traitement et la rglementation en vigueur
soi augment, reprsente lhumain du fu- cet endroit. Un projet de recherche, mme
tur, un futur trs proche. des fins tout fait honorables, ne doit pas justi-
Courant 2014, un ingnieur a fait une trange fier lutilisation de donnes aussi sensibles. Le
dcouverte. Visionnant des publicits qui lui monde de la sant joue avec des informations
paraissaient de plus en plus cibles, il a com- dune haute valeur aux yeux de la socit. Il se
pris que son tlviseur LG espionnait son com- doit de les protger.
portement son insu. Le fabriquant avait activ
par dfaut une fonction de collecte de donnes. Les objets connects cependant ne touchent
Aprs avoir dconnect cette dernire, ling- pas uniquement les donnes personnelles. Le Parlement Europen
nieur a identifi que le tlviseur continuait machine-to-machine par exemple, ou M2M,
transmettre des informations sur ses habitu- vise rcolter un maximum dinformations sur produites par les internautes doublerait tous les
des tlvises et mme ses visionnages de fi- des installations diverses afin doptimiser leur 18 24 mois. Cest une source de valeur souvent
chiers privs. Laffaire a t rvle au grand fonctionnement. Selon lIdate, plus de 80 milliards majeure pour un acteur priv comme public, et
jour et LG a d prsenter publiquement ses de produits seront connects Internet dici galement un point de faiblesse non ngligeable.
excuses tout en sengageant supprimer toute 2020. Laffaire PRISM, rvle par Edward Snowden en
collecte de donnes de ses tlviseurs. La m- Dans lindustrie, des socits comme Airbus ou juin2013 a mis le doigt sur la criticit et la va-
fiance sest alors gnralise dautres objets Total utilisent dj massivement les capteurs leur des donnes. Le Big Data est cens porter
potentiellement connects linsu de leurs pour leurs projets Big Data. Dbut 2014, Google une rvolution de la donne. Cette dernire de-
utilisateurs. Le parallle avec George Orwell investissait 2,3 milliards de dollars dans le ra- vient alors une arme puissante sur le plan co-
semble alors vident, nourrissant une certaine chat de la socit Nest Labs, confirmant que
psychose. Lquilibre est ncessaire et cest l nomique comme gopolitique. Dans la sphre
le march des objets connects est vou une
que se joue le rle de la CNIL et des instances prive, on parle principalement de viol de lin-
croissance impressionnante.
europennes, toutes conscientes de lurgence timit ou despionnage industriel, mais dans le
dune rglementation assurant et rassurant les Au-del de ce type de donnes, les entreprises domaine public il sagit bien de jeux de pouvoirs.
citoyens. dans leur ensemble dtiennent une masse din- Le Patriot Act cach derrire laffaire PRISM r-
formation considrable. Le volume de donnes vle comment le gouvernement amricain a mis
en place les conditions dune rcolte dinforma-

tude mene avec focusmatic: Vie prive et Big Data


10
importante est une premire tape vers la construc-
tion dun cadre juridique protecteur lencontre des
activits de renseignement de pays tiers. On y d-
couvre alors notamment la notion de droit loubli.
A priori les dbats vont donc dans la bonne
direction, mais certaines zones dombre per-
sistent. Dici fin 2014, plusieurs dclarations
sont attendues, limage du projet de loi sur la
golocalisation dans le cadre denqutes discu-
t en Fvrier dernier.
Au niveau europen, Neelie Kroes, la vice-prsi-
dente de la Commission europenne en charge
du numrique, sest dsormais construit une
image forte et multiplie les dclarations. Elle
porte la mouvance pro-numrique au sein des
instances europennes. Critique pour sa posi-
tion juge faible face aux lobbies des oprateurs
tlcom, elle est reconnue pour ses actions en
termes de cybercriminalit. Si Angela Merkel a
fait beaucoup de bruit suite la rvlation de la
mise sur coute de son tlphone par la NSA
(National Security Agency), il semble encore
discutable de mettre en place des actions de
contrle et dhbergement strictement euro-
pen des donnes. Dun point de vue pratique,
stratgique et conomique, les avis divergent,
mme si le dbat devra statuer rapidement. La
pression exerce par les dsormais surnom-
ms GAFA (Google, Amazon, Facebook, Apple)
joue un rle central dans cette relation de force.

Lopen data et la cration de valeur

Lopen data cest, littralement, louverture des


donnes. Donnes publiques, donnes prives,
donnes anonymises, donnes environne-
mentales Ds lors quune donne nest pas
personnelle ou stratgique pour son dtenteur,
tions globale et continue. La structure sappuie elles-mmes soumises au Patriot Act, il est l- elle peut tre partage. Lide derrire cette ap-
sur lomniprsence dacteurs comme Google, gitime de sinquiter de leur utilisation des proche, cest que louverture des donnes per-
continuellement aux prises avec les lgislateurs fins nfastes. Quelques changes politiques met la cration de valeur. Une information d-
europens, mais devenu presque incontour- ont bien eu lieu, visant rassurer les divers tenue par un acteur dun certain secteur, quil
nable pour leurs internautes. tats de la bonne foi de chacune des parties. nutilise pas particulirement, peut, si elle est
Cependant, quelques chiffres rassurants ont t En parallle, la volont de crer un cloud sou- partage, permettre un autre acteur de dve-
publis par la CNIL dans son rapport annuel de verain sest renforce, avec des acteurs ca- lopper une innovation, un service, une analyse.
2014 : la commission a constat une baisse des pables dhberger les donnes nationales et de
plaintes relatives la protection des donnes les protger (Numergy, Cloudwatt). Sans pnaliser les acteurs qui ouvrent leurs
et une augmentation de 17% des demandes de L, diverses opinions sopposent: les uns donnes, lopen data est profondment ancr
droit daccs indirect. Lutilisateur va donc peut- prnent des actions rapides afin de scuriser dans la vision participative de lconomie. Ouvrir
tre apprendre lui-mme grer ses donnes, les donnes, les autres sont convaincus de la ses donnes, cest aussi contribuer un proces-
si on lui donne les outils ncessaires. ncessit de prserver le libre-change. La sus qui permettra de gnrer de la valeur dans
surprotection na pas toujours, dans lhistoire, un cosystme, et sinscrire dans une dmarche
Avec Focusmatic, nous avons observ quels port ses fruits. Et si lEurope risquait plus dmulation qui sert les intrts de tous.
termes sont les plus prsents lorsque lon tenter de senfermer dans un systme de vase Selon un rapport du cabinet McKinsey, lopen
parle de big data et de vie prive sur le web et clos qu se laisser scruter? data pourrait contribuer gnrer chaque an-
ne une valeur ajoute de plus de 3 000 mil-
les rseaux sociaux (% des messages associs
De plus, une volont dassurer une relative har- liards de dollars. Cette tude a mis en alerte
, en activit. Du 27/10/2013 au 02/09/2014). On
monie sur la question de la protection des don- les plus sceptiques, et dsormais lensemble
remarque que certains acteurs ou organismes
nes personnelles en Europe se fait ressentir. de la communaut Big Data voue une impor-
y apparaissent, comme en premier la CNIL
ce jour, les discussions font encore vivement tance indniable lopen data, observant les
mais aussi Facebook, la NSA ou encore ltat.
dbat. La dernire avance majeure sur ce sujet divers projets qui naissent travers le monde.
date du 21 Octobre 2013, lorsque la commission
Vers une cohsion europenne des Liberts publiques (LIBE), alors largement
porte par Viviane Reding, vota le compromis
Ds lors quon considre que les donnes re- sur la rforme de la protection des donnes
prsentent un lment gopolitique et cono- dans lUE. Le site de la CNIL qualifie ce vote de
mique majeur, on est en droit destimer que les signal politique puissant qui exprime une identit
LOPEN DATA EN INFOGRAPHIE
tats et plus largement lUnion Europenne est politique forte de lUnion europenne sur un sujet
concerne. Laffaire PRISM a bris une forme essentiel, tant sur le plan des valeurs que sur celui
de confiance tacite entre lEurope et les tats- des enjeux conomiques. Il poursuit en dcla-
Unis, et a pouss divers acteurs europens rant que concernant les suites de laffaire PRISM,
sinterroger sur la faon de protger le patri- et comme la CNIL lavait expressment demand ds
moine et les intrts de lUnion. dbut 2013, le texte introduit un contrle des autori-
La question de lhbergement des donnes ts de protection sur les demandes dautorits ad-
est particulirement prgnante. Si la majorit ministratives et judiciaires de pays tiers daccder
des donnes produites par la zone europenne aux donnes relatives des citoyens europens.
est stocke au sein dentreprises amricaines, Cette rponse, certes partielle, mais politiquement
11
13 259 jeux de donnes
sont disponibles ce
jour sur la plate-forme
gouvernementale
ddie lOpen data.

En juillet2014, la ville de Chicago a initi un


SERVICES
LA VILLE SOCIETE
Interactions
projet de collecte de donnes sur 8 lampa-
daires installs travers la ville. Le Centre ur-
Transports INTELLIGENTE Rseaux
Recommandations
Energie
bain de calcul et de donnes (UCCD) aura ainsi Ecologie
sa disposition des donnes mtorologiques, Dveloppement
de trafic urbain, de pollution, denvironnement
sonore et olfactif, et de frquentation grce aux
signaux mis par les smartphones. Les don-
nes seront ensuite ouvertes.
La question de la protection des donnes est
videmment engage, mais la ville assure que
lusage ne sera qu des fins de recherche, d-
veloppement de services, et restera anonyme.
Lobjectif de ce projet sinscrit parfaitement TEMPS REEL
dans la dynamique dOpen Data des fins de Interconnectivit
cration de valeur et de gnration de start-ups M to M
et de projets innovants. Les premiers rsultats
permettront de dcider si lexprience doit
tre tendue ds fin 2014, et si dautres villes
peuvent sen inspirer.
Linvestissement est ici limit puisquil repr-
sente moins de 300 euros par botier install,
et sappuie sur les connaissances et ressources
de lUCCD.
La France est loin dtre en retard sur le su-
jet de lopen Data. Laction dEtalab, lengage-
ment de ltat et la collaboration de nombreux FOCUS retours des projets les plus mdiatiss.
Au-del des considrations conomiques et de
grands groupes ont permis douvrir un grand
nombre de donnes et de crer diverses star- BIG DATA & FORMATION: lintrt que prsente le Big Data, le facteur humain
tups et services innovants. 13 259 jeux de don- est souvent voqu. Qui mnera le projet? Quelles
nes sont disponibles ce jour sur la plate-
LES PROGRAMMES, LES sont les qualifications ncessaires? Comment
forme gouvernementale ddie lOpen data PROFILS, LA CRATION impliquer les diverses quipes concernes?
(data.gouv.fr). Cela reprsente plus de 350 000 DEMPLOIS Comment coordonner les projets?
fichiers contenant des donnes publiques. Et
les actions sont voues se multiplier. Port MISE EN PLACE DU BIG DATA: LE RLE Ces dernires annes, le terme de datascien-
par Henri Verdier, dont vous pourrez retrouver tist est apparu. Un mouton cinq pattes pour
DES MTIERS, LA PLACE DE LA DSI
une interview dans la partie portraits, Etalab se certains, capable de comprendre les problma-
positionne comme une communaut favorisant tiques mtier tout en tant force de proposition
le partage dinformation, lmulation et la cra- Comme le montrent les chiffres, ladoption sur les outils et infrastructures. Ce datascien-
tion de valeur. du Big Data reste relativement modre dans tist est-il issu de la DSI? Peut-tre, mais il doit
les entreprises franaises. Plusieurs points davantage se positionner comme un lectron
de vue peuvent expliquer ce relatif retard. libre au sein de lentreprise, naviguant entre les
Daprs Philippe Nieuwbourg, les Franais r- divers services et fdrant les quipes autour
flchissent trop larchitecture de leurs projets du mme objectif. Un manager en somme? Pas
Big Data, fixent trop dobjectifs et ne laissent tout fait. Un leader plutt. Un homme ou une
pas la place lexprimentation. limage des femme, qui saura apprhender les besoins de
POC (Proof Of Concept), des projets pilotes, lar- ses collaborateurs, connatre les solutions Big
gement adopts en Amrique du Nord, lana- Data qui y rpondront et les mettre en place
lyste estime que la France devrait insuffler rapidement. Un datascientist doit galement
plus de souplesse dans son approche. La phi- faire preuve de qualits relationnelles: en tant
losophie Big Data nest-elle pas justement qulectron libre, il doit pouvoir impliquer ses
fonde sur lexprimentation? collaborateurs, rendre intelligibles les rsultats
linverse, Fabrice Benaut, ancien DSI du et leur communiquer lavancement. Cest celui
groupe GFK, pense que la prudence et la ri- qui vulgarisera le Big Data dans lentreprise, pour
gueur applique aux projets franais consti- le rendre plus accessible aux divers mtiers.
tueront notre force dans les annes venir. Une tude mene par IT Research ralise
en partenariat avec le Club Dcision DSI et le
Quoi quil en soit, ce jour, les projets Big Data JDN rvle que 35% des DSI sorientent vers
semblent effrayer un grand nombre dentre- le Big Data en France. Ils rflchissent aux in-
prises. Trop risqu, trop cher, trop compliqu frastructures et aux finalits des projets, mais
mettre en place, trop loin de la culture de len- aussi au nouveau rle quils incarneront dans
trepriseLes arguments sont nombreux pour leur entreprise avec le Big Data. Limage des
Source: U.S. General Services Administration repousser lchance en scrutant les premiers DSI en France nest cependant pas toujours
12
35
DES DSI SORIENTENT VERS
LE BIG DATA EN FRANCE
% Soraya, Mehdi et Denis,
diplms du Mastre
Spcialis
Big Data Tlcom ParisTech la
premire promotion BigData en France

trs positive. Souvent considrs comme des


dpartements renferms sur eux-mmes, les
DSI qui souhaiteront prendre en main le Big
Data devront adopter le profil du datascientist.
Retrouvez
linterview de
Les formations Soraya
Cest donc bien dun nouveau profil dont on
parle. Un profil qui requiert une formation
mathmatique, statistique, informatique mais
aussi managriale.
Cest la raison pour laquelle de nombreuses
formations ont ouvert leurs portes rcem-
ment. Telecom Paristech a ouvert la voie en
diplmant la premire promotion Big Data de
France en Mai dernier. Une promotion dont la
majeure partie des tudiants avait dj sign
son futur contrat dembauche avant de recevoir
son diplme. Grenoble EM et lEMSI ont ou-
vert en septembre leur propre formation, sap-
puyant sur leur complmentarit. Les grandes
coles parisiennes dingnieur ou de commerce
suivent elles aussi la tendance. O recruter son Retrouvez
futur datascientist? Y a-t-il des spcialisations linterview de
plus cibles? Difficile de sy retrouver dsor-
mais dans la multiplicit de loffre. Certaines Mehdi
coles sont identifiables rapidement de par
leur rputation, mais nous avons tent dobser-
ver les principales formations et de voir quels
domaines de spcialisation elles sont le plus
souvent associes.

Avec notre partenaire Focusmatic, nous avons


slectionn quelques coles qui ont initi des
formations lies au Big Data et tent diden-
tifier les secteurs qui sont attachs ces for-
mations (nombre de messages associs , en
activit. Du 27/10/2013 au 02/09/2014). On re-
marque ainsi que la formation grenobloise est
associe aux sujets RH et Telecom, tout comme
celles dHEC ou de lENSAI. La thmatique RH
est souvent mentionne de par la pnurie de
Retrouvez
datascientist ce jour en France. Ce quon re- linterview de
marque surtout, cest que certaines coles ont
un cho dans une varit leve de secteurs Denis
alors que dautres sont voques pour des
enjeux bien prcis. LESSEC par exemple, est
principalement associe au secteur de la publi-
cit. HEC est lcole la plus associe au secteur
de la finance, tandis que Telecom Paristech et
les Mines le sont la sant.

De faon globale, HEC, lESSEC, la forma-


tion grenobloise (Grenoble EM & Ensimag) et
Telecom Paristech sont les coles qui font le
plus parler delles et du Big Data (nombre de
messages voquant le Big Data et lcole- p-
riode du 27/10/2013 au 04/09/2014).
13
Secteurs associs, par Ecole
lAfdel estime que
1 000 emplois directs
seront crs en France
dici 2018.

LA CRATION DEMPLOI
La croissance annonce et amorce du march
du Big Data a une consquence sur le march
de lemploi. Comme nous lavons vu, les projets
Big Data ncessitent une relle nouvelle fonc-
tion, celle de datascientist. Elle stimule ga-
lement toute la sphre conomique des SSII,
cabinets de conseils, intgrateurs, fournis-
seurs hardware Dans lensemble, lAfdel es-
time que 1 000 emplois directs seront crs en
France dici 2018. Au niveau mondial, le cabinet
Gartner a suscit leffervescence en annon-
ant en 2013 quil valuait la cration demploi
4.4 millions dici 2015. Prs de la moiti le
serait sur le territoire amricain. On comprend
donc le besoin de formation et la prolifration
des programmes acadmiques. Certains vont
mme jusqu penser que lducation nationale
devrait intgrer des modules de familiarisation
avec le codage et le traitement de la donne,
afin de susciter des vocations et dveiller la
curiosit ds le plus jeune ge. Les gnrations
venir seront certainement plus familiarises
avec les nouvelles technologies, mais les da-
tascientist demanderont quoi quil arrive une
formation spcifique.

Dans le contexte dun march de lemploi plutt


morose en Europe, la perspective dune nou-
velle fonction fortement demande dans les
plus grandes entreprises attire de nombreux
Donnes issues dune tude mene avec Focusmatic du 27/10/2013 au 02/09/2014. Nombre de messages associs , en activit tudiants, qui remplissent dj les bancs des
meilleures coles. Argument non ngligeable:
le salaire moyen dun datascientist aux tats-
le Big Data et les Ecoles Unis serait de 89 000$ annuels. En France, on
parle de 40 000 80 000 par an pour les plus
ESSCA : 09 ENSAI : 96
expriments.

4.4
IDRAC : 18 Mines : 140

ECE : 20 Grenoble ENSIMAG : 150

Telecom Ecole de Management : 25 Grenoble EM : 240

Toulouse Business School : 28 Telecom Paristech : 370

Audencia : 30 ESSEC : 480

Supelec : 46 HEC : 490

ESSCA : 09 ENSAI : 96 MILLIONS DEMPLOIS BIG DATA SERONT


Donnes issues dune tude mene avec Focusmatic du 27/10/2013 au 04/09/2014. Nombre de messages voquant le Big Data et lcole
IDRAC : 18 Mines : 140
CRS DANS LE MONDE DICI 2015
ECE : 20 Grenoble ENSIMAG : 150 14
Portraits

Portraits
15
Axelle Lemaire : photo officielle - portail du gouvernement

AXELLE
LEMAIRE
SECRTAIRE DTAT
CHARGE DU NUMRIQUE
(Portrait)

lEurope nest pas les


Plus vraiment besoin de prsenter la Secrtaire Avril, celui endoss par Axelle Lemaire porte
dtat charge du Numrique. Sa prise de poste tats-Unis, nous ne voulons le titre de secrtaire dtat. On a beaucoup vu
le 9 Avril 2014 a fait beaucoup de bruit dans la Fleur Pellerin en premire ligne sur la th-
communaut numrique franaise. pas dun internet fractionn. matique du Big Data notamment. Pour Axelle
Non pas que les comptences de la jeune Lemaire, la fonction se prsente diffremment.
femme aient t mises en doute, cest surtout [] Si on parvient saccorder Officiellement, le poste concerne les droits et
la forte popularit de celle qui fut son prd- liberts fondamentaux dans le monde num-
cesseur, Fleur Pellerin, qui anima les dbats.
En effet, lex ministre dlgue lconomie au niveau europen, ce sera rique et la scurit des changes, des rseaux
et des systmes dinformation. En dautres
numrique avait mis quelque temps faire ses
preuves, mais elle avait su gagner le respect un grand pas en avant termes, elle est principalement en charge de la
et la confiance de la majorit de la sphre IT gouvernance Internet, la scurisation des don-
franaise. Imprgne du sujet et rellement
concerne par les enjeux du secteur, elle stait
LA TOP ACTU DAXELLE LEMAIRE
positionne en tant que moteur politique et
conomique du rayonnement numrique fran-
ais linternational. lapoge de son succs,
le hashtag #keepfleur a traduit le soutien des
acteurs du numrique lors du changement de
fonction de Fleur Pellerin.

Une prise de poste complique pour Axelle


Lemaire donc. Prendre ses marques et sem-
parer du sujet tout en vitant la comparaison
et les rancurs des supporters de Fleur se
prsentait comme un quilibre difficile trou-
ver. Elle-mme admettra quelques mois plus
tard, lors dune interview accorde au journal
Le Monde, avoir eu un peu peur en voyant le
hashtag #keepfleur sur Twitter. Cependant, il
ne faut pas oublier que la jeune femme a dj
une carrire politique toffe et ne dcouvre (Donnes Focusmatic - messages associant Big Data et Axelle Lemaire - messages issus du web et des rseaux sociaux)
pas tout fait la question du numrique. Au
cours de ces dernires annes, elle a dvelopp Afin de mesurer la prsence numrique de la secrtaire dtat et ses interventions les plus remarques
un intrt pour le sujet. Dans un premier temps lors de sa prise de poste, nous avons observ ses quelques actus Big Data qui ont fait le buzz entre le
attire par le numrique dans le cadre de sa 09/04/2014 et le 24/05/2014
vie prive, elle a rapidement compris les int-
rts conomiques et les enjeux qui se cachent
derrire ce march en pleine expansion. Alors SES 2 PICS DACTUALITS SE TROUVENT
membre de la commission des Affaires euro-
TOP #1: LE 18/04/2014 GRCE CET ARTICLE:
pennes, elle rdige en 2013 un rapport sur la
stratgie numrique de lUnion Europenne. EXCLUSIF. Axelle Lemaire veut rtablir un Internet qui garantit les liberts
De profil international elle est ne Ottawa fondamentales - Le Point.fr
et a t dpute des Franais tablis hors de
France Axelle Lemaire prsente lavantage
de pouvoir naviguer facilement dans lunivers TOP #2: LE 19/05/2014 GRCE CETTE INTERVIEW:
anglo-saxon, prdominant dans le numrique. Axelle Lemaire: LEurope nest pas les tats-Unis, nous ne voulons pas dun
Internet fractionn. - 20 Minutes
Si la suite de Fleur Pellerin a certes t diffi-
cile, on ne peut sempcher de noter une petite
nuance qui renferme tout de mme quelques
ralits. Le 8 Avril, le poste occup par Fleur
Pellerin tait celui de ministre dlgu, le 9
16
nes et la question de lopen data, le tout sous
lgide du ministre de lconomie, de lindustrie HENRI VERDIER la puissance publique
et du numrique. Sous lgide ou dans lombre?
Cest la principale critique quelle a reue lors
de sa prise de poste, lorsquelle travaillait avec
DIRECTEUR DETALAB peut sinspirer des
Arnaud Montebourg. Trop en retrait sur les (Interview)
dossiers clefs, elle aurait pu perdre en crdibi- stratgies des grandes
lit et ne pas profiter de son capital sympathie, Normalien de formation, Henri Verdier est
pourtant largement reconnu. A priori, cette p- un entrepreneur dans lme. En 1996, il cre plateformes Internet
riode dobservation lui a au contraire permis de sa premire entreprise, une web agency, qui
dmontrer sa temprance et son esprit dana- marque le dbut de 20 ans de cration dentre-
lyse, qualits qui ont justement parfois fait d- prises dans le secteur du numrique.
faut son suprieur. Dsormais dans lquipe En parallle de ses expriences entrepreneu-
dEmmanuel Macron, qui remplace Arnaud contributeurs bnvoles dOpenStreetMap
riales, Henri Verdier a men des missions de pour recenser la golocalisation de lintgralit
Montebourg depuis le 26 Aot dernier, Axelle conseil et a fait partager son expertise pro-
Lemaire poursuit sa mission. des adresses en France.
fessionnelle. Il a galement occup le poste La plateforme www.data.gouv.fr mise en place
de directeur en charge de linnovation chez par Etalab connat dj un grand succs, ayant
Des prises de positions fortes, des actions Lagardre Active.
concrtes et beaucoup de terrain, cest ce que mme reu les honneurs de TechCrunch. Les
la sphre numrique attend delle. donnes qui y sont partages sont extrmement
Engag dans lcosystme numrique fran- varies, nombreuses et proviennent de diff-
A ce jour, ce qui ressort, et cest certainement ais, Henri Verdier prend la prsidence de Cap rentes sources, comme les administrations et
d son parcours, est sa vision europenne. Digital en 2007. Au sein de cette association de les tablissements publics, mais aussi lUFC Que
Comme elle le dclarait dans une interview plus de 800 start-ups, 25 grands groupes tels
dans 20Minutes, lEurope nest pas les tats- Thales, Alcatel ou Dassault systme, et 250 la-
Unis, nous ne voulons pas dun internet frac- boratoires de recherches publique, dont lINRIA
tionn. [] Si on parvient saccorder au niveau par exemple, il se familiarise avec les probl-
europen, ce sera un grand pas en avant. matiques de la donne. Au sein de Cap Digital,
Un axe pour son mandat? Lchance se pro- les projets naissent toute vitesse. Le rseau
file-t-elle pour fin 2014 ou la tache demande- soutient plus de 300 projets de recherche par
ra-t-elle encore de nombreux allers-retours? an, les dotant de plus de 70 millions deu-
La protection des donnes personnelles est ros daides. Cest l quHenri Verdier ralise
une priorit qui elle le sait se jouera aussi au quune rvolution de la donne est en marche.
niveau europen. Fin Juin 2014, les rvlations Leffervescence qui a alors lieu dans la Silicon
sur les exprimentations de Facebook menes Valley semble confirmer cette tendance. Avec
en 2012, ont piqu au vif la communaut et for- la dmocratisation du cot de traitement de la
tement interpell la secrtaire dtat. Que sur donne, il estime alors que la bataille com-
le plan lgal, aucune disposition ne permette mence tout juste!
de contrler et empcher ce type de manipula- En 2010, il cre, avec Pierre-Louis Lions et
tions reprsente une faille majeure dans le rle Jean-Michel Lasry, MFG Labs, engage dans
dun Etat qui affiche sa volont de protger la le domaine du Big Data. Le projet rencontre
vie numrique de ses citoyens. le succs et est acquis par le groupe Havas
quelques annes aprs sa cration. Cette ex-
Lopen data pourrait tre son autre champ de prience conforte Henri Verdier dans sa convic-
bataille. Passionne par le sujet, convaincue tion de limportance laquelle est vou le Big
que toute donne publique doit tre ouverte Data.
par dfaut. Et sil y a fermeture, il faut quelle
soit explique, justifie et rversible - Axelle En 2012, il cocrit Lge de la multitude, qui
Lemaire affiche lopen data comme une des traite de la transformation numrique lheure
priorits du numrique en France. Crateur de o la valeur conomique se dplace de plus en
valeur, il devrait permettre lmulation nces- plus vers les particuliers, et leurs crations
saire une effervescence de lconomie num- conscientes (contribution) ou inconscientes
rique nationale. Le Big Data ne serait pas en (traces et donnes). On y dcouvre alors sa
reste, puisquil bnficierait largement de cette conviction que la puissance publique peut
ouverture des donnes. sinspirer des stratgies des grandes plate-
formes Internet.
Rien de plus naturel quen 2013 il accepte le
poste de directeur dEtalab. la croise entre
entreprenariat, action publique et univers de
la donne, Etalab sert des objectifs clairs.
Henri Verdier voit laction dEtalab comme la
rencontre de la Dclaration des droits de
lHomme et du web 2.0. Le raccourci peut
paratre tonnant, mais on comprend mieux
lorsquil lexplique: depuis 200 ans, ltat
construit patiemment une certaine transpa-
rence. Ctait le sens des rapports publics de la
Cour des comptes, ou de la cration de lINSEE.
Aujourdhui, lopen data, cest la mise disposi-
tion des informations dtenues par ltat, mais
dans les formats les plus bruts possibles pour
favoriser le maximum de rutilisations et la co-
production avec les citoyens.

Car cest bien le collaboratif qui prime. Les


donnes seules, sans ide, sans travail, sans
mulation, ne sont pas cratrices de valeur.
Le web 2.0 permet justement de mobiliser une
communaut de plus en plus tendue. Cest
ainsi quEtalab a choisi de soutenir les 15.000
17
Exemples de quelques jeux de donnes: Registre Parcellaire

Choisir, la Croix Rouge ou bien OpenStreeMap. lcosystme numrique, a lest galement


Mais pour quun portail vive, il faut lui donner pour les administrations elles-mmes. Peu fa-
du sens, alimenter les interactions et animer milires encore de lutilisation du Big Data, les
la communaut. La construction de la plate- institutions publiques ont pourtant un grand in-
forme a donc demand une longue rflexion, trt se positionner rapidement sur le sujet.
une concertation avec divers acteurs, laide de
spcialistes et la prsence dans de nombreux Cest l quHenri Verdier agira, non plus au titre
vnements participatifs tels les hackatons, de directeur dEtalab, mais dans le cadre de sa
pour en comprendre le fonctionnement et les nouvelle fonction dadministrateur gnral des
enjeux. Loutil fonctionne dsormais comme donnes. Il a en effet t nomm CDO de
un rseau social. ltat en Aot dernier et se trouve ds prsent
Cette plateforme est un bon exemple de lagi- face un vaste mais passionnant chantier: faire
lit dont peuvent faire preuve les instances circuler linformation entre administrations,
publiques. Pour Henri Verdier, on a tort dop- utiliser la donne mme quand elle est consi-
poser les secteurs priv et public: la vritable dre comme sensible et chasse garde
diffrence se situe entre les innovateurs et les dun ministre, jouer le rle de datascientist de
conservateurs, qui se situent galement dans ltat en somme. Par exemple, communiquer
les deux univers. Ltat peut tout fait intgrer les prix des logements en temps rel au minis- Exemples de quelques jeux de donnes:
les mthodologies agiles de la culture startup, tre du logement permettrait de prendre des transparence de la vie publique
ou les rgles de lopen source, avec les avan- dcisions appuyes par la ralit immdiate du
tages de lefficacit, des budgets rduits et du march. limage de quelques administrations
dveloppement rapide des projets. amricaines, ltat franais se met donc au Big tionnelles. La recherche est entre guillemets
Data. On y croit, on y va. libre. Ce nest mme plus une question de
Pour Henri Verdier, Etalab a, au moins, 3 rai- volume de donnes, despace de stockage ou
sons dtre. La premire, la plus vidente, et Car pour Henri Verdier, le Big Data est une de capacits de traitement. Cest la mentalit
dj voques ci-dessus, rpond lobjectif de relle rvolution. Les cabinets tels McKinsey qua apport le Big Data qui dcuple les capa-
transparence, de concertation et de coproduc- ou Gartner nous lavait annonce, on le vrifie cits, quon parle de small data, smart data ou
tion. Un outil comme OpenFisca en est un bon aujourdhui en assistant la fulgurante ascen- autre.
exemple. Son modle dynamique permet de sion de startups qui nauraient jamais eu les En tant que CDO de ltat, Henri Verdier sat-
manipuler plus de 400 rgles fiscales afin de moyens de leurs ambitions si le Big Data et tachera donc exploiter cette approche. Peut-
mesurer et anticiper le montant de ses impts le cloud ne leur avaient pas permis de rivali- tre quil sagira essentiellement dune ques-
mais aussi de modliser des rformes fiscales. ser avec les ultra-financs dpartements R & tion dadoption de la culture Big Data avant
La deuxime raison dtre dEtalab est linno- D des gants amricains. Cest une dmocra- mme ses outils. Limportant sera dintgrer
vation. Indniablement, la donne est une res- tisation, louverture du jeu de nombreux nou- lensemble des acteurs, privs galement, qui
source essentielle de lconomie moderne. Elle veaux acteurs. pourront participer cette modernisation.
permet de crer des applications, des services,
damliorer des process ou de mieux connatre Comme le dit Lev Manovich dans son ouvrage
notre entourage. Aux tats-Unis, lopen data Le langage des nouveaux mdias, une soci-
des donnes GPS a fait natre un secteur indus- t de donnes nest pas statistique, elle ne suit
triel entier. Lide est de diffuser cette russite pas la discipline mathmatique des moyennes,
tous les secteurs: nergie, transports, m- mais met en place de nouvelles rgles, sans
decine personnalise Les axes sont vastes. hirarchie. Le Big Data change la donne, il im- EXEMPLES DE QUELQUES JEUX DE
Les questions qui restent alors en suspens plique prcision et personnalisation. Il entrane DONNES DISPONIBLES SUR LA
sont lanonymisation des donnes et le risque de nouvelles reprsentations de la socit. PLATEFORME DATA.GOUV.FR
de captation de cette valeur. Mais pour Henri Etalab veut sinscrire dans cette dmarche de
Verdier, il ne faut pas sarrter par peur dmocratie plus mature, qui vit avec son temps. REGISTRE PARCELLAIRE
des GAFA (*Goggle, Apple, Facebook, Amazon- Le Big Data est galement une rvolution phi- GRAPHIQUE 2012: CONTOURS
N.D.L.R.). Sils trouvent des modles de valeur, losophique. Il permet dadresser les problmes DES LOTS CULTURAUX ET LEUR
ils creront eux-mmes les donnes dont ils diffremment. En biologie par exemple, le do- GROUPE DE CULTURES
ont besoin. Il vaut mieux dpenser notre ner- maine dexpertise initial dHenri Verdier, la MAJORITAIRE DES EXPLOITATIONS
gie faire natre un tissu industriel fort en mthode exigeait quon mette des hypothses
France, et nous positionner au centre des in- pour ensuite les vrifier. Chaque exprimen-
novations. tation tait coteuse, lhypothse devait donc
Le troisime et dernier objectif dEtalab tre prometteuse. Aujourdhui, les donnes
concerne ltat lui-mme. Si se moderniser sont nombreuses et gratuites grce des ac- TRANSPARENCE DE LA VIE
et donner accs davantage de donnes est teurs comme Etalab. Les temps de traitement PUBLIQUE
important pour lensemble des citoyens et de nont plus rien voir avec les mthodes tradi-

18
ANNE LAUVERGEON
EX-PRSIDENTE DAREVA, RESPONSABLE DE LA COMMISSION INNOVATION 2030
ET PRSIDENTE DU CONSEIL DE SIGFOX (Portrait)
Photo : Bruno Levy pour Challenges

Arrtons lauto
french bashing!
[]
Tnacit, vision
stratgique long terme
et cohsion europenne
doivent primer.

Anne Lauvergeon est principalement connue mrique de suivre le rythme effrn de leur ses nouvelles gnrations linnovation, ou
pour sa carrire de femme daffaires la forte secteur, sans tre frein par des instances et du moins ne pas les inciter un raisonnement
personnalit. Ses annes chez Areva ont forg contraintes rglementaires. La commission anti prise de risque. Sans vouloir renier
son personnage. Surnomme Atomic Anne, prcise videmment quil faudra trouver un notre culture et nos particularits, il nous faut
lancienne sherpa du prsident Mitterrand a quilibre entre libre innovation et protection voluer avec notre entourage. Elle prend alors
parfois divis mais ses comptences ont sou- des donnes personnelles. Cest un idal. lexemple des tablettes numriques, parfaite-
vent t salues. voir quelles ides pour latteindre mergeront. ment dveloppes dans deux ples dattraction
qui sont pourtant deux pays trs diffrents: les
Elle a fait son entre dans la sphre numrique Avec Anne Lauvergeon sa tte, on se doit au tats-Unis et la Core du Sud. Il nexiste donc
en avril2013, lorsque Jean-Marc Ayrault, alors moins de prter attention aux recommanda- pas de recette universelle, mais une capacit
premier ministre, la dsigne la tte de la com- tions livres par la commission. La langue de ladaptation. Chaque pays conserve ses par-
mission innovation 2030. Sa mission? Dfinir, bois ne fait pas particulirement partie des ha- ticularits tout en favorisant les conditions
avec une quipe ddie, les sept ambitions bitudes de la femme daffaires, et le pragma- dpanouissement de linnovation.
stratgiques pour la France lhorizon tisme est souvent matre mot. Lors dune conf-
2030. Dans son rapport rendu en octobre2013, rence en petit comit organise par lESCP, Enfin, cela peut sembler paradoxal, elle prne
le Big Data figure part entire comme sec- Anne Lauvergeon expliquait justement certains ltat zro. Ltat en retrait, qui laisse son
teur clef pour lavenir conomique de la France. points sur sa vision de lentreprise, de ltat, conomie se dvelopper et les innovations
Elle devient alors porte-drapeau dune sphre sur le travail de la commission et le rle du nu- merger. Ltat qui ne cherche pas lutter
qui milite pour un dveloppement dun co- mrique dans lconomie nationale. contre la modernit mais plutt laccompa-
systme puissant du Big Data en France. Elle gner. En dfinitive, le rle de ltat pour favo-
cre mme la surprise en acceptant le poste de Dans un premier temps, et cest intressant riser linnovation consiste reconnatre les
prsidente du conseil de la startup SIGFOX en au regard de la mission de la commission, elle secteurs clefs o il mnera quelques grands
avril2014. Le numrique, elle y croit, et elle y dfinit le rle des tats. Un tat, selon elle, projets et crera un environnement favorable
jouera dsormais un rle actif. doit avoir une vision stratgique. Areva par pour les entreprises, leur laissant la charge
exemple, est le fruit de 50 annes de politique den faire bon usage.
Concernant le Big Data, la commission 2030 continue, mene au niveau europen, avec un
prconise 5 leviers dactions: lopen data objectif clair. Cependant elle le reconnat faci- Un point qui ne manque pas dchapper Anne
comme acclrateur dinnovation, la valorisa- lement, la formule ne sapplique quaux grands Lauvergeon est le manque de confiance dont
tion des donnes publiques (au sein des admi- secteurs stratgiques. Cest alors quintervient nous souffrons en France. Arrtons lau-
nistrations), la mise disposition de ressources le second rle de ltat: favoriser des cosys- to-french bashing clame-t-elle! Nous devons
technologiques au sein dun centre destina- tmes, crer des aquariums comme elle le avoir confiance en nos capacits.
tion de startups, laide lexport et le droit dit. Plus prcisment, cela signifie que lorsque
lexprimentation. ltat souhaite acclrer ou accompagner un Identifier les capacits de la France, ctait
secteur dit, il se doit de lui procurer les condi- justement lobjet de la commission 2030. Trois
Ce dernier axe peut paratre surprenant quand tions ncessaires son panouissement. Ses questions se sont poses ses membres:
on connat les discussions au sein de la CNIL outils? La fiscalit, la rglementation, ldu- o sommes-nous bons en France, que pou-
ou mme de lEurope. Le droit lexprimen- cation. Sur ce dernier point elle insiste forte- vons-nous dcliner en Europe et o y a-t-il une
tation viserait permettre aux acteurs du nu- ment, persuade que la France doit duquer forte demande mondiale?
19
donn naissance sept concours mondiaux pour que linnovation puisse tre exploite
de linnovation. Mondiaux? Ctait important ailleurs que dans un domaine unique. Dans
pour la commission de laisser les candidatures les faits, cela demande la cration de rseaux
ouvertes tous, travers le monde, avec pour sociaux dacheteurs des innovations, o les
seule contrepartie de sengager investir en ides se transmettent, se valorisent, sex-
France. Les premiers laurats ont dj t d- portent et senrichissent.
signs. Une belle vision de linnovation en somme, qui
ne serait non plus un outil pour son gnrateur,
Dans lensemble, la commission a reu plus de mais bien un moteur pour lconomie tout entire.
1200 dossiers de candidature depuis son lan-
cement en dcembre2013 jusqu dbut juil- Elle conclut sur ces quelques mots, qui tra-
let2014. Lexercice est mme vou tre rp- duisent bien la personnalit de cette femme
t tous les deux ans, selon une dclaration de de caractre: tnacit, vision stratgique long
Franois Hollande. terme et cohsion europenne doivent primer.

Anne Lauvergeon nous rappelle alors une par-


ticularit de la France, qui influe fortement sur
ses dmarches dinnovation et par consquent
sur des initiatives telles le concours mondial
de linnovation. Au monde, cest le seul pays
appliquer le principe de prcaution, aprs
Quelques laurats: big data pour le sport professionnel lavoir inscrit dans sa constitution (voir la loi
Barnier). Dautres pays lont reconnu, comme
le Brsil ou lAllemagne, mais la France sat-
Avant tout, la commission sest projete dans tache fortement son respect. Souvent dsi-
le monde tel quil pourrait tre en 2030. Plus gn comme frein linnovation, le principe de
peupl, cest certain, avec plus de classes prcaution requiert dans son application la
moyennes, le numrique encore bien plus pr- recherche dun quilibre avec le principe din-
sent dans nos vies, dimportants changements novation. Les deux ne doivent pas sopposer
climatiques mais aussi des changements de mais se temprer. On rejoint alors le concept
mode de pense et de relation largent, au du droit lexprimentation stipul dans le
partage, au collaboratif. Dans quelle mesure la rapport de la commission, qui doit squilibrer
France aura-t-elle un rle jouer sur la place avec la protection de la vie prive. Comme le
conomique mondiale? dit Anne Lauvergeon, il faut faire le ying et le
yang entre les deux notions. Tout serait donc
Concrtement, la commission en elle-mme une question dquilibre.
est un point de dpart, un fil conducteur. Le CGI
(Commissariat Gnral lInvestissement) a Selon la femme daffaires, linnovation ne doit
dbloqu 300millions deuros, grs par la Bpi. pas se voir comme une finalit ni se limiter un
Les sept ambitions de la commission 2030 ont seul usage. Il faut la partager, la faire vivre,

QUELQUES LAURATS
DE LA CATGORIE BIG DATA
DU PREMIER CONCOURS
MONDIAL DE LINNOVATION
LANC PAR LA COMMISSION.

PROJET: BIG DATA POUR LE


SPORT PROFESSIONNEL
Mac-Lloyd propose des technologies de rup-
ture dans le domaine du sport de haut de ni-
veau: capteurs de mouvements, mesure par
analyse vido, et traitement intelligent de don-
nes massives par machine learning.

PROJET: SNIPS
Snips est une startup spcialise en modlisa-
tion prdictive pour les villes. En sappuyant sur
des donnes de golocalisation ainsi que des
donnes de contexte, nous pouvons mesurer,
comprendre et anticiper les comportements
dans les villes, contribuant ainsi personnali-
ser et amliorer le quotidien des citadins.

Quelques laurats: modlisation prdictive pour les villes


20
GILLES
BABINET
FONDATEUR DE CAPTAINDASH
ET DIGITAL CHAMPION
AUPRS DE LA COMMISSION
EUROPENNE
(Interview)

Votre parcours:
Au-del de la fiche Wikipedia qui parle dun pas-
sage difficile au collge et au lyce Quel parcours
avez-vous suivi? Comment avez-vous commenc
fonder vos premires entreprises et pourquoi vous
tes-vous lanc dans cette aventure?

Tout cela est un peu singulier mais en deux


mots ce quil faut en retenir cest que jtais
effectivement un cancre lcole et je ne my
adaptais pas. Javais une certaine habilet
manuelle et jai commenc travailler dans
le btiment. Cest l que jai eu lide de ma
premire entreprise, que jai donc dveloppe
dans le monde de lalpinisme et du btiment.
Puis les choses se sont enchanes et jen suis
venu travailler dans lunivers numrique, qui
ma toujours passionn. Ce que jen retiens
cest que notre systme ducatif nest pas
adapt pour certaines personnes comme moi.
Je ne cesse de penser que nombreux sont les
enfants qui voient leurs vies gches ou en tout
cas srieusement perturbes parce quils nar-
rivent pas se familiariser avec la rigidit de
notre systme franais.

Vous et le numrique:
Do vient votre intrt pour le secteur du num-
rique? quel moment vous tes-vous dit que le Big
Data reprsentait un secteur davenir, de nouvelles
opportunits, une rvolution? Et comment est n
CaptainDash?

Je ne suis pas proprement parler un pro-


grammeur mme si je me suis beaucoup in-
tress llectronique lorsque jtais jeune. dtre en permanence dans le principe de pr-
risque, pro-business en luttant contre les pro-
Jai toujours voulu introduire linformatique, les caution, avoir peur du futur et de notre ombre.
fessions rglementes et tout la fois sassu-
rseaux dans mes entreprises. Je pense avoir Les attitudes ractionnaires ne russissent ja-
rer que la qualit du systme ducatif est la
fait partie de la premire vague des fonda- mais aux nations. Idalement, il conviendrait
teurs dagence web, ds 1994 et donc tout ceci hauteur dune socit de la connaissance, que
les infrastructures numriques sont finances de favoriser lclosion dune nouvelle forme
reprsente finalement un certain continuum. de Droit, ce qui ne manquera pas darriver.
Il y a sept ou huit ans, jai rencontr Bruno et disponibles, que les liberts ne sont pas al-
chaque rvolution industrielle son droit. La pre-
Walther, qui tait alors CEO de lagence inter- tres, etc. mon avis, rares sont les tats qui
mire a vu lapparition du Code Civil, la seconde
net Ogilvy et nous avons eu des discussions parviennent mettre en uvre cette nouvelle
les droits sociaux (code du Travail), nous assis-
passionnantes sur le constat que nous faisions alchimie. La France progresse mais elle a un
terons un jour lmergence du code de lindi-
que le monde de la donne allait reprsenter long chemin faire. vidu et de la Donne.
la prochaine rvolution; de fil en aiguille nous
avons cr une socit. Focus rglementation:
On vous connat pour vos propos assez virulents en-
Ltat et le numrique: vers la CNIL. Quel est selon vous lattitude adopter
sur la protection des donnes personnelles, la ques-
Prsident du CNN, Digital Champion auprs de la
tion du cloud souverain, lharmonisation europenne?
Je ne peux ici que
Commission Europenne... Que pensez-vous du
rle de ltat dans la construction dun cosystme Comment contrer les drives, rassurer les utilisa-
du numrique? Open data, financement, ducation, teurs, et dfendre la place de la France et de lEu-
recommander que
avantages fiscaux, incubateurs, projets publics : rope sur le plan international?
dans quelle mesure doit sengager ltat? lon cesse dtre en
Tout cela est si rupturiste quil me faudrait un
Le rle de ltat est assez particulier, car il livre que je suis en train dcrire pour permanence dans le
doit avoir une pratique la fois trs librale, dcrire convenablement ce quil faut faire. Je
pro-entrepreneur en favorisant la prise de ne peux ici que recommander que lon cesse principe de prcaution.
21
PASHU DEWAILLY ment mis disposition, partageant la connais-
sance dorganismes tels Google, LinkedIn, EMC
CHRISTENSEN ou luniversit de Stanford.

En 2 annes, on peut dj mesurer les retours


et voir quelques beaux projets merger. Pashu
MARKETING AND insiste sur le fait que The Hive est l pour per-
PARTNERSHIP MANAGER mettre aux startups de se concentrer sur les-
CHEZ THE HIVE, PALO ALTO sentiel: des bureaux sont mis disposition, des
quipes sont prsentes en continu, linfrastruc-
(Interview) ture est fournie et les financements permettent
davancer rapidement. Une startup ne demeure
gnralement pas plus dun an dans le stu-
Pashu a un parcours atypique. Aprs un mas- dio. Rien dtonnant alors ce que de petites
ter en conomie du dveloppement suivi ppites en soient dj sorties, limage de
Dauphine, elle part en stage lambassade de DeepForestMedia ou E8 Security.
France en quateur. Elle revient en France pour
effectuer quelques missions en conseil, avant Deep Forest Media fournit un systme intgr
de prendre en charge la communication dAide pour les annonceurs mobiles pour optimiser la
Mdicale en Indonsie. Elle intgre Orange valeur de leurs dpenses de publicit sur mo-
San Francisco alors que le sujet du Big Data bile. E8 Security dtecte les attaques avances
commence merger. Pashu construit alors et les activits dinitis malveillants qui ont
son intrt pour la thmatique et dcouvre contourn les mesures prventives de scurit
ltendue des domaines dapplication du Big dentreprise. Sa mission est daider les entre-
Data, allant de la finance la mdecine, ser- prises se dfendre contre la croissance conti-
vant le commerce et lindustrie, sans mme ou- nue et la sophistication des cybercriminels. La
blier le dveloppement durable. Comme elle le technologie de pointe de E8 Security analyse
dit, cest l quelle a pris conscience que dans automatiquement les comportements des dif-
lconomie, dans nos vies quotidiennes, grce frents acteurs de lentreprise et peut identifier
aux objets connects: le Big Data va tout les activits suspectes sans ncessit de rgles
chambouler! ou de signatures.
Si The Hive a pour mission premire de lancer
Cest donc tout naturellement quelle accepte des startups innovantes, ce nest pas sa seule
de rejoindre, en Octobre 2012, alors quil vient activit. Lappui et le rseau ncessaire son
dtre fond, lincubateur The Hive. Travailler activit exigent du studio un tissu relationnel
dans une structure qui se focalise sur la cra- tendu. Pashu est donc responsable depuis d-
tion de startups dans le domaine du Big Data a cembre 2012 de The Hive Think-Tank. Cest
tout de suite attir Pashu. Autre avantage no- un peu mon bb explique-t-elle affectueu-
table, elle prcise quelle a la chance de tra- sement. On comprend vite pourquoi: le think-
vailler avec des gens brillants, qui ont aid tank vise runir raison dune fois par se-
construire linfrastructure chez Yahoo no- maine la sphre data de la rgion, autour de
tamment et qui reconnaissent les tendances thmatiques pointues et avec des speakers de
de demain. haute renomme. Avec plus de 5 000 membres
En effet, The Hive, bas Palo Alto, le cur aujourdhui, 200 participants chaque di-
nvralgique de lcosystme numrique, a t The Hive est l pour tion et des financements des plus grandes
fond par T.M Ravi et Sumant Mandal, deux entreprises telles IBM ou Microsoft, The Hive
icnes de la Silicon Valley. permettre aux startups Think-Tank est une structure part entire.
Privacy, environnement, volutions technolo-
Avec une quipe denviron 10 personnes, The
Hive, que Pashu dfinit comme un studio, fi- de se concentrer giques: Pashu sattache assurer une varit
des thmatiques abordes. Les confrences
nance, incube et lance des data-driven startups et networking du think-tank sont devenus des
qui proposent des applications B to B. Les sec- sur lessentiel. rendez-vous incontournables dans la rgion.
teurs concerns sont principalement le marke- Cest aussi l que le studio puise ses axes de
ting, la scurit et la sant. La philosophie de dveloppement, affine son apprhension des
The Hive: le low volume, high touch. Cest- opportunits et besoins du march et tend son
-dire que lincubateur investit dans 5 10 star- rseau. Connatre les attentes du secteur pour
tups par an, tries sur le volet, et slectionnes tit entre $1,5 million $3 millions dans cha-
cune des startups, avec une quipe (CTO, Data mieux savoir quels projets soutenir est essen-
au seed-stage de leur dveloppement, la tiel pour The Hive. Cest dans cette expertise
naissance de lide. la diffrence des inves- scientist, Architect, Marketer) qui travaille quo-
tidiennement avec les startups. Lobjectif est que le studio puise sa valeur.
tisseurs (capital risqueurs) ou des incubateurs
traditionnels, The Hive est un studio qui inves- donc daccompagner de A Z des projets aux-
quels lincubateur croit, du concept au produit Pour Pashu, The Hive est comme une pe-
final. Au-del de linvestissement financier, tite famille, accueillante, pleine de vie et bien
lappui humain est au cur du fonctionnement ancre dans la ville de Palo Alto. Installe
de The Hive. voir lorganigramme de The Hive, Oakland, quelle dcrit comme le nouveau San
on comprend que le studio doit souvent tre en Francisco, plus accessible et offrant davantage
effervescence, avec cette quipe de rocks- dopportunits, Pashu a la tte pleine de pro-
tars! comme le dit Pashu. jets et denvies.

En quelques annes, lincubateur connat dj


un succs certain, qui la pouss se dvelop-
per au-del de ses frontires, en Inde dans un
premiers temps le bureau de Bangalore a
t inaugur il y a quelques mois.
Comment fonctionne la structure? Les inves-
tisseurs sont varis: entreprises prives, indi-
viduels ou institutionnels ont apport 8 millions
de dollars la cration. Aujourdhui, The Hive
bnficie dune enveloppe de plus de 30 mil-
lions. Des conseillers extrieurs sont gale-
22
lavenir, de stocker des volumes de donnes
encore plus importants quaujourdhui et ce
nest pas anodin car ces donnes sont pr-
cieuses. Les secteurs qui russissent sont ceux
qui utilisent les donnes de la manire la plus
intelligente et ce principe semble aujourdhui
sappliquer tous les secteurs dactivit.
Au cours de la dernire dcennie a merg un
nouveau type de logiciels, en Open Source, ce
qui a fait de Linux le systme dexploitation le
plus rpandu dans le monde. Il ne fait pas de
doute que lOpen Source devient la norme et
que les dveloppements majeurs sont appels
utiliser ce type de plate-forme.

On remarque dailleurs que sur les trois prin-


cipales socits qui distribuent Hadoop au-
jourdhui, que sont Cloudera, Hortonworks
et MapR, deux sont 100% open source
[N.D.L.R.].
Doug explique comment il sest modestement
lanc, il y a quelques annes, dans le projet
Hadoop, en utilisant cinq machines simulta-
nment, puis des mthodes de rpartition. Les
promoteurs du projet ne savaient pas comment
changer dchelle pour faire fonctionner des
milliers dordinateurs en mme temps. Yahoo,
intress par le projet, y a investi de faon im-
portante. La jeune entreprise a alors pu conti-

DOUG CUTTING nuer damliorer loutil en changeant dchelle.


Hadoop permet ainsi de stocker et traiter des
volumes considrables de donnes rservs
jusqualors aux traitements en batch. Le
CO-FONDATEUR DHADOOP module PIG, qui est un langage de flux de don-
(Portrait) nes, a aussi t ajout la plateforme afin de
faciliter lutilisation du programme et la dfini-
tion de spcifications pour des sries de don-
nes.
Hadoop a finalement t adopt par un grand
nombre doprateurs qui en ont fait la plate-
Doug Cutting. Un grand nom dans la sphre du web, alors en pleine expansion et faire face forme de rfrence en matire de Big Data.
Big Data. Incontournable mme. Un homme limmensit des informations disponibles sur la Cette volution ne parat pas devoir connatre
qui inspire respect et admiration pour avoir t toile. Doug Cutting prend alors la tte du projet de limite et rien ne semble sopposer la
lun des fondateurs de la fabuleuse pope du qui se nommera par la suite Hadoop. Toujours poursuite de cette logique de partage. Mme
Big Data. dans la dynamique open-source et open-inno- les transactions sont dsormais possibles sur
vation qui est depuis perptue dans la Silicon Hadoop. Ce conglomrat de projets quest de-
Un homme simple pourtant. Incroyablement ac- Valley, Yahoo lgue Hadoop la fondation venu Hadoop a fait de celui-ci un hub de don-
cessible, Doug aime se fondre dans lefferves- Apache en 2006. Les meilleurs ingnieurs de nes dentreprise (Enterprise Data Hub) per-
cence de la communaut Big Data. Passionn Google, Yahoo et des autres gants du centre mettant toutes ces donnes dtre traites en
toujours, il sintresse, observe et coute. Sans nvralgique de linnovation numrique mon- un seul lieu, avec lensemble des applications
aucune prtention, il explique volontiers com- diale se retrouvent rgulirement pour faire souhaites. Nous ne sommes encore quaux
ment il sest retrouv lorigine dHadoop. avancer ces projets colossaux, conscients de prmices de ladoption du Big Data par lindus-
Diplm de luniversit de Stanford, Doug d- la porte de leurs travaux de recherche. Cest trie et il ne fait pas de doute que chacun voudra
bute sa carrire dans quelques prestigieuses peut-tre aussi de l que vient cette certaine copier les gagnants.
entreprises, telles Excite, Apple ou Xerox. Il humilit de Doug. Il semble convaincu quun
travaille ensuite sur les projets Lucene, Avro ou projet dune telle ampleur, porteur de tant din-
Nutch, en open source. Cest aussi cette p- novation, est le fruit dheureuses collabora-
riode que Google gagne sa place de leader dans tions, et rarement dun seul homme. En 2009,
les moteurs de recherche. Il est beaucoup plus Doug rejoint la socit Cloudera, o il tra-
pertinent et rapide que tous ses concurrents. Il vaille toujours actuellement en tant que Chief
utilise une technologie que personne dautre ne Software Architect. Lanne suivante, Doug est
connat. La communaut scientifique et toute nomm la tte de la fondation Apache.
la Silicon Valley sont intrigues par la recette Emblmatique du Big Data aujourdhui, ll-
du succs du gant internet. En 2003, Google phant dHadoop est lui aussi issu de limagina-
publie un premier papier o est expliqu le tion de Doug, qui adapta le jouet prfr de son
fonctionnement du Google File System. Doug fils pour en faire le logo de la technologie qui
et ses collgues, dont Michael Cafarella, d- rvolutionnera la donne.
couvrent les premires bribes de la recette de
Google et prennent la mesure de la rvolution Lors du dernier congrs Big Data Paris, Doug
qui sannonce. Un an plus tard, MapReduce, qui nous fit lhonneur de venir exposer ses der- Les secteurs qui
se cache derrire le fonctionnement du moteur nires rflexions sur lavenir de la donne. Sil
de recherche, est enfin rvl au grand public. admet que nul ne peut prdire le futur, Doug
Doug comprend alors quil se trouve face la Cutting constate nanmoins que le rapproche- russissent sont ceux qui
technologie qui lui permettra dlever Lucene ment de faits conduit souvent dassez bonnes
au stade suprieur. Le puissant algorithme d- anticipations. Un premier fait indiscutable r- utilisent les donnes de la
velopp pour MapReduce permet de traiter des side dans laugmentation constante des perfor-
volumes consquemment plus importants de mances de la technologie, dont le cot dcrot manire la plus intelligente.
donnes, les analysant en parallle de faon de faon tout aussi rgulire, conformment
simple et rapide. Lucene peut passer lchelle la loi de Moore. Nous serons en mesure,
23
Techno

24
Techno
HADOOP blient larticle MapReduce: Simplified Data
Processing on Large Clusters.
ENFIN UNE SOLUTION En bref, ils expliquent concrtement comment
DENTREPRISE? cet algorithme distribu utilise des serveurs
x86 standard en cluster pour parallliser des
PAR JOS DIZ traitements dans le but danalyser en un temps
record un trs grand volume de donnes de tout
type. luvre chez un moteur de recherche
dj plus que prometteur lpoque. Bien en-
Par Big Data en entend tendu, MapReduce repose sur le systme de
lapplication de traitements gestion de fichiers en clusters GFS (Google File
System).
analytiques de grands vo- cette poque, Doug Cutting (ex-employ
du moteur de recherche Excite, dApple et de
lumes de donnes, Doug Cutting, pre dHadoop (Source_Cloudera)
Xerox Park) mne le projet dindexation Apache
Lucene (bibliothque open source Java pour in-
structures ou non. Depuis dexer et rechercher du texte), et son utilisation
longtemps, des technologies HADOOP 1 dans son moteur de recherche Nutch. Il voit
dans cet article la possibilit de rsoudre les
de streaming analysent en LA NOUVELLE STAR problmes de masses de donnes de Nutch.
temps rel des informations DE LANALYTIQUE EST NE Jusquen 2006, il intgre MapReduce et un sys-
tme de fichier distribu DFS son moteur. Il
entre alors chez Yahoo et cre un framework
sur des bus de donnes. Depuis quatre cinq ans, le framework open
source Hadoop est devenu synonyme de Big regroupant MapReduce et DFS quil baptise
Ces solutions souvent Data. Mme si au dpart, il neffectuait que des du nom que son fils donne son lphant en
traitements par lots (en batch) et donc en diffr. peluche jaune: Hadoop. Le logo sera cr par
onreuses (reposant sur des Les raisons de ce succs? Premire raison: la un ami graphiste. En juin 2009, Yahoo rend le
possibilit dutiliser moindre cot des algo- code source dHadoop public via un projet de la
environnements critiques) rithmes open source conus pour fonctionner fondation Apache.
analysent par exemple en sur des serveurs x86 standard, et capables de Au-del de MapReduce et HDFS (Hadoop dis-
rpondre trs rapidement des questions en tributed file system), de nombreux modules
continu des flux financiers analysant jusqu plusieurs ptaoctets din- viendront complter Hadoop, dont les princi-
formations. Et surtout une simplicit (relative) paux sont devenus des projets Apache part
pour dtecter des fraudes dutilisation et de dploiement indite. entire (top-level), parmi lesquels: HBase (mai
Enfin, Hadoop combine lutilisation de techno- 2010), Hive et Pig (septembre 2010), ou encore
comme du blanchiment logies de pointe trs apprcies ou trs inno- Zookeeper.
dargent. vantes: paralllisation des traitements, cluste- La version 1.0.0 du framework est disponible
ring, traitement et donnes sur un mme nud fin dcembre 2011.
dans une infrastructure distribue, fiabilit par En octobre 2013, Hadoop connat une volution
rplication des informations, etc. Et avec la ver- majeure de son infrastructure avec la version
Les systmes de gestion de sion 2: In-Memory, temps rel, haute disponi- 2.2.0 qui ouvre ce framework les portes du
bilit amliore Des technologies enfin por- temps rel, de lextensibilit fonctionnelle, du
donnes traditionnels peinent te budgtaire des PME. In-Memory, de lenvironnement Windows, etc.
ou se montrent inefficaces Enfin, outre les problmes de volumes difficiles
analyser avec les technologies classiques,
pour traiter les normes Hadoop permet denvisager la collecte et le Le centre nvralgique HDFS et MapReduce
traitement de donnes en volume comme lIn-
volumes dinformation ternet des objets et les multiples capteurs et Le cur dHadoop 1 est compos de deux mo-
senseurs, le RFID, les tweets, etc.
provenant du web (plus de 2 dules majeurs.
Inspir de Google File System et dvelopp en
milliards dinternautes), des Java, HDFS (Hadoop Distributed File System)
10 ans: des origines de MapReduce Hadoop 2.x sexcute au-dessus du systme de gestion de fi-
smartphones (7,3 milliards chiers de chaque nud dun cluster. Un nud o
en 2014), des tiquettes RFID, Pour apprhender ces technologies, un petit
historique simpose. Fin 2004, Jeffrey Dean et
sont stockes les donnes (et excuts les traite-
ments qui les concernent) sappelle un datanode.
tweets (7 To par jour), de Sanjay Ghemawat employs chez Google pu- HDFS stocke linformation sous forme de blocs
Facebook (500 To par jour),
des camras, des capteurs et
autres senseurs. Et plus de
75% de ces informations ne
sont pas structures ou
seulement semi-structures.

Le Namenode: mmoire et cerveau ordonnateur dHDFS


25
Hadoop (64 Mo par dfaut, 128 recommands). rduit en effectuant une opration sur les le tout dans Hadoop la manire dune base
En tant que fichier du serveur, un bloc Hadoop valeurs associes chaque cl (montant total, de donnes classique, permettant slections,
occupe physiquement plusieurs blocs. Si un nombre doccurrences, etc.). jointures, agrgats Hive compile les requtes
fichier ou une partie de fichier est plus petit en jobs MapReduce qui les excute sur Hadoop.
quun bloc Hadoop, sa taille sajuste.
Chaque fichier est dcoup en blocs Hadoop Quelques briques de ldifice Hadoop Zookeeper a t conu sur la base du logiciel
rpartis sur des datanodes diffrents, et une ou Chubby de Google. Il propose une gestion cen-
plusieurs copies de chaque bloc sont enregis- HBase est un systme distribu de gestion tralise de configurations pour grands sys-
tres sur des Datanodes diffrents. Une capa- de bases de donnes NoSQL en colonnes. tmes distribus aussi bien des machines phy-
cit qui assure une tolrance aux pannes ap- Projet Apache, il est n suite aux publications siques que des services applicatifs Hadoop. Il
prciable. Un serveur appel Namenode gre de Google sur Big Table en 2006. Install sur permet de suivre et de maintenir ltat des ser-
toutes les mtadonnes des blocs Hadoop et HDFS. Il fonctionne en mode cluster, est hori- vices distribus (comme MapReduce ou Hbase)
sait donc les retrouver. zontalement volutif et tolrant aux pannes. Le pour les rendre consistants.
Certains diteurs traditionnels ou pionniers Big mode colonne rduit les accs des index et le
Data remplacent HDFS par leur propre systme nombre daccs disque. Donc performant pour
de gestion de fichiers distribu. lanalytique. Des manques importants fragilisant Hadoop 1

MapReduce 1 assume plusieurs rles. Il gre et Pig a t conu pour simplifier lutilisation des Malgr lemballement gnral, Hadoop 1 souf-
alloue aux applications les ressources du clus- API MapReduce exigeant de bonnes connais- frait de multiples carences, qui ont fait hsiter
ter, et excute les traitements appliqus aux sances Java. Yahoo a cr la plateforme de trai- grand nombre dentreprises. Parmi lesquelles:
donnes. tement de donnes Pig et son langage Pig Latin le serveur Namenode ntait pas prvu pour
Lorsquune requte est adresse Hadoop, (projet Apache). Efficace et simple, le langage tre rpliqu, le transformant en talon
elle est prise en main par un JobTracker qui Pg Latin (proche du scripting) permet dcrire dAchille de la plateforme;
coordonne les traitements entre Map et Reduce des applications excutes sur Hadoop (run- pas de partage entre les jobs (MapReduce
et assure le suivi des tches. Il distribue les time Pig) sans passer par MapReduce. Le d- et autres);
processus parallliss aux Task Trackers sur veloppeur charge les donnes, y compris dune volutivit limite: un seul JobTracker par
les nuds du cluster Hadoop en optimisant les source externe vers le cluster Hadoop, et les nud et un maximum de 4000 nuds par cluster;
changes. manipule. en cas de panne, toutes les tches taient
La fonction Map divise la demande initiale en supprimes (en cours ou en attente);
squences (cl, valeur) auxquelles vont tre Hive - Conu chez Facebook, ce projet Apache le temps rel et le streaming ntaient pas
appliqus le ou les traitements en parallle ouvre Hadoop au SQL afin de simplifier la ma- possibles;
(vitesse optimale). Chaque tche Map renvoie nipulation des donnes avec une syntaxe trs les mises jour dinformations savraient
un rsultat (cl-valeur). Puis un traitement proche du SQL (HiveQL). Hive offre des outils complexes, risques, voire impossibles;
(Shuffle & sort) remanie les rsultats pour re- dentrept de donnes (datwarehouse): extrac- la supervision tait encore primaire, et la
grouper ceux qui ont la mme cl. tion, transformation et chargement dinforma- gouvernance quasi inexistante.
La fonction Reduce prend ces rsultats et les tions provenant de diverses sources. Il stocke
Toutefois, les diverses communauts mobili-
ses sur et autour dHadoop se montrent trs
actives et linnovation sacclre. Comme le
prouve la version de rfrence Hadoop 2.2.0 pu-
blie en octobre 2013 par la fondation Apache.

MapReduce, JobTracker et HDFS dans le bateau Haddop 26 Comment Map et Reduce collaborent
LA REVOLUTION HADOOP 2
Plus quune autre version corrigeant des
manques, Hadoop 2 modifie son architecture
pour plus de scurit et douverture: haute dis-
ponibilit, temps rel, streaming ou encore au
In-Memory.

Naissance de Yarn et rduction de MapReduce

volution majeure: les deux fonctions de


MapReduce sont dcouples. Dsormais, la
gestion des ressources du cluster est assu-
re par la nouvelle couche Yarn ((Yet Another
Resource Negotiator). MapReduce se contente
de grer les travaux de types batch. Une
amlioration qui noblige plus passer par
MapReduce pour accs aux donnes en mode
parallle.
Yarn propose une nouvelle architecture. Depuis
un nud matre, le Resource Manager (RM) or-
chestre lensemble des ressources du cluster
et arbitre entre les applications ncessitant des
ressources. Sur chaque nud esclave, un Node
Manager communique avec le RM.
chaque demande, Yarn gnre un container
(mmoire+CPU) sur un nud esclave, gr
par un Application Master. En cas de besoin,
dautres containers peuvent tre crs pour
cette application, mais lApplication Master Une gestion des fichiers amplement amliore une dimension interactive.
gre seul tous les containers de lapplication. Storm est un systme informatique temps
Et le Resource Manager supporte Kerberos. HDFS 2 bnficie aussi damliorations, rel distribu, rsolvant en grande partie les
Avec Yarn, il devient possible dajouter des mo- mme si certaines existaient dj dans des problmes de latence sur Hadoop. Avec tout
dules applicatifs autres que MapReduce pour distributions Hadoop: langage, le dveloppeur utilise ce framework
accder aux donnes. La plateforme devient - possibilit de plusieurs Namenodes (donc rapide, volutif, tolrant aux pannes (Storm re-
donc extensible. namespaces) non lis sur le stockage, avec lance les tches arrtes), simple utiliser et
Et surtout, plusieurs moteurs applicatifs de journalisation globale partage pour de la dployable en moins dun jour. Il sinstalle sur
diffrente nature (batch, interactif, temps rel, haute disponibilit, Yarn, temps rel oblige!
streaming) peuvent sexcuter simultan- - cration de snapshots en lecture seule ou
ment sur un mme jeu de donnes. en lecture/criture, Avec Apache Spark, Hadoop peut bnficier
- HDFS peut devenir un disque partag ba- du In-Memory. Directement pos sur Yarn, ce
nalis sur le rseau via NFS v4, service de type MapReduce acclrerait jusqu
- compatibilit HDFS 1, 100 fois les traitements. Ses fonctions per-
- fichiers de steaming gr par HDFS, mettent de charger de jeux de donnes en m-
etc. Enfin, Hadoop2 supporte dsormais moire dans le cluster et dy effectuer des traite-
Windows Server et Windows Azure, donc ments rptitifs, par exemple. Il est galement
ouverture plus de comptences. compatible avec lAPI de stockage dHadoop.
Hadoop 2 modifie
Solr amne la fonction de recherche plain-text
son architecture pour Petit panorama de quelques modules Hadoop 2
et plus volue aux donnes Hadoop. Cette
plateforme repose sur le moteur Lucene (avec
lequel elle a fusionn en 2011). CNet Networks
plus de scurit et Le projet Apache Tez offre un framework la offerte la fondation Apache.
pour concevoir sous Yarn des applications Fiable, tolrante aux pannes et volutive, Solr
douverture: haute batch ou interactives. propose de nombreuses innovations: indexa-
Pig conserve sa fonction de scripting de tion quasi-temps rel, API ouvertes XML, JSon
disponibilit, temps rel, flux de donnes, mais na plus besoin de et HTTP, statistiques serveur (avec exposition
MapReduce (en passant par Tez). De mme JMX), index autorpliqu, reprise sur incident
streaming ou encore Hive -via Tez- reste la rfrence pour le SQL Directement interfac avec Yarn.
sous Hadoop. Tez apporte ventuellement
au In-Memory.

Configuration rpandue dHadoop 1 27 Une architecture plus flexible et optimise


Apache Giraph est un projet pour raliser des porte entre autres MapReduce, Pig ou encore
oprations sur les graphes (sommets et liens), Sqoop, mais aussi des applications Java ou des
comme sur les rseaux sociaux (contacts, ni- scripts shell.

Projets
veaux de proximit, etc.) de type Facebook,
Twitter, LinkedIn ou Viadeo. Giraph est parti Falcon (incubation Apache) vise simplifier la
dun article publi par Google sur son systme gestion des donnes et de leur cycle de vie,
de Graphes appel Pregel. dcouvrir les schmas de donnes et les trai-
tements associs, offrir la rutilisation de ces
rgles ralises sans codage Bref, une gou-
Sans oublier: scurit, administration et vernance des donnes sur cluster Hadoop.
gouvernance
Projet Apache initi par Cloudera, Flume col-
Slection de quelques modules apportant ces lecte, agrge et transfre sr Hadoop de gros
indispensables dimensions pour une solution volumes de donnes (logs, vnements, etc.).
dentreprise. Lcriture de ces informations sur HDFS est r-
alise au fil de leau.
La passerelle de scurit Apache Knox (API
Rest) fournit un point daccs unique pour Apache Sqoop permet de rcuprer des don-
toutes interactions Rest/Hadoop. Il propose nes structures dans des bases de donnes
la gestion sur toute la plateforme Hadoop de ou des datawarehouses pour les dplacer sur
lauthentification (LDAP et AD), de la fdration un cluster Hadoop. Ensuite, il peut effectuer
SSO, des autorisations aux services, de lau- des oprations en les corrlant avec des infor-
dit, etc. Il gre les autorisations en workflow mations semi ou non structures sur Hadoop.
et vrifie les jetons dauthentification (rgles). Enfin, il renvoie un rsultat structur au format
Complte les mesures de scurit existantes des SGBD source.
dans Hive, HDFS, etc.
Ce panorama de quelques outils illustre les
Ambari joue un rle majeur dans lexploitation
grands progrs raliss par Hadoop en trois
et la supervision Hadoop. Une palette dj im-
ou quatre ans pour transformer cette plate-
pressionnante: gestion de la configuration fine
des services (et dploiement en cluster), su- forme en relle solution dentreprise: robus-
pervision des machines du cluster (possibilit tesse, volutivit, administration, scurit, gou-
de dcommissionnement, etc.), tableau de bord vernance, disponibilit, stockage De plus en
global (tat de services et excutions), ges- plus dexperts parlent (plus ou moins ouverte-
tion des habilitations (compatible LDAP), ges- ment) dHadoop comme stockage de rfrence
tions des jobs avec vues agrges et timelines des donnes, y compris pour les traitements
(+tracking utilisateur), audit, etc. transactionnels. Et la notion de Data Lake re-
prise par nombre de spcialistes semble bien
Apache Oozie est un outil de workflow pour aller dans ce sens.
planifier et coordonner les jobs sous Hadoop. Dailleurs, le ralliement de nombreux projets
Cette application Web Java peut combiner s- Hadoop de tous les gants de linformatique
quentiellement plusieurs jobs sur une seule (voire leur financement des pionniers Hadoop
unit logique. Intgr la stack Hadoop, il sup- en dizaines de millions de dollars) nest-il pas
rvlateur ?

Hadoop 2 souvre tous azimuts 28


29
Projets
UN PROJET HUMANITAIRE: LE DVELOPPEMENT nos systmes dinformation. Paradoxalement,
la majorit des tudes statistiques de lpoque
CONOMIQUE ET LE BIG DATA utilisaient des chiffres datant de deux ou trois
annes. Mme le secteur priv, alors quil est
UNITED NATIONS Global Pulse le principal gestionnaire de ces donnes, est
encore difficilement capable de les traiter en
temps rel. Global Pulse a donc voulu rpondre
Nous parlions au dbut de ce guide des nombreux projets mens par cette ralit du Big Data et encourager le sec-
teur humanitaire semparer de cet outil extr-
le gouvernement amricain et de leur ampleur. mement puissant.
On voquait aussi les ambitions de ladministration franaise.
De nombreux projets, partenariats et analyses
Voici ici la preuve quune instance, quelles que soit sa taille et sa diverses sont alors ns de Global Pulse. Par
complexit, peut initier des projets Big Data puissants et efficaces. exemple, les quipes se sont rcemment de-
mand si Twitter pouvait tre un bon indicateur
Au sein des Nations Unies est n il y a quelques annes un beau de lvolution du prix de biens de consomma-
projet qui sappuie entirement sur des technologies Big Data. tion. Ayant choisi de se concentrer sur lIndo-
nsie, un pays qui se classe parmi les cinq pre-
miers foyers dutilisateurs Twitter au monde,
Global Pulse a test cette thorie.
Global Pulse, initi en 2009, vise promouvoir Lide part dun constat assez simple: lvolu- Avec laide du World Food Program et de
ladoption du Big Data des fins daide au dve- tion du niveau de pauvret, les conditions de Bappenas (Ministry of National Development
loppement et de projets humanitaires. Le projet vie et les crises conomiques sont analyses Planning, Republic of Indonesia), Global Pulse a
permet notamment de fournir une analyse en gnralement a posteriori. Avec un certain ainsi initi le projet Pulse Lab Jakarta. Trois pro-
temps rel de lavancement des programmes nombre dindicateurs, on dclare par exemple duits de consommation parmi les plus populaires
daide au dveloppement dans le monde, de leur que le niveau de pauvret sest aggrav dans ont t slectionns: loignon, le buf et le pou-
efficacit et de leurs retombes. Il est n de la vo- une rgion donne. Or de nos jours, et ce mme let. Les quipes ont alors recherch sur Twitter
lont du secrtariat gnral des nations unies de dans les zones les moins dveloppes, les nou- les allusions au prix de ces trois aliments, obser-
faire connatre lanalyse des donnes massives velles technologies ont envahi le quotidien, vant leur volution et vrifiant lhypothse dune
comme un outil puissant pour le dveloppement lconomie et les administrations. Chaque jour, influence et corrlation entre le prix de ces pro-
conomique. Cest aussi une nouvelle approche en continu, les individus et institutions pro- duits dans le temps. Le prix du poulet au jour J
pour le secteur humanitaire, peu habitu des duisent des signaux digitaux sur les mo- influerait donc son prix au jour J+1.
moyens supposs onreux et rarement associ des de vie. Les rseaux sociaux par exemple, Pour chacun de ces produits, Pulse Lab Jakarta
aux nouvelles technologies. Sengager dans des peuvent reflter les tats desprits dun pays ou construit un modle et fournit un graphique su-
programmes humanitaires, viser amliorer le dune communaut. Le niveau dpargne et son perposant: le prix tel que le modle le dtermine
niveau de vie de populations en situation de crise volution traduisent la sant conomique des (avec laide du prix relat sur Twitter), le prix tel
ou appuyer le dveloppement dun pays en retard mnages mais aussi leur confiance en lave- que ltat dclare quil est, et le nombre de Tweets.
est une lourde tche qui gagnerait normment nir. Les mots-clefs entrs sur les moteurs de La conclusion? On peut, priori, prvoir le prix
connatre ses points dchec et de russite. Si on recherche peuvent rvler des tendances, des dun bien de consommation grce Twitter.
peut mesurer, monitorer en temps rel et mme mouvements sociaux voire mme des pid- Les exemples du buf et du poulet ont surtout
prdire le chiffre daffaires dune socit, on doit mies. On se rappelle de lexemple en France de prouv quun pic dactivit sur Twitter corres-
tout aussi bien pouvoir valuer le degr de rus- lpidmie de grippe dbut 2014, prdite par le pondait une hausse de prix.
site dune action humanitaire. Non pas des fins gouvernement mais contredite par la socit
conomiques. Cest lefficacit qui est vise. Un Celtipharm.
mme budget idalement rparti apportera un Grce au Big Data, Global Pulse encourage
meilleur appui au projet men. Les Nations Unies lanalyse de ces signaux, qui, observs en
se positionnent l en plateforme dinnovation temps rel, fournissent un rel baromtre du
en quelque sorte. Lobjectif est de permettre le dveloppement au niveau mondial. Chaque ac-
partage dinformation et dacclrer lutilisation tion humanitaire ou daide au dveloppement
du Big Data dans les programmes quils sou- peut bnficier dun feedback immdiat. Les
tiennent. projets peuvent alors tre adapts, amliors,
Concrtement, Global Pulse fonctionne comme recadrs.
un rseau, o est conue et coordonne lin-
novation. Diverses entits des Nations Unies Robert Kirkpatrick, le directeur de Global
sont sollicites pour y participer, ainsi que les Pulse, explique que linitiative est ne suite
gouvernements, universits et les entreprises aux dbuts de la crise financire mondiale. La
prives souhaitant apporter leur expertise en propagation grande vitesse des effets de la
recherche et dveloppement. Le concept sap- crise a alors prouv au monde entier limpor-
pelle BD4D, Big Data for Development. tante interconnexion de nos conomies et de

Le projet est n de la Onion


volont du secrtariat
gnral des nations
unies de faire connatre
lanalyse des donnes
massives comme un
outil puissant pour le
dveloppement .
30
UN PROJET CULTUREL: LE DATA JOURNALISME POUR LES
FLUX MIGRATOIRES EN EUROPE
THE MIGRANT FILES - Entretien avec Nicolas KAYSER-BRIL, CEO and Founder, Journalism++

Aprs avoir dirig le data journalisme chez OWNI, Nicolas


KAYSER-BRIL a cofond Journalism++, avec comme optique de faire
parler les donnes des fins journalistiques.
Le projet The Migrant Files, publi le 31 Mars dernier, montre la
ralit des accidents, dcs et disparitions survenues loccasion
de migrations aux frontires de lEurope.

Retrouvez la Les donnes utilises proviennent de sources Files considre les vnements survenus
vido anime de diverses, issues pour les deux tiers dONG, aux frontires, chaque vnement reprsentant
darticles de presse rcuprs via United ou une disparition ou un mort. Un unique vne-
Global Pulse Fortress et de plus de 15 journalistes relais. ment est caractris par plus de 20 points de
Le tiers manquant provient de sources ajou- donnes, toutes issues des sources prcdem-
tes par les quipes de Journalism++. Ces don- ment numres.
nes, non structures pour la grande majorit, Daprs les premires conclusions de ltude,
sont agrges, classes puis traites par un on peut estimer le nombre de migrants dc-
Voir lintgralit programme dextraction spcifique. Alors que ds aux frontires europennes entre 30 000
de linterview de jusqu prsent de nombreuses donnes res- et 50 000 depuis lan 2 000.
taient inutilises de par leur diversit, com- Le chiffre est impressionnant et rvlateur de
Robert Kirkpatrick plexit et multiplicit, The Migrant Files permet nombreux dysfonctionnements et contradictions
de les runir et den tirer des conclusions les des Etats-Membres de lUnion Europenne. Si
plus exhaustives possibles. The Migrant Files a t relay dans la plupart
Frontex, lorganisme europen issu du trait des pays de lUE, via des mdias tels Le Monde
Dcouvrez en dAmsterdam de 1997, est charg de mutuali- Diplomatique, LEspresso, El Confidencial, et
visualisation ser les informations et damliorer les proc- plus de 50 articles, les conclusions en sont
interactive les dures de gestion des frontires, flux de biens, ce jour relativement peu utilises dans le cadre
rsultats du projet personnes, services et capitaux. Il agrge entre gopolitique ou juridique.
autres la dtection des tentatives dimmigra- Certains politiciens sy sont intress, autant
Pulse Lab Jakarta tion, les dcs, checs, reconduites la fron- au niveau national qu lchelle de lUnion,
tire, demandes de droits dasile Le Frontex mais aucun na lobligation de mesurer ou
a ainsi dfini 8 zones gographiques autour prendre en compte ces chiffres.
de lEurope, aux caractristiques semblables. Ce que rvle galement The Migrant Files,
The Migrant Files sest appuy sur ces donnes cest la dangerosit de certaines zones par
et a observ en dtail lactivit de ces 8 zones rapport dautres. La zone de Lampedusa par
frontalires. La qualit des donnes subit une exemple, est tristement clbre pour la mor-
marge derreur de 10% environ. The Migrant talit des migrants qui tentent dy passer. Le

Carte ralise par Sydsvenskan, un quotidien de Malm, traduite par El Confidencial 31


CLANDESTINS, LES MIGRANTS?
Remarquons qu aucun moment
The Migrant Files ne parle dimmi-
gration clandestine.
Nicolas Kayser-Bril nous explique
pourquoi : les migrations ne sont
pas clandestines. On devient migrant
en situation irrgulire uniquement
lorsque la demande dasile a t
rejete. Aucun migrant qui traverse
programme Mare Nostrum initi la suite de politiques migratoires au cours des annes.
plusieurs naufrages meurtriers survenus en Lexemple de la frontire turco-grecque est si- par voie de terre ou voie de mer
Octobre 2013 est lune des plus grandes ac- gnificatif: alors que les politiques nationales
tions humanitaire et militaire sur le sujet et avaient, il y a quelques annes, eu pour objectif nest clandestin, ils sont tous dans
est mise en place par lItalie. Les donnes de rduire les flux par le Bosphore, The Migrant
Files rvle que les migrants ont ouvert une
le cadre du droit international fix
analyses par The Migrant Files confirment la
dangerosit de cette zone, mais ce qui donne nouvelle route dans les annes qui ont suivi, par la convention de Genve de
un nouveau visage limmigration en Europe, privilgiant les les de la mer ge. Ce trajet
cest la possibilit de pouvoir comparer tous de substitution est en ralit plus meurtrier 1951, ratifie par tous les tats
les points dentre, sur la base de donnes si- que le prcdent. Les dcisions de politiques
de gestion des frontires pourraient donc tre membres de lUnion.
milaires. La carte montre ainsi que Gibraltar et
les les Canaries par exemple sont elles aussi analyses par le biais de la donne, ouverte,
des zones fort risque. disponible pour tous et entrant en compte dans
lquilibre recherch par lUnion Europenne.
Visitez la
Lautre force de The Migrant Files, qui est plateforme
mettre en relief avec une vision journalistique,
est la possibilit deffectuer une analyse tem- The Migrant Files
porelle. Car si analyser les flux au temps-T a
du sens, observer les volutions dans le temps
apporte un regard plus fin sur limpact des

UN PROJET DE LUTTE CONTRE LA FRAUDE: LA DTECTION DE


LA CONTREFAON EN LIGNE
Selon lOCDE,
BRAND WATCHDOG - Entretien avec Zouheir GUEDRI, CEO, Data & Data
le march de la
Anciennement directeur du conseil chez PWC, Zouheir Guedri est contrefaon en ligne
un passionn de la data. Cest donc avec entrain quil a conu et
particip la mise en fonctionnement, depuis avril2014, dun outil
connat plus de 25%
de dtection de la contrefaon. de croissance annuelle
depuis 2010.
Dans un premier temps destine aux plus
grands acteurs du secteur du luxe, la solution
est voue ds septembre 2014 servir le sec-
teur pharmaceutique, et se dvelopper dans
dautres sphres par la suite. Le principe?
Screener internet et les rseaux sociaux, la
recherche darticles contrefaits. Cest comme
un Google invers explique Zouheir Guedri.
Loutil ncessite la construction dalgorithmes
spcifiques, adapts chaque secteur et ty-
pologie de produits. Pour le luxe, le premier
constat tait que les techniques traditionnelles
qui consistent comparer un certain nombre
de points ne suffisaient pas identifier efficace-
ment les sources frauduleuses. La photo nest
pas un indicateur fiable, puisque de nombreux
sites de contrefaon affichent la photo issue du
site de la vraie marque, le prix de vente peut
tre un indice, mais ce nest pas systmatique,
alors que lanalyse de la source du site web,
son service client, sa licence, etc, est souvent
rvlateur. En moyenne et pour chaque source
identifie, plus de 300 points de mesures sont
32
marchands plutt que sur les rseaux sociaux.
Pour le secteur du luxe, les quipes ont pu
constater quun seul et mme rseau de sites
frauduleux pouvait effectuer jusqu 10 Millions
de dollars de chiffre daffaires sur un mois.
Dans certains cas, il se rvle plus intressant
de laisser libre court aux activits illicites dun
site afin de pouvoir observer, mesurer et en-
suite justifier auprs des autorits le montant
du prjudice. En peine un mois, la plateforme
a ainsi pu valuer plus de 140 Millions deuros
de prjudices. La suite est donc prometteuse
Cependant, certaines marques ne souhaitent
pas mener daction juridique, et ont comme
unique objectif de stopper toutes les sources
identifies. L encore, tout est une question de
stratgie.
En dfinitive, les 2 lments clefs de ce projet
sont la possibilit de mener une surveillance
et denclencher une riposte systmatique, et la
prise en compte des mdias sociaux.

Si ce jour lutilisation vise les secteurs du


luxe, des cosmtiques et de la pharmacie, il
parait assez vidant que de nombreux acteurs
pourraient vouloir dupliquer lide. Et le sec-
teur priv nest pas le seul concern: les ser-
vices des douanes envisagent lutilisation de ce
type doutil hyperpuissant pour loptimisation
analyss, partir dune douzaine de mdias pritaire du site. Cette stratgie est modlise de leur fonctionnement, qui doit dsormais
sociaux les plus frquents et de lensemble sous forme de rgles, revues en moyenne une prendre en compte limportance de la contre-
du web. Le rsultat est donc relativement ex- fois par mois au dbut, puis systmatise par la faon virtuelle et construire les passerelles
haustif, en plus de bnficier de traitements en suite. Lobjectif tant de se laisser le temps de entre la dtection des sources frauduleuses
temps rel. connatre les retombes, analyser les sources, et la confiscation des marchandises aux fron-
Avant le Big Data et les possibilits offertes par la faon dont est utilis le rseau, pour pouvoir tires, aujourdhui de plus en plus virtuelles
le cloud, seules des structures telles Google ou dfinir une stratgie adapte. elles aussi.
Yahoo pouvaient faire ce type de traitements. Dans le domaine industriel, lexemple, devenu
Lachat despace de stockage adapt aux be- La question qui vient alors est celle de la ren- quasi historique aujourdhui, de la pice contre-
soins, en toute flexibilit, permet des start- tabilit et de lintrt rel de cette pratique: la faite lorigine de laccident du Concorde, ouvre
ups dimplmenter des outils de type Big Data contrefaon en ligne reprsente-t-elle rel- de nombreux champs pour la qualit et la scu-
sans se heurter la barrire financire. lement une part importante du parasitage du rit dans des secteurs forts enjeux.
Lide ici est didentifier les rseaux, de tracer la chiffre daffaires? Selon lOCDE, le march de une chelle beaucoup plus large et sins-
cartographie et de voir les nuds avec les sites la contrefaon en ligne connat plus de 25% de crivant dans la dynamique open data, on peut
cachs derrire une filire de distribution dar- croissance annuelle depuis 2010. Les mdias galement simaginer rver une plateforme
ticles contrefaits. Laction suivre est dfinie au sociaux reprsenteraient eux seuls jusqu en accs libre, gratuite, fonctionnant tel un
cas par cas, selon la stratgie de la marque, qui 90% de ce trafic. Mais l encore tout dpend moteur de recherche, qui permettrait linter-
peut soit souhaiter dnoncer lhbergeur, aver- de la marque et de larticle concern, qui peut naute de vrifier lindice de fiabilit dun site
tir les autorits, ou simplement notifier le pro- parfois tre davantage reprsent sur des sites marchand quil visite.

UN PROJET DANS LE SECTEUR AUTOMOBILE:


LASSURANCE VOLUTIVE

PROGRESSIVE

Lassurance est un secteur hautement comptitif et crucial pour


ses consommateurs. Choisir, contracter, adapter ou rsilier son
assurance peut parfois relever du parcours du combattant. En-
core plus critique, lassurance automobile est souvent considre
comme chre voire inaccessible. Le systme des malus et la prise
en compte des antcdents du conducteur ajoutent une barrire
lentre, au-del de tarifs parfois prohibitifs. Le mtro Parisien Quel rle joue ici le Big Data? Alors que les
capteurs, systmes de golocalisation et autres
est dailleurs depuis plusieurs annes frquemment orn de pu- technologies mobiles se multiplient, lassu-
blicits attirant lil dautomobilistes a priori dlaisss par le sys- rance automobile voit son nouveau modle co-
nomique se profiler. Jusqu prsent, le mon-
tme classique des assurances. Un crneau existe, une nouvelle tant dune prime tait dtermin par quelques
approche est attendue. facteurs basiques, facilement identifiables et
prdtermins. Puissance du moteur, nombre
de kilomtres de la voiture, modle, ge du
conducteur, nombre dannes de permis
33
assurance sadapter son type de conduite. Progressive nest pas la seule compagnie
Le prrequis? Accepter linstallation de cap- proposer ce type dassurance, qui se d-
Grce au Big Data, teurs et systmes de tracking sur sa voiture
Snapshot en loccurrence. videmment, on
veloppe dsormais largement en Amrique
du nord. Certaines critiques et tmoignages
peut trouver le principe extrmement intrusif. danciens assurs dnonant les pratiques de
les compagnies Comment garantir que la compagnie dassu- Progressive ont quelque peu entach limage
rances nalertera pas la police si lautomobi- du pionnier de lassurance Pay As You Drive.
dassurance peuvent liste dpasse la vitesse limite? Ce ne sont pas Cette approche traduit cependant lavenir de
ses prrogatives. lassurance automobile, en fortes probabilits.
dsormais obtenir, Du ct de lassur, on peut voir les choses avec
enthousiasme. Un jeune conducteur, selon les
en temps rel, des critres classiques relativement mal accueilli
par les compagnies dassurances, peut se rv-
ler tre un conducteur beaucoup plus prudent
informations relles quun automobiliste expriment nayant ap-
paremment jamais eu daccident majeur. Chez
sur le type de conduite Progressive, ce jeune conducteur prsentant LE MODLE DE PROGRESSIVE,
de leurs assurs.
une attitude dite idale, verra la compagnie EXPLIQU EN 3 TAPES
lui offrir des rductions sur le tarif quil paye.
linverse, lautomobiliste risque devra sac- SES CLIENTS:
quitter de sanctions tarifaires. Lintrt pour
Progressive? Le jeune conducteur est, statis-
Grce au Big Data, les compagnies dassurances tiquement, un automobiliste qui ne lui cotera
PLUG - DAY 1
The Snapshot device fits
peuvent dsormais obtenir, en temps rel, des pas cher en remboursements et couvertures. right into a little port in your
informations relles sur le type de conduite Lautre est plus enclin engendrer des frais car, generally located
de leurs assurs. Cette personne roule-t-elle importants pour la socit. Et si lautomobiliste below the steering wheel.
souvent au-dessus de la limitation de vitesse? tax se trouve tre mcontent du traitement qui
Celle-ci grille-t-elle souvent les feux? Combien lui est rserv, il peut toujours changer dassu-
de temps conduit-elle en moyenne par jour? Y rance. Pas de perte majeure pour Progressive,
a-t-il eu une volution dans son type de conduite qui conserve son assur rentable et clt le DRIVE - DAYS 1-30
rcemment? Vient-elle de se localiser sur compte dun client risque. We look at your driving habits
Facebook dans un bar et donc a-t-elle des to see if you could be saving
risques de conduire alcoolise? Au-del de laspect montaire, le monitoring more. You can track your
Tant dlments qui fournissent une analyse de la conduite permet aussi la socit de projected savings online.
beaucoup plus fine du profil auquel la compa- mettre disposition de ses assurs un outil de
gnie est confronte. suivi. Chacun peut, presque en temps rel et
avec une traabilit, observer lvolution de son SAVE - DAY 31
En 2011, la socit Progressive a cr la sur- type de conduite. Un automobiliste bien inten- Now your rate is fully
prise en lanant son service dassurance auto tionn disposera alors dun moyen efficace de personalized; any
Pay As You Drive. Littralement, cela si- mesurer si ses efforts sont efficaces, o il doit discount you earned is
gnifie que lautomobiliste voit le tarif de son samliorer et comment. in full effect. Simple!

UN PROJET DANS LE SECTEUR DES LOISIRS: En 2007, Fabrice travaille sur Second Life, un
univers entirement virtuel, recrant une so-
LES COMMUNAUTS VIRTUELLES cit entire, avec ses individus, associations,
hommes politiquesle tout en 3D. Cest le pre-
X-FIELD PAINTBALL - Entretien avec Sbastien MUNIER, Directeur Gnral, PCB TEAM mier tre lablis en Europe par Linden Lab,
lditeur Californien de Second Life pour lin-
sertion de marques au sein de la plateforme.
Sbastien Munier nest pas un expert du Big Data. Lide de sa Ils travaillent alors avec de nombreuses en-
socit est venue avec son associ, Fabrice Tron, il y a environ 2 treprises du CAC40, qui peroivent rapidement
leur intrt tre prsent sur ce type de sup-
ans. Fabrice et Sbastien sont des entrepreneurs du numrique, port virtuel. Les marques profitent de ce nou-
tous deux ayant eu de prcdentes expriences en agences web. veau lieu de rencontre pour faire connaissance
avec leurs clients, de faon virtuelle mais ci-
Ils ont donc pendant longtemps rpondu aux problmatiques ble, par affinits communautaires. La puis-
numriques de leurs clients. sance du modle est dautant plus forte que de
nombreux utilisateurs se sont rellement pris

Finale du championnat Europen (Millennium Series) Chantilly, monde rel. Action identique dans le jeu.

34
volume dinformations rcoltes 3 millions
dutilisateurs ultra-qualifis en un temps re-
cord, incluant la golocalisation et permettant
la dtection de lead, requiert lutilisation de so-
lutions Big Data.
Un exploitant de terrain par exemple, pourra
bientt via une plateforme de golocalisation
reprer les pratiquants rpondant un certain
profil dans son entourage au temps-T, les ci-
bler, les adresser via un systme de RTB et les
attirer vers son terrain. Le business est alors
classique: la marque ou le terrain transmet un
push proposant une offre promotionnelle ses
leads.
Daprs Sbastien, deux types de pratiquants
Un des terrains les plus rputs au monde: SC Village, Los Angeles, Californie. sont cibler: les fans du jeu dans le rel et
les fans de jeux vido au sens large, qui pour-
ront prendre got X-Field et finalement aux
terrains de paintball rels. Lobjectif est l
dlargir la communaut autant que possible,
moindre cot et le plus rapidement possible.

Le deuxime projet le plus abouti de PCB Team


est celui concernant la communaut du cam-
ping. En France, lhtellerie en plein air repr-
sente 38 millions de rservations par an. La
promesse de la socit est de permettre la
communaut des campeurs de personnaliser
et vivre ses vacances plus intensment.

Et sa reprsentation dans le jeu (positionnement exact des obstacles via Google Earth) Le dernier projet en cours chez PCB est celui
des communauts de musique lectronique
(Pink City Beats). Il est encore un stade em-
au jeu, recrant leur univers rel jusqu rpli- dagrger le maximum dinformation qualifie bryonnaire, ltape de captation de sa com-
quer leur mobilier lidentique. Les marques au niveau mondial, le tout depuis leurs petits munaut (600 artistes DJ internationaux dj),
prsentes sur la plateforme avaient donc des bureaux toulousains. mais prsente comme objectif sous-jacent la
informations prcieuses sur les gots de leurs Une leve de fond et 3 millions de tlcharge- volont pour les quipes de PCB de dmontrer
potentiels clients. ments plus tard, les plus grandes marques du le caractre duplicable de leur approche.
Suite cette exprience, Fabrice et Sbastien secteur sassocient toutes X-Field Paintball.
ont eu lide dexploiter cet univers des com- Cest eux qui sont alors prescripteurs auprs ce jour, X-Field en est sa seconde leve de
munauts. Savoir reconnatre des groupes de des pratiquants tout en participant au finance- fonds. Lobjectif immdiat est de passer de 3 6
personnes avec une affinit commune, les cap- ment de la plateforme. Leur intrt? Bnficier millions de tlchargements de la plateforme.
ter, dvelopper la communaut et la montiser de laccs leur communaut, fdre de faon Le projet autour du camping vient deffectuer
auprs de marques lies deviendrait leur nou- unique au monde. Cest en dautres termes une sa premire leve de fonds et dentrer en com-
veau business model. immense base de donnes, la plus grande, hy- mercialisation.
Concrtement, PCB Team a actuellement trois perqualifie, sur la communaut du paintball. long terme, la socit PCB et ses deux fon-
projets en cours, chacun centr sur un centre Comment les joueurs sont-ils attirs sur la dateurs souhaitent rpliquer leur fonctionne-
dintrt prcis: le paintball, la musique lec- plateforme? Grce une prcision sans gal. ment dans dautres secteurs de niche, essen-
tronique et le camping. Chaque terrain est reproduit, les actions relles tiellement dans des domaines sportifs. Les
X-Field Paintball est le premier projet quils rendues virtuelles, les marqueurs (nom des trois premiers projets seront l pour montrer
ont dvelopp, et le plus abouti. Si le secteur lanceurs de billes), les dcors, les mouvements la puissance de ces bases de donnes haute-
peut paratre surprenant, il faut tout dabord sont transcrits la lettre. Le joueur peut donc ment qualifies exploites avec des outils Big
noter que la communaut des passionns de retrouver le plaisir du jeu rel dans un univers Data. Lide, dans les rves les plus fous de
paintball reprsente plus de 20 millions de virtuel, avec des interactions au niveau mon- Sbastien, sera ensuite de croiser les diff-
pratiquants travers le monde. Cest la troi- dial. X-Field est mme all jusqu reproduire rentes communauts. Un scnario type: cet in-
sime communaut de sport extrme, derrire les terrains des championnats, en les mettant dividu, en vacances dans ce camping, joue sou-
le BMX et le snowboard aux USA. Ce qui est disposition quelques jours lavance afin que vent aux jeux vido, dont parfois au paintball,
dautant plus intressant, cest que la pratique les participants puissent sy entraner. Les plus et comme il naime pas les muses, quil a une
du paintball reprsente des coups similaires gros sponsors, comme lors des championnats voiture et quil est venu sans enfants, je peux lui
la pratique du golf. Un passionn est donc rels, diffusent leurs bannires de publicit envoyer une offre promotionnelle pour ce ter-
susceptible de ddier des budgets importants pour figurer en meilleure position sur le ter- rain de paintball moins de 30 minutes de son
pour son activit, et les marques de paintball rain. Cest un march de niche, avec huit dix lieu de vacances.
ont un fort intrt le capter (march mon- acteurs majeurs dans le monde, mais qui re- La seule question: la protection des donnes
dial de 200millions deuros dquipements prsente des enjeux forts pour ces quelques personnelles. L, la rponse de Sbastien sap-
et 1,3 milliard deuros de consommables les marques. La valeur ajoute de X-Field est de puie sur un principe dopt-in et une anonymisa-
billes). dtenir une information exclusive. tion maximale des informations. Lidentit no-
Fabrice et Sbastien ont donc dvelopp une En quoi ce projet est-il rellement Big Data? Le minative importe peu en fin de compte. Cest le
application mobile, teste sur le march au profil qui prime. Si la socit est capable de re-
pralable, qui atteint rapidement des centaines connatre un profil et de lui communiquer une
de milliers de tlchargements. offre, elle na pas besoin de connatre le nom
Leur communaut au sens large comprend les March mondial de de la personne concerne. Quoi quil en soit, les
pratiquants du paintball, mais aussi les indus- quipes garderont un il averti sur les recom-
triels (marques dquipements), les exploitants
de terrains de jeu, les ligues (des champion- 200millions deuros mandations de la CNIL et veilleront constam-
ment protger les donnes.
nats sont rgulirement organiss) et la presse
spcialise. En un peu plus de 6 mois, PCB dquipements.
a amorc ce nouveau mdia, lobjectif tant

35
UN PROJET DANS LNERGIE: COFELY SERVICES cation de patterns et typologies de clients, pour
que Cofely Services comprenne de manire
DEEPKI - Entretien avec Vincent BRYANT, Direction dactivits Efficacit nergtique, beaucoup plus fine les consommations de ses
Cofely Services, Groupe GDF SUEZ clients.
Mais l o lentreprise va plus loin encore, cest
en lanant une spin-off, DEEPKI. Comme lex-
Cofely Services, Groupe GDF SUEZ, est principalement connue plique Vincent Bryant, au 19e sicle, le monde
a cd la rue vers le ptrole aux tats-
pour ses services en efficacit nergtique. Rattach au DG Unis. De nombreux acteurs se sont prcipits
au Texas, ont achet une parcelle de terrain
de la socit, Vincent Bryant est en charge de dvelopper les et quelques pelles et pioches pour creuser.
nouvelles activits ayant pour vocation damliorer lefficacit Certains ont trouv du ptrole, dautres non et
beaucoup de pioches ont t vendues. Puis des
nergtique. entreprises dingnieurs ont propos danaly-
ser les sols pour identifier les gisements et les
Il nest pas DSI, il ne fait pas partie du dpartement R & D, mais meilleurs outils pour les exploiter, en orientant
il est linterface de ces mtiers. Son rle est dutiliser les ainsi les efforts l o il tait probable quil y ait
du ptrole. Cette cartographie des gisements
algorithmes de data analytics pour crer de nouveaux business. de ptrole a apport une grande valeur aux
chercheurs de ptrole, aux vendeurs doutils et
aux propritaires fonciers. Aujourdhui chez
Cofely Services a dvelopp il y a 2 ans loffre nire fine avec les consommations de struc- Cofely Services, nous voulons faire pareil
VERTUOZ, qui permet ses clients (plus de 41 tures similaires la mienne. souligne alors Vincent Bryant. La cartogra-
000 sites renseigns ce jour) de monitorer phie dveloppe par DEEPKI vise dtecter
leurs consommations en temps rel et dame- Pour Cofely Services, le Big Data est gale- les gisements dconomies dnergie grce
ner la Business Intelligence jusque chez ment un moyen de mieux connatre ses clients, aux donnes existantes du secteur priv, des
ses clients. et donc de mieux les conseiller. Loptimisation ministres, collectivits, mais aussi laide
Mais la data pour lefficacit nergtique, ce de la vente croise permet Cofely Services de de donnes ouvertes. Ces informations sont
nest pas que de la mesure. fournir ses clients des services parfaitement structures, segmentes en classes de bti-
Comme lexplique Vincent Bryant, il existe 3 adapts leurs besoins. En complment des ments laide dalgorithmes, puis traites avec
niveaux dutilisation de la donne. Le pre- donnes CRM dj prsentes, les algorithmes un moteur dinfrence.
mier correspond la mise en place dun sys- de data-analytics viennent tirer plus de va-
tme denergy monitoring pur: connatre ses leur des donnes volumineuses et complexes Les quipes obtiennent des cartographies de
consommations relles au temps-T, en garder existantes utilises par les quipes marketing. gisements dconomies dnergie compl-
une trace. Le second niveau consiste intgrer titre dexemple, un seul client peut repr- tes par des diagnostics ou des systmes de
des fonctionnalits BI (Business Intelligence) senter plus de 1 000 sites, chaque site ayant mesures. La dmarche permet donc dex-
pour mieux comprendre et exploiter ces don- ses propres caractristiques de consomma- clure les cas particuliers, et daffiner autant
nes. Le troisime niveau, qui nous intresse tion, denvironnement, dactivitLe Big Data que possible les tudes. Dans lnergie, cest
ici, sattaque au Big Data en intgrant des don- chez Cofely Services est donc pass par la une petite rvolution: il ne sagit plus unique-
nes externes, des volumes de donnes impor- construction dun outil de Data Discovery ment de mener des tudes physiques, mais
tants et un traitement en quasi-temps rel. puissant mis disposition des quipes. Je bien de crer une cartographie pralablement.
Dans ce contexte, le Big Data peut servir au connais mon client pour mieux lui vendre mes Ces puissants algorithmes utilisent des outils
Benchmark: connatre combien je consomme services, et mon client bnficie ainsi dune statistiques bien connus des socits de pro-
est intressant, mais cette donne prend tout rponse adapte au plus proche de ses be- motion publicitaire sur le web. Le principe est
son sens lorsque je peux la comparer de ma- soins. Loutil a galement engendr lidentifi- relativement simple: alors quon aurait ten-

36
UN PROJET DE RECHERCHE: LA GNOMIQUE
France GENOMIQUE - ENTRETIEN AVEC PIERRE LE BER ET PIERRE LECA

Pierre Le Ber est polytechnicien de formation. Il a complt


son cursus par un doctorat en pharmacologie molculaire, et
dance vouloir comprendre les mcaniques
dachat dun consommateur (par exemple, si sest rapidement orient vers les sciences du vivant, les bio-
jachte une table, jachterai vraisemblable- technologies et lindustrie pharmaceutique. Pierre intgre, en
ment les siges qui vont avec), mieux vaut en
observer statistiquement les comportements 1995, la socit Genset, un des pionniers de la gnomique. Puis,
rels. Si lanalyse nous dit que la majorit des aprs avoir travaill Singapour, en Chine, en Suisse, il occupe
clients similaires ont achet une lampe aprs
avoir ajout cette table, mieux vaut mettre en depuis 4 ans le poste dadjoint au directeur de lInstitut Gno-
avant des lampes pour susciter lachat. Le rai- mique (IG) du CEA, ainsi que de Responsable Scientifique et
sonnement est le mme pour DEEPKI: si au
sein dun parc de boutiques, on constate que Technique de linfrastructure France Gnomique.
les sites qui consomment le plus sont ceux qui Pierre Leca pour sa part a davantage un profil de mathmati-
ont la frquentation la plus leve, alors pour-
quoi continuer benchmarker les consomma- cien et dinformaticien. Docteur en mathmatiques appliques,
tions dnergie des sites en fonction de leur
date de construction? La recommandation
il se plat rsoudre des problmes complexes laide dordi-
la plus adapte sera de sintresser aux bou- nateurs. Il a dbut sa carrire dans le secteur aronautique et
tiques ayant une frquentation importante.
Dterminer ces facteurs dinfluence est a rejoint le CEA en 2001 pour prendre la direction du Dparte-
un enjeu crucial pour dynamiser lefficaci- ment des sciences de la simulation et de linformation.
t nergtique. Reste alors savoir quelles
donnes traiter. Car si lon considre que des Ce Dpartement est en particulier responsable du complexe de
donnes a priori sans aucun lien de causalit calcul du CEA et mne des projets de R & D avec de nombreux
avec lvnement peuvent tre considrables, il
faut alors largir autant que possible le spectre industriels.
des donnes prises en compte dans ltude.
Elles peuvent prendre la forme toujours dans
notre exemple des boutiques, du trafic piton-
nier alentour, des horaires douverture, du type
douverture, de la frquentation, du chiffre daf-
faires... La question vise ensuite dterminer
quelle part prend chacun de ces facteurs dans
la consommation de la structure.

Afin de slectionner les jeux de donnes in-


tgrer chaque tude, les quipes de DEEPKI
sappuient sur deux lments: la disponibilit
de la donne (puis-je avoir accs cette infor-
mation?) et la connaissance mtier (quels sont
les facteurs dinfluence selon les exploitants du
site?).
La premire tape est donc un diagnostic tech-
nique, qui amne la constitution dune Data
Room regroupant toutes les donnes dispo-
nibles et utilisables.
Cest ainsi que des constats contre-intui-
tifs peuvent merger: grce lanalyse ra-
lise sur des donnes rcupres sur plus
de 400 boutiques en France, des segments Crdits photos: P. Stroppa/CEA

de boutiques homognes dun point de vue


des consommations dnergie ont t identi- Les deux hommes sont donc rsolument com- de 30 ans, les scientifiques ont dvelopp di-
fis: le constat qui en a rsult a amen la plmentaires, lInstitut de Gnomique du CEA verses mthodes de squenage de lADN, dont
conclusion que les boutiques les plus consom- auquel Pierre Le Ber appartient travaillant sur la plus connue est la mthode de Sanger. Dans
matrices ntaient ni les plus anciennes, ni les la partie R & D en gnomique, Pierre Leca sur les annes 90, un programme international a
plus grandes. la R & D en calcul et traitement de donnes. t lanc dans le but de squencer lintgrali-
Voil de quoi donner des ides de nombreux t du gnome humain. La tche a t acheve
gestionnaires dactifs sur lanalyse des don- LE SQUENAGE DE LADN en 2003 seulement, mais ctait une premire
nes quils possdent dj. Le projet quils nous prsentent, dans le mondiale. Plusieurs annes de travail donc,
cadre de linfrastructure nationale France mais aussi plus de 3milliards de dollars inves-
Gnomique, traite du squenage de lADN, et tis pour raliser cet exploit. Aujourdhui, un g-
vise fournir des capacits de stockage et de nome humain se lit en quelques heures pour
traitement de donnes qui permettent de nom- quelques milliers de dollars! Cette rupture
breuses tudes et analyses. Quelques notions technologique, scientifique et financire ouvre
plus de 41 000 sites simposent: le squenage consiste dchif- la voie des applications de squenage mas-
frer le code gntique. Pour le gnome humain, sif, dont les besoins en moyens de stockage et
renseigns ce jour. cela reprsente 3milliards de bases rparties de calcul sont un challenge relever.
sur 23 chromosomes. Le gnome du bl, par Le Genoscope, qui fait maintenant partie de
exemple, renferme 17 milliards de bases, alors lIG, avait largement particip au vaste projet
quune bactrie nen contient que quelques du premier squenage, tant en charge de
millions. On prend alors vite la mesure des vo- lintgralit du chromosome 14. Le travail, sou-
lumes et traitements ncessaires. Depuis plus lignent les deux collgues, tait fastidieux et
37
coteux. Depuis, le cot et la vitesse du s- decine personnalise, une grande avance ap-
quenage ont volu de faon spectaculaire. porte par la gnomique et qui sappuie sur le
la fin des annes 90, on pouvait lire quelques Big Data.
millions de bases par jour. Aujourdhui, dans un
centre comme lIG, on peut lire plusieurs cen- Un autre exemple est celui du projet TARA
taines de milliards de bases (Gbases ) par jour. Ocans, un vaste projet dtude de la biodiver-
sit planctonique marine qui a amen ds 2009
les quipes sillonner les ocans pendant plus
TRAITER LES VOLUMES DE DONNES de 3 ans afin de rcolter des chantillons de
ISSUES DES SQUENCEURS tous les coins du globe. La finalit: squencer
En termes de volumes de donnes, lquiva- et analyser les gnes des organismes prsents
lence est simple: une base, cest un octet. divers endroits, en parallle avec dautres
Linfrastructure France Gnomique (dont lins- approches telles limagerie trs haut dbit.
titut de gnomique du CEA, deuxime centre de Il sagit le plus souvent dorganismes que lon
squenage europen, est le principal parte- nest pas capable disoler mais quil est pos-
naire), peut produire de 50 75 traoctets de sible de squencer en tant qucosystmes
donnes par mois, soit plusieurs centaines de planctoniques complets (approche dite me-
traoctets par an. tagnomique). date, environ le quart des
Pour Pierre Le Ber et Pierre Leca, si les don- prlvements effectus ont t squencs. La
nes traiter sont structures par les appa- dcouverte impressionnante rside dans le fait
reils qui les produisent, la bio-informatique que la trs grande majorit des organismes s-
rejoint le Big Data par la volumtrie et la quencs nous taient jusqualors inconnus. Ce
vitesse de production et de traitement des don- projet rvle limmensit de la biodiversit des
nes. En outre, les donnes sont caractrises ocans. Cest un inventaire, en quelque sorte,
par un modle derreur propre la technolo- une photo prise au temps-T, qui nous permet
gie, et un taux derreur variable d aux biais de de mieux connatre les tendues aquatiques.
la biologie molculaire. Cest l que se situe le Au-del de lintrt purement informatif,
point critique de leurs travaux. Afin de traiter TARA Ocans permettra par exemple dtu-
cette quantit colossale de donnes issues des dier les effets du rchauffement climatique
nouvelles gnrations de squenceurs dADN, sur les cosystmes marins: renouvel dans
une infrastructure centralise, capable de quelques annes, le prlvement de nouveaux
mettre en uvre des moyens de stockage mul- chantillons permettra de comparer les or-
ti-traoctets accessibles avec un haut niveau ganismes prsents. date, on ralise un ca-
de performance (dbit, latence) par plusieurs
milliers de curs de calcul, simposait. Cette
e-infrastructure de France Gnomique a donc
t mise en place au CCRT (Centre de Calcul
Recherche et Technologie) au sein du Trs le gnome humain
Grand centre de Calcul du CEA (TGCC). Elle a
t finance dans le cadre du programme na- reprsente 3milliards
tional dinvestissements davenir, mis en
uvre par le Commissariat Gnral lInves-
tissement.
de bases rparties
Il y a 10 ans, pour un projet de gnomique, on sur 23 chromosomes.
dpensait 10% de la somme totale dans lin-
formatique. Dans le cas de France Gnomique,
pour 1 euro dpens dans le laboratoire, 1 euro
est investi en informatique et bio-informatique.
Le besoin de stockage est expliqu par les vo- talogue de rfrence qui servira observer
lumes de donnes gnrs mais aussi par la lvolution de la biodiversit. Ce projet, unique
ncessit, pour certains projets de grande am- par son ampleur, est un des plus vastes dans
pleur, de les conserver accessibles en ligne lesquels sinvestit aujourdhui le Genoscope
sur de longues dures, afin de pouvoir compa- au sein de lIG. Financ par les grands orga-
rer les nouvelles donnes aux plus anciennes. nismes de recherche publique, mais aussi
De plus, la communaut est trs active, et les par les Investissements dAvenir (dont France
techniques de squenage et danalyse vo- Gnomique) ou des mcnes privs tels Agns
luent trs rapidement. Les donnes sont r- B., Tara Ocan prvoit douvrir ses donnes.
cupres par le CCRT et les traitements pri- Cest aussi ce type de projets qui a rendu in-
maires sont raliss au travers de pipelines luctable le changement dchelle pour les ca-
danalyse pratiquement automatiss. Les ana- pacits de stockage et de traitement des don-
lyses secondaires sont ensuite effectues sur nes.
le-infrastructure par les quipes projet.
France Gnomique continue investir dans ses
DES APPLICATIONS TRS VARIES infrastructures. Ne serait-ce que pour mettre
Dans le cas du gnome humain, en comparant jour la partie hardware, la structure doit inves-
deux gnomes de deux personnes diffrentes, tir 2 3 millions deuros tous les 3 ou 4 ans.
on observe quelques millions de diffrences, Le besoin se fait grandissant dautant plus que
dont une minorit a des consquences biolo- de nouvelles applications se font jour: la mde-
giques. Lanalyse primaire consiste dtecter cine personnalise notamment est un domaine
ces diffrences, lanalyse secondaire vise les dans lequel lexpertise que France Gnomique
interprter, laide dtudes statistiques, fonc- aura accumule dans le domaine des Big Data
tionnelles, mdicales Prenons lexemple du sera prcieuse, avec nanmoins de nouvelles
cancer: squencer le gnome de cellules tu- problmatiques comme la question de la pro-
morales par comparaison au gnome nor- tection et la scurit des donnes. Recherche
mal du patient permet den dterminer le et diagnostic seront concerns, la volont tant
profil gntique, et dans certains cas de pr- de valider les protocoles de squenage trs
dire quel traitement a le plus de chances dtre haut dbit, et plus encore de gestion des don-
efficace pour un patient donn. Cest de la m- nes pour la mdecine personnalise.
38
UN PROJET DANS LES TRANSPORTS: LA SCURIT ARIENNE tuation dite normale, la marge dcart accep-
te, et la faon dont la compagnie utilise ces
SAFETYLINE - Entretien avec Pierre JOUNIAUX, co-fondateur, SAFETYLINE marges. Sans a priori, on regarde toutes les
donnes, essentiellement rcupres par les
capteurs disposs sur les avions, mais aussi
les donnes mtorologiques par exemple. Un
Laronautique est un secteur reconnu pour ses capacits avion enregistre environ 1 000 paramtres par
seconde, donc sur un vol entier les volumes
innover et son exigence scuritaire. Pour Pierre Jouniaux, ingnieur atteignent des niveaux ncessitant une ana-
lyse experte. Pour Pierre Jouniaux, lavantage
aronautique de formation, le Big Data reprsente une relle davoir t pilote, tout en ayant les connais-
opportunit. sances en traitement de la donne, lui permet
de savoir quelles informations sont pertinentes
Au dbut de sa carrire, Pierre Jouniaux a intgr le Ministre et dans quel cas de figure.
des Transports. Il a alors pass 12 ans au bureau des enqutes Empiriquement, on peut considrer que 60%
de marge sont gnralement pris en compte
accidents, traiter les donnes des botes noires pour comprendre pour englober tous les paramtres. Dans la
les causes des accidents survenus. Il devient ensuite pilote de grande majorit des cas, cest largement suf-
fisant, mais sur des vols atypiques ou pour cer-
ligne au Vietnam, et en parallle il participe la mise en place tains aroports par exemple, la marge de scu-
dun systme de traitement des donnes. rit restante est faible.
Revenons lexemple de latterrissage long.
Lalgorithme de SafetyLine met en vidence ce
qui diffrencie les vols normaux des vols aty-
Cest l quil constate que les donnes enregis- cest dynamique. Pour expliquer un acci- piques. Profil du vol, configurations diverses,
tres en vol sont sous-exploites. En effet, les dent, il ne suffit pas dobserver que quelques type de pilotageLoutil prend toutes les don-
compagnies sont tenues de rcuprer et lire les paramtres. Cest la combinaison de multiples nes de tous les vols disponibles et en fait un
donnes issues des botes noires et les copies facteurs complexes qui peut engendrer une apprentissage, afin de construire un modle. On
dupliques, mais elles ne mnent les analyses anomalie. Prenons lexemple concret des sor- peut alors faire une prdiction, en pourcentage,
que vol par vol. En 2008, bien avant quon com- ties de pistes, qui ne sont pas les accidents les des risques sur un modle donn. Safetyline
mence parler de Big Data, Pierre Jouniaux plus dangereux mais sont les plus frquents.
fonde donc SafetyLine. Lide lorigine du Lorsquil travaillait en tant quenquteur,
projet est que cette masse de donnes rcup- Pierre Jouniaux a tudi le cas de la sortie de
res par les compagnies ariennes reprsente
de nouveaux champs danalyse si les donnes
piste de Toronto et confirm quun tel vne- Un avion enregistre
ment est d une multitude de donnes.
sont confrontes, sur tous les vols, en temps Le projet de Pierre Jouniaux consiste d-
rel. Dveloppe avec laide dun laboratoire terminer le principe des marges et observer
environ 1 000 paramtres
de recherche le laboratoire de statistiques comment elles sont absorbes. Pour ce faire,
thoriques et appliques de Paris la solu- il est donc ncessaire de faire un apprentissage par seconde.
tion a donc t construite sur un socle Big Data. sur ces marges, ces limites. Lide est alors de
Comme lexplique Pierre Jouniaux, un vol, connatre les valeurs des donnes pour une si-
39
observe les signaux faibles et les paramtres ticularits. Par exemple, un A318 est un petit
inattendus. Par exemple, pour tel type davion, modle davion, moins sensible au problme
sur tel type de trajet, dans telle compagnie, de distance datterrissage quun autre type
la marge est davantage utilise, et le vol est davion, mais qui ncessite un pilotage adapt
donc plus risqu. On donne ces indicateurs aux lapproche.
compagnies ariennes qui ont choisi le service
de SafetyLine. Chaque modle est individuel. Lavantage des donnes de vol est quelles
Chaque compagnie est propritaire de ses don- sont trs formates. Airbus, Boeingtous les
nes de vol, qui sont confidentielles. SafetyLine constructeurs ont standardis au niveau inter-
sengage les protger, ne pas les hberger national les capteurs et les units mesures.
sur le cloud, conserver les donnes isoles et Au-del de la notion de risque, Safetyline r-
assurer un maximum de scurit. Lenjeu est flchit dautres applications du traitement de
crucial tellement les donnes sont sensibles. la donne de vol. Loptimisation de la consom-
Les donnes sont donc stockes, et les calculs mation de carburant par exemple est une
effectus en in-memory. Les temps de calcul piste particulirement prometteuse. En mo-
sont relativement importants plusieurs dlisant les caractristiques du vol, les quipes
heures mais pour Pierre Jouniaux, ce nest SafetyLine peuvent optimiser son profil, parti-
pas un problme du fait quil fonctionne en culirement au moment de la monte, le point
asynchrone. Pour des analyses prdictives, critique de la consommation. Concrtement,
cest largement suffisant. le principe consiste communiquer des
Pierre Jouniaux travaille par exemple avec Air consignes de vol qui permettront damlio-
France, compagnie avec laquelle il a mis en rer cette consommation. Les principaux para-
place une dmonstration grandeur nature de la mtres influant sur la consommation sont la
scurit des vols. Chaque modle construit est temprature, la masse de lavion et son profil
unique, avec son propre risque, ses marges et arodynamique. Chaque profil entrane des
ses mthodes danalyse propre. consignes de vol diffrentes.
Pour linstant, cela na t tudi que pour un
Air France, cest 75 000 vols moyens courriers seul type davion, mais ce projet est vou
Air France, cest 75 000
en quelques mois uniquement. Cest le spectre se dupliquer. Dans le jargon, on parle de ni-
de la collaboration entre SafetyLine et la com- veau de consommation 3R: cest l que lavion vols moyens courriers
pagnie, et cest dj largement suffisant pour consomme le moins, et cest ce que veulent at-
en tirer des conclusions pertinentes. Loutil teindre les compagnies ariennes autant que en quelques mois.
dtecte les signaux faibles, avant mme les possible. Lenjeu financier est considrable, la
accidents ou drives qui pourraient survenir. solution attire donc dj car elle permet des
Lide est de savoir comment la compagnie uti- gains substantiels. Sur un vol unique, lco-
lise ses marges. Lorsquon constate quelles nomie nest pas notable. Elle est de quelques
sont fortement rognes, on peut estimer laug- dizaines de kg par vol. Mais lorsquon consi-
mentation du risque engendr. Identifier la dre quun avion peut effectuer jusqu 5 vols
source dun problme de faon individuelle est par jour, et en mettant cette donne en relief
relativement ais, la question des marges est avec la taille de la flotte de compagnies telles
plus complexe. Safetyline observe donc la cor- Air France, on peroit vite lintrt.
rlation des paramtres qui peut augmenter le Dautres projets sont en dveloppement,
risque, sans que lil humain puisse le perce- comme un travail avec les Aroports de Paris
voir ni quaucun problme ne survienne. Cest qui vise dtecter les problmes de glissance
aussi en construisant ces modles que lon de la piste, ou encore des solutions de mainte-
peut faire du prdictif et du prventif. Et chaque nance prdictive pour anticiper les pannes.
vol, chaque aroport, chaque avion a ses par-

40
UN PROJET EN CLIMATOLOGIE: LVOLUTION CLIMATIQUE AU
NIVEAU MONDIAL
Projet DADA - Entretien avec Alexis Hannart, Climate Scientist au CNRS

Le projet DADA est une collaboration scientifique internationale


en climatologie, structure autour de lIPSL (Institut Pierre
Simon Laplace, le-de-France) et finance par lANR (Agence
Nationale de la Recherche), impliquant des chercheurs franais,
europens et amricains. Alexis Hannart, climatologue au
CNRS, en est le responsable. Scientifique de formation
(Polytechnique, ENSAE), Alexis a rejoint la recherche acadmique
dans les annes 2000 aprs une exprience de plusieurs annes
en R & D dans le secteur priv, sur des sujets constituant alors
les prmices du Big Data.

DADA propose une application environnemen-


tale du Big Data. Son ambition est dexploiter
les flux dobservations climatiques, de plus en
plus nombreuses et diverses, dans le but in fine
de pouvoir statuer en temps rel sur lexistence
dun lien de causalit ventuel entre les ph-
nomnes climatiques survenus, de quelque
nature et chelle de temps quils soient, et les
missions de gaz effets de serre ou autres
missions dorigine humaine (ozone, aro-
sols).
Pour cela, on confronte lobservation aussi
complte et exhaustive que possible dun v-
nement ou dune srie dvnements, des si-
mulations numriques: dune part du monde
factuel cest--dire du systme clima-
tique tel quon le connat et dautre part du
monde contrefactuel cest--dire du
mme systme mais tel quil serait si les gaz
effets de serre navaient jamais t mis. Selon
que lvnement apparatra ou non comme
plus vraisemblable dans lavatar numrique du
monde factuel que dans son pendant contre-
factuel, on pourra invoquer un lien de causalit Mais surtout, la principale nouveaut est lide, n il y a un sicle et auquel notre acronyme
ou son absence. pour mettre en uvre cette approche Big Data, est bien sr un clin dil: innover sans au-
de capitaliser au maximum sur les procdures cune censure, en provoquant des hybridations
et les infrastructures de calcul dinterfaage et des rapprochements inattendus, et surtout,
Si le principe gnral est simple, la mise en
modle-observations dj existants et enti- en samusant! Maintenir cet esprit ludique sera
uvre est dlicate: elle exige en effet de ma-
rement oprationnels dans les services m- facile, car le Big Data est un terrain de jeu fan-
nipuler des flux de donnes en trs grand
torologiques. En effet, la prvision du temps tastique et inpuisable.
nombre et dorigines diverses (stations mto,
repose sur de gros modles numriques de Alexis estime que dans le cadre du Big Data,
satellites, rseaux de capteurs divers), des
latmosphre qui sont rinitialiss toutes les les travaux dun climatologue peuvent intres-
modles numriques de trs grande dimen-
6h sur la base dun flux de nouvelles obser- ser dautres profils, comme un responsable
sion, un interfaage complexe entre modles
vations entrantes. On appelle cela lassimila- marketing par exemple. bon entendeur
et observations, enfin des algorithmes ad hoc
permettant de convertir la vole par- tion de donne et cest de ce terme que pro-
tir de cet interfaage un trs grand volume de vient lacronyme DADA (Data Assimilation for
donnes brutes en une srie de scores synth- Detection and Attribution). Lquipe DADA
tiques de vraisemblance et, in fine, de causalit. sinspire de ce cadre tout en lenrichissant et en
ladaptant.
Cette chane de calcul dune haute technicit In fine, ce dispositif technologique innovant vise Dans le cadre du Big
est fortement innovante. Mme si les tudes rpondre des besoins concrets dattribution
de causalit sont dj nombreuses en science causale en particulier lis lindemnisation Data, les travaux dun
du climat, la nouveaut propose par DADA est des dommages futurs attendus dans le chan-
dabord de se placer dans la perspective qui gement climatique en cours. Il comporte de climatologue peuvent
caractrise le Big Data: celle des grands vo- multiples dfis thoriques comme pratiques;
la preuve de sa pertinence reste donc large-
lumes de donnes, de la rapidit du traitement
temps rel et des problmes spcifiques ment tablir avant de passer une mise en
intresser dautres
quils engendrent. Cette approche est originale uvre oprationnelle. Cest justement cette
en dtection et attribution climatique par com- exploration prliminaire qui est le but de DADA. profils, comme un
paraison aux travaux antrieurs, qui se placent Comme le souligne dailleurs pour conclure
plus volontiers dans un temps diffr avec Alexis, nous nen sommes encore quau stade responsable marketing
des dlais danalyse de lordre de quelques an- de lide gnrale, lavenir dira si cen est une
nes et en suivant une approche plus artisa- bonne ou pas, cest de la recherche Mais dici par exemple .
nale quindustrielle qui ne rpond pas entire- l, on va essayer de suivre au plus prs les pr-
ment aux besoins futurs. ceptes du Dadasme, ce mouvement artistique
41
Fournisseurs

Le Guide Big Data rpertorie pour vous les acteurs rfrents


et symboliques du march afin de vous permettre de faire
votre propre slection.

Dans cette partie, retrouvez les acteurs de lcosystme Big Data qui font lactualit
en France et ltranger. Ils ont souhait vous faire part de leur vision, de leurs
principales volutions technologiques ou de leurs plus belles ralisations.
Au cours de ces quelques pages, apprenez les connatre ou les redcouvrir,
car ce sont eux qui participent la croissante maturit du Big Data en France.
Que vous soyez la recherche de partenaires et fournisseurs, ou tout simplement
passionn du sujet et attentif aux volutions de ses protagonistes, cette partie
vous intressera.

Dans un souci dorganisation et de clart, nous vous proposons diverses catgories,


reprsentes par des labels, qui vous permettront didentifier immdiatement
les domaines de comptences clefs de chaque entreprise et pouvant donc
rpondre vos besoins. Ces labels sont rpartis en 6 catgories

42
Equipementiers Hardware Editeurs Software Editeurs BI
Editeurs Dataviz Consultants SSII Intgrateurs Institutionnels

Labels Equipementier Editeur Editeur Editeur Conseil / SSII


Annonceurs Hardware Software BI Dataviz Intgrateur Institutionnel Pages

ACTUATE 44
A.I.D 46
AMAZON WEB SERVICES 48
BIME ANALYTICS 50
BITTLE 52
BLUESTONE 54
CAPGEMINI 56
CENTRALE FORMATION 58
CLOUDERA 60
CLUB DECISION DSI 62
CSC 64
DATASTAX 66
EDIS CONSULTING 68
EKIMETRICS 70
EXALEAD DASSAULT 72
SYSTEMES
GFI INFORMATIQUE 74
HP 76
IBM 78
KEYRUS 80
MICROPOLE 82
NEO TECHNOLOGY 84
PENTAHO 86
PIVOTAL 88
QLIK 90
SAP 92
SAS 94
SCINETIK 96
SEMDEE 98
SENTELIS 100
SINEQUA 102
SPLUNK 104
SYNCSORT 106
TABLEAU SOFTWARE 108
TALEND 110
TERADATA 112
TIBCO JASPERSOFT 114
VISEO 116

Fournisseurs 43
ACTUATE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Actuate aide les entreprises exploiter les sources de donnes htrognes dont le Big Data
pour la prise de dcision et la diffusion dinformations personnalises en proposant des
ACTUATE FRANCE rapports, des analyses et des tableaux de bord interactifs, accessibles un grand nombre
dutilisateurs depuis une interface Web ou mobile.
57, rue de Chteaudun
75009 Paris

Tl +33 (0)1 76 21 56 50
Mail fr_contact@actuate.com

BIRT iHub, la plateforme modulaire innovante dActuate, permet de dvelopper et dployer


rapidement des applications de Business Intelligence sur mesure. Elle exploite la technologie
CONTACT Open Source BIRT, cre par Actuate au sein de la Fondation Eclipse et adopte par plus
trois millions de dveloppeurs dans le monde.
Sarah
LALLAM Les applications construites avec BIRT iHub sont idales pour la diffusion de masse
dinformations personnalises.
Responsable marketing
Plateformes dcisionnelle BIRT IHUB

La plateforme dcisionnelle BIRT IHUB dActuate offre des visualisations de donnes interactives,
intuitives et personnalises travers des outils analytiques et des tableaux de bord pouvant tre
facilement dploys auprs de millions dutilisateurs travers le web et le mobile.

Les applications construites avec BIRT IHUB sont idales pour la diffusion de masse
dinformations personnalises. Actuate aide ainsi les entreprises tirer pleinement parti
du Big Data et de lessor des appareils tactiles.

Dveloppement
BIRT Designer Pro cr des contenus bass sur la technologie BIRT Open Source

Dploiement
BIRT IHUB gre jusqu des millions dutilisateurs via des clusters de servers haute disponibilit
BIRT Mobile visualise des contenus BIRT sur des supports mobiles tels que smartphones et tablettes

Visualisations
BIRT Viewer permet la visualisation de rapports BIRT statiques
BIRT Interactive Viewer permet aux utilisateurs de visualiser et de personnaliser leurs
rapports en toute libert
BIRT Studio donne aux utilisateurs la possibilit de dvelopper leurs propres rapports web
Ad Hoc, les donnes restant sous le contrle de la DSI.

BIRT Analytics
BIRT Analytics est la solution danalyse exploratoire et prdictive des donnes qui permet
de raliser des tudes partir de nimporte quelles sources de donnes dont le Big Data
sans besoin de connaissance techniques et statistiques spcifiques.

A la main des utilisateurs mtier, BIRT Analytics offre galement la possibilit de concevoir
des campagnes et den prdire les retombes.

Les composants de la plateforme


BIRT HUB

45
www.actuate.fr
A.I.D.

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Lacclration du digital modifie profondment la faon de communiquer des entreprises


avec leurs consommateurs, devenus multi-canaux, interactifs, informs et partageurs.
A.I.D. Les entreprises qui relvent ces dfis et accompagnent les consommateurs dans ces
volutions structurelles sont celles qui exploitent et valorisent leur capital data pour
4 rue Henri Le Sidaner parler leurs clients au bon moment, avec un message pertinent sur le bon canal.
78000 Versailles Face au phnomne de volumtrie croissante des donnes, le leitmotiv dA.I.D. est
daccrotre en permanence lexpertise data avec des mthodes innovantes danalyse, de
traitement et dexploitation de la donne afin de vous permettre datteindre vos objectifs.
Tl 01 39 23 93 00
A.I.D. propose une chane de valeur complte autour de lanalyse, du traitement, de lexploitation
Mail info@aid.fr
et de la transformation des donnes avec notamment :

- La cration, lhbergement et lexploitation de systmes dinformation marketing, au


service dune communication la fois plus personnalise et industrialise.
CONTACT - La mesure et loptimisation des actions marketing, pour maximiser limpact de vos
Arnaud oprations marketing, dtecter les clients en partance ou grer la pression commerciale
CONTIVAL par la pertinence.
- La data visualisation pour vous aidez lire, comprendre, et analyser vos donnes.
- La qualit des donnes pour garantir une qualit optimale des donnes multi-source et
Prsident Directeur Gnral une bonne gouvernance des donnes.
- Lanalyse des parcours clients cross-canal afin de prdire et dinfluencer la prochaine
interaction client.

Nos clients tels que AUCHAN, BOUYGUES TELECOM, CRDIT MUTUEL ARKEA, DARTY,
EDF, MOBIVIA GROUPE (NORAUTO, MIDAS...), PMU, PUY DU FOU, RENAULT, SEPHORA,
SFR, SIMPLY MARKET, SYSTEME U, TRUFFAUT, nous recommandent avec une note moyenne
suprieure 8/10
(Enqute ralise 2 fois par an sur la base du Net Promoter Score).

Depuis plus de 40 ans, A.I.D. innove continuellement dans le traitement et lanalyse des
donnes. Notre R&D est la garantie que nous apportons nos clients les solutions les plus
performantes leurs problmatiques BtoB et BtoC autour du Datamining, de la Dataquality,
du CRM, du CIM et de lHbergement.
Customer Interaction Management
Visualisation des parcours clients cross-canal
(achats magasins, site e-commerce, call center, rseaux sociaux)

Porteurs du projet Valorisation observe de la donne


Au sein dun distributeur et e-commerant franais, le projet a t port par la Direction La donne collecte est stocke, transforme,
Marketing en la personne du responsable e-CRM . Ce projet transversal a eu le soutien de rfrence, analyse et modlise afin de
lquipe informatique et relation client (Call center). permettre la prise de dcision en temps
utile selon le canal : soit en contact direct avec
Objectifs le client, soit en prventif pour une interaction
Collecter toutes les interactions clients sur tous les canaux et donner une information actionnable
venir.
aux collaborateurs de lentreprise pour les aider dans la prise de dcision.
- Fournir au call center lors dun appel entrant lensemble des interactions du client et leur Etapes venir et dmarche Big Data
motif avec la marque (call center, navigation web, rseau sociaux).
- Analyser les comportements clients (via les interactions) afin de dterminer les situations dans lentreprise
risques et prendre les mesures adquates. Le projet a dmontr lintrt de la dmarche de
collecte et de valorisation des interactions entre
Prsentation magasin, site e-commerce, call-center et rseaux
Le projet sappuie sur la solution C.I.M. (Customer Interaction Management) conue par A.I.D. sociaux. Les enjeux commerciaux et le ROI ont
et utilisable en mode SaaS. t clairement valids et le dploiement de la
Les donnes traites sont de sources multiples : solution est en cours.
- E-CRM (signaltique client, activits achats, retours darticles, retours de campagnes
marketing - ouvertures, clics, )
- Call-center (interactions, appels entrants, appels sortants, suivi des tickets )
- Site e-commerce (taggage du site avec la technologie A.I.D.)
- Rseaux sociaux (veille et capture sur le-rputation de la marque)
Les intervenants sur le projet sont pluridisciplinaires : un data scientist, un architecte
Big Data (Hadoop, Hbase), des dveloppeurs (java), un ergonome et un business analyste.
Le projet a t ralis en mode agile (scrum master, product owner).
Les processus mis en place suivent la logique : collecte, stockage, traitement (constitution
des rfrentiels), analyse, modlisation prdictive et restitution.
Aspect novateur
La solution C.I.M. amne lensemble des innovations :
- collecte de donnes htrognes, en quelques clics
- stockage et analyse en temps rel dans un environnement Big Data et cration la vole
de rfrentiels,
- interface de visualisation unique et novatrice conue et utilisable directement par le mtier,
- constitution dun modle statistique permettant de prdire les futures interactions clients
(attrition, insatisfaction, abandon de panier).

Customer Interaction Management


Comprendre, anticiper et actionner en temps rel les parcours cross canal de vos clients

@ @
Achat infos produit
infos produit
MAgAsin WEB
WEB

E-mail Offre promo Achat


MAgAsin
nEWsLETTER
@ E-MAiL

infos
Achat
WEB
Rception
E-MAiL
Achat CALL CEnTER
MAgAsin
Visite Publication Publication
MAgAsin TWiTTER FACEBOOK
57 456 CLiEnTs

sMs

Like Retour Produit


Rception MAgAsin
sMs FACEBOOK

Add intelligence to Data Copyright, tous droits rservs, A.I.D. 2014

47
www.aid.fr
AMAZON WEB SERVICES

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Amazon Web Services (AWS) est une compagnie dAmazon.com, cre en 2006, qui offre
ses clients un accs des services dinfrastructure dans le cloud afin de leur permettre de
AMAZON WEB SERVICES INC crer des applications sophistiques et extensibles.

410 Terry Avenue North, Seattle, WA Aujourdhui, AWS offre plus de quarante services ses centaines de milliers de clients,
98109 grandes et petites entreprises, dans 190 pays, tout en tant un rel moteur pour linnovation
dans de nombreux domaines comme les mdias, la finance, le e-commerce,

Tl +33 (0)1 46 17 10 08 Amazon Web Services propose notamment aux scientifiques, dveloppeurs et aux autres
professionnels ayant des problmatiques Big Data, de tirer parti du cloud pour effectuer
Mail lavocats@amazon.fr leurs analyses et relever les dfis lis laugmentation du volume, de la diversit et de la
vitesse des informations numriques. En effet, Amazon Web Services fournit un catalogue
complet de services cloud afin daider ses clients grer le Big Data pour obtenir un avan-
tage concurrentiel et augmenter leur rythme dinnovations. Plus de dtails sur les services
CONTACT Big Data du cloud AWS : http://aws.amazon.com/fr/big-data/
Stphanie
LAVOCAT

Marketing Manager, France

Cloud-based services
for Big Data
Manage, Analyze and
Increase Innovation

;sl
pa kk
ihg iuo
uihmginhu
g af lakg
poillfhla
gfafhlag ag jjuakg
dsafhfhlag yy6uakg
vsgsfgc g dsa
dchfhlag g
iiegjh kl, uaf lak
saffynmffd g
dsa lk;
jgh sd d fhlaghgg
qwmjkk fd
jgl 0f
mn

AWS ecosystem of software solutions


Pensez Big Data, pensez Cloud

Lide nouvelle du Big Data est de rassembler la totalit des donnes dusages historiques
disponibles (logs, donnes patrimoniales, rseaux sociaux...) sans pr-formatage ou
pr-filtrage, puis de traiter ces donnes a posteriori sur des historiques de plusieurs mois
voire plusieurs annes.

Se lancer dans un projet de Big Data dans le cloud apporte une valeur unique par rapport
des infrastructures sur site, notamment dans les tapes de stockage et danalyse:

Stockage lastique : le principe est davoir une capacit illimite dans laquelle les clients
ne paient que pour le stockage rellement utilis, sans engagement dans le temps.

Capacit serveurs la demande : les clients ont accs la demande et en quelques


minutes des serveurs virtualiss pour effectuer des traitements sans limite de taille. La
facturation des ressources est lheure dutilisation.

Cest dans ce domaine que les technologies lastiques proposes par le cloud Amazon
Web Services prennent tout leur sens. Larchitecture informatique lastique (stockage, ser-
veurs...) propose par AWS sadapte aux projets Big Data ponctuels ou rcurrents des entre-
prises de toutes tailles.

Rendez-vous sur: aws.amazon.com/big-data pour dcouvrir comment les services AWS


vous aident grer vos projets Big Data en rduisant les cots, pour obtenir un avantage
concurrentiel et augmenter le rythme de vos innovations.

Cas dusage AWS : Botify


Botify est une start-up franaise qui utilise lanalyse Big Data pour faire progresser lau-
dience SEO et le chiffre daffaires de leurs clients tels que Dailymotion, Viadeo, Hotels.com,
BlaBlaCar, ELLE et Venere.com. En effet, Botify gre aujourdhui lanalyse de plus dune cen-
taine de millions de pages ce qui impose la start-up des services afin de mieux dadapter
aux besoins de ses clients en leur permettant de rcuprer les informations indispensables
en termes doptimisation du rfrencement sur les moteurs de recherche. Lorsque Botify
crawl un site de 1 million de pages, ils accumulent plus de 100 Go de donnes. Botify uti-
lise donc la plateforme AWS pour sa capacit de calcul haute performance mais aussi pour
son faible cot, sa flexibilit et sa simplicit, qui permet lentreprise de gagner du temps
en phase de lancement de projets et pour la gestion des requtes. Plus dinformation sur
Botify : www.botify.com

49
BIME ANALYTICS

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES BIME est un service de Business Intelligence moderne. N dans le Cloud et dimmensionn
pour vos Big Data, BIME a t pens pour les entreprises devant mixer leurs donnes pour
BIME ANALYTICS identifier leurs facteurs cls de russites. BIME masque la complexit pour lutilisateur
mtier : il ne ncessite aucune infrastructure complexe, ni serveurs, ni logiciel client. Un
1 place Francis Ponge simple navigateur, uniquement.
34000 Montpellier
BIME se connecte aux nouvelles sources de donnes en ligne telles que Salesforce, Twit-
ter, Facebook, Youtube, Google Analytics ainsi quaux donnes installes dans lentreprise -
Tl +33 (0)4 67 41 60 35 base de donnes propritaires comme Oracle, Excel et plus. Ralisez vos analyses person-
nalises et transposez les en graphiques visuels interactifs pour crer vos propres tableaux
Mail stephan.khattir@bimeanalytics.com de bord. Partagez-les en temps rel via un simple lien URL : consultez et modifiez-les sur
tablette ou mobile pendant vos dplacements.
BIME propose une srie de connecteurs Big Data tels que Google BigQuery, Amazon
Redshift, SAP HANA, HP Vertica et propose des solutions de Stockage Cloud extensibles
CONTACT pour analyser vos flux de donnes, sans limite. Depuis votre navigateur.
Stephan La nouvelle version BIME V6 marque une tape importante dans lre des applications de
Business Intelligence. Sinspirant des meilleurs applications grand public, elle prsente
KHATTIR
une interface utilisateur de nouvelle gnration, fluide, rapide, claire et lgante. Toute
la complexit habituellement associe aux outils BI disparat au profit de lefficacit et du
Directeur des Ventes EMEA plaisir de travailler sur vos jeux de donnes.

BIME V6 vous accompagne toute la journe pour rpondre vos questions mtiers au fur
et mesure quelles se posent. Vous ne serez pas uniquement dans la consommation de
tableaux de bord construits par vos analystes mais vous pourrez les interroger, posez vos
propres questions, nimporte o, depuis votre tablette aussi facilement que lorsque vous
crez une prsentation. Utilisez lintgralit du Cloud comme votre propre data warehouse,
crez et partagez vos analyses la qualit visuelle la plus moderne.
Weekendesk.com,
Business Analytics 100% en ligne

Porteur du projet
Adrien Charaix, Business Analyst / Contrleur de gestion. adrien.charaix@weekendesk.fr
Objectifs
Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts sjours
en Europe. Le site gnre plus de 46M de Volume dAffaires sur les 3 pays que sont la
France, la Belgique et lEspagne. Port par le dpartement Finance & Business Analytics,
leur projet BigData sarticulait dabord sur une logique de sortie du Reporting en silo, d
lhtrognit de leurs sources de donnes. Il sagissait en priorit dagrger des donnes
financires et de les mixer avec celles du trafic de leurs sites web et du comportement de
leurs consommateurs.
Prsentation
a. Nature des donnes traites : Weekendesk est un site web marchand dont les 25000
commandes par mois gnrent un important volume de donnes transactionnelles entre
les clients et les htels. Weekendesk analyse aussi constamment lvolution de son trafic et
son taux de conversion clients en rapport avec son offre produit et/ou service de son cata-
logue. Avec plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google
Analytics. Les donnes transactionnelles de rservation sont stockes dans des bases de
donnes SQL et un ERP propritaire en ligne. Dautres donnes sont disponibles dans le
Google Drive de lentreprise.
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne) : Le Reporting tait prcdemment produit via Excel avec une
multitude de tableaux croiss dynamiques associs et donglets, pour couvrir tous les in-
dicateurs cls des diffrents dpartements mtiers. Ce Reporting a rapidement atteint les
limites techniques dExcel (volumtrie croissante et problme de disparit des donnes),
devenant difficilement exploitable. En slectionnant BIME, Weekendesk peut dsormais re-
produire son schma de Reporting initial avec comme amlioration majeure la fluidit de
se connecter nativement toutes les sources de donnes (SQL, Google Analytics et Drive)
depuis un seul et mme endroit, puis dagrger les informations en quelques clics, pour en-
fin construire et partager des tableaux de bord de pilotage en ligne avec le top management
et les diffrents dpartements.
c. Calendrier de dploiement : Le projet a dmarr en avril 2014. La Direction analyse les
tableaux de bord depuis aot 2014. Weekendesk a fait appel un intgrateur pour travailler
en amont les connexions on premise aux bases de donnes SQL.
Aspect Novateur
Weekendesk est une socit 100% web, oriente cloud et mobilit. Chaque employ doit im-
prativement accder ses donnes mtiers depuis nimporte o. La solution de Business
Intelligence de BIME, 100% web correspond parfaitement cet ADN. Grce la gestion des
profils et droits utilisateurs, chaque Business Analyst rentabilise son temps de production
des analyses. Un mme tableau de bord, agrgeant plusieurs sources de donnes, peut
en effet tre partag avec le Comit de Direction et les dpartements mtiers. Le Comit
accde aux informations globales de lentreprise tandis que les mtiers (vente, marketing)
ne voient quun primtre autoris.
Valorisation observe de la donne
Exploitation de la richesse du croisement des informations multi sources dans les tableaux
de bord, la vole, au mme endroit et en ligne. Production simplifie de graphiques vi-
suels permettant une comprhension rapide des performances des canaux dacquisition.
Visibilit accrue des rsultats des ventes web par rgion, par canal de vente (force de vente
interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un
contexte croissant de volume de donnes. Actualisation real time des indices de comptiti-
vit des offres, disponibles en ligne pour les mtiers, chacun tant capable dexcuter des
requtes adhoc pour rpondre leur question.
Etapes venir et dmarche Big Data dans lentreprise
Optimisation, augmentation et mix des collectes de donnes de ventes et de rservations
pour renforcer la granularit de lanalyse au client prs. Objectif : migrer les donnes CRM
(dont Salesforce) & Marketing (dont les donnes dAttribution comme C3 Metrics) dans
Google BigQuery pour produire des tableaux de bord des profils clients et de leurs com-
portements dachats, le plus rapidement possible. Bnficier des technologies Cloud pour
rester fidle lADN Web de Weekendesk et disposer dune plateforme danalyse puissante
connecte en direct toutes les sources de lentreprise, pouvant grandir linfini.

51
www.bimeanalytics.com
BITTLE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES BITTLE est le premier moteur dcisionnel conu et imagin pour fonctionner en mode
Cloud Computing. Loffre est propose en mode web selon le principe du Software as a Ser-
BITTLE vice (SaaS), et dispose de capacits de traitement et de stockage quasi illimites.

235 Rue Denis Papin Fonctionnellement, BITTLE permet de suivre et piloter les indicateurs cls de lensemble
Domaine du Tourillon Bt C des activits de la socit, en analysant les donnes sources de manire simple, efficace et
ludique. BITTLE sadresse tous types de structures qui recherchent une solution dcision-
13 857 AIX EN PROVENCE Cedex 3 nelle complte, package et prte lemploi permettant de crer et de partager facilement
Tl +33 (0)4 42 12 54 57 des tableaux de bord dans un environnement entirement scuris.
Mail contact@bittle-solutions.com Notre vision est dapporter aux marchs viss une plateforme de Business Intelligence
communautaire, comprhensible par tous (aucune comptence technique en informatique
requise). Marketing, Ventes, RH, Finance, Achats, Informatique quel que soit votre mtier,
Bittle vous permettra de suivre vos indicateurs et analyser vos donnes.
CONTACT
Christophe Toutes les organisations, quelque soit leur taille, prives ou publiques, sont de plus en plus
demandeuses de solutions de Business Intelligence pour grer lensemble de leurs acti-
SUFFYS
vits. Les solutions prsentes sur le march ne rpondent cependant pas leurs besoins,
pour diffrentes raisons, que ce soit la complexit de ces solutions, leur cot, ou encore les
Prsident dlais de mise en uvre.

En proposant une solution BI MultiCloud, simple mettre en place, simple utiliser et un


prix attractif sous forme dabonnement mensuel, BITTLE saffranchit de lensemble de ces
freins et simpose comme La solution dcisionnelle pour tous.

MY BIGDATA MY DECISION
Depuis sa cration, Bittle a pour ligne de conduite de vouloir rvolutionner la
faon dapprhender la Business Intelligence. Bittle dcide maintenant daller
encore plus loin en rvolutionnant le march du Big Data avec le mme souci de
dmocratisation.
La plateforme BittleGoBig permet ainsi de travailler sur les donnes de masse qui
peuvent tre gnres au travers de diffrents types dvnements.

La seule solution
intgre de Big Data la porte de tous!
BittleGoBig
My BigData, My Decision

Depuis sa cration, Bittle a pour ligne de conduite de vouloir rvolutionner la faon dap-
prhender la Business Intelligence. Bittle dcide maintenant daller encore plus loin en
rvolutionnant le march du Big Data avec le mme souci de dmocratisation.
Prsentation
La plateforme BittleGoBig permet de travailler sur les donnes de masse qui peuvent tre
cres au travers de diffrents types dvnements. Elle permet, entre autres, des utili-
sateurs de gnrer des donnes qui ne sont actuellement pas traites informatiquement,
comme par exemple des indicateurs dutilisation, de satisfaction, de ressenti, ou encore des
comportements dutilisateurs sur des sites internet, ou sur une application mobile.
Loffre BittleGoBig se dcoupe en deux grandes parties. La premire partie sarticule au-
tour de la cration dun moteur OLAP bas sur des technologies Big Data, appele Bittle
Foundation. La seconde partie est la mise en place de connecteurs permettant la r-
cupration de donnes simplement au travers dune multitude de sources, appele Data
Mixture.
Socle technologique de BittleGoBig, Bittle Foundation permet Bittle de supporter les
Big Data, sur deux aspects:
- Le stockage et linterrogation des donnes permettant davoir des tableaux de bord tou-
jours aussi ractifs quel que soit le volume trait.
- Lalimentation en masse, permettant le temps rel, lors de limport de donnes.

Data Mixture est une vritable bote outils, permettant aux utilisateurs de collecter et
mixer des donnes la vole provenant de sources multiples, imagine pour les utilisateurs
ne possdant quun lger vernis technique.
Ce module est aussi un puissant middleware destination du dpartement informatique
dsireux de rcuprer facilement les donnes produites par les applications existantes au
sein du SI de lentreprise via des APIs intgres.
Aspect Novateur
Laurat du Concours Mondial de lInnovation 2030, Bittle innove dans sa proposition en in-
tgrant diffrentes composantes permettant de couvrir tous les aspects du Big Data tout en
le rendant plus accessible et plus simple.
Comment ? Les outils ddis au Big Data ncessitent aujourdhui des connaissances tech-
niques, afin de comprendre les concepts utiliss et pouvoir mettre en place de tels sys-
tmes.
Bittle ayant dj russi simplifier le dcisionnel standard, pour que des utilisateurs sans
connaissance technique puissent facilement donner du sens leurs donnes, veut mettre
tout son savoir-faire et son exprience pour reproduire ce succs en dmocratisant la mise
en place de systme Big Data.
De plus Bittle, ayant dj dvelopp un ETL accessible
des utilisateurs sans connaissance technique, va rvolu-
tionner la rcupration et la gnration de donnes de
masse au travers de la mise en place de son module Data
Mixture tout en gardant cette phase simple dutilisation
et extrmement graphique.
Bittle deviendra donc par consquent le rceptacle central
des donnes de chaque entreprise, et le meilleur moyen
de communiquer tant en interne quen externe ... le tout
sans tre informaticien.
Valorisation observe de la donne
Les cas dutilisation de BittleGoBig sont multiples. Ils
vont du secteur des Facilities, pour une optimisation de la
consommation nergtique des btiments en traitant une
trs forte volumtrie de donnes issues des compteurs
mais aussi de sondes ou de capteurs, au secteur des t-
lcommunications, pour analyser les vnements sur les
rseaux mobiles, en passant par le marketing et lanalyse
comportementale, la golocalisation, ou encore le web,
pour suivre et analyser les actions effectues par les in-
ternautes sur un site ou une application web.

53
www.bittle-solutions.com
BLUESTONE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES La Data Science au service de la performance


Cre en 1998 pour rpondre des enjeux dexploitation avance de la donne, Bluestone a
BLUESTONE toujours considr quune utilisation raisonne des donnes permettait aux entreprises de :
Crer la connaissance en analysant de faon approprie les donnes et informations disponibles
55, rue du Faubourg Montmartre Mobiliser la connaissance dans laction, grce la mise en place dapplications Data Driven .
75009 Paris La rvolution industrielle que constitue le Big Data valide totalement ce point de vue.
Lexploitation avance de la donne est, en effet, dsormais perue par la plupart des entreprises
comme un levier dinnovation extrmement fort tous les niveaux.
Tl +33 1 53 25 02 10 Dans ce contexte, et avec une quipe de 130 Data Scientists, nous sommes aujourdhui lun
des acteurs leaders dans ce domaine :
Fax +33 1 53 25 02 11
Conseil : Accompagnement des stratgies de Data Innovation et de Management de
Mail franck.bellenger@bluestone.fr lInformation au service des mtiers
Science : Expertise dans les domaines de la statistique, du datamining, du machine-learning,
et de la recherche oprationnelle
CONTACT Technologie : Conception darchitectures Big Data industrielles, et dveloppement dapplications
Franck Data Driven oprationnelles.
BELLENGER
Notre offre de services est organise autour de 3 practices mtier :
Sales & Marketing : Connaissance & exprience clients, tarification & yield management,
Directeur Commercial marketing produit & mix modelling, pilotage & prvision des ventes
Risque & Finance : Modlisation & gestion du risque, dtection & gestion de la fraude,
planification & consolidation, pilotage de la performance globale
Oprations & Production : Ressource planning & supply chain, maintenance prdictive &
smart alarming, pilotage & exploitation de rseaux complexes.

Dans chacun de ces domaines, nous disposons dune quipe de consultants ayant dvelopp
une comptence et une exprience spcifique en la matire, qui nous permet dassurer un
relais efficace entre les besoins mtier de nos clients et les rponses scientifiques et techniques
que nous leur apportons.
Dveloppement dune plate-forme
de scoring de brevets

Porteur du projet
Caisse des Dpts Proprit Intellectuelle
Objectifs
Le march des brevets est ce jour un march encore peu transparent, sur lequel il est
difficile -et coteux- de disposer dune valorisation objective des biens changs.
Le projet sinscrit dans ce contexte, et a pour objectif de dvelopper une plate-forme per-
mettant -sur la base des nombreuses informations publiques disponibles- de noter len-
semble des brevets europens, et de mettre cette information disposition du public
concern (industriels, fonds dinvestissement).
Le principe de la notation repose sur une hypothse simple : les dcisions administra-
tives prises par le dposant dun brevet diffrentes tapes de son cycle de vie rvlent
la qualit de linvention que le brevet protge. Ds lors, la modlisation de ces dcisions
administratives , mises en relation avec des caractristiques observables du brevet (le
texte mme du brevet, le schma de citations inter-brevets), permettent dlaborer des
modles prdictifs de la dure de vie des brevets, et ainsi dapprocher leur valeur.
Prsentation
Nature des donnes traites : Les donnes traites portent sur lensemble des brevets
europens. Il sagit pour certaines de donnes structures (classification internationale
pour les domaines technologiques, citations de brevet brevet, cycle de vie administratif
du brevet), et pour lessentiel de donnes non structures (texte des revendications et des
descriptions, en franais, anglais ou allemand). Ces donnes sont collectes partir du
rfrentiel de brevets de Questel (fournisseur de donnes spcialis), et du site de lOffice
Europen des Brevets.
Ressources et mthodologie : Lensemble des donnes collectes est transform puis stoc-
k et historis sur une plateforme Hadoop.
Les processus algorithmiques de calcul des notes qui impliquent des traitements statis-
tiques complexes, ainsi que des traitements de type textmining sur de gros volumes- sont
excuts automatiquement sous forme de batch, ou la demande selon le paramtrage
choisi par lutilisateur (slection dun rfrentiel de calibration des modles, modification
des caractristiques des brevets valus).
Calendrier de dploiement : Aprs plusieurs exprimentations et tests en grandeur nature
auprs dutilisateurs pilotes, une premire version accessible au public sera lance au prin-
temps 2015.
Aspect novateur
Le scoring labor dans le cadre de ce projet est le seul qui permette une combinaison algo-
rithmique de nombreuses caractristiques des brevets, dont certaines issues dune approche
textmining peu ou pas utilise jusquici. Laccent est galement mis sur la possibilit de d-
composer le score selon les caractristiques les plus influentes du brevet, ce qui garantit
la transparence des algorithmes de calcul utiliss. Enfin, les utilisateurs les plus avancs
peuvent choisir un univers de rfrence pour la calibration des modles, et obtenir des notes
pour leur portefeuille et ceux de leurs concurrents aussi pertinentes que possible.
Valorisation observe de la donne
La notation des brevets propose permet de nombreux usages pour diffrents types dac-
teurs de la proprit intellectuelle. Dans le cadre dune revue de portefeuille acqurir, elle
peut par exemple aider des experts valuateurs de brevets identifier plus rapidement les
meilleurs brevets. Elle permet de prendre en compte le portefeuille de brevets dune soci-
t pour aider aux dcisions dacquisition ou de financement. Au sein dun dpartement de
proprit intellectuelle, elle offre aussi un moyen de valoriser son portefeuille par rapport
celui de ses concurrents
Etapes venir et dmarche Big Data dans lentreprise
Les mois qui viennent vont permettre de porter lensemble des traitements en environne-
ment de production.
En outre, les algorithmes de notation seront probablement encore affins pour tenir compte
des retours des premiers utilisateurs. Pour cela, il est notamment envisag dorienter le
projet vers une logique dopen innovation grce la plate-forme datascience.net.

55
www.bluestone.fr
CAPGEMINI

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Dans un monde constamment connect , les sources de donnes se sont multiplies,
des puces RFID aux transactions en ligne en passant par les analyses des codes QR et les
CAPGEMINI messageries instantanes des rseaux sociaux. Non seulement le volume de donnes gr
par les entreprises a explos, mais analyser le pass ne suffit pas : pour pouvoir bnficier
7, rue Frdric Clavel dun vritable avantage concurrentiel, vous devez anticiper lavenir.
92287 Suresnes Cedex
Cest l que lexpertise Big Data de Capgemini entre en jeu. Car si le march volue et les
solutions Big Data se dmocratisent rapidement, les entreprises peuvent encore avoir des
Tl 01 49 00 40 00 interrogations sur les choix technologiques, dinfrastructure ou dorganisation. Capgemini
dispose dun solide savoir-faire avec notamment un centre dexcellence, un lab et des
Mail valerie.perhirin@capgemini.com quipes exprimentes.

A propos de Capgemini
Fort de plus de 130 000 collaborateurs et prsent dans plus de 40 pays, Capgemini est lun
CONTACT des leaders mondiaux du conseil, des services informatiques et de linfogrance. Le Groupe
Valrie a ralis en 2013 un chiffre daffaires de 10,1 milliards deuros.
PERHIRIN Avec ses clients, Capgemini conoit et met en uvre les solutions business et technolo-
giques qui correspondent leurs besoins et leur apporte les rsultats auxquels ils aspirent.
Responsable France de loffre Big Data Profondment multiculturel, Capgemini revendique un style de travail qui lui est propre, la
Collaborative Business ExperienceTM , et sappuie sur un mode de production mondialis,
le Rightshore .

Plus dinformations sur : www.fr.capgemini.com

Rightshore est une marque du groupe Capgemini

Capgemini 2014. * Lhomme est vital, le rsultat capital


Nous sommes ceux qui transformons
les innovations technologiques
en rsultats business.

Business Analytics et Big Data : les nouveaux enjeux de lefficacit business


www.fr.capgemini.com/business-analytics-et-big-data
Tlcom : optimiser lutilisation
rseau grce au Big Data

Porteurs du Projet
La division Global Solution dun acteur international dans le secteur des Tlcoms, trs
prsent en Europe et en Amrique du Nord
Objectifs
Notre client a missionn Capgemini pour dvelopper une solution sappuyant sur des ou-
tils Big Data afin de : Prdire les futures hausses du trafic sur des marchs et des rgions
spcifiques Identifier les zones o le rseau tait surdimensionn ou sous-dimensionn
Identifier les zones o la croissance du trafic pourrait amener des opportunits de ventes
supplmentaires.
Prsentation
Notre client cherchait optimiser son rseau, amliorer sa qualit de service et iden-
tifier des modles de comportements sociaux permettant dinitier de nouvelles activits
gnratrices de revenus. Pour y parvenir, la socit a d convertir ses donnes relatives
lutilisation de son rseau en informations effectivement exploitables. La socit craignait
notamment que le trafic rseau, pour ses offres de gros destines aux entreprises, ne soit
en baisse en raison dune concurrence agressive obligeant les socits offrir des prix plus
bas aux clients.
a. Nature des donnes traites :
Capgemini a fourni au client une solution lui permettant danalyser ses donnes via de
nombreuses sources dont :
le trafic rseau les informations sur les lignes rseau la qualit de service les infor-
mations sur les systmes autonomes les donnes dmographiques
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne)
Capgemini a tir parti des modles de thermodynamique sociale qui permettent deffectuer
des analyses et des prdictions sur lutilisation du rseau.
Les rapports ont t produits via la solution SAP Business Objects BI 4.1. Cloudera
Enterprise 4.5 a t utilis comme plate-forme Big Data, tandis que les requtes ont t
traites directement avec Cloudera Impala.
La solution incluait galement :
Lutilisation des mthodes agiles Lintroduction dun outil ESB/ELT pour lintgration des
donnes Lutilisation dun processeur graphique (GPU) pour parallliser grande chelle
les calculs thermodynamiques Lutilisation dun modle thermodynamique pour lanalyse
de donnes
c. Calendrier de dploiement : Confidentiel
Aspect Novateur
Utilisation dalgorithmes scientifiques permettant de mieux modliser le trafic internet
et le comportement des routeurs rseau.
Utilisation de technologies Hadoop Cloudera dans le cloud AWS, pour une plus grande
flexibilit de calcul.
Valorisation observe de la donne
Durant la premire phase du projet, les donnes ont t transfres et centralises dans
un Enterprise Data Hub. La solution Enterprise Data Hub de Cloudera offre une plus grande
souplesse et ractivit dans le stockage et lanalyse des donnes, tout en permettant au
client de rduire considrablement ses cots.
Le projet a galement permis au client de dtecter lavance les zones gographiques de
son rseau o il pourrait cibler ses investissements.
Autres bnfices notables pour le client :
Amliorations oprationnelles Identification de nouvelles opportunits commerciales
Amlioration de lappui stratgique aux activits commerciales Rapports dentreprise
plus flexibles, toutes les informations tant disposition dans un rfrentiel unique Pr-
dictions de rsultats plus prcises grce lutilisation des modles thermodynamiques
Etapes venir et dmarche : Confidentiel

57
www.fr.capgemini.com
CENTRALESUPLEC
EXECUTIVE EDUCATION
Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Le monde change, nous vous aidons changer


Par la complmentarit de leur offre de formation et de leurs activits de recherche, Centrale
CENTRALESUPLEC Paris et Suplec proposent une offre de formation continue trs complte qui couvre le champ
EXECUTIVE EDUCATION des Sciences de lIngnieur. Nos approches pdagogiques sattachent faire de la formation
Grande voie des Vignes continue un outil de valorisation et de reconnaissance pour les collaborateurs et les managers
92 295 CHATENAY MALABRY des entreprises, sans perdre de vue lamlioration de la performance de la structure.

Conjuguez management et technologies


Tl +33(0) 1 41 13 16 14 Parce que le monde change, parce quil change grande vitesse, les formations de
CentraleSuplec Executive Education sont non seulement axes sur les comptences, mais
Mail info@cf.ecp.fr aussi sur le dveloppement des capacits des individus et des entreprises changer de
faon continue. Cest un enjeu majeur qui ncessite autant dagilit que de talent.
CentraleSuplec Executive Education hrite de deux cultures frues dexcellence et rputes
pour leurs approches avant-gardistes de la pdagogie. Car Centrale Paris comme Suplec,
CONTACT les formations dpassent largement la seule acquisition de connaissances : lobjectif est de
Rania former des personnalits conscientes des grands enjeux conomiques, environnementaux et
sociaux de notre poque pour transformer le quotidien.
OUARET
La formation Big Data enjeux et opportunits
Charge daffaires SI A lre du numrique, le dluge de donnes cre de nouvelles opportunits conomiques
pour les entreprises. Toute la chane du dcisionnel est impacte par ces Big Data , de la
collecte des donnes htrognes leur analyse et leur visualisation, en temps contraint.
Diffrents mtiers de lentreprise sont galement impacts par ce phnomne comme le
marketing ou la stratgie dentreprise.

Objectifs de la formation
COMPRENDRE les enjeux des Big Data IDENTIFIER les opportunits travers lopen
data et les cas dusage mtiers ACQURIR le vocabulaire li cet cosystme complexe
ADAPTER la stratgie dentreprise MATRISER les enjeux juridiques et lis la protection
des donnes ACQURIR les technologies des Big Data (acquisition et stockage des
donnes, traitement distribu, analyse de donnes large chelle) MATRISER les
technologies par des tudes de cas concrtes CONCEVOIR un projet Big Data.

Les formations continues BIG DATA


de CentraleSuplec Executive Education
Stratgiques pour vous. Essentielles pour votre entreprise.
EXECUTIVE CERTIFICATE BIG DATA POUR LENTREPRISE NUMRIQUE_
Parce que ENJEUX, PERSPECTIVES ET PANORAMA DES BIG DATA_
votre ASPECTS JURIDIQUES ET PROTECTION DES DONNES_
comptence
ACQUISITION ET STOCKAGE DES DONNES_
est linstrument
TRAITEMENT DISTRIBUE_
privilgi
ANALYSE DE DONNES & BIG DATA, CONFESS YOUR DATA_
de votre
croissance. CADRAGE ET MANAGEMENT DE PROJETS BIG DATA_
EXP&RIENCE

+ DES FORMATIONS SUR MESURE, PERSONNALISES, ADAPTES VOS BESOINS_

Documentation et catalogue
www.cf.ecp.fr
Conseil et accompagnement
01 41 13 16 14 / info@cf.ecp.fr
EXECUTIVE
EDUCATION
Le monde change. Nous vous aidons changer.
Interview de Marie Aude Aufaure

4 questions Marie Aude AUFAURE

Responsable pdagogique des formations Big Data CentraleSuplec


Expert auprs de la commission europenne sur les appels projets Big Data

Pourquoi se former sur les Big Data ?


Les Big Data constituent un enjeu la fois en termes dopportunits business et de dfis
scientifiques et techniques. Cest un vecteur dinnovation et limpact socio-conomique est
fort. La bonne utilisation des donnes massives peut accroitre la productivit, linnovation
et la comptitivit dans des secteurs conomiques entiers. Dans de nombreux domaines,
tels que lnergie, le commerce lectronique, le secteur public, les mdias, lenvironnement
pour nen citer que quelques-uns, les donnes massives saccumulent. Ces donnes se
caractrisent par une volumtrie importante, une forte htrognit et une provenance
en temps rel. Leur gestion et leur exploitation deviennent des enjeux stratgiques, en
mettant en uvre des mthodes danalyse capable de passer lchelle Big Data. Le
mtier de Data Scientist merge, ncessitant une solide connaissance en statistiques et
mthodes avances danalyse de donnes combine une comprhension de la gestion
de donnes passant lchelle, sur les aspects techniques et implmentation. Un autre
spcialiste des Big Data, le Data Engineer, doit tre capable de dvelopper des techniques,
processus et mthodes pour transformer les donnes en business et gnrer de la valeur.

Quelle est la valeur ajoute de CentraleSuplec Executive Education sur ce sujet ?


Cette formation intgre la fois les aspects techniques et managriaux des fonctions lies
aux Big Data. En effet, il est important de comprendre leurs enjeux, les aspects lgaux lis
la scurit et la protection des donnes personnelles mais
aussi dtre en mesure de mettre en uvre un projet Big Data sur
le plan technique. La formation dlivre par CentraleSuplec
Executive Education aborde lensemble des diffrentes
facettes de la gestion et de lexploitation des donnes massives,
des cas dutilisation et de la stratgie dentreprise.
Cette formation est galement modulaire, conduisant des cer-
tifications intermdiaires (globale, management ou technique).

Vers qui est oriente cette formation ?


LExecutive Certificate Big Data pour lentreprise numrique est
destin un public de Directeurs/chefs de projet, managers des
systmes dinformation, experts en business intelligence,
ingnieurs de recherche et dveloppement, consultants
techniques, data miners.

Quelles en sont les modalits (dure, implication ncessaire,


pr-requis, etc)
La formation dure 20 jours (140 heures) et donne lieu une
certification base sur un test de connaissances pour chaque
module et un mmoire avec soutenance en fin de cursus. La
formation inclut une journe daccompagnement la prpa-
ration du mmoire et la soutenance. Les mthodes pdago-
giques sont bases sur un expos de ltat de lart, des mises
en pratique via des logiciels spcifiques et des tudes de cas.
A ceci sajoutent des retours dexprience dindustriels du
domaine sous forme de webinars qui pourront tre suivis en
ligne avec une sance de questions/ rponses, ou de manire
diffre.

Deux certifications intermdiaires sont galement prvues,


lune dune dure de 6,5 jours abordant les aspects enjeux, ju-
ridiques et gestion de projet et la seconde dune dure de 16
jours abordant les aspects techniques : stockage, traitement
distribu, analyse, gestion de projet ainsi que les enjeux.

59
www.cf.ecp.fr
CLOUDERA

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Cloudera rvolutionne la gestion des donnes dentreprise avec la premire plateforme
unifie pour le Big Data base sur le framework Apache Hadoop. Cloudera fournit aux en-
CLOUDERA FRANCE SRL treprises un lieu unique pour stocker, traiter et analyser leurs informations, tout en crant
de nouveaux moyens de maximiser la valeur des investissements existants et de gnrer
Mail emea-enquiries@cloudera.com davantage de valeur partir de leurs donnes. Pionnier de Hadoop ds 2008, Cloudera
demeure le principal fournisseur et dfenseur du framework Apache dans les entreprises.
Cloudera propose galement des logiciels de gestion dapplications critiques stockage,
accs, gestion, analyse, scurit et recherche de donnes. Cloudera collabore avec plus de
1 000 fournisseurs de matriels, logiciels et services pour rpondre aux objectifs ambitieux
de ses clients.

CONTACT Interview de Romain Picard


Romain Romain est entr chez Cloudera en Juillet 2014, dans le cadre de la stratgie dimplantation
PICARD de la socit en Europe. Constatant une forte demande de solution Hadoop, Cloudera a mis
en place un plan de dploiement ambitieux, incluant dimportants recrutements.
Romain en est persuad : les donnes sont le nouvel or noir , mais cest aussi une ma-
EMEA Regional Director tire contrler.
Dans un premier temps, Hadoop permet la dmocratisation du Big Data. Laugmentation
des volumes de donnes nest pas rserve quaux grands acteurs, toute entreprise tra-
vers le monde est concerne, PME y compris. Toute entreprise peut dsormais mettre en
place une infrastructure Hadoop, centralise et accessible aux mtiers en permanence.
Chez Cloudera, on lappelle lEnterprise Data Hub. Lintrt tant davoir accs toutes les
donnes quand on le souhaite sans limite de temps.
Toute la problmatique rside alors dans leur exploitation. Comme le dit Romain, comment
passe-t-on des donnes linformation ? Cest l quintervient le datascientist, lment in-
contournable qui dtermine quelles donnes seront utiles pour gnrer quelle information.
Reste convaincre les mtiers de leur intrt et les pousser se poser des questions quils
nauraient pas imagines auparavant.
Lintrt valid, demeure la question de la scurit. Si de nombreuses problmatiques m-
tiers sont adresses au sein de lentreprise grce Hadoop, il est indispensable de dfinir
qui a accs quelles donnes. Avec lacquisition de Gazzang, Cloudera se dote dun outil
capable de grer cette question et devient le premier fournisseur capable doffrir une solu-
tion Hadoop entirement scurise. Les donnes sont encodes, anonymises, leur accs
au sein de lentreprise est limit et monitor en temps rel, ceci pour rpondre des pro-
blmatiques de compliances, audits, etc.

Dernier point important daprs Romain : la simplification IT. Plus de silot avec des sys-
tmes transactionnels de partout mais un seul Enterprise data Hub. Un seul et mme r-
ceptacle accueille toutes les donnes, qui sont ensuite analyses par des outils simples
et intuitifs selon les besoins de chaque mtier. Cloudera apporte pour sa part lexpertise
fonctionnelle et des supports tels Cloudera Manager.
Chaque secteur et chaque mtier adresse ses propres problmatiques. Dans le retail, la
capacit de positionner le bon produit au bon moment un client donn amliorera la com-
ptitivit. Que ce soit augmenter le CA, limiter les cots, amliorer la qualit de vie, garantir
la scurit, offrir des services innovants Le Big Data rpond prsent.
Romain nous relate alors une anecdote de son dirigeant, Tom Reilly, qui alors quil se trou-
vait au volant de sa voiture en Californie, entendit la radio un alerte tremblement de terre,
dcomptant 8 secondes avant quelles surviennent les secousses. 8 secondes avant ? En
quoi cela est-il utile ? Si un humain a en effet peu de capacits de raction en un temps aus-
si court, les machines, elles, trouvent dans ces quelques secondes un intrt primordial.
Fermer un pont, bloquer des ascenseurs les alertes et raction automatises peuvent
viter de nombreux accidents.
De belles opportunits la cl

Le Big Data offre aux entreprises de diffrents secteurs une formidable opportunit. En
exploitant de nouveaux gisements de donnes de toutes sortes, elles peuvent poser des
questions nouvelles et originales concernant leurs clients et leur activit. Par exemple, les
entreprises utilisent ces donnes pour amliorer lexprience vcue par leurs clients en vue
de les fidliser tout en gnrant une valeur ajoute accrue. Dans le mme temps, en dis-
posant dune vision pertinente et approfondie des activits commerciales, ces entreprises
peuvent identifier les zones dinefficacit qui, une fois traites, participeront potentielle-
ment la rduction des cots dexploitation.

La plateforme Enterprise Data Hub : la cl du succs pour le Big Data


Lobjectif est simple : acqurir et combiner tous volumes ou types de donnes en conser-
vant fidlement leurs caractristiques initiales en un seul endroit et aussi longtemps que
ncessaire, et offrir des informations pertinentes tous les types dutilisateurs, aussi vite
que possible, en utilisant les investissements et les ressources avec une efficacit maxi-
male. Place la plateforme Cloudera Enterprise Data Hub Edition !

Par rapport aux systmes existants, la plateforme Enterprise Data Hub Edition (EDH) de Clou-
dera prsente des avantages suivants :
> Des archives actives : Un endroit unique pour stocker toutes vos donnes, tous formats
confondus, sans limite de volume, aussi longtemps que vous le souhaitez. Vous pouvez ainsi
rpondre aux exigences de conformit et fournir des donnes sur demande pour satisfaire
aux exigences rglementaires, internes ou externes. Parce que ce lieu est scuris, vous
savez qui voit quoi, et grce aux services de gouvernance et de lignage, vous pouvez suivre
laccs vos donnes, ainsi que leur volution au fil du temps.
> Transformation et traitement : Les charges de travail ETL qui devaient auparavant tre
excutes sur des systmes coteux peuvent migrer vers la plateforme Enterprise Data
Hub o elles pourront tourner trs faible cot, en parallle et beaucoup plus rapidement.
Loptimisation de lemplacement de ces charges de travail et des donnes associes libre
de la capacit sur les systmes analytiques et les entrepts de donnes haut de gamme.
Ce sont par consquent de solides atouts capables de se concentrer sur les applications
critiques prises en charge, telles que les applications OLAP.
> Informatique dcisionnelle exploratoire (Self-service BI): Les utilisateurs veulent souvent
accder des donnes aux fins de reporting, dexploration et danalyse. Dans de nombreux
cas, les systmes dentrepts de donnes de production doivent tre protgs contre un
usage informel afin dtre en mesure dexcuter les traitements analytiques et opration-
nelles quils prennent en charge. Une plateforme EDH permet aux utilisateurs dexplorer
les donnes en toute scurit, en utilisant des outils dinformatique dcisionnelle (BI) inte-
ractifs traditionnels au moyen du langage SQL et de recherches par mot-cl.
> Fonctions analytiques avances : Plusieurs environnements informatiques (computing
frameworks) ddis aux fonctions analytiques, la recherche ou au machine learning, ap-
portent une nouvelle valeur aux sources de donnes, nouvelles et anciennes. Au lieu dexa-
miner des chantillons de donnes ou des instantans correspondant de courtes priodes
de temps, toutes les donnes historiques peuvent tre combines dans des analyses com-
pltes avec une parfaite fidlit. Des donnes tabulaires simples peuvent tre panaches
avec des donnes plus complexes et multi-structures, ce qui tait jusqualors impossible.

PLATEFORME ENTERPRISE DATA HUB DE CLOUDERA


des donnes

BATCH ANALYTIC SEARCH MACHINE STREAM 3RD PARTY


Gestion

PROCESSING SQL ENGINE LEARNING PROCESSING APPS

GESTION DE LA CHARGE DE TR
AVAIL

STOCKAGE DE TOUT TYPE DE DONNE


S
Administration

UNIFIES, LASTIQUES, RSILIENTES, SCURISE


S
du systme

Systme de fichier
s NoSQL en ligne

61
www.cloudera.com
CLUB DECISION DSI

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Le Club Dcision DSI, premier club franais ddi aux directeurs informatiques
Aujourdhui le Club Dcision DSI runit 1 100 membres directeurs Informatique & Tl-
CLUB DCISION DSI coms de socits du secteur priv et du secteur public dont le parc informatique est sup-
rieur 200 pc. Il rassemble des hommes et des femmes dexprience, anims par la volont
16 Place Vendme de mener des actions qui soutiennent dautres directeurs des systmes dinformation (DSI)
75001 Paris dans la ralisation de leurs projets professionnels.

Le club est administr par Vronique Daval, la prsidente, le vice-prsident, ainsi que par
Tl +33 (0) 1 53 45 28 65 un conseil central compos de neuf directeurs informatiques.
Mail club@decisiondsi.com

CONTACT
Vronique
DAVAL

Prsidente du Club

Chaque anne le club organise :


20 manifestations thmatiques par an.
7 vnements accessibles aux partenaires (diteurs de logiciels, constructeurs,
oprateurs tlcoms, SSII)
Les Rencontres de linnovation technologique
Le consortium du DSI
Les DSI Meeting (table rondes, dbats)
Le diner de Gala avec son village solutions (rserv aux membres et aux partenaires du
club)
Le dner de gala annuel

HELP DSI , le 1er Rseau francophone de 1100 DSI connects


HELP DSI ce sont des DSI, des groupes de DSI et des communauts de DSI qui changent en
associant leurs ides, leur exprience et leurs connaissances Afin doptimiser leurs choix
technologiques.

Le club dispose de son propre rseau social (RSE) sur lequel de nombreuses thmatiques
sont abordes qui permettent aux membres de capitaliser sur lexprience des uns et des
autres. Les ambassadeurs de Club Dcision DSI ont adopt cette solution afin damliorer
la communication entre les membres, de crer des groupes de rflexion sur des thma-
tiques varies, et de diffuser les comptences travers le rseau des membres au niveau
national et europen.

Ce moteur dexprience permet aux socits adhrentes de se servir des retours dexp-
rience des projets IT mis en place par les membres.
Chaque anne les ambassadeurs identifient des thmatiques auprs des membres et dfi-
nissent un programme annuel consultable sur le site internet du Club :

www.club-decisiondsi.com
CSC

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Si vous aviez la possibilit de lobtenir, quelle information transformerait


CSC radicalement le mode de fonctionnement de votre entreprise ?
CSC fournit ses clients les fondations pour la gestion de linformation et les capacits analy-
Immeuble Balzac : 10 Place des Vosges
tiques leur permettant dobtenir un aperu sur le pass, le prsent et le futur.
92072 Paris La Defense Cedex Et nous pouvons les aider obtenir des rsultats en moins de 30 jours, ainsi CSC aide les
organisations tirer parti de la puissance des Big Data pour orienter leur activit et faire face
la concurrence.
Tl +33 (0)1 55 70 70 70
Mail lguiraud@csc.com CSC offre des services de Consulting couvrant les aspects Mtier, Data Science et Plateforme par-
tir doffres packages, des meilleures technologies, et dune plateforme combinant des solutions
traditionnelles et open source pour rsoudre les cas dusage les plus complexes de nos clients.

CONTACT A propos de CSC


CSC est un des leaders mondiaux des solutions et des services informatiques de nouvelle
Laurent gnration. Lentreprise se donne pour mission de faire fructifier les investissements tech-
GUIRAUD nologiques de ses clients, en associant son expertise mtier et sa dimension mondiale aux
meilleures solutions du march
Responsable Offre Big Data
Grce sa large gamme de comptences, CSC fournit ses clients des solutions sur me-
& Analytics France sure pour grer la complexit de leurs projets afin de leur permettre de se concentrer sur
leur cur de mtier, collaborer avec leurs partenaires et clients, et amliorer leurs perfor-
mances oprationnelles.

79 000 professionnels dans le monde travaillent chez CSC, au service de clients rpartis
dans plus de 70 pays. CSC a ralis un chiffre daffaires de 13 milliards de dollars au cours
de lanne fiscale clture le 30 mars 2014

STORM
R
HADOOP
D3
NOSQL

ERP
EDW
CRM
HCM
PLM

AUDIO/VIDEO
LOGS WEB
FLUX DE CLICS
DONNES DE CAPTEURS
MDIAS SOCIAUX
Big Data PaaS

La solution Big Data Platform-as-a-Service de CSC


est une plateforme Big Data entirement intgre
et opre, permettant nos clients de dvelopper et
tirer parti dun environnement Big Data en moins de
30 jours :

livre en mode as a Service


utilisant des technologies web scale avances
sappuyant sur des solutions open source et des
modles oprationnels utilises par Google, Yahoo!,
Facebook, Twitter & Linkedin.
supportant toute combinaison danalytique ad-hoc,
batch et temps rel

Avec Big Data PaaS il est beaucoup plus facile et


moins coteux de dvelopper, mettre en uvre et
oprer des applications Big Data.

BIG DATA
DES RSULTATS
TANGIBLES
AVEC LE

IONS
PLICAT
AP
ILIT
MOB

CONNAISSANCE GESTION
CLIENT DES RISQUES

CLOU
CY D
BER
SCU
RIT
OPRATIONS INNOVATION
INTELLIGENTES PRODUIT

65
www.csc.com
DATASTAX

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES DataStax paule les applications en ligne qui transforment lactivit de plus de 300 clients,
parmi lesquels de nombreuses start-ups et 20 des Fortune 100. DataStax offre une tech-
DATASTAX FRANCE nologie de base de donnes massivement extensible, flexible et constamment disponible,
intgrant une version dApache Cassandra certifie pour la production avec analyses, re-
121 avenue des Champs Elysees, cherches et scurit pour les donnes en temps rel, dans des centres de donnes multi-
Paris, France 75008 ples et dans le cloud. De grandes socits font confiance DataStax pour transformer leur
activit : Adobe, HealthCare Anytime, eBay, ou encore Netflix.

Tl +33 (0)1 72 71 85 85
Fax +33 (0)1 72 71 85 99
Mail svandenberg@datastax.com

CONTACT
Steve
VAN DEN BERG

DataStax Regional Director


Western Europe

Base de donnes distribue


pour les entreprises du Web
Commencez nimporte
quel niveau, expansif
souhait
Architecture toujours en
activit
Cassandra certifi pour les
dploiements en production
Dploiement sur site ou
dans le Cloud
Architecture dynamique et
flexible
www.datastax.com
Choisir une stratgie NoSQL

Les analystes sattendent ce que le march du NoSQL progresse trois fois plus vite que ce-
lui du SQL dans les prochaines annes. Les nouveaux venus dans le Big Data auront donc
coeur de comprendre pourquoi et comment ce type de technologie peut sadapter leur or-
ganisation. Les motivations pour passer au NoSQL sont lies aux besoins de performances,
de monte en charge, de trs haute disponibilit, de distribution gographique, de gestion
de tout type de donnes et de rduction des cots. Il existe cependant des obstacles ind-
niables son adoption, aussi bien techniques que non techniques. Il est important dtudier
ceux-ci en mme temps que les amliorations apportes par lcosystme NoSQL. Par ail-
leurs, il est important de connaitre les cas dutilisation afin de correctement introduire cette
technologie NoSQL dans lentreprise.

Choisir une base de donnes NoSQL


Le site Web nosql-database.org liste actuellement plus de 150 bases de donnes NoSQL
diffrentes. Avec une telle liste, comment trouver les candidats qui pourront convenir
votre scnario dutilisation ?

Principaux critres de choix : De nombreuses caractristiques et fonctions distinguent les


diffrentes bases de donnes NoSQL. On peut cependant saider de critres pour mieux
cerner celles qui conviendront une utilisation dfinie. Pour commencer, il faut savoir quel
type de donnes vous avez besoin de grer. En effet, les bases de donnes NoSQL utilisent
des modles de donnes trs divers (colonnes, documents, graphes) et linadquation
entre le modle de donnes et lapplication peut tre fatale au projet.
La monte en charge attendue : la question suivante concerne le potentiel de croissance
de lapplication et laugmentation du volume des donnes. Certaines bases de donnes
NoSQL se rsument principalement au stockage en mmoire. Elles sont donc difficiles et
coteuses faire monter en charge, la diffrence de Apache Cassandra, capable dune
extension linaire sur de trs nombreuses machines.

Le modle de distribution des donnes : il est important de dfinir le besoin de rpartition


des donnes, la prise en compte de plusieurs rgions gographiques et la ncessit de
rcupration aprs sinistre. Il faut aussi se demander si les lectures et les critures devront
toutes tre prises en charge sur les sites distribus. Certaines bases de donnes NoSQL
utilisent des architectures matre-esclave (bien que leur appellation soit parfois primaire/
secondaire ), qui permettent une monte en charge des oprations de lecture seulement.
Dautres architectures Peer-to-Peer (sans relation matre-esclave ) comme Apache
Cassandra, permettent de supporter laugmentation massive des besoins la fois en lec-
ture et en criture.

Le dploiement dune stratgie NoSQL dans votre entreprise impose donc de bien
comprendre pourquoi et comment les socits utilisant cette technologie ont russi. Il faut
galement dterminer comment votre activit va pouvoir bnficier des spcificits du
NoSQL. Une fois que vous aurez dcid quelle technologie NoSQL est faite pour vous, il vous
faudra encore comprendre les piges viter, les critres de choix selon vos applications et
la bonne stratgie de dploiement.

DataStax propose des logiciels, des services et des stratgies adapts lentreprise pour
vous aider russir votre conversion au NoSQL. Avec sa solution DataStax Enterprise
utilisant Apache Cassandra, scurise et prouve, son assistance 24 heures sur 24, ses
conseils et ses formations dispenss par des experts, DataStax peut vous aider tirer tout
le bnfice du NoSQL tout en facilitant le changement.

Pour en savoir plus sur Apache Cassandra et DataStax et tlcharger les logiciels Cassan-
dra et DataStax Enterprise, consultez le site www.datastax.com ou envoyez un message
info@datastax.com.

67
www.datastax.com
EDIS CONSULTING

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES EDIS est une structure spcialise dans les systmes daide la dcision et lun des plus
importants acteurs indpendants du march franais de la Business Intelligence.
EDIS CONSULTING - JEMS GROUP
EDIS accompagne ses clients dans la dfinition et le choix des technologies, linstallation de
6 bis rue des Graviers larchitecture BIG DATA ainsi que son intgration au sein de leur systme dinformation (SI).
92 200 Neuillly-sur-Seine
Associ JEMS Group, entreprise ddie aux systmes dinformation, EDIS dveloppe depuis
10 ans des offres de conseil et dintgration de solutions dcisionnelles couvrant toute la
Tl 01 47 89 63 10 chane de valeur jusquau pilotage de la performance des processus et des activits mtier.
Mail mbrancher@edis-consulting.com Avec une politique de partenariat active aux cts des principaux diteurs de Business Intel-
ligence historiques (SAP-BO, IBM, Oracle, MS), et des challengers aux solutions innovantes
et complmentaires (Talend, MAP-R, Tableau...), toutes les quipes EDIS rassembles en
ples dexpertise, maitrisent leurs outils, et sont formes aux meilleures mthodes et pra-
CONTACT tiques de conception, ralisation et de management de projets.
Matthieu LE ple BIG DATA, conoit et met disposition des clients, de tous secteurs dactivits, des
solutions innovantes permettant la collecte, le stockage, lanalyse en temps rel, la diffu-
BRANCHER
sion et la visualisation de donnes structures ou non structures.

Directeur Commercial EDIS propose une mthodologie de metadata enhancement permettant dextraire de la
pertinence et dexplorer de nouveaux axes danalyses dintrts pour les mtiers.

Cr galement en 2002, JEMS Group est LE cabinet en systmes dinformation, fond sur
des valeurs humaines solides pour ses clients et ses consultants.
Renforc en 2012 grce au rapprochement avec EDIS, JEMS possde un savoir-faire et un
savoir-tre qui assurent la russite de chaque projet. JEMS Group compte 260 collabora-
teurs et ralise 24,5 M de chiffre daffaires

BIG DATA
Datawarehouse

DATAvIsuAlIsATIon

DashboarDing

DATAvAlorIsATIon

haDoop

Datalake

Vous avez les donnes,


nous avons le savoir-faire !

RETROUVEZ NOTRE EXPERTISE


ET NOS RALISATIONS SUR
www.EdIS-cONSULTINg.cOm
Constitution dun Data Lake en
milieu bancaire

Porteurs du Projet
Lun de nos clients, grand acteur du secteur bancaire, souhaite sappuyer sur une innovation
technologique majeure de gestion et de management de donnes (Hadoop) pour centraliser
et partager les donnes internes et externes de ses diffrents mtiers.
Objectifs
Lobjectif du projet est de dvelopper les synergies par un accs et une exploitation plus
transversale du capital dinformations conomiques. En favorisant laccs, lenrichisse-
ment, le partage et le traitement de linformation, le projet doit lui permettre de promouvoir
lchange dinformation entre les diffrents acteurs.
Prsentation
Ce projet majeur vise regrouper dans un espace unifi et mutualis (DATA LAKE reposant
sur le framework Hadoop) des donnes conomiques en provenance de plusieurs sources.
EDIS, spcialiste du traitement de linformation et des infrastructures Big Data, accom-
pagne cette transition technologique et organisationnelle. Nos quipes mnent de front les
chantiers organisationnels, fonctionnels et technologiques.
a. Nature des donnes traites : La plateforme BigData accueille un grand nombre de don-
nes htrognes provenant de diffrents producteurs internes/externes, avec des struc-
tures et formats diffrents et des systmes de codification htrognes.
b. Ressources et mthodologie (comptences humaines, outils techniques, fonctionnement
du traitement de la donne) : EDIS, apporte son avoir faire la mthodologie, ralise le
cadrage et la dfinition des besoins, assure la bonne mise en uvre du projet et participe
la dfinition et la mise en uvre de linfrastructure.
EDIS apporte galement son expertise sur larchitecture Big Data :
- Collecte et stockage de gros volume de donnes dans Hadoop sur des bases de donnes
NoSQL (HBase, MongoDB, Casandra)
- Mise disposition rapide (HDFS, NFS, YARN, MapReduce)
- Analyse, Valorisation & Visualisation (Hive, Pig, Impala, Mahout, Logstash, ElasticSearch,
Shark, Spark, R, Tableau, Kibana etc).
Notre mthodologie pour la constitution de DATALAKE, repose sur un processus dintgra-
tion de donnes qui sont ensuite enrichies en mtadonnes afin de disposer dinformations
contextuelles insres dans un rfrentiel. Cet enrichissement sappuie sur un dictionnaire
de mtadonnes et contribue matrialiser les adhrences entre les catgories de don-
nes issues de sources diffrentes.
Une fois intgres, ces donnes enrichies peuvent tre consultes et exploites par les
utilisateurs :
- Interrogation / recherche du contenu partir dun langage naturel
- Utilisation du moteur de recherche et dindexation ElasticSearch.
Aspect Novateur
Ce projet, par sa taille et ses ambitions est trs certainement lun des plus grands chantiers
BIG DATA men par un acteur Franais de porte internationale. Il doit permettre notre
client sur plusieurs annes de collecter, stocker, intgrer des donnes volumineuses, ht-
rognes et varies dans le but de les analyser et les visualiser en temps rel.
Valorisation observe de la donne
Au-del de rassembler des donnes aussi varies, le projet permet de les enrichir avec
des mtadonnes ad-hoc (tag spcifiques, rfrentiels, synonymes, traductions, mthodo-
logies..) qui facilitent laccs et lanalyse de linformation contenue dans les donnes pro-
duites par les mtiers depuis lIHM pose sur le socle commun.
Etapes venir et dmarche Big Data dans lentreprise
Le projet doit dmontrer la possibilit de rassembler toutes les donnes de lentreprise
dans une bote commune afin de faciliter leur stockage, leur accs, leur partage, leur
analyse et leur visualisation conviviale adapte toutes les familles de mtiers. Elle doit
prouver la mallabilit, et la scalabilit dun tel systme dans le temps. Il ne sagit
pas dune initiative locale mais bien dune mutation complte du systme dinformation du
client.
Autres informations
Nos clients ont les donnes, nous avons la mthodologie et le savoir-faire.

69
www.edis-consulting.com
EKIMETRICS

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Best in Class statistics au service de la stratgie marketing


Ekimetrics a t fond en 2006 Paris et compte 70 consultants, bass Paris, Londres
EKIMETRICS et New York. Notre approche novatrice et rigoureuse dans le traitement de la data nous a
permis de devenir leader europen du ROI et du pilotage par la performance :
136, avenue des champs Elyses
Paris 75008

Tl +33 (0) 1 71 19 49 84
Mail fp@ekimetrics.com

CONTACT
Franois
POITRINE
Ekimetrics est un des rares cabinets de conseil en stratgie spcialis dans lutilisation
Directeur Gnral. Responsable doutils statistiques de pointe permettant loptimisation de la stratgie Marketing et Data de
de la practice BigData grandes entreprises franaises et internationales (CAC 40 / Fortune 500)

Grce notre triple expertise : stratgique, Nous partons de lusage et des besoins
statistique et technologique ; nous sommes business de nos clients pour construire la
mme de livrer des recommandations ac- mthodologie et larchitecture adapte.
tionnables par les CMOs et les CIOs.
Nous avons un partenariat avec la chaire
Nos 70 consultants ont tous un double dconomie des mdias MINES ParisTech.
profil consultant / statisticienData Scien-
tist ( X, Mines, HEC, ENSAE). Nous dlivrons des plans dactions au
bout de 4 mois. Nos recommandations ont
Nous sommes indpendants de tout orga- un impact mesurable sur la productivit
nisme de mdias et dditeurs de logiciels, de votre marketing ds la livraison de nos
ce qui nous permet une grande agilit dans modles.
le choix des outils et des mthodes, ainsi
quune relle impartialit dans nos recom-
mandations .

Eki SocialWeb Lab est un laboratoire de R&D au sein dEkimetrics. Le laboratoire a pour
vocation de comprendre et danalyser les grandes tendances du SocialWeb, en sappuyant
sur lexpertise en Datascience et la comprhension mtier de ses consultants. Grce no-
tamment des algorithmes de classement smantique propritaires, les analystes du So-
cialWeb Lab sont mme de dcrypter le bruit autour de grands vnements culturels et
politiques pour le compte de marques et de grands mdias (Libration, LeLab Europe1,
TheMediaShaker ). Ainsi, durant lanne coule, notre Lab a notamment analys la
Fashion Week, les lections municipales Paris, le festival de Cannes et la Coupe du Monde
de football.
Nous mettons le Big Data au
service de votre stratgie

Notre expertise en Data Science pour vous accompagner dans vos projets Big Data
Durant les deux dernires annes, Ekimetrics a accompagn des leaders de lindustrie des
tlcommunications, de lautomobile et de lnergie dans lexcution de projets BigData.
Nous nous diffrencions par la maitrise de lensemble de la chane de valeur de la data: en
phase de conseil, en phase de data discovery, en phase de data factory et surtout en
phase de valorisation.

Mapping du champ dintervention dEkimetrics dans le Big Data

Notre philosophie sur les projets Big Data : lapproche PoC Proof of Concept
Dans le Big Data, nous observons un biais consistant construire des systmes pour en-
suite chercher les valoriser (DMP, clusters..), nous faisons le contraire :
Nous avons une approche agile de test et dapprentissage pour mettre jour des
initiatives rellement industrialisables.
Nous partons de lusage mtier pour ensuite construire une architecture sur mesure.
Nous navons pas de contraintes sur la technologie ni sur la mthodologie : nous choisis-
sons la solution la plus adapte en fonction des besoins exprims par nos clients.

Ekimetrics : Les partners vous racontent leurs projets Big Data

Jean Baptiste Bouzige. PDG Ekimetrics


Les APIs sont une source de donnes de plus en plus stratgiques et servent de socle
lInternet des objets. Chez Ekimetrics nous suivons avec intrt lvolution des APIs et de
lOpen Source depuis 2006. Nous avons t parmi les premiers utiliser les outils Big Data,
pour tirer profit de ces nouvelles sources denrichissement de donnes, notamment dans le
cadre danalyses du SocialWeb.

Franois Poitrine. Directeur Gnral, Responsable de la practice Big Data


Nous accompagnons, depuis plusieurs annes dj, un leader de lindustrie automobile
dans loptimisation de sa stratgie Marketing et Data. Avec lmergence des vhicules
connects et dautres opportunits business lies au digital, les outils Big Data sont de-
venus centraux dans la valorisation des nouvelles sources de donnes disposition. Nous
avons pu dployer plusieurs projets de valorisation de ces donnes avec une approche
pragmatique et cost effective de Test, Learn & Industrialize.

Quentin Michard. CEO Ekimetrics Londres


Aujourdhui, lenjeu ne consiste dj plus valoriser sa propre donne, mais trouver des
logiques de partenariat et de complmentarit pour avoir une offre complte.
Au sein dEkimetrics, nous matrisons les mthodologies statistiques et algorithmiques
pour mener bien de tels projets, la couche technologique apporte par le Big Data nous
permet de passer de la thorie la production.

71
www.ekimetrics.com
EXALEAD DASSAULT SYSTMES

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES EXALEAD Dassault Systmes rompt avec 25 ans de tradition dans le dveloppement dapplications,
jusquici centr sur des bases de donnes : sa technologie de recherche et dindexation, couple
EXALEAD DASSAULT SYSTMES des technologies Web, offre un accs unifi et un traitement haute-performance de linformation.

10 place de la Madeleine 75008 PARIS Les organisations ont dsormais besoin de 3 niveaux dexprience de linformation :
Accder agilement et rapidement un grand volume de donnes disperses et htrognes
Croiser, rconcilier, contextualiser les donnes pour crer de nouvelles solutions mtier
et offrir de nouveaux services leurs clients
Tl +33 (0) 1 55 35 26 26 Aller plus loin dans lanalyse pour en extraire encore plus de valeur et transformer leur
entreprise
Fax +33 (0) 1 55 35 26 27
Mail www.3ds.com/fr/contact EXALEAD Dassault Systmes rpond ces dfis et offre des applications personnalises ou
packages, volutives, parfaitement adaptes aux environnements actuels de Big Data et
qui permettent de le transformer en vrais bnfices pour lentreprise.
CONTACT
Axel Les solutions EXALEAD valorisent simplement et agilement vos donnes mtiers pour dcider
mieux et agir vite. Elles adressent trois grandes problmatiques :
BRANGER
Interaction client : EXALEAD OneCall
Digital assets : EXALEAD CloudView / EXALEAD OnePart
Sales Director EXALEAD Machine Data : EXALEAD CloudView
South Europe, Russia & Middle East
EXALEAD propose galement la Web Mining Exprience qui sappuie sur le moteur exalead.com
et offre la puissance de la recherche Web et de lanalyse smantique pour le dveloppement
dapplications partir de donnes pur Web.

www.3ds.com/products/exalead/
@3dsEXALEAD
ANALYTICS pour PARKEON

Porteur du projet
Yves-Marie Pondaven - Chief Technology Officer, Parkeon
Objectifs
Offrir aux villes et oprateurs de parkings un outil de pilotage (ventes, dures) et faciliter
la maintenance des horodateurs Parkeon.
Les dfis taient de rester performant malgr les volumes importants, dtre trs simple
dutilisation et de permettre aux villes ou oprateurs de mieux comprendre les usages
grces de nouveaux tableaux de bords intgrant de la cartographie.
Prsentation
Analytics est un service dvelopp par Parkeon grce la technologie EXALEAD CloudView.
En indexant et analysant plus dun milliard de tickets de stationnement mis par les horo-
dateurs mis en place par une ville ou une communaut urbaine, Parkeon offre un outil de
suivi la fois global et dtaill du parc install des machines pour permettre aux diffrents
services dagir, interagir et ragir pour amliorer le fonctionnement du stationnement dans
une ville.
Les principales fonctionnalits dAnalytics
Horodateurs : Listes - Revenus des terminaux - Vue dtaille par terminal agrgeant de
nombreuses informations (ventes, alarmes, tats de la batterie)
Parking : Evolution des revenus dans le temps, par zone - Evolution en fonction des jours ou des heures
Maintenance : Terminaux avec des problmes de fonctionnements identifis - Terminaux o
des actions prventives sont ncessaires (changement de rouleau de papier)
Transactions : Accs aux transactions par pices ou cartes - Vues plus dtailles possibles
sur les cartes pour filtrer par type de carte (Mastercard)
Malgr les volumes de donnes importants (en centaines de millions pour certaines villes), lou-
til devait rester aussi simple utiliser que les sites grands publics, cest dire sans formation.
EXALEAD apporte son savoir-faire et ses outils correspondants aux meilleures pratiques ergo-
nomiques telles quun set de facettes pour filtrer les donnes, un champ de recherche unique
sur toutes les pages configur pour lutilisation des requtes en langage naturel et trusted
queries ce qui permet aux utilisateurs de prendre en main trs facilement loutil.
La visualisation et lanalyse sont facilites grce des cartes manipulables par zones, des filtres
par priode et date, une cration flexible de rapports, des exports Excel sous format standard
Les temps de rponse, les rsultats clairs et en contexte augmentent lefficacit des diff-
rents utilisateurs de lapplication.
Aspect novateur (mtier/usage)
Lapplication peut tre utilise par nimporte quel utilisateur de lentreprise, quasiment
sans formation. Chaque fonction peut accder facilement aux donnes dont elle a besoin
dans son activit quotidienne.
Analytics offre de grandes performances : une grande scalabilit, une indexation et un traite-
ment puissant des donnes, un temps de rponse adapt aux challenges de la comptition
Les gestionnaires de parcs peuvent ainsi accder et traiter des milliards denregistrements
partir de tout type de sources En quasi temps rel.
Valorisation observe de la donne
Lexigence EXALEAD cest de dlivrer la bonne information, au bon moment, de la faon la
plus intuitive possible. Nimporte quelle fonction de lentreprise, nimporte quel utilisateur
peut naviguer, trouver, analyser et transmettre linformation utile. A linstar de Parkeon, les
organisations amliorent la capitalisation du savoir, lefficacit de leurs quipes, le partage
des connaissances. Parkeon la compris et, grce la technologie CloudView, a transform
des donnes machines basiques en application haute valeur ajoute offrant ainsi ses
clients un service performant pour grer et anticiper son activit de gestion de parcs de
parcmtres. Cest un vrai facteur diffrentiant pour loffre Parkeon.
Etapes venir et dmarche Big Data dans lentreprise
Parkeon va continuer de faire voluer loutil en intgrant toujours plus dinformations et
profiter des nouvelles fonctionnalits autour de la cartographie afin damliorer encore la
solution.

73
www.3ds.com
GFI INFORMATIQUE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Le Big Data pour sadapter et/ou se rinventer

GFI INFORMATIQUE Lavnement de lre numrique nous porte considrer autrement le capital information-
nel de tout un chacun. Notre monde volue en permanence sur un rythme de plus en plus
La Porte du Parc - 145 boulevard soutenu et porte des exigences de rentabilit exacerbes par une pression de comptition
Victor Hugo, 93400 Saint-Ouen lchelle mondiale.

Dans tous secteurs dactivits, il nous faut nous radapter en permanence. Laccs la
Tl +33 (0)1 44 04 50 08 lecture de ce que nos donnes expriment nous donne les moyens de se redcouvrir et dagir
de faon nouvelle : prvisions de production de pices dtaches en fonction des com-
Mail alvin.ramgobeen@gfi.fr
portements de conduite et des conditions climatiques pour un mme modle de voiture,
mais aussi assurances diffrencies en fonction de son attitude de conduite sont autant
dexemples parlant qui simmiscent dans notre quotidien.
CONTACT Le Big Data sert avant tout des enjeux business qui doivent tre clarifis en amont lorsque
Alvin lon traite un point dur identifi persistant malgr les investigations traditionnelles (ex. an-
RAMGOBEEN ticiper la fraude lexport) ou en aval lorsquil sagit de dcouvrir des potentiels leviers
dactions dans le cadre dune activit naissante (ex. des compteurs intelligents)

Group Practice Manager BI & Big Data

fotolia.com
Gfi Informatique,
architecte ensemblier
de vos projets Big Data

Parce quil nest pas de Mega Structure qui se ressemble, parce que chaque projet
Big Data est lexpression de votre essence et de votre culture, nous sommes vos
cts pour relever ces dfis avec une passion claire et pragmatique.
Gfi Informatique, acteur innovant en systme dinformation, propose une approche autour des thmatiques Big Data contre sens des
normes du secteur. Aprs des travaux conjointement mens auprs dAirbus depuis 2010 portant sur des exprimentations NoSQL dans des
contextes analytiques et prdictifs, Gfi base sa stratgie Big Data en oprant un couplage fort entre le monde des startups et ses comptences
propres. Seul acteur proposer une offre de service la pointe du savoir-faire franais alli lapproche industrielle dun groupe polyvalent en
intgration de systme et en diteur de logiciel, Gfi opre la ralisation de vos programmes Big Data en tant quarchitecte ensemblier.


www.gfi.fr
La posture de larchitecte
ensemblier

Les demandes en Big Data sont extrmement varies : chargement et stockage de donnes
massives, traitement de donnes en temps rel, analyse de donnes textes ou son, labora-
Loffre
tion de moteurs de recommandation, de corrlation, de prdiction analyses rcursives ou de
rseaux (base graph), Data Visualisation spcifique, algorithmie avance, etc. De plus, les de-
Big Data de Gfi
mandes de ralisations Big Data sont souvent couples un existant IT et doivent galement
irriguer les systmes oprationnels et les terminaux de travail quils soient fixes ou mobiles.
Cette diversit en besoins pointus amne Gfi, avec lappui de son cosystme de startups, Conseil outill
se positionner en tant que garant de lassemblage des comptences spcifiques pour en Data Exploration
chaque nature de besoin en Big Data.

Loffre Big Data de Gfi est multi entre et permet de couvrir une grande majorit des at-
tentes du march sur les volets : Aide au choix de
Conseil outill en exploration de la donne qui permet en quelques semaines de faire solutions et Architecture
merger et de quantifier un use case afin de valider sa pertinence face vos enjeux business Big Data
Conseil en aide au choix de solutions et en architecture full & hybride Big Data
Centre de service expriment pour la ralisation de prototypage Big Data
Mise disposition de Framework acclrant le dploiement en environnement de pro-
duction de plateformes Hadoop scurises Centre de service de
Ralisation de projet sur mesure Big Data, en mode agile/Dev Ops, intgrant lexposition
de services sur les terminaux digitaux
prototypage Big Data

Fort du constat march que derrire les termes de Datascientist ou dExpert Hadoop, il est
plus que difficile de trouver le profil comptent chez une seule et mme personne, nous Framework de dploiement
avons dvelopp une approche en quipe pluridisciplinaire.
de production de plateformes
Cette quipe regroupe lensemble des profils spcialiss en Consultants Mtier, Dve-
loppeurs Big Data et Data Analysts, Experts BI & CRM analytique et Consultants Digital et Hadoop scurises
Mobilit.
Afin de sassurer de gagner en scurit et performance, nous allions les comptences de
nos quipes avec lexpertise pointue de startups en Datascience, Data Visualisation, Clus- Ralisation de projet sur
tering Hadoop, Text mining, etc. mesure Big Data avec
exposition de services digitaux
Illustration dindustrialisation dun savoir-faire la pointe
Nous co-dployons, avec notre partenaire ADALTAS, un outil simplifiant et acclrant la
mise de place de clusters Hadoop multitenants scuriss. Issu de prs de 2 ans de travaux
sur les plateformes dun acteur majeur de lnergie en Europe.
Les apports sont multiples et permettent notamment de :
grer plusieurs clusters et mettre disposition des environnements de dveloppement
identiques ceux de production
permettre lajout de nouveaux composants en sinscrivant dans un outil robuste orient DevOps
sintgrer et/ou enrichir lenvironnement scuris de lentreprise de type Kerberos /
OpenLDAP / Active Directory
scuriser tous les composants du cluster (Hive, HBase)
rsumer les tapes de dploiement en une seule commande applicable lchelle du cluster
assurer la haute disponibilit des composants & dautomatiser les sauvegardes

A ce jour, la distribution Hadoop supporte est lHDP 2.1 dHortonworks


Les composants couverts sont HDFS et YARN, Hive, WebHCat, Oozie, Flume, Mahout, Pig,
HBase, Hue, HASecure, Sqoop et Zookeeper. Dautres composants tels que Storm, Spark et
SolR mais aussi MongoDB seront prochainement intgrs.

75
www.gfi.fr
HEWLETT-PACKARD

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Collecter, agrger et comprendre les informations issues des machines et des humains
requiert une approche et des technologies nouvelles, pour connecter intelligemment des
HEWLETT-PACKARD FRANCE donnes de nature disparate, dune manire comparable au fonctionnement du cerveau
humain faire travailler la technologie et non linverse.
20, Quai du Point du Jour
92100 Boulogne-Billancourt
HP dcline sa stratgie Big Data au travers de HAVEn, plateforme ouverte, intgre mais
modulaire, qui permet nos clients de traiter 100% des informations leur disposition.
Tl 0820 211 211
Hadoop est le support idal pour stocker de trs grands volumes de donnes faible cot.
Mail bigdata.france@hp.com
Autonomy IDOL est un moteur extrmement puissant dindexation et danalyse des infor-
mations humaines : texte, mails, social media, vido, audio, etc.
CONTACT Vertica est une plateforme analytique temps rel (architecture en colonnes) capable din-
Florence grer les donnes et de traiter des requtes complexes 50 1000 fois plus rapidement
LAGET quune base de donnes traditionnelle

Enterprise Security (Arcsight Logger) collecte et analyse en temps rel (1.000.000 dv-
Directrice Big Data, HP France nements par seconde) les logs des applications et des quipements (Badgeuse, Login.).

Le n de HAVEn reprsente les applications dveloppes par HP et son cosystme


partenaires diteurs et intgrateurs.

Lensemble de cette plateforme est supporte par des infrastructures innovantes et spci-
fiquement adaptes au Big Data. Nous sommes en mesure daccompagner nos clients dans
la conception de leurs cas dusage, la mise en uvre, lexploitation ou lexternalisation de
ces solutions.
Scurit, fraude et conformit

Cette banque europenne de12 millions de clients, dispose de prs dun millier dagences
et gre plus de 100 milliards de capitaux en 2013. Elle dtient une distinction pour la qualit
de son centre dappels et de ses plateformes internet, mobiles et rseaux sociaux.

La banque avait comme objectif dacclrer lanalyse des risques de scurit, la rponse
aux requtes et audits du rgulateur, tout en se donnant les moyens damliorer lefficacit
de ses campagnes marketing.
Tous les types de donnes sont capts: applications mtiers, DAB, agences, rseaux sociaux,
logs qualit de service.
Le projet est implment sur la plateforme HAVEn telle que dcrite dans larchitecture
ci-dessous :

Le projet se droule en 3 phases qui rpondent aux 3 enjeux auxquels doit faire face la socit :

Conformit - identifier les accs frauduleux aux comptes clients et rduire drastiquement
le temps de rponse aux requtes de conformit
Scurit - corrler les donnes entre les diffrents systmes pour dcouvrir et mieux
comprendre les potentielles failles de scurit
Gnration de revenus - amliorer la connaissance clients pour optimiser lefficacit des
campagnes marketing et lacquisition de nouveaux clients

Ce projet est innovant dans la diversit des sources et des formats de donnes utiliss.

Premiers rsultats obtenus

2500x plus rapide pour rpondre aux requtes complexes daudit, de fraude et de scurit

97% de cot dexploitation en moins pour oprer ces requtes

28% de TCO en moins par rapport aux solutions alternatives tudies

77
www8.hp.com
IBM FRANCE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES IBM est un acteur technologique au service de linnovation et de la transformation des PME,
des groupes internationaux et des administrations. IBM participe crer une plante plus
IBM FRANCE intelligente pour permettre aux organisations quelle sert doptimiser leur positionnement
dans un monde en perptuelle volution.
17 avenue de lEurope
92275 Bois Colombes OFFRE IBM BIG DATA
Big Data permet de comprendre, avec plus de prcision que jamais, comment fonctionne
notre monde afin de produire une plus grande croissance conomique et du progrs social.
Tl +33 (0)1 58 75 00 00 Il constitue une opportunit dobtenir des connaissances sur des types de donnes et de
Mail lucile.hyon@fr.ibm.com contenus nouveaux, afin de rendre les entits plus agiles. Plateforme Big Data IBM IBM
seul propose une plateforme complte qui permet de rsoudre les dfis Big Data qui se
posent aux organisations. Le principal bnfice dune telle plateforme est de tirer parti de
composants pr-intgrs afin de rduire le cot et le temps dimplmentation.
CONTACT
Lucile
HYON-LE GOURRIEREC

Senior Marketing Manager

www.ibm.com
KEYRUS

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Fort de prs de vingt ans dexprience au service de la Matrise et de la Valorisation de la


Donne, Keyrus aide les entreprises, en France et linternational, fournir chacun de
KEYRUS leurs collaborateurs les informations et la motivation ncessaires au dveloppement de leurs
activits et de leurs quipes.
155 rue Anatole France
Sinscrivant dans la continuit de cette mission claire et partage, Keyrus propose une capacit
92300 Levallois- Perret - France unique de ralisation de solutions analytiques essentielles aux enjeux de performance des
entreprises. Pour ce faire, Keyrus a runi des comptences mtier fonctionnelles et
sectorielles , et des expertises analytiques et technologiques travaillant de faon
Tl +33 (0)1 41 34 10 00 totalement intgre.
Mail bigdata-keyrus@keyrus.com
Notre approche unique de proof-of-value vous permet ainsi de comprendre en quelques semaines
le plein potentiel des nouveaux modes de valorisation de la donne et dentreprendre le chemin
permettant de les intgrer au sein dun portefeuille analytique au service de la dcouverte des
CONTACT leviers de la performance conomique.
Xavier
DEHAN Dans un monde de plus en plus dmatrialis o les cls de la comptitivit et de la croissance
font appel une connaissance de plus en plus fine des marchs, des clients et de leurs
Sales Director - Data Intelligence dynamiques, Keyrus se positionne comme le partenaire naturel de ses clients dans la trans-
formation de leur actif informationnel en valeur conomique durable.
Big Data Analytics
Sil est en effet prsent largement admis que les donnes, sous ses formes et ses origines
les plus diverses, constituent un actif majeur des organisations dans toutes les industries
et que leur rle de catalyseur de la capacit danticipation et de lagilit oprationnelle ne
fait plus aucun doute, les enjeux dessins par leur exploitation nen restent pas moins la
hauteur des opportunits quelle augure.

Conscient de limportance du changement que les nouveaux paradigmes sous-tendent au


sein dun cosystme conomique en pleine mutation et des questions bien concrtes que
lexploitation de la richesse et de laccessibilit toujours croissante des donnes soulvent,
Keyrus vous accompagne dans la mise en uvre des organisations et des solutions
permettant de rpondre aux enjeux conomiques modernes dun monde devenu numrique.

Afin datteindre ses objectifs dexcellence dans le domaine de la Data Science et en vue
dassurer lefficience maximale de ses quipes qui seront les garants de la bonne ralisation
des projets quil conduira dans le domaine du Big Data, Keyrus a cr le 15 octobre 2014,
avec lcole polytechnique, Orange et Thales, une Chaire pour former la prochaine gnration
de Data Scientists.

Fort dune capacit unique mobiliser conjointement lexpertise mtier, analytique et technolo-
gique indispensable au succs des ambitions analytiques et Big Data de ses clients, Keyrus rpond
aux dfis daujourdhui par des modalits bien tangibles et pragmatiques, ancres dans la
ralit de lentreprise et cibles sur des projets concrets et accessibles, construisant ainsi
les fondations dun avantage concurrentiel dans la dure.

www.keyrus.fr
81
<<www>>
MICROPOLE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Micropole lance la 1re offre Big Data as a Service destination des entreprises.*

MICROPOLE Loffre Data Science Platform est le rsultat dune troite collaboration entre de grands ac-
teurs du march : Micropole, entreprise internationale de conseil en technologies innovantes,
91-95 rue Carnot spcialise dans les domaines de la Transformation Digitale et du Pilotage de la Performance
92300 Levallois-Perret, France et les entreprises de Cloud Souverain, producteurs de puissance numrique pour les entre-
prises, au travers de leurs solutions dinfrastructure performantes et innovantes.
Indite, loffre de services Data Science Platform est destine dmocratiser le Big Data en
Tl +33 (01) 74 18 74 18 France en mettant disposition de chaque entreprise sa plateforme Big Data sur-mesure.
Data Science Platform intgre un studio de Data Science (qui combine des outils de gestion
Fax +33 (01) 74 18 74 00
de donnes, de statistique, de visualisation et danalyse prdictive), permettant dintgrer, de
Mail info@micropole.com manipuler, danalyser et de prsenter rapidement linformation issue de larges quantits de
donnes.
Spcialistes mtiers, les quipes Micropole accompagnent les quipes clientes tout au long
CONTACT du projet. Leur valeur ajoute et leur vision fonctionnelle adapte au Big Data, leur permettent
Charles de produire des cas dusages mtiers, gages de ROI et gnrateur davantages conomiques
PARAT ou concurrentiels pour lentreprise.
Innovante et comptitive, loffre Data Science Platform rvolutionne les offres traditionnelles
existantes sur le march. Une rponse totalement nouvelle qui va permettre toutes les en-
Directeur recherche & Inovation treprises de tirer parti de la puissance du Big Data.
Loffre Data Science Platform se dploie en 24h au sein de nos infrastructures. Nos quipes
vous accompagnent sur la dfinition de votre application Big Data, et tout au long du projet
dans la prise en main des outils.
Pour des questions de scurit et de transparence, notre offre est propose sur les plate-
formes dployes au sein de Cloud Publics Souverains. Cela signifie que vos donnes sont
protges par la lgislation franaise, et localises sur le territoire national.

*Pour des questions de rversibilit, loffre Data Science Platform est base sur des briques
standards du march et peut donc tre installe sur le site de votre choix (on premise).
Big Data et connaissance client :
projet dans le Retail

Historiquement les donnes prsentes au sein des entreprises sont organises dans des
silos dinformation, le Big Data permet de dcloisonner cette information et de lexposer
diffremment.
Il est alors possible, sur un sujet mtier tel que la connaissance client, de crer une vision
360des donnes, en mettant en corrlation les donnes issues de diffrents canaux (point
de vente, sites internet, centre dappels, etc.), de se construire une vision indite du client
et darriver ainsi visualiser le parcours client omnicanal complet, plus rapidement.
Pour notre client, un acteur reconnu de la distribution spcialise, les objectifs fixs dans
le cadre du projet taient les suivants :
Acclrer lomnicanalit pour accroitre le chiffre daffaires de lenseigne ;
Mieux analyser les comportements web-to-store, dans les deux sens ;
Prendre des dcisions stratgiques, de manire instantane, qui correspondront mieux
aux attentes de leurs clients ;
Dcouvrir des types de comportements pour anticiper leffet churn ;
Proposer de nouveaux services ou produits avant mme que le client
ait conscience de son besoin, gnrer de la valeur pour le client ;
Etre plus ractif dans le traitement de linformation, quelle que soit sa forme ;
Industrialiser la dmarche de rconciliation des donnes.

La dmarche de mise en uvre de Micropole autour du sujet de lomni-


canalit, consiste dans un premier temps intgrer au sein dun rf-
rentiel de donnes unique Big Data, lensemble des informations issues
de tous les canaux de notre client, afin de crer une vision dcloisonne.

Dans un second temps, les donnes sont mises en cohrence en vue


de leur traitement dans des solutions dites de DataScience, dans le
cadre dune approche de type Datalab.
La construction du Datalab sappuie sur une mthode Agile. Les tapes
menant la validation du primtre Datalab sont :
Le cadrage des besoins ;
Le cadrage des donnes ;
La prsentation des rsultats.

Comment une approche agile a aid notre client exploiter


rapidement la valeur de ses donnes.
Le cycle de cadrage du besoin permet davancer rapidement sur les besoins remplir et
le travail des sources associes. Lavantage est que les dcouvertes faites pendant ltude
dtaille des donnes sont rpercutes sur les besoins initiaux. Ce processus est rpt
autant de fois que ncessaire.
A lissue de cette phase, les cycles de cadrage des donnes dbutent. Une phase de ra-
lisation technique a lieu entre chaque point de cadrage et chaque prsentation.
Pendant la prsentation des rsultats, les quipes fonctionnelles peuvent suivre et prva-
lider les ralisations. Les quipes techniques peuvent remonter des problmes rencontrs
pendant les dveloppements. Dans les 2 cas, les points discuts sont inclus dans le cadrage
des donnes. Il est possible de remonter au cycle prcdent si la situation lexige.
La phase de validation du primtre clture le processus. Elle prend un temps minime,
compte tenu du travail effectu en amont.
Les rsultats
Sur une phase dexprimentation de 3 mois, il ne nous a fallu que 3 semaines sur un gise-
ment de donnes de plusieurs centaines de gigaoctets, pour mettre en vidence les pre-
miers comportements clients et dfinir les parcours clients associes.
Lusage dun logiciel de Data Science (solution combinant des outils de gestion de donnes,
de statistique, de visualisation et danalyse prdictive), a permis de modliser facilement
les parcours clients, dindustrialiser le processus et de prsenter les rsultats en utilisant
une solution de Data Visualisation (lutilisation de techniques visuelles et interactives pour
valoriser ses donnes).
A lissue de la phase dexprimentation, la solution a t dploye en production. Les outils
de Data Science utiliss dans le cadre du Datalab ont quant eux naturellement intgr le
panorama des outils standard du service Marketing pour la production des analyses bases
sur la plateforme Big Data.

83
www.micropole.com
NEO TECHNOLOGY

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES La base de donnes de graphes Neo4j


Neo4j vous permet de reprsenter les donnes connectes naturellement, en tant quobjets
NEO TECHNOLOGY relis par un ensemble de relations, chacun possdant ses propres proprits. La base de
donnes de graphes, permet au dveloppeur de commencer immdiatement coder, car
les donnes stockes dans la base font le parallle direct avec les donnes elles mmes.
Compar aux bases relationnelles, la base de donnes de graphe Neo4j peut tre jusqu
plusieurs milliers de fois plus rapide pour traiter les donnes associatives, tout en simpli-
fiant considrablement les requtes qui peuvent stendrent plus facilement de larges
Tl +33 (0)8 05 08 03 44 ensembles de donnes, car elles ne ncessitent pas de recourir aux coteuses jointures
du monde SQL. Les traverses utilisent un langage spcialement adapt pour parcourir
Mail Cedric.Fauvet@neotechnology.com
les connections trs simplement, et trs rapidement. Vu quelles ne dpendent pas dune
modlisation rigide, Neo4j est plus propice pour la gestion de donnes changeantes et de
schmas voluant frquemment.
Les bases de donnes de graphes sont un outil puissant pour excuter des requtes de type
CONTACT parcours de graphe. La recherche du plus court chemin entre deux points du graphe per-
Cedric mettant, par exemple, de rsoudre facilement les requtes sociales ainsi que de gographie
FAUVET et danalyse dimpact.
Si vous vous arrachez les cheveux avec de nombreuses jointures et les procdures stockes
complexes, il est fort possible que vous soyez en train de construire un graphe sans le savoir :
Business Development France car les graphes sont partout. Depuis les applications sociale web jusqu lanalyse dimpact
sur un rseau Telecom en passant par la recherche en biologie, les recommandations, la
scurit, et la dtection de fraude, de nombreuses organisations ont adopt la bases de
donnes de graphes Neo4j pour augmenter leurs capacits et leurs performances. Cest un
systme conu pour grer les donnes connectes que vous rencontrez de plus en plus au
quotidien, qui est nanmoins fortement matur avec plus de 10 ans en production.

Dcouvrez avec nous ce quapporte la puissance de Neo4j une large varit de clients tels
que Walmart, SFR, Cisco, eBay et Glowbl.

venements: neo4j.com/events Venez rencontrer


(graphes) [:SONT] > (partout)

Paris lquipe
Training: neo4j.com/graphacademy
franaise de Neo4j
Neo4j dans votre socit: neo4j.com/brownbag loccasion du salon
Big Data 2015,
Tlcharger Livre: neo4j.com/books stand 404!
Nos clients: neo4j.com/customers
Tlcharger le produit: neo4j.com/tryneo4j
Suivez-nous sur Twitter: @Neo4jFR
Rencontrer la communaut: meetup.com/nd/?keywords=Neo4j

Neo4j
Le leader mondial
des bases de donnes de graphes
LA SOCIETE
Spcialise depuis 2009 dans la livraison rapide dachats raliss sur internet, cest tout
naturellement que la socit londonienne Shutl a t rachete par eBay, qui en a fait sa
plateforme nouvelle gnration pour redfinir le e-commerce en acclrant et en simpli-
fiant la livraison des commandes passes sur Internet ou appareil mobile. eBay limine
ainsi le plus gros obstacle entre vendeurs et acheteurs en ligne en proposant une livraison
le jour mme.
LE DFI
Le service de livraison le jour mme de Shutl sest dvelopp de manire exponentielle
et couvre aujourdhui jusqu 85 % du Royaume-Uni. Sa plateforme de services a d tre
entirement repense afin de prendre en charge lexplosion du volume de donnes et les
nouvelles fonctionnalits. Le problme tait que les jointures MySQL utilises auparavant
ont cr une base de codes trop lente et complexe, proposant des temps de rponses
requtes de 15 minutes pour certaines.
Dveloppeur senior pour eBay, Volker Pacher et son quipe pensaient quen ajoutant une
base de donnes de graphe lAOS et la structure de services, il serait possible de r-
soudre les problmes de performances et dvolutivit.
POURQUOI NEO4j?
Le choix sest port sur Neo4j, considre comme la meilleure solution pour sa flexibilit,
sa vitesse et sa simplicit dutilisation. Fort de son modle de graphe proprits parfai-
tement compatible avec le domaine modlis, et avec sa base de donnes ne ncessitant
pas de schma, Neo4j a simplifi son extensibilit et a permis dacclrer la phase de d-
veloppement.
Cypher a de son ct permis dexprimer les requtes sous une forme trs compacte et
intuitive, ce qui a encore acclr le dveloppement. Lquipe a ainsi pu exploiter le code
existant laide dune bibliothque Ruby pour Neo4j prenant galement en charge Cypher.
Comme aime le dire Volker Pacher : Notre systme fonctionne sur 7 lignes de Cypher .
LES AVANTAGES
Base sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transac-
tions rapides avec des performances relativement constantes. Par ailleurs, son modle de
donnes permet aux requtes de rester localises lintrieur de leurs portions respectives
du graphe.
Notre solution Neo4j est littralement des milliers de fois plus rapide que la solution
MySQL prcdente, avec des requtes qui ncessitent de 10 100 fois moins de code. Dans
le mme temps, le ct flexible de Neo4j nous a permis dimplmenter lenemble en peine
une anne et il nous permet encore dajouter des fonctionnalits jusquici impossibles, ce
qui permettra laccompagnement du service eBay Now dans ses futurs dveloppements.

Volker Pacher, eBay

Aujourdhui et grce Neo4j, la plateforme Shutl orchestre les livraisons entre les boutiques,
les coursiers et les acheteurs 24 h/24 et 7 j/7. Les envois seffectuent directement depuis les
points de vente. Le service organise la collecte et la livraison des articles selon les prf-
rences des clients, gnralement dans un dlai de 2 heures, ou dans une fentre de livrai-
son dune heure choisie par les clients. Le rsultat : une prestation innovante qui amliore
la qualit de service pour les clients ainsi que la productivit des partenaires revendeurs et
transporteurs. Tous les acteurs sont gagnants : les clients disposent de plus de choix pour
la livraison, les coursiers ne perdent plus de temps attendre et les boutiques peuvent
proposer des services supplmentaires leurs clients sur Internet.

85
www.neo4j.com
PENTAHO

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Pentaho construit le futur de lanalytique. Sa plate-forme analytique intgre, moderne et


complte est conue pour les diverses exigences de lanalyse dentreprise, et notamment
PENTAHO celles du Big Data.

Paris France Pentaho Business Analytics pour exploiter plus rapidement et moindre cot les Big Data grce :
Pentaho Big Data Analytics Center
Une continuit totale depuis laccs aux donnes jusqu la prise de dcision
Un dveloppement visuel et une excution distribue
Tl +33(0)6 38 38 06 33 Une analyse interactive et instantane : aucun codage ni comptences ETL requis
Fax 1 407 517-4575 Instaview : Cette premire application interactive et instantane convertit les donnes en
Mail ebrochard@pentaho.com analyses en trois tapes simples visant rduire considrablement le temps de recherche,
de visualisation et dexploration de larges volumes de donnes complexes et diverses.
CONTACT Pentaho facilite lanalyse des donnes Hadoop
Emmanuel Lutilisation de Pentaho Business Analytics avec Hadoop offre une conception graphique hau-
tement productive associe une analyse et une visualisation des donnes instantanes:
BROCHARD Une plate-forme danalyse Hadoop complte
Une meilleure productivit de lquipe informatique grce la rutilisation des comp-
Responsable France tences existantes ; sans formation particulire pour les informaticiens, analystes dentre-
prise et scientifiques spcialistes des donnes
Une protection contre les risques : fonctionne avec toutes les principales distributions
Hadoop, les bases de donnes NoSQL et les entrepts de donnes traditionnels
Productivit et performance : gain en productivit de dveloppement et en performance
dexcution multipli par 10 ou par 15 par rapport au codage manuel MapReduce

Analyse et visualisation NoSQL : Pentaho supporte nativement les bases de donnes NoSQL
les plus utilises, notamment Apache Cassandra/DataStax, HBase, MongoDB/10gen et
HPCC Systems, et offre une productivit de dveloppement et une performance dexcution
multiplies par 10 ou par 15 par rapport au codage manuel.

Big Data Analytics Center : www.pentahobigdata.com pour en savoir plus sur Pentaho et Big
Data. Pour valuer gratuitement Pentaho Business Analytics: www.pentaho.fr/download.

Bring Your Big


Data to Life
Big Data Integration and Analytics

Optimisation dHadoop et plus encore.


Dcouvrir comment sur pentaho.fr
Montiser les Big Data des
banques de dtail commence par
une meilleure exprience client

Par Emmanuel Brochard, responsable de Pentaho en France Mesurer la perception des clients
La plupart des banques mesurent la satisfaction
Les banques de dtail commencent considrer les Big Data comme des actifs promet- des clients un peu au hasard, dune faon dpas-
teurs mme de gnrer de nouveaux flux de revenus. Elles ont besoin de se projeter se. Elles raffolent denqutes o leurs clients
au-del de la vente de produits complmentaires et dexaminer comment lanalyse des Big sont invits complter un formulaire aprs
Data peut rtablir la confiance et amliorer lensemble de lexprience client. chaque transaction. Une faon plus rvlatrice
Plus que jamais, les banques de dtail ont besoin dutiliser la valeur de leurs donnes pour et moins intrusive de connatre la perception des
crer des offres plus concurrentielles. Simultanment, le pouvoir dachat des mnages clients est dassocier moins frquemment des
franais la baisse ou au mieux stable depuis 2007 conduit les consommateurs utiliser enqutes plus dtailles avec des contenus des
des ressources telles que des sites comparatifs de services bancaires ou des logiciels de rseaux sociaux et internet que les clients pu-
gestion pour tre plus actifs dans le suivi de leurs finances. A divers degrs, les banques blient de leur plein gr. Des outils analytiques
commencent intgrer dans une vue unique les dtails de leurs produits phares, tels que pour les Big Data permettent de mixer ces dif-
les comptes dpargne et de crdits immobiliers. Certaines dj inquites pour leur rpu- frentes sources de donnes pour aider les
tation, ont eu peur de pousser plus loin leur intgration par crainte que leurs donnes ne banques concevoir en permanence de meilleurs
schappent des traditionnels silos informatiques et menacent la confidentialit et scurit services.
des donnes. Dautres banques craignent quune plus grande transparence et un apport de Les banques de dtail ont certes un travail consi-
plus dinformations aux clients les incitent aller voir ailleurs. drable accomplir pour btir les infrastructures
et transformer leurs cultures de sorte quelles
Lintgration et lanalyse des Big Data pour concevoir une proposition de valeur commerciale puissent fournir des vues intgres des clients
Soyons clairs, montiser les Big Data ne se limite pas vendre plus facilement des assu- 360 qui serviront de fondation leur propo-
rances additionnelles sur des crdits immobiliers. Il sagit doffrir des services et expriences sition de valeur commerciale. Nanmoins, elles
personnaliss exceptionnels qui conduisent terme une proposition de valeur commer- disposent aussi datouts considrables. Par
ciale, ou de maximiser la valeur totale dun client au travers de toutes ses interactions et tran- exemple, lorsque des clients ont suffisamment
sactions. En dterminant les diffrents besoins des clients et en intgrant cette connaissance confiance en leur banque pour leur permettre de
dans toutes ses transactions, une banque devrait tre capable damliorer le service client et partager des donnes avec leurs commerants
la fidlisation ainsi que daugmenter sa propre profitabilit en optimisant ses prix en fonction prfrs, les donnes pourraient avoir une valeur
de la valeur client. Aussi simple que cela puisse paratre, ceci a chapp aux banques de dtail montaire trs leve. Ou encore, la tendance
pendant des annes parce quelles ont tabli leurs prix sur des suppositions trop gnriques omni-canal des services bancaires qui se dve-
et se sont davantage concentr sur la croissance des revenus plutt que sur lenrichissement loppent via les DAB intelligents, murs dcran
de la valeur client. Contrairement dautres marchs tels que les fournisseurs daccs in- tactiles, applications et kiosques mobiles, sont
ternet qui offrent des services leurs clients, les banques de dtail sont les seules dtenir autant dopportunits de crer des expriences
des donnes concrtes sur ce que leurs clients ont exactement dpens, quand et quelle de services sophistiqus pilots par des donnes
frquence. Elles disposent donc des meilleures donnes pour tablir des profils de clients intgres de haute qualit sont pratiquement
dtaills et concevoir en consquence des produits et services sur mesure. sans limite. Cependant, les banques doivent d-
terminer tout dabord comment montiser leurs
Fournir une vue des clients 360 double usage propres donnes avant mme de penser les
Le service fondamental qui profite la banque de dtail et ses clients est la capacit commercialiser lextrieur !
fournir cette vue intgre 360 degrs du portefeuille complet de chaque client dcrit
prcdemment. Cette vue ncessite de fonctionner de deux faons ! En effet, les banques
devraient avoir cette vue holistique de leurs clients, mais simultanment les clients de-
mandent la mme visibilit de leurs produits et services. Cela implique de pouvoir utiliser
un seul mot de passe pour se connecter et de tout visualiser au travers dun tableau de bord
clair et simple. Les clients prfrant traiter en face face ou par tlphone devraient obte-
nir une exprience intgre similaire sans tre transfrs vers dautres services utilisant
des systmes informatiques non intgrs. Cette vue 360 est le prrequis qui permettra
de montiser les donnes avec plus de profit. Comme voqu plus haut, de nombreuses
banques craignent que leurs donnes schappent de leurs silos scuriss si elles tentent
de les intgrer de nouvelles applications qui amliorent lexprience des clients ou des
responsables de la banque. Cependant, de nouveaux outils dintgration de donnes so-
phistiqus permettent aux banques de mlanger les donnes la source sans devoir les
transfrer au pralable dans une zone de transit . Ces mmes outils permettent gale-
ment dtablir des rgles simples qui garantissent que les donnes soient traites selon les
rgles de gouvernance des donnes locales ou europennes, ce qui liminent virtuellement
les risques de failles de conformit et de scurit.

87
www.pentaho.fr
PIVOTAL

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Pivotal : Extraire la vraie Valeur Business de toutes vos Donnes !


La prise de dcision en temps rel est essentielle au succs de lentreprise. Pourtant, les
PIVOTAL / EMC donnes de votre entreprise continue de crotre de faon exponentielle danne en anne,
ce qui rend lanalyse plus difficile. Pour transformer les donnes structures et non struc-
80 Quai Voltaire - CS 21002 tures en intelligence dcisionnelle, votre entreprise a besoin dune intelligence efficace
95870 Bezons - France pour exploiter le Big Data. Pivotal propose, au travers de Pivotal Big Data Suite, une solution
logicielle de Business Data Lake permettant le stockage et le polymorphisme de traitement
de tout type de donnes. General Electric, American Express, Axel Springer, NTT, Monsanto
Tl +33 (0) 1 39 96 96 37 et SouthWest Airlines comptent parmi nos rfrences.
Mail info@pivotal.io
Pour plus dinformation sur Pivotal Big Data Suite :
http://www.pivotal.io/big-data/pivotal-big-data-suite

Farid
AADIM

EMEA Inside Sales Manager

Pivotal : Acclrateur dinnovation


Pivotal se positionne comme moteur de votre innovation. En complment de cette solution
Data, la stratgie est complt par 2 composants majeurs : lAgilit et la Rapidit.

Avec Pivotallabs, venez dvelopper avec nous, votre application mobile dans notre Lab Agile
comme Twitter, Facebook, LinkedIn ou Groupon lon fait avant vous.

Le PaaS est llment essentiel de votre chaine DevOps qui vous permet de rduire la fois
le temps de dveloppement de votre application (de 6 mois 6 semaines daprs Warner
Music) et le temps de vos Oprations (plus de 90% de gain daprs Rakuten). Pivotal Cloud
Foundry est la solution PaaS adapte au monde de lEntreprise grce son cosystme unique
(Fondation Open Source).

Pour plus dinformation sur le PaaS :


http://www.pivotal.io/platform-as-a-service/pivotal-cf

Pour plus dinformation sur lAgilit offerte :


http://www.pivotal.io/agile

A propos de Pivotal :
N dune spin-off de EMC et de Vmware, Pivotal est un diteur de logiciel offrant une ap-
proche technologique moderne afin de permettre aux Entreprises dinnover dans de nou-
veaux business. A lintersection du Cloud, Big Data et du dveloppement Agile, Pivotal per-
met de mieux utiliser ses donnes, dacclrer la cration dapplication et de rduire les
couts, tout en proposant ces Entreprises, la vitesse et la dmultiplication dexcution dont
elles ont besoin pour tre plus comptitifs.
Un oprateur telecom fdre qualit
rseau et qualit client avec Pivotal Big
Data Suite

La solution Pivotal comprend : Pivotal RTI Spring RabbitMQ


et Pivotal Big Data Suite - GemFireXD, Pivotal HD (Hadoop)
et Pivotal HAWQ
Notre client est lun des 10 plus grands oprateurs tlcoms mondiaux. Daprs les tudes
indpendantes sur la qualit des rseaux et lexprience client, loptimisation rseau et les
amliorations sur les processus mtiers sont structurants et sont devenus ralit grce
notre solution Pivotal Big Data Suite.

Dans ce contexte, nous avions 2 challenges :


Rduire les temps de latence, qui impactent la qualit de service :
- qualit des appels (interruption dappel, grsillements sur la ligne),
- qualit du rseau (impossibilit de se connecter au rseau),
- lexprience client.

Amliorer les actions/campagnes marketing par le biais danalyse de donnes en temps-rel,


sur les statistiques du trafic rseau.

Notre Solution a permis :


Daugmenter lARPU (revenue moyen par utilisateur) grce la golocalisation des
clients finaux en temps-rel.
Comment crer de nouveaux services innovants et produits qui tirent parti de donnes es-
sentielles venant du rseau ? Le premier projet en production de notre client, au Royaume-
Uni est un projet de Go-Marketing. A laide du temps rel, ds quun client rentre dans une
zone prdfinie GeoFencing , un message marketing est automatiquement envoy au
client, ce qui permet dviter le spam.
Lamlioration de la qualit de service du rseau : Procder des ajustements bass sur
des vnements en fonction de la puissance. Augmenter le dbit en quelques minutes au
lieu dattendre le lendemain. Etre mme de grer en temps-rel le rseau en fonction de
la frquentation de celui-ci, afin damliorer lexprience client.
Notre client souhaitait connatre en temps-rel, les appels interrompus, les temps de la-
tences pour tlcharger des pages webs afin dtre capable daugmenter rapidement la
bande passante si ncessaire dun endroit lautre en fonction des flux de personnes sur
les zones gographiques.
De mieux comprendre o les investissements doivent tre fait en fonction de la base de
donnes du rseau.
Dans cette industrie, le plus gros investissement (Capex) reste linfrastructure rseau. Il
est donc important de bien comprendre son rseau en fonction de ses utilisateurs. Notre
solution leur permet de mieux cibler leur investissement 4G pour quil soit le plus efficace
possible avec le meilleur retour sur investissement possible.

Composants Description
Spring Spring helps development teams build simple, portable, fast, and flexible JVM-based systems and applications. Spring is
the most popular application development framework for enterprise Java.
RabbitMQ Increase application speed, scalability and reliability by delivering asynchronous messaging to applications. A message
broker for applications.
GemFire Pivotal GemFire is a distributed data management platform designed for many diverse data management situations, but is
especially useful for high-volume, latency-sensitive, mission-critical, transactional systems.
Scale-Out Performance Consistent database operations across globally distributed applications High
availability, resilience, and global scale Powerful developer features Easy administration of distributed nodes
GemFireXD Data Consistency with Cloud Scalability Extreme Performance and Continuous Uptime with Predictable Performance
Data Aware Parallel Function Execution Data Stream with Enterprise Data Store Correlation Relational Technology
Based on Apache Derby Referential Integrity Standards-Compliant Powerful Querying Engine - ANSI Data-Dependent
and Data-Aware Java Stored Procedures
Pivotal HD Simple and Complete Cluster Management: Command Center Big Data + Big Computing: GraphLab on OpenMPI
(Hadoop) Hadoop In the Cloud: Pivotal HD Virtualized by VMware Spring Data: Build Distributed Processing Solutions with Apache
Hadoop
HAWQ A Fast, Proven SQL Database Engine for Hadoop Big Data Analytics Capability and Productivity Parallel Data Flow
Framework Dynamic Pipelining Extension Frameworks with Hbase, Hive, etc PXF Big Data Analytics Capability
and Productivity - MADlib

89
www.pivotal.io/contact
QLIK

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Qlik (NASDAQ : QLIK), leader en matire de Data Discovery, propose des solutions intuitives
de visualisation en libre-service et danalyse guide. Environ 33 000 socits sappuient
QLIK sur les solutions de Qlik pour extraire des informations essentielles de sources diverses et
explorer des relations invisibles qui donnent naissance des ides novatrices. Le groupe,
93, avenue Charles de Gaulle dont le sige se trouve aux Etats-Unis, possde des bureaux dans le monde entier et compte
92200 Neuilly-Sur-Seine plus de 1 700 partenaires dans plus de 100 pays. En France, la filiale a t cre en 2007 et
compte parmi ses clients des socits telles que 3M, la Socit Gnrale, le CNRS, Bayer
Healthcare, Meetic, Essilor, RueDuCommerce, le Groupe SEB, etc.
Tl +33 (0) 1 55 62 06 90
Le dploiement de lenvironnement danalyse en libre-service des solutions Qlik ne nces-
Mail infoFR@qlik.com site que quelques jours ou quelques semaines et rpond aux besoins des PME comme des
plus grandes entreprises internationales.

Le modle orient applications des solutions Qlik est compatible avec les solutions de BI
CONTACT existantes et offre une exprience base sur limmersion et la collaboration et intgrant une
Stphane dimension collaborative et mobile.
BRIFFOD

Director Presales

Qlik rend le Big Data accessible aux


utilisateurs mtiers.
Librez votre intuition.
www.qlik.com/fr
UNE NOUVELLE APPROCHE
DU DECISIONNEL

A linverse des solutions de BI traditionnelles, bases sur une approche descendante et des
chemins danalyses prdfinis, les solutions Qlik de Data Discovery donnent toute libert
danalyse lutilisateur mtier, dans le respect dune gouvernance tablie par lIT. La puis-
sance et la richesse de la technologie associative de Qlik apportent :

Des perspectives la porte de tous : Avec les solutions Qlik, tout le monde peut crer
des perspectives partir de ses donnes mtier.

Mobilit : Retrouvez vos applications sur un appareil mobile. Vos donnes mtiers sont
disponibles partout et tout le temps.

Des analyses instantanes : Les solutions Qlik rduisent considrablement les dlais
ncessaires pour gnrer des perspectives et obtenir des rsultats instantans.

Modle inspir des applications grand public : Les solutions Qlik permettent de dvelop-
per et de dployer rapidement des applications simples, ddies un sujet ou gnralistes,
et intuitives qui sont faciles rutiliser.

Remixage et rassemblage : Les utilisateurs mtier peuvent facilement rassembler des


donnes dans de nouvelles vues et crer de nouvelles visualisations pour une meilleure
comprhension.

Rseaux sociaux et collaboration : A tout moment, les utilisateurs peuvent partager des
perspectives et rsultats au sein de lapplication ou par lintermdiaire de plateformes de
collaboration permettant de crer une communaut dutilisateurs.

Les solutions Qlik peuvent tre dployes sur site, en mode cloud, sur un ordinateur por-
table ou un priphrique mobile, pour un seul utilisateur ou bien lchelle de grandes
multinationales.

91
www.qlik.com
SAP FRANCE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Leader des applications dentreprise, SAP (NYSE : SAP) fournit aux entreprises de toutes
tailles et de tous secteurs les moyens logiciels dune meilleure gestion. Du back office la
SAP FRANCE direction, de lentrept la vente, quel que soit le terminal dutilisation (ordinateur, termi-
nal mobile), les applications SAP permettent aux collaborateurs et aux organisations de
Tour SAP - 35 rue dAlsace travailler plus efficacement ensemble et de sappuyer sur des tableaux de bord person-
92300 Levallois-Perret naliss afin de conserver leur avance dans un contexte concurrentiel. Les applications et
services SAP offrent plus de 281 000 clients la possibilit dtre rentable, de sadapter
continuellement et de crotre durablement
Tl 0805 800 023
Mail jean-michel.jurbert@sap.com
Didier Mamma
Nouvelle approche et vision stratgique : comment le Big Data bouleverse notre conomie
CONTACT Didier Mamma est Vice-President of Big Data Sales Emea chez SAP. Fascin par le pouvoir
des donnes, il tient en tudier la porte stratgique et les grands blocs fonctionnels.
Jean-Michel Le Big Data nest certainement pas une nouvelle technologie mais bien un moyen de re-
JURBERT penser son avantage concurrentiel. Comme la remarquablement dcrit Jeremy Rifkin nous
sommes entrs de plain-pied dans la 3e rvolution industrielle, digitale et hyperconnecte.
Directeur de March Solutions SAP On ne peut plus apprhender le prsent avec les paradigmes du pass.
La digitalisation remet galement en cause tous les modles conomiques. Amazon, Net-
HANA, BI - Big Data
flix, Nest, eBay, Apple, Crito, Houzz, Google sont quelques exemples dentreprises qui
sont en train dtablir un nouvel ordre conomique trans-industries.

La question demeure dans la capacit des entreprises capter et traiter cette multitude
dinformations dsormais leur disposition. Comment imaginent-elles lavenir de leur bu-
siness ? Dans ce contexte, la rpartition des dpenses des principaux groupes du CAC40
semble alors dsquilibre. En moyenne, ils ddient 72% de leurs investissements la
maintenance de leur systme dinformation. Dramatiquement, une faible partie des d-
penses est alloue linnovation.
Pour librer une part de cet important budget, lide de SAP est de simplifier lexistant.
Cest lobjectif de SAP HANA. La Plateforme HANA est capable daccueillir et de traiter la
varit des donnes de lentreprise, analytiques ou transactionnelles, structures ou non.
Finie la frntique duplication des donnes et laccroissement du plat de spaghettis
informatique. Parmi les 3V qui dfinissent le Big Data, on se focalise souvent sur le V de
volume, or cest la notion la plus simple grer. La complexit des traitements ou calculs,
la vlocit des oprations suffisent justifier une approche Big Data. Comme le dit Didier,
on peut faire du Big Data avec des gigabites ! . En dfinitive, le Big Data en mouvement
ncessite quatre dimensions. La premire est lie la puissance de calcul pur et rapide. La
seconde, la capacit dextraire linformation cache des donnes. La troisime rendre
intuitive le rsultat des analyses grce la visualisation. Et la dernire dimension est lex-
Didier Mamma pert qui connat la nature de la donne et sa valeur potentielle.
Interviews

Frderic PUCHE rel de laffluence dans son supermarch, lui permettre de relier
cette information aux donnes externes comme la mto et prvoir
Le big data, richesse dapplications et efficacite dutilisation les ractions adaptes. Un modle mathmatique lui dira alors si r-
Frederic Puche est en charge des innovations chez SAP France. Il a organiser ses rayons dune certaine faon lorsque survient la pluie en
organis et anim les prsentations dans le cadre du SAP Big Data priode de forte affluence pourra amliorer son chiffre daffaire.
Tour en Juin dernier. Rendre concret le Big Data et en dmontrer la
richesse des domaines dapplications, cest son objectif. Il nous pr- Il sagit l presque de considrations organisationnelles. Le Port de
sente ici quelques beaux projets mens chez SAP.On associe souvent Hambourg, mondialement connu comme lun des principaux Hub
Big Data volume de donnes et stockage adquat. Mais le Big Data mondiaux, est actuellement confront une problmatique lie sa
cest aussi et surtout la capacit de capter les donnes pertinentes taille. Loptimisation du trafic y est donc primordiale. Il faut anticiper
issues des divers canaux, des mdia sociaux aux objets connects. larrive des bateaux, les golocaliser en temps-rel et intgrer les
HANA, la solution Big Data de SAP, comporte trois volets qui rpondent facteurs externes pour prvoir larrive des camions pour le dchar-
cet objectif. Le premier est une base de donnes en mmoire. Le gement du fret au moment idal.
second, un moteur danalyse smantique et de sentiment puissant,
capable deffectuer des prdictions dynamiques. Le troisime et der- Dernier exemple, la scurit. Le Big Data peut par exemple permettre
nier, un moteur de rgles systmatisant des alertes et apportant agili- de dtecter un mouvement suspect. Dans un aroport, lieu hautement
t lentreprise.Lavantage ? Centraliser lintgralit des donnes sur frquent et stratgique, on peut alors reprer un individu au com-
une mme plateforme, de-dupliquer les intermdiaires et faciliter les portement que le modle considrera comme anormal. Seul, sans t-
process. Avant, on faisait du temps rel, mais chaque Business Unit lphone et immobile pendant plus de 40 minutes, il pourra entrainer
disposait de ses propres donnes et outils. Avec Hana, on fait du Big une alerte au sein du service de scurit. Lintrt est l encore de
Data, et les projets innovants naissent.LExecutive Briefing Center de pouvoir stocker les informations et faire appel lhistorique des don-
SAP en France est justement l pour rendre compte concrtement de nes ou au replay.
ces projets.Dans le sport, un domaine qui a rcemment anim lactua-
lit du Big Data, lintroduction dobjets connects et lanalyse des flux
vido apportent une nouvelle approche. La Mannschaft par exemple,
stocke, dcortique, analyse et construit ses statistiques grce SAP
HANA. Semelles intelligentes, capteurs dacclration, mesure des
pulsations Grce au Wifi, les objets connects apportent au sport
finesse danalyse et ractivit.Le sport, cest aussi un public, dont on
peut observer le comportement via des puces, applications mobiles ou
tickets intelligents, et qui on peut recommader le service ou produit
adquat.

Lautomobile est un autre secteur fortement impact par le Big Data.


Lintroduction de capteurs et des objets connects dans les voitures
se dmocratise et engendre une nouvelle approche de cette industrie.
Pour les assureurs plus particulirement, connatre le kilomtrage
effectu et obtenir des informations sur le comportement de lauto-
mobiliste rvolutionne le modle conomique, en instaurant le Pay As Frderic PUCHE
You Drive. Le machine to machine permet galement de faire com-
muniquer entre eux deux vhicules. BMW sintresse actuellement
aux analyses prdictives pour la maintenance mais aussi lanticipation
des bouchons, avec une possibilit dinteraction avec laffichage public
pour faire remonter linformation et alerter les automobilistes.
Dans laronautique, la maintenance est un point sensible. Lutilisa-
tion de capteurs, coupls une analyse algorithmique, offre la capa-
cit dtablir la probabilit de pannes en amont. Avec Hadoop et un
historique de 3 6 mois voire davantage, on peut alors affiner les
modles mathmatiques.On connait davantage le Big Data dans le
secteur BtoC. Rcemment apparues, les Smart Vending Machine sont
la version upgrade du distributeur automatique, et disposent dun
cran digital intelligent. La machine, grce lutilisation de cartes de
fidlit, apprend connatre chaque consommateur, et lui pousse le
bon produit ou service au bon moment. Historique dachat, horaire,
mto ou donnes externes non-structures permettent de disposer
dune information prcise et in fine apportent un chiffre daffaire in-
crmental.Revenons aux capteurs et leur utilisation. Pour la grande
consommation par exemple, la remonte dinformations issue de cha-
riots de supermarch peut apporter un grant une vision en temps-

93
www.sap.com
SAS

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES SAS, votre atout performance


SAS, leader mondial des solutions de business analytics, propose des outils analytiques
SAS INSTITUTE puissants, des solutions de pilotage de linformation et de business intelligence, pour vous
aider faire face aux challenges daujourdhui et anticiper les opportunits de demain.
Domaine de Grgy Vous avez besoin dune solution spcifique adapte votre secteur ? Dune solution fonc-
Grgy-sur-Yerres tionnelle transverse pour rpondre vos challenges ? Quelle que soit votre problmatique,
SAS a une rponse.
77257 BRIE-COMTE ROBERT CEDEX Nous vous aidons valoriser votre relation client, piloter vos risques, combattre la
Tl 01 60 62 11 11 fraude et optimiser vos rseaux informatiques. Nos solutions sappuient sur un socle
technologique avec trois composantes cl : la gestion des donnes, les outils danalyse et
Fax 01 60 62 11 20
la restitution de linformation.
Mail comsas@fra.sas.com Avec SAS, la business analytics est accessible et simple : SAS Visual Analytics vous per-
met dexplorer visuellement et rapidement vos donnes, de crer vos rapports et partager
les rsultats sur le web ou sur tablette.
CONTACT
Serge Big Data, Hadoop et analytique
Les enjeux analytiques des projets Big Data sont la fois dordre technologique et mtier
BOULET
avec des problmatiques lies la nature, au volume et la localisation des donnes, des
architectures extensibles, des comptences varies, une agilit et une prcision danalyse,
Directeur Marketing et de nouveaux besoins relatifs ces donnes.
La nouvelle plateforme analytique de SAS permet danalyser interactivement toutes les
nouvelles sources de donnes pour crer des modles prdictifs intgrs un cycle ana-
lytique complet. Elle permet aux analystes de travailler en faisant appel une riche biblio-
thque dalgorithmes et de mthodes analytiques pour crer et modifier dynamiquement
les modles prdictifs.
Cette plateforme obtient des performances remarquables car les traitements sexcutent
en-mmoire, au plus prs des donnes et en mode distribu lorsque possible.
Hadoop reprsente la plateforme majoritairement utilise pour les projets Big Data, par le
faible cot de stockage, larchitecture volutive, lagilit de laboratoire qui la caractrise.
Votre succs est notre succs.

SAS et Hadoop relvent


le dfi des Big data.
Et ils le remportent.

Big Data Analytics


Que faire avec des volumes massifs de donnes si vous ne
pouvez pas vous en servir ? Ou si leur analyse doit prendre
des jours ou des semaines ?
Combiner le pouvoir analytique de SAS aux capacits
dHadoop, dans un environnement unique et interactif,
vous livre les dcisions cl en main pour des rsultats
rapides et une valeur maximale.

Lire le rapport TDWI


sas.com/tdwi

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. indicates USA registration. Other brand and product names are trademarks of their respective companies. 2014 SAS Institute Inc. All rights reserved. S117789US.0114
Macys.com sublime lexprience
client avec les solutions SAS sur
Hadoop
Macys sappuie sur une plateforme Hadoop Cloudera et les solutions danalyse SAS pour
amliorer la performance de ses ventes en ligne.
Les acteurs traditionnels de la grande distribution doivent dsormais tre mme de pro-
poser des services concurrentiels ceux offerts par les purs acteurs du commerce lec-
tronique. Cest ainsi que Macys.com, filiale e-commerce de Macys Inc., icne de la grande
distribution aux tats-Unis, avec plus de 80 ans dexistence et un chiffres daffaires de 20
milliards de dollars, a men un projet destin amliorer lexprience des clients inter-
nautes et accrotre sa profitabilit.
Porteurs du Projet
Ce projet a t dirig par Kerem Tomak, Vice-Prsident Analytics de Macys.com, avec son
quipe danalystes.
Objectifs du projet
Lobjectif tait de mesurer lefficacit des campagnes marketing et les paramtres de navi-
gation sur le site, connatre la Valeur Client, identifier les clients les plus fidles, et adresser
des promotions cibles aux meilleurs dentre eux.
Prsentation du projet
a. Nature des donnes traites
Macys.com exploite des donnes varies : donnes clients, suivi de campagnes de-mailings
de promotion, suivi de navigation, prfrences clients (ce quils aiment et naiment pas).

b. Ressources et mthodologie
Toutes les donnes analyser sont stockes sur une plateforme de donnes Hadoop Cloudera.
Elles sont analyses avec les solutions analytiques de SAS pour segmenter finement les
clients et calculer les scores propres chaque segment.
Lquipe analytique est aussi responsable du reporting destination des quipes marketing
et finance. Lautomatisation du cycle analytique a permis de rduire le temps de production
de ces rapports et dgager du temps pour gnrer plus danalyses et en accrotre la finesse
et la pertinence.

c. Calendrier de dploiement
Ce projet qui a dmarr en 2012 est en production depuis plusieurs mois et en perptuelle am-
lioration : ainsi, Macys.com a pu rduire le taux de dsabonnement ses campagnes marketing
de 20% et accrotre la productivit des analystes. Le gain est estim 500 000 USD par an.
Aspect Novateur
La meilleure segmentation des clients a permis Macys.com doptimiser les campagnes
marketing (en rduire la frquence et le nombre des clients cibls) et accrotre leur effica-
cit (taux de souscription et taux de rponse).
Valorisation observe de la donne
La capacit de comprendre le comportement multicanal des clients est critique pour amliorer
lexprience client et SAS est utilis pour analyser les donnes et crer les modles analytiques
qui valident et adaptent les algorithmes de up et cross sell .
Cette capacit analyser en profondeur et tirer parti des donnes est importante pour sup-
porter la stratgie et le pilotage des volutions du sites Macys.com, commente Kerem Tomak.
Etapes venir et dmarche Big Data dans lentreprise
Lquipe analytique de Macys.com tudie ladoption de solutions doptimisation des pro-
cessus mtier pour maximiser lefficacit des campagnes promotionnelles en amliorant
encore le ciblage et en accroissant la ractivit.
La volont de Macys.com est de gnrer des informations plus prcises et en temps rel sur
les prfrences des clients afin de personnaliser dynamiquement les promotions.

Plusieurs clients SAS utilisent SAS et Hadoop conjointement pour valoriser leurs sources
de donnes (web, log machines, rseaux sociaux, verbatim Service Clients etc.), par
exemple dans des projets damlioration dutilisation de machines industrielles (Predictive
Asset Maintenance), pour fournir des recommandations cibles (produits, contenu) ou pour
accrotre lefficacit des messages publicitaires et des campagnes promotionnelles par un
ciblage prcis.

SAS Institute, socit prive cre en 1976. 70 000 sites clients, dont 2600 en France, plus
de 3 milliards de dollars de CA et 14 000 employs.

95
www.sas.com/france
SCINETIK
SCINETIK
+
IN T ELLIGENCE E-BUSINESS
Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Scinetik est un cabinet de conseil dont la mission est dassurer pour ses clients, le dveloppe-
ment prenne et rentable de leur activit de commerce connect.
SCINETIK
Notre mission est daccompagner nos clients dans la dfinition et la mise en uvre de
78 rue Taitbout stratgies de dveloppement sur lensemble des drivers de business de la conqute la
75009 Paris fidlisation en passant par la conversion. Pour y parvenir et afin de sassurer de lefficacit
des actions, Scinetik fonde lensemble de ses recommandations sur lanalyse de la donne.
Cette donne vient de multiples sources : le webanalytic, les comportements dachat, les
Tl +33 673 804 708 donnes CRM, des donnes externes...
Mail lively@scinetik.com Scinetik a t cr en raction au manque de pilotage des activits de commerce connect
au sein des retailers. Beaucoup dambitions, peu dexpertise data ou un manque de per-
ception de lenjeu vital de lexploitation de la donne avant mme tout enjeu de branding et
dimage de marque.
CONTACT
Xavire Redonner du sens au business, telle est notre mission.
TALLENT Naturellement cet engagement dans la donne nous a amen dvelopper une expertise
forte en matire de Big Data . Mais pour nous le concept big data nest pas utilis
CEO comme un effet de mode mais comme la conviction profonde que nous sommes arrivs un
nouvel ge du marketing et du business o nous devons rinventer la faon mme dexploi-
ter la donne. Nous nous devons galement daccepter avec enthousiasme le dfi que nous
oppose les varits des sources et types de donnes, lopportunit des open data et tout ceci
en temps rel pour un business toujours plus rapide, une obsolescence des produits et des
promesses relationnelles toujours plus grande
Scinetik travaille pour de grands groupes internationaux dans le domaine du retail, de la
grande consommation, de la mode, du sport.
Le Big Data au service de la
transformation de lentreprise

Le contexte du Client
Aprs plusieurs annes de veille sur la monte du Big data, beaucoup de lecture, la parti-
cipation des confrences, la rencontre avec des entreprises ayant dmarr leur rflexion
big data en France mais surtout ltranger, notre client a dcid de mettre son entreprise
sur le chemin du big data.

La question pose Scinetik


En quoi le big data peut-il impacter vritablement lentreprise dans ses diffrentes dimen-
sions ? Comment ne pas limiter le Big Data un super CRM comme cest le cas dans un grand
nombre dentreprises, notamment en France ?

Le dfi
Concilier ambition stratgique majeure, pragmatisme conomique et oprationnel. Le Big
Data nest pas prioritairement un sujet technologique mais un sujet stratgique et organi-
sationnel.
Un dfi Stratgique car il va modifier potentiellement le business model de lentreprise, son
offre, son merchandising, son marketing et bien entendu son CRM.
Un dfi organisationnel car beaucoup dentreprises se rfugient derrire le data scientist
, sorte de profil hybride entre data/metier/technique. Or si lensemble des quipes de len-
treprise nest pas partie prenante dans le projet alors les outputs du big data, aussi brillants
soient-ils ne se diffuseront pas dans les diffrentes strates de lentreprise, namneront
pas les hommes et les femmes travailler diffremment en faisant de la donne un atout
majeur au quotidien et dans la dure.

La dmarche
Cration dun groupe de rflexion highlevel, ayant la fois la vision de lentreprise dans
son ensemble et ses particularits et galement le pouvoir de faire bouger les lignes.
Dfinition dune vision stratgique centrale
Dclinaison de cette vision sur les diffrents mtiers de lentreprise
Lide force : Cration de prototypes. Chaque prototype adresse une dimension de la big
data dans une dynamique vertueuse et apprenante
Dfinition de la mthodologie de rcupration et danalyse des donnes internes et ex-
ternes
Dfinition de diffrents scnarios pour la mise en place de linfra, lenjeu ntant pas de
lancer de lourds investissements ds le dmarrage mais de tester plusieurs options pour
permettre les meilleurs choix terme
Lancement des prototypes

Les rsultats date


Dmarrage oprationnel des prototypes :
- cadrage des prototypes et mise en place des quipes multicomptences internes-externes
- identification des sources de donnes notamment externes, et pour chaque source la
donne utile
- identification des outils/solutions adaptes et potentiels partenaires techniques (IT).
- /

Lenjeu de ces prototypes est galement de faire monter en comptence les quipes in-
ternes et de dessiner la future architecture SI de metadonnees.
En fonction des rsultats attendus nous serons mme dutiliser diffrentes techniques
danalyse et de modlisation des donnes en sappuyant sur une quipe de statisticiens
spcialiss Big data.
Le dfi que nous voulons relever est de rpondre de rels besoins mtier en utilisant les
mines dinformations existantes mais peu ou pas exploites et en sappuyant sur de nou-
velles techniques et mthodes danalyse.

Nous sommes convaincus que nos clients peuvent tirer de la valeur des metadonnees. Cest
un vaste domaine dexploration et dexprimentation qui soffre nous.

97
www.scinetik.com
SEMDEE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Quelles proviennent directement de lentreprise (CRM, ECM, CMS, RSE, back office,
E-mails, dossiers textes, voir mme des DATA WAREHOUSE) ou de lextrieur (Sites Inter-
SEMDEE net, Blogs, Forums, Rseaux Sociaux) les donnes non structures sont partout.
Confront ce dluge les Entreprises entendent parler de formidable opportunit , de
15, Rue Jean Baptiste BERLIER gisement de valeur ou de cration de valeur.
75013 PARIS
Comment passer de cette situation davalanche de donnes une cration de valeur ?
Cest cette question que rpond SEMDEE diteur de technologies smantiques au travers
Tl +33 (0)1 55 43 79 60 de son offre SEMDEE SMART DATA FATORY.
La technologie SEMDEE est issue des Sciences Cognitives et de travaux sur la mmoire
Mail contact@semdee.com pisodique. Utilisant les rcents dveloppements en Intelligence Artificielle, SEMDEE met
disposition de ses utilisateurs les ultimes avances dans le domaine de la smantique.
Base sur une approche statistique lutilisation du Machine Learning permet une am-
lioration constante de la prcision et de la pertinence.
CONTACT
Brice Inspir du fonctionnement du cerveau humain lEspace Smantique, au cur de la gamme,
indexe les donnes qui vont tre utilises. Les principales tapes cognitives modlises,
HOARAU
chacune sous forme de module fonctionnel, constituent lensemble de la gamme.

CEO Ces modules sont utilisables de manire autonome pour rpondre un simple besoin tech-
nique (recherche, classification etc) ou dune manire plus complte dans le cadre de la
solution SEMDEE SMART DATA FACTORY .

Dune manire gnrale, SEMDEE SMART DATA FACTORY se propose dindustriali-


ser lacquisition et lutilisation de la connaissance. SMART DATA FACTORY sadresse direc-
tement aux clients et aux intgrateurs qui souhaitent constituer leur propre plate-forme
danalyse de donnes.

Solution SEMDEE
SMART DATA FACTORY
SEMDEE SEO PERSOnALiZED
COnTEnT
Web ferm

SEARCh RELATED COnTEnT

Blogs / Forums Urls Flux Rss

Web ouvert

MOniTORing TAggER SEnTiMEnT


AnALYSiS
ECM RSE CRM

Espace
Smantique PREDiCTiVE PROFiLER
Data marehouse E-mails Txt AnALYSER
SEMDEE

CMS
CATEgORiZER
Composants du SI

Copyright - Semdee 2014


Comment dtecter et anticiper
le churn avec SEMDEE

Porteur du projet : Murat AHAT Aspect Novateur


Objectifs Fonctionnement instantan
Aider un grand groupe anticiper le dpart de ses clients. (pas de besoin de dictionnaire, de lexique etc)
Mettre en place un systme dalerte au churn dans le cadre dun plan de rtention des clients. Fonctionne sur lensemble du contenu (pas limit
un groupe de mots ou de phrases mais sur des
Prsentation textes entiers) - Fonctionne dans toutes les langues.
Voici les principales tapes qui seront menes dans le cadre de ce projet : Machine learning : plus le systme va fonctionner
A) Rcupration des historiques des donnes des clients qui ont quitt le service. plus il va devenir prcis.
Ces donnes peuvent provenir : Toutes les tapes cognitives sont intgres en une
a. Du web seule solution = Cohrence cognitive accrue.
b. Des rseaux sociaux
c. Des plates-formes de service Valorisation observe de la donne
d. Des emails ROI directement calculable.
e. Des posts dans les forums Combien vaut un client ? Combien coute la perte
dun client ?
B) Agrgation des donnes par client
Combien de clients en moyenne perdent les entre-
C) Indexation smantique de ce contenu prises sur le mme secteur dactivit ?
Combien lentreprise avait elle perdue de clients
D) Pondration des contenus en fonction des connaissances mtiers
lanne prcdente ?
E) Gnration de lensemble des profils des clients
Etapes venir et dmarche Big Data
F) Dtermination dun seuil d alerte (proximit par rapport ces profils)
dans lentreprise
G) Rcupration de contenus mis par les clients actuels du service dans Fonctionne sur toutes les autres problmatiques
a. Les formulaires de la mme manire :
b. Les emails Dtection dopportunits de ventes - Amlioration
c. Les rseaux sociaux de la connaissance des usages client, du client,
d. Les forums des tarifs et des concurrents
e. Les plates-formes de services Dtection de nouveaux besoins
H) Agrgation des donnes par client
I) Indexation smantique des contenus
J) Lorsquun client actuel du service se rapproche du seuil dalerte
a. dclenchement dune alerte auprs du service client
b. Le service client peut alors traiter en direct
K) Outils supplmentaires mis disposition du service client
a. Lorsquun oprateur consulte un profil susceptible de quitter le service, le systme
propose automatiquement la liste des profils qui lui sont le plus proche
b. Loprateur peut effectuer des recherches en mode smantique pour approfondir
sa connaissance
Comptences humaines :
Dans le cadre de ce projet, il sera ncessaire de disposer des ressources suivantes :
Une comptence mtier
Un consultant SEMDEE pour installation et paramtrage
Une comptence dintgration pour personnaliser la restitution auprs des utilisateurs
Calendrier de dploiement :
Les dures sont donnes titre indicatif car elles dpendent videmment du volume de don-
nes, de la diversit des supports et de la qualit de la connaissance mtier mis disposition.
A partir du moment o les sources de donnes sont prcisment identifies :
Extraction des donnes (1 2 semaines selon complexit et le nombre de support)
Indexation smantique et paramtrage (1 semaines).
Paramtrages des profils et alertes (1 semaine)
Mise en place des modules connexes permettant un meilleur confort (recherche,
enrichissement de linformation, suggestion de profils etc (1 semaine/module)
Intgration, personnalisation dans lenvironnement utilisateur (intgrateur)

99
www.semdee.com
SENTELIS

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES SENTELIS, smart solutions for smarter enterprises


Sentelis est un cabinet de conseil en stratgie, gouvernance et architecture de systmes din-
SENTELIS formation.
Nous accompagnons les dcideurs SI dans leur transition numrique vers lentreprise 3.0
31 Rue du pont (CIO, CDO, CTO, CMO), de la dfinition de leur stratgie la concrtisation oprationnelle.
92 200 Neuilly-sur-Seine
Nous les aidons identifier, optimiser et dployer les capacits stratgiques du sys-
tme dinformation 3.0 en rponse lquation digitale quils doivent rsoudre pour conju-
Tl +33 (0)6 76 09 82 46 guer innovation et industrialisation, pour intgrer et tirer bnfices des nouvelles ralits nu-
mriques comme le Cloud Computing , le Mobile Computing , les Social Medias , l
Mail i.regnier@sentelis.com
Internet-of-Things , le Digital Working , le Crowd-Sourcing et bien sr le Big Data .

Nos solutions concrtes, pragmatiques et diffrencies rpondent aux besoins defficience


(Time-to-market) et defficacit (Cost-to-income) du SI. Elles sont imagines et dployes
CONTACT au travers dun cadre mthodologique, architectural et de gouvernance innovant et unique
Isabelle sur le march, dont Sentelis est lditeur : smartfoundations.
REGNIER Sentelis smartfoundations couvre lensemble du cycle de vie des fondations du SI Digital,
quils sagissent de composants SI ou de pratiques SI transverses. Il garantit des fondations
industrielles, prennes et fort retour sur investissement.
Associ Fondateur
Nous avons un savoir-faire reconnu et prouv sur la plupart des fondations de lentreprise
digitale, aussi bien des composants du SI 3.0 (Big Data & Business Analytics, SOA/API
Management & Cloud Integration, MDM, BPM/ACM, eCRM, Enterprise App Stores & Social
Networks), que des pratiques de la DSI 3.0 (Fast IT/DevOps, IT Factory, SSC) et des disposi-
tifs transverses mtiers-DSI de lentreprise 3.0 (Data Labs, Data Governance,
Social Enterprise Architecture).

Nous intervenons en tout indpendance vis--vis des diteurs sur ces fondations de lentre-
prise 3.0 (tude opportunit, preuve-de-concept mtier & technologique, industrialisation)
y compris sur les aspects gouvernance et conduite du changement.

Vos donnes en savent plus que vous.


Faites-les parler.
Entreprise 3.0 (n.m) :
Entreprise qui conjugue au prsent innovation et
industrialisation

Big Data (n.m) :


Fondation stratgique de lentreprise 3.0

Smartfoundations (n.f) :
Cadre de reference Sentelis pour rsoudre
lquation digitale du SI de lentreprise 3.0

Sentelis (n.f) :
Crateur et intgrateur de fondations
stratgiques SI et DSI de lentreprise 3.0

www.sentelis.com smart solutions for smarter enterprises


Architecture 3.0 : FONDATION
BIG DATA pour une Mutuelle
dAssurance

Porteur du Projet : Sbastien LAYER


Objectifs
Mettre en place un socle Big Data cross-mtiers pour servir les nouveaux usages 3.0 :
Analyse ractive (contextualisation temps rel de la relation client sur tous les canaux)
Analyse historique du portefeuille client sur lensemble des donnes disposition
(micro-segmentation, qualit et volution de la relation, segmentation comportementale)
Analyse prdictive du portefeuille client (dtection dopportunits, prvention des risques)
Prsentation
Intgration dans un lac de donnes dune trs grande varit de donnes reprsentatives du
systme dinformation (donnes transactionnelles, vnementielles, conversationnelles,
sociales rfrentielles, dcisionnelles) pour un volume avoisinant plusieurs milliards de
donnes.

Ralisation en 2 tapes majeures pour scuriser la mise en uvre de la fondation Big Data :
Identification de cas dusage candidats.
Conduite dune preuve-de-concept valeur mtier et architecturale sur une infrastruc-
ture Commodity Hardware et des composants Open Source de lcosystme Hadoop

Ralisation dune preuve de concept sur un usage emblmatique (Vision 360 Client) au
sein dune quipe mixte mtier-SI en mode agile (Utilisateur mtier, Ergonome, Analyste
Donne, Statisticien, Architecte Big Data, Dveloppeur Big Data) incluant :
Lingestion en masse des donnes dans une logique Schema-less/Store-first-Ask-Later
Lingestion de donne unitaire haute vlocit et sans latence
Le traitement en masse des donnes pour corrler lensemble des donnes clients
Lindexation en masse des donnes pour permettre leur exploration
Lexposition de services pour banaliser laccs aux donnes et aux traitements
Calendrier de dploiement
3 mois pour raliser la preuve-de-concept
2 mois pour choisir les composants de la stack Big Data
6 mois pour industrialiser et dployer les premiers usages en production
Aspect Novateur
Modle darchitecture digitale 3.0
Dsilottage des donnes entre les mtiers et des mondes oprationnel et analytique
Amlioration dusages existants (ex : vision 360 Client, Contrat) - Perspective de nouveaux
usages (ex : analyse de la couleur et la teneur de la conversation client, corrlation des flux
comptables) - Capacit dinnovation renforce (Test & Learn, Data Lab)
Valorisation observe de la donne
Le projet permet denvisager une exploitation de toutes les donnes disponibles structures et
non-structures comme jamais auparavant, sans frontire de temps ni despace (ex : analyse
des commentaires clients dans les questionnaires de satisfaction et corrlation avec la notation
; dtection de nouvelle segmentation via des algorithmes danalyses non propritaires).
Etapes venir et dmarche Big Data dans lentreprise
Les tapes venir sont : Industrialisation du socle Big Data (pratiques et solutions) - Mise
en production des premiers usages.
Ces tapes saccompagnent en parallle de la dfinition de loffre de service associe la
fondation Big Data et de lorganisation pour en assurer la prennit et le dploiement dans
lentreprise.

Autres informations : La mise en place du lac de donnes a t un rvlateur et un catalyseur


de nouveaux usages pour lensemble des mtiers, encourags par des cots et une perfor-
mance de traitement sans commune mesure avec lexistant. Elle ouvre la place, au-del de
lamlioration de la Business Intelligence et du dveloppement de la Business Analytics, au
dveloppement de la Data Science pour tirer le maximum de valeur du capital informationnel
de lentreprise. Elle a mis en vidence la ncessit dune gouvernance de la donne resser-
re pour matriser lexplosion des donnes et des usages. Le lac de donnes est la premire
tape vers la construction dune infrastructure fdre des donnes entre monde opration-
nel et monde analytique (Shared Data Backbone), dont la frontire disparait.

101
www.sentelis.com
SINEQUA

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Sinequa : Dcouvrez la valeur cache de vos donnes


Le Search et lAnalyse de contenus structurs et textuels en temps-rel, au service de vos
SINEQUA processus mtiers stratgiques

12 rue dAthnes, 75009, Paris Le dfi du Big Data : Plus de 80% de ces donnes sont non structures - des textes en
beaucoup de langues diffrentes. Les professionnels de linformation perdent un temps
considrable regrouper linformation dont ils ont besoin pour accomplir leur travail. La
qualit du service client faiblit, la R&D est freine et les entreprises laissent chapper des
Tl +33 (0)1 70 08 71 71 opportunits lorsque leur personnel est submerg dinformations et incapable de trouver la
bonne information au bon moment.
Fax +33 (0)1 45 26 38 92
Mail pornain@sinequa.com Notre mission :
Offrir un accs en temps rel, personnalisable et scuris aux informations pertinentes
chaque utilisateur dans son contexte mtier.
CONTACT Simplifier la cration dInfoApps (Search-Based Applications) par secteur et par mtier
Xavier
PORNAIN Notre solution :
Une analyse de contenu unique, base sur une analyse smantique brevete (traitement
du langage naturel) et sur une exprience en traitement de donnes structures provenant
VP Sales & Alliances dapplications mtier
Une architecture informatique trs performante et scalable, permettant de grer des
dizaines de milliers dutilisateurs et des milliards de documents en temps-rel
Une intgration scurise et homogne avec plus de 140 sources de donnes

Notre exprience :
Deux dcennies de recherche en matire de traitement du langage naturel
Search et Analyse du Big Data
au service de la Relation Client
AMLIORATION DU SERVICE CLIENT ET RDUCTION DES COTS

Lun des principaux oprateurs de tlcommunication en Europe utilise Sinequa pour d-


livrer instantanment aux employs de ses centres dappels une vue 360 des clients. Il
rduit ainsi de manire significative la dure moyenne des appels, diminue le cot daccs
linformation et rend possible le dveloppement dInfo Apps en mode agile pour rpondre
lvolution du business.

Porteurs du projet
Cot client, le projet a t port par la DSI de la Relation Client, avec une implication forte
du Mtier de la Relation Client notamment pour son impact sur lergonomie des Chargs
de Clientle (CC).
Objectifs
Ct business, il sagit avant tout damliorer la satisfaction client; ct informatique, de
diminuer les cots lis au fonctionnement du centre de contacts et de ses quelques 250
applications; enfin, laccs unifi linformation depuis une seule application permet de
rduire drastiquement la dure de formation et de monte en comptence, et damliorer
lergonomie des CC.
a. Amliorer la satisfaction client
La nouvelle interface de travail des CC leur permet de rpondre directement 80% des re-
qutes client. Libr dune navigation chronophage entre plusieurs applications (plus de 30
dans certains cas), le CC peut traiter la demande du client plus efficacement.
b. Rduire le cot de fonctionnement et gagner en performance
Le dcouplage entre la lecture des donnes et laccs aux applications back-office amliore
les performances et rduit les temps de rponse, mme durant les piques dactivit.
Le systme dinformation gagne en agilit puisque des applications (Info Apps) peuvent tre
dveloppes rapidement afin de sadapter aux volutions du business.
c. Diminuer le besoin en formation et amliorer lergonomie du CC
La complexit du Back-Office existant (ERP, CRM, etc.) sefface devant la nouvelle interface
du CC rduisant le besoin de connaissance des outils Back Office.
Prsentation
a. Nature des donnes traites
Il sagit de donnes structures venant dERP, du CRM, dapplications mtiers spcifiques
mais aussi de contenus non-structurs comme des contrats, des factures ou des emails.
b. Ressources et Mthodologie
Le projet a t conu en mthode agile avec les utilisateurs finaux.
c. Calendrier de dploiement
Le pilote a t ralis en 2 mois et la mise en production en 9 mois.
Aspect Novateur
Fdrer de la donne structure et non-structure afin de crer une vue 360 client en
temps-rel pour des milliers de CC est lun des cas dusage du Search et de lAnalyse de
donne Big Data les plus innovants raliss aujourdhui. Le Search joue dsormais un
rle dterminant au cur de processus mtiers stratgiques. Offrant un vritable levier de
comptitivit, il ouvre la voie des innovations qui nauraient pu voir le jour dans des archi-
tectures informatiques classiques .
En peine neuf mois, le projet a t dploy auprs de 10 000 CC. Le ROI en satisfaction
client et en temps gagn par appel sest fait sentir trs rapidement aprs le dploiement.
Valorisation Observe de la donne
La mise en place du nouvel accueil client permet de rduire de prs de 20% la dure
moyenne des appels donnant ainsi aux 10 000 CC la capacit de traiter environ 40.0 000 ap-
pels supplmentaires par jour, et daugmenter lARPU (Average Revenue Per User) grce
une meilleure connaissance du Client (permettant de proposer les offres les plus adaptes).
Etapes venir et dmarche Big Data dans lentreprise
A lavenir, encore plus de sources de donnes pourront tre indexes, y compris des donnes
non structures provenant par exemple des rseaux sociaux (Data-profiling, Data-scoring).

103
www.sinequa.com
SPLUNK

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Splunk Enterprise est la plateforme leader de lintelligence oprationnelle en temps rel.
Elle offre un moyen simple, rapide et scuris dexplorer, analyser et visualiser les flux
SPLUNK massifs de donnes gnrs par vos systmes informatiques et votre infrastructure tech-
nologique, quelle soit physique, virtuelle ou dans le Cloud.
Tour Ariane 5 place de la Pyramide
Splunk Enterprise offre :
92088 La Dfense Cedex
De puissantes capacits danalyse accessibles tous des vitesses extraordinaires
Tl 01 55 68 12 61 Une exprience utilisateur entirement repense
Un environnement de dveloppement enrichi permettant de prolonger facilement la
Mail emea_france@splunk.com plateforme

Splunk Enterprise 6.1 est notre dernire version et offre des fonctionnalits conues pour
amliorer la manire dont vous analysez vos donnes et interagissez avec elles, tout en
CONTACT proposant une disponibilit continue de votre dploiement distribu de Splunk Enterprise.
Pierre
GOYENEIX Recueillez et indexez les donnes machines de toutes les sources ou presque en temps
rel. Explorez, surveillez, analysez et visualiser vos donnes pour obtenir de nouveaux ren-
Directeur Commercial EMEA South seignements. Indexez toutes vos informations pour bnficier dune meilleure visibilit et
renforcer vos capacits dinvestigation et de dpannage. Travaillez plus intelligemment en
partageant des recherches entre quipes et en accumulant des connaissances propres
votre organisation. Crez des rapports cibls pour identifier des tendances ou rpondre
des contrles de conformit. Composez des tableaux de bord interactifs pour surveiller les
incidents de scurit, les niveaux de services et autres indicateurs cls de performance.
Analysez les transactions des utilisateurs, le comportement des clients, celui des ma-
chines, les menaces de scurit et les activits frauduleuses, le tout en temps rel.Indexez
toutes les donnes

T:190 mm

Commencez avec des donnes


machine et le logiciel Splunk.
Terminez avec un avantage
considrable.

Splunk transforme les donnes


machine en renseignements prcieux
pour votre entreprise. Dcouvrez la
T:124 mm

meilleure des plateformes dinformation


oprationnelle en temps rel.

Pour en savoir plus, rendez-vous


sur fr.splunk.com

2014 Splunk Inc. Tout droits rservs.


Splunk chez Karavel
IDENTIFICATION DES ERREURS EN TEMPS REL ET DIMINUTION
DU TEMPS DE RPONSE, POUR UNE MEILLEURE EXPRIENCE
UTILISATEUR.

SECTEUR
Voyages (agence de voyages en ligne)
CAS DUTILISATION SPLUNK
Gestion des applications
Intelligence numrique
Intelligence oprationnelle
RSULTATS
Meilleure exprience utilisateur avec une rduction de 82 % des temps de rponse des pages.
Amlioration du rfrencement naturel par lidentification et la rparation ou la suppres-
sion des liens non trouvs. Identification en temps rel des divergences de configuration,
permettant dviter des pertes de recettes. Relation proactive avec les oprateurs pour
rectifier les erreurs humaines du processus.
SOURCES DE DONNES
Logs du proxy inverse Varnish Logs applicatifs Tomca
Dfis
Karavel attache une grande importance la haute qualit de service offerte ses clients,
mais souffrait dun manque de visibilit dtaille sur son architecture informatique. Des
outils de surveillance taient bien utiliss, mais ils ne fournissaient pas une vision suffi-
samment prcise. Karavel pouvait par exemple connatre le temps de rponse moyen des
pages principales dun site donn, mais pas la distribution dtaille des temps de rponse
; il ntait donc pas possible de savoir combien dutilisateurs recevaient un service infrieur
aux accords internes sur les niveaux de service, ni didentifier prventivement les situations
o ceux-ci taient sur le point dtre enfreints. Ce manque de visibilit avait en outre des
consquences sur le processus de rservation en ligne, car Karavel ntait pas en mesure
de dtecter certains problmes : par exemple, des divergences entre les configurations
dun produit cr par loprateur, import sur la plateforme de Karavel et offert aux clients
via le site web. Certaines erreurs rendaient impossible la finalisation de lachat par le client.
Intervention de Splunk
Karavel a choisi Splunk Enterprise pour garantir la qualit de ses services de rservation en
ligne, mieux comprendre et amliorer les temps de rponses de ses pages web, et assurer
le respect de ses accords sur les niveaux de service. Les logiciels Splunk sont maintenant
utiliss tant par lquipe technique que par lquipe commerciale de Karavel, et servent
amliorer le service offert aux clients par toutes les marques de lentreprise. Lquipe tech-
nique surveille en temps rel le processus de rservation en ligne, et utilise des alertes auto-
matiques qui se dclenchent lorsque quun nombre anormalement lev derreurs se produit.
Elle examine dautre part chaque semaine les rapports de Splunk exposant les temps de
rponse des pages web. Lquipe commerciale observe elle aussi les rapports de Splunk, pour
identifier et rectifier prventivement tout problme. En outre, les tableaux de bord de Splunk
fournissent lquipe de direction des indices hebdomadaires de performances.
Karavel envoie Splunk Enterprise les logs de son proxy inverse Varnish et de Tomcat. Un
relayeur envoie ces donnes deux indexeurs ayant une tte de recherche unique. Kara-
vel utilise les logiciels Splunk conjointement avec AppDynamics, effectuant les recherches
avec Splunk et utilisant ensuite AppDynamics pour des investigations en temps rel. Kara-
vel a aussi construit des applications Splunk ddies : une pour le processus de rservation
en ligne et une pour laccord de service de chaque site web.
Progrs
Une meilleure vision relative aux accords sur les niveaux de service des sites web a diminu
les temps de rponse de 82 % Identification en temps rel des divergences de configuration
des rservations en ligne Optimisation du rfrencement naturel quipe commerciale

En rsum, lutilisation de Splunk Enterprise pour obtenir une intelligence oprationnelle


dtaille sur son architecture web a apport Karavel une nouvelle comprhension appro-
fondie de la performance de ses sites. Les quipes de toute lentreprise, la fois techniques
et fonctionnelles, utilisent Splunk Enterprise pour amliorer la qualit de service fournie
aux clients des sites du catalogue de Karavel.

Nous proposons aujourdhui une meilleure exprience de navigation sur notre catalogue
de sites de voyages, avec des temps de rponse rduits et une identification immdiate de
divergences de configuration potentiellement coteuses.
Architecte technique
Karavel

105
www.splunk.com
SYNCSORT

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Fort de 40 ans dinnovation, dexpertise et de russite, Syncsort aide les entreprises travers
le monde intgrer les Big Data plus intelligemment.
SYNCSORT
Syncsort propose des solutions logicielles fiables, performantes, fonctionnant aussi bien
Tour Ege - La Dfense sur Hadoop que sur le mainframe. Nous aidons nos clients, partout dans le monde collec-
17, avenue de lArche ter, traiter et distribuer plus de donnes, en moins de temps, avec moins de ressources et
en optimisant les cots. Une majorit des entreprises du Top 100 sont clients de Syncsort
92671 Courbevoie Cedex - France et nos solutions sont utilises dans plus de 85 pays pour off loader des applications lega-
Tl +33 (0)1 46 67 46 10 cy, onreuses et inefficaces, acclrer les traitements dans votre data warehouse et votre
mainframe et optimiser lintgration de vos donnes dans le cloud.
Mail syncsortsamkt@syncsort.com
En 1968, sept ingnieurs et mathmaticiens se sont runis pour rduire les cots et la com-
plexit lis aux donnes et leur traitement. En perfectionnant une srie dalgorithmes qui
rationalisrent le tri mainframe, utilisrent moins de ressources, sadaptrent selon des
variables denvironnement spcifiques et assurrent une scalabilit pour faire face des
CONTACT volumes de donnes toujours croissants, ils changrent jamais la manire dont les entre-
Florence prises pouvaient envisager lconomie des donnes et ils fondrent Syncsort.
RABUEL
Aujourdhui, avec des milliers de dploiements travers le monde sur toutes les plates-
formes majeures dont le mainframe, Syncsort fournit des solutions dintgration Big Data
Regional Director aux entreprises grant dnormes quantits de donnes tout au long du Big Data Conti-
nuum, une manire plus ingnieuse de collecter, traiter une avalanche de donnes toujours
croissantes..

Le sige social de Syncsort est situ au Nord Est du New Jersey. Syncsort est prsent
linternational avec des filiales au Royaume-Uni, en France et en Allemagne, avec un centre
de support aux Pays-Bas et des distributeurs. Syncsort dispose dun rseau international
de partenaires, revendeurs et distributeurs qui incluent ses solutions comme composants
de leur offre informatique.

Syncsort est cette entreprise unique qui a brillamment fait voluer son
business model de lre du mainframe celui dHadoop. En capitalisant
sur cette exprience, Syncsort a dvelopp des solutions sur mesure
pour permettre aux entreprises doptimiser leurs charges de travail
travers lensemble de leur architecture de donnes. Elles ralisent ainsi
des conomies et allgent la charge sur le datawarehouse et le main-
frame, ce qui acclre les traitements par ceux-ci.

Notre portefeuille de solutions innovantes comprend notamment :

DMX-h. Le premier moteur ETL qui fonctionne en mode natif au sein


du cluster Hadoop, ce qui permet aux entreprises de mettre en place
des flux de donnes complexes dans Hadoop et acclrer sans
heurt les processus MapReduce tels que HiveQL et Pig sans
devoir rdiger, gnrer ou optimiser du code manuellement.

SILQ. Le premier et unique outil conu pour aider les clients com-
prendre des tches complexes dintgration de donnes SQL et les Lonne Jaffe,
offloader du datawarehouse vers Hadoop.
PDG
Le moteur de tri et ETL le plus rapide pour mainframe, Hadoop et
Linux/Unix/Windows.

JE VOUS INVITE EN APPRENDRE DAVANTAGE SUR NOTRE ENTREPRISE SYNCSORT.COM/FR


Hadoop chez SFR

Efficacit accrue grce au projet Hadoop


En tant quoprateur tlcom majeur comptant plus de 21 millions de clients, SFR collecte
quotidiennement une quantit norme de donnes. Lobjectif du projet Hadoop chez SFR
tait en premier lieu de rduire les cots dexploitation de ces donnes. Au fur et mesure
que le volume de donnes augmente, il est de plus en plus difficile et coteux de stocker
et traiter les donnes. En utilisant de faon optimale le cluster Hadoop et les outils puis-
sants de tri et ETL de Syncsort, il est possible de limiter linvestissement dans du nouveau
hardware.
Un projet qui ne se termine jamais
SFR a dcid de lancer le projet Hadoop la fin de 2013. Dans une premire phase, le choix
sest port sur la distribution Hadoop Cloudera et dbut 2014, il a t dcid de travailler
avec DMX-h de Syncsort pour loader et offloader des donnes partir du cluster Hadoop.
SFR utilisait dj loutil ETL DMX de Syncsort pour quatre autres projets, pour lesquels il
avait fait ses preuves. Les trs bonnes performances de DMX-h de Syncsort ont ensuite pu
tre dmontres dans le cadre du Proof of Concept pour le projet Hadoop. Nous travaillons
encore en mode batch, explique Franois Nguyen, en charge de la division Connaissance
Client chez SFR. Cela implique que nous disposons dune fentre de traitement rduite.
Nos engagements prcdents avec Syncsort se sont rvls trs efficaces. Leurs capacits
de tri nont pas dquivalent sur le march, et nous sommes trs heureux que Syncsort soit
lun des vritables innovateurs sur le march Hadoop. Leur mcanisme de tri est incorpor
la distribution Hadoop que nous utilisons.
Au cours de lt 2014, les premires sources de donnes ont t loades dans le cluster
Hadoop, et davantage de sources seront ajoutes toutes les deux ou trois semaines. Il
ne sagit pas dun projet avec un horizon dtermin, nous allons continuer ajouter des
sources de donnes en permanence, explique Franois Nguyen.
A lheure actuelle, la division Connaissance Client gre une base de donnes trs volumi-
neuse , qui narrte pas de crotre. Les donnes traites dans le cadre du projet Hadoop
sont principalement des donnes structures mais on y retrouve galement des donnes
semi-structures provenant de logs.
En primeur
Le projet chez SFR est lune des premires vritables expriences Big Data et Hadoop sur
le march franais. Le projet permettra SFR de raliser des conomies, grce la perfor-
mance des solutions implementes.
De premiers rsultats rapides
Lune des premires russites du projet a t la capacit concrtiser les premires tapes
dans le dlai imparti et selon le budget, ce qui est une prouesse compte tenu quil sagit de
lintroduction de technologies de pointe. La mise en route aussi rapide du projet est princi-
palement due au fait que SFR na pas eu effectuer une phase de tuning avant de commen-
cer utiliser DMX-h pour manipuler les donnes ni raliser de codage supplmentaire.
Les rsultats seront valus en permanence au fur et mesure que de nouvelles sources
de donnes sajoutent au cluster Hadoop.

Lutilisation des puissantes capacits de tri de Syncsort DMX h nont pas rendues nces-
saires lacquisition de hardware supplmentaire.

107
www.syncsort.com
TABLEAU SOFTWARE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Connectez-vous nimporte quelle source de donnes, quelle que soit son type ou sa taille.
Analysez et crez des tableaux de bords et partagez-les en quelques clics. Tout cela en
TABLEAU SOFTWARE respectant votre architecture de donnes et vos protocoles de scurit.
Rencontrez le nouveau visage des solutions dcisionnelles : Tableau Software. Tableau aide
Blue Fin Building les utilisateurs visualiser et comprendre leurs donnes. Quel que soit la source, le format
110 Southwark Street ou le sujet de vos donnes, le logiciel prim de Tableau vous permet dobtenir rapidement des
analyses pousses et visuelles. Le rsultat ? Chacun peut obtenir facilement des rponses,
SE1 0SU London - ROYAUME-UNI sans notion de programmation. Des tableaux de bords pour excutifs aux rapports ponctuels,
Tl +33 9 70 44 93 95 Tableau vous permets de partager vos analyses interactives en quelques clics. Plus de 21
000 entreprises et organisations, incluant certaines des plus importantes au monde, font
Mail jsigonney@tableausoftware.com confiance Tableau pour obtenir rapidement des rsultats, au bureau ou en dplacement.
Laissez de ct les solutions de dcision traditionnelles et optez pour la plus facile dutilisa-
tion, la plus rapide et la plus agile des solutions dcisionnelles du march. Avec tableau, les
employs obtiennent ce quils dsirent et votre service informatique conomise du temps
CONTACT et de largent.
Julien Tableau Software concentre son offre autour de trois produits principaux pour les entre-
prises : Tableau Desktop, Tableau Server et Tableau Online. Nos quipes ventes et marke-
SIGONNEY
ting France sont votre disposition pour rpondre vos questions et vous aider choisir la
solution la mieux adapte vos besoins comme elles lont fait pour dautres clients presti-
Sales Area Manager gieux tels que : La Croix Rouge, Unilever, BNP Paribas, Nokia ou encore eBay.
Rpondez aux questions aussi vite quelles vous viennent grce Tableau Desktop
Tableau Desktop utilise une technologie innovante de luniversit de Stanford qui vous per-
met de glisser-dposer des donnes pour les analyser. Vous pouvez accder aux donnes,
visualiser et crer facilement des tableaux de bord interactifs que vous pouvez ensuite par-
tager en quelques clics. Et tout cela sans rien programmer !
Tableau se connecte en direct la majorit des bases de donnes et feuilles de calculs
et offre galement une architecture en mmoire rvolutionnaire qui augmente la rapidit
des analyses. Quiconque sachant se servir dExcel peut apprendre rapidement utiliser
Tableau.

Faciliter lanalyse de vos donnes.


Pour les analystes, les cadres, les informaticiens...
Pour tous...

10 100 fois plus rapide que les solutions disponibles


sur le march
Crez facilement des tableaux de bord intelligents,
quel que soit le type de donnes utilises
La conception de lavenir de
lune des principales socits de
services financiers dEurope
Partner : BNP Paribas
Contact : Pierre Thebault (BNP Paribas) et Edouard Beaucourt (Tableau Software)

Principaux objectifs du projet


Innover pour dvelopper des parts de march, remporter de nouveaux clients et augmenter
la part du portefeuille de clients existants.

Prsentation du projet
Le gant bancaire franais a mis sur Tableau pour recueillir et analyser ses donnes en
seulement quelques minutes. La division BNP Paribas du Sud-Ouest de la France dispose
maintenant de la capacit de visualiser les tendances de gocodage utilises dans le cadre
des campagnes commerciales et marketing de la banque. Et laperu partag et dtaill de
la performance de 2 000 agences travers la F contribue renforcer la comptitivit.

Mise en avant des innovations incluses dans le projet


Pierre Thebault, goanalyste, est charg danalyser et didentifier les tendances de goco-
dage au sein dune rgion. Grce Tableau, il traque les opportunits de prospecter de nou-
veaux clients et de dvelopper de nouvelles campagnes marketing extrmement cibles :
Tableau est le moyen le plus rapide de passer des donnes aux dcisions . Il est mme
de localiser et de visualiser le nombre de prospects dans la rgion de Toulouse, et de les
segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont
ils disposent dj. Sils ont souscrit un prt immobilier, ils constituent un candidat potentiel
pour la souscription dune assurance habitation ou dune carte de crdit. Tableau permet
de visualiser lensemble des donnes en quelques secondes, ce qui permet son quipe
de transmettre ce public cible segment aux quipes commerciales internes de la banque
pour un suivi immdiat.

BNP Paribas recherche constamment des manires de diffrencier ses services en offrant
une exprience plus localise. Tableau permet la banque dtudier la localisation des dis-
tributeurs automatiques de billets des concurrents et didentifier les sites potentiels pour
de nouveaux distributeurs : Comparer la localisation de nos clients avec la disponibilit du
rseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux
emplacements de distributeurs , dclare Pierre Thebault.

Malgr lexpansion des services bancaires en ligne, les franais restent attaches aux
agences physiques. Tableau reprsente la source primaire pour les rapports sur la perfor-
mance des 2 000 agences BNP Paribas franaise. Directeurs et responsables partagent un
aperu dtaill de la performance de chacune des agences : chiffre daffaires, rentabilit,
personnel, adoption des services bancaires en ligne de la part des clients, etc. Laccs
rapide des donnes fiables, grce Tableau, se traduit par une prise de dcision vive
et fiable concernant les agences , affirme Pierre Thebault. Il poursuit, Avant Tableau,
nous utilisions des feuilles de calcul et une base de donnes Access. Cela nous prenait des
heures, des semaines, voire des mois, pour trouver les donnes correctes et les rponses
dont nous avions besoin. Dsormais, grce Tableau, lintgration homogne et la simplici-
t dutilisation signifient que nous obtenons les rponses en quelques minutes. Cela rend-il
la banque plus perspicace ? Oui, sans lombre dun doute.

Prochaines tapes
La majeure partie de linspiration pour ce programme couronn de succs appartient
Mydral, le partenaire dexcution de BNP Paribas. La vision, la perspicacit et lexprience
de lquipe de Mydral ont contribu au lancement de Tableau en quelques jours. Mydral a
galement fourni BNP Paribas trois jours de formation et de transfert des connaissances
afin de garantir que lquipe soit oprationnelle presque immdiatement.
Ce projet attire dsormais lattention dautres services de la banque. BNP Paribas dploie
actuellement Tableau sur les sites rgionaux de Paris et Nantes dans le cadre dun projet de
segmentation de la clientle. Ces donnes sont utilises pour comprendre les tendances,
concevoir de nouvelles campagnes, et maximiser la valeur de BNP Paribas tire des don-
nes marketing.

109
www.tableausoftware.com
TIBCO

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES TIBCO Software Inc. (NASDAQ : TIBX) est un leader mondial dans le domaine des logiciels
dinfrastructure et dcisionnels. Quil sagisse doptimisation des stocks, de vente croise
TIBCO JASPERSOFT ou de prvention des crises, TIBCO offre un concept unique nomm Two-Second Advan-
tage, autrement dit la possibilit de capturer la bonne information au bon moment et
25, rue de Balzac 75008 Paris de ragir en fonction de cette information plus vite que la concurrence. Grce son vaste
France ventail de produits et services novateurs, TIBCO est un partenaire technologique strat-
gique plbiscit par les entreprises dans le monde entier. Pour en savoir plus sur TIBCO,
rendez-vous sur www.tibco.com.
Tl + 33 (0)1 44 51 70 90
TIBCO, Jaspersoft, Two-Second Advantage et TIBCO Software sont des marques commer-
Mail gcarbonnel@jaspersoft.com ciales ou des marques dposes de TIBCO Software Inc. et/ou de ses filiales aux Etats-Unis
et/ou dans dautres pays. Amazon Web Services, AWS et Redshift sont des marques com-
merciales dAmazon.com, Inc. ou de ses filiales aux Etats-Unis et/ou dans dautres pays.
MongoDB est une marque commerciale de MongoDB, Inc. Tous les autres noms de produits,
CONTACT dentreprises et de marques mentionns dans ce document appartiennent leur propri-
Lela taire respectif et ne sont mentionns qu des fins didentification.
BOUTALEB BROUSSE

EMEA Marketing Manager - Analytics

YOUR ACCESS TO

FAST DATA
BEGINS NOW.

Integrate Analyse Act


people, processes, for actionable on key events
and systems insights in real time
Ericsson utilise Tibco Jaspersoft pour
lanalyse Big Data sur MongoDB

La socit ajoute le dcisionnel en libre-service sa solution FAST FACTS

Ericsson Multiscreen TV. CUSTOMER


Ericsson AB
Le dfi : les requtes Big Data dans MongoDB
Les priphriques mobiles sont devenus partie intgrante de nos habitudes de travail et de SECTEUR
loisirs. Pour garantir leur comptitivit, les fournisseurs de services de tlcommunica- Technologie
tions/par cble doivent assurer leurs clients un accs aux contenus vido sur tous leurs
priphriques. REPRES TECHNOLOGIQUES
Leader du secteur des tlcommunications, Ericsson a rpondu aux besoins de TV mul- JasperReports Server et iReport Designer
ti-cran des oprateurs grce sa solution Multiscreen TV : elle permet en effet aux four- Redhat Enterprise Linux sur VMware
nisseurs de services tlvisuels de contrler et de grer la fourniture des contenus, de Interface utilisateur sur Ruby on Rails
manire centralise, vers quasiment tous les types de priphriques grand public. Serveur dapplications JBoss
Ericsson a spcifiquement conu sa solution Multiscreen TV pour aider les fournisseurs de Base de donnes MongoDB
services tlvisuels rduire les cots et gnrer de nouvelles sources de revenus. Cette Javascript
solution inclut des rapports intgrs sur deux volets :
Oprationnel donnes sur lutilisation et lintgrit du systme pour loptimiser. LE DFI
Marketing donnes sur le contenu consult et utilis par les clients afin de soutenir les Ericsson recherchait un puissant moteur
prises de dcision concernant les offres et le marketing, ainsi que pour calculer les rede- dcisionnel de reporting pour permettre aux
vances. utilisateurs de sa solution Multiscreen TV
dinterroger de grands volumes de donnes
Ericsson a remplac sa prcdente base de donnes relationnelles par MongoDB (open dans MongoDB.
source NoSQL). Cela lui a permit de rduire les dlais de rponse, les temps de latence, la
goredondance et les indisponibilits lors des mises jour. LA SOLUTION
LorsquEricsson a dvelopp la toute dernire version de sa solution Multiscreen TV, la JasperReports Server rpond aux exigences
socit avait besoin dun moteur dcisionnel puissant, capable dinterroger de grands vo- de lenvironnement technologique de la
lumes de donnes dans MongoDB. Auparavant, Ericsson utilisait JReport, qui ne permettait socit ; il offre des fonctionnalits de
pas lintgration avec MongoDB ni ne produisait les types de formats attendus par les four- reporting Big Data et dintgration avec
nisseurs de services tlvisuels : les fichiers CSV. MongoDB, sans ETL.
Nous recherchions un produit qui permettrait une intgration directe avec MongoDB,
explique Jon Anderson, responsable de la stratgie produits pour Ericsson Multiscreen TV. RSULTATS
Nous souhaitions pouvoir produire de beaux rapports tout en disposant de capacits dex- Economies de cots : la socit
portation consquentes. Nombre de nos clients exportent vers un entrept de donnes plus conomise des milliers de dollars et
vaste. dheures de travail en saffranchissant de
la maintenance de deux bases de donnes
Lintgration Jaspersoft/MongoDB sans ETL distinctes, MongoDB et une base de
Si Ericsson a choisi Jaspersoft, cest pour pouvoir proposer des fonctionnalits de reporting donnes relationnelles.
plus riches dans sa solution Multiscreen TV. Avec JasperReports Server, la socit remplit Cration rapide de rapports : en
un grand nombre de ses objectifs : quelques heures seulement, les
Compatibilit avec MongoDB : le connecteur Jaspersoft intgre MongoDB la suite d- dveloppeurs Ericsson peuvent crer un
cisionnelle Jaspersoft, pour fournir des fonctionnalits flexibles et abordables de reporting, rapport laide diReport Designer.
danalyses ad hoc et de tableaux de bord, partir de donnes MongoDB. Vision anticipe : dans certains cas,
Intgration sans ETL : Jaspersoft permet lintgration directe avec MongoDB, sans en- les clients peuvent obtenir une vision
vironnement ETL (Extract, Transform, Load), ce qui acclre et facilite lobtention des don- anticipe de plusieurs semaines grce au
nes depuis Jaspersoft. reporting ad hoc en libre-service.

111
www.tibco.com
TALEND

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Les solutions dintgration de Talend aident les entreprises tirer le meilleur parti de leurs
donnes. A travers le support natif des plates-formes modernes de Big Data, Talend rduit
TALEND la complexit de lintgration, tout en permettant aux dpartements informatiques de r-
pondre plus rapidement aux besoins mtiers, le tout pour un cot prvisible. Reposant sur
9 rue Pags 92150 Suresnes des technologies open source, les solutions hautement volutives de Talend rpondent
tous les besoins dintgration, actuels et mergents.

Support natif de Big Data


Tl +33 1 46 25 06 00 A la diffrence des solutions dintgration hrites, Talend rside nativement dans un envi-
ronnement Hadoop, sans empreinte de dploiement. Nativement intgr dans les distribu-
Fax +33 1 42 04 36 67 tions Hadoop majeures comme Cloudera, Hortonworks ou MapR, Talend utilise la scurit
Mail ccornavin@talend.com native de Hadoop et fait de la qualit de donnes dans Hadoop.

Des solutions ouvertes


CONTACT Comme Hadoop, Talend est engage sur de lOpen Source et des standards ouverts et les
Charlotte avantages que ceux-ci apportent : un cosystme innovant, pas de dpendance vendeur,
dveloppement plus rapide et plus agile, ainsi que le support dune vaste communaut.
CORNAVIN Lutilisation des standards et du large cosystme de Talend signifie que les dveloppeurs
peuvent trs facilement adopter les solutions Talend et que les ressources Talend peuvent
Marketing Manager facilement tre trouves sur le march.

Prvisibilit
Le modle de prix des souscriptions sans conteneur dexcution permet de faire voluer
de manire prvisible les donnes et les projets, sans avoir faire voluer le cot de lin-
tgration. La conformit aux standards Java, Eclipse et Big Data rduit le temps de dve-
loppement et de maintenance des projets. Ainsi, les cots oprationnels sont galement
prvisibles.

A lpreuve du futur
Comme laventure Big Data passe des tests lanalytique et au temps rel/aux cas opra-
tionnels, Talend livre une plateforme dintgration unique, complte et unifie rpondant
tous les besoins daujourdhui et de demain.

Talend facilite
lintgration des CONTACTEZ-NOUS:
info@talend.com

Big Data: EN SAVOIR PLUS:


www.talend.com

Mettez-les au service de vos enjeux,


processus et prises de dcision
Simplifiez leur prise en main, leur partage
et minimisez leurs cots de gestion
Maitrisez leur qualit, leur accessibilit,
leur gouvernance

Les solutions dintgration et de qualit de Talend permettent aux entreprises de


tirer profit de toutes leurs donnes quels que soient leur source, type ou taille.
Buffalo Studios optimise la valeur
des donnes pour accrotre sa
comptitivit dans le secteur des
jeux sociaux
Porteurs du Projet
Barry Sohl, Chief Technology Officer chez Buffalo Studios et son quipe informatique
Objectifs
- Obtention dune plus grande flexibilit au niveau de lintgration des donnes
- Prise de dcision plus rapide et efficace
Prsentation
Dans le monde du jeu virtuel sur les rseaux sociaux, chaque activit effectue par un
joueur est automatiquement enregistre et transmise lditeur ce qui lui permet ensuite
de mieux orienter les offres envoyes aux joueurs (crdit supplmentaire, bonus, outils,
etc). En termes de volume, cela reprsente plus de 10 000 vnements traits toutes les
secondes et la prise en charge de plus de 100GB dinformations par jour.
Buffalo Studios utilise un Data Warehouse de haute performance pour lancer ses rapports
SQL sur les donnes de joueurs. Dans leur cas, ils utilisent Apache Flume pour ingrer le
million de lignes de donnes quils rcuprent chaque jour (environ 100GB), le charger dans
leur Data Warehouse grce Talend pour ensuite le rutiliser dans un systme de reporting
et de visualisation.
Aspect Novateur
La nouvelle implmentation de Talend dans le systme dinformation de Buffalo Studios
leur permet dsormais de connatre en quasi temps-rel le comportement dune nouvelle
fonctionnalit dans le jeu. Cela leur a aussi permis de rduire les fraudes : Nous pouvons
maintenant dtecter une activit frauduleuse en moins de 10 minutes dclare Barry Sohl.
Avant cela, si nous avions un bug et le laissions en place une journe entire, cela avait des
consquences catastrophiques pour notre activit mais cest maintenant rsolu .
Valorisation observe de la donne
Aujourdhui Buffalo Studios utilise la solution dintgration Big Data de Talend, et a obtenu
la flexibilit qui lui manquait auparavant. Quand nous avons des besoins danalyse spci-
fiques, nous pouvons maintenant crire nos propres composants Java et les incorporer la
solution Talend explique Sohl. Et quand il sagit dajouter de nouveaux points de mesure
des donnes, nous ne bloquons plus le processus notre niveau, car nos dveloppeurs
travaillent simplement avec les outils sans avoir effectuer manuellement de laborieuses
modifications.
Ce type de gestion allge, son tour, permet Buffalo Studios dajouter de nouveaux
points de donnes chaque semaine. Le problme des blocages au niveau des fichiers logs
bruts est dsormais totalement rsolu.
Cet avantage revt une importance capitale pour Buffalo Studios. En effet, si leur service
technique narrive pas livrer les informations cruciales la direction, les dcisionnaires
restent dans lincertitude. Nous avons besoin de mesurer la performance de nos fonc-
tionnalits, quelle soit bonne ou mauvaise, presque en temps-rel. Plus lexploitation des
donnes sera simple pour nous, plus lquipe BI pourra en tirer parti. Talend nous aide
optimiser les processus, amliorer la rapidit et accrotre la valeur que nous pouvons
tirer de nos donnes, prcise Sohl.
De plus, les ingnieurs de lquipe technique gagnent en productivit, puisquils nont plus
de problmes dintgration rsoudre et peuvent de nouveau se concentrer sur la construc-
tion de technologie innovante. Cest ce qui assure la croissance et la fidlisation des clients.
Etapes venir et dmarche Big Data dans lentreprise
Nous portons beaucoup dintrt lexploration des nombreuses possibilits offertes par
Talend en termes de qualit des donnes. Je pense quil y aura un vrai potentiel exploi-
ter en largissant le savoir-faire de Talend dautres applications, et que nous pourrons
alors bnficier de nombreux avantages au fur et mesure que nous progresserons,
dclare Sohl. Buffalos Studio annonce que limplmentation de Talend fonctionne si bien
que dautre socit du groupe Cesar Interactive Entertainement rflchissent le mettre
en place.
Autres informations
Plus dinformations :
http://fr.talend.com/resources/customer-reference/buffalo-studios-maximizes-data-va-
lue-to-build-competitive-edge-in

113
http://fr.talend.com
TERADATA FRANCE

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES Teradata helps companies get more value from data than any other company. Our big data
analytic solutions, integrated marketing applications, and team of experts can help your
TERADATA FRANCE company gain a sustainable competitive advantage with data. Teradata helps organizations
leverage all of their data so they can know more about their customers and business and
Antony Parc I : 2-6 place du Gnral do more of whats really important. With more than 10,000 professionals in 43 countries,
de Gaulle - 92160 Antony Teradata empowers organizations to become data-driven businesses that exploit data for
insight and value. More than 2,500 customers worldwide span industries including auto-
motive and industrial; communications; consumer goods; e-commerce; financial services;
Tl +33 (0)1 81 89 15 00 government; healthcare and life sciences; hospitality and gaming; insurance; manufactu-
ring; media and entertainment; oil and gas; retail; transportation, distribution, and logistics;
Mail severine.vigneron@teradata.com travel; and utilities.

A future-focused company, Teradata has driven innovation for thirty-five years. Teradatas
workload-specific platforms integrate an organizations data into a unified view of the bu-
CONTACT siness. Our database software includes the unparalleled Teradata Database, and, for big
Sverine data analytics, the Teradata Aster Discovery Platform and Hadoop Portfolio. The unique
Teradata Unified Data Architecture helps customers discover and operationalize insights
VIGNERON
by integrating multiple technologies, including Hadoop, into a robust, hybrid architecture.
Teradatas marketing and analytic applicationsavailable on premise or in the cloud leve-
Marketing Manager Teradata France rage data to improve marketing effectiveness, determine profitability, and forecast demand.
These powerful solutions, along with years of hands-on experience working with the worlds
leading enterprises, enable customers to maximize the value of their data and serve their
customers better. Teradata is recognized for technological excellence, sustainability, corpo-
rate social responsibility, ethics, and business value.

When the world gets smaller, the data gets bigger

When youre able to collect, unify, and analyse all of the data that surrounds your
business, you can uncover the insights that matter most. It could be an insight
that changes the way one customer sees your company or how your company
sees the world. Learn how our analytic platforms, applications, and services can
help you know more so you can do more at Teradata.com/DataDriven.

What would you do if you knew?


Big Data: Practicalities, Realities
and Getting Started

Big Data is real and its growing at mind-dazzling speed How Companies are Innovating with Big Data
Big Data refers to the vast spectrum of digital information arising Cardinal Health : Cardinal Health has used data to optimize the sup-
from an increasing variety of data sources which come in wide ran- ply chain ensuring that the complicated array of raw materials that
ging and ever-expanding data formats. are essential for high quality healthcare arrive in good condition,
This includes structured data derived from common business sys- when the patients need them.
tems, and unstructured data, or more correctly multi-structured McCain Foods : McCain Foods is a global food giant, with great piz-
data, in its diverse variations from weblogs and sensor data, to data zas, vegetables, appetizers and desserts. And theyve transformed
in social networks, text documents, or all forms of digital images their culture with data. McCain has taken more than 22,000 reports
and video content. And the list goes on Teradatas view on Big Data and 3,000 personal reporting systems and put the data in one place.
however goes even a step further. We took 30,000 versions of the truth, and brought it down to one
version of the truth.
We believe, fundamentally, that ALL data has relevancy for compa- Verizon Wireless : How does the biggest wireless carrier in the
nies to make better, more informed business decisions. Identifying United States keep their customers happy? Provide the best
the valuable information amongst the irrelevant data is not always network with the best customer experience and listen. How does
obvious without initial analysis, and often what has no value to one Verizon Wireless listen? With an Unified Data Architecture.
purpose is critical to another. As a result it becomes more expensive Barnes and Noble : Taking data from more than 1,300 stores and one
to decide what is valuable than to retain all data and consider later of the largest loyalty programs in the US, Barnes and Noble com-
how it can be used to create value this is the data lake concept. bines it with data from their e-commerce site. Using data analytics,
Barnes and Noble knows exactly who their customers are, and what
With increasing scope for analytics, and recognition of the competi- they want to buy or read next.
tive advantage of being data-driven, it becomes ever more important
for companies to find efficient processes and supporting technolo- Discover More Insights and Outcomes through our customer data
gies to derive business value from the data lake in the timeliest driven business Success Stories:
possible manner. This is exactly where Teradata comes in. http://blogs.teradata.com/customers/ or visit Teradata.com

Teradata combines the most advanced, highly scalable Big Data Contact us to learn more on Teradata, solutions and our unique
technologies under one umbrella in an integrated manner. We call approach to Big Data.
this the Unified Data Architecture, blending in with what leading
analyst firm Gartner refers to as the Logical Data Warehouse.

With the Teradata Database, Hadoop, and the Aster Discovery Plat-
form the Teradata Unified Data Architecture provides organisations
with a rich set of capabilities to support them in their pursuit of deri-
ving value from analytics based on ALL the data.

Teradata Unified Data Architecture


Data Scientists Quants Customers/Partners Front-Line Workers
Engineers Business Analysts Executives Operational Systems

Languages | Math/Stats | Data Mining | Business Intelligence | Applications

Teradata Applications

Integrated Marketing Management

Teradata Aster Teradata


Discovery Integrated
Platform Data Warehouse

Capture | Store | Refine

Audio/Video Images Text Web/Social Machine Logs CRM SCM ERP

115
www.teradata.com
VISEO

Hard Soft B.I. Dataviz Conseil Instit.

COORDONNES En sappuyant sur ses expertises dans les domaines du digital, des technologies, des pro-
cess et de la data, VISEO vous accompagne dans vos chantiers de transformation et vous
VISEO aide faire merger de nouvelles ides, de nouvelles offres, de nouveaux modes de colla-
boration, de nouvelles manires de produire et de vendre.
38 rue de Ponthieu 75008 Paris
Avec 1 100 collaborateurs rpartis sur quatre continents et un chiffre daffaires suprieur
110 millions deuros, VISEO vous propose une alternative aux intgrateurs, agences et
cabinets de conseil, en imposant une approche unique, souple, innovante et structurante.
Tl 01 56 56 71 00 VISEO vous apporte ainsi une rponse globale et vous aide mettre en uvre des projets
complexes pour faire face aux enjeux numriques qui impactent les systmes dinforma-
Mail contact@viseo.com tion, les mtiers ou les organisations
Adresser aujourdhui les enjeux structurants de demain : VISEO mobilise lensemble de ses
expertises pour vous permettre de comprendre et anticiper les sujets cls dans lvolution
de vos activits.
CONTACT
Yves VISEO et le BIG DATA : et si nous parlions conseil plutt que Technologie ?
COINTRELLE
Le Big Data offre un nouveau regard sur les donnes en ouvrant de nouveaux moyens
pour les saisir, les stocker, les grer, les traiter et les analyser.
Directeur de la stratgie et Grce la combinaison unique de lensemble de ses comptences Big Data (Conseil,
du dveloppement Business Intelligence Data Scientist, Business Intelligence), VISEO accompagne ses clients autour de 3 grands axes :
Dcouvrir le potentiel et identifier les cas dusage pertinents crateurs de valeur
Tester par la mise en place de POC
Dployer & Exploiter les donnes
Accompagner les volutions organisationnelles
Russir son projet Big Data :
la mthode

Les motivations qui amnent une entreprise initier un projet Big Data sont souvent mul-
tiples. Une direction gnrale soucieuse de sassurer que le capital informationnel de len-
treprise recle de la valeur inexploite ; une dmarche exploratoire conscutive une prise
de conscience de possession dimportants gisements de donnes en sommeil et souvent
en silo ou encore des directions mtiers soucieuses damliorer leurs connaissances et
leurs capacits danalyse et de prise de dcision ; souhaitant investiguer de nouvelles pistes
doptimisations, damlioration de productivit ou de profitabilit.

Quelle quen soit lorigine, la dmarche associe la mise en uvre dun projet Big Data est
seme dembuches et dchecs. Les donnes ne sont pas toujours disponibles, exhaustives
ou nont pas toujours la qualit espre pour tayer les analyses souhaites. Les budgets
mettre en regard des objectifs atteindre ne sont pas toujours couverts par les gains
procurs par la mise en uvre des systmes.
Pour viter ces cueils, valider les modles ou les ROI, sans prir ou engloutir des budgets
pharaoniques, VISEO a dvelopp une mthodologie mlant ateliers de dtermination des
objectifs et data scientist outills, permettant de valider au plus tt (sur des chantillons
reprsentatifs) les modles.

Ds la phase amont nous privilgions une approche Testn Learn permettant de se


conforter dans la capacit des objectifs tre tenus. Rduire les risques, tenir les pro-
messes, lancer des projets crdibles.
Conscients que les technologies sous-jacentes sont certes importantes mais restent une
consquence de lobjectif, nous proposons un panorama des technologies et des architectures.
Nous tenons compte des choix technologiques dj oprs par lentreprise, des contraintes
techniques, budgtaires mais galement humaines. Pas de choix prtabli : chaque projet est
diffrent et doit tre abord en tenant compte de ces multiples paramtres.

117
www.viseo.com
Congrs & Expo

Rendez-vous les
10 & 11 mars 2015
CNIT Paris La Defense

Retrouvez les leaders du secteur sur


lvnement majeur du Big Data en France
2 jours de confrence et dexposition
150 intervenants experts franais et internationaux
120 exposants
4000 professionnels du Big Data 4e dition

www.bigdataparis.com by
des millions de clients
individuellement.
Imaginez un instant que vous puissiez entretenir une relation privilgie avec chacun de vos clients,
aussi nombreux soient-ils. Avec les solutions analytiques SAP, dimmenses volumes de donnes
structures ou non sont transforms en un puissant outil dintelligence prdictive qui vous permet
dtonner vos clients, daller au-devant de leurs dsirs. O quils soient, en magasin, en ligne
ou sur une application, ils ressentiront ainsi lattention particulire que vous leur portez.

Avancez plus que jamais sur saprunlikeneverbefore.com/france


RCS SAP France Paris B 342 631 207 2012 SAP AG; SAP et le logo SAP sont des marques dposes par la socit SAP AG en Allemagne et dans plusieurs pays. O&M SAP EU 41/12

PLUS DE RSULTATS.
CONSTRUISEZ VOTRE HUB DE DONNES DENTREPRISE AVEC

AL

VO
TR
E
E WALGEZ V
E Z
A M RE OTRE
L L G
F R HO DAT
A
IN US A
MA E

NOUS SOMMES RAPIDE


LES SPCIALISTES FIABLE
DE LOFFLOAD ! SECURISE

DCOUVREZ COMMENT LACCS TOUTES VOS


DONNES SUR HADOOP AU MOYEN DUN SEUL ET
MME OUTIL PEUT FAIRE UNE DIFFRENCE NORME !
Cinq tapes pour

TLCHARGEZ NOTRE GUIDE GRATUIT :


AVEC HADOOP

UN GUIDE DE DEMARRAGE RAPIDE

syncsort.com/guide

Das könnte Ihnen auch gefallen