Sie sind auf Seite 1von 40

SOMMAIRE

Livre blanc
Du Big Data
au Big Busine$$
Livre 1 : Phénomène de mode
ou facteur de performance ?
du Big Data au Big Business - LIVRE 1

Sommaire - p.02

01 03
chapitre chapitre

Big data, contexte p.04 Les nouveaux usages induits p.18


et fondements par les Big Data

Pourquoi ce livre ? p.04 S’intéresser aux gisements p.18


de données existantes
évolution de la pensée p.05 inexploitées
managériale
La multiplication des données p.19
Définition des Big Data p.05 brutes internes disponibles
Rupture ou évolution ? p.06 La profusion de données p.21
La genèse des Big Data p.06 externes, publiques
ou achetables
La fonction crée l’organe p.06
Les données ouvertes p.22
Le traitement p.07 ou « Open Data »
des signaux faibles
Monétiser ses données p.22
Le Projet de Big Data p.08
Le croisement de données p.23
« tous azimuts »

02
chapitre

04
chapitre

Les données p.09

Les architectures p.24


Les 3 V des Big Data p.11 et les algorithmes

Au delà des 3 V : les 5 V p.12


Au delà des 5 V, les 3 P p.14 Les spécificités d’architecture p.24
matérielle en Big Data
Données, informations, p.15
connaissance et sagesse… Les spécificités de l’architecture p.25
Quelle différence, quelle valeur ? logicielle en Big Data

L’accumulation des données p.16 Les spécificités des bases p.27


ne voulait rien dire, mais l’usage de données en Big Data
en a décidé autrement Pas de prêt-à-porter p.28
dans les bases de données
Beaucoup d’outils, chacun p.28
spécialisé dans un domaine
Architecture Big Data p.28
uniquement pour du Big Data ?
du Big Data au Big Business - LIVRE 1

Sommaire - p.03

05 07
chapitre chapitre

Les métiers des Big Data p.29 Comment passer des Big Data p.37
au Big Busine$$

Le retour de l’EIM (Entreprise p.30


Information Management) Que retenir des Big Data ? p.37
Comment mettre en œuvre p.30 Les 10 points clés p.38
ce chantier ?
Valoriser la donnée en la rendant p.30
aux métiers
Les nouveaux métiers p.31
du Big Data
De la « punition » p.32
aux perspectives de carrière
Le lien entre MDM et big Data p.33

06
chapitre

Big Data ou Big Brother ? p.34

Côté pile : l’espoir d’un secteur p.34


dynamisant qui vient irriguer
toute l’économie
Côté face : le débat sur la vie privée p.34
Un air de déjà vu p.35
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data, contexte et fondements - p.04

Chapitre 01
Big Data, contexte
et fondements

Pourquoi ce livre ? sur les Big Data, qui en sont encore


à leurs prémices, que les entreprises
La littérature sur le Big Data est abon- pourront s’approprier le phénomène
dante. Cette abondance est sympto- et apprendre, jour après jour, à en
matique d’un élan dont l’importance tirer parti.
est perçue fortement par l’ensemble
du marché, non seulement en L’objectif de ce Livre Blanc est de don-
France, mais dans le monde. Toute- ner aux entreprises, les premières
fois, même quand elle est de qualité, clés de lecture qui permettront aux
cette littérature reste assez descrip- lecteurs de sortir de la mythologie
tive et focalisée sur la dramatisa- associée aux Big Data pour les repla-
tion d’enjeux quasi apocalyptiques, cer dans leur contexte propre et les
reliés à la profusion exponentielle aborder comme un outil puissant de
des volumes de données et de leurs développement de la performance.
sources. Cette approche ne permet
pas de comprendre les véritables Nous espérons ainsi permettre au
enjeux des Big Data ni comment les lecteur de poser, voire de valider, les
entreprises peuvent en tirer parti. premières orientations d’une intégra-
tion sereine et maitrisée du Big Data à
Même si les prévisions sont déli- l’écosystème de son Entreprise.
cates, nous avons la conviction que
l’impact des Big Data sur l’avenir des
entreprises et de la Société civile sera
fort, polymorphe et en constante re-
configuration. C’est donc en faisant
rapidement leurs premières armes

1 2
Ceci d’autant plus que les Big data impliquent de http://trends.levif.be/economie/actualite/entreprises/
nouvelles formes de raisonnements, qui embrassent les-big-data-posent-probleme-aux-marketers/
notamment les formes de raisonnements inductifs (cf. article-4000606787740.htm
page 8). On peut sans grand risque parler des Big data
comme d’une nouvelle philosophie et une nouvelle
façon de penser le marketing.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data, contexte et fondements - p.05

évolution de la pensée Ce premier livre est dédié au phéno-


managériale mène général des Big Data et sera
ensuite détaillé dans chacune de ses
La vogue du Big Data représente beau- composantes. Chacun des chapitres
coup pour le monde de l’entreprise. de ce livre fera par la suite l’objet d’un
Au-delà d’une simple mode, il s’agit nouveau livre, selon le plan suivant :
d’une véritable révolution du mode
de pensée, un apport crucial dans la •L
 e livre 2 sur les données, carburant
panoplie managériale qui va profon- essentiel des Big Data ;
dément et réellement changer la face
du monde du business. Le marketing •L
 e livre 3 sur les usages des Big
est le principal impacté, mais il ne faut Data ;
pas sous-estimer les conséquences de
la maîtrise de ce sujet sur le monde •L
 e livre 4 sur les architectures
des études, de la gestion, en passant & les algorithmes qui sous-tendent
par celui de la production, du Supply le Big Data ;
Chain Management et de la R&D… (la
liste serait trop longue). •L
 e livre 5 sur les déclinaisons
en métiers des Big Data ;
Cette révolution profonde des modes
de pensée est cependant mal servie •L
 e livre 6 sur la confidentialité
par cette abondante littérature qui a des données, la protection des
tendance soit à expurger le vocabu- utilisateurs et l’éthique.
laire trop technique de cette nouvelle
discipline afin d’en masquer la com- Ainsi, nous proposons à la fois une
plexité1, au point de la rendre incom- vue globale (dans ce livre) et détaillée
préhensible, soit au contraire à rentrer (dans les autres livres) des Big Data,
trop profondément dans cette com- afin de les rendre accessibles à tous
plexité et son vocabulaire quadruple- les professionnels qui veulent mettre
ment technique (métier, technologie, à profit cette nouvelle approche et ses
bases de données et statistiques) et de outils pour leur business.
perdre le lecteur. Le résultat, c’est que
le lecteur pourrait penser, à tort, que Définition des Big Data3
le sujet des Big Data est soit trop gé-
nérique et donc peu innovant, soit trop Le terme de Big Data (parfois appelées
innovant pour que l’entreprise de tous « données massives » en français, mais
les jours puisse en profiter. nous éviterons d’utiliser cette traduc-
tion peu réussie) désigne une nouvelle
En conséquence, les Big Data, pour discipline qui se situe au croisement de
paraphraser le journal de tendances plusieurs domaines : statistiques, tech-
trends.be2, « posent problème à l’en- nologie, base de données et métiers
treprise » alors qu’elles devraient au (marketing, finance, RH, etc.).
contraire être perçues comme une
solution. Le but de ce livre, le premier Cette nouvelle discipline a été rendue
d’une série de 6 est au contraire de possible grâce à une puissance tech-
décrire simplement et clairement les nologique qui a rendu possible des
impacts et les usages des Big Data choses qui jusque là n’étaient que
sans appauvrir le discours, mais aussi théoriques. Ces choses dont on parle
en explicitant son jargon afin de rendre ici, sont principalement liées à deux
accessible à tous les bénéfices de ces enjeux : le volume des données et leur
nouveaux outils. complexité.

3
Le, la ou les Big Data ? Big Data est un nom anglais
(littéralement « grosses données » et ne nécessite pas
d’être mis au féminin ni au masculin. Le mot « data »
étant le pluriel latin de Datum, nous avons décidé
de garder ce nom au pluriel dans ce document.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data, contexte et fondements - p.06

Ainsi, le Big Data a pour objectif d’ex- Gil Press fait même remonter les
ploiter des volumes de données qui origines de cette nouvelle discipline à
sont en croissance exponentielle et une date plus que lointaine5 (1944 !).
qui deviennent difficiles à travailler Mais sans aller jusque-là, et même si
avec des outils classiques de gestion la paternité de l’invention du terme
de base de données ou de gestion de « Big Data6 » fait l’objet de débats
l’information4. Elle a aussi pour objec- assez techniques, on peut facilement
tif de traiter rapidement des données remonter au début de 2001, selon
complexes. le cabinet d’analyse Gartner, pour
trouver les premiers écrits sur les
Si l’on se réfère aux travaux de the 451 fameux 3V (Volume, Vélocité et
group  et  Gartner, on trouve la formu- Variété), prédisant l’explosion de
lation suivante  ; Les big Data visent à la donnée et la naissance d’une
tirer un avantage concurrentiel des nouvelle forme de traitement de
méthodes de collecte, d’analyse et celle-ci.
d’exploitation des données qu’on ne
pouvait utiliser jusqu’à présent du fait Il faut préciser également que les
des contraintes économiques, fonc- Big Data sont aussi l’aboutissement
tionnelles et techniques liées aux vo- de la démarche de Data Mining, en
lumétries, à la vitesse de traitement et vogue dans les années 1995-2000,
à la variété des données à considérer. elle même issue de deux écoles
(ou tendances) assez anciennes
Rupture ou évolution ? que sont la statistique d’un côté et
l’intelligence artificielle d’un autre.
Les Big Data sont parfois présentées
comme un phénomène en rupture La fonction crée l’organe
complète avec ce qui ce qui a pu se
faire jusqu’à aujourd’hui en terme
d’aide à la décision, ou au contraire,
comme une simple évolution des or-
ganisations et des systèmes décision-
nels. La question est plus importante
qu’il n’y paraît, et ne se réduit pas à
un simple problème sémantique.
Cette importance, pour l’entreprise
se traduit par le fait qu’en fonction de
la réponse, les scénarios mis en place
seront probablement très différents.

La genèse des Big Data

La genèse des Big Data est en soi por-


teuse de sens et explique la spécificité
de ce domaine ; si le terme de Big Data
a été utilisé pour la première fois par le
cabinet d’analyse Gartner en 2008, on
peut cependant faire remonter la ge-
nèse des Big Data à beaucoup plus loin. La lecture de l’excellent glossaire
Dans un sens, celles-ci naissent avec des Big Data de O’Reilly pourrait-
l’essor de l’informatique, et comme elle mettre tout le monde
toutes les innovations, il a fallu un cer- d’accord en faisant remonter leur
tain temps pour que le concept se gé- genèse non aux analystes qui
néralise et se raffine au fil du temps. décrivent le phénomène, mais aux

4 5
Voir également cette définition complète dans http://www.forbes.com/sites/gilpress/2013/05/09/a-very-
l’encyclopédie ouverte Wikipedia dont nous nous short-history-of-big-data
sommes inspirés :
http://fr.wikipedia.org/wiki/Big_data
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data, contexte et fondements - p.07

e-commerçants et autres acteurs du Un mécanisme vertueux s’est mis en


Web collaboratif qui ont contribué à place, qui a permis à des entreprises
sa création. puissantes et riches d’investir dans
des technologies pour répondre
En quelque sorte, comme ce fut dans un laps de temps très court
le cas avec le fameux Web 2.0 de aux besoins de leurs utilisateurs. La
O’Reilly en 2004, le terme descriptif bulle internet a rendu possible une
de ce phénomène est arrivé après le expérimentation en temps réel avec
phénomène lui-même, comme très des ressources illimitées…  le rêve de
souvent dans la sphère digitale. tout chercheur en quelque sorte !

Le cloud computing par exemple, Ainsi la logique est-elle bousculée,


est né de la surcapacité en termes la donnée vient avant l’usage,
d’hébergement des grands sites Web l’entreprise avant la recherche, la
(Amazon, Google, e-Bay, Microsoft,…) fonction, en quelque sorte, crée
et des architectures originales qu’ils l’organe … et les usages induits par
avaient mises en place afin de faire ces avancées technologiques sont
face aux afflux de leurs visiteurs nombreux, comme nous le décrivons
et des besoins en « élasticité » de dans notre chapitre dédié aux usages
leurs hébergements ; de la même (cf. Chapitre 3 : page 5)
manière, les Big Data sont nées des
surplus de données induits par les Avant de penser en termes de rupture
usages des internautes sur des sites ou de continuité, présentons les
comme Amazon, Yahoo! et bien plus nouveautés qu’apporte ou qu’induit le
tard, Google – toujours les mêmes phénomène Big Data en les classant
protagonistes – qui ont permis des dans 4 thèmes  : les données, les
usages marketing originaux, qui usages, les méthodes de travail et les
n’étaient pas prévus au départ7. outils.

Le traitement des signaux tout cru des informations sur l’avenir.


faibles (P. Cahen) C’est la réflexion qu’il provoque qui
est porteuse d’avenir. Large part est
Si les Big Data permettent de tirer laissée à l’intuition pour déceler puis
partie des signaux faibles, il ne interpréter les signaux faibles ».
faudrait pas en tirer la conclusion que
la détection des signaux faibles est un « Le futur est un saut dans l’inconnu,
sujet nouveau. Voyons avec Philippe un inconnu allant du sympathique
Cahen, auteur du livre « le marketing rassurant à l’intolérable que l’on voudrait
de l’incertain » comment les signaux fuir. Il est en effet particulièrement rare
faibles ont un impact sur le marketing, de vivre ce qui a été prévu. L’inverse est
et pourquoi ils sont si importants. plutôt la règle ».

Qu’est-ce au juste qu’un signal faible ? Les Big Data sont un moyen
Philippe Cahen nous livre sa définition d’alimenter la réflexion, et l’action,
dans son ouvrage « tout savoir sur… le autour de ces signaux faibles, en
marketing de l’incertain » : partant d’hypothèses que l’on peut
vérifier en faisant des croisements
« Un signal faible est une information entre données et comportements.
paradoxale de réflexion […]. Un signal
faible n’est pas un petit fait porteur
d’avenir. Ce serait trop simple en effet, Source : « Le Marketing de l’incertain »
voire naïf, d’imaginer que l’on trouve par Philippe Cahen, éditions Kawa, 2012

6 7
Voir cet article sur le blog du New York Times : Cf. l’article de Lise Gasnier sur Solucom Insight
http://bits.blogs.nytimes.com/2013/02/01/the-origins- http://www.solucominsight.fr/2013/08/auw-origines-
of-big-data-an-etymological-detective-story du-big-data
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data, contexte et fondements - p.08

Le Projet de Big Data Enfin, il est une composante sociale


importante qu’il convient de prendre
Un projet du Big Data est un ensemble en compte dans un projet Big Data.
constitué de 4 composantes. Quelle est la capacité de nos sociétés
et de chaque groupe de personne
Il est articulé autour des technologies ou individu à accepter la circulation
du Big Data, matériels et logiciels, bien et l’utilisation de ses données per-
sûr, mais induit également une ap- sonnelles. Si l’on ne veut pas exposer
proche méthodologique particulière, son projet et plus généralement ce
que nous évoquerons brièvement domaine d’application, il appartien-
dans ce document et plus en détail dra aux entreprises de s’autoréguler
dans les prochains ouvrages. et aux législateurs de s’adapter à ces
nouveaux contextes et ces nouvelles
La troisième composante est juri- possibilités qu’offrent les technolo-
dique, car il convient de maîtriser gies.
le cadre juridique particulier lié aux
données qu’on manipule et aux types
d’utilisation souhaités.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.09

Chapitre 02
Les données

Comme le nom l’indique, les données • ensuite, en augmentation constante


sont bel et bien le fondement et la et exponentielle, les données gé-
matière brute du phénomène Big nérées par les objets connectés  :
Data  ; il est donc naturel que nous machines, voitures et compteurs
commencions par là. « intelligents », Set top box (passe-
relles Internet des opérateurs, Box
Aux données structurées, gérées des câblo-opérateurs etc. ), capteurs,
dans les applications informatiques données issues de la domotique,
traditionnelles (ERP, CRM, SCM, etc.) des systèmes biométriques person-
sont venues se greffer en quelques nels ;
années de nombreuses autres don-
nées, souvent nommées « données •e
 nfin et surtout, les données créées
non structurées » ou « semi-structu- et échangées hors des circuits
rées »8 : traditionnels de communication
de l’entreprise, via le Web social.
• les messages électroniques (e-mails
et de plus en plus les messages ins- Ces données seront considérées
tantanés), la numérisation de tous comme non structurées dans la me-
les documents contractuels, les sai- sure où elles vont nécessiter une
sies et les traces déposées sur les transformation plus complexe avant
sites Internet, les conversations avec de délivrer leur signification.
les centres d’appels ;
Qu’il s’agisse d’une image ou d’un son,
• viennent ensuite les données asso- d’un sentiment ou d’un texte dans
ciées à la mobilité : identifiants (nu- une langue quelconque, de géolocali-
méro d’identification IMEI, carte SIM, sation ou de capteurs, on comprend
UID…), les historiques de navigation, aisément le besoin d’algorithmes puis-
les positions géolocalisées et même sants nécessaires pour un traitement
les préférences d’utilisateurs ; et notamment si c’est en temps réel.

8
Exemples de données semi structurées : messages mail,
log etc.) ; et non structurées : photo, vidéo, son.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.10

Ces nouveaux types de données Existe t-il une priorité dans le


peuvent avoir vocation à enrichir les traitement de la donnée, une ou
autres types de données mais elles plusieurs sources de données plus
peuvent constituer dans certains cas, prioritaires que d’autres ? La réponse
le cœur de l’information à traiter. Cela précise à cette question dépend en
va dépendre de l’industrie concernée partie de l’objectif qu’on cherche à
et du processus impacté, comme atteindre et en partie des données
nous le verrons plus tard dans le disponibles.
chapitre consacré aux usages du Big
Data. Prenons un exemple dans le domaine
des Big Data appliquées au marke-
Il est clair que ces données doivent ting  : comment choisir entre une dé-
se rattacher aux référentiels et marche de personnalisation et de
aux données déjà en place et qu’il ciblage des messages marketing et,
convient donc avant de s’attaquer au une approche de mesure ou d’amé-
Big Data d’avoir structuré et traité la lioration de la notoriété ou de la e-ré-
masse des données traditionnelles putation d’une marque ? La réponse à
de l’entreprise, à savoir, selon le sujet la question posée, dans ces deux cas,
d’application  : les données transac- sera bien différente selon l’ordre dans
tionnelles, les tickets de caisse, les lequel les sujets auront été traités.
données de campagnes, les données
de navigation, les données issues Dans le premier cas c’est l’historique
des capteurs, des sondes, des outils des achats d’un client qui va prendre
de mesure, des outils d’analyses sta- le plus de place dans votre analyse.
tistiques ou de visites, de comptage, Ses achats passés en disent en ef-
d’alerte, etc. fet très long sur son comportement
d’achat (pour celui qui sait l’analyser).
À ce stade, il convient de préciser que De même pour ses préférences de
les Big Data n’ont pas pour vocation marque, ses usages, ses besoins, etc.
de traiter systématiquement la tota- Vous chercherez ensuite à prendre en
lité des données disponibles d’un do- compte les données d’interaction avec
maine. Tenter de le faire serait contre la marque, les données de navigation
productif et aboutirait à des projets Web, les informations issues des cam-
hasardeux, d’une complexité inouïe, pagnes marketing, et ainsi de suite.
et pour tout dire, inexploitables.
Dans le deuxième cas, si votre objec-
On a souvent oublié dans le passé tif est d’analyser la réputation d’une
le vieil adage qui dit que « les arbres marque, vous allez prioritairement
ne montent pas au ciel ». Malgré l’en- chercher à interpréter les informa-
thousiasme ambiant, il est raison- tions en provenance des réseaux so-
nable de ne pas partir d’une hypo- ciaux, des forums, et plus générale-
thèse pour laquelle il n’y aurait pas de ment de ce qui se dit sur le Web au
contraintes et de limites. sujet de cette marque.

Si on admet donc, comme principe de On comprend ainsi pourquoi il est


base, qu’on ne cherchera pas à traiter important de se fixer un objectif de
toutes les données d’un domaine départ dans tout projet de Big Data,
systématiquement, mais plutôt à se et que le choix de la priorité du
focaliser sur celles dont on a besoin traitement des données découlera de
et qu’il est logique de traiter, se pose celui-ci.
ensuite la question de savoir où
commencer. La règle qui se dégage de notre ob-
servation du terrain est que moins
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.11

les données sont structurées, plus • V comme Vitesse : à l’obsolescence


elles vont nécessiter un traitement rapide d’une partie de ces données
important afin de les transformer en issues du temps réel et des médias
connaissance actionnable via un pro- sociaux (données comportementales
cessus de reformatage, qui en outre, ou données exprimant un sentiment10),
se doit d’être intelligent. Il faut donc s’ajoute la nécessité d’intégrer au plus
d’abord s’intéresser aux données vite d’autres données pour générer
structurées disponibles et s’assurer une information de première fraîcheur.
qu’on les exploite bien. Dans un deu-
xième temps et progressivement, on Cela nous amène à apporter une pre-
enrichira la démarche en rajoutant mière précision. Il existe deux grandes
des données non-structurées et les familles de projets de Big Data. Celle
algorithmes intelligents qui vont avec. qui traite de données en temps réel et
celle qui travaille sans cette contrainte.
Il faut noter par ailleurs, que la quan- Ces deux familles de projets induisent
tité de données disponibles ne donne des approches différentes, des archi-
pas de réelle indication de la com- tectures techniques différentes, des
plexité du traitement nécessaire  ; à outils et des données différentes.
l’inverse, leur richesse, leur degré de
fiabilité et leur structure (ou l’absence Il est facile de se rendre compte qu’un
de structure) vont être des facteurs projet de recommandation d’achats
beaucoup plus importants à prendre en temps réel sur un site de e-com-
en compte. merce et un projet d’analyse compor-
temental des achats en magasins ne
Les 3 V des Big Data sont pas complètement alignés en
termes d’objectifs et donc de moyens
Ces nouvelles sources de données à mettre en œuvre.
sont caractérisées par ce qu’on a
coutume d’appeler les 3 V9 : Dans tous les cas, pour cerner ces
problèmes, nous envisagerons une
• V comme Volume : en augmentation approche en deux temps  : l’expéri-
annuelle de plus 50%, le volume de mentation et l’industrialisation.
données disponibles croit de manière
exponentielle. Le croisement de ces L’Expérimentation ou « build » corres-
données entre elles étant à la base de pond à la validation du cas d’usage, la
pertinence de l’information générée, la spécification et la mise en forme des
volumétrie des données est explosive. données et à la première analyse de
celles-ci par un Data Scientist11. Cette
• V comme Variété : à la diversité première analyse permettra l’élabora-
des formats (Texte, Photo, Vidéo, Son, tion de différents modèles prédictifs
Log technique..) s’ajoute une grande qui pourront aboutir à une mise en
variété de fournisseurs internes et production, c’est à dire à l’automatisa-
externes, objets ou personnes… tion de ces modèles.
La variété porte également sur les
usages possibles associés à une don- Pour cette phase, notre recomman-
née brute (par exemple un même dation est de ne pas encore investir
fichier son généré sur un plateau dans une architecture mais de préfé-
téléphonique pourra servir à créer rer une plateforme « as a service » qui
un fichier texte [application de speech- permettra d’adapter les besoins au
to-text] ou à échantillonner la voix en fur et à mesure de l’avancée de l’ex-
vue d’une reconnaissance vocale ulté- périmentation et donc de la maturité
rieure). des besoins.

9 10
Pour la paternité des 3V et les nombreux prétendants à Appelées aussi « analyse de tonalité » en français,
leur invention, voir l’article de Doug Laney : « Deja VVVu: équivalent de « sentiment analysis » en anglais.
Others Claiming Gartner’s Construct for Big Data » : 11
Voir notre chapitre sur les nouveaux métiers des Big
http://blogs.gartner.com/doug-laney/deja-vvvue-others- Data à la page 21 pour plus de détails sur ce nouveau
claiming-gartners-volume-velocity-variety-construct- profil.
for-big-data
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.12

La problématique autour des mo- La phase d’industrialisation ou « run »


dèles prédictifs est complexe et nous nécessite également certains tuning
y reviendrons en détail dans les cha- entre exploitation de données en
pitres suivants. On pourra déjà rete- temps réel ou pas. On doit décider
nir à ce stade qu’il existe deux types ce qui sera traité dans un processus
de modèles, les modèles auto-ap- interactif avec les données de l’utilisa-
prenants  qui font appel à des algo- teur, dans un mode temps réel ; et ce
rithmes d’intelligence artificielle d’une qui pourra passer dans un processus
part, et les modèles prédictifs tradi- de calcul décalé en mode « batch12 ».
tionnels basés sur des algorithmes
statistiques d’autre part. Il n’est pas possible de réaliser tous
les traitements en temps réel car la
Bien que les modèles auto-appre- plupart du temps, ceux-ci requièrent
nants nécessitent moins de temps une réponse immédiate, et il est donc
de préparation et d’analyse initiale impossible de parcourir toute une
des données, ils ne dispensent pas base de données pour réaliser une
pour autant de faire appel à un « Data analyse complète.
Scientist » ou un « Data Miner ».
En revanche, les données « chaudes »
La phase d‘expérimentation nous peuvent être traitées en temps réel à
apparaît aujourd’hui comme absolu- condition de s’appuyer très largement
ment incontournable dans la métho- sur les agrégats et résultats qui ont pu
dologie d’implémentation du Big Data. être définis préalablement en mode
Ceci est lié notamment à la maturité « batch ». On parle alors d’adaptation
de ses 4 composants précédemment du modèle prédictif au temps réel.
décrits  : Métiers, Technologie, Algo-
rithme et Données. Les cas qui demandent un traitement
véritablement et intégralement en
Une fois l’approche stabilisée, on temps réel sont donc en réalité très
entre dans la deuxième phase, dite rares.
d’Industrialisation ou « run » qui per-
met d’exploiter des modèles Big Au delà des 3 V : les 5 V
Data dans un format automatisé relié
au système d’information, donc aux À cette caractérisation classique, sont
référentiels et aux données de l’entre- venus s’ajouter 2 autres « V » qui nous
prise de manière fluide et évolutive. paraissent importants :

Pour une phase de « build », qui • V comme Véracité : les données


représente 80 % de l’effort à fournir, issues des applications centrales du
dans un environnement « temps réel », système d’information sont limitées
nous travaillerons sur des échantillons en nombre mais maîtrisées en termes
et nous aurons néanmoins besoin de cohérence, et de niveau qualité.
de faire intervenir un ou plusieurs A l’opposé, des données publiques
« Data Scientists », pour travailler sur touchant à l’expression de sentiment
les données « à froid », en utilisant un ou au comportement, peuvent être
ou plusieurs logiciels de Data Mining abondantes mais soumises à des
(quels que soient leurs types). prismes ou des déformations. Dans
l’usage qui en sera fait il faudra
Quand il n’y a pas de temps réel, la pouvoir neutraliser ces phénomènes
phase d’Expérimentation peut se sans pour autant modifier la donnée
pratiquer sur des environnements de d’origine. La gestion des critères de
données proches du réel. véracité des données manipulées
est donc une caractéristique induite
du projet Big Data. La fiabilité des

12
Ou « traitement par lots » en français, c’est-à-dire
à l’opposé du mode temps réel, le traitement des
données qui ont été préalablement déportées sur
un espace de stockage.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.13

données est devenue un critère sources de données susceptibles


essentiel, car l’expression GiGo13 de générer une information dont la
« garbage in garbage out » s’applique valeur ajoutée est avérée. Attention
plus que jamais aux Big data. A tel point toutefois à ne pas tomber dans un
qu’est maintenant née l’expression schéma réducteur  : Une source de
« Right Data » par opposition aux Big données sans usage interne peut
Data, trop « Big » et pas assez « Right ». avoir une valeur monétisable pour
un partenaire. Une autre source
• V comme Valeur : s’il est difficile de données peut être a priori sans
de juger à priori de la valeur d’une valeur et s’avérer dans le cadre d’un
donnée élémentaire, il est de bon rapprochement, être porteuse d’un
sens de s’attacher à intégrer des signal discriminant.

Usages
• Prévision / prédiction
• Prévention
• Personnalisation

Données
• Vitesse
Connaissance • Volume
• Variété
• Véracité
• Valeur

Figure 1. Les Big Data ne se résument pas aux


3 V, très descriptifs. On peut leur adjoindre 2 V
supplémentaires qui permettent de qualifier les
données et enfin et surtout, les 3 P qui décrivent
la destination des Big Data.

13
Cf. http://en.wikipedia.org/wiki/Garbage_in,_garbage_
out
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.14

Au-delà des 5 V, les 3 P la solution. Ainsi, au delà d’une compo-


sante prévisionnelle, il s’agit plutôt d’une
Au delà de cette approche des 3V connaissance approfondie d’un envi-
qui sont devenus 5, utile mais très ronnement qui permet de configurer
descriptive, nous pouvons apporter un tout le système spécifiquement pour un
éclairage supplémentaire en termes de groupe de personnes voire un individu.
destination des Big Data au travers de Prenons ici aussi, un exemple. Les Big
ce nous avons appelé les 3P : Prévision, Data permettent d’imaginer un site web
Personnalisation et Prévention, qui complètement personnalisé selon la
soulignent de manière originale le rôle personne et le contexte de connexion.
joué par les Big Data dans certains cas Dans ce cas, au moment même de la
d’usage particulièrement pertinents. connexion, le système va comprendre
« qui est là », avec un degré de certitude
• P comme Prévision variable et rapidement, « pourquoi il
en vue de l’anticipation est là », avec également une incertitude
Une grande partie des usages du Big possible. En fonction de cela, la page va
Data porte sur la notion de prévision. se construire de manière automatisée,
Comment exploiter les données pour les contenus vont s’adapter, les proces-
mieux anticiper ? Comment engranger sus vont se différencier. Le système va
suffisamment de connaissances pour analyser en temps réel les interactions
pouvoir prévoir la demande, les pro- avec le client et les croiser avec les in-
blèmes, les comportements, les goûts, formations organisées en base (voir
etc. En allant trop loin, on touche évi- ci-dessus). La solution émet en fonction
demment au problème éthique que de ces analyses et de ces interactions,
l’on abordera ultérieurement. En res- une personnalisation en temps réel ou
tant trop prudente, une entreprise une offre sur-mesure ;
peut se mettre en difficulté par rapport
à ses concurrent et à l’évolution de son • P comme Prévention
marché. Pour prendre un exemple, les La troisième famille d’applications porte
Big Data permettent de mieux com- sur la Prévention. Ici on entend se servir
prendre le client et ses attentes, en du Big Data pour identifier un risque, un
réalisant le croisement des données danger et si possible, le prévenir. Ainsi,
venant du décisionnel (BI ou Business au delà de la notion prévisionnelle,
Intelligence) ou du CRM analytique, l’objectif ici est de définir ce qu’est le
(descriptives du comportement de risque ou ce qui représente un danger
mon client sur les canaux tradition- potentiel. Prenons quelques exemples.
nels), les données de navigation (des- Les Big Data permettent d’identifier des
criptives du comportement de mon comportements de fraude et d’appli-
client sur les canaux digitaux web et quer en temps réel un schéma de trai-
mobile), et les données captées sur les tement adapté. Dans ce dernier cas, la
réseaux sociaux. Ainsi, par leur entre- solution Big Data permet d’appliquer
mise, je vais pouvoir collecter, agréger aux données collectées, des modèles
et réconcilier l’ensemble des données d’analyse et de prévision permettant
captées pour y appliquer des modèles de définir des schémas fins de compor-
d’analyse et de prévision permettant tement potentiellement frauduleux et
de fournir pour chaque client, des de mettre en place le moteur de règles
scores d’appétence ou d’attrition d’une permettant en temps réel de détecter
finesse inégalée et des recommanda- des comportements conformes à un
tions pertinentes et personnalisées ; schéma défini et d’y adapter le work-
flow de traitement adapté. Ce schéma
• P comme Personnalisation de fonctionnement ne se limite pas à la
Une deuxième famille d’usages porte sécurité, mais peut se concevoir dans le
sur la capacité de personnaliser au ni- cadre d’applications liées à la santé et à
veau le plus fin l’interface que propose la prévention des risques par exemple.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.15

Données, informations, interprété par l’esprit humain en cinq


connaissance et sagesse… catégories différentes :
Quelle différence, quelle
valeur ? 1. les données : qui se placent
au niveau du symbole ;

2. l’information : qui se réfère


aux données qui peuvent être
traitées de façon à devenir
—Info —Données utiles ; fournit des réponses aux
questions suivantes « qui, quoi,
où et quand » ;

3. la connaissance : qui est relative à


l’information et au traitement des
données par l’esprit humain ;
Figure 2. La donnée est dissociée de la connaissance répond
l’information, elle nécessite d’être raffinée
avant d’être considérée, si possible, comme à la question « comment » ;
une véritable information
4. la compréhension : c’est-à-dire
La différenciation entre données, la prise en compte du « pourquoi » ;
informations, connaissance et sagesse
a été bien codifiée par Russell Ackoff14, 5. la sagesse : l’étape ultime,
un théoricien du système et professeur résultat de l’évaluation
en changement des organisations  ; de la compréhension.
celui-ci a classé le contenu tel qu’il est

Améliorer les résultats ..................


avantage concurentiel

Data Conséquences du phénomène ...............


mining Simulation de tendances .....

Explication du phénomène............

....................................................Action

............Identification du problème ?
BI
.Tableau de bord (où/quand/comment… ?)

.........................................................................................Quoi ?

DONNÉES INFORMATION CONNAISSANCE INTELLIGENCE

Figure 3. Les Big Data sont parfaitement adaptées


à la théorie d’Ackoff sur la donnée et l’information.

14
Nous nous sommes inspirés librement du texte
de Bellinger, Castro et Mills à l’adresse :
http://www.systems-thinking.org/dikw/dikw.htm
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.16

Ackoff indique que les quatre pre-


mières catégories se réfèrent au
présent et au passé, à un savoir fini.
La cinquième catégorie se réfère
au futur et incorpore la vision et la
conception. Avec la sagesse, les indi-
vidus peuvent imaginer le futur plutôt
que de se contenter de comprendre
le présent et le passé. Mais arriver
à cette dernière catégorie n’est pas
aisé, et impose d’être capable de
trouver son chemin au travers des
quatre premières.

Cette approche linéaire du savoir,


séquentielle et progressive est trans-
formée par l’approche des Big Data,
même si on peut admettre qu’Edgar
Morin15, au travers de son Introduc-
tion à la pensée complexe règle déjà
son compte à cette vision détermi-
niste du savoir. Avec les Big Data, on
peut littéralement toucher du doigt la
Méthode pensée par Edgar Morin.

L’accumulation des données


ne voulait rien dire, mais l’usage
en a décidé autrement.

À la base, l’accumulation de données, Figure 4. La démarche déductive classique,


notamment sur Internet et les ré- en haut, (raffinage, croisement, déduction) et
la méthode d’inférence, en bas, typique dans
seaux sociaux, n’apporte pas de va- les démarches de Big Data où l’on part d’une
leur intrinsèque, car dans un mode hypothèse, qui amène à croiser des données
de fonctionnement traditionnel, la puis à les combiner pour arriver à d’autres
hypothèses… qui finissent par donner de
donnée non structurée n’est pas l’in- l’information.
formation. Les données brutes, non
raffinées, non croisées, dans ce cas
classique, ne peuvent être exploitées Les Big Data font largement appel à la
sans un travail préalable, souvent statistique et à l’intelligence artificielle.
considérable. Un des gros atouts de la statistique
étant de s’accommoder naturellement
Le phénomène des Big Data vient de la notion d’incertitude sur les
bousculer la vision traditionnelle du données. Cette incertitude ne signifie
monde de la donnée – sans pour au- cependant pas qu’il est possible de
tant rendre obsolète la gestion des travailler avec des données d’une
données de référence (MDM16 ou qualité trop inférieure.
Master Data Management en anglais)
– et introduisant ainsi une notion Mais on peut admettre une certaine
d’imperfection et d’incertitude (voir le tolérance d’incertitude sur les données
cartouche sur le marketing de l’incer- et donc sur les résultats. Ainsi les
tain). résultats produits dans le cadre des
Big Data pourront être caractérisés par
un indice de robustesse.

15 16
Voir le résumé de la Méthode d’Edgar Morin à http://www.piloter.org/business-intelligence/mdm.htm
l’adresse : http://fr.wikipedia.org/wiki/La_Méthode_
(Edgar_Morin)#La_connaissance_de_la_connaissance
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les données - p.17

Ce qu’on observe sur le terrain, c’est Alors que, a priori, la donnée brute
qu’une robustesse de 95 % (soit 95 % n’a aucune importance, par son croi-
de chances que le résultat soit juste), sement et sa validation statistique,
est très acceptable, et une telle don- elle finit par prendre de la valeur au
née sera donc considérée comme fur et à mesure, non au travers de la
fiable. La prise en compte de ce degré déduction, mais au travers de l’induc-
d’incertitude autant dans les données tion et de l’inférence statistique. Sans
que dans les résultats, est donc essen- aller jusqu’à l’intelligence artificielle (où
tielle dans la mise en place d’un projet la machine décide de la validité d’une
de Big Data. donnée), avec le Big Data, c’est le croi-
sement statistique des données qui
La mesure de cette incertitude se fait finit par créer de la valeur et du sens.
au travers d’outils de mesure dont le C’est ainsi que l’on peut considérer
plus connu est celui dit de « p-value ». que la donnée donne naissance à l’in-
formation, même si cela peut paraître
à l’origine contre-intuitif.

les Big Data, le signal devient suffisamment fort, il


moteur du marketing va être enfin possible de s’en servir,
de l’incertain soit pour alimenter des systèmes
en temps réel, soit des machines,
soit des études, des identifications
Une des caractéristiques des Big Data, d’anomalies, des certifications de cas
c’est que les données qui les sous- clients ou d’opportunités et actionner
tendent ne sont pas toujours des les leviers ou des processus dans l’en-
données certaines. Les informations treprise…
recueillies sont si nombreuses et
issues de tant de sources, qu’elles
permettent des combinaisons qui Lire la suite de l’interview de Patrick
rendent ces données, a posteriori, de Bensabat sur le Marketing de l’incertain
plus en plus certaines. Ce sont des et les Big Data sur le blog des Big Data de 
signaux faibles, qui, petit à petit, vont Business & Decision :
devenir des signaux forts, et quand www.blog.businessdecision.com
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.18

Chapitre 03
Les nouveaux usages induits
par les Big Data

L’apport des Big Data est de venir le silo où elles ont été créées et
chercher dans les données dispo- souvent limités à l’usage premier qui
nibles dans l’entreprise en interne, les a générés. Par exemple :
ou dans son écosystème, le moyen
de générer des usages innovants et •u
 ne donnée de compteur pour l’éta-
des facteurs de performance. blissement d’un relevé ;

S’intéresser aux gisements •u


 ne donnée journal (log) pour un ex-
de données existantes ploitant informatique ;
inexploitées
• une donnée de géolocalisation pour
Traditionnellement, les entreprises un push d’offre marketing.
exploitent avant tout les données
structurées dans des bases de don- Pourtant, le croisement de ces don-
nées relationnelles et associées aux nées élémentaires avec d’autres
applications de gestion : ERP, CRM… données du système d’information
Les autres données, de type bureau- pourrait apporter des informations
tique, e-mails, enregistrements au- d’une grande valeur à un grand
dio… ne sont pas partagées ni croi- nombre d’utilisateurs.
sées avec les données structurées,
pour enrichir l’information mise à Prenons un exemple  : Les sites In-
disposition pour la prise de décision. ternet génèrent des données tech-
niques (logs, tags…) destinés à
Un usage des données souvent l’administration technique ou à l’op-
limité à une application  : les timisation des sites. Ces données
données existantes au sein de contiennent des informations sur
l’entreprise restent aujourd’hui les clicks réalisés par les visiteurs de
cantonnées à un mono-usage dans ces sites Internet  ; en rapprochant
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.19

ces données techniques des don- L’approche était néanmoins fonda-


nées de connaissance client stoc- mentalement différente de part la
kées en base, on entrevoit vite une nature des données et leur volume
équation gagnante : bien sûr mais aussi de part la phi-
losophie de mise en œuvre de la
solution. En effet, pour des raisons
DONNÉES DE CONNAISSANCE CLIENT (PROFIL) liées aux contraintes techniques et
= QUI EST MON CLIENT ?
financières, les bonnes pratiques de
+ la Business Intelligence consistent à
organiser les données par rapport
DONNÉES DE NAVIGATION GÉNÉRÉES
PAR LES CLICKS (CONTEXTUELLES)
à l’utilisation envisagée. On doit
= QUE VEUT MON CLIENT ? d’abord comprendre la finalité avant
de structurer la base de données
=
afin de la rendre optimale. Or les
OFFRE ADAPTÉE AU CLIENT données évoluent très rapidement
et de ce fait, chaque mise à niveau
du datawarehouse devient une re-
Figure 5. Comment mieux utiliser les données de mise en question de la stratégie
l’entreprise. d’organisation de l’information.

En réconciliant finement les deux Avec le Big Data, il y a eu un change-


sources de données (au niveau ment de paradigme.
de la personne, au plus tard à J+1),
nous disposons d’une information La multiplication des données
enrichie permettant de proposer brutes internes disponibles
une offre adaptée au client au
moment où il en exprime le besoin. Nous avons évoqué dans le point
précédent que le développement
Peut-on réaliser un tel projet sans de l’Internet a généré un grand
penser Big Data ? Dans un sens, oui nombre de données supplémen-
cela est possible, mais au prix d’un taires  : adresses physiques (IP) des
accroissement de la complexité visiteurs, données remontées via les
et des coûts de développement, cookies (ou son remplaçant le finger-
et avec la nécessité d’adapter les printing), données techniques sur le
fonctionnalités à chaque nouvelle fonctionnement du site (logs), don-
hypothèse obligeant à repenser le nées de statistiques Web (Web ana-
cheminement du client. lytics/tags) pour garder la trace de
toutes les pages visitées, les zones
Il est clair que la construction de cliquées et de tous les événements,
grands entrepôts transverses de y compris les tests de réactivité des
type « Datawarehouse » ont permis clients à un scénario de navigation
de commencer à « dé-siloter » les (A/B testing).
données. En ce sens, la Business In-
telligence a été une étape préalable Plus récemment, le développement
à la venue du Big Data. Elle a per- des Smartphones et de l’Internet
mis aux entreprises de comprendre mobile a encore accru le volume de
l’importance des regroupements données générées : numéro d’appel,
de données autour de référentiels positions géographiques, horoda-
structurants tels que le client ou le tage de l’activité…
produit.
Exemple 1  (page 20) : comment
ACCOR a utilisé les Big Data pour
accroître ses ventes
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.20

Comment Fidéliser
les clients pour accroître
le taux de remplissage
des hôtels

Accor, opérateur hôtelier mondial Pour ce faire, l’hôtelier a dû ap-


a une présence dans 92 pays. La profondir la connaissance intime
société est à la tête de 3 500 hô- de ses clients, quelque soit le ca-
tels répartis sur 15 enseignes et nal utilisé.
accueille 230 millions de visites
par an sur ses sites Internet  ; 10 Cela lui a permis de proposer
millions de membres font partie des offres en « temps réel » en
de son club d’affaires pour clients exploitant l’expérience et les pré-
réguliers. férences de chaque client, pour
toutes les marques du groupe
Le problème : des clients Accor. La connaissance du client
autonomes qui suivent est ensuite partagée avec tous les
un parcours très personnel acteurs de la relation client pour
et complexe mieux répondre à ses attentes

50 % de l’activité d’Accor est réa- Cela a été possible grâce à la mise


lisée en direct au travers de ses en œuvre, en 9 mois à peine, d’un
canaux de distribution centraux. outil de CRM 1 to 1 qui permet de
Cette activité repose sur une offre construire une base de connais-
très large, dont la croissance est sance de chaque client, en le
tirée par les agences de voyage liant à une solution de marketing
en ligne. temps réel afin d’optimiser les
ventes via les canaux digitaux et
Le marché du tourisme est tota- les centres d’appels, tant en lo-
lement « digitalisé » : le client fait cal, dans les hôtels, qu’en central,
son marché en comparant, en pour l’ensemble des marques et
choisissant ce qui lui convient et enseignes du groupe Accor.
dans un parcours « digital » auto-
nome. L’expérience client, propre L’information client est enrichie
à chacun, s’exécute au travers de des données issues de l’outil
divers canaux  ; elle est détermi- de recommandation d’offres en
nante dans le fait qu’un client dé- temps réel. Accor déploie pro-
cide de retourner dans un hôtel gressivement cette solution dans
où il a déjà séjourné. toutes les unités du Groupe.

Il est donc crucial pour augmen- Du Big Data au Big Business


ter la performance commerciale
de l’entreprise, de connaître inti- La mise en place d’indicateurs de
mement les clients et leurs com- performance a permis de valider
portements afin de pouvoir leur les résultats et le retour sur in-
proposer l’offre la plus adaptée vestissement de cette solution de
à leurs souhaits, centres d’inté- marketing 1 to 1.
rêt ainsi que leurs expériences
passées. Cette approche a pour • Accor, grâce à ce système de
but d’accroître de manière signi- marketing personnalisé, diffuse
ficative l’efficacité des dispositifs 1 200 000 recommandations
marketing d’offre, en contenu d’offres personnalisées par jour ;
comme en délai.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.21

• L a base de données clients est La profusion de données


passée de 20 à 35 millions de externes, publiques
contacts ; ou achetables

• Le taux de clic sur les invites Les Réseaux Sociaux (Twitter, Face-
diffusées sur les pages du site book, LinkedIn etc.) génèrent eux-aus-
internet ont été multiplies par si des volumes de données considé-
deux grâce à la personnalisation rables. Accessibles publiquement via
des messages ; des API (Application Program Inter-
face18), des programmes d’interface
• Les taux de clic, ratios de conver- qui permettent de siphonner les
sion, la mesure du cycle de vie de données d’une application et de les
chaque client, et bien d’autres réinjecter dans une autre, ces don-
indicateurs sont mesués et consi- nées « sociales » peuvent constituer
gnés dans les tableaux de bord; une source d’information pour des
entreprises dont la réputation est
Ce projet de Big Data appliqué ainsi exposée au grand jour  : Biens
au marketing a permis de lancer de consommation, Agroalimentaire,
une véritable offre de marketing Luxe, Distribution et peut-être de-
1 to 1 sur un marché de masse en main Assurance sont des secteurs qui
alliant intelligence logicielle et ac- disposent ainsi d’une manne de don-
tion humaine. nées externes abondante.

Il s’agit d’un des projets les plus Considérées comme « non structu-
ambitieux d’Europe dans le do- rées » ces données, en grande partie
maine du tourisme, un cas d’école textuelles, embarquent également de
de « transformation digitale ». Ce la vidéo et des photos. Si elles sont
projet est une réalisation Bu- abondantes, ces données non struc-
siness & Decision. turées (commentaires, avis…) ont une
pertinence intrinsèque limitée. Les
« signaux faibles » qu’elles génèrent
n’auront de vraies valeurs que croi-
sées à d’autres données19.
L’utilisation d’une carte SIM, d’une
connexion Bluetooth, ou de tout autre La problématique à laquelle l’entre-
protocole n’étant pas limitée aux per- prise est confrontée est l’expansion
sonnes physiques, l’Internet des ob- des champs applicatifs générés par
jets va générer également un volume la maîtrise de ces nouveaux types
de données considérable  dans un de données. Si on s’intéresse par
grand nombre de secteurs : Automo- exemple à la reconnaissance faciale,
bile, Santé, Distribution d’énergie… qui est l’une des priorités de nombre
des géants de l’internet. Le potentiel
Selon Michel Lévy-Provençal, le de création de valeur des applica-
nombre d’objets connectés dans tions liées à cette donnée justifie les
le monde, principalement des ordi- investissements colossaux qui sont
nateurs, des téléphones et des ta- réalisés actuellement. Dès qu’elle
blettes est estimé à 5 milliards, en sera maîtrisée, il faudra pour l’entre-
2015, ils devraient atteindre 15 mil- prise concernée, mettre à jour tous
liards et 50 milliards en 2020 17. Il fait ses référentiels et bon nombre de ses
aussi mentionner l’arrivée en masse applications marketing si elle ne veut
du paiement sans contact et, no- pas se retrouver à la traine face à de
tamment, de iBeacon qui va faire nouveaux entrants ou des concur-
donner à cette tendance une impor- rents plus prompts à réaliser des in-
tance croissante. vestissements dans ce domaine.

17 19
Cf. cet article sur le site de SFR et cette interview de Il est à noter cependant que des progrès notables
Michel Lévy-Provençal : http://bit.ly/sfrlevyp restent à faire dans le domaine de l’exploitation de ces
18
http://encyclopedia2.thefreedictionary.com/ données multimédia.
Application+Program+Interface
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.22

Exemple 2  : collecte de données Les données ouvertes


sur une flotte de véhicules pour ou « Open Data »
un grand opérateur de services
aux particuliers européen L’Open Data regroupe un ensemble
de données publiques gratuites
Un grand opérateur de services mise à disposition par les orga-
aux particuliers en Europe re- nismes publics comme l’Etat ou les
court aux Big Data pour mieux collectivités locales, il peut être un
gérer sa flotte de véhicules. choix stratégique pour des entre-
prises comme la RATP qui met ainsi
À la base il y a la collecte des à disposition, progressivement, une
données sur la flotte et ses tour- partie de ses données de fréquen-
nées  : relevés de compteurs ki- tation 22 .
lométriques en fin de mois, des
cartes d’essence des chauffeurs,
les données issues des révisions
au garage, et depuis peu, les
capteurs implantés dans les vé-
hicules électriques. Toutefois,
en raison des déclarations
approximatives, ces données
peu fiables restaient jusque-là
inexploitées.

Le Client a donc fait appel à Bu-


siness & Decision pour concevoir
et mettre en œuvre un prototype Figure 6. data.ratp.fr, la plateforme d’Open
Data de la RATP.
sur Hadoop 20 . Les données ci-
tées plus haut sont traitées sur
la plateforme Hadoop pour être Monétiser ses données
fiabilisées, puis injectées dans
l’outil de Business Intelligence Quand on parle de données in-
QlikView 21 afin de restituer des ternes ou externes, il est important
indicateurs d’éco-conduite per- d’avoir à l’esprit la monétisation pos-
mettant d’améliorer la gestion de sible de ces nouvelles données : les
la flotte. données de géolocalisation captées
par un opérateur téléphonique, par
Convaincue par ce premier essai, exemple, ont-elles une valeur pour
la DSI de l’opérateur envisage de des secteurs qui doivent s’intéres-
promouvoir cette technologie au- ser de près à la mobilité de leurs
près des différentes entités de clients (Assurance, Voyagiste, etc.) ?
son Groupe.
Les données fournies par un routeur
domestique de connexion Internet
(« Box »), par exemple, peuvent four-
nir nominativement, à un instant
donné, des informations sur qui re-
garde quelle publicité, données pré-
cieuses pour les annonceurs ou les
publicitaires.

20 22
Pour des explications sur Hadoop et Map Reduce, Sur la conversion progressive de la RATP à l’Open Data,
voir la page 20. voir cet article sur le blog du Monde : http://data.blog.
21
Voir le site : www.qlik.com/fr lemonde.fr/2013/01/09/stations-desertes-temperatures-
quand-la-ratp-ouvre-ses-donnees/ agrémenté d’exemples
de ce qui peut être fait avec ces données.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les nouveaux usages induits par les Big Data - p.23

La question qui se pose est comment L’échelle de temps pour le croisement


va s’autoréguler ce marché naissant de données se réduit considérable-
de la monétisation des données. À ment, et pour certains usages se rap-
terme, chaque entité peut devenir proche du temps réel. En effet, la vo-
un fournisseur et un consomma- latilité de certaines données captées
teur de données. A la manière de ce nous incite à les exploiter au plus près
qu’on anticipe sur l’énergie, il faudra du moment où elles ont été produites.
créer des systèmes sophistiqués qui
permettront de véhiculer et de com- C’est dans ce contexte que se posera
mercialiser les données entre tous de la manière la plus évidente, le pro-
ces possibles intervenants aux mul- blème de la confidentialité de l’infor-
tiples casquettes. mation. L’information prend de l’am-
plitude quand elle est constituée de
Le croisement de données  données issues d’univers différents.
tous azimuts Quand j’achète un billet d’avion, les
données générées prennent beau-
De ce qui précède nous pouvons rete- coup de valeur pour un hôtelier, un
nir deux choses. assureur, un loueur de voiture, etc.
Et plus le temps passe, moins l’infor-
D’une part, la variété et le volume de mation a de la valeur. Il s’agit donc
données est une réalité qui ne fera ici, de savoir comment exploiter l’in-
que s’affirmer dans les prochaines formation dans les règles de l’art, les
années. contraintes juridiques et dans le cadre
d’un parcours client efficace pour en
Ensuite, que chaque donnée élé- tirer le meilleur parti. Mais comment le
mentaire peut répondre à différents client peut-il contrôler ou autoriser ces
usages et besoins en informations in- échanges de données ?
ternes à l’entreprise ou dans le cadre
de la coopération avec d’autres entre- Peut-on envisager de tirer avantage
prises. de toutes ces données sans se po-
ser la question d’une approche spé-
A ce stade, il est important de prendre cifique dite de Big Data  ? Quand on
conscience de deux éléments complé- dit Big Data, il faut entendre au-delà
mentaires. de la technologie, une approche avec
toutes ses composantes : technolo-
La multiplication des croisements giques, méthodologiques, juridiques
de données va s’accélérer. Le croi- et sociales. Cela est probablement
sement de données pertinentes possible, mais se ferait au prix d’in-
pour des usages maitrisés peut être vestissements matériels, logiciels et
source d’opportunités; on l’a présen- humains très importants.
té sur le cas de 2 types de données :
CRM et navigation Internet. Mais des
croisements multiples avec d’autres
sources de données seront peut-
être pertinents en terme de création
d’une information de valeur.

Le croisement de données multiples


devient en effet une nécessité à par-
tir du moment où on intègre à l’en-
semble des données non structurées
porteuses de signaux faibles : plus on
pourra recroiser la pertinence d’une
donnée de ce type avec d’autres don-
nées de même type, meilleure sera la
qualité de l’information produite.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les architectures et les algorithmes - p.24

Chapitre 04
 Les architectures
et les algorithmes

Les spécificités d’architecture leurs fournisseurs, une fois les pre-


matérielle en Big Data miers investissements réalisés. En
cas de changement technologique,
La genèse du massivement il fallait recourir à un processus de
parallèle migration qui servait à valider la
manière dont les programmes tour-
Les technologies du massivement pa- naient, avec quelle performance,
rallèle sont à l’ordre du jour depuis 20 et cette migration avait un coût  : la
à 25 ans. Les Informaticiens ont adop- montée en charge (« scalability » en
té différentes façons de traiter leurs anglais) n’était donc que relative.
problèmes techniques : au travers
des machines vectorielles, avec des  e sont les infrastructures cloud
C
mainframes, avec des serveurs, puis computing (IaaS23) qui ont rendu
en ajoutant de plus en plus de proces- possible les Big Data
seurs, et enfin aujourd’hui, avec des
processeurs qui ont de plus en plus Tout ceci a changé avec l’arrivée
de cœurs, ou encore des machines du cloud computing. Désormais, le
regroupées en clusters. client a la possibilité de monter facile-
ment en charge (principe d’élasticité
Aujourd’hui, cette parallélisation est dans le cloud) car on a rendu les ma-
devenue la solution standard. Le chines universelles et extrêmement
massivement parallèle, qui nécessi- simples.
tait des investissements matériels
conséquents (avec 8 ou 16 proces- Cette standardisation des infrastruc-
seurs, on payait cela l’équivalent de tures a permis de réaliser des calculs
100 000  euros pour un matériel qui multiprocesseurs, parallèles, sur des
n’avait qu’une durée de trois ans, et machines et des systèmes d’exploita-
qui au-delà était obsolète), notam- tion standard, très faciles d’accès. Ce
ment si on désirait ensuite ajouter de n’est pas la puissance de calcul des
nouveaux processeurs  ; sans comp- serveurs qui a changé, c’est la façon
ter la captivité des clients vis-à-vis de de monter en charge.

23
IaaS : Infrastructure as a Service, c’est-à-dire
la capacité d’acheter de l’infrastructure déportée
et de la consommer à la demande, de la même manière
que ce que l’on fait pour les logiciels SaaS (Software as
a Service).
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les architectures et les algorithmes - p.25

Auparavant, en cas d’obligation de base de données, nécessitent


montée en charge sans avoir le bud- d’accéder à quasiment l’intégra-
get nécessaire, on revoyait ses ambi- lité de la base au sein du même
tions à la baisse. algorithme et s’accommodent
assez mal de la méthode Map/
C’est le cloud computing qui a rendu Reduce 25 . On peut certainement
possible les Big Data. Avec cette fa- effectuer un modèle de scoring
cilité de montée en charge, on peut en utilisant Map/Reduce, mais la
mettre sur ces machines virtuelles mise à jour d’une classification
des systèmes qui sont développés comportementale, par exemple,
et conçus pour les traitements paral- nécessitera de centraliser à nou-
lèles. veau la donnée pendant toute la
durée du calcul.
Les technologies Big Data
immergées dans le cloud Cela limite quelque peu l’usage
de Hadoop dans le cadre de
Si l’on prend l’exemple de Cassandra de traitements, en particulier ceux
Facebook, il s’agit d’une base de don- destinés au Marketing, mais ne
nées standard, dont la spécificité est l’interdit pas pour autant. Il est en
qu’elle a été conçue pour s’intégrer sur effet concevable de faire les trai-
des clusters, que l’on gère dans le cloud. tements lourds en mode batch
C’est donc bien le cloud qui est l’élé- dans des bases SQL qui viendront
ment déclencheur de ce phénomène en soutien de bases Hadoop plus
Big Data en termes technologiques. orientées temps réel.
Cassandra, en cas de besoin, va provi-
sionner des machines supplémentaires. Il faut comprendre que les dif-
Cette opération de provisionnement est férentes structures de base se-
aussi possible par le simple envoi d’un ront amenées à coexister et qu’il
SMS sur une machine système qui dé- n’existe pas aujourd’hui de mo-
clenche une action d’administration du dèle de stockage qui soit la pana-
serveur. cée en Big data.

Ce qui est vrai de Cassandra est


aussi vrai pour Hadoop qui est un Les spécificités d’architecture
« Framework » logiciel24 de traitement logicielle en Big Data
massivement parallèle ; il est donc lo-
gique qu’on ait une plate-forme mas- D’un point de vue logiciel, les spécifi-
sivement parallèle sous-jacente qui la cités des Big Data découlent de ce qui
fasse tourner. précède. À une époque, les calculs
parallèles étaient réservés à une com-
munauté réduite de scientifiques, de
Hadoop est-il la panacée des développeurs et de spécialistes très
Big Data ? pointus, notamment dans le domaine
des jeux vidéo. Ces spécialistes étaient
Le modèle Hadoop a des capa- formés dans des écoles spécialisées
cités de montée en charge indé- ou au travers de cursus de formation
niables. Est-il pour autant adap- dédiés. C’était une connaissance qui
té à toutes les problématiques ne se diffusait que très peu.
des Big Data  ? On peut, sans
crainte de se tromper, affirmer le Le calcul parallèle
contraire. s’est démocratisé

Certains traitements statistiques, Aujourd’hui, les choses ont complè-


comme par exemple l’évaluation tement changé : le cloud computing,
des profils des clients-types d’une puis les outils comme Map Reduce,
Hadoop et Cassandra, tous massi-

24 25
Un framework logiciel est un ensemble méthodologique Pour l’explication de Map/Reduce, voir la page 19 de ce
et d’outillage lié à un langage de programmation. document.
Cf. http://fr.wikipedia.org/wiki/Framework
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les architectures et les algorithmes - p.26

vement parallèles, obligent tout le Deuxième temps : Reduce pour


monde informatique à se confron- regrouper les morceaux
ter à ce qu’est un développement de
calcul parallèle, voire distribué. Nous Chaque nœud va utiliser la deuxième
sommes donc dans une phase de étape (Reduce) qui consiste à faire un
transition où il faut que tous les infor- calcul manière indépendante (Shuffle)
maticiens développent ces nouvelles et à le remonter vers la machine qui
compétences. lui a donné l’ordre de faire ce calcul,
jusqu’à revenir au nœud initial.
Tout développeur qui veut pratiquer
le Web, du reporting temps réel, des
analyses de Twitter ou de tonalité
(« sentiment analysis » en anglais) est
obligé de comprendre ce qu’est un
algorithme distribué, d’avoir des no-
tions de maths appliquées, d’analyse
numérique, et qu’ils sachent ce qu’est
un algorithme. Les cours d’algorith-
mique, il y a encore quelques années,
étaient facultatifs dans les écoles, au- MAP SHUFFLE REDUCE
jourd’hui ils sont devenus incontour-
nables et obligatoires. Figure 7. Comment Map Reduce fonctionne
(librement inspiré d’un schéma du blog
sqlauthority.com)
Map Reduce : un modèle de
programmation en deux temps
Avec cette méthode, on découpe les
Map Reduce est un modèle de pro- problèmes soit pour arriver un pro-
grammation, un algorithme qui est blème suffisamment petit pour pou-
principalement utilisé pour manipu- voir être traité par l’algorithme, soit
ler beaucoup de données qui sont pour s’adapter à la puissance de la
distribuées sur des clusters ou des machine.
machines parallèles. Ce processus se
déroule en deux étapes : Tout cela remonte enfin et donne le
calcul final. Ce principe est commun
Premier temps : Map pour découper à un grand nombre d’algorithmes de
le problème en morceaux traitement des données.

Le problème est d’abord découpé en Les limites de cette méthode


morceaux plus ou moins gros ; on va
ensuite dédier chaque machine à un Certains problèmes ne se prêtent
sous-problème particulier. Chaque cependant pas à cette méthode. Il
machine va elle-même redécouper faudra dans ce cas les reformuler,
ce sous-problème en sous-sous-pro- ou trouver un nouvel algorithme du
blèmes, et de manière récursive, on même type qui pourra traiter le pro-
arrive à ce que chaque machine traite blème en question.
une toute petite partie du problème.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les architectures et les algorithmes - p.27

Les spécificités des bases Les bases de données colonnes


de données en Big Data
Il existe aussi des bases de données
Jusqu’à maintenant, Nous avions ten- dites « colonnes », pour lesquelles, au
dance à stocker toutes les données lieu de stocker des lignes, on va sé-
de la même façon sans réfléchir à lectionner une colonne en particulier,
leur pertinence, dans des bases de en fonction de l’algorithme qui nous
données relationnelles qui sont plutôt intéresse. Dans le domaine du déci-
orientées « lignes ». sionnel, on modélise des entrepôts
de données (« data warehouses » en
Les bases de données lignes anglais), avec des modèles flocons
ou étoiles qui permettent ensuite de
Comme leur nom l’indique, dans ce faire des recherches très rapide d’en-
type de bases de données, chaque registrement.
enregistrement est égal à une ligne
(c’est le cas par exemple pour les Cela se modélise très bien avec des
bases de données de type Oracle, bases de données colonnes (avec des
DB2, SQL, SQL Server). La raison à produits comme SAP et Sybase IQ) où
cela en était soit le manque de choix, dans le monde Big Data, Hbase26 , qui
soit le manque de performance, ou est une base de données « colonnes ».
de maintenabilité. C’est-à-dire des
raisons étrangères au problème à ré- Les bases de données orientées documents
soudre. Le format ligne est également
appelé format « tableau » et est com- Enfin, on trouve les bases de données
parable à ce qu’on trouve dans les orientées documents (exemple Mon-
tableurs Excel. goDB) : dans ce cas, on va stocker uni-
quement des couples clé/valeur («key/
Produit Description Prix au kg Durée du SAV value» en anglais) en vrac. Ce sont des
bases de données très déstructurées,
en euros en années

1 chou légume vert 1 2


où on stocke tout en vrac et où les al-
2 carotte légume orange 10 5
gorithmes de recherche de canalisa-
3 navet légume sans goût 15 10 tion des données vont utiliser les spé-
cificités de la base de données pour
Figure 8. Dans un modèle ligne, même améliorer la performance.
spécifique, une valeur pour chaque colonne ;
exemple ici avec une base de données produits
Twitter keyspace

: Statuses CF

key Columns
" 1 " " text ": " Nom nom nom " " user_id ":  " 5 "
key
PRODUIT DESCRIPTION
1 " 2 " " text ": " @evan Zzzzzz… " " in_reply ": " 8 " " user_id ":  " 5 "
chou légume vert
: Status Audits CF

: Status Relationships CF
PRODUIT DESCRIPTION
2
carotte légume orange : Users CF

key Columns
" 5 " " screen_name ": " buttons cat "

PRODUIT DESCRIPTION
3 : User Relationships super CF
navet légume sans goût
ke Supercolumns
" 5 " " user_timeline ": " 2 ": " "  " 1 ": " " " home_timeline ": " 8 ": " "

Figure 9. Au contraire, avec une base Figure 10. Evan Weaver décrit comment
de données colonne, comme dans l’exemple Cassandra traite les enregistrements de données
ci-dessus, le nombre de colonnes peut varier dans sa base clé/valeur.27
pour chaque enregistrement.

26 27
Cf. http://www.journaldunet.com/developpeur/outils/ http://blog.evanweaver.com/2009/07/06/up-and-running-
comparatif-des-bases-nosql/hbase.shtml with-cassandra
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Les architectures et les algorithmes - p.28

Pas de prêt-à-porter dans les très régulièrement utilisées, et qui


bases de données seront choisies en fonction des pro-
blèmes à traiter, sans compter les
Le choix de la base de données dé- nouveaux formats comme le format
pend des besoins. Dans une base de Graph développé par SAP/INFINITE
données relationnelle, une recherche INSIGHT29 spécialement adapté à
ou une sélection en fonction d’un l’analyse des interactions des réseaux
champ donné, par exemple dans une sociaux.
base de données clients, tous les
clients qui s’appellent « Michael », est C’est là une des spécificités et des
une opération très peu coûteuse. complexités du monde des Big Data :
il y a beaucoup d’outils, mais le parti
Par contre, si je veux faire beaucoup pris de la communauté a été de préfé-
d’ « inserts » avec des « jointures »28 rer les outils qui sont très spécialisés,
entre une base de données clients et simples voire même simplistes, mais
une base de données des produits qui sont les meilleurs dans chacune
achetés dans le passé pour faire des de leurs catégories.
statistiques, c’est un peu moins per-
formant. Ce même genre d’opérations Architecture Big Data
sur une base colonne est quasi-ins- uniquement pour du Big Data ?
tantané car elles sont faites pour cela.
C’est une question dont la réponse
Beaucoup d’outils, chacun est donnée par le marché. Les entre-
spécialisé dans un domaine prises ont déjà commencé à adapter
certains composants de ces architec-
Les recherches en plein texte met- tures pour améliorer les performances
tront à mal les bases de données de leur système d’information. L’enjeu
en colonnes ou en lignes très rapi- ici est iso-fonctionnel, c’est à dire qu’il
dement. A l’opposé, avec MongoDB, s’agit de refaire la même en chose en
c’est l’inverse, la recherche plein texte mieux et en moins cher. Par mieux, on
y est très rapide. entend plus rapide, plus de temps réel
et par moins cher, on souhaite profi-
Le choix de la base de données dé- ter de la profusion d’entreprises inno-
pend donc de ce que l’on recherche vantes qui viennent challenger (avant
à y faire. En dehors de cela, il y a aussi d’être rachetées ?) les leaders établis
des bases de données qui cherchent à du secteur des nouvelles technolo-
faire la synthèse de tous ces mondes. gies. Les cibles sont les systèmes les
plus coûteux et les plus complexes,
On trouve déjà à ce jour, entre 50 et les ERP, le CRM, la BI, etc…L’approche
110 de ces bases hybrides qui sont est, elle, purement technique.

28 29
« insert (SQL) » : http://fr.wikipedia.org/wiki/Insert_ Autrefois appelé KXEN : Voir http://en.wikipedia.org/
(SQL) « jointure » ou « join » en anglais : wiki/KXEN_Inc.
http://fr.wikipedia.org/wiki/Jointure_(informatique)
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Les métiers des Big Data - p.29

Chapitre 05
 les métiers des Big Data

MATHS
MACHINE
HACKING LEARNING & STATISTICS
SKILLS KNOWLEDGE
DATA
SCIENCE

DANGER TRADITIONAL
ZONE ! RESEARCH

SUBSTANTIVE
EXPERTISE

Figure 11. La science des données (selon Drew Conway)30 insiste sur la combinaison de connais-
sances de fond (substantive expertise), de talents techniques (hacking skills) et de connaissances en
mathématique et en statistique. C’est la combinaison de ces expertises qui permet d’éviter les écueils
décrits par Conway. Nul doute qu’il faille former des experts…

30
Le diagramme de Venn des data sciences de Drew
Conway : http://drewconway.com/zia/2013/3/26/the-
data-science-venn-diagram
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Les métiers des Big Data - p.30

Le retour de l’EIM (Entreprise traduire par l’énonciation des devoirs


Information Management) et responsabilité des différents ac-
teurs (dans et hors de l’organisation)
L’EIM est à nouveau à l’ordre du jour. à chaque étape du cycle de vie de la
Le devoir de réflexion que nous nous donnée.
sommes imposés dans le cadre de
ce livre blanc nous oblige à nous Le résultat en est la valorisation de la
pencher à nouveau sur cette no- donnée car celle-ci est un capital de
tion inventée par Gartner, ainsi qu’à l’entreprise dans le sens où elle a une
prendre un peu de recul par rapport valeur intrinsèque.
aux Big Data. Ce terme d’EIM, devenu
désuet pendant un temps, revient sur La difficulté de mise en œuvre de ce
le devant de scène. type de chantier est due au nécessaire
changement de l’organisation pour
Les initiatives autour de la donnée tenir compte de la donnée ; la plupart
dans les entreprises sont souvent des entreprises découvrent le niveau
le sous-produit de la mise en œuvre de qualité de leurs données au
d’un ERP (SAP, JD Edwards ou autre), cours de ce processus, et à l’issue
qui révèle des problèmes de gestion de ce constat, mettent en place
des données de référence (MDM). une gouvernance des données.
Cette approche est menée par des
Les clients sont devenus beaucoup opérationnels, le sponsoring des
plus mâtures sur ce sujet. Le besoin patrons de l’entreprise.
de gérer la donnée de référence n’est
plus à démontrer : même si cette ma- Valoriser la donnée
turité reste très relative, car les progi- en la rendant aux métiers
ciels de gestion de la donnée de réfé-
rence ont une dizaine d’années ou un Pour sortir du « bla-bla marketing », il
peu plus. Si les clients sont de plus en va falloir démontrer la valeur de cette
plus attentifs sur ce point, ils ignorent donnée. C’est là qu’on va parler de
en revanche comment mettre en vision (Quoi ?) et stratégie (Comment ?)
œuvre ce chantier. et métriques (Combien ?).

Comment mettre en œuvre La gouvernance évoquée plus haut


ce chantier ? a pour but de redonner la main
aux métiers sur ces données. La
La mise en œuvre de l’initiative autour problématique que l’on retrouve
de la donnée, c’est vrai du MDM mais systématiquement chez les clients,
aussi du Big Data, nécessite d’avoir c’est que cette initiative de la donnée
une vision rigoureuse de la donnée. est essentiellement une initiative
Cela a plusieurs impacts : informatique. Au fur et à mesure de
l’accroissement de la maturité des
D’abord, ceci nécessite de connaître entreprises, la responsabilité de la
ses données, identifier les gisements donnée doit être rendue aux métiers.
de données sur un périmètre. Le vrai rôle de l’informatique est de
faire en sorte que les gens qui ont
Ensuite, cela implique qu’on ait des la maîtrise de la donnée passent du
données de quantité et de qualité (le temps à l’analyser, et non à la préparer.
MDM implique que la donnée de ré-
férence soit le point de vérité unique Tout ceci est complémentaire
dans le système d’information). Le du Big Data
MDM concerne les produits, les
clients, la RH… Tout ce qui précède est utile afin de
comprendre les nouveaux métiers
Enfin et surtout, cela exige la mise en des Big Data, qui ne sont pas, comme
place d’une gouvernance : cela va se dans le cas du MDM cité plus haut,
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Les métiers des Big Data - p.31

des métiers informatiques, mais des Le CDO a suffisamment de pouvoir


métiers business. Gartner, dans sa pour passer outre toutes les résis-
hiérarchisation des nouveaux métiers tances au changement et mettre en
du Big Data, montre clairement que œuvre une stratégie de changement
ceux-ci sont bien rattachés aux mé- dans l’entreprise. Ce n’est pas tout : le
tiers et non à l’informatique. CDO a aussi une dimension externe,
notamment dans le cas où l’entreprise
Les nouveaux métiers partage des données avec l’extérieur.
du Big Data Il est aussi acteur dans les secteurs
fortement normés et/ou réglementés
Nous pouvons, pour simplifier, réper- (comme les normes GSI dans la distri-
torier 4 catégories de métiers si non bution par exemple).
liés directement au Big Data, tout au
moins rendus visibles et attractifs Les CDO peuvent devenir acteurs
grâce à la prise de conscience des de ces normes, de la fédération des
enjeux liés aux data, créée par le Big différents intervenants dans un
Data : secteur d’activité, pour mettre en
place une norme, faciliter le partage
- le CDO (Chief Data Officer) ; des données etc. En l’absence de
- le Data Stewart : c’est nomination de CDO, en France, c’est
l’administrateur des données ; de facto le DSI qui en remplit le rôle.
- le Data Scientist : c’est celui
qui analyse la donnée à l’aide Un métier où la communication
d’outils statistiques et datamining est primordiale
complexes ;
- le Data Analyst : c’est celui qui Le rôle du CDO est aussi le mettre en
analyse les données pour ses place une organisation opérationnelle,
besoins métiers propres. ainsi que la gouvernance au sein d’un
« Governance Board » ; le mot faisant
1. L
 E CDO peur, on a tendance à le remplacer par
celui de « Governance council ».
C’est encore, à ce jour en France,
un poste qui n’existe pas beaucoup Par ailleurs, en filigrane de tous ces
dans la réalité. Mais c’est un concept métiers, il y a l’importance de la com-
qui monte et qui va se développer. munication. Car ces nouveaux métiers
Il est au niveau des décideurs de (pas seulement celui du CDO mais les
l’entreprise (C-Level), et il participe au deux autres également) doivent beau-
comité exécutif. Son rôle est multiple : coup communiquer afin de prouver
le bien fondé de chacune des actions
D’abord, contribuer à la stratégie de entreprises autour de ces données.
l’entreprise en s’appuyant sur les
données, leur gestion, éventuellement Le paysage va donc immanquable-
en maintenant le niveau de qualité de ment évoluer lors des cinq prochaines
celles-ci; années.

Puis diffuser la connaissance en La question en suspens est de savoir


interne des données (dans les grandes si le CDO est un poste de transition.
entreprises il y a des gisements de En fait, cela dépend du DSI (CIO) et de
données dans toutes les entités, mais l’évolution de son poste, notamment
personne n’a de vision transversale). si celui-ci n’est pas capable de dépas-
Optimiser les processus clés du métier ser les tâches liées aux infrastruc-
via la consommation de la donnée. tures. Il reste néanmoins une incerti-
tude sur ce point.
Enfin, construire une équipe avec
des profils différents pour réaliser cet
objectif.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Les métiers des Big Data - p.32

2. Le Data Stewart jeux liés au Churn et une maîtrise des


outils de statistiques et de Datamining
Ils ont une connaissance de la donnée, les plus couramment utilisés par ces
et la travaillent quotidiennement, industries.
même si ce n’est pas nécessairement
un travail à temps plein. C’est le poste On le voit, le Data Scientist est sou-
le plus bas dans l’organisation de ces vent un mouton à 5 pattes, doté d’un
nouveaux métiers, c’est un « faiseur ». cursus de formation avancé et d’une
Il doit dépendre du CDO, car il fait expérience professionnelle avérée.
partie d’une communauté, il n’est pas
seul. Dans les grandes entreprises, il 4. Le Data Analyst
y aura un Data Stewart par territoire.
Si c’est une organisation matricielle, Le Data Analyst est également
on y rajoutera une dimension métier. quelqu’un qui produit la valeur de la
Les Data Stewart sont responsables donnée. Il réceptionne une partie du
de la mise en œuvre de la stratégie travail du Data Scientist et le rapproche
sur le terrain, ils vont appliquer la des autres reportings et des autres
gouvernance décidée par le CDO, données qu’il a en sa possession pour
et veiller à ce qu’elle soit suivie ; de pouvoir faire son travail. Il utilise des
même pour ce qui est des bonnes outils de dashboarding, de visualisa-
pratiques et des cycles de vie. tion de l’information et d’exploration
de l’information assez proches de ceux
3. Le Data Scientist qu’il utilise pour de la Business Intel-
ligence mais il les applique différem-
Le Data Scientist est celui qui produit ment en fonction des données qu’on
la valeur de la donnée. Il part de don- met à sa disposition et des enjeux mé-
nées fiables (grâce au travail du Data tiers auxquels il doit faire face.
Stewart), et il a les outils pour le faire.
Les Big Data sont récentes, mais les Le Data Analyst n’est pas un techni-
problèmes liés aux Big Data existent cien, c’est un professionnel des mé-
depuis longtemps. C’est la technologie tiers qui a une sensibilité à la donnée.
récente qui permet de traiter les plus Par exemple, chez un client dans les
gros volumes et aussi de faire ce tra- arômes en Suisse (Givaudan), il est im-
vail en temps réel. Le Data Scientist est portant voire crucial, de rassurer les
un expert aux multiples compétences. clients sur la fiabilité et les risques liés
Il maîtrise les outils statistiques et le aux produits. C’est dans ce contexte
datamining pour pouvoir manipu- une obligation réglementaire. L’utilisa-
ler les données à sa guise ; il connaît tion des données permet de stabiliser
suffisamment bien l’industrie pour la- et de pérenniser l’activité. Des outils
quelle il opère afin de tenir compte de traditionnellement issus de la Bu-
ses enjeux dans ses recherches ; en- siness Intelligence existe et sont utili-
fin, il est capable de comprendre les sés par des Data Analysts. Ils sont au-
finesses d’un processus pour pouvoir jourd’hui complétés par des solutions
se poser les bonnes questions tout en de type Big Data et c’est le Data Ana-
suggérant des pistes de réponses. lyst qui sera en mesure de consolider
les différentes sources de données et
Par exemple, pour une entreprise de faire évoluer ses méthodes afin de
dans le secteur des Télécoms, la pro- faciliter et d’améliorer ses processus.
blématique du Churn ou Rétention
des Clients est cruciale, car la concur- De la « punition »
rence est rude et le produit souvent aux perspectives de carrière
pas assez différencié. Les méca-
nismes liés à la compréhension né- Ce travail sur la donnée va servir à
cessitent de la part du Data Scientist, optimiser les processus métiers et à
une compréhension du secteur qui a améliorer les facteurs de performance
ses spécificités, une maitrise des en- (KPI) de ces métiers.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Les métiers des Big Data - p.33

Ces nouveaux métiers offrent désor- tisser des liens entre la donnée de ré-
mais des perspectives de carrière férence et la donnée relationnelle, la
et ne sont plus une « punition ». Ces donnée de fait, celle de ses achats.
postes étaient traditionnellement
considérés comme des « placards » ; Le Big Data vient donc enrichir ce capi-
ce n’est plus vrai aujourd’hui. tal initial avec des données comporte-
mentales, les accointances du consom-
Les grandes écoles (citons HEC, EN- mateur avec différentes marques et
SAE, Essec) proposent aujourd’hui ses réseaux en général, notamment
des formations autour de la donnée. à travers les divers réseaux et médias
HEC a intégré une dimension don- sociaux. On a donc besoin de ces dif-
née dans son programme de MBA, férents types de données pour mettre
c’est un signal fort. Et cela s’adresse en place une vision métier.
à des gens qui sont amenés, par cette
formation, à remplir des rôles impor- Le travail de Big Data ne peut pas se
tants dans les organisations dans les- concevoir en dehors de cette réalité,
quelles ils travaillent. même si les sources (Facebook, Google,
Amazon etc.) ont une existence propre.
Le lien entre MDM et Big Data L’intelligence est dans les liens entre les
données, c’est ce qui va transformer
À l’Entreprise Information Manage- multiplier la valeur de la donnée.
ment Summit 2013 à Londres organi-
sé par Gartner, le cabinet d’analyse a Exemple d’illustration
insisté sur la nécessité d’étendre cette de la distribution
maturité et cette structuration autour
de la donnée de référence (MDM) La tendance actuelle n’est plus au
vers la donnée semi ou non structu- multicanal, mais à l’omnicanal. Pour
rée. C’est cela qui va faire le lien entre mettre cela en place, cela implique
MDM et Big Data. une bonne connaissance du client,
pour pouvoir lui proposer de la
MDM et Big Data sont tout à fait com- personnalisation, du MDM, pour
plémentaires. C’est un cas d’usage bien le connaître, de la BI et enfin des
qu’on retrouve dans la littérature, réseaux sociaux.
mais qui en réalité n’est pas encore
véritablement mis en œuvre en Si le distributeur connaît bien ses
France. Si le Big Data est synonyme produits, qu’il fournit l’information
de foisonnement et de chaos (sou- pertinente quel que soit le canal, et
vent créateur), le MDM est ce qui per- qu’il connaît bien ses stocks (via le BI
met de mettre de l’ordre dans tout et le lien notamment vers les ERP), il
cela, permettant de rendre structuré est capable de personnaliser l’offre
quelque chose qui ne l’est pas, de le son client, en tirant des liens entre ces
classer et de l’organiser. différents niveaux de données..

Exemple d’illustration

Comment réaliser et livrer la vision TRANS


MDM ACTIONNEL
360° du client, le but ultime de tout DONNÉES
marketeur ? Pour cela on a besoin de DE RÉFÉRENCE DONNÉES
DE FAIT
plusieurs types de données de réfé-
rence, géré par le MDM : cela va être
le client (numéro de sécurité sociale,
Siret/Siren si c’est du B2B, adresse BIG DATA
DONNÉES
e-mail, autres données de contact, COMPORTEMENTALES
etc.). Ensuite, il y a l’historique du client,
sa segmentation  : c’est la Business
Intelligence (BI). C’est-à-dire qu’on va
Figure 12. 3 types de données et la fusion
des 3 domaines
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data ou Big Brother ? - p.34

Chapitre 06
Big Data ou Big Brother ?

Les Big Data ne laissent personne in- eu lieu vers les débuts du Web au dé-
différent, soit pour évoquer en elles but des années 1990.
le futur de l’informatique et un nouvel
ordre économique, soit pour les fusti- Côté pile : l’espoir d’un secteur
ger et les pointer du doigt comme dé- dynamisant qui vient irriguer
rive orwellienne d’une société scien- toute l’économie
tiste devenue incontrôlable.
Lors d’un récent matin de l’écono-
Il ne s’agit d’ailleurs pas que d’un dé- mie organisé par le Journal du Di-
bat d’idée, car le jugement rendu par manche et dont Business & Decision
l’Union Européenne à l’encontre du était co-sponsor, Philippe Oddo de la
géant Google en juin 2014 est sym- Banque éponyme a déclaré en guise
bolique d’un malaise profond dans d’introduction : “le Big data c’est sur-
une société où une minorité d’utilisa- tout la collecte et le traitement de
teurs très agissante, lance un débat l’information pour anticiper au mieux
démocratique qu’il n’est pas question ce qui va se passer dans tous les sec-
ici d’éluder, ni même de remettre en teurs et particulièrement dans celui de
cause. L’avènement des Big Data est l’analyse financière”. Avec une pareille
bel et bien une nouvelle donne éco- entrée en matière, il n’y a pas de doute
nomique, même si elle ne vient pas possible … les Big Data sont l’avenir de
bousculer tout sur son passage non la high tech mais aussi de beaucoup
plus. Et cette nouveauté ne vient de secteurs plus traditionnels. Le fait
que renforcer les devoirs moraux et que l’assertion vienne d’un homme du
d’éthique des entreprises, dont l’en- métier est un signal fort.
gagement citoyen devient aujourd’hui
une obligation à défaut d’être un Côté face : le débat sur la vie
choix. privée

En quelque sorte, les débats qui sur- Ce sujet est véritablement au cœur
gissent aujourd’hui autour des Big de l’économie (notamment dans la
Data sont très similaires à ceux qui ont « Presse qui possède énormément
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Big Data ou Big Brother ? - p.35

de données » selon Denis Olivennes), Les Big Data peuvent


mais elle est au cœur des débats sur en elles-mêmes porter
la « vie privée ». Et d’ajouter que dans la réponse au problème
le cadre de l’Open Internet Project 31 , de la confidentialité
une présentation effrayante a été
faire par Laurent Alexandre (chirur- Si le problème de la confidentialité
gien fondateur de Doctissimo)  sur des données privées n’est pas né
le projet totalitaire des acteurs do- avec les Big Data, force est de consta-
minants des technologies de l’infor- ter par contre que celles-ci l’ont exa-
mation, avec un coup de projecteur cerbé.
assez fort sur Google.
Mais si d’aucuns peuvent en effet
Un air de déjà vu penser que le danger des Big Data
peut être induit par la technologie,
Cette approche par les deux ex- cette dernière, bien utilisée, peut
trêmes des technologies n’est pas aussi apporter une réponse à ce
nouvelle et réapparaît à chaque in- problème de confidentialité.
novation, dans la High Tech et même
au-delà. Le premier exemple connu Le Réseau Tor, par exemple, « pro-
étant, au Royaume Uni, celui des pose un  navigateur qui permet de
Luddites du 19e siècle, au moment de brouiller les données » ; aujourd’hui
l’introduction des métiers à tisser. cela est assimilable à un travail de pi-
rate a-t-il précisé, « mais demain il y
Tout nouveau saut technologique, aura aussi un marché pour cela ». 
aussi petit soit-il, génère avec lui son
lot de techno-scientisme et, en même La régulation est peut être dépassée
temps et à l’opposé, une opposition en bien par la technologie et les en-
acharnée et irrationnelle la plupart trepreneurs. Peut-être que demain on
du temps. paiera pour protéger ses données.

Il est hors de question cependant, de Le salut n’est peut-être pas en


tenter de faire abstraction des ques- effet à venir de l’Etat, incapable
tions d’éthique, bien au contraire. de réglementer des outils avec un
C’est même l’entreprise qui doit attirail juridique trop lent et trop
prendre les devants en matière rigide pour s’adapter à la mouvance
d’éthique pour lever les ambiguïtés des technologies de l’information.
qui pourraient se faire jour dans l’es-
prit de leurs utilisateurs et encore
plus de leurs détracteurs.

The Open Internet Project (Site et association manifeste anti Google)

31
Article du JDD paru le 8 février 2014 : http://www.
lejdd.fr/Economie/Entreprises/Laurent-Alexandre-La-
strategie-secrete-de-Google-apparait-652106
du Big Data au Big Business - LIVRE 1 SOMMAIRE
 Big Data ou Big Brother ? - p.36

Il n’y a pas d’équivalence entre Du point de vue de l’annonceur, ce


espionnage et Big Data débat n’est pas neutre non plus et
doit forcer les entreprises à prendre
Enfin et surtout, dans l’esprit du position en matière d’éthique de
grand public et dans les critiques, manière évidente et si possible anti-
souvent hâtives, faites des Big Data, il cipée. Avant tout, il y a une barrière
y a ce raccourci abusif entre Big Data, nette à dresser entre exploitation
Big Brother et les grands réseaux anonyme et statistique des données
sociaux… sans parler de la NSA 32 . (même à titre de recommandation
personnalisée) et espionnage de la
Il convient de différencier l’usage des vie privée. En fin de compte, la diffé-
Big Data faits par ces acteurs et les rence entre les deux n’est pas tech-
objectifs des entreprises qui veulent nique mais humaine et éthique, et la
utiliser les Big Data pour optimiser réponse à ce problème se doit elle
leurs ventes et leurs résultats dans aussi d’être humaine et éthique 34 .
le respect de leurs clients. C’est ce
dernier segment qui est l’immense Il n’y a pas, en matière de Big Data,
majorité des utilisateurs des Big Data de chemin médian : soit l’annonceur
et c’est bien à celui-ci que nous nous pratique les Big Data de manière
intéressons ici et dans nos travaux éthique, soit il pratique l’intrusion et
quotidiens. le spam et il outrepasse ses droits  ;
avec les conséquences qu’on imagine
Par ailleurs, nous sommes confron- sur sa réputation si la démarche en
tés à un double paradoxe au- vient à être dévoilé et publiquement
jourd’hui  : d’une part la volonté de critiquée.
l’utilisateur qui désire des informa-
tions pertinentes et personnalisées Mais tout compte fait, et une fois ce
mais en même temps, qui ne veut problème d’éthique résolu sans am-
pas être surveillé. La preuve en est biguïté par les annonceurs, il est clair
que les consommateurs, depuis déjà que l’amélioration de l’expérience
quelque temps, considèrent comme client passe par une connaissance
spam tous les messages qui lui dé- client plus intime ; en fin de compte,
plaisent. toutes les entreprises se mettront un
jour au Big Data.
D’autre part, on observe que les
utilisateurs ont aussi le désir de
préserver leur vie privée et en même
temps de la dévoiler largement sur
les réseaux sociaux. C’est même ce
phénomène là qui a amené Mark
Zuckerberg à s’exprimer sur la fin
de la vie privée, sans doute un peu
hâtivement 33 .

32 Google dans le cadre de ses actions pour le droit


Ces débats sont déjà largement traités dans la sphère
publique et sont avant tout affaire d’opinion. Il ne à l’oubli. Celui-ci déchaînant également les passions,
convient donc pas que nous les traitions ici. A savoir dans les deux sens. Ces sujets sont évoqués ici mais
également, que l’union européenne a déjà pris des n’y seront pas abordés dans les détails.
dispositions contre les géants du Web et notamment
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Comment passer des Big Data au Big Busine$$ - p.37

Chapitre 07
Comment passer des Big Data
au Big Busine$$

Que retenir des Big Data ? aliser si les données sont stockées
dans certains formats décentralisés.
En conclusion, que faut-il retenir des L’utilisation de ces formats interdit
Big Data  ? Certainement qu’avant donc certains types d’exploitation.
toute chose, il convient de com-
prendre ce que c’est, qu’il ne faut Sans évoquer les cas extrêmes, cer-
pas conclure hâtivement et péremp- tains traitements Big Data prennent
toirement que rien n’a changé, ni au du temps, un temps qui augmente
contraire que rien n’est plus comme souvent exponentiellement avec le
avant. La réalité est tout autre. volume des données.

Avant toute chose, il faut définitive- Pour obtenir des temps de réponse
ment se départir de certains mythes : acceptables, on devra donc souvent
tout vouloir analyser en Big Data est faire un compromis entre la quantité
purement utopique. De la même fa- de données prises en compte et le
çon, l’idée qu’il faut tout stocker dans temps dont on dispose pour le trai-
le but « d’en faire quelque chose un tement. Le fait de maintenir certains
jour » est tout autant fantaisiste. calculs intermédiaires à jour dans
des entrepôts de données orientés
D’abord, stocker des données inutiles « métier » peut aussi considérable-
coûte cher, en Big Data encore plus ment aider à écarter ce problème et
que dans des projets plus tradition- à réduire les temps de calcul à des
nels de Business Intelligence. Mais niveaux acceptables.
surtout, le stockage doit être pensé
dès le départ, en vue des traitements Si on est capable d’intégrer tous ces
à effectuer. Comme nous l’avons vu points il sera possible de passer du
précédemment, il existe des traite- Big Data au « Big Business ».
ments statistiques impossibles à ré-

33 34
Cf. http://bit.ly/privateZuck pour son intervention sur le Cf. la charte d’éthique du groupe Orange, clairement
sujet fin 2009. La phrase avait fait beaucoup réagir sur orientée en ce sens : http://oran.ge/SMYku4
les médias sociaux comme ailleurs, forçant Facebook
à donner des preuves de respect des données privées
à plusieurs reprises … sans bien convaincre personne
au final.
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Comment passer des Big Data au Big Busine$$ - p.38

Les 10 points clés 4. C


 ’est un phénomène majeur,
aussi important que le CRM
Alors quels sont les 10 points à rete- en son temps
nir si vous voulez réussir vos projets
de Big Data ? La quasi totalité des détracteurs des
Big Data vous diront tout de go qu’il
1. L
 ’objectif de départ ne s’agit pas de quelque chose de
est important nouveau, mais plutôt d’un épiphéno-
mène, d’une mode passagère qui dis-
Si votre objectif n’est pas clair, vous paraîtra comme elle est venue. C’est
risquez non seulement de vous trom- mal comprendre l’histoire et le mar-
per d’outils mais également de péna- keting des technologies, car les Big
liser votre projet en termes de temps Data trouvent leurs racines dans de
passé et de ressources consommées. nombreuses années d’efforts et de
Concentrez-vous sur la maturation tâtonnements (marketing, financiers,
du cas d’usage et l’identification des managériaux) qui finissent par don-
données plutôt que d’investir dans ner leurs fruits aujourd’hui du fait du
une infrastructure technique. Utili- développement des technologies et
sez des plateformes prêtes à l’emploi de leurs usages (infrastructures, logi-
externalisées en attendant. ciels, généralisation des usages, pré-
dominance du Web sociale et omni-
2. La notion d’incertitude présence des réseaux). Tout ceci fait
que les questions fondamentales
Une des évolutions les plus significa- des métiers trouvent enfin réponse
tives des Big Data par rapport au tra- après 15 à 20 ans de travaux et d’es-
vail plus traditionnel sur les données sais-erreurs. C’est un signe qui ne
est le management de l’incertitude. trompe pas, celui de l’arrivée à matu-
Ceci ne veut pas dire que rien n’est rité et de la convergence des moyens
planifié ni que les projets de Big Data qui rendront possibles de nouvelles
se lancent sans préparation, bien au avancées spectaculaires.
contraire. Cela veut dire cependant –
et c’est particulièrement vrai en mar- 5. L
 ’impact des Big Data sur les
keting – que le projet de Big Data doit organisations est significatif
prendre en compte cette incertitude
dès sa conception, et fonctionner sur Non seulement car de nouveaux mé-
un modèle itératif avec possiblement tiers sont apparus, pour lesquels, les
de l’auto apprentissage. formations sont encore largement à
créer. Mais également car les orga-
3. L
 e Big Data nisations «  métier  » des entreprises
est multi compétences sont fortement refondées  : savoirs,
approches, décisions et méthodes
Les Big Data ne sont pas affaire de ro- sont profondément bouleversés.
bots. Elles sont avant tout le résultat Nous ne ferons plus de marketing,
du croisement de l’automatisation et pour prendre cet exemple, comme
de la technologie et de l’intelligence nous en faisons aujourd’hui, même si
humaine. Pour qu’elles fonctionnent ce changement va prendre quelques
bien et fournissent des résultats à la années. Si vous faites partie d’une or-
hauteur des espérances, elles néces- ganisation métier, commencez-donc
sitent de nouveaux profils, au croi- dès à présent à vous intéresser à la
sement de différentes disciplines  : donnée car votre métier va être bou-
informatique, bases de données, leversé.
statistiques, intelligence artificielle et
enfin et surtout, les connaissances
métier (marketing, finance, logis-
tique, etc.).
du Big Data au Big Business - LIVRE 1 SOMMAIRE
Comment passer des Big Data au Big Busine$$ - p.39

6. O
 n peut faire des Big Data dès Nous l’avons évoqué dans ce livre
maintenant car les technologies blanc, un projet Big Data a ses spé-
sont disponibles cificités. Au delà de l’approche tech-
nique, il induit des méthodologies
Les Big Data ne sont pas non plus particulières, un cadre juridique
une prévision, elles sont déjà dis- adapté et un bonne mesure des im-
ponibles, ici et maintenant, même pacts sociaux.
si leur paysage évolue à grande vi-
tesse. Bon nombre des technologies Un apprentissage sera donc néces-
utilisées dans le cadre des Big Data saire  ; il ne s’agit d’ailleurs pas d’un
ont en effet été inventées et popula- savoir fini, les Big Data sont en re-
risées par les géants du Web (Google configuration constante.
et Yahoo! font partie des pionniers)
et sont désormais mises à disposi- 9. L
 es Big Data sont incontour-
tion de tous ceux qui sont capables nables, et toutes les entreprises
de les mettre en œuvre. en feront, comme l’Internet

7. L
 a donnée est probablement Les véritables innovations suivent
la matière première la moins toujours un schéma d’adoption à peu
connue et la moins comprise près similaire, fort bien décrit par
Geoffrey Moore dans « Crossing the
La distinction entre système d’infor- Chasm », son best seller des années
mation (l’ensemble des processus et 90. Les Big Data en sont à un point
des organisations entre les données, d’inflexion qui fait que leur adoption
leur naissance, leur vie, leur traitement se généralise et sort du cercle fermé
et leur archivage) et système infor- des géants du Web et des médias
matique (la mécanique matérielle et sociaux qui les ont inventées. Il est
surtout logicielle qui permet de faire désormais possible d’appliquer ces
tourner l’ensemble et de traiter la don- techniques et ces approches aux
née) est un grand classique. La don- entreprises faisant partie des sec-
née est encore aujourd’hui un espace teurs plus traditionnels. Nous n’en
largement méconnu des responsables sommes qu’au tout début.
«  métier  » qui considèrent encore les
systèmes informatiques comme des 10. L
 es Big Data ne se limitent pas
formules magiques capables de trans- au temps reel
former le business sans effort.
Même si Hadoop est une grande in-
Or, la donnée est capricieuse, et elle novation, les Big Data ne se limitent
requiert beaucoup de travail. Son im- pas à Hadoop et encore moins au
portance croissante dans une socié- temps réel. Certains de ces usages
té où l’informatisation est omnipré- sont en effet adaptés à de grands
sente, dans tous les secteurs, force à volumes de données et nécessitent,
changer la perception de cette don- selon les cas, des traitements dépor-
née par l’utilisateur. Beaucoup reste tés. C’est la bonne combinaison des
encore à faire pour que ce change- différentes approches et techniques
ment soit totalement abouti. qui fera la qualité et le résultat d’un
projet de Big Data.
8. Un projet Big Data se gère
différemment C’est en intégrant ces différents
points qui font les spécificités des
Les Big Data ne sont pas une mode vraies Big Data, que les entreprises
ni le simple changement de nom de demain pourront passer des Big
du datamining. Elles ont leur voca- Data au Big Business.
bulaire, leurs professionnels, leurs
méthodes, leurs algorithmes, et leurs
approches projets spécifiques.
SOMMAIRE

Ont contribué à ce livre blanc :


Patrick Bensabat, Didier Gaultier,
Michael Hoarau, Bruno Laug
et Yann Gourvenec

Pour en savoir plus, nous vous


conseillons de vous rendre sur notre
blog expert des Big Data :

blog.businessdecision.com

Das könnte Ihnen auch gefallen