Sie sind auf Seite 1von 13

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/279848651

Rapport sur le Big Data

Technical Report · July 2015


DOI: 10.13140/RG.2.1.3076.2081

CITATIONS READS

0 5,208

1 author:

Amrane Abdesalam
Research Center on Scientific and Technical Information
6 PUBLICATIONS   1 CITATION   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Building Big Data Platform for Prediction View project

Tensor analysis on manifolds for 2D/3D Face Recognition and Kinship verification in the Wild. View project

All content following this page was uploaded by Amrane Abdesalam on 07 July 2015.

The user has requested enhancement of the downloaded file.


Rapport
Big Data
Concepts et Cas d’utilisation

AMRANE Abdesalam

CERIST 2015
Sommaire
1. Introduction ..................................................................................................................................... 3
1.1. Origine du Big Data.................................................................................................................. 3
1.2. Définitions ............................................................................................................................... 3
1.3. Contexte du Big Data ............................................................................................................... 4
2. Cas d’usage du Big Data .................................................................................................................. 4
2.1. Transports................................................................................................................................ 4
2.2. Santé ........................................................................................................................................ 5
2.3. Economie ................................................................................................................................. 6
2.4. Recherche ................................................................................................................................ 6
3. Techniques d’analyse de données................................................................................................... 6
4. Big Data et Cloud ............................................................................................................................. 7
5. Big Data et Recherche d’Information .............................................................................................. 8
6. Mise en oeuvre du Big Data ............................................................................................................ 9
6.1. Introduction ............................................................................................................................. 9
6.2. Hadoop .................................................................................................................................... 9
6.3. Distributions de Hadoop ....................................................................................................... 10
7. Conclusion ..................................................................................................................................... 11
Bibliographie.......................................................................................................................................... 12
1. Introduction

1.1. Origine du Big Data

Le Big Data est un phénomène qui a vu le jour avec l’émergence de données


volumineuses qu’on ne pouvait pas traiter avec des techniques traditionnelles. Les premiers
projets de Big Data sont ceux des acteurs de la recherche d’information sur le web « moteurs
de recherche » tel que Google et Yahoo. En effet, ces acteurs étaient confrontés aux
problèmes de la scalabilité (passage à l'échelle) des systèmes et du temps de réponse aux
requêtes utilisateurs.

Très rapidement, d’autres sociétés ont suivis le même chemin comme Amazon et Facebook.
Le Big Data est devenu une tendance incontournable pour beaucoup d’acteurs industriels du
fait de l’apport qu’il offre en qualité de stockage, traitement et d’analyse de données.

1.2. Définitions

Plusieurs définitions ont été données pour décrire le Big Data mais elles sont similaires et
renferment les mêmes concepts. Nous citons les principales qui sont :
- Gartner : Big Data is high volume, high velocity, and/or high variety information
assets that require new forms of processing to enable enhanced decision making,
insight discovery and process optimization [Beyer, 2012].
- Library of Congress : The definition of Big Data is very fluid, as it is a moving
target - what can be easily manipulated with common tools - and specific to the
organization: what can be managed and stewarded by any one institution in its
infrastructure. One researcher or organization’s concept of a large data set is small to
another [Johnston, 2011].

Le Big Data (données massives) se caractérise par la problématique des 3V qui sont le
Volume, la Variété et la Vélocité, certains auteurs ont rajoutés d’autres V comme la Valeur.
- Volume : désigne la masse de données collectées (giga-octets, téraoctets, …),
- Variété : désigne l'origine variée des sources de données qui sont soit structurées ou
non structurées (images, mails, tweets, données de géo-localisation,…),
- Vélocité : désigne la vitesse à laquelle les données sont traitées simultanément.
Ces caractéristiques sont aussi désignées par le concept de dimension. Certains experts
considèrent qu’à partir du moment où l’on est en présence de l’une des variables, on se
trouve dans un contexte Big Data1.

1.3. Contexte du Big Data

On peut parler de « Big Data » dés lors que2 :


- Les volumes à traiter atteignent des tailles « plus grandes » que les problèmes
courants : Peta (web), Terra, Exa, Zettaoctets, …
- Le problème ne peut pas être traité par les outils existants : SGBD relationnels,
moteurs de recherche, …

2. Cas d’usage du Big Data


Le Big Data couvre de nombreux domaines d’applications telles que l’industrie, la
distribution, les banques, l’assurance, le transport, loisirs et le télécom. Des exemples sont
cités ci-dessous:

2.1. Transports
- Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..)
afin de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à
un autre,
- Planification des voyages : mise à disposition du citoyen de données jusque là
réservées aux administrations (gagner du temps / réduire le coût),
- Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles
Technologies de l'Information et de la Communication) destinées au domaine des
transports. Parmi les thématiques d’actualité exposé durant le 20ème congrès mondial
des Systèmes de Transport Intelligents3 nous citons comme exemple: les véhicules
autonomes, les véhicules coopératifs et les systèmes de positionnement par satellite.

1
http://www.data-business.fr/wp-content/Downloads/LivresBlancs/Big-data-avis-dexperts.pdf
2
http://www.gfii.fr/uploads/docs/BigData_synth%C3%A8seVF.pdf
3
http://www.theissue.eu/upload/Media/Newsletter_7_FR/france-tokyo.pdf
Un exemple d’utilisation du Big Data pour la visualisation des données de transport en
temps réel, y compris les autobus, les voitures, les trains, vélos et avions de la ville de
Londres.

2.2. Santé
- Exploitation des données à des fins d’études épidémiologiques, un cas d’utilisation
est l’exemple du site « Openhelth.fr » qui affiche en temps réel des informations sur
la santé des Français et des cartes en rapport (épidémies, allergies…),

- Exploitation des données stockées depuis des années, jamais exploitées, qui
permettraient de comprendre des liens de cause à effet « legacy data »,
- Suivi des patients (dossier médical du patient).

2.3. Economie
- Connaissance des clients, actions personnalisées et ciblées, amélioration de la
satisfaction,
- Accélération des temps d’analyse des données clients pour l’identification des
comportements atypiques,
- Ciblage marketing (ex. micro segmentation).
- Analyse prédictive de l’acte d’achat.

2.4. Recherche
En TALN, deux approches coexistent : les technologies « speech-to-text » (transcription automatique de
discours livrés sous forme orale) et les technologies de « machine translation » (traduction automatique de
discours écrits) [GFII, 2012].
Dans le domaine de l’Image Processing (traitement automatique de l’image), deux secteurs émergent :
l’indexation automatique de flux d’images et de fichiers vidéo, de la reconnaissance faciale et de la
reconnaissance d’objets [GFII, 2012].

3. Techniques d’analyse de données


Les méthodes d'analyse des données pour le Big Data sont de trois types principaux :

- Les méthodes descriptives visent à mettre en évidence des informations présentes


mais cachées par le volume des données [Tuffery, 2014]. Parmi les techniques et
algorithmes utilisés dans l'analyse descriptive, on cite :
o Analyse factorielle (ACP et ACM)
o Méthode des centres mobiles
o Classification hiérarchique
o Classification neuronale
o Recherche d'association
- Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des
informations présentes [Tuffery, 2014]. Cette technique fait appels à de l'intelligence
artificielle, les principales méthodes sont :
o Arbres de décision
o Réseaux de neurones
o Classification bayésienne
o Support Vector Machine (SVM)
o K-plus proches voisins (KNN)

- Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus
optimales à prendre pour arriver à la situation voulue [Gaultier, 2015].

4. Big Data et Cloud


Le Big Data et le Cloud Computing sont deux révolutions technologiques de cette
décennie. Le Big Data propose des solutions de traitement des données massives alors que le
Cloud offre des services de dématérialisation des ressources informatiques comme le SaaS
(Software as a Service), PaaS (Platform as a Service), IaaS (Infrastructure as a Service) et
dernièrement DaaS (Data as a Service).

La relation entre Big Data et Cloud peut s’articuler sur l’utilisation conjointe de ces deux
technologies. Est ce que c’est vraiment nécessaire d’avoir une infrastructure Cloud pour faire
fonctionner une plateforme Big Data ? Si oui est ce que les solutions Big Data fonctionneront
sur le Cloud ?

On peut facilement faire du Big Data sans Cloud. Dans les travaux de Radu Tudoran
[Tudoran, 2014] il donne une réponse à notre question par : « Un aspect particulier complexe
et difficile de la gestion des données pour les applications Big Data est la manipulation des
données à travers de vastes zones et / ou à travers les data centers. Il présente aussi les
principales raisons pour lesquelles les applications ont besoin de distribuer géographiquement
le calcul sur le Cloud, qui sont les suivantes :

- La taille des données peut être si grande que les données doivent être stockées sur
plusieurs data centers.
- Les sources de données peuvent être distribuées physiquement dans des lieux
géographiques larges.
- La nature de l'analyse, ce qui nécessite l'agrégation des flux de données à partir des
instances d'applications distantes pour un nombre croissant de services. Services à
grande échelle, comme les moteurs de recherche ou des outils de bureau en ligne
fonctionnent sur des dizaines de data centers partout dans le monde.
Le Big Data et le Cloud doivent être deux à deux complémentaires. Le Big Data doit être
intégré dans les technologies du Cloud. C’est un objectif qui pose de nouveaux défis aux
chercheurs.

5. Big Data et Recherche d’Information


Le Big Data pose des défis pour l'analyse de texte et le traitement du langage naturel en
raison de ses caractéristiques de volume, la véracité, et la vitesse des données. Le volume en
termes de nombre de documents défie les systèmes de stockage locaux et d'indexation
traditionnels pour l’analyse et l’extraction de connaissances à grande échelle. Le calcul, le
stockage et la représentation de données doivent fonctionner ensemble pour fournir un accès
rapide, la recherche, l'extraction de la connaissance à partir de grandes collections de textes
[Plale, 2013]

La recherche d’information fait partie des domaines d’application du Big Data, en


l’occurrence l’analyse de données. Dans les travaux de Mavaluru [Mavaluru, 2014] décrit les
fonctions clés d’une plateforme d’analyse de données en recherche d’information pour traiter
les données : les critères d'évaluation de la plate-forme peuvent inclure la disponibilité, la
continuité, la facilité d'utilisation, l'évolutivité, la vie privée et sécurité, et l'assurance de la
qualité.

La plate-forme la plus importante pour l’analyse de données en RI est la plate-forme de


traitement de données open-source distribué Hadoop (plate-forme Apache), qui appartient à la
classe des technologies NoSQL (Not only SQL : famille des bases de données non
relationnelle).

Les bases de données NoSQL les plus connus sont regroupées en quatre catégories :

- Les bases de données clé-valeur (ex : Riak, Redis, Voldemort),


- Les bases de données orientées document (ex : CouchDB, MongoDB),
- Les bases de données orientées colonnes (ex : HBase et Cassanda),
- Les bases de données orientées graphe (ex : Neo4j, HypergraphDB et FlockDB).

D’autres outils seront détaillés dans la section suivante.


6. Mise en oeuvre du Big Data
6.1. Introduction
La mise en œuvre d’un projet Big Data nécessite le choix d’une méthode de stockage,
d’une technologie d’exploitation et des outils d’analyse de données. Pour optimiser les temps
de traitement sur des bases de données volumineuses, une panoplie de solutions existe,
certains sont en open-source et d’autres sont propriétaires. Nous allons décrire certaines de
ces solutions :

6.2. Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs
composants (HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents
composants du Framework :

- HDFS (Hadoop Distributed File System) système de fichiers distribués sur un


ensemble de nœud (serveurs). C’est un système tolérant aux fautes (malgré les pannes
il continue à fonctionner correctement).
- MapReduce, une technologie qui permet la parallélisation des traitements et qui
s’effectue en deux phases, la phase Map consiste en la division des traitements en
sous-ensembles et exécution en parallèle par chaque France, la phase Reduce se
charge de collectée les réponses des nœuds et les assemblent pour constitué le
résultat.

- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour
interagir avec un cluster hadoop, dans le but réaliser des analyses sur une masse
importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les
grandes tables. Hbase est une base de données orientée colonnes, elle fait partie des
BD NoSQL (Not only SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme
Hadoop MapReduce, Il fournit les opérations de filtrage, jointure et classement des
données (conçu spécialement pour l’analyse de données).

6.3. Distributions de Hadoop

Hadoop est notamment distribuée par quatre acteurs qui proposent des services de
formation et un support commercial, mais également des fonctions supplémentaires4 :
 Cloudera2 : Première distribution historique d’Hadoop intégrant les packages
classiques et certains développements propriétaires comme Impala (en). Service de
formation et de support. À l’origine du Projet Impala. Pas présent en France en 2013.
 Hortonworks : Est une société qui développe, distribue et effectue le support d’une
distribution open source d’Apache Hadoop.
 MapR Technologies : MapR a développé un système de fichier pour Hadoop palliant
les limites du HDFS. MapR a également développé des technologies permettant la

4
http://fr.wikipedia.org/wiki/Hadoop
suppression du name node qui est un point de contentions dans l’architecture Hadoop.
Un cluster Hadoop MapR est donc hautement disponible et permet également d’être
intégré dans les politiques de sauvegarde des données des entreprises. Un cluster
MapR est vu sur le réseau des clients comme un NAS partageant les données en NFS
avec des droits POSIX. À l’origine du projet Drill. Ouverture des activités
européennes en janvier 2013. Bureau Français depuis mars 2013.
 IBM BigInsights for Hadoop : 100% open source Apache Hadoop, qui propose des
extensions analytiques et d’intégration dans le SI d’entreprise. Disponible en France
depuis 2010.

7. Conclusion
A ce stade on peut dire que le Big Data est un écosystème large et complexe. Il
nécessite la maitrise des technologies matérielles et logicielles diverses (stockage,
parallélisation des traitements, virtualisation, …). Le Big Data demande de la compétence et
de l’expertise dans la maitrise et l’analyse des données.

Les usages du Big Data sont très vastes qui touchent presque tous les secteurs d’activités
(marketing, recherche, visualisation, …). Dans le domaine du transport, nous citons comme
exemple le forum international du transport5 traite la problématique « Données massives dans
les transports : applications, implications et limites », ils essayent de répondre à certaines
questions relatives à l’utilisation du Big Data par les gouvernements dans le domaine du
transport urbain.

5
http://2014.internationaltransportforum.org/fr/big-data
Bibliographie
[Beyer, 2012] M. A. Beyer and D. Laney, « The importance of big data: A
definition», Stamford, CT: Gartner, 2012.
[Gaultier, 2015] D. Gaultier, « Data Science & Big Data – Etat de l’art », 2015.
[GFII, 2012] Groupement Français de l’Industrie de l’Information, « Dossier de
synthèse de la journée d’étude du GFII », Maison de l’Europe, Paris,
2012.
[Johnston, 2011] L. Johnston, « Data is the New Black », Library of Congress, 2011.
[Mavaluru, 2014] D. Mavaluru, R. Shriram, V. Sugumaran, « Big Data Analytics in
Information Retrieval: Promise and Potential », Proceedings of 0 8 th
IRF International Conference, 05 th July – 2014.
[Plale, 2013] B. Plale, « Big data opportunities and challenges for IR, text mining
and NLP », In Proceedings of the 2013 international workshop on
Mining unstructured big data using natural language processing
ACM, New York, NY, USA, 2013.
[Tudoran, 2014] R. Tudoran, « High-Performance Big Data Management Across
Cloud Data Centers », Computer science. ENS Rennes, 2014.
[Tuffery, 2014] S. Tuffery, « Cours de Data Mining », université de Rennes 1, 2014.

View publication stats

Das könnte Ihnen auch gefallen