Exploration de Données - Wikipédia

16/04/2020 Exploration de données — Wikipédia
Exploration de données
notes 1
L’exploration de données , connue aussi sous l'expression de fouille de données, forage
de données, prospection de données, data mining, ou encore extraction de
connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à
partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.
Elle se propose d'utiliser un ensemble d'algorithmes issus de disciplines scientifiques diverses telles
que les statistiques, l'intelligence artificielle ou l'informatique, pour construire des modèles à partir
des données, c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au
préalable, et d'en extraire un maximum de connaissances.
L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de

résoudre des problèmes très divers, allant de la gestion de la relation client à la maintenance
préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web. C'est aussi le
1
mode de travail du journalisme de données .
2
L'exploration de données fait suite, dans l'escalade de l'exploitation des données de l'entreprise, à
l'informatique décisionnelle. Celle-ci permet de constater un fait, tel que le chiffre d'affaires, et de
l'expliquer comme le chiffre d'affaires décliné par produits, tandis que l'exploration de données
notes 2
permet de classer les faits et de les prévoir dans une certaine mesure ou encore de les éclairer
en révélant par exemple les variables ou paramètres qui pourraient faire comprendre pourquoi le
chiffre d'affaires de tel point de vente est supérieur à celui de tel autre.
https://fr.wikipedia.org/wiki/Exploration_de_données 1/25
Sommaire
Histoire
Applications industrielles
Par objectifs
Par secteurs d'activités
Recherche et groupes de réflexion
Projets, méthodes et processus
Méthode CRISP-DM
D'autres méthodes
SEMMA
Six Sigma (DMAIC)
Maladresses à éviter
Planifier
Algorithmes
Méthodes descriptives
Définition
Exemples
Méthodes prédictives
Définition
Exemples
Qualité et performance
Outils informatiques
Logiciels
Informatique en nuage
Limites et problèmes
Limites
Problèmes
Fouilles spécialisées
Par types de données
Par environnements techniques
Par domaines d'activités
Dans le futur
Notes et références
Notes
Ouvrages spécialisés
Autres références
Voir aussi
Articles connexes
Statistiques
Intelligence artificielle
Aide à la décision
Applications
Bibliographie
Histoire
La génération de modèles à partir d'un grand nombre de données
n'est pas un phénomène récent. Pour qu'il y ait création de
modèle il faut qu'il y ait collecte de données. En Chine on prête à
l'Empereur mythique Yao, la volonté de recenser les récoltes en
3
2238 av. J.-C. ; en Égypte le pharaon Amasis organise le
3
recensement de sa population au Ve siècle av. J.-C. Ce n'est qu'au
e
XVII siècle qu'on commence à vouloir analyser les données pour
en rechercher des caractéristiques communes. En 1662, John
Graunt publie son livre « Natural and Political Observations
Made upon the Bills of Mortality » dans lequel il analyse la Collecter les données, les analyser
mortalité à Londres et essaie de prévoir les apparitions de la et les présenter au client.
peste bubonique. En 1763, Thomas Bayes montre qu'on peut
déterminer, non seulement des probabilités à partir des
observations issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. Présenté
dans le cas particulier d'une loi binomiale, ce résultat est étendu indépendamment par Laplace,
conduisant à une formulation générale du théorème de Bayes. Legendre publie en 1805 un essai sur
la méthode des moindres carrés qui permet de comparer un ensemble de données à un modèle
mathématique. Les calculs manuels coûteux ne permettent cependant pas d'utiliser ces méthodes
hors d'un petit nombre de cas simples et éclairants.
De 1919 à 1925, Ronald Fisher met au point l'analyse de la variance comme outil pour son projet
d'inférence statistique médicale. Les années 1950 voient l'apparition de calculateurs encore onéreux
et des techniques de calcul par lots sur ces machines. Simultanément, des méthodes et des techniques
voient le jour telles que la segmentation, classification (entre autres par la méthode des nuées
dynamiques), une première version des futurs réseaux de neurones qui se nomme le Perceptron, et
quelques algorithmes auto-évolutifs qui se nommeront plus tard génétiques. Dans les années 1960
arrivent les arbres de décision et la méthode des centres mobiles; ces techniques permettent aux
chercheurs d'exploiter et de découvrir des modèles de plus en plus précis. En France, Jean-Paul
Benzécri développe l'analyse des correspondances en 1962. On reste cependant dans une optique de
traitement par lots.
4
En 1969 paraît l'ouvrage de Myron Tribus Rational descriptions, decisions and designs qui
généralise les méthodes bayésiennes dans le cadre du calcul automatique (professeur à Dartmouth, il
utilise assez logiquement le langage BASIC, qui y a été créé quelques années plus tôt, et son
interactivité). La traduction en français devient disponible en 1973 sous le nom Décisions rationnelles
dans l'incertain. Une idée importante de l'ouvrage est la mention du théorème de Cox-Jaynes
démontrant que toute acquisition d'un modèle soit se fait selon les règles de Bayes (à un
homomorphisme près), soit conduit à des incohérences. Une autre est que parmi toutes les
distributions de probabilité satisfaisant aux observations (leur nombre est infini), il faut choisir celle
qui contient le moins d'arbitraire (donc le moins d'information ajoutée, et en conséquence celle
notes 3
d'entropie maximale . La probabilité s'y voit considérée comme simple traduction numérique
d'un état de connaissance, sans connotation fréquentiste sous-jacente. Enfin, cet ouvrage popularise
la notation des probabilités en décibels, qui rend la règle de Bayes additive et permet de quantifier de
façon unique l'apport d'une observation en la rendant désormais indépendante des diverses
estimations a priori préalables (voir Inférence bayésienne).
L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes

bayésiennes sans grever les coûts. Cela stimule la recherche et les analyses bayésiennes se
généralisent, d'autant que Tribus a démontré leur convergence, au fur et à mesure des observations,
vers les résultats des statistiques classique tout en permettant d'affiner les connaissances au fil de
l'eau sans nécessiter les mêmes délais d'acquisition (voir aussi Plan d'expérience).
L'affranchissement du protocole statistique classique commence alors : il n'est plus nécessaire de se

fixer une hypothèse et de la vérifier ou non a posteriori. Au contraire, les estimations bayésiennes
vont construire elles-mêmes ces hypothèses au fur et à mesure que s'accumulent les observations.
L'expression « data mining » avait une connotation péjorative au début des années 1960, exprimant
le mépris des statisticiens pour les démarches de recherche de corrélation sans hypothèses de
départ [réf. nécessaire]. Elle tombe dans l'oubli, puis Rakesh Agrawal l'emploie à nouveau dans les
années 1980 lorsqu'il entamait ses recherches sur des bases de données d'un volume de 1 Mo. Le
concept d'exploration de données fait son apparition, d'après Pal et Jain, aux conférences de l'IJCAI
5
en 1989 . Gregory Piatetsky-Shapiro chercha un nom pour ce nouveau concept dans la fin des années
1980, aux GTE Laboratories. « Data mining » étant sous la protection d'un copyright, il employa
6
l'expression « Knowledge discovery in data bases » (KDD) .
Puis, dans les années 1990, viennent les techniques d'apprentissage automatique telles que les
b1
SVM en 1998, qui complètent les outils de l'analyste.
Au début du XXIe siècle, une entreprise comme Amazon.com se sert de tous ces outils pour proposer à
7, 8
ses clients des produits susceptibles de les intéresser .
Applications industrielles
Par objectifs
De nos jours, les techniques d'exploration de données peuvent

être utilisées dans des domaines complètement différents avec
des objectifs bien spécifiques. Les sociétés de vente par
correspondance analysent, avec cette technique, le
comportement des consommateurs pour dégager des similarités
de comportement, accorder des cartes de fidélité, ou établir des
listes de produits à proposer en vente additionnelle (vente
croisée).
Un publipostage (mailing) servant à la prospection de nouveaux

clients possède un taux de réponses de 10 % en moyenne. Les
entreprises de marketing utilisent la fouille de données pour
Un exemple de ce qu'on peut faire
réduire le coût d'acquisition d'un nouveau client en classant les
avec le logiciel R : ici un
prospects selon des critères leur permettant d'augmenter les taux
9 corrélogramme.
de réponses aux questionnaires envoyés.
Ces mêmes entreprises, mais d'autres aussi comme les banques,

les opérateurs de téléphonie mobile ou les assureurs, cherchent grâce à l'exploration de données à
minimiser l’attrition (ou churn) de leurs clients puisque le coût de conservation d'un client est moins
important que celui de l'acquisition d'un nouveau.
10
Les services de polices de tous les pays cherchent à caractériser les crimes (répondre à la question :
« Qu'est-ce qu'un crime « normal » ? ») et les comportements des criminels (répondre à la question :
« qu'est-ce qu'un comportement criminel « normal » ? ») afin de prévenir le crime, limiter les risques
et les dangers pour la population.
Le scoring des clients dans les banques est maintenant très connu, il permet de repérer les « bons »
clients, sans facteur de risque (Évaluation des risques-clients) à qui les organismes financiers,
banques, assurances, etc., peuvent proposer une tarification adaptée et des produits attractifs, tout en
limitant le risque de non-remboursement ou de non-paiement ou encore de sinistre dans le cas des
assurances.
9 11
9 11
Les centres d'appel utilisent cette technique pour améliorer la qualité du service et permettre une
réponse adaptée de l'opérateur pour la satisfaction du client.
Dans la recherche du génome humain, les techniques d'exploration de données ont été utilisées pour
12
découvrir les gènes et leur fonction .
D'autres exemples dans d'autres domaines pourraient être trouvés, mais ce qu'on peut remarquer dès
à présent, c'est que toutes ces utilisations permettent de caractériser un phénomène complexe
(comportement humain, expression d'un gène), pour mieux le comprendre, afin de réduire les coûts
de recherche ou d'exploitation liés à ce phénomène, ou bien afin d'améliorer la qualité des processus
liés à ce phénomène.
Par secteurs d'activités
L'industrie a pris conscience de l'importance du patrimoine constitué par ses données et cherche à
l'exploiter en utilisant l'informatique décisionnelle et l'exploration des données. Les compagnies les
13
plus avancées dans ce domaine se situent dans le secteur tertiaire. Selon le site kdnuggets.com la
répartition aux États-Unis, en pourcentage du total des réponses au sondage, de l'utilisation de
l'exploration des données par secteurs d'activités s'effectue en 2010 comme ceci :
Branches et domaines dans lesquels est utilisée l'exploration des données (%).
Santé,
GRC/ analyse de la
26,8 Banque 19,2 ressources 13,1
consommation
humaines
Marketing
direct,
Détection de fraude 12,7 Finance 11,3 11,3
collecte de
fonds
Télécommunication 10,8 Assurance 10,3 Sciences 10,3
Éducation 9,9 Publicité 9,9 Web 8,9
Produits Commerce
Médical 8,0 8,0 8,0
manufacturés de détail
Notation crédit 8,0
Commerce
7,0
électronique
Moteur de
6,6
recherche
Réseaux sociaux 6,6
Gouvernement,
6,1
militaire
Recherche et groupes de réflexion

Comme le montre l'histogramme ci-dessus, l'industrie est très intéressée par le sujet, notamment en
notes 4
matière de standard et d'interopérabilité qui facilitent l'emploi d'outils informatiques
provenant d'éditeurs différents. En outre, les entreprises, l'enseignement et la recherche ont
grandement contribué à l'évolution et à l'amélioration (en termes de rigueur par exemple) des
méthodes et des modèles ; un article publié en 2008 par l'International Journal of Information
14
Technology and Decision Making résume une étude qui trace et analyse cette évolution . Certains
acteurs sont passés de la recherche à l'industrie.
Des universités telles que celles de Constance en Allemagne, de

Dortmund en Caroline du Nord, aux États-Unis, de Waikato en
Nouvelle-Zélande, et l'Université Lumière Lyon 2 en France, ont
effectué des recherches pour trouver de nouveaux algorithmes et
améliorer les anciens. Ils ont aussi développé des logiciels
permettant à leurs étudiants, enseignants et chercheurs de
progresser dans ce domaine, faisant ainsi bénéficier l'industrie de
leur progrès.
D’autre part, de nombreux groupements interprofessionnels et

d'associations se sont créés pour réfléchir et accompagner le
développement de l'exploration de données. Le premier de ces
groupements professionnels dans le domaine est le groupe
Résultats graphiques d'une analyse
d’intérêt de l'Association for Computing Machinery sur la
en composantes principales
gestion des connaissances et l'exploration de données, le
15
SIGKDD . Depuis 1989 il organise une conférence
internationale annuelle et publie les nouveaux résultats,
16
réflexions et développements de ses membres . Ainsi, depuis 1999, cet organisme publie une revue
17
semestrielle dont le titre est « SIGKDD Explorations » .
D'autres conférences sur l'exploration de données et l'informatique sont organisées, par exemple :
18, 19, 20, 21, 22
DMIN - International Conference on Data Mining
DMKD - Research Issues on Data Mining and Knowledge Discovery
ECML-PKDD - European Conference on Machine Learning and Principles and Practice of
Knowledge Discovery in Databases
23 24, 25, 26, 27, 28, 29, 30, 31
ICDM - IEEE International Conference on Data Mining
MLDM - Machine Learning and Data Mining in Pattern Recognition
SDM - SIAM International Conference on Data Mining
EDM - International Conference on Educational Data Mining
ECDM - European Conference on Data Mining
PAKDD - The annual Pacific-Asia Conference on Knowledge Discovery and Data Mining
Ces recherches et résultats financièrement probants obligent les équipes spécialisées dans
l'exploration de données à effectuer un travail méthodique dans des projets structurés.
Projets, méthodes et processus

De bonnes pratiques ont émergé au fil du temps pour améliorer la qualité des projets. Parmi celles-ci,
les méthodologies aident les équipes à organiser les projets en processus. Au nombre des méthodes
les plus utilisées se trouvent la méthodologie SEMMA du SAS Institute et la CRISP-DM qui est la
méthode la plus employée dans les années 2010.
Méthode CRISP-DM
32
La méthode CRISP-DM découpe le processus de fouille de données en six étapes permettant de
structurer la technique et de l'ancrer dans un processus industriel. Plus qu'une théorie normalisée,
c'est un processus d'extraction des connaissances métiers.
32
Il faut d'abord comprendre le métier qui pose la question à l'analyste, formaliser le problème que
l'organisation cherche à résoudre en ce qui concerne les données, comprendre les enjeux, connaître
les critères de réussite du projet et mettre en place un plan initial pour réaliser cet objectif.
Ensuite, l'analyste a besoin de données appropriées. Dès que

l'équipe de projet sait ce qu'il faut faire, elle doit se mettre en
quête des données, des textes et tout le matériel qui lui permettra
de répondre au problème. Il lui faut ensuite en évaluer la qualité,
découvrir les premiers schémas apparents pour émettre des
hypothèses sur les modèles cachés.
Les données que l'équipe de projet a collectées sont hétérogènes.

32
Elles doivent être préparées en fonction des algorithmes
utilisés, en supprimant les valeurs aberrantes, ou valeurs
extrêmes, en complétant les données non renseignées, par la
Phases du processus CRISP-DM moyenne ou par la méthode des K plus proches voisins, en
supprimant les doublons, les variables invariantes et celles ayant
trop de valeurs manquantes, ou bien par exemple en discrétisant
les variables si l’algorithme à utiliser le nécessite, comme c'est par exemple le cas pour l'analyse des
correspondances multiples ACM, l'analyse discriminante DISQUAL, ou bien la méthode de
Condorcet.
32
Une fois les données prêtes, il faut les explorer . La modélisation regroupe des classes de tâches
33
pouvant être utilisées seules ou en complément avec les autres dans un but descriptif ou prédictif.
La segmentation est la tâche consistant à découvrir des groupes et des structures au sein des données
qui sont d'une certaine façon similaires, sans utiliser des structures connues a priori dans les
données. La classification est la tâche de généralisation des structures connues pour les appliquer à
notes 5
des données nouvelles .
La régression tente de trouver une fonction modélisant les données continues, c'est-à-dire non
discrètes, avec le plus petit taux d'erreur, afin d'en prédire les valeurs futures. L'association recherche
les relations entre des items. Par exemple un supermarché peut rassembler des données sur des
habitudes d'achats de ses clients. En utilisant les règles d'association, le supermarché peut
déterminer quels produits sont fréquemment achetés ensemble et ainsi utiliser cette connaissance à
des fins de marketing. Dans la littérature, cette technique est souvent citée sous le nom d'« analyse du
panier de la ménagère ».
32
Il s'agit d'évaluer ensuite les résultats obtenus en fonction des critères de succès du métier et
d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées. À la suite
de ceci, il doit être décidé soit de déployer, soit d'itérer le processus en améliorant ce qui a été mal ou
pas effectué.
32
Puis vient la phase de livraison et de bilan de fin de projet. Les plans de contrôle et de maintenance
sont conçus et le rapport de fin de projet est rédigé. Afin de déployer un modèle prédictif, le langage
PMML, basé sur le XML, est utilisé. Il permet de décrire toutes les caractéristiques du modèle et de le
transmettre à d'autres applications compatibles PMML.
D'autres méthodes
SEMMA
34
La méthodologie SEMMA (Sample then Explore, Modify, Model, Assess pour « Échantillonner,
puis Explorer, Modifier, Modéliser, Évaluer »), inventée par le SAS Institute, se concentre sur les
activités techniques de la fouille de données. Bien qu'elle soit présentée par le SAS comme seulement
35
une organisation logique des outils de SAS Enterprise miner , SEMMA peut être utilisée pour
36
organiser le processus d'exploration de données indépendamment du logiciel utilisé .
Six Sigma (DMAIC)

37, 38, 39
Six Sigma (DMAIC est un acronyme caractérisant la méthode comme suit : Define, Measure,
Analyse, Improve, Control pour « Définir, Mesurer, Analyser, Améliorer, Contrôler ») est une
méthodologie structurée, orientée données, dont le but est l'élimination des défauts, des redondances
et des problèmes de contrôle qualité de toutes sortes dans les domaines de la production, de la
fourniture de service, du management et d'autres activités métiers. La fouille de données est un
11
domaine dans lequel ce guide méthodologique peut être appliqué .
Maladresses à éviter
Les écueils les plus communément rencontrés par les fouilleurs

de données expérimentés ou non ont été décrits par Robert
Nisbet, John Elder et Gary Miner dans leur ouvrage Handbook of
b2
Statistical Analysis & Data Mining Applications .
La première est le fait de poser la mauvaise question. Ce qui

conduit à faire chercher au mauvais endroit. Il faut que la
question initiale soit correctement posée pour que la réponse soit
utile. Sur-ajustement d'un modèle :
arbitrage performance / complexité
Ensuite, c'est se contenter d'une faible quantité de données pour
b 2
un problème complexe . Il faut avoir des données pour les
explorer, et les cas intéressants pour le fouilleur sont rares à observer, il faut donc avoir à sa
disposition énormément de données pour pouvoir faire des échantillons qui ont une valeur
d'apprentissage et qui vont permettre de prédire une situation, c'est-à-dire répondre à une question
posée, sur les données hors échantillon. De plus, si les données ne sont pas adaptées à la question
posée, la fouille sera limitée : par exemple si les données ne contiennent pas de variables à prédire, la
fouille sera cantonnée à la description et l'analyste ne pourra que découper les données en sous-
ensembles cohérents (clusterisation) ou trouver les meilleures dimensions qui capturent la variabilité
des données.
Il faut construire l'échantillon, qui permet l'apprentissage, avec précaution et ne pas échantillonner à
b2
la légère . L'apprentissage permet de construire le modèle à partir d'un ou plusieurs échantillons.
Paramétrer l'outil d'exploration de données jusqu'à ce que le modèle renvoie 100 % des cas
recherchés revient à se concentrer sur les particularités et se détourner de la généralisation,
nécessaire, qui permet d'appliquer le modèle sur les données hors-échantillon. Des techniques
existent pour éviter le sur-ajustement ou le sur-apprentissage. Il s'agit des méthodes de ré-
40
échantillonnage telles que le bootstrap, du jackknife ou de la validation croisée .
Parfois, une seule technique (arbre de décision, réseaux neuronaux...) n'est pas suffisante pour
b2
obtenir du modèle qu'il donne de bons résultats sur toutes les données . Une des solutions, dans ce
cas, serait constituée d'un ensemble d'outils, qu'on peut utiliser les uns après les autres et comparer
les résultats sur les mêmes données ou bien unifier les forces de chaque méthode soit par
41
l'apprentissage soit par combinaison des résultats .
b2
Il faut placer les données et les résultats de la fouille en perspective dans leur contexte , et ne pas se
focaliser sur les données, sans cela des erreurs d'interprétation peuvent survenir ainsi que des pertes
de temps et d'argent.
42
Éliminer à priori les résultats qui paraissent absurdes , en comparaison avec ce qui est attendu, peut
être source d'erreurs car ce sont peut-être ces résultats qui donnent la solution à la question posée.
Il est impossible d'utiliser et d’interpréter les résultats d'un modèle en dehors du cadre dans lequel il
b2
a été construit . Interpréter des résultats en fonction d'autres cas similaires mais différents est aussi
cause d'erreurs, mais ce n'est pas propre aux raisonnements liés à l'exploration de données. Enfin,
extrapoler des résultats, obtenus sur des espaces de faibles dimensions, sur des espaces de
dimensions élevées peut aussi conduire à des erreurs.
Deux citations de George Box, « Tous les modèles sont faux, mais certains sont utiles » et « Les
statisticiens sont comme les artistes, ils tombent amoureux de leurs modèles », illustrent avec
humour le fait que quelquefois certains analystes en fouille de données ont besoin de croire en leur
modèle et de croire que le modèle qu'ils travaillent est le meilleur. Utiliser un ensemble de modèles et
43
interpréter la distribution des résultats est nettement plus sûr .
Planifier
Dans un projet d'exploration de données, il est essentiel de savoir ce qui est important et ce qui ne
l'est pas, ce qui prend du temps et ce qui n'en prend pas ; ce qui ne coïncide pas toujours.
Estimation du temps à consacrer aux différentes

b 3, 44
étapes
Importance
Tâches Charge dans le
projet
Inventaire, préparation et
38 % 3
exploration des données
Élaboration - Validation
25 % 2
des modèles
Restitution des résultats 12 % 4
Analyse des premiers tests 10 % 3
Définition des objectifs 8% 1
Documentation -
7% 5
présentations
Le cœur de l'exploration de données est constitué par la modélisation : toute la préparation est
effectuée en fonction du modèle que l'analyste envisage de produire, les tâches effectuées ensuite
valident le modèle choisi, le complètent et le déploient. La tâche la plus lourde de conséquences dans
la modélisation consiste à déterminer le ou les algorithmes qui produiront le modèle attendu. La
question importante est donc celle des critères qui permettent de choisir cet ou ces algorithmes.
Algorithmes
Résoudre un problème par un processus d'exploration de données impose généralement l'utilisation
d'un grand nombre de méthodes et d'algorithmes différents plus ou moins faciles à comprendre et à
45
employer . Il existe deux grandes familles d'algorithmes : les méthodes descriptives et les méthodes
prédictives.
Méthodes descriptives
Définition
46
46
Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre
l'information sous-jacente d'un ensemble important de données.
Elles permettent de travailler sur un ensemble de données, organisées en instances de variables, dans
lequel aucune des variables explicatives des individus n'a d'importance particulière par rapport aux
autres. Elles sont utilisées par exemple pour dégager, d'un ensemble d'individus, des groupes
homogènes en typologie, pour construire des normes de comportements et donc des déviations par
rapport à ces normes telles que la détection de fraudes nouvelles ou inconnues à la carte bancaire ou
à l'assurance maladie, pour réaliser de la compression d'informations ou de la compression d'image,
etc.
Exemples
Parmi les techniques

disponibles, celles qui sont
issues de la statistique
peuvent être exploitées. Sont
regroupées sous le vocable
analyses factorielles, des
méthodes statistiques qui
permettent de dégager des
variables cachées dans un
ensemble de mesures ; ces
variables cachées sont Repérer les données aberrantes et
appelées « facteurs ». Dans les éliminer.
Un exemple d'analyse en
composante principale faite avec les
les analyses factorielles, on
données disponibles sous R. part du principe que si les
données sont dépendantes entre elles, c'est parce qu'elles sont
47
liées à des facteurs qui leur sont communs . L’intérêt des
facteurs réside dans le fait qu'un nombre réduit de facteurs explique presque aussi bien les données
b 4
que l'ensemble des variables, ce qui est utile quand il y a un grand nombre de variables . Les
techniques factorielles se décomposent principalement en analyse en composantes principales,
analyse en composantes indépendantes, analyse factorielle des correspondances, analyse des
48
correspondances multiples et positionnement multidimensionnel .
Pour fixer les idées, l'analyse en composantes principales fait

correspondre à variables quantitatives décrivant individus,
facteurs, les composantes principales, de telle manière que la
perte d'information soit minimum. En effet, les composantes
sont organisées dans l'ordre croissant des pertes d'information, la
première en perdant le moins. Les composantes sont non
corrélées linéairement entre elles et les individus sont projetés
sur les axes définis par les facteurs en respectant la distance qui
existe entre eux. Les similitudes et les différences sont expliquées
par les facteurs.
L'analyse factorielle des correspondances et l'ACM font

correspondre à variables qualitatives décrivant les Une classification hiérarchique faite
caractéristiques de individus, facteurs en utilisant le tableau avec les données disponibles sous
de contingence, ou le tableau de Burt dans le cas de l'ACM, de R.
telle manière que les facteurs soient constitués des variables
numériques séparant le mieux les valeurs des variables
b 5
b 5
qualitatives initiales , que deux individus soient proches s'ils possèdent à peu près les mêmes
valeurs des variables qualitatives et que les valeurs de deux variables qualitatives soient proches si ce
b5
sont pratiquement les mêmes individus qui les possèdent .
On peut aussi utiliser des méthodes nées dans le giron de l'intelligence artificielle et plus
48
particulièrement dans celui de l'apprentissage automatique. La classification non supervisée est
une famille de méthodes qui permettent de regrouper des individus en classes, dont la caractéristique
est que les individus d'une même classe se ressemblent, tandis que ceux de deux classes différentes
sont dissemblables. Les classes de la classification ne sont pas connues au préalable, elles sont
découvertes par le processus. D'une manière générale, les méthodes de classification servent à rendre
homogènes des données qui ne le sont pas à priori, et ainsi permettent de traiter chaque classe avec
des algorithmes sensibles aux données aberrantes. Dans cette optique, les méthodes de classification
forment une première étape du processus d'analyse.
Ces techniques empruntées à l'intelligence artificielle utilisent le partitionnement de l'ensemble des

informations mais aussi le recouvrement. Le partitionnement est l'objectif des algorithmes utilisant
par exemple des méthodes telles que celles des k-means (les « nuées dynamiques » en français), des
b 6
k-medoids (k-médoïdes), k-modes et k-prototypes, qu'on peut utiliser pour rechercher les
49
aberrations (outliers), les réseaux de Kohonen, qui peuvent aussi servir à la classification ,
l'algorithme EM ou l'AdaBoost. La classification hiérarchique est un cas particulier de
partitionnement pour lequel les graphiques produits sont facilement compréhensibles. Les méthodes
ascendantes partent des individus qu'on agrège en classes, tandis que les méthodes descendantes
partent du tout et par divisions successives arrivent aux individus qui composent les classes. Ci-
contre le graphique d'une classification ascendante a été tracé pour montrer comment les classes les
plus proches sont reliées entre elles pour former des classes de niveau supérieur.
Le recouvrement à logique floue est une forme de recouvrement de l'ensemble des individus
représentés par les lignes d'une matrice où certains d'entre eux possèdent une probabilité non nulle
d'appartenir à deux classes différentes. L'algorithme le plus connu de ce type est le FCM (Fuzzy c-
50
means) .
Il faut aussi mentionner l’ Iconographie des corrélations associée à l’utilisation des Interactions
logiques, méthode géométrique qui se prête bien à l’analyse des réseaux complexes de relations
multiples.
En bio-informatique, des techniques de classification double sont employées pour regrouper

simultanément dans des classes différentes les individus et les variables qui les caractérisent.
Pour rendre compte de l'utilité de ces méthodes de recouvrement, il faut se rappeler que la
classification est un problème dont la grande complexité a été définie par Eric Bell. Le nombre de
partitions d'un ensemble de objets est égal à : . Il vaut donc mieux avoir des
méthodes efficaces et rapides pour trouver une partition qui répond au problème posé plutôt que de
parcourir l'ensemble des solutions possibles.
Enfin, quand l'analyse se porte non pas sur les individus, les items ou les objets, mais sur les relations
qui existent entre eux, la recherche de règles d'associations est l'outil adapté. Cette technique est, à
l'origine, utilisée pour faire l'analyse du panier d'achats ou l'analyse de séquences. Elle permet, dans
ce cas, de savoir quels sont les produits achetés simultanément, dans un supermarché par exemple,
par un très grand nombre de clients ; elle est également appliquée pour résoudre des problèmes
d'analyse de parcours de navigation de sites web. La recherche de règles d'association peut être
utilisée de manière supervisée ; les algorithmes APriori, GRI, Carma, méthode ARD ou encore
51
PageRank se servent de cette technique .
Méthodes prédictives
Définition
La raison d'être des méthodes prédictives est d'expliquer ou de

prévoir un ou plusieurs phénomènes observables et effectivement
mesurés. Concrètement, elles vont s'intéresser à une ou plusieurs
variables définies comme étant les cibles de l'analyse. Par
exemple, l'évaluation de la probabilité pour qu'un individu achète
un produit plutôt qu'un autre, la probabilité pour qu'il réponde à
une opération de marketing direct, celles qu'il contracte une
maladie particulière, en guérisse, les chances qu'un individu
ayant visité une page d'un site web y revienne, sont typiquement
Régression linéaire.
des objectifs que peuvent atteindre les méthodes prédictives.
En exploration de données prédictive, il y a deux types

d'opérations : la discrimination ou classement, et la régression ou prédiction, tout dépend du type de
variable à expliquer. La discrimination s’intéresse aux variables qualitatives, tandis que la régression
b7
s’intéresse aux variables continues .
Les méthodes de classement et de prédiction permettent de séparer des individus en plusieurs

classes. Si la classe est connue au préalable et que l'opération de classement consiste à analyser les
b8
caractéristiques des individus pour les placer dans une classe, la méthode est dite « supervisée ».
Dans le cas contraire, on parle de méthodes « non-supervisées », ce vocabulaire étant issu de
l'apprentissage automatique. La différence entre les méthodes descriptives de classification que l'on a
vues précédemment, et les méthodes prédictives de classement provient du fait que leur objectif est
b4
divergent : les premières « réduisent, résument, synthétisent les données » pour donner une vision
plus claire de l'amas de données, alors que les secondes expliquent une ou plusieurs variables cibles
en vue de la prédiction des valeurs de ces cibles pour les nouveaux arrivants.
Exemples
On peut référencer quelques exemples de méthodes

notes 6
prédictives , et les présenter selon le domaine d'où elles
proviennent.
Parmi les méthodes issues de l'intelligence artificielle, l'analyste

52, 53
pourra utiliser les arbres de décision , parfois pour la
54,
prédiction, parfois pour discrétiser les données quantitatives
notes 7 notes 8
, le raisonnement par cas, les réseaux de neurones ,
55, 56
les neurones à base radiale pour la classification et
l'approximation de fonctions, ou peut-être les algorithmes
57
génétiques, certains en appui des réseaux bayésiens , d'autres
58
Un exemple d'arbre de décision comme Timeweaver en recherche d'évènements rares .
utilisant la méthode CART, sur les
données de la population du TitanicSi l'analyste est plus enclin à utiliser les méthodes issues de la
statistique et des probabilités, il se tournera vers les techniques
notes 9
de régressions linéaires ou non linéaires au sens large pour
trouver une fonction d'approximation, l'analyse discriminante de Fisher, la régression logistique, et la
régression logistique PLS pour prédire une variable catégorielle, ou bien le modèle linéaire généralisé
(GLM), le modèle additif généralisé (GAM) ou modèle log-linéaire, et les modèles de régression
multiple postulés et non postulés afin de prédire une variable multidimensionnelle.
59 60
59, 60
Quant à l'inférence bayésienne et plus particulièrement les réseaux bayésiens , ils pourront être
utile à l'analyste si celui-ci cherche les causes d'un phénomène ou bien cherche la probabilité de la
61, 62
réalisation d'un évènement .
S'il souhaite compléter les données manquantes, la méthode des k plus proches voisins (K-nn) reste à
63
sa disposition .
La liste des algorithmes évolue chaque jour, car ils n'ont pas tous
le même objet, ne s'appliquent pas aux mêmes données en entrée
et aucun n'est optimal dans tous les cas. En outre, ils s'avèrent
complémentaires les uns aux autres en pratique et en les
combinant intelligemment en construisant des modèles de
modèles ou métamodèles, il est possible d'obtenir des gains en
performance et en qualité très significatifs. L'ICDM-IEEE a fait
51
en 2006 un classement des 10 algorithmes ayant le plus
d'influence dans le monde de l'exploration de données : ce
classement est une aide efficace au choix et à la compréhension
de ces algorithmes.
L'université Stanford a mis en concurrence à sa rentrée

Courbe lift évaluant la performance
d'automne 2007 deux équipes sur le projet suivant : en d'un modèle random forest sur les
s'appuyant sur la base de films visualisés par chaque client d'un données Kyphosis.
réseau de distribution dont les abonnements sont payés par carte
magnétique, déterminer l'audience la plus probable d'un film qui
n'a pas encore été vu. Une équipe s'est orientée sur une recherche
d'algorithmes extrêmement fins à partir des informations de la
base, une autre au contraire a pris des algorithmes extrêmement
simples, mais a combiné la base fournie par le distributeur au
contenu de l’Internet Movie Database (IMDB) pour enrichir ses
informations. La seconde équipe a obtenu des résultats
64
nettement plus précis. Un article suggère que l'efficacité de
Google tient moins à son algorithme PageRank qu'à la très
grande quantité d'information que Google peut corréler par
croisement des historiques de requêtes, et par l'analyse du
comportement de navigation de ses utilisateurs sur les différents
sites.
Courbes ROC comparant la
Avec les moyens modernes de l'informatique l'une ou l'autre de performance en classification de
ces deux solutions peut s'envisager dans chaque projet, mais cinq modèles d'apprentissage
d'autres techniques sont apparues qui ont prouvé leur efficacité automatique sur les données du
pour améliorer la qualité des modèles et leur performance. cancer du sein.
Qualité et performance
Un modèle de qualité est un modèle rapide, dont le taux d'erreur doit être le plus bas possible. Il ne
doit pas être sensible aux fluctuations de l'échantillon pour ce qui concerne les méthodes supervisées,
il doit être robuste et supporter des changements lents intervenants sur les données. En outre, le fait
d'être simple, compréhensible et produire des résultats interprétables facilement, augmente sa
65
valeur. Enfin, il est paramétrable pour être réutilisable .
Plusieurs indicateurs sont utilisés pour évaluer la qualité d'un modèle, et parmi ceux-ci les courbes
ROC et lift, l'indice de Gini et l'erreur quadratique moyenne montrent où se situe la prédiction par
rapport à la réalité et donnent ainsi une bonne idée de la valeur de cette composante de la qualité du
modèle.
b 9 notes 10
b 9, notes 10
La robustesse et la précision sont deux autres facettes de la qualité du modèle. Pour obtenir
un modèle performant, la technique consiste à limiter l'hétérogénéité des données, optimiser
l’échantillonnage ou combiner les modèles.
La pré-segmentation se propose de classifier la population, puis de construire un modèle sur chacune

des classes dans lesquelles les données sont plus homogènes et enfin d'en agréger les résultats.
Avec l'agrégation de modèles, l'analyste applique le même modèle à des échantillons légèrement
différents issus de l'échantillon initial, pour ensuite associer les résultats. Le bagging et le boosting
66
étaient les deux techniques les plus efficaces et les plus populaires en 1999 . En marketing par
exemple, l'algorithme Uplift utilise la technique du bagging pour produire un modèle d'identification
de groupes de personnes pouvant répondre à une offre commerciale après sollicitation.
Enfin, la combinaison de modèles conduit l'analyste à appliquer plusieurs modèles sur une même
population et à combiner les résultats. Des techniques telles que l'analyse discriminante et les réseaux
de neurones par exemple, se marient aisément.
Outils informatiques
Logiciels
La fouille de données n'existerait pas sans outil. L'offre informatique est présente sous la forme de
67 68
logiciels et aussi sur quelques plateformes spécialisées . De nombreux logiciels sont présents dans
la sphère des logiciels commerciaux, mais il en existe aussi dans celle des logiciels libres. Il n'y a pas
69
de logiciels meilleurs que d'autres, tout dépend de ce qu'on veut en faire . Les logiciels commerciaux
sont plutôt destinés aux entreprises, ou aux organismes ayant de gros volumes de données à
b 10
explorer , tandis que les logiciels libres sont destinés plus particulièrement aux étudiants, à ceux
b 10 70
qui veulent expérimenter des techniques nouvelles, et aux PME . En 2009 , les outils les plus
utilisés sont, dans l'ordre, SPSS, RapidMiner (en), SAS, Excel, R, KXEN (en), Weka, Matlab, KNIME,
Microsoft SQL Server, Oracle DM (en), STATISTICA et CORICO (Iconographie des corrélations). En
71
2010, R est l'outil le plus utilisé parmi les utilisateurs ayant répondu au sondage de Rexer
72
Analytics et STATISTICA apparaît comme l'outil préféré de la plupart des prospecteurs de données
(18 %). STATISTICA, IBM SPSS Modeler, et R ont reçu les taux de satisfaction les plus élevés à la fois
en 2010 et 2009 dans ce sondage de Rexer Analytics.
Informatique en nuage
L’informatique en nuage (cloud computing) n’est pas un outil d’exploration de données, mais un
ensemble de services web, délivrés par des fournisseurs via l'internet, permettant d’accueillir et/ou
73
d’utiliser des données et des logiciels . Néanmoins, il existe des services qui peuvent être utilisés
dans le domaine de l’exploration de données. Oracle Data mining s’expose sur l’IaaS
notes 11 74
d’Amazon en proposant aux clients une Amazon Machine Image contenant une base de
données Oracle incluant une IHM pour la fouille de données ; une image pour R et Python est
75
disponible aussi sur Amazon Web Services . Des acteurs présents exclusivement dans le nuage et
76
spécialisés dans le domaine de la fouille de données proposent leurs services comme Braincube ,
77 78 79
In2Cloud , Predixion et Cloud9Analytics entre autres.
Limites et problèmes
80
L'exploration des données est une technique ayant ses limites et posant quelques problèmes .
Limites
Les logiciels ne sont pas auto-suffisants. Les outils d'exploration des données ne proposent pas
d'interprétation des résultats, un analyste spécialiste de la fouille de données et une personne
connaissant le métier duquel sont extraites les données sont nécessaires pour analyser les livrables du
logiciel.
En outre, les logiciels d'exploration de données donnent toujours un résultat, mais rien n'indique
qu'il soit pertinent, ni ne donne une indication sur sa qualité. Mais, de plus en plus, des techniques
d'aide à l'évaluation sont mises en place dans les logiciels libres ou commerciaux.
Les relations entre les variables ne sont pas clairement définies. Les outils d'exploration des données
indiquent que telles et telles variables ont une influence sur la variable à expliquer, mais ne disent
rien sur le type de relation, en particulier il n'est pas dit si les relations sont de cause à effet.
De plus, il peut être très difficile de restituer de manière claire soit par des graphes, des courbes ou
des histogrammes, les résultats de l'analyse. Le non-technicien aura quelquefois du mal à
comprendre les réponses qu'on lui apporte.
Problèmes
Pour un francophone, néophyte de surcroit, le vocabulaire est une difficulté voire un problème. Pour
s'en rendre compte, il est intéressant de préciser le vocabulaire rencontré dans les littératures
b 11
française et anglo-saxonne. En prenant comme référence le vocabulaire anglo-saxon , le clustering
est compris en exploration de données comme une segmentation, en statistiques et en analyse des
données comme une classification. La classification en anglais correspond à la classification en
exploration de données, à l'analyse discriminante ou au classement en analyse de données à la
française et à un problème de décision en statistique. Enfin, les decision trees sont des arbres de
décision en exploration de données, et on peut entendre parler de segmentation dans ce cas dans le
domaine de l'analyse des données. La terminologie n'est pas claire.
La qualité des données, c'est-à-dire la pertinence et la complétude des données, est une nécessité
pour l'exploration des données, mais ne suffit pas. Les erreurs de saisies, les enregistrements
doublonnés, les données non renseignées ou renseignées sans référence au temps affectent aussi la
qualité des données. Les entreprises mettent en place des structures et des démarches d'assurance
qualité des données pour pouvoir répondre efficacement aux nouvelles réglementations externes, aux
audits internes, et augmenter la rentabilité de leurs données qu'elles considèrent comme faisant
81
partie de leur patrimoine .
L'interopérabilité d'un système est sa capacité à fonctionner avec d'autres systèmes, créés par des
éditeurs différents. Les systèmes d'exploration de données doivent pouvoir travailler avec des
données venant de plusieurs systèmes de gestion de bases de données, de type de fichier, de type de
données et de capteurs différents. En outre, l’interopérabilité a besoin de la qualité des données.
Malgré les efforts de l'industrie en matière d'interopérabilité, il semble que dans certains domaines ce
82
ne soit pas la règle .
Les données sont collectées dans le but de répondre à une question posée par le métier. Un risque de
l'exploration de données est l'utilisation de ces données dans un autre but que celui assigné au
départ. Le détournement des données est l'équivalent d'une citation hors de son contexte. En outre,
elle peut conduire à des problèmes éthiques.
La vie privée des personnes peut être menacée par des projets d'exploration de données, si aucune
précaution n'est prise, notamment dans la fouille du web et l'utilisation des données personnelles
collectées sur Internet où les habitudes d'achats, les préférences, et même la santé des personnes
peuvent être dévoilées. Un autre exemple est fourni par l'Information Awareness Office et en
83
83
particulier le programme Total Information Awareness (TIA) qui exploitait pleinement la
technologie d'exploration de données et qui fut un des projets « post-11 septembre » que le Congrès
des États-Unis avait commencé à financer, puis qu'il a abandonné à cause des menaces
particulièrement importantes que ce programme faisait peser sur la vie privée des citoyens
américains. Mais même sans être dévoilées, les données des personnes recueillies par les entreprises,
via les outils de gestion de la relation client (CRM), les caisses enregistreuses, les DAB, les cartes
santé, etc., peuvent conduire, avec les techniques de fouille de données, à classer les personnes en une
hiérarchie de groupes, de bons à mauvais, prospects, clients, patients, ou n'importe quel rôle que l'on
joue à un instant donné dans la vie sociale, selon des critères inconnus des personnes elles-
84, 85
mêmes . Dans cette optique, et pour corriger cet aspect négatif, Rakesh Agrawal et
Ramakrishnan Sikrant s'interrogent sur la faisabilité d'une exploration de données qui préserverait la
86, notes 12
vie privée des personnes . Le stockage des données nécessaire à la fouille pose un autre
problème dans la mesure où les données numériques peuvent être piratées. Et dans ce cas
87
l'éclatement des données sur des bases de données distribuées et la cryptographie font partie des
réponses techniques qui existent et qui peuvent être mises en place par les entreprises.
Fouilles spécialisées
Certaines entreprises ou groupes se sont spécialisés, avec par exemple Acxiom, Experian Information
Solutions, D & B, et Harte-Hanks pour les données de consommation ou Nielsen N.V. pour les
données d'audience.
Outre l'exploration de données (décrite plus haut) qu'on peut maintenant qualifier de classique, des
spécialisations techniques de l'exploration de données telles que la fouille d'images (image mining),
la fouille du web (web data mining), la fouille de flots de données (data stream mining) et la fouille
de textes (text mining) sont en plein développement dans les années 2010 et concentrent l'attention
de nombreux chercheurs et industriels, y compris pour les risques de diffusion de données
personnelles qu'elles font courir aux individus.
Des logiciels de catégorisation des individus selon leur milieu social et leurs caractérisations de
consommateurs sont utilisés par ces entreprises (ex : Claritas Prizm (créé par Claritas Inc. et racheté
par Nielsen Company.
Par types de données
La fouille audio, technique récente, parfois apparentée à la fouille de données, permet de reconnaître
des sons dans un flux audio. Elle sert principalement dans le domaine de la reconnaissance vocale
et/ou s'appuie sur elle.
88
La fouille d'images est la technique qui s’intéresse au contenu de l'image. Elle extrait des
caractéristiques dans un ensemble d'images, par exemple du web, pour les classer, les regrouper par
type ou bien pour reconnaître des formes dans une image dans le but de chercher des copies de cette
image ou de détecter un objet particulier, par exemple.
La fouille de textes est l'exploration des textes en vue d'en extraire une connaissance de haute qualité.
Cette technique est souvent désignée sous l'anglicisme text mining. C'est un ensemble de traitements
informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité,
dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre
en algorithmes un modèle simplifié des théories linguistiques dans des systèmes informatiques
d'apprentissage et de statistiques. Les disciplines impliquées sont donc la linguistique calculatoire,
l'ingénierie du langage, l'apprentissage artificiel, les statistiques et l'informatique.
Par environnements techniques

Il s'agit d'exploiter, avec la fouille du web, l'énorme source de données que constitue le web et trouver
des modèles et des schémas dans l'usage, le contenu et la structure du web. La fouille de l'usage du
web (Web usage mining ou Web log mining) est le processus d'extraction d'informations utiles
stockées dans les journaux des serveurs. Cette fouille exploite la fouille de textes pour analyser les
documents textes. La fouille de la structure du web est le processus d'analyse des relations, inconnues
à priori, entre documents ou pages stockés sur le web.
89
La fouille de flots de données (data stream mining) est la technique qui consiste à explorer les
90
données qui arrivent en un flot continu , illimité, avec une grande rapidité, et dont certains
paramètres fondamentaux se modifient avec le temps : par exemple, l'analyse des flots de données
91
émis par des capteurs automobiles . Mais des exemples d'applications peuvent être trouvés dans les
domaines des télécommunications, de la gestion des réseaux, de la gestion des marchés financiers, de
la surveillance, et dans les domaines d'activités de la vie de tous les jours, plus proches des personnes,
comme l'analyse des flux de GAB, des transactions par cartes de crédit, etc.
Par domaines d'activités

92
La fouille de données spatiales (Spatial data mining) est la
technique d'exploration de données géographiques à notre
échelle sur Terre, mais aussi astronomiques ou microscopiques,
dont le but est de trouver des motifs intéressants dans les
données contenant à la fois du texte, des données temporelles ou
des données géométriques, telles que des vecteurs, des trames ou
des graphes. Les données spatiales donnent des informations à
des échelles différentes, fournies par des techniques différentes,
sous des formats différents, dans une période de temps souvent
longue en vue de l'observation des changements. Les volumes
sont donc très importants, les données peuvent être imparfaites,
bruitées. De plus, les relations entre les données spatiales sont
souvent implicites : les relations ensemblistes, topologiques, Représentation graphique des bords
directionnelles et métriques se rencontrent fréquemment dans de la rivière Neuse aux États-Unis
cette spécialisation. La fouille de données spatiales est donc où des concentrations anormales de
particulièrement ardue. zinc ont été observées.
On utilise la fouille de données spatiales pour explorer les

données des sciences de la terre, les données cartographiques du crime, celles des recensements, du
93
trafic routier, des foyers de cancer , etc.
Dans le futur
L’avenir de l'exploration de données dépend de celui des données numériques. Avec l’apparition du
94
Web 2.0, des blogs, des wikis et des services en nuages , il y a une explosion du volume des données
numériques et les gisements de matière première pour la fouille de données sont donc importants.
De nombreux domaines exploitent encore peu la fouille de données pour leurs besoins propres.
L’analyse des données venant de la blogosphère n’en est qu’à son début. Comprendre l’« écologie de
notes 13, b 12
l’information » pour analyser le mode de fonctionnement des médias de l’Internet par
exemple ne fait que commencer.
b 13, b 14
Pour peu que les problèmes liés à la vie privée des personnes soient réglés, la fouille de
b 15
données peut aider à traiter des questions dans le domaine médical , et notamment dans la
b 15
prévention des risques hospitaliers .
Sans aller jusqu'à la science-fiction de Minority Report, les techniques de profilage sans a priori sont
95
rendues possibles par l'exploration de données , pouvant poser quelques problèmes éthiques
96 97
nouveaux . Un documentaire de BBC Horizon résume une partie de ces questions.
Enfin, avec l’apparition de nouvelles données et de nouveaux domaines, les techniques continuent de
b 16
se développer .
Notes et références
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé
« Data mining (https://en.wikipedia.org/wiki/Data_mining?oldid=429457682) » (voir la liste des
auteurs (https://en.wikipedia.org/wiki/Data_mining?action=history)).
Notes
1. Terme recommandé au Canada par l'OQLF, et en France par la DGLFLF (Journal officiel du 27
février 2003) et par FranceTerme
2. en suivant le même exemple, il permet de répondre à la question : « Quel pourrait être le chiffre
d'affaires dans un mois ? »
3. . Ces distributions sont faciles à calculer, et on trouve parmi elles des lois déjà largement utilisées
(loi normale, distribution exponentielle négative, lois de Zipf et de Mandelbrot...), par des
méthodes sans rapport avec celles qui les ont établies. Le test de fitness d'une distribution au
modèle du « test Psi » de calcul de l'entropie résiduelle, est asymptotiquement équivalent à la Loi
du χ².
4. Voir dans ce document les efforts de standardisation et d'interopérabilité effectués par l'industrie :
(en) Arati Kadav, Aya Kawale et Pabitra Mitra, « Data Mining Standards » (http://www.dataminingg
rid.org/wdat/works/att/standard01.content.08439.pdf) [PDF], sur datamininggrid.org (consulté le
13 mai 2011)
5. Par exemple, un programme gestionnaire de messages électroniques pourrait tenter de classer
un e-mail dans la catégorie des e-mails légitimes ou bien dans celle des pourriels. Les
algorithmes généralement utilisés incluent les arbres de décision, les plus proches voisins, la
classification naïve bayésienne, les réseaux neuronaux et les séparateurs à vaste marge (SVM)
6. Dont on peut trouver, pour certaines, la description ici : Guillaume Calas, « Études des principaux
algorithmes de data mining » (http://guillaume.calas.free.fr/data/Publications/DM-Algos.pdf) [PDF],
sur guillaume.calas.free.fr, 2009 (consulté le 14 mai 2011)
7. Comme CART, CHAID, ECHAID, QUEST, C5, C4.5 et les forêts d'arbres décisionnels
8. Tels que les perceptrons mono ou multicouches avec ou sans rétropropagation des erreurs
9. Telles que la régression linéaire, linéaire multiple, logistique, PLS, ANOVA, MANOVA, ANCOVA
ou MANCOVA.
10. Voir Glossaire du data mining pour la définition de « robustesse » et « précision ».
11. IaaS signifiant Infrastructure as a service dénommé Amazon Elastic Compute Cloud chez
Amazon
12. Puisque les modèles de l'exploration de données concernent les données agrégées d'où sont
éliminées les données personnelles.
13. Selon Tim Finin, Anupam Joshi, Pranam Kolari, Akshay Java, Anubhav Kale et Amit Karandikar,
« The information ecology of social media and online communities » (http://aisl.umbc.edu/resourc
es/376.pdf), sur aisl.umbc.edu (consulté le 19 juin 2011).
Ouvrages spécialisés
1. Tufféry 2010, p. 506
2. Nisbet, Elder et Miner 2009, p. 733
3. Tufféry 2010, p. 44
4. Tufféry 2010, p. 161

5. Tufféry 2010, p. 198
6. Tufféry 2010, p. 244
7. Tufféry 2010, p. 297
8. Nisbet, Elder et Miner 2009, p. 235
9. Tufféry 2010, p. 518
10. Tufféry 2010, p. 121
11. Tufféry 2010, p. 158
12. Kargupta et al. 2009, p. 283
16. Kargupta et al. 2009, p. 1-281
Autres références
1. « Atelier de travail Etalab du 13 octobre 2011 : Datajournalisme » (http://www.etalab.gouv.fr/page
s/atelier-de-travail-du-13-octobre-2011-datajournalisme-5913723.html) (4e Workshop d'Etalab, 70
participants le 13 octobre 2011), avec vidéos en ligne, consulté 8 octobre 2013.
2. (en) Kurt Thearling, « An Introduction to Data Mining » (http://www.thearling.com/text/dmwhite/dm
white.htm), sur thearling.com (consulté le 2 mai 2011).
3. Jean-Claude Oriol, « Une approche historique de la statistique » (http://www.statistix.fr/IMG/pdf/U
ne_approche_historique_de_la_statistique_v3.pdf) [PDF], sur statistix.fr (consulté le 12 mai 2011)
4. (en) Myron Tribus, Rational descriptions, decisions, and designs, 1969, 478 p. (lire en ligne (http
s://books.google.fr/books?id=fW1bAAAAMAAJ&q=Cox-Jaynes)).
5. (en) Nikhil Pal et Lakhmi Jain, Advanced techniques in knowledge discovery and data mining,
Springer, 2005, 254 p. (ISBN 978-1-85233-867-1)
6. (en) Carole Albouy, « Il était une fois ... le data mining » (http://lafouillededonnees.blogspirit.com/3
_-_dm_un_peu_d_histoire/), sur lafouillededonnees.blogspirit.com (consulté le 23 octobre 2011)
7. (en) Patricia Cerrito, « A Data Mining Applications Area in the Department of Mathematics » (htt
p://www.math.louisville.edu/people/faculty/Cerrito/DataMine.pdf) [PDF], sur math.louisville.edu
(consulté le 31 mai 2011)
8. (en) Maryann Lawlor, « Smart Companies Dig Data » (http://www.afcea.org/signal/articles/anmvie
wer.asp?a=1417&print=yes), sur afcea.org (consulté le 31 mai 2011)
9. Christine Frodeau, « Data mining, Outil de Prediction du Comportement du Consommateur » (htt
p://www.creg.ac-versailles.fr/IMG/pdf/data_mining.pdf) [PDF], sur creg.ac-versailles.fr (consulté le
12 mai 2011)
10. (en) Colleen McCue, Data Mining and Predictive Analysis : intelligence gathering and crime
analysis, Amsterdam/Boston, Elsevier, 2007, 313 p. (ISBN 978-0-7506-7796-7)
11. Frank audet et Malcolm Moore, « Amélioration de la qualité dans un centre d’appel » (http://www.j
mp.com/fr/software/success/pdf/qualite_et_management.pdf) [PDF], sur jmp.com (consulté le
12 mai 2011)
12. (en) Henry Abarbanel, Curtis Callan, William Dally, Freeman Dyson, Terence Hwa, Steven Koonin,
Herbert Levine, Oscar Rothaus, Roy Schwitters, Christopher Stubbs et Peter Weinberger, « Data
mining and the human genome » (http://www.fas.org/irp/agency/dod/jason/genome.pdf) [PDF], sur
fas.org (consulté le 12 mai 2011), p. 7
13. (en) « Industries / Fields for Analytics / Data Mining in 2010 » (http://www.kdnuggets.com/polls/201
0/analytics-data-mining-industries-applications.html), sur kdnuggets.com, octobre 2010 (consulté
le 12 mai 2011)
14. (en) Yi Peng, Gang Kou, Yong Shi et Zhengxin Chen, « A Descriptive Framework for the Field of
Data Mining and Knowledge Discovery », International Journal of Information Technology and
Decision Making, vol. 7, no 4, 2008, p. 639 à 682 (10.1142/S0219622008003204)
15. (en) « SIGKDD : Site officiel » (http://www.sigkdd.org/index.php), sur sigkdd.org (consulté le
13 mai 2011)
16. (en) « ACM SIGKDD : Conferences » (http://www.kdd.org/conferences.php), sur kdd.org (consulté
le 13 mai 2011)
17. (en) ACM, New York, « SIGKDD Explorations » (http://www.kdd.org/explorations/about.php), sur
kdd.org (consulté le 13 mai 2011)
18. (en) « 5th (2009) » (http://www.dmin--2009.com/), sur dmin--2009.com (consulté le 13 mai 2011)
19. (en) « 4th (2008) » (http://www.dmin-2008.com/), sur dmin-2008.com (consulté le 13 mai 2011)
20. (en) « 3rd (2007) » (http://www.dmin-2007.com/), sur dmin-2007.com (consulté le 13 mai 2011)
21. (en) « 2d (2006) » (http://www.dmin-2006.com/), sur dmin-2006.com (consulté le 13 mai 2011)
22. (en) « 1st (2005) » (http://www.informatik.uni-trier.de/~ley/db/conf/dmin/dmin2005.html), sur
informatik.uni-trier.de (consulté le 13 mai 2011)
23. (en) « ICDM : Site officiel » (http://www.cs.uvm.edu/~icdm/), sur cs.uvm.edu (consulté le
13 mai 2011)
24. (en) « IEEE International Conference on Data Mining » (http://www.informatik.uni-trier.de/~ley/db/c
onf/icdm/index.html), sur informatik.uni-trier.de (consulté le 13 mai 2011)
25. (en) « ICDM09, Miami, FL » (http://www.cs.umbc.edu/ICDM09/), sur cs.umbc.edu (consulté le
13 mai 2011)
26. (en) « ICDM08, Pisa (Italy) » (http://icdm08.isti.cnr.it/), sur icdm08.isti.cnr.it (consulté le
13 mai 2011)
27. (en) « ICDM07, Omaha, NE » (http://www.ist.unomaha.edu/icdm2007/), sur ist.unomaha.edu
28. (en) « ICDM06, Hong Kong » (http://www.comp.hkbu.edu.hk/iwi06/icdm/), sur comp.hkbu.edu.hk
29. (en) « ICDM05, Houston, TX » (http://www.cacs.ull.edu/~icdm05/), sur cacs.ull.edu (consulté le
13 mai 2011)
30. (en) « ICDM04, Brighton (UK) » (http://icdm04.cs.uni-dortmund.de/), sur icdm04.cs.uni-
dortmund.de (consulté le 13 mai 2011)
31. (en) « ICDM01, San Jose, CA. » (http://www.cs.uvm.edu/~xwu/icdm-01.html), sur cs.uvm.edu
32. (en) « CRoss Industry Standard Process for Data Mining : Process Model » (http://www.crisp-dm.o
rg/Process/index.htm), sur crisp-dm.org, 2007 (consulté le 14 mai 2011)
33. (en) Usama Fayyad, Gregory Piatetsky-Shapiro et Padhraic Smyth, « From Data Mining to
Knowledge Discovery in Databases » (http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1
996-Fayyad.pdf) [PDF], sur kdnuggets.com, 1996 (consulté le 14 mai 2011)
34. (en) « STATISTICA, Statistics Glossary, Models for Data Mining » (http://www.statsoft.com/textboo
k/statistics-glossary/m/button/m/), sur statsoft.com (consulté le 13 mai 2011)
35. (en) « SAS SEMMA » (http://www.sas.com/offices/europe/uk/technologies/analytics/datamining/mi
ner/semma.html), sur sas.com (consulté le 13 mai 2011)
36. (en) Ana Azevedo et Manuel Filipe Santos, « KDD, SEMMA and CRISP-DM: a parallel overview »
(http://www.iadis.net/dl/final_uploads/200812P033.pdf) [PDF], IADIS, 2008
(ISBN 978-972-8924-63-8, consulté le 14 mai 2011), p. 184
37. isixsigma, « What Is Six Sigma? » (http://www.isixsigma.com/index.php?option=com_k2&view=ite
m&id=1463:what-is-six-sigma?&Itemid=155), sur isixsigma.com (consulté le 15 mai 2011)
38. StatSoft, « Six Sigma DMAIC » (http://www.statsoft.com/textbook/statistics-glossary/s/button/s/#Si
x%20Sigma%20DMAIC), sur statsoft.com (consulté le 15 mai 2011)
39. (en) « Six Sigma on line » (http://www.sixsigmaonline.org/services.html), Aveta Business Institute
40. (en) « What are cross-validation and bootstrapping? » (http://www.faqs.org/faqs/ai-faq/neural-nets/

part3/section-12.html), sur faqs.org (consulté le 15 mai 2011)
41. (en) Jing Gao, Wei Fan et Jiawei Han, « On the Power of Ensemble: Supervised and
Unsupervised Methods Reconciled » (http://www.ews.uiuc.edu/~jinggao3/sdm10ensemble.htm),
sur ews.uiuc.edu (consulté le 15 mai 2011)
42. (en) Mary McGlohon, « Data Mining Disasters: a report » (http://www.cs.cmu.edu/~mmcgloho/pub
s/accidents-sigbovik08.pdf) [PDF], sur cs.cmu.edu (consulté le 14 mai 2011), p. 2
43. (en) « An Introduction to Ensemble Methods » (http://fedc.wiwi.hu-berlin.de/xplore/ebooks/html/cs
a/node228.html), sur RDC (http://fedc.wiwi.hu-berlin.de) (consulté le 14 mai 2011)
44. (en) Dorian Pyle, Data Preparation for Data Mining, Morgan Kaufmann, 1999, 560 p.
(ISBN 978-1-55860-529-9, lire en ligne (https://books.google.com/books?id=hhdVr9F-JfAC&prints
ec=frontcover))
45. (en) Kurt Thearling, « ''An Introduction to Data Mining » (http://www.thearling.com/dmintro/dmintro.
htm), sur thearling.com (consulté le 14 mai 2011), p. 17
46. Stéphane Tufféry, « Les techniques descriptives » (http://data.mining.free.fr/cours/Descriptives.pd
f) [PDF], sur data.mining.free.fr, 2007 (consulté le 14 mai 2011), p. 5
47. Jacques Baillargeon, « Analyse factorielle exploratoire » (https://www.uqtr.ca/cours/srp-6020/afe/a
fe.pdf) [PDF], sur uqtr.ca, 2003 (consulté le 14 mai 2011), p. 4
48. Philippe Besse et Alain Baccini, « Exploration Statistique » (http://www.math.univ-toulouse.fr/~bes
se/pub/Explo_stat.pdf) [PDF], sur math.univ-toulouse.fr, juin 2010 (consulté le 14 mai 2011), p. 7 et
suiv.
49. Alexandre Aupetit, « Réseaux de neurones artificiels : une petite introduction » (http://labo.algo.fre
e.fr/neuro/reseau_de_neurones_artificiel.html), sur labo.algo.free.fr, mai 2004 (consulté le
14 mai 2011)
50. (en) Nikhil R. Pal, Kuhu Pal, James M. Keller et James C. Bezdek, « Fuzzy c-Means Clustering of
Incomplete Data » (http://www.comp.ita.br/~forster/CC-222/material/fuzzyclust/fuzzy01492404.pd
f) [PDF], sur comp.ita.br, août 2005 (consulté le 14 mai 2011)
51. (en) « ICDM Top 10 algorithms in data mining » (http://www.cs.uvm.edu/~icdm/algorithms/10Algori
thms-08.pdf) [PDF], sur cs.uvm.edu (consulté le 14 mai 2011)
52. (en) Wei-Yin Loh et Yu-Shan Shih, « Split Selection Methods for Classification Trees » (http://www.
math.ccu.edu.tw/~yshih/papers/sinica.pdf) [PDF], sur math.ccu.edu.tw, 1997 (consulté le
14 mai 2011)
53. (en) Leo Breiman, « Random Forests » (http://www.springerlink.com/content/u0p06167n6173512/f
ulltext.pdf) [PDF], sur springerlink.com, 2001 (consulté le 14 mai 2011)
54. Ricco Rakotomalala, « Arbres de Décision » (http://www-rocq.inria.fr/axis/modulad/archives/nume
ro-33/tutorial-rakotomalala-33/rakotomalala-33-tutorial.pdf) [PDF], sur www-rocq.inria.fr, 2005
55. (en) Simon Haykin, Neural Networks : A comprehensive Foundation, Prentice Hall, 1998, 842 p.
(ISBN 978-0-13-273350-2)
56. M. Boukadoum, « Réseaux de neurones à base radiale » (http://www.labunix.uqam.ca/~boukadou
m_m/DIC9315/Notes/NN/6_rbf.ppt) [ppt], sur labunix.uqam.ca (consulté le 14 mai 2011)
57. Jean-Marc Trémeaux, « Algorithmes génétiques pour l'identification structurelle des réseaux
bayésiens » (http://naku.dohcrew.com/dea-ecd/Tremeaux-genetic-bayesnet.pdf) [PDF], sur
naku.dohcrew.com, 2006 (consulté le 14 mai 2011)
58. Thomas Vallée et Murat Yıldızoğlu, « Présentation des algorithmes génétiques et de leurs
applications en économie » (http://www.sc-eco.univ-nantes.fr/~tvallee/recherche/murat/agpresf42.
pdf) [PDF], sur sc-eco.univ-nantes.fr, 2003 (consulté le 14 mai 2011), p. 15
59. Olivier Parent et Julien Eustache, « Les Réseaux Bayésiens » (http://liris.cnrs.fr/amille/enseignem
ents/master_ia/rapports_2006/Reseau%20Bayesien%20SYNTHESE%20ECRITE.pdf) [PDF], sur
liris.cnrs.fr, 2006 (consulté le 14 mai 2011)
60. Gilles Balmisse, « Les Réseaux Bayésiens » (http://www.gillesbalmisse.com/IMG/pdf/GB_RB.pdf)
[PDF], sur gillesbalmisse.com, 2006 (consulté le 14 mai 2011)
61. Samos, « Les Réseaux Bayésiens » (http://samos.univ-paris1.fr/archives/ftp/preprints/samos175.

pdf) [PDF], sur samos.univ-paris1.fr, 2003 (consulté le 14 mai 2011)
62. « Pour sortir de l'incertitude, entrez dans l'ère des réseaux bayésiens » (http://www.bayesia.com/f
r/technologie/reseaux-bayesiens.php), Bayesia (consulté le 14 mai 2011)
63. Valérie Monbet, « Les données manquantes » (http://perso.univ-rennes1.fr/valerie.monbet/doc/co
urs/IntroDM/Chapitre4.pdf), sur perso.univ-rennes1.fr (consulté le 14 mai 2011), p. 27
64. Didier Durand, « PageRank de Google : l'algorithme prend en compte 200 paramètres ! » (http://m
edia-tech.blogspot.com/2008/03/pagerank-de-google-lalgorithme-prend-en.html), sur media-
tech.blogspot.com, 2008 (consulté le 14 mai 2011)
65. Bertrand Liaudet, « Cours de Data Mining 3 : Modelisation Présentation Générale » (http://bliaude
t.free.fr/IMG/pdf/Cours_de_data_mining_3-Modelisation-EPF.pdf) [PDF], sur bliaudet.free.fr
66. (en) David Opitz et Richard Maclin, « Popular Ensemble Methods: An Empirical Study » (http://ww
w.d.umn.edu/~rmaclin/cs5751/notes/opitz-jair99.pdf) [PDF], sur d.umn.edu, 1999 (consulté le
14 mai 2011)
67. (en) « Software Suites for Data Mining, Analytics, and Knowledge Discovery » (http://www.kdnugg
ets.com/software/suites.html#B), sur kdnuggets (http://www.kdnuggets.com) (consulté le
15 mai 2011)
68. « Plateforme de datamining pour les editeurs d'univers virtuels » (http://www.marketingvirtuel.fr/20
09/03/17/twofish-lance-une-plateforme-de-datamining-pour-les-editeurs-dunivers-virtuels/), sur
marketingvirtuel.fr (consulté le 15 mai 2011)
69. (en) Dean W. Abbott, I. Philip Matkovsky et John Elder IV, « 1998 IEEE International Conference
on Systems, Man, and Cybernetics, San Diego, CA » (http://datamininglab.com/Portals/0/tool%20
eval%20articles/smc98_abbott_mat_eld.pdf) [PDF], sur datamininglab.com, 14 octobre 1998
70. (en) « Data Mining Tools Used Poll » (http://www.kdnuggets.com/polls/2009/data-mining-tools-use
d.htm), sur kdnuggets.com, 2009 (consulté le 15 mai 2011)
71. (en) Rexer Analytics, « 2010 Data Miner Survey » (http://www.rexeranalytics.com/Data-Miner-Surv
ey-Results-2010.html), sur rexeranalytics.com (consulté le 19 juin 2011)
72. (en) « Rexer Analytics » (http://www.rexeranalytics.com/index.html), Rexer Analytics (consulté le
19 juin 2011)
73. Dave Wells, « What’s Up with Cloud Analytics? » (http://www.b-eye-network.com/view/12100), sur
b-eye-network.com (consulté le 2 juin 2011)
74. John Smiley et Bill Hodak, « Oracle Database on Amazon EC2 : An Oracle White Paper » (http://
www.oracle.com/technetwork/topics/cloud/oracle-aws-getting-started-twp-171089.pdf), sur
oracle.com (consulté le 4 juin 2011)
75. Drew Conway, « Amazon EC2 configuration for scientific computing in Python and R » (http://ww
w.kdnuggets.com/2011/04/amazon-cloud-computing-with-python-and-r.html), sur kdnuggets.com
(consulté le 4 juin 2011)
76. ipleanware.com (http://www.ipleanware.com)
77. « In2Clouds Solutions » (http://www.in2clouds.com/predictive-analytics-solutions), In2Cloud
(consulté le 5 juin 2011)
78. Predixion, « Cloud Predixion Solutions » (http://www.predixionsoftware.com/predixion/Solutions.as
px), sur predixionsoftware.com (consulté le 5 juin 2011)
79. « Cloud9 Solution Overview » (http://www.cloud9analytics.com/solutions), Cloud9 (consulté le
14 juin 2011)
80. (en) Jeffrey Seifer, « CRS report for congress » (http://biotech.law.lsu.edu/blaw/crs/RL31798.pdf)
[PDF], sur biotech.law.lsu.edu, 2007 (consulté le 15 mai 2011)
81. Laetitia Hardy, « Pourquoi la qualité des données devient incontournable au sein de
l’entreprise? » (http://www.decideo.fr/Pourquoi-la-qualite-des-donnees-devient-incontournable-au-
sein-de-l-entreprise_a1951.html), sur Decideo (http://www.decideo.fr), 2007 (consulté le
15 mai 2011)
82. (en) Jeffrey Seifert, « CRS report for congress » (http://biotech.law.lsu.edu/blaw/crs/RL31798.pdf)

[PDF], sur biotech.law.lsu.edu, 2007 (consulté le 15 mai 2011), p. 27
83. (en) « International Workshop on Practical Privacy-Preserving Data Mining » (http://www.cs.umbc.
edu/~kunliu1/p3dm08/), sur cs.umbc.edu, 2008 (consulté le 15 mai 2011)
84. (en) Martin Meint et Jan Möller, « Privacy Preserving Data Mining » (http://www.fidis.net/fileadmin/j
ournal/issues/1-2007/Privacy_Preserving_Data_Mining.pdf) [PDF], sur fidis.net (consulté le
15 mai 2011)
85. (en) Kirsten Wahlstrom, John F. Roddick, Rick Sarre, Vladimir Estivill-Castro et Denise de Vries,
« Legal and Technical Issues of Privacy Preservation in Data Mining » (http://www.irma-internation
al.org/chapter/legal-technical-issues-privacy-preservation/10968/), sur irma-international.org, 2007
86. (en) Rakesh Agrawal et Ramakrishnan Sikrant, « privacy-Preserving Data mining » (http://www.cs.
utexas.edu/~shmat/courses/cs395t_fall05/ppdm.pdf) [PDF], sur cs.utexas.edu (consulté le
15 mai 2011)
87. (en) Murat Kantarcioglu, « Introduction to Privacy Preserving Distributed Data Mining » (http://wiki.
kdubiq.org/summerschool2008/uploads/Main/SS08/Lectures/Kantarcioglu_kdubiq08-talk.pdf)
[PDF], sur wiki.kdubiq.org (consulté le 15 mai 2011)
88. Patrick Gros, « Nouvelles de l’AS fouille d’images & Émergence de caractéristiques
sémantiques » (http://liris.cnrs.fr/as50/Journee-7-juillet/Gros-presentation.pdf) [PDF], sur
liris.cnrs.fr, 16 juillet 2003 (consulté le 15 mai 2011)
89. (en) Mohamed Medhat Gaber, Arkady Zaslavsky et Shonali Krishnaswamy, « Data Streams: A
Review » (http://www.sigmod.org/publications/sigmod-record/0506/p18-survey-gaber.pdf) [PDF],
sur sigmod.org, 2005 (consulté le 15 mai 2011)
90. (en) Chih-Hsiang Li, Ding-Ying Chiu, Yi-Hung Wu et Arbee L. P. Chen, « Mining Frequent Itemsets
from Data Streams with a Time-Sensitive Sliding Window » (http://www.siam.org/proceedings/data
mining/2005/dm05_07linc.pdf) [PDF], sur siam.org, 2005 (consulté le 15 mai 2011)
91. (en) Hillol Kargupta, Ruchita Bhargava, Kun Liu, Michael Powers, Patrick Blair, Samuel Bushra,
James Dull, Kakali Sarkar, Martin Klein, Mitesh Vasa et David Handy, « VEDAS : A Mobile and
Distributed Data Stream Mining System for Real-Time Vehicle Monitoring » (http://www.siam.org/p
roceedings/datamining/2004/dm04_028karguptah.pdf) [PDF], sur siam.org, 2004 (consulté le
15 mai 2011)
92. (en) « Spatial Database and Spatial Data Mining Research Group : Site officiel » (http://www.spati
al.cs.umn.edu/), sur spatial.cs.umn.edu, 2011 (consulté le 15 mai 2011)
93. (en) Shashi Shekhar et Pusheng Zhang, « Spatial Data Mining: Accomplishments and Research
Needs » (http://www.spatial.cs.umn.edu/paper_ps/giscience.pdf) [PDF], sur spatial.cs.umn.edu,
2004 (consulté le 15 mai 2011)
94. « IDC pronostique une explosion du volume de données produites dans le monde d'ici 10 ans » (h
ttp://www.lemagit.fr/article/stockage-numerique-idc-nuage-donnees-cloud/6254/1/idc-pronostique-
une-explosion-volume-donnees-produites-dans-monde-ici-ans/), sur lemagit.fr (consulté le
21 mai 2011)
95. http://discovermagazine.com/2011/dec/02-big-idea-seeing-crime-before-it-
happens#.UZwAHrUqyGE
96. http://www.nbcnews.com/id/25501088/ns/us_news-security/t/fbi-might-use-profiling-terror-
investigations/#.UZwFF7UqyGE
97. The Age of Big Data (http://www.bbc.co.uk/programmes/b01rt4c7)
Voir aussi
Articles connexes Sur les autres projets Wikimedia :

Datamining, sur Wikiversity
Statistiques
Analyse multivariée
Analyse des données
Big data
Segmentation (marketing)
Nielsen PRIZM (système de catégorisation des consommateurs)
Intelligence artificielle
Apprentissage automatique
Traitement automatique du langage naturel
Linguistique calculatoire
Carte auto adaptative (exemple de Réseau de neurones : carte de Kohonen (SOM/TOM))
Informatique décisionnelle
Datawarehouse, Datamart, Lac de données
Applications
Recherche d'information
Fuite d'information
Journalisme de données
Bibliographie
(en) Robert Nisbet, John Elder et Gary Miner, Handbook of Statistical Analysis & Data Mining
Applications, Amsterdam/Boston, Academic Press, 2009, 823 p. (ISBN 978-0-12-374765-5)
(en) Hillol Kargupta, Jiawei Han, Philip Yu, Rajeev Motwani et Vipin Kumar, Next Generation of
Data Mining, CRC Press, 2009, 3e éd., 605 p. (ISBN 978-1-4200-8586-0)
Stéphane Tufféry, Data Mining et statistique décisionnelle : l'intelligence des données, Paris,
éditions Technip, 2010, 705 p. (ISBN 978-2-7108-0946-3, lire en ligne (https://books.google.com/books?id=A
yIYAAn4a2kC&printsec=frontcover))
(en) Phiroz Bhagat, Pattern Recognition inndustry, Amsterdam/Boston/London, Elsevier, 2005,
200 p. (ISBN 978-0-08-044538-0)
(en) (en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification, Wiley-
interscience, 2001 (ISBN 0-471-05669-3) [détail des éditions]
(en) Yike Guo et Robert Grossman, High Performance Data Mining : Scaling Algorithms,
Applications and Systems, Berlin, Springer, 200, 112 p. (ISBN 978-0-7923-7745-0, lire en ligne (https://b
ooks.google.com/books?id=ms0EDZPYK3gC&printsec=frontcover))
(en) Ingo Mierswa, Michael Wurst, Ralf Klinkenberg, Martin Scholz et Tim Euler, « YALE: Rapid
Prototyping for Complex Data Mining Tasks », Proceedings of the 12th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (KDD-06), ACM, 2006,
p. 935-940 (ISBN 1595933395,
DOI 10.1145/1150402.1150531 (https://dx.doi.org/10.1145%2F1150402.1150531), présentation en ligne (http://ww
w.mendeley.com/research/yale-rapid-prototyping-for-complex-data-mining-tasks/))
Daniel Larose (trad. Thierry Vallaud), Des données à la connaissance : Une introduction au
data-mining (1Cédérom), Vuibert, 2005, 223 p. (ISBN 978-2-7117-4855-6)
René Lefébure et Gilles Venturi, Data Mining : Gestion de la relation client : personnalisations
de site web, Eyrolles, 2001, 392 p. (ISBN 978-2-212-09176-2)
(en) Pascal Poncelet, Florent Masseglia et Maguelonne Teisseire, Data Mining Patterns : New
Methods and Applications, Idea Group Reference, 2007, 307 p. (ISBN 978-1-59904-162-9)
(en) Pang-Ning Tan, Michael Steinbach et Vipin Kumar, Introduction to Data Mining, Pearson
Addison Wesley, 2007, 769 p. (ISBN 978-0-321-32136-7 et 0-321-32136-7,
OCLC 58729322 (https://worldcat.org/oclc/58729322&lang=fr))
Ian Witten et Eibe Frank, Data Mining : Practical Machine Learning Tools and Techniques,
(en)
Morgan Kaufmann, 1999, 371 p. (ISBN 978-1-55860-552-7, lire en ligne (https://books.google.com/books?id
=6lVEKlrTq8EC&printsec=frontcover))
(en) Stéphane Tufféry, Data Mining and Statistics for Decision Making, John Wiley & Sons,
2011, 716 p. (ISBN 978-0-470-68829-8)
(en) B. Efron, The Annals of Statistics : Bootstrap methods: Another look at the jackknife,
Institute of Mathematical Statistics, 1973 (ISSN 0090-5364 (http://worldcat.org/issn/0090-5364&lang=fr))
(en) Leo Breiman, Machine Learning : Bagging predictors, Kluwer Academic Publishers
Hingham, 1996 (ISSN 0885-6125 (http://worldcat.org/issn/0885-6125&lang=fr))
La version du 13 juin 2011 de cet article a été reconnue comme « bon article », c'est-
à-dire qu'elle répond à des critères de qualité concernant le style, la clarté, la
pertinence, la citation des sources et l'illustration.
Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Exploration_de_données&oldid=168625841 ».
La dernière modification de cette page a été faite le 21 mars 2020 à 09:39.
Droit d'auteur : les textes sont disponibles sous licence Creative Commons attribution, partage dans les mêmes
conditions ; d’autres conditions peuvent s’appliquer. Voyez les conditions d’utilisation pour plus de détails, ainsi que les
crédits graphiques. En cas de réutilisation des textes de cette page, voyez comment citer les auteurs et mentionner la
licence.
Wikipedia® est une marque déposée de la Wikimedia Foundation, Inc., organisation de bienfaisance régie par le
paragraphe 501(c)(3) du code fiscal des États-Unis.

Exploration de Données - Wikipédia

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Exploration de Données - Wikipédia

Hochgeladen von

Copyright:

Verfügbare Formate

16/04/2020 Exploration de données — Wikipédia

L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de

L'arrivée progressive des micro-ordinateurs permet de généraliser facilement ces méthodes

L'affranchissement du protocole statistique classique commence alors : il n'est plus nécessaire de se

De nos jours, les techniques d'exploration de données peuvent

Un publipostage (mailing) servant à la prospection de nouveaux

Ces mêmes entreprises, mais d'autres aussi comme les banques,

Par secteurs d'activités

Recherche et groupes de réflexion

Des universités telles que celles de Constance en Allemagne, de

D’autre part, de nombreux groupements interprofessionnels et

Projets, méthodes et processus

Ensuite, l'analyste a besoin de données appropriées. Dès que

Les données que l'équipe de projet a collectées sont hétérogènes.

Six Sigma (DMAIC)

Les écueils les plus communément rencontrés par les fouilleurs

La première est le fait de poser la mauvaise question. Ce qui

Estimation du temps à consacrer aux différentes

Parmi les techniques

Pour fixer les idées, l'analyse en composantes principales fait

L'analyse factorielle des correspondances et l'ACM font

Ces techniques empruntées à l'intelligence artificielle utilisent le partitionnement de l'ensemble des

En bio-informatique, des techniques de classification double sont employées pour regrouper

La raison d'être des méthodes prédictives est d'expliquer ou de

En exploration de données prédictive, il y a deux types

Les méthodes de classement et de prédiction permettent de séparer des individus en plusieurs

On peut référencer quelques exemples de méthodes

Parmi les méthodes issues de l'intelligence artificielle, l'analyste

L'université Stanford a mis en concurrence à sa rentrée

La pré-segmentation se propose de classifier la population, puis de construire un modèle sur chacune

Par types de données

Par environnements techniques

Par domaines d'activités

On utilise la fouille de données spatiales pour explorer les

4. Tufféry 2010, p. 161

40. (en) « What are cross-validation and bootstrapping? » (http://www.faqs.org/faqs/ai-faq/neural-nets/

61. Samos, « Les Réseaux Bayésiens » (http://samos.univ-paris1.fr/archives/ftp/preprints/samos175.

82. (en) Jeffrey Seifert, « CRS report for congress » (http://biotech.law.lsu.edu/blaw/crs/RL31798.pdf)

Articles connexes Sur les autres projets Wikimedia :

Ce document provient de « https://fr.wikipedia.org/w/index.php?title=Exploration_de_données&oldid=168625841 ».

La dernière modification de cette page a été faite le 21 mars 2020 à 09:39.

Das könnte Ihnen auch gefallen