Beruflich Dokumente
Kultur Dokumente
Data Mining
Institut Hygine et scurit
Master 2 HSST
2
Rappels
Base de donnes est un ensemble structur et organis
permettant le stockage de grandes quantits d'informations afin d'en
faciliter l'exploitation
Chaque colonne du tableau a un nom qui est un attribut et une
valeur .
En data mining (et en statistique), les attributs des objets sont
appels variables .
Chaque ligne du tableau est un lment du tableau, cest--dire un
objet concret
En data Mining, un objet concret est appel individu .
En data Mining, la valeur dun attribut pour un individu est appel
donne .
En data Mining, lensemble des individus est appel population .
3
Rappels
Un sous-ensemble de valeurs pour un ou plusieurs attributs donns
peut tre appel : type , classe , catgorie , segment
ou encore modalit .
Par exemple, grand et petit sont deux types (ou classe, ou
catgorie, ou segment) de lattribut taille .
On parle de variable catgorielle par opposition aux
variables numriques .
Par exemple, si la variable (attribut) taille peut prendre deux
valeurs possibles : grand et petit , cest une variable
catgorielle. Si les valeurs de la variable taille sont donnes en
cm, cest une variable numrique.
4
Rappels
Abduction: diagnostic mdical, ...
o Toutes les voitures ont 4 roues
o La Peugeot 208 a 4 roues
==> La Peugeot 208 est une voiture
5
Rappels
Induction: Gnralisation dune observation ou dun raisonnement
tablis partir de cas singuliers.
o La clio a 4 roues,
o La Peugeot 308 a 4 roues,
o La BMW M3 a 4 roues,
o La Mercedes 190 a 4 roues
==> Toutes les voitures ont 4 roues
6
Introduction
Pourquoi la fouille de donnes ?
Lexplosion des donnes
Les donnes sont collectes et stockes rapidement
(GB/heures)
Submergs par les donnes, manque de
connaissance !
Limites de lapproche humaine & Techniques
traditionnelles ne sont pas adaptes
7
Fouille de donnes (Data Mining)
Ensemble de techniques d'exploration des donnes
permettant d'extraire d'une base de donnes des
connaissances sous la forme de modles de
description afin de :
8
Fouille de donnes (Data Mining)
9
Knowledge Discovery in Databases (KDD)
10
tapes dun processus de dcouverte de
connaissance
Connatre le domaine dapplication
Connaissances a priori, objectifs, etc.
Slectiondes donnes cibles
Data cleaning, pr-traitement
Rduction de donnes et transformation
Supprimer le bruit : donnes superflues, donnes manquantes, etc.
Effectuer une slection dattributs, rduire la dimension du problme,
etc.
Choix des fonctions du data Mining
classification, rgression, association, clustering.
11
Donnes, Informations, Connaissances
Dcision
Promouvoir le produit P dans la rgion R durant la priode N
Raliser un mailing sur le produit P aux familles de profil F
Information (requtes)
X habite la rgion R
Y a A ans
Z dpense son argent dans la ville V de la rgion R
Donnes
Consommateurs
Magasins
Ventes
Dmographie
Gographie 12
Types datawarehouse
13
Les techniques du data mining
14
Les techniques descriptives (1)
Rappel Les techniques descriptives :
visent mettre en vidence des informations
prsentes mais caches par le volume des donnes.
il ny a pas de variable cible prdire.
Dcrire, rsumer, synthtiser, rduire.
15
Les techniques descriptives (2)
On distingue les techniques suivantes:
La description
La segmentation (clustering)
lassociation
16
Les techniques descriptives (3)
1. La description
Principe :
La description consiste mettre au jour
Pour une variable donne : la rpartition de ses valeurs (tri, histogramme,
moyenne,)
Intrt :
Favoriser la connaissance et la comprhension des donnes.
Mthode :
Mthodes graphiques pour la clart : analyse exploratoire des donnes.
Exemples :
Rpartition des votes par ge (lien entre les variables vote et ge ).
17
Les techniques descriptives (4)
2. La segmentation (Clustering)
Principe :
Clustering consiste crer des groupes de donnes similaires entre elles
et diffrentes des donnes dune autre groupe (autrement dit, lintersection
des groupes entre elles doit toujours tre vide).
Intrt :
Fixer des segments qui serviront densemble de dpart pour des
analyses approfondies.
Rduire les dimensions (nombre dattributs), quand il y en a trop au
dpart.
Mthodes :
segmentation hirarchique, segmentation par K moyennes, Rseaux de
Kohonen, Rgles dassociation.
Exemples :
classer un comportement financier en catgorie normale et suspecte. 18
Les techniques descriptives (5)
3. lassociation
Principe :
Lassociation consiste trouver quelles valeurs des variables vont ensemble. Par
exemple,telle valeur dune variable va avec telle valeur dune autre variable.
Les rgles dassociation sont de la forme : si antcdent, alors consquence.
Lassociation ne fixe pas de variable cible. Toute les variables peuvent la fois tre
prdicteurs et variable cible.
Intrt :
Mieux connatre les comportements.
Mthodes :
Algorithme a priori, Algorithme du GRI (induction de rgles gnralise).
Exemples :
Analyse du panier de la mnagre (si jachte des fraises, alors jachte des cerises).
19
Les techniques du data mining
20
Les techniques prdictives(1)
Rappel les techniques prdictives:
Extrapoler de nouvelles informations partir des
informations prsentes.
Les techniques prdictives prsentent une variable cible
prdire.
Lobjectif est de prvoir la variable cible mais aussi de
classer partir de la variable cible.
Elles sont plus dlicates mettre en uvre. Elles
demandent plus dhistorique que les techniques descriptives.
Elles produisent des modles de prdiction.
21
Les techniques prdictives(2)
La prdiction consiste estimer
la valeur dune variable (dite expliquer , cible , rponse )
en fonction de la valeur dun certain nombre dautres variables (dites explicatives
, de contrle ).
22
Les techniques prdictives (3)
1. Lestimation
Principe :
Lestimation consiste dfinir le lien entre un ensemble de prdicteurs et une variable cible.
Ce lien est dfini partir de donnes compltes ,
la diffrence de la classification qui travaille sur une variable cible catgorielle, lestimation
travaille sur une variable cible numrique.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Rgression linaire simple, corrlation, rgression multiple, intervalle de confiance.
Rseaux de neurones
Exemples :
Estimer la pression sanguine partir de lge, le poids et le niveau de sodium dans le sang.
Estimer les rsultats dans les tudes suprieures en fonction de critres sociaux.
23
Les techniques prdictives(4)
2. La classification
Principe :
La classification est une estimation qui travaille sur une variable cible catgorielle.
On parle de classification car chaque valeur possible pour la variable cible va dfinir une classe (ou
type, ou catgorie) de donnes.
La classification peut tre vue comme une segmentation supervise.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Graphiques et nuages de points, Mthode des k plus proches voisins, Arbres de dcision, Rseau de
neurones.
Exemples :
classification par tranche de revenus : lev, moyen et faible (3 classes).
Dterminer si un mode de remboursement prsente un bon ou un mauvais niveau de risque crdit
(deux classes).
24