Sie sind auf Seite 1von 24

Universit Batna 2

Data Mining
Institut Hygine et scurit
Master 2 HSST

Anne Universitaire 2016-2017


Plan
Introduction
Data Mining
Les techniques du data mining
Logiciel Weka

2
Rappels
Base de donnes est un ensemble structur et organis
permettant le stockage de grandes quantits d'informations afin d'en
faciliter l'exploitation
Chaque colonne du tableau a un nom qui est un attribut et une
valeur .
En data mining (et en statistique), les attributs des objets sont
appels variables .
Chaque ligne du tableau est un lment du tableau, cest--dire un
objet concret
En data Mining, un objet concret est appel individu .
En data Mining, la valeur dun attribut pour un individu est appel
donne .
En data Mining, lensemble des individus est appel population .

3
Rappels
Un sous-ensemble de valeurs pour un ou plusieurs attributs donns
peut tre appel : type , classe , catgorie , segment
ou encore modalit .
Par exemple, grand et petit sont deux types (ou classe, ou
catgorie, ou segment) de lattribut taille .
On parle de variable catgorielle par opposition aux
variables numriques .
Par exemple, si la variable (attribut) taille peut prendre deux
valeurs possibles : grand et petit , cest une variable
catgorielle. Si les valeurs de la variable taille sont donnes en
cm, cest une variable numrique.

4
Rappels
Abduction: diagnostic mdical, ...
o Toutes les voitures ont 4 roues
o La Peugeot 208 a 4 roues
==> La Peugeot 208 est une voiture

Dduction: Raisonnement qui conclut partir de prmisses et


dhypothses la vrit dune proposition en usant des rgles
dinfrence
o Toutes les voitures ont 4 roues
o La Peugeot 208 est une voiture

==> La Peugeot 208 a 4 roues

5
Rappels
Induction: Gnralisation dune observation ou dun raisonnement
tablis partir de cas singuliers.

Utilise en Data mining (tirer une conclusion partir dune srie de


faits, pas sre 100%)

o La clio a 4 roues,
o La Peugeot 308 a 4 roues,
o La BMW M3 a 4 roues,
o La Mercedes 190 a 4 roues
==> Toutes les voitures ont 4 roues

6
Introduction
Pourquoi la fouille de donnes ?
Lexplosion des donnes
Les donnes sont collectes et stockes rapidement
(GB/heures)
Submergs par les donnes, manque de
connaissance !
Limites de lapproche humaine & Techniques
traditionnelles ne sont pas adaptes

7
Fouille de donnes (Data Mining)
Ensemble de techniques d'exploration des donnes
permettant d'extraire d'une base de donnes des
connaissances sous la forme de modles de
description afin de :

dcrire le comportement actuel des donnes et/ou


prdire le comportement futur des donnes

8
Fouille de donnes (Data Mining)

Le data Mining est un processus qui fait


intervenir des mthodes et des outils issus de
diffrents domaines de linformatique, de la
statistique ou de lintelligence artificielle en vue
de dcouvrir des connaissances utiles.

9
Knowledge Discovery in Databases (KDD)

10
tapes dun processus de dcouverte de
connaissance
Connatre le domaine dapplication
Connaissances a priori, objectifs, etc.
Slectiondes donnes cibles
Data cleaning, pr-traitement
Rduction de donnes et transformation
Supprimer le bruit : donnes superflues, donnes manquantes, etc.
Effectuer une slection dattributs, rduire la dimension du problme,
etc.
Choix des fonctions du data Mining
classification, rgression, association, clustering.

11
Donnes, Informations, Connaissances
Dcision
Promouvoir le produit P dans la rgion R durant la priode N
Raliser un mailing sur le produit P aux familles de profil F

Connaissance (data mining)


Une quantit Q du produit P est vendue en rgion R
Les familles de profil F utilisent M% de P durant la priode N

Information (requtes)
X habite la rgion R
Y a A ans
Z dpense son argent dans la ville V de la rgion R

Donnes
Consommateurs
Magasins
Ventes
Dmographie
Gographie 12
Types datawarehouse

Valeurs des champs des enregistrements des tables


de lentropot (base de donnes)
Donnes discrtes : donnes binaires (sexe, ), donnes
numratives (couleur, ), numratives ordonnes
(rponses 1:trs satisfait, 2:satisfait,).
Donnes continues : donnes entires ou relles (ge,
salaire, )
Dates
Donnes textuelles
Pages /liens web, Multimdia,

13
Les techniques du data mining

Les techniques dscriptives (non supervises)

14
Les techniques descriptives (1)
Rappel Les techniques descriptives :
visent mettre en vidence des informations
prsentes mais caches par le volume des donnes.
il ny a pas de variable cible prdire.
Dcrire, rsumer, synthtiser, rduire.

15
Les techniques descriptives (2)
On distingue les techniques suivantes:
La description
La segmentation (clustering)
lassociation

16
Les techniques descriptives (3)
1. La description
Principe :
La description consiste mettre au jour
Pour une variable donne : la rpartition de ses valeurs (tri, histogramme,
moyenne,)
Intrt :
Favoriser la connaissance et la comprhension des donnes.
Mthode :
Mthodes graphiques pour la clart : analyse exploratoire des donnes.
Exemples :
Rpartition des votes par ge (lien entre les variables vote et ge ).

17
Les techniques descriptives (4)
2. La segmentation (Clustering)
Principe :
Clustering consiste crer des groupes de donnes similaires entre elles
et diffrentes des donnes dune autre groupe (autrement dit, lintersection
des groupes entre elles doit toujours tre vide).
Intrt :
Fixer des segments qui serviront densemble de dpart pour des
analyses approfondies.
Rduire les dimensions (nombre dattributs), quand il y en a trop au
dpart.
Mthodes :
segmentation hirarchique, segmentation par K moyennes, Rseaux de
Kohonen, Rgles dassociation.
Exemples :
classer un comportement financier en catgorie normale et suspecte. 18
Les techniques descriptives (5)
3. lassociation
Principe :
Lassociation consiste trouver quelles valeurs des variables vont ensemble. Par
exemple,telle valeur dune variable va avec telle valeur dune autre variable.
Les rgles dassociation sont de la forme : si antcdent, alors consquence.
Lassociation ne fixe pas de variable cible. Toute les variables peuvent la fois tre
prdicteurs et variable cible.
Intrt :
Mieux connatre les comportements.
Mthodes :
Algorithme a priori, Algorithme du GRI (induction de rgles gnralise).
Exemples :
Analyse du panier de la mnagre (si jachte des fraises, alors jachte des cerises).

19
Les techniques du data mining

Les techniques prdictives (supervises)

20
Les techniques prdictives(1)
Rappel les techniques prdictives:
Extrapoler de nouvelles informations partir des
informations prsentes.
Les techniques prdictives prsentent une variable cible
prdire.
Lobjectif est de prvoir la variable cible mais aussi de
classer partir de la variable cible.
Elles sont plus dlicates mettre en uvre. Elles
demandent plus dhistorique que les techniques descriptives.
Elles produisent des modles de prdiction.

21
Les techniques prdictives(2)
La prdiction consiste estimer
la valeur dune variable (dite expliquer , cible , rponse )
en fonction de la valeur dun certain nombre dautres variables (dites explicatives
, de contrle ).

Cette variable cible est par exemple :


le poids (en fonction de la taille)
la taille des ailes dune espce doiseau (en fonction de lge)
le prix dun appartement (en fonction de sa superficie, de ltage et du quartier)

22
Les techniques prdictives (3)
1. Lestimation
Principe :
Lestimation consiste dfinir le lien entre un ensemble de prdicteurs et une variable cible.
Ce lien est dfini partir de donnes compltes ,
la diffrence de la classification qui travaille sur une variable cible catgorielle, lestimation
travaille sur une variable cible numrique.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Rgression linaire simple, corrlation, rgression multiple, intervalle de confiance.
Rseaux de neurones
Exemples :
Estimer la pression sanguine partir de lge, le poids et le niveau de sodium dans le sang.
Estimer les rsultats dans les tudes suprieures en fonction de critres sociaux.

23
Les techniques prdictives(4)
2. La classification
Principe :
La classification est une estimation qui travaille sur une variable cible catgorielle.
On parle de classification car chaque valeur possible pour la variable cible va dfinir une classe (ou
type, ou catgorie) de donnes.
La classification peut tre vue comme une segmentation supervise.
Intrt :
Permettre lestimation de valeurs inconnues.
Mthodes :
Graphiques et nuages de points, Mthode des k plus proches voisins, Arbres de dcision, Rseau de
neurones.
Exemples :
classification par tranche de revenus : lev, moyen et faible (3 classes).
Dterminer si un mode de remboursement prsente un bon ou un mauvais niveau de risque crdit
(deux classes).

24

Das könnte Ihnen auch gefallen